avatar-avatar
Boo.Ideas
發佈於Learner
更新 發佈閱讀 5 分鐘

X 上看到這篇,雖然沒更多想法,先記錄再說。


# 聯想

過去的 Paradigm Shift 就像漣漪會擴散出來,一波波帶來新的浪潮,科技、生活水準連帶提升,最近看 The box 就是很好的回顧,貨櫃不僅是一個裝更多貨的箱子,更推動了國家、經濟、商業模式、資源分配,而這些後浪帶來的影響遠超乎眾人的預期,降低了運輸費用不過就是起了個頭而已。


# 內容

1. 歷史對比:為何 CPU 時代的記憶體(DDR)升級緩慢?

KPI 差異:CPU 時代的最高指標是跑分(Performance)。記憶體僅是輔助角色,CPU 可透過快取(Cache)、超純量架構(Superscalar)等設計來隱藏記憶體延遲。

邊際效用極低:根據業界經驗,即使 DDR 速度提高一倍,CPU 的效能提升通常不到 20% 這個量級。

結果:記憶體技術推進緩慢(例如 DDR3 到 DDR5 經歷 15 年),需求主要隨電腦與手機數量增長,具有強烈的週期性商品(Commodity)屬性,而非效能驅動。


2. 典範轉移:GenAI 時代的新 KPI

算力不再是唯一標準:GPU 推理時代的最高 KPI 不再只是算力(TOPS/FLOPS),而是 Token 的單位成本Token 的吞吐速度

Nvidia 的商業邏輯:打造輸出 Token 成本最低的系統(如 NVL72,結合 72 個 GPU 與 36 個 CPU),目標是在提高吞吐量(Throughput)與速度的 Pareto frontier 曲線持續往右上推。

3. Token 經濟學的第一性原理

提升 Token 吞吐量依賴兩個核心參數,這兩者均受限於 HBM 的物理特性:

核心公式

Token Throughput = (Batch Size) X (Per User Token Speed)


參數一:批處理量 (Batch Size) —— 瓶頸在於 HBM 容量 (Size)

每個請求都會產生 KV Cache,這部分數據必須存在 HBM 裡以供高頻高速讀取。

隨著 Batch Size 增長,KV Cache 會線性增加,因此 HBM 容量必須隨之線性成長


參數二:每個用戶的 Token 平均速度 —— 瓶頸在於 HBM 頻寬 (Bandwidth)

在大模型 Decode 階段,每生成一個 Token 都需要將權重與 KV Cache 讀取多次。

HBM 頻寬越高,生成 Token 的速度就越快,兩者基本呈線性對應。


-- 推導結論

Token 吞吐量天花板 = HBM 容量 X HBM 頻寬

若要維持 Token 吞吐量每代兩倍的增長,單卡 GPU 上的「HBM 容量 X 頻寬」積就必須跟著翻倍。歷史數據顯示,這兩者的增長曲線在對數軸上高度一致。


4. 比喻:機場接駁車模型

接駁車車廂大小 = HBM 容量 (Size):決定一次能裝下多少名旅客(同時處理的請求數)。車廂太小就得分多趟運送,導致系統整體吞吐量上不去。

接駁車車門寬度 = HBM 頻寬 (Bandwidth):決定旅客上下車的速度(生成 Token 的速度)。門越寬,旅客進出效率越高。


5. 總結

軟體優化無法取代硬體需求:軟體優化與硬體效能進步是獨立維度。若 HBM 發展停滯,GPU 的效能天花板將被鎖死,Nvidia 必須推動記憶體廠技術升級以維持產品競爭力。

無關宏觀週期的宿命:HBM 的指數級需求是由推理範式的第一性原理所驅動。只要對 Token 吞吐量的追求不停止,對 HBM 容量與頻寬的翻倍需求就不會消失。

供給側的挑戰:當需求被物理鎖定為指數增長時,SK 海力士、三星、美光等供給側玩家是否能避免重蹈過去週期性過剩的覆轍,將是未來的觀察重點。


https://x.com/fi56622380/status/2049347677092278749?s=20

avatar-img
加入討論
avatar-avatar
Boo.Ideas
發佈於Learner
更新 發佈閱讀 5 分鐘

X 上看到這篇,雖然沒更多想法,先記錄再說。


# 聯想

過去的 Paradigm Shift 就像漣漪會擴散出來,一波波帶來新的浪潮,科技、生活水準連帶提升,最近看 The box 就是很好的回顧,貨櫃不僅是一個裝更多貨的箱子,更推動了國家、經濟、商業模式、資源分配,而這些後浪帶來的影響遠超乎眾人的預期,降低了運輸費用不過就是起了個頭而已。


# 內容

1. 歷史對比:為何 CPU 時代的記憶體(DDR)升級緩慢?

KPI 差異:CPU 時代的最高指標是跑分(Performance)。記憶體僅是輔助角色,CPU 可透過快取(Cache)、超純量架構(Superscalar)等設計來隱藏記憶體延遲。

邊際效用極低:根據業界經驗,即使 DDR 速度提高一倍,CPU 的效能提升通常不到 20% 這個量級。

結果:記憶體技術推進緩慢(例如 DDR3 到 DDR5 經歷 15 年),需求主要隨電腦與手機數量增長,具有強烈的週期性商品(Commodity)屬性,而非效能驅動。


2. 典範轉移:GenAI 時代的新 KPI

算力不再是唯一標準:GPU 推理時代的最高 KPI 不再只是算力(TOPS/FLOPS),而是 Token 的單位成本Token 的吞吐速度

Nvidia 的商業邏輯:打造輸出 Token 成本最低的系統(如 NVL72,結合 72 個 GPU 與 36 個 CPU),目標是在提高吞吐量(Throughput)與速度的 Pareto frontier 曲線持續往右上推。

3. Token 經濟學的第一性原理

提升 Token 吞吐量依賴兩個核心參數,這兩者均受限於 HBM 的物理特性:

核心公式

Token Throughput = (Batch Size) X (Per User Token Speed)


參數一:批處理量 (Batch Size) —— 瓶頸在於 HBM 容量 (Size)

每個請求都會產生 KV Cache,這部分數據必須存在 HBM 裡以供高頻高速讀取。

隨著 Batch Size 增長,KV Cache 會線性增加,因此 HBM 容量必須隨之線性成長


參數二:每個用戶的 Token 平均速度 —— 瓶頸在於 HBM 頻寬 (Bandwidth)

在大模型 Decode 階段,每生成一個 Token 都需要將權重與 KV Cache 讀取多次。

HBM 頻寬越高,生成 Token 的速度就越快,兩者基本呈線性對應。


-- 推導結論

Token 吞吐量天花板 = HBM 容量 X HBM 頻寬

若要維持 Token 吞吐量每代兩倍的增長,單卡 GPU 上的「HBM 容量 X 頻寬」積就必須跟著翻倍。歷史數據顯示,這兩者的增長曲線在對數軸上高度一致。


4. 比喻:機場接駁車模型

接駁車車廂大小 = HBM 容量 (Size):決定一次能裝下多少名旅客(同時處理的請求數)。車廂太小就得分多趟運送,導致系統整體吞吐量上不去。

接駁車車門寬度 = HBM 頻寬 (Bandwidth):決定旅客上下車的速度(生成 Token 的速度)。門越寬,旅客進出效率越高。


5. 總結

軟體優化無法取代硬體需求:軟體優化與硬體效能進步是獨立維度。若 HBM 發展停滯,GPU 的效能天花板將被鎖死,Nvidia 必須推動記憶體廠技術升級以維持產品競爭力。

無關宏觀週期的宿命:HBM 的指數級需求是由推理範式的第一性原理所驅動。只要對 Token 吞吐量的追求不停止,對 HBM 容量與頻寬的翻倍需求就不會消失。

供給側的挑戰:當需求被物理鎖定為指數增長時,SK 海力士、三星、美光等供給側玩家是否能避免重蹈過去週期性過剩的覆轍,將是未來的觀察重點。


https://x.com/fi56622380/status/2049347677092278749?s=20

avatar-img
加入討論