X 上看到這篇,雖然沒更多想法,先記錄再說。
# 聯想
過去的 Paradigm Shift 就像漣漪會擴散出來,一波波帶來新的浪潮,科技、生活水準連帶提升,最近看 The box 就是很好的回顧,貨櫃不僅是一個裝更多貨的箱子,更推動了國家、經濟、商業模式、資源分配,而這些後浪帶來的影響遠超乎眾人的預期,降低了運輸費用不過就是起了個頭而已。
# 內容
1. 歷史對比:為何 CPU 時代的記憶體(DDR)升級緩慢?
KPI 差異:CPU 時代的最高指標是跑分(Performance)。記憶體僅是輔助角色,CPU 可透過快取(Cache)、超純量架構(Superscalar)等設計來隱藏記憶體延遲。
邊際效用極低:根據業界經驗,即使 DDR 速度提高一倍,CPU 的效能提升通常不到 20% 這個量級。
結果:記憶體技術推進緩慢(例如 DDR3 到 DDR5 經歷 15 年),需求主要隨電腦與手機數量增長,具有強烈的週期性商品(Commodity)屬性,而非效能驅動。
2. 典範轉移:GenAI 時代的新 KPI
算力不再是唯一標準:GPU 推理時代的最高 KPI 不再只是算力(TOPS/FLOPS),而是 Token 的單位成本與 Token 的吞吐速度。
Nvidia 的商業邏輯:打造輸出 Token 成本最低的系統(如 NVL72,結合 72 個 GPU 與 36 個 CPU),目標是在提高吞吐量(Throughput)與速度的 Pareto frontier 曲線持續往右上推。
3. Token 經濟學的第一性原理
提升 Token 吞吐量依賴兩個核心參數,這兩者均受限於 HBM 的物理特性:
核心公式
Token Throughput = (Batch Size) X (Per User Token Speed)
參數一:批處理量 (Batch Size) —— 瓶頸在於 HBM 容量 (Size)
每個請求都會產生 KV Cache,這部分數據必須存在 HBM 裡以供高頻高速讀取。
隨著 Batch Size 增長,KV Cache 會線性增加,因此 HBM 容量必須隨之線性成長。
參數二:每個用戶的 Token 平均速度 —— 瓶頸在於 HBM 頻寬 (Bandwidth)
在大模型 Decode 階段,每生成一個 Token 都需要將權重與 KV Cache 讀取多次。
HBM 頻寬越高,生成 Token 的速度就越快,兩者基本呈線性對應。
-- 推導結論
Token 吞吐量天花板 = HBM 容量 X HBM 頻寬
若要維持 Token 吞吐量每代兩倍的增長,單卡 GPU 上的「HBM 容量 X 頻寬」積就必須跟著翻倍。歷史數據顯示,這兩者的增長曲線在對數軸上高度一致。
4. 比喻:機場接駁車模型
接駁車車廂大小 = HBM 容量 (Size):決定一次能裝下多少名旅客(同時處理的請求數)。車廂太小就得分多趟運送,導致系統整體吞吐量上不去。
接駁車車門寬度 = HBM 頻寬 (Bandwidth):決定旅客上下車的速度(生成 Token 的速度)。門越寬,旅客進出效率越高。
5. 總結
軟體優化無法取代硬體需求:軟體優化與硬體效能進步是獨立維度。若 HBM 發展停滯,GPU 的效能天花板將被鎖死,Nvidia 必須推動記憶體廠技術升級以維持產品競爭力。
無關宏觀週期的宿命:HBM 的指數級需求是由推理範式的第一性原理所驅動。只要對 Token 吞吐量的追求不停止,對 HBM 容量與頻寬的翻倍需求就不會消失。
供給側的挑戰:當需求被物理鎖定為指數增長時,SK 海力士、三星、美光等供給側玩家是否能避免重蹈過去週期性過剩的覆轍,將是未來的觀察重點。
X 上看到這篇,雖然沒更多想法,先記錄再說。
# 聯想
過去的 Paradigm Shift 就像漣漪會擴散出來,一波波帶來新的浪潮,科技、生活水準連帶提升,最近看 The box 就是很好的回顧,貨櫃不僅是一個裝更多貨的箱子,更推動了國家、經濟、商業模式、資源分配,而這些後浪帶來的影響遠超乎眾人的預期,降低了運輸費用不過就是起了個頭而已。
# 內容
1. 歷史對比:為何 CPU 時代的記憶體(DDR)升級緩慢?
KPI 差異:CPU 時代的最高指標是跑分(Performance)。記憶體僅是輔助角色,CPU 可透過快取(Cache)、超純量架構(Superscalar)等設計來隱藏記憶體延遲。
邊際效用極低:根據業界經驗,即使 DDR 速度提高一倍,CPU 的效能提升通常不到 20% 這個量級。
結果:記憶體技術推進緩慢(例如 DDR3 到 DDR5 經歷 15 年),需求主要隨電腦與手機數量增長,具有強烈的週期性商品(Commodity)屬性,而非效能驅動。
2. 典範轉移:GenAI 時代的新 KPI
算力不再是唯一標準:GPU 推理時代的最高 KPI 不再只是算力(TOPS/FLOPS),而是 Token 的單位成本與 Token 的吞吐速度。
Nvidia 的商業邏輯:打造輸出 Token 成本最低的系統(如 NVL72,結合 72 個 GPU 與 36 個 CPU),目標是在提高吞吐量(Throughput)與速度的 Pareto frontier 曲線持續往右上推。
3. Token 經濟學的第一性原理
提升 Token 吞吐量依賴兩個核心參數,這兩者均受限於 HBM 的物理特性:
核心公式
Token Throughput = (Batch Size) X (Per User Token Speed)
參數一:批處理量 (Batch Size) —— 瓶頸在於 HBM 容量 (Size)
每個請求都會產生 KV Cache,這部分數據必須存在 HBM 裡以供高頻高速讀取。
隨著 Batch Size 增長,KV Cache 會線性增加,因此 HBM 容量必須隨之線性成長。
參數二:每個用戶的 Token 平均速度 —— 瓶頸在於 HBM 頻寬 (Bandwidth)
在大模型 Decode 階段,每生成一個 Token 都需要將權重與 KV Cache 讀取多次。
HBM 頻寬越高,生成 Token 的速度就越快,兩者基本呈線性對應。
-- 推導結論
Token 吞吐量天花板 = HBM 容量 X HBM 頻寬
若要維持 Token 吞吐量每代兩倍的增長,單卡 GPU 上的「HBM 容量 X 頻寬」積就必須跟著翻倍。歷史數據顯示,這兩者的增長曲線在對數軸上高度一致。
4. 比喻:機場接駁車模型
接駁車車廂大小 = HBM 容量 (Size):決定一次能裝下多少名旅客(同時處理的請求數)。車廂太小就得分多趟運送,導致系統整體吞吐量上不去。
接駁車車門寬度 = HBM 頻寬 (Bandwidth):決定旅客上下車的速度(生成 Token 的速度)。門越寬,旅客進出效率越高。
5. 總結
軟體優化無法取代硬體需求:軟體優化與硬體效能進步是獨立維度。若 HBM 發展停滯,GPU 的效能天花板將被鎖死,Nvidia 必須推動記憶體廠技術升級以維持產品競爭力。
無關宏觀週期的宿命:HBM 的指數級需求是由推理範式的第一性原理所驅動。只要對 Token 吞吐量的追求不停止,對 HBM 容量與頻寬的翻倍需求就不會消失。
供給側的挑戰:當需求被物理鎖定為指數增長時,SK 海力士、三星、美光等供給側玩家是否能避免重蹈過去週期性過剩的覆轍,將是未來的觀察重點。