Boo.Ideas

2026/05/01 更新2026/05/01 發佈閱讀 5 分鐘

005 Token 經濟學的 Paradigm Shift

X 上看到這篇，雖然沒更多想法，先記錄再說。

# 聯想

過去的 Paradigm Shift 就像漣漪會擴散出來，一波波帶來新的浪潮，科技、生活水準連帶提升，最近看 The box 就是很好的回顧，貨櫃不僅是一個裝更多貨的箱子，更推動了國家、經濟、商業模式、資源分配，而這些後浪帶來的影響遠超乎眾人的預期，降低了運輸費用不過就是起了個頭而已。

# 內容

1. 歷史對比：為何 CPU 時代的記憶體（DDR）升級緩慢？

KPI 差異：CPU 時代的最高指標是跑分（Performance）。記憶體僅是輔助角色，CPU 可透過快取（Cache）、超純量架構（Superscalar）等設計來隱藏記憶體延遲。

邊際效用極低：根據業界經驗，即使 DDR 速度提高一倍，CPU 的效能提升通常不到 20% 這個量級。

結果：記憶體技術推進緩慢（例如 DDR3 到 DDR5 經歷 15 年），需求主要隨電腦與手機數量增長，具有強烈的週期性商品（Commodity）屬性，而非效能驅動。

2. 典範轉移：GenAI 時代的新 KPI

算力不再是唯一標準：GPU 推理時代的最高 KPI 不再只是算力（TOPS/FLOPS），而是 Token 的單位成本與 Token 的吞吐速度。

Nvidia 的商業邏輯：打造輸出 Token 成本最低的系統（如 NVL72，結合 72 個 GPU 與 36 個 CPU），目標是在提高吞吐量（Throughput）與速度的 Pareto frontier 曲線持續往右上推。

3. Token 經濟學的第一性原理

提升 Token 吞吐量依賴兩個核心參數，這兩者均受限於 HBM 的物理特性：

核心公式

Token Throughput = (Batch Size) X (Per User Token Speed)

參數一：批處理量 (Batch Size) —— 瓶頸在於 HBM 容量 (Size)

每個請求都會產生 KV Cache，這部分數據必須存在 HBM 裡以供高頻高速讀取。

隨著 Batch Size 增長，KV Cache 會線性增加，因此 HBM 容量必須隨之線性成長。

參數二：每個用戶的 Token 平均速度 —— 瓶頸在於 HBM 頻寬 (Bandwidth)

在大模型 Decode 階段，每生成一個 Token 都需要將權重與 KV Cache 讀取多次。

HBM 頻寬越高，生成 Token 的速度就越快，兩者基本呈線性對應。

-- 推導結論

Token 吞吐量天花板 = HBM 容量 X HBM 頻寬

若要維持 Token 吞吐量每代兩倍的增長，單卡 GPU 上的「HBM 容量 X 頻寬」積就必須跟著翻倍。歷史數據顯示，這兩者的增長曲線在對數軸上高度一致。

4. 比喻：機場接駁車模型

接駁車車廂大小 = HBM 容量 (Size)：決定一次能裝下多少名旅客（同時處理的請求數）。車廂太小就得分多趟運送，導致系統整體吞吐量上不去。

接駁車車門寬度 = HBM 頻寬 (Bandwidth)：決定旅客上下車的速度（生成 Token 的速度）。門越寬，旅客進出效率越高。

5. 總結

軟體優化無法取代硬體需求：軟體優化與硬體效能進步是獨立維度。若 HBM 發展停滯，GPU 的效能天花板將被鎖死，Nvidia 必須推動記憶體廠技術升級以維持產品競爭力。

無關宏觀週期的宿命：HBM 的指數級需求是由推理範式的第一性原理所驅動。只要對 Token 吞吐量的追求不停止，對 HBM 容量與頻寬的翻倍需求就不會消失。

供給側的挑戰：當需求被物理鎖定為指數增長時，SK 海力士、三星、美光等供給側玩家是否能避免重蹈過去週期性過剩的覆轍，將是未來的觀察重點。

https://x.com/fi56622380/status/2049347677092278749?s=20

Boo.ideasLearner

加入討論