TPU(Tensor Processing Unit)作為 Google 專為機器學習設計的客製化晶片,每一代的升級都著重於提高效能、提升能效比,以及擴大系統互連規模。
TPU v2、v3、v4 三代之間的主要差異,可以歸納為 散熱技術、單晶片效能、互連架構 和 Pod 規模。🚀 核心升級比較表
特性TPU v2 (2017)TPU v3 (2018)TPU v4 (2021)單晶片性能45 TFLOPS (bfloat16)123 TFLOPS (bfloat16)275 TFLOPS (bfloat16/int8)散熱方式氣冷 (Air-Cooled)液冷/水冷 (Liquid-Cooled)液冷 (更精簡、更節能)HBM 容量16 GiB32 GiB32 GiBPod 規模最大 256 晶片最大 1024 晶片最大 4096 晶片互連拓撲2D 環面 (2D Torus)2D 環面 (2D Torus)3D 環面 (3D Torus) / 光學互連 (OCS)能效比基準約 1.6 倍於 v2約 2.7 倍於 v3
🧠 三代 TPU 的重要差異解析
1. TPU v2:從推理到訓練的過渡
TPU v2 是 Google 首次將 TPU 從原本的**僅用於推理(Inference)擴展到同時支援訓練(Training)**的版本。
- 關鍵創新: 引入 bfloat16 浮點格式,使其能夠處理訓練工作負載。
- 擴展性: 首次使用 **核間互連(Inter-Core Interconnect, ICI)**技術,讓多達 256 個 v2 晶片組成一個 TPU Pod,實現大規模並行訓練。
2. TPU v3:性能與散熱的大躍進
TPU v3 是在 v2 架構基礎上的顯著強化,重點在於提高單晶片的計算能力和擴大 Pod 規模。
- 性能提升: 晶片時脈頻率加快,矩陣乘法單元 (MXU) 數量從 2 個增加到 4 個,使單晶片峰值性能達到 123 TFLOPS,是 v2 的約 2.7 倍。
- 散熱變革: 由於功耗和性能大幅提升,v3 首次採用了水冷系統來管理晶片溫度,這為更高密度的運算能力提供了可能。
- Pod 規模: Pod 規模擴大到最大 1024 個晶片。
3. TPU v4:網路架構的突破與能效之王
TPU v4 是 Google 在系統層面實現最大突破的一代,側重於 系統級的效率、互連的靈活性 和 能效比。
- 單晶片性能與能效: 晶片性能達到 275 TFLOPS,比 v3 提升約 2.1 倍。更重要的是,它的每瓦效能 (Performance/Watt) 比 v3 提高了約 2.7 倍,大幅降低了大型 AI 訓練的能源消耗。
- 網路互連 (最重要):3D 環面 (3D Torus): 從 v2/v3 的 2D 拓撲升級到 3D 網格/環面 互連,這使得數據傳輸路徑更短、延遲更低,雙分頻寬 (Bisection Bandwidth) 大幅提高,尤其對大型語言模型 (LLM) 等需要大量全域通訊的工作負載至關重要。光學電路交換機 (OCS): v4 是第一個大規模部署 Google 自研 OCS 的平台,它允許動態配置互連拓撲,提高了系統的靈活性、可用性和擴展性。
- Pod 規模: Pod 規模進一步擴大到最大 4096 個晶片,能夠實現 Exascale 等級的 ML 效能。
- 稀疏核心 (SparseCores): 首次在 TPU 晶片中加入專門加速處理嵌入 (Embeddings) 的 SparseCore,對推薦系統等模型提供額外加速。
💡 總結:進化趨勢
TPU v2 到 v4 的進化趨勢非常明確:
- 從平面到立體: 互連從 2D 環面 (v2/v3) 升級到 3D 環面,這表明 Google 越來越注重超大規模(數千晶片)訓練的通訊效率。
- 從氣冷到液冷: 散熱技術的升級(v2 氣冷 -> v3/v4 液冷)是實現更高晶片密度和功耗的必要條件。
- 效率為王: 每一代都在追求更高的每瓦效能,TPU v4 在這方面取得了巨大成功,使 AI 訓練更具成本效益和環境效益。


















