TPU v5 系列最大的創新在於產品線的分化,將晶片明確劃分為兩個版本,以滿足訓練與推論(Inference)市場中對極致效能和成本效益的不同需求。
TPU v5 系列的核心是 v5e 和 v5p,兩者基於相似的架構,但在性能、互連和 HBM 記憶體等方面有顯著差異。1. 產品線分化:v5e (經濟) 與 v5p (效能) 🎯
特性Cloud TPU v5e (經濟/推理優化)Cloud TPU v5p (極致效能/訓練優化)設計目標成本效益最高、中大型訓練、推論 (Inference)極致效能、大規模基礎模型訓練 (LLMs)單晶片性能197 TFLOPS (bfloat16)~460 TFLOPS (bfloat16)HBM 容量16 GiB32 GiBPod 規模最大 256 晶片 (2D 環面)最大 8,960 晶片 (3D 環面)互連頻寬1600 Gbps/晶片4800 Gbps/晶片 (極高)定價價格比 v4 低於一半,性價比極高。價格較高,但訓練速度比 v4 快 2.8 倍。
2. v5e (v5-Economy):平民化 AI 訓練與推論
TPU v5e 是 Google 首次專門針對成本敏感型和推論工作負載進行設計的版本。
- 推論優化: v5e 支援高效能的 INT8 運算,這對 LLM(大型語言模型)的推論和服務至關重要。它在推論上的每美元性能比 v4 提升高達 2.5 倍。
- 靈活的配置: v5e 支援從 1 個晶片到 256 個晶片的各種配置,靈活性更高,讓使用者能精確地匹配其工作負載規模,降低入門門檻。
- 價格優勢: 旨在讓更多企業和團隊能夠以更低的成本運行中大型 AI 模型。
3. v5p (v5-Performance):極致規模與速度
TPU v5p 是針對要求最高性能的超大規模訓練所設計,接替 v4 成為 Google 的訓練旗艦晶片。
- 性能躍升: 相比 TPU v4,v5p 的單晶片 FLOPS (浮點運算) 提升超過 2 倍,並擁有 3 倍的 HBM 記憶體頻寬。在 LLM 訓練上,速度提升約 2.8 倍。
- 最大規模互連: v5p 將 TPU Pod 的最大規模從 v4 的 4096 晶片擴大到 8,960 晶片,並維持 v4 的 3D 環面拓撲,但將每個晶片的互連頻寬大幅提高至 4,800 Gbps。這保證了在近萬個晶片組成的集群中,數據傳輸和同步仍能保持極高效率。
- 第二代 SparseCores: 繼承並升級了 v4 中引入的 SparseCore,對依賴大量嵌入層 (Embeddings) 的模型(如推薦系統)訓練速度比 v4 快 1.9 倍。
4. 總結創新:分工與效率
TPU v5 系列的核心創新是:
- 分工明確: 首次將晶片分為 v5p (性能/訓練) 和 v5e (成本/推論),允許客戶針對特定需求進行最佳化。
- 規模提升: v5p 將訓練 Pod 的規模推向新的高峰(8,960 晶片),鞏固 Google 在超大規模 AI 訓練基礎設施上的領先地位。
展望未來 (Trillium / v6)
Google 在 v5 之後已發布了下一代 TPU Trillium (或稱 v6)。 Trillium 在能源效率和單晶片性能上再次大幅躍升,宣稱性能比 v5e 提高 4.7 倍,將繼續沿著「極致效能」和「極致能效比」的方向發展。














