TPU v5 系列：剖析 v5e 與 v5p 的差異，為 AI 訓練與推論打造最佳化解決方案

2025/12/07 更新2025/12/07 發佈閱讀 4 分鐘

TPU v5 系列最大的創新在於產品線的分化，將晶片明確劃分為兩個版本，以滿足訓練與推論（Inference）市場中對極致效能和成本效益的不同需求。

TPU v5 系列的核心是 v5e 和 v5p，兩者基於相似的架構，但在性能、互連和 HBM 記憶體等方面有顯著差異。

1. 產品線分化：v5e (經濟) 與 v5p (效能) 🎯

特性Cloud TPU v5e (經濟/推理優化)Cloud TPU v5p (極致效能/訓練優化)設計目標成本效益最高、中大型訓練、推論 (Inference)極致效能、大規模基礎模型訓練 (LLMs)單晶片性能197 TFLOPS (bfloat16)~460 TFLOPS (bfloat16)HBM 容量16 GiB32 GiBPod 規模最大 256 晶片 (2D 環面)最大 8,960 晶片 (3D 環面)互連頻寬1600 Gbps/晶片4800 Gbps/晶片 (極高)定價價格比 v4 低於一半，性價比極高。價格較高，但訓練速度比 v4 快 2.8 倍。

2. v5e (v5-Economy)：平民化 AI 訓練與推論

TPU v5e 是 Google 首次專門針對成本敏感型和推論工作負載進行設計的版本。

推論優化： v5e 支援高效能的 INT8 運算，這對 LLM（大型語言模型）的推論和服務至關重要。它在推論上的每美元性能比 v4 提升高達 2.5 倍。
靈活的配置： v5e 支援從 1 個晶片到 256 個晶片的各種配置，靈活性更高，讓使用者能精確地匹配其工作負載規模，降低入門門檻。
價格優勢：旨在讓更多企業和團隊能夠以更低的成本運行中大型 AI 模型。

3. v5p (v5-Performance)：極致規模與速度

TPU v5p 是針對要求最高性能的超大規模訓練所設計，接替 v4 成為 Google 的訓練旗艦晶片。

性能躍升：相比 TPU v4，v5p 的單晶片 FLOPS (浮點運算) 提升超過 2 倍，並擁有 3 倍的 HBM 記憶體頻寬。在 LLM 訓練上，速度提升約 2.8 倍。
最大規模互連： v5p 將 TPU Pod 的最大規模從 v4 的 4096 晶片擴大到 8,960 晶片，並維持 v4 的 3D 環面拓撲，但將每個晶片的互連頻寬大幅提高至 4,800 Gbps。這保證了在近萬個晶片組成的集群中，數據傳輸和同步仍能保持極高效率。
第二代 SparseCores：繼承並升級了 v4 中引入的 SparseCore，對依賴大量嵌入層 (Embeddings) 的模型（如推薦系統）訓練速度比 v4 快 1.9 倍。

4. 總結創新：分工與效率

TPU v5 系列的核心創新是：

分工明確：首次將晶片分為 v5p (性能/訓練) 和 v5e (成本/推論)，允許客戶針對特定需求進行最佳化。
規模提升： v5p 將訓練 Pod 的規模推向新的高峰（8,960 晶片），鞏固 Google 在超大規模 AI 訓練基礎設施上的領先地位。

展望未來 (Trillium / v6)

Google 在 v5 之後已發布了下一代 TPU Trillium (或稱 v6)。 Trillium 在能源效率和單晶片性能上再次大幅躍升，宣稱性能比 v5e 提高 4.7 倍，將繼續沿著「極致效能」和「極致能效比」的方向發展。

留言

sirius數字沙龍

18會員

422內容數

吃自助火鍋啦！不要客氣，想吃啥，請自行取用！

你可能也想看

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11