TPU v2 vs v3 vs v4:Google AI 晶片進化史深度解析

更新 發佈閱讀 5 分鐘

TPU(Tensor Processing Unit)作為 Google 專為機器學習設計的客製化晶片,每一代的升級都著重於提高效能、提升能效比,以及擴大系統互連規模

TPU v2、v3、v4 三代之間的主要差異,可以歸納為 散熱技術、單晶片效能、互連架構Pod 規模


🚀 核心升級比較表

特性TPU v2 (2017)TPU v3 (2018)TPU v4 (2021)單晶片性能45 TFLOPS (bfloat16)123 TFLOPS (bfloat16)275 TFLOPS (bfloat16/int8)散熱方式氣冷 (Air-Cooled)液冷/水冷 (Liquid-Cooled)液冷 (更精簡、更節能)HBM 容量16 GiB32 GiB32 GiBPod 規模最大 256 晶片最大 1024 晶片最大 4096 晶片互連拓撲2D 環面 (2D Torus)2D 環面 (2D Torus)3D 環面 (3D Torus) / 光學互連 (OCS)能效比基準約 1.6 倍於 v2約 2.7 倍於 v3


🧠 三代 TPU 的重要差異解析

1. TPU v2:從推理到訓練的過渡

TPU v2 是 Google 首次將 TPU 從原本的**僅用於推理(Inference)擴展到同時支援訓練(Training)**的版本。

  • 關鍵創新: 引入 bfloat16 浮點格式,使其能夠處理訓練工作負載。
  • 擴展性: 首次使用 **核間互連(Inter-Core Interconnect, ICI)**技術,讓多達 256 個 v2 晶片組成一個 TPU Pod,實現大規模並行訓練。

2. TPU v3:性能與散熱的大躍進

TPU v3 是在 v2 架構基礎上的顯著強化,重點在於提高單晶片的計算能力和擴大 Pod 規模。

  • 性能提升: 晶片時脈頻率加快,矩陣乘法單元 (MXU) 數量從 2 個增加到 4 個,使單晶片峰值性能達到 123 TFLOPS,是 v2 的約 2.7 倍。
  • 散熱變革: 由於功耗和性能大幅提升,v3 首次採用了水冷系統來管理晶片溫度,這為更高密度的運算能力提供了可能。
  • Pod 規模: Pod 規模擴大到最大 1024 個晶片。

3. TPU v4:網路架構的突破與能效之王

TPU v4 是 Google 在系統層面實現最大突破的一代,側重於 系統級的效率、互連的靈活性能效比

  • 單晶片性能與能效: 晶片性能達到 275 TFLOPS,比 v3 提升約 2.1 倍。更重要的是,它的每瓦效能 (Performance/Watt) 比 v3 提高了約 2.7 倍,大幅降低了大型 AI 訓練的能源消耗。
  • 網路互連 (最重要):3D 環面 (3D Torus): 從 v2/v3 的 2D 拓撲升級到 3D 網格/環面 互連,這使得數據傳輸路徑更短、延遲更低,雙分頻寬 (Bisection Bandwidth) 大幅提高,尤其對大型語言模型 (LLM) 等需要大量全域通訊的工作負載至關重要。光學電路交換機 (OCS): v4 是第一個大規模部署 Google 自研 OCS 的平台,它允許動態配置互連拓撲,提高了系統的靈活性、可用性和擴展性。
  • Pod 規模: Pod 規模進一步擴大到最大 4096 個晶片,能夠實現 Exascale 等級的 ML 效能。
  • 稀疏核心 (SparseCores): 首次在 TPU 晶片中加入專門加速處理嵌入 (Embeddings) 的 SparseCore,對推薦系統等模型提供額外加速。

💡 總結:進化趨勢

TPU v2 到 v4 的進化趨勢非常明確:

  1. 從平面到立體: 互連從 2D 環面 (v2/v3) 升級到 3D 環面,這表明 Google 越來越注重超大規模(數千晶片)訓練的通訊效率。
  2. 從氣冷到液冷: 散熱技術的升級(v2 氣冷 -> v3/v4 液冷)是實現更高晶片密度和功耗的必要條件。
  3. 效率為王: 每一代都在追求更高的每瓦效能,TPU v4 在這方面取得了巨大成功,使 AI 訓練更具成本效益和環境效益。
留言
avatar-img
sirius數字沙龍
16會員
408內容數
吃自助火鍋啦!不要客氣,想吃啥,請自行取用!
你可能也想看
Thumbnail
近日,Google 所推出的 Gemini 3 模型正式亮相,引起市場高度關注。與此同時,承載這波技術升級的核心硬體 — 即 Tensor Processing Unit(TPU)——也成為資本市場的新焦點。本篇從技術背景、產業鏈邏輯,到台股/美股可能受惠個股,提供投資者一個較完整的分析視角。
Thumbnail
近日,Google 所推出的 Gemini 3 模型正式亮相,引起市場高度關注。與此同時,承載這波技術升級的核心硬體 — 即 Tensor Processing Unit(TPU)——也成為資本市場的新焦點。本篇從技術背景、產業鏈邏輯,到台股/美股可能受惠個股,提供投資者一個較完整的分析視角。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
鴻海(Foxconn)再度在全球伺服器供應鏈上打出亮眼一役!外媒指出,Google 最新一批 AI 伺服器採用自家研發的 TPU(Tensor Processing Unit)晶片,而其中核心的 TPU 運算托盤(compute tray)由鴻海供貨。這不僅意味著鴻海成功卡位 Google 超級資料
Thumbnail
鴻海(Foxconn)再度在全球伺服器供應鏈上打出亮眼一役!外媒指出,Google 最新一批 AI 伺服器採用自家研發的 TPU(Tensor Processing Unit)晶片,而其中核心的 TPU 運算托盤(compute tray)由鴻海供貨。這不僅意味著鴻海成功卡位 Google 超級資料
Thumbnail
📋 摘要 (Executive Summary) 人工智慧(AI)的飛速發展,特別是深度學習(Deep Learning)和大型語言模型(LLM)的興起,將硬體加速器推向了計算領域的核心。在這場革命中,NVIDIA 的圖形處理器(GPU)憑藉其通用性、高可程式化和廣泛的軟體生態佔據了主導地
Thumbnail
📋 摘要 (Executive Summary) 人工智慧(AI)的飛速發展,特別是深度學習(Deep Learning)和大型語言模型(LLM)的興起,將硬體加速器推向了計算領域的核心。在這場革命中,NVIDIA 的圖形處理器(GPU)憑藉其通用性、高可程式化和廣泛的軟體生態佔據了主導地
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News