Jensen Huang GTC 2026:推論經濟學、新架構路線圖與 AI 工廠的商業邏輯
NVIDIA 執行長 Jensen Huang 在 GTC 2026 主題演講中,描繪了一個以 token 為核心商品的全新運算經濟體系。從推論需求爆發的底層邏輯,到 Vera Rubin 與 Groq 整合的架構創新,再到 OpenClaw 重塑企業 IT 的願景,整場演講圍繞一個核心命題:AI 工廠如何將電力轉化為營收。
推論拐點:運算需求為何暴增百萬倍
Jensen Huang 指出,過去兩年發生了三個關鍵轉折,徹底改變了 AI 運算的需求結構。第一是生成式 AI。「生成式 AI 是軟體的一種能力,但它深刻改變了運算的方式。運算過去是基於檢索的,現在是生成式的。」他強調,這不只是功能上的改變,而是整個電腦架構、電腦供應方式和電腦建置方式都要隨之改變。
第二是推理 AI,以 o1 和 o3 為代表。「推理讓 AI 能夠反思、自己思考、規劃,把無法理解的問題拆解成可以理解的步驟。它能在研究中找到根據。o1 讓生成式 AI 變得可信,建立在事實基礎之上。」推理所需的輸入 token(用於上下文)和輸出 token(用於思考)大幅增加了運算量。
第三是 Claude Code 帶來的 agent 革命。「它能夠讀取檔案、編寫程式碼、編譯、測試、評估,然後回頭迭代。100% 的 NVIDIA 員工都在使用 Claude Code、Codex 和 Cursor 的組合。今天沒有一個軟體工程師不是由一個或多個 AI agent 協助在寫程式。」
他描述了這個演變的關鍵意義:「你不再問 AI 什麼、哪裡、何時、如何,你要求它去創造、去做、去建造。你讓它使用工具、讀取你的上下文、讀取檔案。它能 agent 式地拆解問題、推理、反思、解決問題,實際執行任務。」
這三個轉折匯聚成一個結果:「AI 每一次要思考,就要做推論。AI 要做事,就要推論。AI 要閱讀,就要推論。AI 要推理,就要推論。每一次它要思考、推理、做事、生成 token,都必須推論。這已經遠遠超過訓練了。推論的拐點已經到來。」
在規模上,Jensen Huang 給出了驚人的估算:「過去兩年,工作所需的運算量大約增加了 1 萬倍,使用量可能增加了 100 倍。我相信過去兩年運算需求增加了 100 萬倍。這是我們所有人的感受,也是每家新創公司、OpenAI、Anthropic 的感受。如果他們能獲得更多算力,就能生成更多 token,營收就會上升,更多人能使用它,AI 就能變得更聰明。我們已經進入了這個正向飛輪。」
一兆美元基礎建設:需求展望

去年 GTC,Jensen Huang 預估到 2026 年有 5000 億美元的高確信度需求和採購訂單。一年之後,他大幅上修:「就在我現在站的位置,我看到到 2027 年至少有 1 兆美元。而且我確信運算需求會遠高於此。」
支撐這個數字的是 NVIDIA 跨所有 AI 模型和領域的通用性。「NVIDIA 是今天全球唯一一個平台,能在每一個 AI 領域、每一個 AI 模型上運行,橫跨語言、生物學、電腦圖形、電腦視覺、語音、蛋白質與化學、機器人等等,無論是邊緣還是雲端,任何語言。NVIDIA 的架構對所有這些都是可替換的,而且在所有領域都表現出色。」
他用信心框架來說明投資邏輯:「當你投入 1 兆美元的基礎建設,你必須完全有信心這筆投資會被充分利用、效能卓越、成本極低,而且使用壽命盡可能地長。這筆基礎建設投資放在 NVIDIA 上,你可以完全放心。」
業務結構方面,60% 來自前五大超大規模雲端商,包括內部 AI 消耗和外部服務。其餘 40% 分布在區域雲端、主權雲端、企業、工業、機器人、邊緣運算等。「AI 的多樣性就是它的韌性。AI 的觸及範圍就是它的韌性。這毫無疑問不是單一應用的技術,這是一個全新的運算平台轉移。」
Token 經濟學:AI 工廠的營收公式
Jensen Huang 花了大量篇幅闡述一張他稱為「未來 AI 工廠最重要的圖表」的分析框架。縱軸是每瓦 token 產出(吞吐量),橫軸是 token 速率(推論速度)。

「你的資料中心過去是存放檔案的資料中心,現在是生產 token 的工廠。你的工廠無論如何都是受限的。每個人都在找土地、電力和建築外殼。一旦建好,你就是受電力限制的。在那個受電力限制的基礎建設內,你最好確保推論的架構是最佳化的,因為推論就是你的工作負載,token 就是你的新商品,算力就是你的營收。」
他解釋了兩個軸的商業意義。縱軸代表在固定電力下能產出多少 token,直接對應產能和營收規模。橫軸代表每次推論的速度,也等於 AI 的智慧程度:「AI 越聰明,你的吞吐量就越低。你思考得越久嘛。」但更聰明的 AI 可以賣更高的價格。
Token 定價因此形成分層結構:高吞吐量、低速度的免費層用來吸引客戶;中等模型和較高速度對應大約每百萬 token 3 至 6 美元;更大的模型、更高的速度和更長的輸入上下文,對應每百萬 token 45 美元;未來的頂級服務,用於關鍵路徑或長時間研究任務,可能達到每百萬 token 150 美元。
「把這翻譯一下。假設你是一個研究人員,每天使用 5000 萬個 token,以每百萬 token 150 美元計算。作為一個研究團隊,這根本不算什麼。我們相信這就是未來。」
Jensen Huang 用一個簡化的範例說明營收邏輯:「假設我把 25% 的電力用在免費層,25% 用在中間層,25% 用在高階層,25% 用在頂級層。我的資料中心只有 1 GW,所以我要決定怎麼分配。免費層讓我吸引更多客戶,頂級層服務我最有價值的客戶。」
他強調:「未來每一家雲端服務商、每一家電腦公司、每一家 AI 公司、每一家公司,都會在思考他們的 token 工廠效率。未來世界上每一位 CEO 都會追蹤和深入研究這張圖表。你今年做的事,明年就會精確反映在你的營收上。」

Grace Blackwell 的經濟效益
以 SemiAnalysis 的大規模基準測試為參考,Grace Blackwell 相較於 Hopper H200 實現了巨大的效能跳升。Jensen Huang 表示:「按照摩爾定律,你會預期大約 1.5 倍的效能提升。沒有人會預期到 35 倍。」他引述分析師 Dylan Patel 的評價:「Dylan Patel 指控我低報數字,他說實際上是 50 倍。他沒說錯。」
在成本方面,他用了一個具體的框架:「一座 1 GW 的工廠攤提 15 年,光是建築本身就要約 400 億美元。即使上面什麼都不放,就已經花了 400 億美元。你最好確保放上最好的電腦系統,讓 token 成本達到最低。」
「如果你用了錯誤的架構,即使它是免費的,也不夠便宜。原因是無論如何你都必須建造那座 GW 級的資料中心。」
以推論服務商 Fireworks 為實例,NVIDIA 更新軟體後,同一套系統的 token 速度從平均每秒約 700 個提升到近 5000 個,提高了 7 倍。「這就是極致協同設計的驚人力量。」
在營收倍數方面,基於上述分層定價模型,Grace Blackwell 相較於 Hopper 能讓同一座資料中心產生 5 倍的營收。
Vera Rubin:為 Agent 式 AI 設計的完整系統
Jensen Huang 正式發布了 Vera Rubin 平台,強調這是一套為 agent 式 AI 量身打造的完整系統,而非單一晶片。「當我們想到 Vera Rubin,我們想的是整個系統。垂直整合,端對端延伸,作為一個巨大的系統來最佳化。」
Vera Rubin NVLink 72 擁有 3.6 exaflops 的運算能力和 260 TB/s 的全對全 NVLink 頻寬。完整系統由 7 款晶片、5 個機架級電腦組成。
他詳細解釋了為什麼每個元件都是 agent 工作負載所需。首先是大型語言模型本身:「模型會越來越大,要更快地生成越來越多 token,才能更快地思考。」其次是記憶體存取:「agent 會猛烈地敲打記憶體,包括 KV cache、結構化資料、非結構化資料。」第三是儲存系統:「過去是人在使用儲存系統,現在是 AI。agent 會猛烈地敲打儲存系統。」這也是 NVIDIA 重新發明儲存系統(STX 機架搭載 BlueField-4)的原因。
第四是工具使用。「跟人類不同,AI 要求工具盡可能快。這些工具包括網頁瀏覽器,未來也可能是雲端的虛擬 PC。」為此 NVIDIA 設計了全新的 Vera CPU,「極高的單執行緒效能、極高的資料輸出、資料處理表現優異、極致能源效率。它是全球唯一使用 LPDDR5 的資料中心 CPU。」
系統層面的改進包括:100% 液冷、使用 45 度熱水冷卻(將冷卻能耗釋放給運算使用)、安裝時間從兩天縮短到兩小時。NVLink 為第六代,是唯一一家已建構六代 scale-up 交換系統的公司。Spectrum-X 交換器採用共封裝光學,與 TSMC 共同發明的 COUP 製程,已進入量產。
Jensen Huang 透露 Vera CPU 的商業表現超出預期:「我們本來沒想到會單獨賣 CPU。但 Vera CPU 單獨銷售已經確定會是一個數十億美元的業務。」他也提到 Microsoft Azure 已經啟動了第一個 Vera Rubin 機架。
100% 的全球儲存產業都在加入 NVIDIA 的 STX 平台。「他們看到了完全相同的趨勢:儲存系統會被猛烈敲打。」
在經濟效益方面,Vera Rubin 的關鍵數字是:在同一座資料中心內,相較於 Grace Blackwell,Vera Rubin 在最有價值的推論層級上效能再提升 10 倍。換算成營收,Vera Rubin 能讓同一座資料中心再產生 5 倍的營收(相對於 Blackwell)。

「Vera Rubin,你應該盡快升級,原因是你的 token 成本會下降,吞吐量會上升。」
在 1 GW 的工廠中,兩年內 token 生成速率將從 200 萬提升到 7 億,增加 350 倍。「這就是極致協同設計的力量。」
Groq 整合:突破推論速度的物理極限
Jensen Huang 解釋了將 Groq 團隊納入 NVIDIA 的戰略邏輯。核心問題在於:優化高吞吐量和優化低延遲在物理上是互相矛盾的。
「NVLink 72 在高吞吐量區域非常強大,基本上無人能及。但如果你把圖表延伸到更遠的地方,想要提供不是每秒 400 個 token 而是 1000 個 token 的服務,NVLink 72 就會碰到瓶頸,我們就是沒有足夠的頻寬。這就是 Groq 的用武之地。」
Groq 是一款確定性資料流處理器,靜態編譯、由編譯器排程,資料和運算同時抵達,沒有動態排程,配備大量 SRAM,專為推論這一種工作負載設計。兩款處理器的差異極端:Groq 單顆晶片 500 MB 記憶體,Vera Rubin 單顆晶片 288 GB。

技術上的關鍵突破是「拆解式推論」(Disaggregated Inference)。透過 Dynamo 軟體,NVIDIA 重新架構了推論流程:預填充和注意力機制的解碼在 Vera Rubin 上執行(需要大量數學運算和 KV cache),前饋網路的 token 生成部分則交給 Groq 晶片。兩者透過 Ethernet 的特殊模式緊密耦合,延遲降低約一半。
「如果你的工作負載大部分是高吞吐量,我會 100% 使用 Vera Rubin。如果有很多工作負載是程式編寫和高價值的工程 token 生成,我會把大約 25% 的資料中心配置 Groq,其餘全部是 Vera Rubin。」
整合 Groq 後,在最有價值的推論層級上效能再提升 35 倍,並且開啟了前所未有的超高速 token 生成服務層級。Groq LP30 晶片由 Samsung 代工,目前已進入量產,預計第三季出貨。
產品路線圖:從 Rubin Ultra 到 Feynman
Jensen Huang 公布了完整的未來架構演進。NVIDIA 承諾每年推出全新架構,並且始終保持向下相容。

Vera Rubin 世代有兩個機架系統可選。標準的 Oberon 機架使用銅線 scale-up,也可透過光學 scale-up 擴展到 NVLink 576。Kyber 機架則使用銅線將 144 顆 GPU 連接在一個 NVLink 域中。「很多人問 NVIDIA 會用銅線還是光學 scale-up?答案是兩者都會。」
Rubin Ultra 搭配全新的 Kyber 機架,Ultra 晶片目前正在 tape out。同時推出 LP35 晶片,首次加入 NVIDIA 的 NVFP4 運算結構,帶來額外數倍的速度提升。Rubin Ultra 的運算節點採用垂直滑入 Kyber 機架的設計,前方是運算,後方是 NVLink 交換器,取代了傳統銅線纜線連接,組成一台巨大的電腦。
Feynman 是下一個世代的完整架構更新:
- 全新 GPU
- LP40 LPU:結合 NVIDIA 的規模和 Groq 團隊共同打造
- Rosa CPU(Rosalind 的縮寫)
- BlueField-5 搭配 CX10 SuperNIC
- Kyber 機架同時支援銅線和共封裝光學 scale-up
「銅線還重要嗎?答案是肯定的。你會用光學擴展嗎?會。你會用共封裝光學嗎?會。我們需要更多銅線的產能、更多光學的產能、更多共封裝光學的產能。」
產能方面,Jensen Huang 透露:「我們現在已經建立了一條供應鏈,每週可以製造數千套系統,本質上是每月數個 GW 的 AI 工廠產能。」
DSX 平台:擠出 AI 工廠的每一瓦電力
NVIDIA 推出了 DSX 平台,用數位孿生技術來設計和營運 AI 工廠。
背後的動機很直接:「這些 AI 工廠浪費了太多電力。大多數技術供應商過去互不相識,直到在資料中心才第一次碰面。這不能再發生了。」
DSX 涵蓋四個面向:DSX Sim 用於物理、電力、熱力和網路模擬;DSX Exchange 用於 AI 工廠營運資料交換;DSX Flex 用於與電網的動態電力管理;DSX Max-Q 用於動態最大化 token 吞吐量。
營運階段由 AI agent 驅動:Phaidra 的 agent 監控冷卻和電力系統,向 Max-Q 發送訊號持續最佳化;Emerald 的 AI agent 解讀即時電網需求和壓力訊號,動態調整電力。
Jensen Huang 估計這裡面至少有 2 倍的效率提升空間:「2 倍在我們談論的這個規模下是巨大的。」
OpenClaw:Agent 電腦的作業系統
Jensen Huang 宣布全力支持 OpenClaw 開源專案。他將其定義為 agent 電腦的作業系統:「它能連接大型語言模型、管理資源、存取工具和檔案系統、排程、拆解提示為步驟、呼叫子 agent、支援任何模態的輸入輸出。我用了跟描述作業系統完全相同的語法。」
「就像 Windows 讓我們能夠創造個人電腦一樣,OpenClaw 讓我們能夠創造個人 agent。每一家公司、每一家軟體公司的 CEO 現在都要問的問題是:你的 OpenClaw 策略是什麼?就像我們當年都需要 Linux 策略、HTTP/HTML 策略、Kubernetes 策略一樣。」
他指出企業安全是最大的挑戰:「Agent 系統在企業網路中可以存取敏感資訊、執行程式碼、對外通訊。存取員工資訊、財務資訊,然後對外發送。這顯然不能被允許。」

為此 NVIDIA 推出了 NemoClaw 參考設計,整合 OpenShell 安全技術,包含網路護欄和隱私路由器,讓 OpenClaw 具備企業級安全和隱私能力。各家 SaaS 公司可以將自己的政策引擎連接到 NemoClaw,由 OpenShell 執行政策管控。
企業 IT 的經濟重塑
Jensen Huang 描繪了 agent 時代企業 IT 的根本轉變。
「每一家 SaaS 公司都將成為 AaaS 公司,也就是 Agent as a Service 公司。」他預見一個從 2 兆美元成長為數兆美元的企業 IT 產業,不再只提供工具讓人使用,而是提供專精於特定領域的 agent 供人租用。

他用 NVIDIA 自身為例說明 token 預算的概念:「我完全可以想像,未來我們公司的每位工程師都需要年度 token 預算。他們年薪可能幾十萬美元,我會在這之上再給他們大概一半的金額作為 token,讓他們的生產力放大 10 倍。這已經是矽谷的招聘工具了,你的工作附帶多少 token?」
他解釋了 token 作為營收的邏輯閉環:「每一家企業今天都坐在檔案系統和資料中心之上。未來每一家軟體公司都是 agent 式的,它們既是 token 的使用者(為自己的工程師),也是 token 的製造者(為所有客戶)。」
產業應用版圖:從金融到機器人
Jensen Huang 點名了多個即將被 AI 徹底改造的產業。
金融服務是本屆 GTC 最大的參加者群體。「演算法交易正在從古典機器學習加上人工特徵工程,也就是量化分析師做的事情,轉向由超級電腦研究大量資料、自行發現洞察和模式。這個產業正在經歷它的深度學習和 Transformer 時刻。」
醫療健康則「正在經歷它的 ChatGPT 時刻」,涵蓋 AI 生物學用於藥物發現、AI agent 用於客服和診斷支援、物理 AI 機器人系統三個向量。
自動駕駛宣布了四個新夥伴:BYD、Hyundai、Nissan、Geely,加上此前的 Mercedes、Toyota、GM,合計年產量 1800 萬輛。同時宣布與 Uber 合作在多個城市部署。「自動駕駛的 ChatGPT 時刻已經到來。」
機器人與製造是 5 兆美元的產業。NVIDIA 與 ABB、Universal Robots、KUKA 等機器人公司合作,將物理 AI 模型整合進模擬系統,部署到全球製造產線。現場展示了 110 台機器人,包括 Disney Research 使用 Newton 物理模擬器(與 Disney 和 DeepMind 共同開發)訓練的 Olaf 角色機器人。
電信是約 2 兆美元的產業。「那個基地台過去只做基地台的事,未來將成為 AI 基礎建設平台。AI 會在邊緣運行。」NVIDIA 的 Aerial AI RAN 平台已與 Nokia 和 T-Mobile 等展開合作。
半導體與基礎建設方面,Jensen Huang 觀察到整個上下游供應鏈在去年都創下歷史紀錄:「不論你是 50 年、70 年還是 150 年歷史的公司,去年都是你們的紀錄年。我們正處於一件非常非常大的事情的開端。」





























