
當所有人都在關注 AI 模型參數還能變得多大時,NVIDIA 在 GTC 2026 大會上給出了一個完全不同維度的答案:AI 已經過了單純「訓練」的階段,現在它必須開始「思考」與「行動」。
黃仁勳在演講中清楚點出,過去兩年內,運算需求暴增了一萬倍,而使用量成長了一百倍,這代表總體運算需求成長了高達一百萬倍。資料中心不再是過去那個存放靜態檔案的倉庫,它們已經轉變為受限於物理電力(例如 1 GW)的「AI 工廠(Token Factory)」。如何在這有限的電力下,榨出最高的 Token 產出率(Tokens per Watt),成為全球所有企業執行長接下來必須面對的核心課題。這一次的 GTC 大會,NVIDIA 帶來的資訊量極度龐大,涵蓋了 Vera Rubin、 Groq 技術整合、 Open Claw 代理式作業系統,以及實體機器人。
發布會的懶人包
如果你只有三分鐘,以下是本次 NVIDIA GTC 2026 的五大重點:
- 推論的轉折點已到來:AI 進入需要大量推論以進行邏輯思考、生成 Token 與執行任務的階段。NVIDIA 預估到 2027 年將帶動高達 1 兆美元的 IT 基礎設施投資。
- Vera Rubin 系統全面接班:專為代理式 AI(Agentic AI)設計的全新運算平台,包含 Vera CPU、Rubin Ultra 節點,以及支援高達 144 顆 GPU 的 Kyber 機櫃,並預告了下一代架構 Feynman。
- 整合 Groq LPU 實現分離式推論:NVIDIA 整合了 Groq 團隊的技術,推出 LP30 晶片。透過全新軟體 Dynamo,將高吞吐量的預填充(Prefill)交給 Rubin,將低延遲的 Token 生成(Decode)交給 Groq LPU,整體吞吐量每百萬瓦提升 35 倍。
- 軟體生態系的劇變:Open Claw 與 GaaS:被譽為成長速度超越 Linux 的開源代理作業系統 Open Claw 橫空出世。NVIDIA 推出企業級的 Nemo Claw,宣告所有的 SaaS(軟體即服務)都將轉型為 GaaS(代理即服務,Agentic as a Service)。
- 實體 AI 與自駕車的 ChatGPT 時刻:NVIDIA Alpamo 自駕平台新增比亞迪、現代、日產與 Uber 等合作夥伴;透過 Newton 物理引擎與 Isaac Lab,實體機器人(包含迪士尼的雪寶機器人)已能適應真實物理世界。
硬體算力與架構的雙重突破
Vera Rubin 架構:專為代理式 AI 打造的運算巨獸
當 AI 從單純的對話機器人,演化為會自動規劃步驟、使用工具、存取記憶的「代理(Agent)」時,它對硬體的需求就完全改變了。代理式 AI 需要頻繁讀寫記憶體(KV Cache)、處理結構化與非結構化數據,更需要極快的單執行緒性能來驅動外部工具(如瀏覽器或虛擬電腦)。
NVIDIA 推出的 Vera Rubin 平台正是為此而生。系統採用 100% 液冷設計,安裝時間從兩天大幅縮短至兩小時。其核心 Vera CPU 是全球唯一採用 LPDDR5 的資料中心處理器,具備極高的單執行緒效能與資料輸出能力,完美填補了 AI 呼叫外部工具時的算力需求。
在擴充性上,Rubin Ultra 透過名為 Kyber 的垂直機櫃設計,能將單一 NVLink 網域擴展至 144 顆 GPU,提供驚人的 260 TB/s 全對全頻寬。此外,NVIDIA 也積極佈局光學封裝(CPO),透過 Spectrum X 交換器與光學連接技術,確保在電力受限的環境下,仍能維持極高的資料傳輸效率。
令人驚嘆的戰略佈局:整合 Groq 突破物理極限
高吞吐量(Throughput)與低延遲(Latency)在晶片設計上往往互為衝突。NVIDIA 的 GPU 架構與 NVLink 72 在處理極大批次、龐大上下文的吞吐量上天下無敵。然而,當服務需要極端的高速 Token 生成(例如每秒 1000 個 Token )時,傳統架構會面臨記憶體頻寬的瓶頸。
Groq 的 LPU(語言處理單元)採用了完全不同的設計思維:靜態編譯、確定性資料流(Deterministic Dataflow),以及大量的晶片內建 SRAM。它為極低延遲的單一任務而生,但缺點是難以裝載極大參數的模型與龐大的 KV Cache。
NVIDIA 的解法是「分離式推論(Disaggregated Inference)」。透過自行研發的作業系統等級軟體 Dynamo,NVIDIA 將推論流程切開:
- 預填充(Prefill)與注意力機制(Attention):需要大量數學運算與龐大記憶體來處理上下文,這部分交給運算猛獸 Vera Rubin。
- 前饋網路與 Token 生成(Decode):需要極低延遲與快速反應,這部分即時卸載給 Groq LPU (LP30)。
這種極致的軟硬體協同設計(Co-design),讓高價值層級的 AI 推論服務效能躍升了 35 倍,也讓 NVIDIA 在未來高階 Token 市場中,築起了一道對手難以跨越的護城河。
軟體生態與工廠管理的全面升級
Token 工廠的數位孿生:NVIDIA DSX
既然資料中心已經變成了製造 Token 的工廠,如何優化這座工廠的產線就變得至關重要。NVIDIA 提出的 DSX 平台,本質上就是 AI 工廠的 Omniverse 數位孿生藍圖。
透過與 Siemens、Cadence、Dassault 等工業軟體巨頭合作,DSX 允許工程師在虛擬環境中模擬機房的熱力學、電氣配置與網路架構。當工廠上線後,內建的 AI 代理(如 Fedra 與 Emerald)會即時監控電網狀態與冷卻系統,動態調整運算負載(Max Q),確保沒有任何一瓦特的電力被浪費。在 1 GW 這種國家級別的耗電規模下,即使是 1% 的效率提升,都代表著極度可觀的營收增加。
顛覆企業 IT:Open Claw 與 Nemo Claw 企業安全框架
近期獲得高度關注的開源專案「Open Claw」,它提供了一個完整的代理式作業系統架構,讓 AI 可以管理資源、呼叫工具、執行排程、分解任務,並具備多模態的輸入輸出能力。這意味著我們正從「人類使用工具軟體」的舊 IT 時代,過渡到「AI 代理自主完成工作」的新時代。黃仁勳直言,所有的 SaaS 軟體公司都將轉變為 GaaS (Agentic as a Service) 公司。
然而,讓 AI 代理在企業內部任意存取敏感資料並向外通訊,在資安上是絕對不被允許的。為此,NVIDIA 聯手推出了 Nemo Claw(Open Claw 的企業級參考設計),內建 Open Shell 技術、政策護欄(Policy Guardrail)與隱私路由器。它讓企業能在絕對安全、合規的前提下,擁抱代理式 AI 的強大生產力,並能與現有 SaaS 公司的政策引擎完美對接。
實體 AI 的全面落地:機器人與自駕車的覺醒
在數位世界之外,NVIDIA 的實體 AI 也迎來了爆發。在自駕車領域,基於 Alpamo 模型,NVIDIA 獲得了比亞迪、現代、日產等年產 1800 萬輛車企的訂單,甚至打入了 Uber 的無人計程車網路。這代表自駕系統已經具備了真實的物理世界推理與決策能力。
在機器人領域,透過 Cosmos 世界模型生成海量的合成資料,結合 Newton 物理模擬引擎與 Isaac Lab 訓練環境,開發者能在虛擬世界中訓練出適應極端案例(Edge Cases)的機器人。演講中登場的迪士尼雪寶(Olaf)機器人,正是透過 Jetson 運算核心與 Newton 物理引擎的輔助,適應了雙足行走的物理平衡,展現了實體 AI 走入大眾娛樂生活的驚人潛力。

TN科技筆記的觀點
NVIDIA 徹底摸透了「Token 經濟學(Token Economics)」,要同時滿足一般大眾的大量吞吐需求,以及給頂級軟體工程師或研究員使用的思考模型的極低延遲需求,單一晶片架構已經走到物理極限。NVIDIA 聰明地選擇了與 Groq 合作,並透過 Dynamo 軟體進行「分離式推論」。這不僅解決了效能瓶頸,更讓 NVIDIA 能夠牢牢掌握整個 AI 基礎設施的話語權。至此,NVIDIA 已經不再只是一家晶片公司,它正在建造一個由運算平台、作業系統、開源模型與物理模擬環境組成的關鍵基礎設施。當 Token 成為未來世界的新原油,NVIDIA 已經完美佈置好了從開採、精煉到運輸整個過程的所有需求。
支持TN科技筆記,與科技共同前行
我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~~~也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!>>>>> 請我喝一杯咖啡
在此也感謝每個月持續請我喝杯咖啡的讀者以及新加入的讀者們,讓我更加有動力為各位帶來科技新知!
以下是我的 threads 也歡迎追蹤、回覆、轉發喔!
>>>>> TN科技筆記(TechNotes)






















