
過去兩週,AI 產業出現了一個明顯的轉折點。不是某個模型的参数規模又破紀錄,也不是某個新功能讓使用者驚艷,而是一個更深層的變化:AI 正在從「能力展示」走向「基礎建設化」。
OpenAI 拿到 1220 億美元融資,估值來到 8520 億美元。這不是一輪普通的融資,這是資本市場對 AI 成為下一個電力、網路、高速公路的投票。同一時間,Cursor 的多代理系統自主優化了 GPU 核心程式碼,效率提升 38%。Google DeepMind 推出了能閱讀工業儀表的機器人模型。Anthropic 重新設計了 Claude Code,把焦點放在「同時管理多個 AI 代理」。
這些看似獨立的事件,其實指向同一個方向:AI 正在從「單一工具」變成「作業系統」。
OpenAI 的 1220 億美元賭注:AI 不再是產品,是基礎建設
當一間公司拿到 1220 億美元,估值超過 Facebook 在 IPO 時的市值,你很難再用「新創」或「科技公司」來定義它。OpenAI 正在告訴市場:我們不是在賣聊天機器人,我們在建造 AI 時代的核心基礎建設。
這筆錢背後的戰略邏輯很清楚。OpenAI 的收入已經達到每月 20 億美元,比網路時代和行動時代的巨頭們快上四倍。ChatGPT 有 9 億週活躍使用者,5 千萬付費訂閱者。API 每分鐘處理 150 億個 token。Codex 有 3 百萬週活躍使用者,三個月內成長五倍。
但這些數字不是重點。重點是 OpenAI 正在建立一個飛輪:算力訓練出更強的模型,更強的模型做出更好的產品,更好的產品帶來更多使用者和收入,更多收入可以買更多算力。這個飛輪轉得越快,競爭對手就越難追趕。
這次融資的投資者組合也很有意思。Amazon、NVIDIA、SoftBank 領投,Microsoft 繼續加碼。a16z、Sequoia、BlackRock、Temasek 都在名單上。這不是單一產業的押注,而是全球資本對 AI 成為下一個運算層的共識。特別值得注意的是,OpenAI 第一次開放銀行管道讓個人投資者參與,募了超過 30 億美元。ARK Invest 也把 OpenAI 納入 ETF,讓普通人也能分一杯羹。
OpenAI 在公告裡用了一個詞:「AI superapp」。他們要建立一個統一的 AI 超級應用,把 ChatGPT、Codex、瀏覽功能和代理能力整合在一起。這不是為了使用者方便,而是因為當模型夠強之後,「切換工具」本身就是效率的殺手。使用者在工作上用 Codex,回家問 ChatGPT,這兩個體驗應該無縫接軌。
企業端的故事更精彩。OpenAI 的收入中,企業客戶已經佔了 40%,預計 2026 年底會追平消費端。Goldman Sachs、Phillips、State Farm、Cursor、DoorDash 都是客戶。OpenAI Frontier 這個產品讓企業可以部署和管理自己的 AI 代理,McKinsey、BCG、Accenture、Capgemini 都是合作夥伴。
從商業模式來看,OpenAI 正在走一條 Amazon 和 Facebook 走過的路:先用消費端建立護城河,再把這個護城河賣給企業。差別在於,AI 的企業價值比雲端運算或廣告更高,因為它直接影響工作的本質。
Cursor 和 NVIDIA 的實驗:AI 開始吃自己的狗糧
當 OpenAI 在融資公告裡說「讓 AI 幫人們建立軟體」時,Cursor 已經在做了。而且他們做了一件更激進的事:讓 AI 去優化 AI 的核心程式碼。
Cursor 的多代理系統在 NVIDIA 的 GPU 上跑了三週,解了 235 個 CUDA 核心優化問題。結果是平均 38% 的效率提升,其中 19% 的問題提升了兩倍以上。這不是工程師花幾年做到的,是 AI 自主完成的。
CUDA 核心是 GPU 上跑的最底層程式碼,決定了 AI 模型訓練和推理的速度。傳統上,這是只有極少數頂尖工程師才能碰的領域。一個好的核心程式碼需要考慮記憶體讀寫、暫存器分配、指令排程、硬體特性,每一項都是深不見底的專業。
Cursor 的系統用兩種方式解題:一種是 CUDA C 加上 PTX 組合語言,直接跟硬體指令對話;另一種是 CuTe DSL,一個高階抽象語言。系統自己學會了呼叫測試工具,不斷迭代優化,不需要人類介入。
這個實驗的意義不在於 38% 這個數字,而在於「AI 可以解決訓練資料裡沒有的問題」。CUDA 核心優化是高度專業的領域,公開資料有限,每個硬體世代的最佳實踐都不一樣。Cursor 的系統不是靠記憶力,而是靠推理能力。它讀文件、寫程式碼、跑測試、看結果、調整策略,重複這個過程直到滿意。
其中一個測試案例是矩陣乘法,這是公認最難優化的核心之一。Cursor 的系統從零開始寫了一個 CUDA C++ GEMM 核心,達到 NVIDIA cuBLAS 庫 86% 的效能。在小矩陣的案例裡,甚至比官方庫快 9%。這意味著在不久的將來,AI 可能會在這些極度專業的領域超越人類專家。
另一個案例是 LLaMA 3.1 的注意力核心優化。系統產生的核心在 FlashInfer 庫的基礎上再提升 84%,實際部署後讓 SGLang 推理框架的第一 token 時間縮短 3%。這不是玩具測試,是生產環境的改進。
這些結果指向一個更大的趨勢:AI 正在從「工具」變成「同事」,再變成「專家」。當 AI 可以自己優化自己的核心程式碼,人類工程師的角色就會從「寫程式碼」轉向「管理 AI 寫程式碼」。
Gemini Robotics-ER 1.6:當機器人學會讀儀表
Google DeepMind 上週發布了 Gemini Robotics-ER 1.6,一個專為機器人設計的推理模型。聽起來很技術,但它的核心能力可以用一句話解釋:機器人終於可以看懂壓力錶了。
這件事聽起來簡單,做起來非常難。一個傳統壓力錶有圓形刻度、指針、數字標記、單位說明,可能還有兩根指針代表不同的小數位。機器人要讀懂它,需要理解兩維空間的關係、角度和數值的對應、刻度間隔的計算、以及「指針指在哪裡」這件事的物理意義。
Gemini Robotics-ER 1.6 在這個能力上取得了突破,而且是在真實工業場景中和 Boston Dynamics 的 Spot 機器狗一起測試的。Spot 在工廠裡走來走去,拍下各種儀表的照片,Gemini 會告訴它讀數是多少。
這不只是「看圖辨識」,而是「實體推理」。模型需要知道指針的位置跟刻度的關係,需要理解「滿量程」的概念,需要處理相機角度造成的視差,需要區分主刻度和細刻度。這些都是需要「物理常識」才能做到的。
除了讀儀表,這個模型在「指向」和「成功檢測」上也表現出色。指向是機器人最基本的能力之一:告訴它「拿那個藍色的杯子」,它需要用空間座標精確指出杯子的位置。成功檢測則是任務完成的判斷:把筆放入筆筒之後,機器人要知道「完成了沒有」。
這些能力看似基礎,卻是機器人真正進入工廠、倉庫、醫院的關鍵。工業現場有太多需要「看一眼就知道」的事情,傳統的程式化機器人做不到,因為現場的變數太多了。Gemini Robotics-ER 1.6 讓機器人可以用「理解」的方式處理這些變數,而不是寫一千條規則。
Google 同時強調了安全性。這個模型在對抗性空間推理測試中是最安全的版本,在識別安全風險的測試中比基礎 Gemini 3.0 Flash 提升了 6% 到 10%。對於要在人類環境中工作的機器人來說,這不只是加分,是必備。
OpenAI 的供應鏈危機:當開源套件變成攻擊路徑
同一時間,OpenAI 正在處理一個可能更棘手的問題:軟體供應鏈攻擊。
3 月 31 日,一個叫 Axios 的熱門 JavaScript 函式庫被植入惡意程式碼。這個函式庫每週下載量超過 4000 萬次,是 Node.js 生態系裡無所不在的基礎建設。攻擊者取得了一位維護者的帳號權限,在 1.14.1 版本裡插入了遠端控制程式碼。
OpenAI 的一個 GitHub Actions 工作流程使用了這個被感染的版本。這個流程負責 macOS 應用程式的簽名,裡面有蘋果的程式碼簽名憑證和公證材料。理論上,攻擊者如果能拿到這些憑證,就可以偽造看起來像「OpenAI 官方」的惡意程式。
好消息是,OpenAI 的調查認為憑證沒有被成功竊取。攻擊程式碼的執行時間點和憑證注入的時間點錯開了,加上其他保護措施,讓攻擊者的嘗試可能失敗了。但「可能」在資安領域不等於「可以忽略」。
OpenAI 決定換掉所有 macOS 應用的簽名憑證,並要求所有使用者在 5 月 8 日前更新。舊版本的應用在那天之後可能無法正常運作。這是一個大動作,涉及 ChatGPT Desktop、Codex App、Codex CLI、Atlas 四個產品。
這件事的重點不在於 OpenAI 被駭,而在於「攻擊路徑是開源套件」。現代軟體開發越來越依賴第三方函式庫,一個典型的 Node.js 專案可能有幾百個依賴項。當你用了 500 個開源套件,任何一個被攻擊,你就可能被攻擊。
更值得思考的是,AI 公司特別依賴開源生態。訓練資料、模型架構、工具鏈、部署框架,每一層都有大量社群貢獻的程式碼。供應鏈安全正在成為 AI 安全的一個核心議題,而這個議題目前沒有完美的解決方案。
Claude Code 的設計轉折:為「同時多任務」而生
當 OpenAI 在談超級應用、Cursor 在讓 AI 優化 GPU、Google 在教機器人讀儀表時,Anthropic 做了一件看起來比較「小」的事:重新設計了 Claude Code 的桌面版。
但如果仔細看這次改版的邏輯,會發現它指向一個重要的趨勢:AI 代理的使用模式正在改變。
過去,開發者用 AI 的方式是「問一個問題,等答案,再問下一個問題」。現在,開發者會同時啟動多個代理:一個在 repo A 重構程式碼,一個在 repo B 修 bug,一個在 repo C 寫測試。你不再是一個一個指令下達,而是同時丟出多個任務,然後在各個任務之間來回監控和調整。
Claude Code 的新設計就是為了這個模式。新的側邊欄可以管理所有活躍的 session,可以按狀態、專案、環境過濾。當一個 session 的 PR 合併之後,它會自動封存,讓側邊欄保持乾淨。
更有趣的是「side chat」功能:在主對話中按 ⌘ + ; 可以開一個分支對話。這個分支會從主對話中拉取上下文,但不會把內容傳回去。這解決了一個實際的痛點:有時候你想問一個跟當前任務有關的問題,但不想讓這個問題打亂代理的工作流程。
新版還加入了終端機、檔案編輯器、更快的 diff 檢視器。這些功能的共通點是「不用離開 Claude Code 就能完成更多事」。過去,Claude 寫完程式碼你要跳到編輯器去看、要開終端機跑測試、要比較 diff。現在這些都在同一個視窗裡,而且可以拖曳排列。
這不是「功能增多」的問題,而是「工作流程整合」的問題。當 AI 代理開始承擔更多真實工作,開發者花在「上下文切換」的時間會變成一種摩擦。Anthropic 顯然看到了這件事,決定把 Claude Code 從「和 AI 聊天的工具」變成「管理 AI 工作的控制台」。
企業 AI 的下一階段:從實驗到工作的核心
OpenAI 的新任首席營收長 Denise Dressler 在 90 天內見了數百個客戶,得出了一個結論:「AI 是他們這輩子最重要的轉變,而且他們準備好了。」
這不是公關話術。數據支持這個說法:企業收入佔 OpenAI 總收入的 40%,預計 2026 年底追平消費端。企業客戶不再只是「試試看」AI,而是要「全面部署」。
這帶來了兩個關鍵問題。第一,如何把最強大的 AI 部署到整個公司,而不是只讓個別員工用各自的助手?第二,如何讓 AI 成為員工日常工作的一部分,而不是一個偶爾用一下的工具?
OpenAI 的答案是「Frontier」和「超級應用」。Frontier 是企業級的代理管理平台,可以讓公司部署、監控、管理自己的 AI 代理。超級應用則是員工的統一入口,把 ChatGPT、Codex、代理能力整合在一起。
這兩件事是分不開的。如果員工在家裡習慣了 ChatGPT 的體驗,到了公司卻要用另一套完全不同的工具,部署阻力就會很大。但如果公司的 AI 和家裡的 AI 是同一個東西,只是多了企業資料的連接和權限管理,採用就會自然很多。
這是 OpenAI 相對於其他 AI 公司的結構性優勢:它在消費端有一個超過 9 億使用者的產品。企業部署的最大障礙通常是「員工不會用」或「員工不想用」,OpenAI 很大程度上繞過了這個問題。
如果只記一件事
OpenAI 的 1220 億美元融資、Cursor 的自主優化實驗、Google 的機器人儀表閱讀、Anthropic 的工作流程重新設計,這些事件共同的訊號是:AI 正在從「能力」變成「基礎建設」。
當一個技術成為基礎建設,競爭的核心就不再是「誰比較強」,而是「誰比較容易被整合進日常工作和生活」。OpenAI 的超級應用戰略、Cursor 的多代理系統、Gemini 的實體推理能力、Claude Code的工作流程設計,都是為了同一個目標:讓 AI 無處不在,又無感融入。
對於企業和個人來說,這意味學習「如何使用 AI」的重要性會下降,而「如何管理和整合 AI」的重要性會上升。你不是在學一個工具,你是在準備一個新的運算層的到來。






















