週報 Weekly I/O #35

全面解析「世界模型」：定義、路徑、實踐與邁向通用人工智慧（AGI）的更進一步

2026年或將是「世界模型」（World Model）全面爆發的關鍵之年。當前的人工智慧技術雖能處理如撰寫論文、編寫程式碼、生成影音等看似無所不能的任務，卻普遍缺乏理解、預測並在現實世界中推演行動的能力。為了解決此一瓶頸，包括OpenAI、Google、微軟等科技巨擘，以及Yann LeCun、李飛飛等頂尖學者，正競相投入於「世界模型」的研究，旨在透過讓AI建立對世界的內在認知模型，來徹底重塑AI格局，並被視為邁向通用人工智慧（AGI）的關鍵路徑。

「世界模型」的概念源於認知科學，模擬人類大腦如何建構對世界運作的「心智模型」（Mental Model），以預測事件發展並規劃行動。早在AI早期研究中，此概念便以Dyna架構等形式出現，強調智能體在學習策略的同時，也需學習「世界模型」來預測行動後的環境變化。直至2018年，Google Brain的論文正式提出「世界模型」一詞，並確立了其「觀察世界（V）、預測世界（M）、在內部世界中學習行動（C）」的框架，結合視覺、記憶與控制三大核心模組，使其能透過內部模擬而非僅依賴外部試錯來學習最佳策略。

儘管「世界模型」概念歷史悠久，近期爆紅卻伴隨著名實不符的現象，許多不同領域的技術，從影片生成到自動駕駛，都被廣泛貼上「世界模型」的標籤，造成定義上的混淆。研究者普遍認為，真正的世界模型需具備三大特質：理解環境的「表示」、模擬事件的「預測」，以及基於預測的「規劃與控制」。其本質是引導AI從單純的「語言機器」轉變為能觀察、推理並行動的「智能體」。

相較於以預測下一個詞元為目標的大語言模型（LLM），世界模型著重於預測下一刻世界的物理狀態變化，依賴動態時序數據，更適合於機器人、自動駕駛等需要與物理世界互動的任務。然而，LLM擅長語言表達與知識整合，世界模型則更側重於觀察、行動與決策。儘管路徑不同，兩者最終目標皆指向AGI，但當前業界對於LLM的「堆疊規模」能否帶來突破持保留態度，特別是Yann LeCun等學者認為LLM僅在擬合語言統計，缺乏對現實世界的直接建模能力，認為AGI的實現需要更直接的物理互動。

隨著大模型面臨規模效益遞減，以及產業對具身智慧（Embodied AI）的強烈需求，世界模型正成為下一輪AI競賽的核心。目前業界探索主要分為兩大技術流派：一是透過「影片生成」來重建世界，如OpenAI的Sora，著重於生成可動態演化的連續世界，能直觀展示對物理規律的掌握，但內部理解仍屬「隱式」；二是「3D空間生成」，如李飛飛的World Labs，旨在顯式建模世界的幾何結構，雖能提供更精確的可操作性，但面臨數據稀缺與高計算需求的挑戰。

除了「世界生成」，「智能體訓練」層面也分為兩條探索路徑：一是以Google的SIMA為代表，直接將生成的世界作為虛擬訓練場，讓Agent在其中探索、學習，並具備泛化能力；二是以Yann LeCun的JEPA理論為核心，主張AI應直接學習世界的抽象結構，而非生成具體像素，從而在潛在空間中預測因果關係，計算成本較低且更具備可操作性，但因難以「可見化」和設計自監督目標，落地仍需時日。

無論是「畫世界」（影片生成）、「建世界」（3D生成），或是「夢境訓練」（SIMA）、「學習結構」（JEPA），這些技術探索都指向未來AI的共同方向：從「輸出資訊」轉向「理解、推演、行動」。世界模型一旦成熟，將對機器人、自動駕駛、內容創作乃至人機關係帶來系統性衝擊，使機器人具備跨環境遷移能力，並讓自動駕駛系統從單純的感知轉向更精準的預判。

然而，世界模型的發展也帶來前所未有的風險。由於AI在高度逼真的「夢境」中運作，一旦出現結構性的「模型幻覺」，可能導致系統性的決策失誤，其風險遠高於當前語言模型的「胡說八道」。此外，構建與運行成熟世界模型的能力集中，可能引發新的資訊壟斷與社會操縱風險，且虛擬與現實的邊界模糊將考驗AI的監管與對齊難題。總體而言，世界模型為AI從「表層智能」邁向「深層智能」提供了可能，標誌著AI發展的真正拐點，但其所帶來的系統性風險，也要求我們必須在倫理、監管等層面進行全面重構。

暴龍其實是「踮腳走路」的？

研究來源

2026年2月發表於《Royal Society Open Science》，由緬因州大西洋學院領銜的研究團隊，分析四具保存完好的暴龍標本。

核心發現

暴龍走路與奔跑時，採用的是「踮腳尖」步態，而非平踩腳跟，這與現代地棲鳥類的移動方式非常相似。

研究方法

研究人員測量了化石腿骨與腳骨，計算動物速度，並模擬三種腳部著地方式：腳跟著地、腳掌中段著地、與趾尖著地，再比對鴕鳥與人類的數據進行驗證。

關鍵影響

速度提升：踮腳步態使暴龍的頂速估計提高約 20%，讓牠從緩慢的追逐型掠食者，變成對三角龍、埃德蒙頓龍等獵物更具威脅的獵手。

穩定性更佳：踮腳步態讓腿部發揮避震功能，即使在崎嶇地形上也能保持平衡；牠以蹲伏姿態、快速小步移動，而非緩慢大步跨行。

與鳥類的連結：現代鳥類是獸腳類恐龍的直系後代，研究認為暴龍以趾尖著地，利用肌腱與韌帶的彈性吸收並回饋能量，與鳥類的移動機制高度相似。

文化衝擊

若研究結論成立，博物館策展人、紀錄片製作方與電影業者都需要重新修正暴龍的姿態設計與動畫呈現。

簡單說：電影裡那隻笨重踩地的暴龍形象可能是錯的——牠其實更像一隻巨大、敏捷、踮著腳的巨型雞！

下一個兆元公司，不賣軟體，賣的是「結果」

紅杉資本剛發布一篇文章，核心觀點——以前我們說「軟體吃掉世界」

現在換成：服務吃掉軟體

為什麼？

你花 $10K 買會計軟體

你花 $120K 請會計師結帳

下一代公司不賣你軟體

它直接幫你把帳結掉。

兩種 AI 公司正在分化：

副駕駛（Copilot） → 賣工具給專業人士

自動駕駛（Autopilot） → 直接賣成果給企業

前者在跟 AI 模型賽跑

後者每次模型升級，自己就變得更強、更便宜、更難被取代

切入點在哪？

已外包的業務 = 最佳突破口

預算已存在

企業接受外部執行

買方習慣付錢買「結果」

換外包供應商只是換廠商

換內部人力是組織重整

難度差了十倍。

哪些市場即將被重寫？

招募派遣 $200B+

保險經紀 $200B+

會計審計 $80B

醫療帳務 $80B

法律合約 $25B

這些領域的共同點：

高度重複、規則明確、AI 已經做得比人好

一句話總結：

賣工具的人在跟 GPT-5 競爭

賣結果的人讓 GPT-5 幫他們賺錢

你想把公司導入哪一條賽道？