世界模型時代＿第二章

2026/03/21 更新2026/03/20 發佈閱讀 46 分鐘

第二章　擬真的誠意與謎言：世界模型能做到什麼，以及它沉默的地方

第一節　令人驚嘆的成功：世界模型真正能做到的事

在進入「擬真與理解之間的裂縫」之前，我們需要先誠實地面對一件事：世界模型在某些領域所取得的成就，不是虛張聲勢，而是實實在在的、令人敬畏的。

如果我們只看到裂縫而不看成就，我們就會犯了另一種方向的錯誤，把一個正在快速發展中的技術當成一個注定失敗的幻想。事實恰恰相反，世界模型之所以值得我們如此認真地討論，正是因為它已經做到了一些直到幾年前還被認為不可能的事。而這些成就的真正意義，要在我們充分理解它們之後，再與它們的局侷限並置，才能準確地衡量。

讓我們從幾個具體的案例開始。

在模擬中學會走路的機器人

2024年到2025年間，機器人學領域發生了一個安靜但意義深遠的轉變：越來越多的研究團隊開始在虛擬世界中訓練機器人，然後將學到的能力直接遷移到真實的物理機器上。這個被稱為「模擬到真實」（sim-to-real）的技術路線，背後的核心支撐就是世界模型，或者更精確地說，是一個足夠準確的物理模擬器，充當了機器人的「練習場」。

NVIDIA的Isaac平台和Cosmos工具鏈，在這個轉變中扮演了關鍵性的角色。其基本邏輯是：在一個高精度的物理模擬環境中，同時運行數千個虛擬機器人，讓它們各自嘗試不同的動作策略，經歷成功和失敗，然後利用強化學習從這些虛擬經驗中提煉出運動技能。一個真實的機器人可能需要數百小時的實際練習才能學會穩定行走，而在模擬器中，同樣的學習可以在幾個小時內完成，因為數千個虛擬機器人在同時練習，而且模擬器中的時間是可以加速的。

其結果是令人矚目的。透過sim-to-real的方法訓練出來的四足和雙足機器人，在真實世界中展現出了驚人的運動能力：在不平坦的地面上行走、在碎石路上跑動、甚至從被推倒的狀態中恢復平衡。NVIDIA在GTC大會上展示的機器人demo中，一個人形機器人被研究員從側面猛推了一把，它踉蹌了兩步，然後穩穩地恢復了直立姿態。這個看似簡單的動作，背後是數十億步虛擬世界中的試錯經驗，機器人在模擬器裡「跌倒」了無數次，從每一次跌倒中學到了一點關於平衡的知識。

這裡有一個值得讓人思考的事實：這些機器人的運動能力不是人類工程師逐一編寫出來的。並沒有人寫了一行代碼告訴機器人「當你被從右邊推的時候，應該把左腳向左邊邁出三十度」。機器人的運動策略是從它與虛擬世界的互動中「湧現」出來的，就像一個孩子不是被爸媽教會走路的，而是在反覆嘗試和跌倒中自己學會的。世界模型（在這裡是物理模擬器）提供了一個足夠逼真的練習場，讓這種湧現有了發生的條件。

學會「看見未來」的影片預測

另一個令人印象深刻的進展發生在影片預測領域。

2024年初，OpenAI發表的Sora系統在大眾中引起了巨大的注意。Sora能夠從一段文字描述出發，生成長達一分鐘的高畫質影片，影片中的場景、光影、運動看起來驚人地逼真。一條東京街道上的行人、一片雪地上的金毛獵犬、一段海邊日落的延時攝影。這些影片如果不事先說明是AI生成的，許多觀眾無法分辨它們與真實拍攝的影片之間的差異。

但Sora真正令研究者們感到興趣的，不是它生成的影片有多漂亮，而是它似乎在生成影片的過程中，隱含地學到了一些關於物理世界的規律。

OpenAI在Sora的技術報告中提到了幾個耐人尋味的現象。例如，Sora生成的影片中，物體的運動通常遵守慣性，一個被推動的球會繼續滾動，而不是突然停下來。光影的變化通常與物體的三維結構一致，當一個人走過窗戶前面，他的影子會以符合光源方向的方式移動。攝影機的運動通常遵守透視投影的規律，當視角旋轉時，遠處的物體比近處的物體移動得更慢。這些現象暗示了一種可能性：Sora不只是在「拼貼像素」，它可能在某種程度上學到了產生這些像素的底層結構：三維空間、光學原理、運動學規律。

OpenAI的技術團隊甚至在報告中使用了一個大膽的措辭：他們稱Sora為一個「通用的物理世界模擬器」的早期雛形。

這個措辭引發了激烈的學術爭論。但無論爭論的結果如何，一個事實是不可否認的：一個在大量影片數據上訓練的生成模型，在沒有被明確教授任何物理定律的情況下，確實學到了某些看起來像是物理定律的東西。它的影片在大多數時候「表現得好像」遵守了物理規律。

這個「表現得好像」是一個需要認真仔細思考的措辭。我們很快就會回來檢視它。

在棋盤之外學會「直覺」的遊戲AI

世界模型的另一個引人注目的成就，發生在一個也許不那麼引人注目的領域：電子遊戲。

DeepMind在2020年代中期發表的一系列研究表明，基於世界模型的遊戲AI能夠展現出一種令人驚訝的「直覺」。在那些需要快速反應的遊戲中，例如第一人稱射擊遊戲或即時戰略遊戲，基於世界模型的AI不需要搜索所有可能的行動組合來找到最佳策略。相反的，它的世界模型允許它在一瞬間「想像」幾條可能的未來軌跡，然後直接選擇看起來最有利的那一條。這種決策方式更接近人類玩家的「直覺」，不是算出來的，而是「感覺到」的。

這個能力的意義在於：它暗示了世界模型可以作為一種「快速直覺」的基礎。在認知科學中，Daniel Kahneman曾將人類的思維區分為「系統一」（快速、直覺、自動化）和「系統二」（緩慢、分析、刻意）。大型語言模型的推理能力，本質上更接近系統二，它需要一步一步地生成思維鏈，逐步推導出結論。而一個訓練良好的世界模型，則可能提供一種更接近系統一的能力，基於對環境的快速模擬，在不經過冗長推理的情況下做出「直覺性」的判斷。

Kahneman是以色列裔美國心理學家，2002年諾貝爾經濟學獎得主，他並不研究AI，但他在他的暢銷書《快思慢想》中所描述的人類認知雙系統理論，意外地為理解世界模型的潛力提供了一個有用的框架。如果大型語言模型可以被視為AI的「系統二」，善於分析、推理、語言化；那麼世界模型也許可以成為AI的「系統一」，善於快速預測、直覺判斷和即時反應。

而當這兩個系統被整合在一起的時候，也許就是AI真正開始「像人一樣思考」的起點。

這個可能性是令人振奮的。

成功的意義：比我們以為的更有意義

把這三個案例放在一起看，一個比任何單一案例更重要的模式浮現出來了。

sim-to-real的機器人學會了在真實世界中保持平衡，這意味著虛擬世界中的物理模擬，在某些條件下，確實可以被遷移到真實物理中。Sora生成的影片「表現得好像」遵守了物理定律，這意味著從大量感知數據中進行統計學習，確實可以捕捉到某些物理結構。遊戲AI展現出了「直覺」，這意味著世界模型不只是一個緩慢的分析工具，它可以成為快速決策的基礎。

如果我們把這三個發現加在一起，它們共同暗示的是：世界模型的基本思路，讓AI在內部形成一個關於世界如何運作的表徵，用這個表徵進行預測和規劃，不是一個空洞的理論主張，而是一個已經開始兌現的技術承諾。

但這裡有一個關鍵的「但是」。

這些成功，每一個都有一個共同的特徵：它們發生在條件受控的環境中。

sim-to-real的成功案例，大多發生在「從高品質物理模擬器遷移到相對簡單的物理任務」的場景中，在平地上走路、在碎石上跑動、從推倒中恢復。這些任務的物理條件是相對可控的，物理定律的作用方式是相對可預測的。但當任務變得更複雜，需要操作柔軟物體、需要處理流體動力學、需要在密集的人群中導航，sim-to-real的成功率就會急劇下降，因為模擬器中的物理近似與真實物理之間的差距，在這些場景中被放大了。

Sora的影片在大多數時候看起來遵守物理定律，但在某些場景中，正如我們在序章中已經提到的，水會往上流、物體會穿過彼此、一個人走著走著會突然多出一條手臂。這些失敗不是隨機的bug，它們揭示了一個系統性的問題：模型學到的是「世界通常看起來像什麼」的統計規律，而不是「世界為什麼看起來像那樣」的因果結構。當場景偏離了統計上的常見模式，模型就會生成在因果上不可能的結果。

遊戲AI的「直覺」令人印象深刻，但它的舞台是規則完全確定的電子遊戲。遊戲的物理引擎是完美的，裡面沒有測量誤差、沒有材料疲勞、沒有意料之外的環境變化。當同樣的方法被應用到真實世界的決策中，「直覺」的可靠性就成了一個未解的問題。

換言之：世界模型的成功是真實的，但它的成功發生在一個被精心修剪過的世界裡。

這就把我們帶到了一個精確的位置，一個在成功與局限的交界處。在成功的這一側，世界模型展現了令人信服的能力。在局限的那一側，一個更深的問題在等著我們：這些系統學到的，究竟是世界的「規律」，還是世界的「外觀」？

它們的成功，是因為它們理解了世界如何運作，還是因為它們記住了世界通常看起來像什麼？

擬真，是否等於理解？

這是下一節的問題。而它的答案，可能比我們想像的要更加令人不舒服。

第二節　擬真不等於理解：一條比想像中更深的裂縫

上一節留下的問題是：世界模型的成功，是因為它們理解了世界如何運作，還是因為它們記住了世界通常看起來像什麼？

這個問題之所以重要，不只是因為它關乎技術的評估，更因為它觸及了一個古老的認識論難題：一個系統在什麼條件下可以被說是「理解」了某件事？

讓我們從一個看起來很小、但實際上具有高度診斷性的案例開始。

水往上流的那一刻

2024年初，當Sora的demo影片在網路上廣泛流傳時，絕大多數的討論都集中在它的驚人逼真上，但少數觀察者注意到了一些令人困惑的細節。

在一段展示東京街景的影片中，雨水沿著玻璃窗流動，向上流動。在另一段展示海灘場景的影片中，海浪沖上沙灘之後，沙灘上的腳印不是被海水抹去，而是在海水退去之後憑空出現。在一段展示咖啡館場景的影片中，一位女士舉起咖啡杯喝了一口，放下杯子之後，杯中的咖啡液面竟然比喝之前更高了。

這些錯誤在整段影片中所佔的時間極短，可能只有幾格畫面，以至於如果你不刻意注意，很容易就會滑過去。但它們的存在揭示了一件比任何單一錯誤都更重要的事情：Sora不知道水為什麼會往下流。

這句話需要更精確地解釋。

Sora在絕大多數時候都能夠生成正確的水流方向。如果你生成一百段包含水流的影片，也許九十五段中的水都是往下流的。這意味著模型已經從訓練數據中充分地學到了一個統計事實：在人類拍攝的影片中，水通常往下流。但「水通常往下流」和「水因為重力而往下流」是兩個截然不同的命題。前者是一個關於數據分布的觀察，後者是一個關於因果機制的理解。前者在大多數情況下都能夠產出正確的結果，但它沒有任何內在的機制來保證結果的正確性，因為它不知道結果為什麼應該是那樣。

一個知道「水因為重力而往下流」的系統，不可能生成水往上流的影片。無論場景多麼罕見、光影多麼複雜、構圖多麼不尋常，重力的方向不會因為這些因素而改變。但一個只知道「水通常往下流」的系統，在處理到罕見的場景構圖、不尋常的光影條件、或者訓練數據中從未出現過的視角時，就有可能「忘記」水應該往下流，因為它從來沒有「知道」過水為什麼往下流。它的正確，是統計意義上的正確，而不是因果意義上的正確。

這就是「擬真」與「理解」之間那條裂縫的精確描述。

約翰·瑟爾的房間，四十年後的新版本

如果這個論證讓你想起了什麼，那麼你的直覺是對的。

1980年，美國哲學家約翰·瑟爾（John Searle）提出了一個著名的思想實驗：中文房間（Chinese Room）。乘爾是加州大學柏克萊分校的哲學教授，在心智哲學領域具有巨大的影響力。他的「中文房間」論證至今仍然是AI哲學中被引用最多的思想實驗之一。

論證是這樣的：想像一個完全不懂中文的英語母語者被關在一個房間裡。房間外面的人用中文寫了問題，從門縫塞進來。房間裡有一本極其詳盡的規則手冊，告訴這個人「如果收到這樣的符號組合，就回覆那樣的符號組合」。這個人按照手冊操作，把回覆從門縫塞出去。對於房間外面的中文使用者來說，這些回覆完全合理、語法正確、甚至頗有見地。從外部觀察，房間「理解」了中文。

但瑟爾的問題是：房間裡的那個人理解中文嗎？

答案顯然是否定的。他只是在按照規則操弄符號，完全不知道這些符號的意義。乘爾據此主張：純粹的符號操作，無論多麼精確，都不等於理解。語法不等於語義。正確的輸出不等於對輸出內容的理解。

四十多年過去了，AI的技術已經發生了天翻地覆的變化。但瑟爾的核心問題：「正確的行為是否等於真正的理解」，在世界模型的語境中，以一種全新的、而且更加尖銳的形式重新出現了。

Sora不是在操弄語言符號，而是在操弄像素。但結構是類似的：它從訓練數據中學到了一套「如果前面的畫面長這樣，下一格畫面應該長那樣」的統計規則。它按照這些規則生成影片。生成出來的影片在大多數時候看起來遵守了物理定律。從外部觀察，它「理解」了物理世界。

但它知道物理定律為什麼是那樣的嗎？

它知道重力是一種質量之間的交互作用嗎？它知道水往下流是因為地球的引力場，而不是因為「在影片中水通常往下流」嗎？它知道如果把同樣的場景搬到月球上，水的流動速度應該變成六分之一嗎？

這些問題的答案，幾乎可以確定是否定的。Sora學到的是像素之間的統計關聯，不是像素背後的物理因果。它的「物理直覺」是從數據表面歸納出來的模式，而不是從底層物理結構推導出來的規律。

如果瑟爾的中文房間是「語法不等於語義」的論證，那麼Sora所展示的就是這個論證的物理世界版本：視覺上的連貫不等於物理上的理解。影像的逼真不等於因果的掌握。擬真不等於理解。

但事情也許沒有那麼簡單

寫到這裡，我必須停下來做一個重要的修正。

如果我們就此打住，宣稱「擬真不等於理解，所以世界模型的成功是虛幻的」，那麼我們就犯了一個與過度樂觀同樣嚴重的錯誤：過度悲觀。

事情的真實面貌比「擬真等於理解」或「擬真不等於理解」這兩個極端都更加複雜。

讓我們重新回到sim-to-real的案例。在高品質物理模擬器中訓練出來的機器人，確實能夠在真實世界中行走、保持平衡、從被推倒的狀態中恢復。這個成功不能被簡單地歸結為「統計性的碰巧正確」。如果模擬器中的物理模型與真實物理之間完全沒有對應關係，sim-to-real根本不可能成功。機器人不會在真實世界中行走，它會立刻跌倒，因為它在一個「錯誤的世界」中學到的行為，在真實世界中不適用。

sim-to-real的成功告訴我們：模擬器中的物理模型確實捕捉到了真實物理的某些結構。也許不是全部，也許不是最深層的，但至少是在某個精度範圍內有效的。

同樣的邏輯也適用於Sora。如果Sora對物理世界完全沒有任何「理解」，它不可能在九十五段影片中正確地呈現水往下流。它至少學到了某種關於世界的結構，這個結構在大多數情況下與真實物理一致，只是在邊緣情況下會失效。

所以，更準確的描述也許不是「擬真不等於理解」，而是：擬真捕捉到了理解的某些面向，但不是全部。而被遺漏的那些面向，恰恰是在最關鍵的時刻才會暴露出來。

這就像一個學生背下了所有的物理習題解答，在考試中表現優異。你不能說他「完全不理解物理」。他至少記住了大量的正確答案，而且能夠在新的但類似的題目中做出合理的推測。但當他遇到一道需要從第一原理出發進行推導的、超出了他背過的習題範圍的問題時，他就會暴露出來：他不是從底層理解了物理，而是記住了物理的表面模式。

世界模型目前的處境與這個學生類似。它們的成功是真實的，它們確實學到了世界的某些結構。它們的局限也是真實的，它們學到的結構是表面的、統計性的，而不是深層的、因果性的。而這兩件事同時為真，不是矛盾，而是對當前技術狀態的精確描述。

那麼，什麼叫做「真正的理解」？

到這裡，一個無法迴避的問題浮現了：如果擬真不完全等於理解，那麼「理解」究竟要求什麼？

這個問題比它看起來要複雜得多。

一種直覺性的回答是：真正的理解要求掌握因果機制，而不只是統計關聯。知道「水往下流」是統計關聯，知道「水因為重力而往下流」是因果理解。前者能在大多數情況下產出正確的預測，但無法解釋為什麼；後者不僅能預測，還能解釋，還能在全新的條件下做出從未見過的正確推斷。

但這個回答立刻引出了一個更深的追問：什麼叫做「掌握了因果機制」？

牛頓的萬有引力定律「理解」了重力嗎？在愛因斯坦之前，人們會說是的。但是愛因斯坦的廣義相對論表明，牛頓的引力定律只是一個在低速和弱引力場下有效的近似，引力不是一種「力」，而是時空彎曲的幾何效應。那麼牛頓「理解」了引力嗎？還是他只是找到了一個極其精確的近似，一個在他所能觀測的範圍內與真實情況無法區分的近似？

如果牛頓的理解只是一種「足夠精確的近似」，那麼Sora的理解是不是也是一種近似，只是精確度更低一些？如果是這樣，「理解」是否只是「近似」的一個程度問題，而不是一個本質性的問題？

這條追問的線索可以一直往下走，走到科學哲學中最深的問題：科學理論究竟是在「發現」世界的真實結構，還是在「建構」一套越來越精確的預測工具？不過，我們不需要在這裡解決這個問題。我們需要的是從這條追問中提取出一個對當前討論有用的洞見：「理解」也許不是一個非黑即白的範疇。它可能存在於一個光譜上：從「純粹的統計關聯」到「對因果結構的深層掌握」，中間有無數個中間地帶。而世界模型目前所處的位置，是這個光譜上的某個中間點，比純粹的關聯更深，但比真正的因果理解更淺。

這個定位意味著什麼？

它意味著，世界模型既不像最樂觀的宣傳所說的那樣「已經理解了世界」，也不像最悲觀的批評所說的那樣「只是統計學的把戲」。它處在一個中間地帶，一個技術上非常有用、但認識論上極其曖昧的地帶。

而正是這種曖昧性，使得世界模型比一個「已經成功」或「已經失敗」的技術都更加危險。因為一個明確失敗的技術不會誤導任何人。一個明確成功的技術可以被放心地使用。但一個「在大多數情況下有效、在關鍵時刻可能失效、而且你事先不知道什麼時候是那個關鍵時刻」的技術，才是最需要被審慎對待的。

這個「事先不知道什麼時候會失效」的特性，有一個專業的名稱：脆弱性（brittleness）。它不是一種可以透過「更多數據」或「更大模型」來簡單消除的缺陷。它源於一個更根本的結構性問題：統計學習能夠捕捉的是數據中的模式，而因果結構不完全等同於數據中的模式，它還包括那些在數據中未曾出現過的、但在因果上仍然成立的可能性。

一個靠統計學習建立的世界模型，它的預測範圍被它見過的數據所限定。在數據覆蓋的範圍內，它表現得像是理解了世界。在數據的邊界之外，它的「理解」就蒸發了。而真實世界，那個不斷產生新奇事件的世界，永遠會把我們帶到數據的邊界之外。

這就是擬真與理解之間那條裂縫的真正深度。它不是一個可以被工程優化逐步填平的溝渠。它是一個結構性的鴻溝，源於「從數據中歸納模式」與「掌握產生數據的因果機制」之間的根本差異。

而如果我們把目光從這條裂縫的技術面移開，然後望向它的另一面，我們會看到一個更加令人憂慮的問題正在等待著我們。

這些世界模型無法理解的，不只是物理上的因果機制。它們更深層的盲點是：人類的世界，從來就不只是物理的世界。

我們的世界裡有制度、有規範、有情感、有權力關係、有羞恥與尊嚴、有一句話可以摧毀一段關係的微妙力量。這些東西都不存在於任何物理模擬器的方程式中。而如果世界模型的「世界」不包含這些東西，那麼它所建模的，充其量只是世界的一個截面，一個被抽空了意義的截面。而這各問題正是下一章要討論的問題。

第三節　時間、因果、抽象：三重瓶頸

上一節描繪了擬真與理解之間的裂縫，並將它定位在「統計學習」與「因果掌握」的根本差異上。但那個描述仍然是概括性的。如果我們想更精確地理解世界模型目前的技術極限在哪裡，需要把那條裂縫打開來，看清楚它的內部結構。

在裂縫的內部，至少有三道相互交織的斷層。它們各自獨立存在，但又彼此增強，共同構成了世界模型從「令人印象深刻的demo」走向「可靠的世界理解」之間最困難的障礙。

第一道斷層：時間的背叛

世界模型的基本承諾之一，是預測未來。但「預測未來」這四個字隱藏了一個極其棘手的技術問題：預測的時間跨度越長，準確度的衰減就越劇烈。

讓我們用一個具體的場景來理解這個問題。

假設一個世界模型正在預測一段影片的後續內容。影片中，一個人將一顆球從桌面推了一下。在接下來的半秒鐘裡，模型需要預測球的運動軌跡。這對於一個訓練良好的模型來說並不太難，球會沿著被推的方向滾動，速度逐漸減慢。半秒鐘的預測，精確度可以相當高。

但如果我們把時間延長到五秒呢？球在滾動過程中碰到了桌面上的另一個物體，改變了方向。新的方向又讓它接近了桌子的邊緣，它會掉下去嗎？這取決於它碰撞時剩餘的動量、桌面邊緣的位置、以及球的形狀是否完全規則。每一個微小的預測誤差，碰撞角度偏了兩度、速度估計多了百分之三，都會在後續的預測中被放大。球的最終位置，可能因為最初的微小誤差而產生截然不同的結果：在桌上，或在地上。

這就是所謂的「誤差累積」（error accumulation）問題。在自回歸（autoregressive）的預測模式中，即「用預測的結果作為下一步預測的輸入」，每一步的微小誤差都會成為下一步的輸入誤差，然後在下一步中被進一步放大。經過足夠多的步數之後，累積的誤差可以大到讓整個預測變得毫無意義。

這不是一個可以靠「更大的模型」或「更多的訓練數據」來簡單解決的問題。它有一個數學上的根源：混沌系統（chaotic systems）的初始條件敏感性。氣象學家Edward Lorenz，也就是「蝴蝶效應」概念的提出者，在1963年就已經證明，對於某些動態系統而言，初始條件的微小差異會導致長期行為的巨大分歧。而真實的物理世界，在許多尺度上，恰恰具有這種混沌特性。

這意味著，對於世界模型而言，「預測未來」存在一個原則上的精度極限。短期預測可以很準確，但隨著時間的延長，準確度會不可避免地衰減。而衰減的速度取決於被預測的系統有多混沌。在一個空曠的桌面上推球，也許可以準確預測五秒；在一個擁擠的交叉路口預測行人的走向，也許連兩秒都做不到。

但時間帶來的問題不只是精度的衰減。還有一個更微妙的問題：一致性的維持。

一個世界模型在生成長時間的預測時，不只需要每一步都是「合理的」，還需要整個序列在全局上是「一致的」。一個人五秒前放在桌上的杯子，五秒後應該還在桌上，除非有什麼事情移動了它。一個房間的牆壁不應該在攝影機轉向之後改變顏色。一個角色的衣服不應該在場景切換之後從藍色變成紅色。

這種跨時間的一致性，要求模型在某種程度上維持一個「持續存在的世界狀態」，即使在它沒有直接觀測到的時候。你轉過頭去，背後的世界應該仍然在那裡，而且保持著你離開時的樣子。這在心理學上稱為「物體恆常性」（object permanence），它是人類嬰兒在大約八個月大時就開始發展的認知能力，也是瑞士發展心理學家讓·皮亞傑（Jean Piaget）理論中感覺運動期的關鍵里程碑。

對於人類來說，物體恆常性是如此基本，以至於我們很難想像沒有它的世界。但對於目前的世界模型來說，維持長時間的物體恆常性仍然是一個未解的難題。當Genie 2生成的互動世界在數分鐘後開始出現物體身份的混淆，一面牆變成了一扇門，一把椅子在視線之外消失了，它暴露的正是這個問題：模型沒有一個穩定的「世界狀態」在底層支撐，它的每一格畫面都是基於前一格畫面的條件生成，而不是基於一個持續存在的世界模型的建造。

時間，是世界模型的第一道考驗。短期內，它們可以通過。長期來看，時間會把統計學習的內在不穩定性一層一層地剝開。

第二道斷層：因果的幽靈

第二道斷層比第一道更深，也更隱蔽。

時間的問題至少是可以被直接觀測的，你看到預測在幾秒之後崩潰了，你知道模型有問題。但因果的問題往往隱藏在「看起來正確」的預測背後，只有在你刻意設計反事實測試（counterfactual test）的時候才會暴露出來。

什麼是反事實測試？簡單地說，就是問一個「如果不是這樣，而是那樣，結果會怎麼不同」的問題。

讓我們回到那顆從桌面滾下來的球。一個世界模型也許能夠正確地預測：球被推了一下，滾到桌子邊緣，掉了下去。從觀察的角度來看，這個預測是正確的。但如果我們問一個反事實問題：「如果桌子邊緣有一道半公分高的擋板，球還會掉下去嗎？」，一個真正理解物理的系統應該能夠回答：不會，因為擋板提供了一個阻擋力，球的動量不足以越過擋板。

但一個靠統計學習建立的世界模型，面對這個問題時會遇到困難。在它的訓練數據中，也許包含了大量「球從桌子邊緣掉下去」的影片，但「球被桌子邊緣的擋板擋住」的影片可能很少，甚至沒有。模型的預測依賴於它見過的數據模式，而反事實問題要求它推理一個它可能從未見過的場景。

這裡的核心問題是：相關性不等於因果性。

在訓練數據中，「球靠近桌子邊緣」和「球掉下去」這兩個事件高度相關。一個靠統計學習的模型很容易學到這個相關性，並將其用於預測。但在真實世界中，球掉下去的原因不是「它靠近了桌子邊緣」，而是「桌子邊緣沒有足夠的阻擋力來抵消球的動量」。前者是一個統計觀察，後者是一個因果解釋。前者在大多數情況下能產出正確的預測，因為在大多數桌子上確實沒有擋板。只是，一旦因果結構發生了變化，加了一道擋板，統計模型就會犯錯，而因果模型不會。

電腦科學家和統計學家朱迪亞·珀爾（Judea Pearl）對這個問題做過也許是最清晰的論述。珀爾是以色列裔美國學者，2011年圖靈獎得主，他的畢生工作就是在數學上釐清「相關」與「因果」之間的區別。他提出了著名的「因果推理階梯」（ladder of causation），將推理能力分為三個層次：第一層是「觀察」：看到什麼跟什麼一起出現；第二層是「干預」：如果我主動改變某個條件，結果會怎樣；第三層是「反事實」：如果過去的某個條件不一樣，事情會怎樣發展。

按照珀爾的框架，目前的世界模型大多還停留在第一層，它們擅長觀察模式。少數模型開始觸及第二層，在模擬器中，你可以主動改變某個條件，觀察結果的變化。但真正的第三層，反事實推理，對於幾乎所有現有的世界模型來說，仍然是遙不可及的。

而第三層恰恰是人類日常推理中最核心的能力之一。「如果我當時沒有說那句話，她還會生氣嗎？」「如果我選了另一份工作，我的人生會怎樣？」「如果政府當時採取了不同的政策，這場危機能被避免嗎？」這些反事實問題不是學術遊戲，它們是道德判斷、責任歸屬、後悔與釋然、學習與成長的基礎。一個無法進行反事實推理的系統，即使它的預測再準確，也無法真正「理解」它所預測的事件，因為它不知道事情為什麼是這樣而不是那樣。

第三道斷層：抽象的困境

第三道斷層，也許是三者中最不直觀、但卻是最根本的一道。

世界模型要運作，必須對世界進行壓縮。真實世界的資訊量是無限的，每一片樹葉的位置、每一粒塵埃的運動、每一個空氣分子的振動。沒有任何模型能夠處理這個量級的資訊。所以，世界模型必須做一件事：抽象。從無限的細節中提取出有限的、對當前任務有用的結構，忽略其餘的一切。

問題是：什麼才算「有用的結構」？

這個問題聽起來像是一個技術選擇題，但它其實是一個深刻的認識論困境。

讓我們用一個例子來說明。假設你要訓練一個世界模型來幫助自動駕駛汽車預測前方路況。模型需要從攝影機的影像中抽象出某些結構：車道的位置、前方車輛的距離和速度、紅綠燈的狀態。這些是「對駕駛任務有用的結構」。而天空中雲的形狀、路邊建築物的建築風格、行人手中拿的是哪本書，這些可以被忽略。

到目前為止，一切都很清楚。但考慮以下場景：前方路邊站著一個孩子，手裡拿著一個球。一個好的自動駕駛系統或者一個有經驗的人類駕駛會立刻提高警覺，因為「路邊有一個拿著球的孩子」意味著「這個孩子可能會突然衝到路上追球」。這個推理不是基於任何物理定律，而是基於對「孩子」「球」「追」這三者之間的一種因果性聯想，一種需要關於人類行為的知識才能進行的推理。

那麼，「孩子手裡拿著一個球」這個細節，是應該被忽略掉的「無用細節」，還是應該被保留的「有用結構」？

答案取決於你的任務和你的知識。對於一個只關心物理障礙物的模型來說，球是無關的，它太小了，不構成碰撞風險。但對於一個關心人類行為預測的模型來說，球是關鍵資訊，它改變了孩子突然衝出來的機率。

這個例子揭示了抽象的核心困境：什麼是「有用的」，取決於你在什麼任務中、用什麼樣的知識體系來判斷。而一個世界模型在訓練的時候，它的抽象標準是從訓練數據和訓練目標中隱含地學到的，而不是從一個關於世界的完整理論中推導出來的。這意味著，它可能會學到一種在訓練數據所覆蓋的場景中「剛好夠用」的抽象，但在遇到訓練數據之外的場景時，它的抽象方式就可能是錯誤的，它可能丟掉了不該丟掉的細節，或者保留了不需要保留的雜訊。

楊立昆在提出JEPA架構時，明確地意識到了這個問題。他主張世界模型應該學習「任務相關的、可規劃的、可遷移的抽象」，不是無差別地壓縮一切，而是根據任務需求選擇性地壓縮。但要做到這一點，模型需要某種關於「什麼是任務」和「什麼是相關的」的先驗知識，而這恰恰是目前的自監督學習最不擅長提供的。

抽象過少，模型會被細節淹沒，計算成本爆炸，而且容易過擬合到訓練數據的表面特徵上。抽象過多，模型會丟失關鍵資訊，做出看似合理但實際上缺乏根據的預測。而要找到那個「恰到好處」的抽象層次，需要的不只是更好的演算法，而是對「世界的哪些面向是重要的」這個問題的某種先驗回答，一個本身就蘊含了深刻的認識論預設的回答。

三道斷層的交匯處

時間、因果、抽象。三道斷層各自獨立存在，但它們在實際問題中幾乎總是交織在一起。

一個自動駕駛系統需要在長時間跨度中維持對路況的一致預測（時間的問題），需要理解「如果前方車輛突然煞車，我應該減速」不是因為兩個事件在數據中經常共同出現，而是因為物理上的碰撞風險（因果的問題），還需要判斷哪些環境細節是關鍵的，例如那個路邊拿球的孩子，而哪些可以被忽略（抽象的問題）。三個問題同時作用，交互增強，使得「在真實世界中可靠地行動」這個目標變得比任何單一問題所暗示的都更加困難。

而如果我們把這三道斷層與上一節的核心論證放在一起，一個更完整的圖像就浮現了出來。

擬真與理解之間的裂縫不是一個籠統的哲學宣言。它有著具體的、可分析的技術結構。時間告訴我們：統計預測在長時間會不可避免地崩潰。因果告訴我們：正確的預測不代表掌握了正確的機制。抽象告訴我們：模型壓縮世界的方式本身就蘊含了可能是錯誤的預設。

三道斷層合在一起，構成了一幅關於世界模型當前狀態的精確畫像：它們能做到令人驚嘆的事，但它們做到這些事的方式，與「真正理解世界」之間，仍然隔著一段不容忽視的距離。

而這段距離能不能被彌合？如果能，需要什麼？如果不能，那意味著什麼？

這些問題，將我們帶向一個需要不同思想工具的領域。

第四節　哲學難題：「模型中的世界」究竟是不是「世界」

前面三節所做的事情，是用技術分析的語言逐步勾勒出世界模型的能力邊界。我們看到了它的成功，看到了擬真與理解之間的裂縫，看到了時間、因果、抽象三道斷層的具體面貌。

但如果我們停在這裡，我們對這個問題的理解就仍然是不完整的。因為前面三節的所有分析，都預設了一件還沒有被追問的事情：我們在說「世界模型」的時候，「世界」這個詞究竟指的是什麼？

這不是一個文字遊戲。它是一個關乎整個研究方向之根基的問題。

「世界」在世界模型中的隱含定義

讓我們先把這個通常不被言說的預設攤開來看。

當研究者建造一個世界模型的時候，無論是Dreamer、JEPA、Genie還是Cosmos，他們實際上在做的事情是：用數學結構來表示一組狀態，以及這些狀態之間的轉換規律。狀態可以是一幅影像的潛在表徵，可以是一組物理參數的向量，可以是一個遊戲場景的數位描述。轉換規律可以是一個神經網路學到的函數，可以是一組微分方程，可以是一個條件機率分布。

在這個框架裡，「世界」被隱含地定義為：一組可被數學表示的狀態，加上一組可被數學描述的狀態轉換規律。

這個定義有四個前提，每一個都是一個強假設：

第一，世界是可表示的（representable）。世界的狀態可以被壓縮為某種形式的數學表徵：向量、矩陣、張量，而且這種壓縮不會丟失本質上重要的東西。

第二，世界是可壓縮的（compressible）。無限豐富的世界可以被有限的參數所捕捉。從無限到有限的壓縮不只是一種近似，而是一種有效的近似，壓縮之後的表徵仍然包含了足夠的資訊來支撐預測和規劃。

第三，世界是可預測的（predictable）。給定當前的狀態和一個行動，未來的狀態在原則上是可以被推算出來的。世界不是完全隨機的，它有規律，而且這些規律是可以被學習的。

第四，世界是可優化的（optimizable）。在所有可能的行動中，存在一個或一組「最佳」的行動，而且這個最佳可以通過某種目標函數來定義和搜索。

這四個假設加在一起，構成的不是一個中立的技術框架。它是一種關於世界本質的特定世界觀，一種認為世界在根本上是可被客觀描述、可被有限壓縮、可被規律預測、可被系統優化的世界觀。

對於物理學家和工程師來說，這個世界觀也許是理所當然的。牛頓力學就是這樣運作的：給定初始條件和運動方程，未來的狀態原則上可以被精確計算。但對於哲學家來說，特別是對於現象學傳統中的哲學家來說，這個世界觀不是理所當然的。

第一個哲學挑戰：表徵問題

世界模型的第一個前提：世界是可表示的，在哲學上面臨一個古老而棘手的挑戰：表徵的本質是什麼？

當我們說一個世界模型「表示」了世界的狀態，我們在說什麼？是說模型內部的數學結構與世界的物理結構之間存在某種對應關係嗎？如果是，這種對應關係的本質是什麼？它是「映射」（mapping）：模型中的每一個元素都對應著世界中的一個實體？還是「同構」（isomorphism）：模型的結構與世界的結構在某種抽象層次上是相同的？又或者，它只是一種「工具性的擬合」（instrumental fitting）：模型產出的預測碰巧與世界的行為一致，但模型的內部結構與世界的內部結構之間不存在任何有意義的對應？

這不是一個無關緊要的哲學細節。因為我們對表徵本質的理解，直接決定了我們對「世界模型理解了世界」這個宣稱的評價。

如果表徵是映射或同構的，那麼一個成功的世界模型確實在某種意義上「捕捉到」了世界的結構。它的預測之所以準確，是因為它內部的數學關係反映了世界中的物理關係。在這種理解下，世界模型的成功是有認識論意義的，它確實告訴了我們一些關於世界的事情。

但如果表徵只是工具性的擬合，那麼情況就完全不同了。一個「碰巧管用」的模型，就像托勒密的地心說體系中那些精心設計的本輪和均輪，它們能夠準確地預測行星的運動軌跡，但地球並不在宇宙的中心。預測的準確性與模型的真實性之間，不存在必然的連結。

世界模型的情況更可能落在這兩個極端之間的某個位置。它的表徵既不是對世界的完美映射，也不是純粹的工具性擬合。它捕捉到了世界的某些結構，否則它的預測不可能如此有效，但它所捕捉到的結構，與世界的「真實」結構之間的關係，是不透明的。我們知道它管用，但我們不完全知道它為什麼管用，也不知道它在什麼條件下會停止管用。

這種不透明性，是理解世界模型的認識論地位時必須面對的第一個困難。

第二個哲學挑戰：預測成功是否等於理解

世界模型的第三個前提：世界是可預測的，引出了一個同樣棘手的問題：如果一個模型能夠準確地預測世界的行為，這是否就意味著它「理解」了世界？

在上一節中，我們已經從技術的角度探討了這個問題，Sora能夠在九十五段影片中正確地呈現水往下流，但它不知道水為什麼往下流。現在，讓我們從哲學的角度把這個問題推得更深。

二十世紀分析哲學中有一個經典的區分，由奧地利裔英國哲學家路德維希·維根斯坦（Ludwig Wittgenstein）在其早期著作中暗示，後來被無數哲學家以不同的方式發展：「知道如何」（knowing how）與「知道為何」（knowing that/why）的區分。一個人可以知道如何騎腳踏車而不知道陀螺效應的物理原理。一個棋手可以知道如何在特定局面下走出好棋而不知道為什麼那步棋是好的，他的直覺「告訴」了他，但他無法清晰地表述直覺的依據。

世界模型似乎是一種極端的「知道如何」：它知道如何預測世界的下一個狀態，但不知道世界為什麼會進入那個狀態。它是一個在操作上極其有效、但在解釋上完全沉默的系統。

但在這裡我們可以有一個誠實的追問：這種「沉默」真的是一個缺陷嗎？

有些哲學家會說：是的，理解要求的不只是預測能力，還有解釋能力。如果你不能解釋為什麼，你就不算真正理解了。科學哲學家卡爾·亨普爾（Carl Hempel）在二十世紀中期提出的「覆蓋律模型」（covering law model）正是這種觀點的經典表述：解釋一個事件，就是展示這個事件可以從一組普遍定律和初始條件中被邏輯地推導出來。一個只能預測但不能做出這種推導的系統，按照亨普爾的標準，是不具備解釋能力的，因此也不具備理解。

但另一些哲學家會說：你對「理解」的要求太高了。也許理解就是預測能力。也許「知道接下來會發生什麼」就已經是理解了，而「知道為什麼」只是理解的一種特殊形式，一種人類碰巧偏好的形式，但不是理解的必要條件。科學哲學中的工具主義（instrumentalism）傳統，從恩斯特·馬赫（Ernst Mach）到巴斯·范·弗拉森（Bas van Fraassen），大致抱持著這種觀點：科學理論的價值不在於它是否「真實地描述了世界的結構」，而在於它是否「有效地預測了可觀察的現象」。如果一個世界模型能夠有效地預測，那麼追問它是否「真正理解」也許是一個假問題。

這場爭論在哲學中持續了超過一個世紀，沒有定論。而世界模型的出現，以一種前所未有的具體性，重新激活了這場爭論。因為在世界模型之前，我們從來沒有擁有過一個如此具體的、可以被直接檢驗的「只能預測但不能解釋」的系統。它不是一個思想實驗，而是一個跑在伺服器上的程式。你可以問它問題，觀察它的回答，測試它的邊界。

而正是因為它是具體的，哲學的追問才變得不再只是學術演練，而是有實際後果的。因為如果我們接受「預測就是理解」的立場，那麼世界模型的成功就是認識論上的真正突破，AI正在以它自己的方式理解世界。但如果我們堅持「理解要求超越預測的東西」，那麼世界模型的成功就需要被更審慎地評價，它是一個極其強大的預測工具，但不是一個理解者。

而這兩種評價，會導向截然不同的文明後果。

第三個哲學挑戰：「世界」是客觀的，還是對行動者有意義的？

但也許，前兩個挑戰所觸及的問題都還不夠根本。最根本的問題不是「模型有沒有理解世界」，而是「模型所說的『世界』是不是我們所生活的那個世界」。

讓我們重新審視世界模型的基本框架：狀態、轉換規律、行動、結果。在這個框架中，「世界」被處理為一個客觀的、獨立於觀察者存在的狀態空間。世界有一組確定的物理狀態，這些狀態按照確定的規律演變，行動者在這個狀態空間中選擇行動，行動導致狀態的改變。

這是一幅精確的、乾淨的、數學上優美的圖像。但它描述的是誰的世界？

一隻蜜蜂看到的花朵，與一個色盲的人看到的花朵，與一個植物學家看到的花朵，與一個正在策劃婚禮的新娘看到的花朵，是同一朵花嗎？在物理學的意義上，是的，它們反射同樣的光波。但在任何一個比物理學更豐富的意義上，答案：不是。蜜蜂「看到」的是紫外線頻段的花蜜指引圖案。色盲的人「看到」的是一個灰色調的形狀。植物學家「看到」的是一個被子植物的生殖器官。新娘「看到」的是她婚禮上捧花的候選者。

二十世紀初期的德國生物學家雅各布·馮·尤克斯屈爾（Jakob von Uexküll）為這種觀察提出了一個影響深遠的概念：環境世界（Umwelt）。他的核心主張是：每一個有機體都活在一個由它自身的感知能力和行動能力所界定的世界中。蜱蟲的Umwelt只包含三個信號：哺乳動物皮膚的氣味、37度的溫度、以及毛髮的觸感。對於蜱蟲而言，宇宙中其他的一切，音樂、色彩、語言、引力波都不存在。不是因為它們在物理上不存在，而是因為它們不在蜱蟲的Umwelt之中。

尤克斯屈爾的洞見後來被現象學傳統所吸收和深化。胡塞爾（Edmund Husserl）提出了「生活世界」（Lebenswelt）的概念，人類所棲居的世界不是物理學所描述的那個由粒子和力場構成的抽象空間，而是一個充滿了意義、目的、情感色彩的經驗場域。你走進一間教室，你「看到」的不是一組幾何形狀和光譜分布，而是一間教室，一個有著特定社會功能、喚起特定記憶和情感、召喚特定行為模式的場所。這個「教室」不存在於物理學的狀態空間中。它存在於人的意義世界中。

如果我們認真對待這些觀察，那麼世界模型所面臨的挑戰就遠比「擬真不等於理解」更加根本。

世界模型所建模的「世界」，是一個被抽空了意義的世界。它是由狀態和轉換規律構成的，物理參數、像素值、位置座標、速度向量。在這個世界裡，一朵花就是一組反射光譜的數據點。一間教室就是一組幾何形狀和材質屬性。一個人就是一個可以被追蹤的物體，具有位置、速度、姿態等可測量的屬性。

但你我所生活的世界不是這樣的。在我們的世界裡，一朵花可以是安慰、是歉意、是求婚、是悼念。一間教室可以是恐懼的來源、是智識啟蒙的場所、是初戀發生的地方。一個人不是一個可被追蹤的物體，而是一個擁有歷史、攜帶著尊嚴、可以被傷害也可以被愛的主體。

這些東西，意義、情感、歷史、尊嚴，不存在於任何世界模型的狀態空間中。不是因為技術還不夠先進，而是因為它們在結構上不屬於狀態空間可以描述的範疇。你不能用一組向量來「表示」悲傷的意義。你可以用向量來表示一個人臉上的悲傷表情，肌肉的收縮模式、眉毛的角度、嘴角的曲率，但悲傷本身，作為一種被經歷的、有重量的、改變了整個世界面貌的主觀體驗，不在任何向量之中。

一個不舒適但必要的結論

讓我們把這三個哲學挑戰放在一起。

表徵問題告訴我們：模型的內部結構與世界的結構之間的關係，是不透明的。預測問題告訴我們：預測的成功與理解的達成之間，不存在必然的連結。意義問題告訴我們：世界模型所建模的「世界」，是一個被系統性地抽空了意義的世界。

三個挑戰合在一起，指向的結論是這樣的：

世界模型所建造的，是一個技術上精確的、操作上有效的、但在認識論上根本不完整的世界表徵。它捕捉了世界的物理結構的某些面向，而且在這些面向上，它的表現可以是驚人的。但它系統性地遺漏了世界的另一些面向，那些與意義、價值、經驗、主體性有關的面向。而被遺漏的這些面向，恰恰是人類之所以在乎世界的原因。

這個結論不是在說世界模型「沒有用」。它極其有用。它在機器人控制、自動駕駛、遊戲設計、影片生成等領域的應用價值是毋庸置疑的。

但它在說另一件事：當我們使用「世界模型」這個詞的時候，我們必須意識到，這裡的「世界」是一個經過了特定裁切的世界。它是世界的物理截面，而不是世界的全貌。而如果我們不意識到這個裁切，如果我們把世界模型所能處理的那個「世界」誤認為世界的全部，我們就在不知不覺中接受了一個極其特定的、而且是被大幅縮減了的世界觀。

這個世界觀的名字，在哲學中叫做自然主義的還原論（naturalistic reductionism）：萬事萬物最終都可以被還原為物理狀態和物理定律。悲傷是某種神經活動模式。尊嚴是某種社會互動的博弈均衡。愛是某種荷爾蒙的濃度曲線。

也許這個世界觀是對的。也許一切真的可以被還原。但這至少應該是一個被公開討論的哲學立場，而不是一個被悄悄嵌入技術框架之中、在每一次使用世界模型的時候不知不覺地被強化的隱含假設。

而這個隱含假設一旦被識別出來，一個更尖銳的問題就出現了：如果世界模型的「世界」只是世界的物理截面，那麼，被這個截面排除在外的是什麼？

那些被排除的東西，意義、情感、社會規範、文化禁忌、人的尊嚴，是否只是「尚未被建模」的技術遺留問題？還是它們在結構上就不屬於「可被建模」的範疇？

這個問題，將我們帶向下一章。

Dino Lee的AI 智識館AI的世界模型研究室

留言

Dino Lee的AI 智識館

3會員

21內容數

這裡是一個探索人工智慧 × 人文思想 × 跨域研究的知識空間。從《深度認識人工智慧》出發，分享 AI 的基礎概念、最新發展，以及它與心理學、哲學、社會的深度對話。

你可能也想看

Mech muse 智慧新知

🤖Gemini Robotics 1.5 登場：會思考的「腦—手」協作，讓機器人更貼近真實世界 🌍

這篇文章帶你快速看懂 Google DeepMind 最新發表的 Gemini Robotics 1.5 與 1.5-ER。我會先解釋新聞亮點，再用時間線整理它的演進過程，接著補充大家最想知道的幾個「關鍵問題」，最後提供我的觀察與台灣產業的應用啟示。看完這篇，你會明白這不只是一次技術更新，而

#科技#機器人#人型機器人

2025/10/13

Mech muse 智慧新知

🤖Gemini Robotics 1.5 登場：會思考的「腦—手」協作，讓機器人更貼近真實世界 🌍

#科技#機器人#人型機器人

2025/10/13

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

背景：從冷門配角到市場主線，算力與電力被重新定價小P從2008進入股市，每一個時期的投資亮點都不同，記得2009蘋果手機剛上市，當時蘋果只要在媒體上提到哪一間供應鏈，隔天股價就有驚人的表現，當時光學鏡頭非常熱門，因為手機第一次搭上鏡頭可以拍照，也造就傳統相機廠的殞落，如今手機已經全面普及，題

#AI#算力#電力

2026/04/11

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

#AI#算力#電力

2026/04/11

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11