序章 當 AI 開始「生成世界」
第一節 一隻能寫十四行詩的機器,為什麼連門都過不了
2024年三月,一段影片在矽谷的 AI 圈子裡引發了小規模的震動。
影片中,一個名叫 Figure 01 的人形機器人站在一張料理台前,與一位人類工程師進行對話。工程師問它:「你看到什麼?」機器人清晰地回答:「我看到一個紅蘋果放在盤子上,一個瀝乾架,還有幾個杯子。」工程師接著問:「能給我一個可以吃的東西嗎?」 Figure 01 停頓了一下,然後拿起了蘋果,遞給了他。
這個影片被廣泛地轉傳,有人稱之為「ChatGPT 長出了身體」。Figure AI 的執行長 Brett Adcock 在社群媒體上宣布:「這是人類歷史上第一次,一個人形機器人能夠真正推理它所處的環境,並依據推理採取行動。」影片裡的一切看起來都很流暢:機器人能夠辨認物體、理解指令、規劃行動、執行任務,甚至能在執行任務的同時回答問題。它的背後是 OpenAI 的大型多模態模型,為它提供了「看見」與「說話」的能力,再加上 Figure 自己訓練的神經網路,負責將觀察轉化為動作。
從純粹的語言能力來看,這個機器人的表現令人印象深刻。它能描述眼前的場景,解釋自己的行動邏輯,甚至能討論自己為什麼這樣做。如果只聽它說話,你很難不被說服:這個東西「理解」了它所處的世界。
但如果你不只是聽它說話,而是仔細看它的身體,就會看到另一個故事。
Figure 01 在料理台前的動作是緩慢的、略顯猶豫的。它拿起蘋果的方式,更接近於一個非常謹慎地操作脆弱裝置的技術員,而不是一個知道「蘋果可以吃」的智能體在執行一個自然的舉動。在更晚些時候發布的其他影片中,情況更加地明顯:當 Figure 的機器人被部署到 BMW 的工廠時,它們能做的事情基本上就是在工廠地板上緩慢地移動,以及將車架部件從一個工作站搬到另一個工作站。這些任務距離「推理環境並採取行動」的宣稱,還有著一道難以忽視的落差。
而同一時期,在其他實驗室和工廠裡,機器人在真實世界中的笨拙更是以一種幾乎是荒謬喜劇的方式暴露出來。2024年到 2025 年間,從中國到美國,一系列人形機器人在測試中「失控」的影片接連爆紅:有的在工廠裡劇烈抖動,差點擊中旁邊的技術人員;有的在節慶活動中突然向前撞向安全柵欄,嚇壞了周圍的觀眾。一位機器人技師事後在社群媒體上解釋:「涉及的技術原因是我們在腳沒踩到地面的情況下執行了全身運動策略,我們不能這樣做。」
這句看似隨意卸責的說明,其實是指向了一個深刻的技術問題:機器人的「大腦」不知道自己的腳不在地上。它有一套經過訓練的運動策略,但這套策略假設了一個它並未真正理解的物理條件,地面的存在、重力的方向、身體與環境之間的力學關係。當這些條件稍有變化,腳離開了地面,整個系統就崩潰了。
這裡展現的落差,值得我們停下來仔細思考。
同一個時代的 AI,能夠通過律師資格考試、撰寫十四行詩、解釋量子力學的基本原理、在幾乎所有的學術基準測試中都達到或超過人類的平均水平。但當它接上一具身體之後,連最基本的物理互動都處理不好:一個幼兒園孩子能輕鬆完成的任務,開門、走過門檻、不要弄倒檯面上的杯子,對於全世界最先進的人形機器人來說,仍然是個巨大的挑戰。
一個能寫十四行詩的機器,為什麼連門都過不了?
這個問題不是一個腦筋急轉彎的謎語,它其實是指向了當代 AI 發展中一個最深層的結構性裂縫。
我們所熟悉的 ChatGPT、Claude、Gemini、Llama,這些被統稱為「大型語言模型」(Large Language Models, LLMs)的系統,它們的核心能力是在語言的世界裡運作。它們讀過人類文明產生的幾乎所有文字,從中學會了語言的統計結構,能夠以令人驚奇的精確度預測「下一個詞」應該是什麼。而由於這些語言本身壓縮了大量的知識、因果敘事與社會規則,它們的語言表現看起來往往非常「懂」這個世界。
但這裡有一個微妙而關鍵的區分:它們接觸的是「世界在語言中的痕跡」,而不一定是世界本身。一個 LLM 知道「杯子從桌子上掉下來會打破」這個句子是合理的,因為它在訓練資料中見過無數類似的文本。但它不一定「理解」重力是什麼、玻璃的物理特性如何導致破裂、或者如果在月球上做同樣的事情會發生什麼不同的結果。它知道這個句子的「正確續接」是什麼,但它不一定知道這個事件的「物理機制」是什麼。
換一個方式說:它活在語言的世界裡,而不是活在物理的世界裡。
這就是為什麼同一個 AI 能寫出優雅的十四行詩,却控制不了一隻機械手臂穩定地拿起一個杯子。十四行詩是語言的事,拿杯子是世界的事。前者需要理解詞與詞之間的統計關係,後者需要理解物體與物體之間的因果關係,重量、摩擦力、形狀、材質、接觸點的位置、施力的角度。這些事情,是一個幼兒園孩子的身體每天都在做的,却是當今最先進的 AI 最不擅長的。
正是這個落差,在 2024 年到 2025 年間,引發了 AI 研究史上最引人注目的一場路線之爭。
2025 年 11 月,圖靈獎得主、Meta 首席 AI 科學家楊立昆(Yann LeCun)做了一件讓整個業界震驚的事:他離開了 Meta。這位在 Meta 工作了十二年、創建了 Facebook AI Research 實驗室的科學家,決定離開這個每年投入數百億美元於大型語言模型的巨頭,去創辦一家名為 AMI(Advanced Machine Intelligence)的新公司。他所押注的方向,不是語言模型,而是他花了多年研究的「世界模型」(world model)。
楊立昆的話說得極其直接。在一次公開演講中,他說:「大型語言模型是通往人類級別智能的死胡同。」他用了一個生動的比喻:「用 LLM 來理解真實世界,就像只用口述來教一個人開車。你可以背下所有的交通規則,但你永遠學不會真正開車。」在 2025 年的 NVIDIA GTC 演講中,他進一步闡述:LLM 的問題不在於它做得不夠好,而在於它的架構本身就決定了它永遠無法走到的地方。它能處理語言,但不能理解物理世界;能預測下一個詞,但不能預測下一個世界狀態;能生成計畫的文字描述,但不能真正規劃行動。
他提出的替代方案是:不要再試圖從語言中「學出」世界,而是讓 AI 直接從感知數據中建構一個內在的世界模型,一個能夠預測物理狀態如何變化、行動如何導致後果、未來如何在多種可能性中展開的內部表徵。他設想的是一種「現實的抽象數位雙胞胎」,讓 AI 可以用來理解世界、預測行動的後果、並據此進行規劃。
但楊立昆的這個立場並非沒有爭議。在當代 AI 的另一端,OpenAI 的路線代表了一種截然不同的信念:語言就是通往世界理解的途徑。只要模型夠大、數據夠多、訓練夠久,語言模型最終會「浮現」出對世界的理解。而 OpenAI 與 Figure AI 的合作就是這條路線的具體實踐:把語言模型的智能「綁定」在一具身體上,看看會發生什麼。
而幾乎與楊立昆同時,OpenAI 的前首席科學家 Ilya Sutskever 也在一次訪談中說出了一句耐人尋味的話:「『只要加更多 GPU』的時代結束了。」兩位深度學習的先驅者,從不同的方向,指向了同一個判斷:當前的主流路線已經接近它的極限。
但他們提出的替代方案卻完全不同。楊立昆押注的是世界模型,讓AI不再只活在語言裡,而是直接從感知數據中建構對物理世界的內在理解。Sutskever 的方向則截然不同:他在2024年離開了自己共同創辦的OpenAI,成立了一家名為Safe Superintelligence Inc.的新公司,公司名稱本身其實就是他的全部宣言。他認為超級智能的到來是不可避免的,而人類最緊迫的任務不是讓AI更強大,而是確保那個即將到來的超級智能是安全的。至於OpenAI自身,則繼續沿著原來的路線向前邁進,試圖用更大的規模、更多的模態、更複雜的推理鏈來彌補那個缺口。它的賭注是:也許語言模型的路還沒有走到盡頭,也許規模本身就是通往理解的途徑。
這不是一場普通的技術爭論。它的核心問題是:AI 要如何「理解」世界?是從語言中學出世界,還是從世界中直接建模?是讓 AI 讀更多的書,還是讓 AI 開始「動手」?
而這場爭論的意義,遠遠超出了AI技術圈子。
因為它實際上是在問:當我們說一個智能體「理解世界」時,我們究竟在說什麼?「理解」是指能夠用正確的語言描述世界,還是指能夠在世界中有效地行動?是指能夠預測「接下來會發生什麼」,還是指能夠「在世界中承擔」?這些問題,不只是 AI 工程師需要回答的;它們同樣是心理學家、哲學家、認知科學家正在追問的問題。
而當我們把目光從技術細節抬起來,看向這場爭論的更深處,會發現它更是觸及了一個關於人類文明未來的根本問題:如果有一天 AI 真的能夠「建模世界」,能夠預測世界的變化、模擬行動的後果、甚至生成一個可以被進入和探索的虛擬世界,這將對我們理解「世界」、理解「理解」、理解「人的位置」,產生什麼樣的影響?
這篇文章將沿著這條線索展開。從「世界模型是什麼」出發,經由它的技術能力與根本局限的實證分析,一步一步地走向更深的問題:世界模型將如何重塑文明的樣貌?當「世界」的定義權被 AI 接管,會發生什麼?人的主體性將何去何從?哲學如何回應?而智能與智慧之間,究竟隔著什麼?
但在進入這些問題之前,我們先需要理解一件更基本的事:「世界模型」究竟是什麼?它與我們已經熟悉的大型語言模型有什麼本質差異?而為什麼一位圖靈獎得主願意賭上自己的職業生涯,也要把籌碼押在它上面?
第二節 從「生成世界」到「理解世界」:一道裂縫,與它背後的文明問題
讓我們回到那個落差。
一個能用語言精確描述世界的系統,為什麼控制不了一具身體在世界中行動?一個能通過律師資格考試的AI,為什麼不知道自己的腳不在地上?
表面上,這看起來是一個工程問題,只要感測器更精準、運動控制更穩定、訓練數據更豐富,落差終將被弭平。但如果我們仔細檢視這個落差的內部結構,會發現它指向的不是工程技術的不足,而是一個更根本的區分:「在語言中談論世界」和「在世界中持續行動」,是兩種結構上不同的智能形式。
語言中的智能,處理的是符號與符號之間的關係。「杯子從桌上掉落會打破」這個句子之所以成立,是因為語言模型在龐大的文本語料中觀察到這些詞彙共同出現的統計規律。它不需要知道重力的加速度是多少,不需要知道玻璃的分子結構為什麼在撞擊下會斷裂,甚至不需要知道「掉落」在物理上究竟意味著什麼。它只需要知道:在人類寫過的數十億句話中,「杯子」「掉落」「打破」這幾個詞經常以這種方式被排列在一起。
而行動中的智能,處理的是狀態與狀態之間的因果關係。一個機器人要把杯子從桌上拿起來,它需要的不是關於杯子的語言知識,而是關於杯子的物理知識:它的重量、重心、表面的摩擦係數、它與桌面之間的接觸面積、施力的角度與速度如何影響杯子的運動軌跡、如果手指施力過大或過小分別會發生什麼。這些知識不存在於任何一個句子中,而存在於物理世界本身的運行規律中。
楊立昆用了一個令人難忘的數字來說明這個差距的規模:一個四歲的孩子在成長過程中,僅僅透過視覺所接收的感官資料量,就相當於一個大型語言模型需要花四十萬年才能「讀」完的文本資料量。孩子在這四年裡建立的,不是一個關於世界的「語言描述」,而是一個關於世界如何運作的「內在模型」,重力的方向、物體的恆常性、力與運動的關係、自己的身體在空間中的位置。而這個內在模型的建構,幾乎完全不依賴語言。孩子在學會說「球會滾」這三個字之前很久,就已經知道球會滾了。
這就是「世界模型」這個概念的起點。
世界模型的核心主張是:如果我們希望AI不只是在語言的世界裡操作,而是能夠在物理的世界裡行動,那麼AI需要的不只是更大的語言模型,而是一種根本不同的能力——在內部形成一個關於世界如何運作的表徵,用這個表徵來預測世界狀態的變化,並據此規劃自己的行動。
這聽起來也許像是一個純粹的技術主張。但如果我們把視野稍微打開一些,就會看到它背後隱藏著一個遠比技術更深遠的問題。
那個問題是這樣的:如果AI真的能夠在內部「建模」世界,能夠預測物理狀態的變化、模擬行動的後果、甚至生成一個可以被進入和探索的虛擬世界,那麼,它所建構的那個「模型中的世界」,與我們所棲居的「真實的世界」,是同一回事嗎?
如果不是,差異在哪裡?
如果是,那意味著什麼?
而更讓人擔心的問題也許是:當AI越來越善於替我們建模世界、預測未來、規劃行動,我們自己理解世界、面對未知、做出判斷的能力,會因此增強,還是會悄悄萎縮?
這些問題,不是等AI技術成熟之後才需要面對的。它們現在就已經在發生了。每一次我們讓演算法替我們篩選資訊、預測偏好、安排路線、評估風險,我們都在將自己對世界的一小片理解外包出去。世界模型技術的發展,只是把這個已經在發生的趨勢,推向一個更極端、更系統化、也更難以察覺的方向。
這篇系列文章要處理的,正是這個方向。
在接下來的篇章中,我們將從「世界模型究竟是什麼」出發,穿越它的技術地圖與根本瓶頸,進入它對文明的可能影響、對人類主體性的威脅、以及哲學能夠提供什麼樣的回應。我們不會急著給出答案。我們會做的是:一步一步地追問,直到問題的形狀變得足夠清晰,清晰到讀者可以帶著它離開,用自己的方式繼續思考。
但在這之前,我們需要先理解一件更基本的事:「世界模型」這四個字,在技術上究竟指的是什麼?它與我們已經熟悉的大型語言模型,在架構上、在目標上、在智能的形式上,有什麼根本的差異?而從Dreamer到JEPA,從Genie到Cosmos,四條截然不同的技術路線,各自又對「理解世界」下了什麼樣不同的定義?
而這些問題是下一章的任務。
第三節 這篇文章將走向哪裡,以及它為什麼選擇這樣走
在繼續之前,讓我坦白地說一件事。
這篇文章不會是一篇AI技術的導覽手冊。市面上已經有太多這樣的文章了,它們告訴你世界模型有哪幾種技術路線、各自的架構長什麼樣、跑了哪些基準測試、在哪些任務上達到了最先進的水準。這些資訊是有價值的,但它們回答的是「怎麼做」的問題,而不是「這意味著什麼」的問題。
這篇文章想追問的是後面那個問題。
具體來說,它追問的是一條從技術延伸到文明的線索。這條線索從一個具體的技術概念出發:世界模型,但它不會停留在技術的層面上。它會沿著一條逐步深入的路徑前進:先理解世界模型是什麼、它與語言模型有什麼根本差異、當前的技術路線各自走到了哪裡;然後追問這些技術路線所遇到的不只是工程瓶頸,還有哲學困境:「模型中的世界」究竟是不是「世界」?然後,當這個哲學困境被充分展開之後,它會將我們帶向一個更不舒適的地帶:如果AI開始替我們建模世界、定義「世界」的邊界、決定什麼被納入模型而什麼被排除在外,這對人類文明意味著什麼?對我們每個人的判斷能力意味著什麼?對我們作為「理解者」而非「被代辦者」的身份意味著什麼?
最後,這篇文章會走到一個也許出乎讀者預期的地方:哲學。不是作為裝飾,不是作為文章結尾的感性升華,而是作為回應前面所有問題所必需的思想地基。現象學、分析哲學、科技哲學,這三條哲學線索將在文章的後半段被認真地、細密地展開,因為我們會發現,如果沒有這些思想資源,我們甚至無法準確地描述世界模型所帶來的挑戰究竟是什麼。
我必須預先承認:這篇文章不會在結尾給出一個令人安心的結論。它不會告訴你「世界模型是好的」或「世界模型是危險的」。它會做的是,盡可能誠實地追問每一層問題,直到我們抵達一個足夠清晰的位置。在那裡,我們能夠看見「已經知道的」和「尚未知道的」之間的邊界究竟在哪裡。而那條邊界本身,也許就是我們這個時代最重要的智識地景。
這樣的寫法需要一個前提:讀者願意跟著走。
我假設這篇文章的讀者,是那些不滿足於知道「AI又有什麼新進展」的人。他們可能是心理學的研究者,對「內在模型」這個概念有著來自認知科學傳統的敏感;可能是心智哲學的學者,對「理解」與「預測」之間的區分有著專業性的警覺;也可能是心智科學的研究者,熟悉預測處理(predictive processing)和自由能原則(free energy principle),能夠看出世界模型與這些理論之間的共鳴與張力;也可能是資訊科技的從業者或研究者,對技術細節了然於胸,但很少有機會看到有人認真地追問這些技術的哲學意涵。
無論是哪一種讀者,我希望這篇文章能提供的不是資訊,而是一個思考的場域。在這個場域裡,技術事實和哲學追問不是兩個分開的部分,而是同一條思維階梯的不同層級,每一層都是被前一層的發現所「逼出來」的,而不是被作者從外部「硬接上去」的。
這是這篇文章選擇的寫法。也是它邀請讀者一起走的路。
那麼,讓我們從第一個台階開始:世界模型,究竟是什麼?





















