第三章 被遺漏的世界:物理聰明、社會粗暴,以及「世界」的存在論問題
第一節 懂杯子掉落,為何不懂一句話如何傷人
上一章的結尾把我們留在了一個不太舒適的位置上:世界模型所建模的「世界」,是一個被系統性地抽空了意義的物理截面。被排除在外的,是那些與意義、情感、社會規範、人的尊嚴有關的維度。
但這個說法到目前為止仍然是抽象的。讓我們把它拉進一個具體的場景,看看它在實踐中意味著什麼。
一個場景,兩種理解
想像一個搭載了先進世界模型的家用機器人,被部署在一個普通家庭裡。這個機器人擁有優秀的物理理解能力。它知道杯子放在桌子邊緣有掉落的風險,會主動把杯子推向桌子中央。它知道瓷碗比塑膠碗更脆弱,搬運的時候會放慢速度、增加握力。它能夠預測如果門被風吹動會撞到牆壁,所以會在起風的時候去關窗戶。它甚至能夠根據冰箱裡食材的保存期限,建議今天晚餐應該先用哪些食材。
從物理世界的角度來看,這個機器人是出色的。它的世界模型準確地捕捉了物體的物理特性、空間的幾何結構、時間的變化規律。
現在,場景轉換。
晚餐時間,這個家庭的兩個成員,一對夫妻,正在餐桌上吃飯。氣氛很安靜。不是那種舒適的安靜,而是那種剛吵完架之後、誰也不想先開口的安靜。妻子低頭吃飯,偶爾抬頭看一眼丈夫,但在目光接觸的瞬間就移開。丈夫把筷子放下來,似乎想說什麼,但最終只是端起杯子喝了一口水。
機器人觀察著這一切。從物理的角度,它看到的是:兩個人體物件坐在固定位置上,進行著規律性的進食動作,頭部偶爾有小幅度的旋轉,聲波頻率接近於零。一切正常,沒有任何物理狀態的異常需要干預。
但是,任何一個六歲的孩子走進這個房間,都會立刻感知到一件機器人完全「看不見」的事情:這兩個人正在痛苦。
孩子不需要任何人告訴他這一點。他不需要分析聲波頻率,不需要測量目光接觸的時長,不需要計算進食速度的統計偏差。他走進房間的那一刻,就感受到了空氣中的張力。他知道爸爸媽媽不開心。他甚至可能知道,以一種他自己無法言語化的方式,他現在不應該大聲說話,不應該要求看電視,不應該問「你們為什麼不說話」。
孩子所擁有的這種能力,不是物理理解。它是社會理解:對人際關係中的情感狀態、權力動態、未說出口的規則的即時感知。這種理解的對象不是物體的位置和運動,而是人與人之間那個看不見的場域,由情感、期望、歷史、脆弱性所共同構成的場域。
而這個場域,不存在於任何世界模型的狀態空間中。
社會世界的結構:不可見但絕對真實
讓我們把這個觀察推得更遠一些。
人類生活的世界,不只包含物理實體和物理規律。它還包含一整套物理上不可見、但效力極為真實的社會結構。
制度就是其中之一。當你走進一家銀行,銀行的存在不只是一棟建築物加上一群人。它是一套由法律、契約、信任、慣例所構成的制度結構。你把錢存進銀行,不是因為你信任那棟建築物的物理安全性,而是因為你信任一套你從未親眼見過的制度保障,存款保險、中央銀行的最後貸款人角色、金融監管體系。這些東西沒有物理質量,無法被攝影機拍到,無法被物理模擬器模擬。但它們是你願意把畢生積蓄放在那裡的原因。
規範是另一個。在不同的文化中,同一個物理動作可以有截然不同的社會意義。在某些文化中,直視長輩的眼睛是尊重的表現;在另一些文化中,這是冒犯。在某些情境中,沉默表示同意;在另一些情境中,沉默表示抗議。這些規範不是物理定律,沒有任何力場決定你應不應該直視長輩的眼睛。它們是社會建構的、被歷史和文化所承載的意義系統。
權力關係同樣如此。一個老闆對下屬說「你覺得呢」和一個下屬對老闆說「你覺得呢」,在物理上是完全相同的聲波振動。但在社會意義上,它們可以是截然不同的言語行為,前者可能是虛偽的徵詢,後者可能是真切的請教,或者反過來,前者可能是真誠的開放,後者可能是不滿的諷刺。決定這些意義的不是聲波的物理特性,而是說話者與聽話者之間的權力關係、對話的歷史脈絡、以及雙方共享的文化預設。
而也許最微妙也最重要的,是羞恥與尊嚴。
一個人可以在物理上完全無恙,沒有受傷、沒有生病、身體的每一項指標都正常,但在社會意義上被徹底摧毀。一句在公開場合說出的話、一張未經同意卻被散布的照片、一次當眾的羞辱,都可以改變一個人的整個生命軌跡。這種傷害不留下任何物理痕跡,沒有傷口、沒有瘀青、沒有可以被攝影機拍到的損傷。但它是真實的。它的真實性不亞於,在某些情況下甚至超過,一次物理性的打擊。
一個世界模型可以精確地預測一個杯子從桌上掉落會碎裂。但它能預測一句話從一個人口中說出來會碎裂什麼嗎?
為什麼這不只是「尚未解決」的技術問題
面對上述的觀察,一個自然的反應是:「這些只是目前世界模型尚未納入的面向。隨著技術的進步,未來的世界模型完全可以加入社會理解的模組,情感辨識、文化規範資料庫、社會互動的預測模型。問題終將被解決。」
這個反應是合理的,而且在某種程度上,它是對的。確實有研究者正在嘗試建構所謂的「社會世界模型」(social world model),試圖讓AI學會預測人類的社會行為。大型語言模型在某種程度上已經展現了對社會規範的「隱含理解」,至少在語言的層面上,它們知道什麼話是禮貌的、什麼是冒犯的。而近年來的「心智理論」(Theory of Mind)研究也在探索如何讓AI推測他人的信念和意圖。
但我認為,這些進展雖然重要,卻不能消解我們在這裡所辨識出的問題的根本性質。原因有二。
第一個原因是結構性的。物理世界的規律具有一個社會世界所缺乏的特性:普遍性。重力在東京和紐約是一樣的。水在地球上任何地方都往下流。光速在所有慣性參考系中都是常數。正是這種普遍性,使得物理世界可以被有限的方程式所描述,你不需要為每一個地點單獨建模。但社會規範不具有這種普遍性。直視眼睛的意義在日本和巴西不同。沉默的意義在葬禮和談判桌上不同。同一句話由不同的人在不同的情境中說出來,意義可以截然相反。這意味著,社會世界不能像物理世界那樣被一組普遍定律所壓縮。它的複雜性不是量的問題,不是「需要更多的數據和更大的模型」就能解決的問題,而是質的問題:社會意義本身就是情境依賴的、歷史性的、不可能完全拖勾的。
第二個原因更加根本。它涉及到「理解」這個詞在社會領域中的意義變化。
當我們說一個系統「理解」了物理世界,我們通常指的是它能夠準確地預測物理事件的發生。球會掉下去,水會流動,光會折射。這裡的「理解」可以完全操作化為預測能力。但當我們說一個人「理解」另一個人的痛苦時,我們指的不只是他能夠預測那個人接下來會哭、會沉默、或會離開房間。我們指的是他在某種程度上能夠感受到那份痛苦的重量,不是作為一個外部觀察者在記錄行為模式,而是作為一個同樣脆弱的存在者在回應另一個存在者的脆弱。
這種「理解」,同理心意義上的理解,不是預測能力的延伸,它要求的是一種完全不同的東西:主體性。你必須自己是一個可以感受到痛苦的存在者,才能在嚴格的意義上「理解」另一個存在者的痛苦。一個沒有主體經驗的系統,即使它能夠精確地預測一個悲傷的人接下來的每一個行為,它也不「理解」那份悲傷。就像一個完美的色彩分析儀可以精確地測量一朵紅色玫瑰的光譜數據,但它不「看見」紅色。
這裡觸及的,就是上一章結尾所區分的那兩種「理解」之間的鴻溝:操作性的理解與存在性的理解。世界模型所追求的是前者:能預測、能規劃、能控制。但人類在社會世界中所依賴的,在最根本的層次上,是後者:能感受、能回應、能承擔。
一個被系統性遺漏的維度
讓我們把這一節的線索收攏。
當前的世界模型研究,無論是哪一條技術路線,幾乎全部聚焦在物理世界的建模上。這不是偶然的疏忽。它反映了一個深層的技術選擇:物理世界的規律是普遍的、可量化的、可驗證的,因此適合被數學模型所捕捉。而社會世界的「規律」,如果可以稱之為規律的話,是情境性的、文化性的、歷史性的,充滿了物理世界所沒有的歧義性和不確定性。
選擇先建模物理世界,在技術策略上是完全合理的。但如果這個策略性的選擇,在不知不覺中被當成了一個本體論的宣稱,好像「世界」就等於「物理世界」,好像社會的維度只是物理維度的附加品或衍生物。那麼,一個危險的滑坡就開始了。
因為在這個滑坡的底部等著的,是一個世界觀層面的後果:一個只擅長物理推理的AI,如果被大規模部署到需要處理社會情境的場景中,客服、照護、教育、心理健康、人事管理、司法判斷,它不會因為缺乏社會理解而「停下來」。它會繼續用它唯一擁有的工具,物理世界的模式辨識和預測,來處理那些本質上不是物理問題的問題。它會把人的痛苦當作行為模式來分類,把人際衝突當作需要被優化的效率損失來處理,把文化禁忌當作統計上的異常值來忽略。
它不會刻意冒犯任何人。它只是不知道「冒犯」是什麼。
這就是我在本章標題中所說的「物理聰明、社會粗暴」。一個世界模型可以對物體的運動軌跡做出精確到毫米的預測,卻完全看不見同一個房間裡兩個人之間的張力。它懂得杯子掉落的每一個物理細節,卻不懂一句話如何讓一個人在那之後的三年裡都無法走進同一個房間。
而如果這種不對稱被建設進未來的AI基礎設施中,如果世界模型在物理維度上的精確性讓人們忘記了它在社會維度上的根本性盲點,那麼,我們面臨的就不只是一個技術問題,而是一個關於「誰來定義世界」的文明問題。
這個問題,正是下一節要追問的。
第二節 「世界」的存在論問題:客觀世界、環境世界、生活世界
上一節我們從一個具體的場景出發,揭示了世界模型在社會維度上的根本盲點。但如果我們把問題停留在「世界模型缺少社會理解模組」這個層次上,我們就低估了這個問題的深度。
因為真正的問題不是世界模型「遺漏」了世界的某些面向。真正的問題是:世界模型對「世界」這個詞的定義本身,就已經預先排除了那些面向。
這不是一個技術疏失。這是一個哲學預設。
而要看清楚這個預設的形狀,我們需要一些不屬於工程學的思想工具。
物理學的世界:從何處開始被縮減的
讓我們先釐清世界模型所預設的那個「世界」究竟長什麼樣子。
在世界模型的技術框架中,「世界」被處理為一個由狀態和轉換規律構成的系統。狀態是一組可以被數學描述的物理量:位置、速度、質量、溫度、光譜分布。轉換規律是一組決定這些物理量如何隨時間變化的函數:力學方程式、能量守恆定律、機率分布的演化。在這個框架中,一張桌子是一組幾何參數和材質屬性。一杯水是一個流體動力學的模擬對象。一個人是一個具有特定高度、質量、運動速度和關節自由度的物理實體。
這是一幅清晰的、精確的、在數學上自洽的世界圖像。而且它不是憑空捏造的,它是從近代物理學的巨大成功中提煉出來的。從伽利略到牛頓到愛因斯坦,物理學所做的事情,本質上就是將世界的複雜性壓縮為一組數學結構,然後用這些結構來預測世界的行為。這個策略取得了人類認識史上最驚人的成功:我們可以預測行星的軌道精確到秒,可以將探測器送到六十億公里外的冥王星旁邊,然後精確地飛越冥王星。
世界模型繼承的,正是這個物理學的成功策略。
但物理學的成功有一個常常被忽略的代價:為了取得那種精確度,物理學必須系統性地排除世界中某些維度的存在。一顆蘋果在牛頓力學中只有質量和位置。它的顏色、氣味、口感、它讓你想起的那個秋天的下午,這些東西不在方程式裡。不是因為牛頓不知道蘋果有氣味,而是因為他的方法論要求他把這些東西排除在外,才能建立起一個可以精確計算的模型。
這個排除是有意識的、有方法論根據的、而且在物理學的範圍內是完全合理的。問題出在當這個排除不再被意識到的時候,當人們開始以為物理學所描述的世界就是世界的全部,而不是世界的一個特定截面。
科學哲學家亞歷山大·夸黑(Alexandre Koyré),一位出生於俄國、在法國從事研究的科學史學者,對近代科學革命的思想基礎做過也許是最深刻的分析。在他的經典著作中描述了這個轉變:近代科學的誕生,不只是一套新的理論取代了舊的理論,而是一個全新的世界觀取代了舊的世界觀。在亞里斯多德的宇宙中,世界充滿了質的差異,不同的物質有不同的「本性」,不同的位置有不同的「意義」。但在伽利略和牛頓之後的宇宙中,這些質的差異被系統性地抹除了,取而代之的是一個由均質的空間、均質的時間、以及數學化的力學定律所構成的世界。夸黑稱這個轉變為「從封閉世界到無限宇宙」,但他同時指出,這個「無限宇宙」雖然在數學上更精確,在存在論上卻更貧乏。
世界模型所預設的世界圖像,正是這個已經被縮減過的「無限宇宙」。它繼承了物理學的精確性,也繼承了物理學的存在論貧乏。而且在繼承的過程中,經常不再記得這個貧乏是一個有意識的方法論選擇,而不是世界本身的特徵。
烏也斯庫爾的Umwelt:每一個生命都活在不同的世界裡
如果物理學所描述的那個由粒子和力場構成的均質宇宙不是世界的全部,那麼被排除在外的是什麼?
對這個問題的第一個有力回答,來自一個也許出人意料的方向:生物學。
雅各布·馮·烏也斯庫爾( Jakob von Uexküll)是二十世紀初期的愛沙尼亞裔德國生物學家。他的主要研究對象不是人類,而是動物:蜱蟲、海膽、水母、蜜蜂。但正是對這些看似簡單的生物的細緻觀察,讓他提出了一個對後來的哲學、認知科學、乃至AI研究都產生了深遠影響的概念:Umwelt,通常被翻譯為「環境世界」或「周遭世界」。
烏也斯庫爾在1934年出版的《動物與人類環境世界的漫步》中,對蜱蟲的Umwelt做了一段著名的描述。一隻蜱蟲棲息在樹枝上,等待一隻哺乳動物從下面經過。它的整個世界,它的Umwelt,只由三個信號構成:丁酸的氣味(哺乳動物皮膚腺體的分泌物)、攝氏三十七度的溫度(哺乳動物體表的溫度)、以及毛髮的觸感。當蜱蟲偵測到丁酸的氣味時,它鬆開樹枝讓自己掉落。當它感受到三十七度的溫度時,它開始在溫暖的表面上爬行。當它觸及毛髮的間隙時,它鑽入皮膚吸血。
在蜱蟲的Umwelt中,不存在顏色、聲音、語言、音樂、引力波、民主制度、或者關於宇宙起源的理論。這些東西在物理學所描述的宇宙中是存在的,光波在蜱蟲的周圍傳播,聲波在空氣中振動,但它們不在蜱蟲的世界裡。烏也斯庫爾的關鍵洞見是:每一個有機體都不是生活在一個客觀的、統一的、所有生命共享的「世界」中,而是生活在一個由自身的感知器官和行動器官所界定的、獨一無二的Umwelt中。
蜜蜂的Umwelt包含紫外線頻段的視覺和偏振光的圖案,這些在人類的Umwelt中是不可見的。蝙蝠的Umwelt包含超音波回聲的三維空間結構,一個人類無法想像其質感的「聽覺景觀」。而人類的Umwelt包含語言、概念、歷史記憶、對未來的焦慮,這些在任何非人類動物的Umwelt中都不存在。
每一個Umwelt都是世界的一個特定截面。沒有任何一個Umwelt等同於世界的全部。
如果我們接受烏也斯庫爾的這個洞見,那麼世界模型的處境就變得更加清晰了。世界模型所建構的,是一個特定的Umwelt,一個由攝影機、感測器、物理模擬器所界定的人工Umwelt。這個Umwelt能夠「看見」的東西,取決於它的感知裝置能夠偵測什麼:像素、深度值、慣性數據、力回饋。它能夠「理解」的世界,就是這些感知數據所能建構的世界。
而那些不在這個人工Umwelt中的東西,一段沉默的意義、一個眼神的歉意、一個制度的正當性、一段歷史的重量,對於世界模型來說,就像紫外線對於人類的裸眼一樣:它們存在,但不可見。
胡塞爾的Lebenswelt:人所棲居的世界不是物理學的世界
烏也斯庫爾的Umwelt概念為我們提供了一個強有力的分析工具,但它仍然是從外部觀察者的角度來描述的,我們在「觀察」蜱蟲的Umwelt,就像我們在「觀察」世界模型的人工Umwelt。但人的情況有一個烏也斯庫爾的框架不完全能捕捉的面向:我們不只是「擁有」一個Umwelt,我們棲居在Umwelt中。
這個「棲居」的維度,是現象學(phenomenology)傳統所追問的核心問題。
埃德蒙·胡塞爾(Edmund Husserl)是現象學的創立者,一位出生於十九世紀中期摩拉維亞的德語哲學家,其影響力延伸到了心理學、社會學、認知科學等多個領域。在他晚年最重要的著作之一《歐洲科學的危機與超越論的現象學》中,他提出了一個針對近代科學的深刻批評,以及一個他稱之為「生活世界」(Lebenswelt)的概念。
胡塞爾的批評是這樣的:近代科學,特別是伽利略以來的數學化自然科學,取得了巨大的成功,但這個成功是有代價的。為了將世界數學化,科學必須把世界中那些不能被數學化的面向排除在外:顏色、聲音、氣味、情感、意義、價值、目的。科學把這些被排除的面向稱為「主觀的」,而把留下來的數學結構稱之為「客觀的」,好像數學結構才是世界的「真正」面貌,而我們日常經驗中的世界只是一層需要被穿透的幻象。
胡塞爾認為,這恰恰是顛倒了事實。在我們進行任何科學研究之前,我們已經在一個世界中了。這個世界,生活世界,不是由粒子和力場構成的,而是由我們的知覺、行動、情感、與他人的互動、以及賦予這一切以意義的理解所構成的。科學從這個生活世界中出發,用一種特定的方法(數學化和實驗控制)對它進行抽象和提煉,得到一個精確但貧乏的世界圖像。然後,科學反過來宣稱這個提煉後的圖像才是「真正的世界」,而它所出發的那個豐富的生活世界反倒只是「主觀經驗」。
胡塞爾稱這個顛倒為「科學的危機」,不是科學的技術出了問題,而是科學遺忘了自己的根基。物理學的世界圖像是從生活世界中提煉出來的,但它反過來取代了生活世界的地位,讓人們以為抽象才是真實、經驗反倒是幻覺。
如果我們把胡塞爾的這個批評帶到世界模型的語境中,它的力量就變得非常清晰。
世界模型所建構的,正是一個類似於物理學世界圖像的東西,一個由數學化的狀態和轉換規律構成的抽象世界。它從我們的生活世界中提取數據(影像、感測器讀數、人類行為的記錄),用這些數據訓練出一個數學模型,然後宣稱(或至少暗示)這個模型「理解」了世界。
但它「理解」的那個世界,與我們棲居的那個世界,從一開始就不是同一回事。
你走進一家你每天都去的咖啡店。在物理學的世界裡,也就是在世界模型的狀態空間裡,這是一個具有特定幾何結構、光照條件、溫度分布的空間,裡面有若干可被追蹤的物體和人體。但在你的生活世界裡,這是一個你在這裡寫完了碩士論文的地方,是你第一次和某個人見面的地方,是在某個特別疲憊的下午讓你感到暫時安全的地方。咖啡的氣味不只是一組化學分子的濃度分布,它是一種召喚,把你帶回那些下午。靠窗那張桌子不只是一個幾何位置,它是「你的位置」。
這些東西,記憶、歸屬感、安全感、「這是我的地方」的那種感覺,不存在於物理學的狀態空間中,因此也不存在於世界模型的狀態空間中。但它們構成了你的世界。不是點綴,不是附加品,而是你之所以在乎這個世界的核心原因。
一個不包含這些東西的「世界模型」,建模的不是你的世界。它建模的是你的世界被抽空了意義之後的殘餘。
同一條街道,三個世界
讓我把這一節的論證用一個最終的例子收攏起來。
想像一條老街。物理上,它是一段柏油路面、兩排建築物、若干電線桿和路燈。一個世界模型可以完美地重建這條街的三維幾何結構、模擬它的光照條件隨一天中不同時刻的變化、預測一輛車以特定速度駛過時需要多長時間到達街的盡頭。
但在這條街上住了四十年的老先生所認識的這條街,與世界模型所建構的這條街,幾乎沒有任何交集。
他認識的這條街,是一條在他結婚那年還沒有鋪柏油的泥土路。是他的孩子學會騎腳踏車的地方,就在第三根電線桿旁邊。是轉角那家早餐店老闆娘每天早上會探出頭來跟他打招呼的地方,那個老闆娘在去年過世了,現在那裡變成了一家連鎖便利商店。他每次經過那個轉角,都會有一個瞬間的停頓,不是因為交通號誌,而是因為記憶。
這就是三個世界的疊合。物理學的世界:幾何、光學、力學。烏也斯庫爾的Umwelt:由特定的感知能力所界定的可見世界。胡塞爾的Lebenswelt:由棲居、記憶、意義所構成的生活世界。
世界模型能夠建模的,只有第一個。它正在努力觸及第二個。而第三個,那個有記憶、有失去、有一瞬間的停頓的世界,也許從根本上就不在它能夠抵達的範圍之內。
不是因為技術不夠先進。而是因為那個世界的存在方式,從結構上就不是「狀態加上轉換規律」所能捕捉的。它不是一組數據,它是被活過的經驗。
而如果世界模型的「世界」不包含這個被活過的維度,那麼當這種模型被大規模部署、當它開始實質性地影響人們的生活、當它的「世界觀」透過無數次的日常互動被悄悄內化為人們對「世界」這個詞的內設理解,那會發生什麼事?
當「世界」的定義權被AI接管,它決定什麼是「世界」、什麼不是「世界」,這將帶來什麼樣的文明後果?
這是下一章要面對的問題。而在走向那個討論之前,我們已經抵達了一個足夠清晰的位置:世界模型的問題不只是「它做得還不夠好」。它的問題在於,它對「世界」的定義本身,就排除了人之所以在乎世界的大部分原因。


















