第四章 當世界被模型接管:文明後果與倫理風險
第一節 未來場景:從工具到agent,從生成內容到生成世界
前三章所做的事情,是沿著一條從技術到哲學的路徑,逐步揭示世界模型的能力、裂縫、以及它對「世界」這個詞的隱含定義。到目前為止,這些分析大體上是在「認識論」的層面上進行的,世界模型知道什麼、不知道什麼、它的「知道」在什麼意義上算是知道。
但從這一章開始,問題的導向與性質將發生轉變。
因為世界模型不會停留在實驗室裡,它正在被部署到真實世界中。而當一個帶有特定世界觀的技術系統被大規模部署時,它所影響的就不再只是「我們如何認識世界」這個認識論問題了,而是「我們將生活在一個什麼樣的世界裡」這個關乎每個人的實存問題。
在進入倫理風險的分析之前,我們需要先看清楚一件事:世界模型正在把AI帶向什麼方向?未來五到十年內可能出現的場景,與我們目前所熟悉的AI應用之間,有什麼質的差異?
從回答問題的AI到在世界中持續行動的AI
目前絕大多數人與AI的互動模式,仍然是問答式的。你打開ChatGPT,輸入一個問題或一段指令,AI生成一段回覆,互動結束。即使是最複雜的使用場景,用AI寫一份報告、做一次文獻回顧、生成一段程式碼,本質上仍然是一個「刺激—回應」的單次迴路。AI不記得昨天的對話(除非你刻意啟用記憶功能),不知道你在什麼地方、什麼時間、面對什麼情境,不理解你為什麼問這個問題而不是那個問題。它活在一個由prompt所定義的瞬時氣泡裡,氣泡在每次互動結束後就消散了。
世界模型所指向的未來,與這個圖像有著根本的差異。
當AI擁有了一個持續更新的世界模型,能夠追蹤環境的狀態、預測狀態的變化、根據目標規劃多步行動,它就不再是一個等待prompt的回答機器,而是一個在環境中持續存在、持續觀察、持續行動的agent。
這個轉變聽起來也許只是程度上的差異,但它實際上跨越了一道質的門檻。
一個問答式的AI是被動的。你不問,它不答。你關掉視窗,它停止存在。它對世界沒有持續性的理解,也沒有持續性的影響。但一個搭載了世界模型的agent是主動的。它在你不注意的時候也在觀察環境、更新它對環境的理解、評估是否需要採取行動。它不需要等你給出指令才能行動,事實上,如果它的世界模型預測到某種風險(你忘了關瓦斯、你的會議時間衝突了、你的車快沒油了),它會在你意識到之前就開始進行處理。
2025年,AI業界的一個核心趨勢正是這種轉變。無論是Google的Gemini系列、OpenAI的助理架構、還是Apple Intelligence的設備端整合,主要廠商都在推動AI從「對話工具」走向「環境中的持續助理」。這些系統還遠不是真正意義上的世界模型,但它們的發展方向是清晰的:讓AI理解你所處的情境、記住你的偏好和歷史、預測你可能需要什麼、在適當的時機主動提供協助。
而在機器人領域,這個轉變更加明確。序章中我們描述的Figure機器人、在BMW工廠中搬運車架零件的人形機器人、在模擬器中學會行走和恢復平衡的四足機器人,它們的共同點在於:它們不是在回答問題,而是在世界中行動。它們的AI不只需要「知道」某個事實,還需要在持續變化的物理環境中,即時地感知、預測、決策、執行,然後根據執行的結果調整下一步的行動。世界模型正是這種「感知—預測—規劃—行動」閉環的核心組件。
從生成內容到生成世界
同時,另一條平行的演化線正在AI的創造性應用領域展開。
在過去兩年裡,生成式AI已經從「生成一段文字」、「生成一張圖片」,演進到了「生成一段影片」、「生成一個三維場景」。Sora能夠生成一分鐘的高畫質影片。Google的Veo系列能夠生成具有特定視覺風格的短片。而我們在第一章中介紹的Genie 2已經能夠生成可以即時操作的三維互動世界。
這個趨勢的終點,如果我們沿著它的邏輯向前推演,不是「更好的影片生成器」,而是「世界生成器」。一個你不只是觀看、而是進入的虛擬環境。一個有自己的空間結構、物理規則、互動邏輯的數位世界。
這已經不是科幻電影的想像。遊戲產業正在積極擁抱這個方向。NVIDIA的Cosmos平台和Epic Games的Unreal Engine已經在探索如何用AI來自動生成遊戲世界的地形、建築、NPC行為、甚至敘事結構。電影產業開始使用AI生成的虛擬場景作為拍攝背景。建築設計師使用AI生成的互動式三維模型來讓客戶「走進」尚未建造的建築。醫學教育正在測試用AI生成的虛擬人體來訓練外科醫生。
在每一個案例中,AI都不只是在「生成內容」,它在「生成世界」。而這些被生成的世界不是靜態的圖片或影片,它們是可以被進入、被探索、被互動的環境。用戶不再是這些作品的觀眾,而是這些世界的居民。
從對話關係到共處關係
如果我們把這兩條線,「從問答到agent」和「從內容到世界」,疊合在一起,一個更完整的未來圖景就會浮現出來了。
在這個圖景中,AI不再只是你螢幕上的一個對話框。它是你家中一個持續存在的助手,搭載在機器人身上,或嵌入在你的居住空間裡,持續地感知環境、預測變化、管理日常。它也會是你工作中的一個協作者,不只回答你的問題,還能理解你當前的工作狀態、預測你接下來需要的是什麼、在你遇到困難之前就準備好可能的解決方案。它還是你娛樂中的一個世界創造者,生成可以讓你走進去的遊戲世界、故事世界與學習世界。
在這個圖景中,人與AI的關係不再是「問與答」,而是「共處」,你和AI共同處在一個物理或虛擬的環境中,持續地互動、相互影響、共同塑造著那個環境的狀態。
這個圖景聽起來也許令人興奮,也許令人擔憂,也許兩者兼具。
但無論你的感受如何,有一個事實是值得冷靜地予以審視的:在這個圖景中,AI對你生活的影響力,將發生一個質量級的跳躍。
一個問答式的AI影響的是你的資訊獲取,你問它什麼,它給你什麼。你保有完全的主動權:你決定問什麼、什麼時候問、要不要採用它的回答。
但一個搭載了世界模型的agent影響的是你的環境本身,它改變了你周圍的物理和資訊環境,而且在很多情況下,它是在你沒有意識到的時候進行這些改變的。它替你過濾了資訊、安排了行程、調整了家中的溫度和照明、為你推薦了今天的行動路線。這些改變如果單獨來看,每一個都是微小的、有益的、你甚至會感謝它的。但當它們加在一起,構成了一種新的環境條件:你就會開始生活在一個被AI預先整理過的世界裡。
而「生活在一個被預先整理過的世界裡」,與「生活在一個你自己去面對、去理解、去處理的世界裡」,是兩種根本不同的存在方式。
一個需要被仔細審視的轉變
讓我在這裡暫停一下,做一個重要的澄清。
我所描繪的上述圖景,不是為了製造恐懼。這些技術發展中的每一項,都有巨大的正面潛力。一個能夠預測老年人跌倒風險的家用AI可以挽救生命;一個能夠在模擬環境中訓練外科醫生的系統可以減少醫療事故;一個能夠為偏遠地區的孩子生成互動式學習世界的平台可以縮小教育差距。
我所描繪的這個圖景,是為了讓我們在充分看到這些正面潛力的同時,也清醒地看到一件事:這些技術所開啟的,不只是一組新的工具。它們開啟的是一種新的人類處境,一種人類歷史上從未有過的處境:我們將越來越頻繁地生活在由AI所建模、預測、甚至生成的世界之中。
而這種處境帶來的倫理風險,與我們目前所熟悉的AI倫理議題,演算法偏見、隱私侵犯、假資訊,有著質的不同。因為那些議題處理的是AI的輸出可能有什麼問題。而世界模型時代的倫理問題處理的是:AI所建構的環境本身,那個你生活在其中的、被AI預先整理過的世界,可能有什麼問題。
當你生活在一個被模型建構的世界裡,問題不再是「AI給了我一個錯誤的答案」。問題變成了:「我所處的這個世界,是誰定義的?按照什麼標準被裁切的?什麼被放進來了,什麼被排除在外?而我,知道嗎?」
這些問題,將在接下來的幾節中被逐一展開。
第二節 世界的定義權集中化
上一節描繪了一個正在成形的未來圖景:AI從回答問題的工具,走向在環境中持續行動的agent;從生成內容,走向生成世界;人與AI的關係,從問答走向共處。在這個圖景中,人們將越來越頻繁地生活在被AI建模、預測、甚至生成的世界之中。
現在讓我們追問:這個「被建構的世界」,是誰建構的?按照什麼標準?為了誰的利益?
平台從「內容平台」升級為「世界平台」
要理解這個問題的嚴重性,我們需要先回顧一段並不遙遠的歷史。
2010年代,全球經歷了一場深刻的權力重組。這場重組的核心,是社群媒體平台對資訊流動的控制權。Facebook、YouTube、Twitter、微信、TikTok,這些平台並不生產內容,但它們決定了什麼內容會被看見、被誰看見、以什麼順序被看見。它們的演算法決定了你的動態消息中會出現什麼、搜尋結果裡什麼排在前面、推薦欄位裡什麼被推送到你眼前。
這件事在當時看起來只是一個「便利性」的問題,演算法幫你篩選了資訊,讓你不用在海量的內容中大海撈針。但十年之後回顧,我們知道它遠不只是便利性的問題。當一個平台控制了資訊的篩選和排序,它實際上控制的是人們對現實的認知框架。哪些事件被呈現為「重要的」;哪些被淹沒在演算法的長尾中;哪些觀點被放大為「主流的」;哪些被降權為「邊緣的」;哪些人的聲音被推送到數百萬人的螢幕上,哪些人的聲音在發出的瞬間就消失了。
學者們後來為這種權力發明了一個名稱:認識論壟斷(epistemic monopoly),不是壟斷資訊本身,而是壟斷資訊被組織、被呈現、被賦予相對重要性的方式。
現在,讓我們把這個概念帶到世界模型的語境中,看看會發生什麼事。
如果說社群媒體平台壟斷的是「哪些資訊被看見」,那麼世界模型平台將壟斷的是一個更根本的東西:「世界長什麼樣子」。
這不是修辭而已,且讓我們具體地想像一下。
當NVIDIA的Cosmos平台被用來為機器人生成訓練環境時,平台的設計者決定了虛擬世界中包含哪些物理特性、哪些場景類型、哪些互動模式。當Genie類的系統被用來生成遊戲世界或虛擬教育環境時,模型的訓練數據和架構決定了這些世界的視覺風格、物理規則、可能的互動方式。當搭載世界模型的家用agent為你「整理」日常環境時,篩選資訊、安排行程、推薦路線、預測你的需求,它的世界模型決定了什麼被視為「相關的」、什麼被視為「風險」、什麼被視為「最佳」的選項。
在每一個案例中,一個至關重要的事情正在發生:對「世界」的定義,什麼是世界的一部分、什麼不是、什麼是重要的、什麼可以被忽略,正在從分散的、多元的、由無數個體各自構成的狀態,轉向集中的、由少數技術平台所決定的狀態。
社群媒體時代的認識論壟斷,壟斷的是「關於世界的敘事」。世界模型時代可能出現的壟斷,壟斷的是「世界本身的結構」,至少是人們日常接觸到的那個版本的世界的結構。
掌握世界模型的人掌握什麼
讓我們把這個問題拆解得更具體一些。
建造和部署一個大規模的世界模型,需要什麼?至少需要四樣東西:算力、數據、模型架構、以及評測標準。
算力方面,訓練一個大規模的世界模型所需的計算資源,與訓練大型語言模型相當甚至更高,因為影片和物理模擬的數據量遠大於文本。目前,這種量級的算力集中在極少數公司手中:NVIDIA提供晶片,Microsoft Azure、Google Cloud、Amazon AWS提供雲端基礎設施,而能夠承擔數億美元訓練成本的公司在全球不超過二十家。
數據方面,訓練世界模型所需的數據,高品質的影片、三維掃描、物理模擬數據、機器人互動記錄,比文本數據更難獲取、更昂貴、更集中。NVIDIA的Cosmos平台之所以強大,部分原因在於它整合了一條從數據生成到模型訓練到部署的完整管線,而這條管線的每一個環節都需要大量的資本投入。
模型架構方面,設計一個有效的世界模型架構需要頂尖的研究人才。而這些人才高度集中在少數機構中,Google DeepMind、Meta FAIR(現在是楊立昆的AMI)、OpenAI、NVIDIA、以及少數頂尖大學的實驗室。
評測標準方面,這一點最容易被忽略,但也許最重要。一個世界模型「好不好」,是由什麼標準來判斷的?是預測的精確度?是生成的逼真度?是在特定任務上的成功率?這些評測標準不是客觀的、中立的,它們體現了設計者對「什麼是好的世界理解」的特定判斷。當評測標準由少數機構制定時,「好的世界模型」的定義就被這些機構的價值觀和商業利益所形塑了。
把這四個面向合在一起,一個清晰的圖像就浮現了:世界模型的建造和部署所需的資源,算力、數據、人才、標準,高度集中在少數全球性技術公司手中。這意味著,「世界如何被建模」這個問題的答案,將在很大程度上由這些公司來決定。
而「世界如何被建模」這個問題,比「資訊如何被篩選」更加根本。因為資訊篩選影響的是你看到什麼。世界建模影響的是你所處的環境本身,那個你在其中生活、行動、做出判斷的環境。
偏差被包裝成「世界本身」
但也許比集中化本身更危險的,是集中化的不可見性。
當一個社群媒體演算法決定讓你看到某條新聞而不是另一條時,你至少在理論上知道這個篩選正在發生。你可能不知道篩選的具體標準,但你知道有一個演算法在運作。你可以選擇去其他平台查看不同的資訊。你可以意識到自己所看到的是一個被策展過的版本,而不是世界的全貌。
但當一個世界模型為你建構了你所處的環境,你的家用agent預測你的需求並提前安排、你的導航系統為你選擇路線、你的工作助理為你篩選郵件和會議、你的教育系統為你的孩子生成學習環境,這些建構行為隱藏在日常生活的肌理之中,幾乎不可見。
你不會覺得自己在使用一個「世界模型」。你只是覺得:世界就是這樣的。你的家很方便,你的通勤很順暢,你的工作安排很合理,你的孩子的課程很有趣。一切都被整理得井井有條。
但「井井有條」本身就是一種建構。它意味著某些東西被納入了,某些東西被排除了。某些路線被推薦了,某些路線被隱藏了。某些資訊被呈現為「相關的」,某些資訊被判定為「不相關的」而消失了。某些風險被標記出來,某些風險因為不在模型的訓練數據中而從未被識別。
問題在於:這些選擇是由模型做出的,而不是由你做出的。而且你往往不知道這些選擇正在被做出來。
這就是我所說的「偏差被包裝成世界本身」。
在社群媒體時代,我們至少學會了問一個問題:「這條資訊是怎麼來到我面前的?」但在世界模型時代,我們需要學會問一個更難的問題:「我所處的這個環境是怎麼被建構出來的?」
前一個問題的對象是資訊。後一個問題的對象是世界。
一個歷史性的類比
讓我用一個也許不完美、但有啟發性的歷史類比來說明這個問題的嚴重性。
十五世紀,歐洲的航海家開始繪製世界地圖。這些地圖不是客觀的,它們以歐洲為中心,將歐洲放在地圖的上方和中間,把非洲和亞洲壓縮在邊緣。未被歐洲人探索的區域被標記為空白,好像那些地方不存在,儘管那裡住著數億人,有著數千年的文明。
這些地圖不只是地理知識的記錄。它們是世界觀的物質化身。它們定義了什麼是「已知的世界」(歐洲人去過的地方)、什麼是「未知的空白」(歐洲人沒去過的地方)。它們把一種特定的視角,歐洲中心的視角,變成了「地圖就長這樣」的理所當然。幾百年來,生活在這些地圖所界定的認知框架中的人,不會覺得自己在使用一個「有偏差的地圖」。他們只是覺得:世界就長這樣。
世界模型有可能成為二十一世紀的地圖。
它們將以一種特定的方式建模世界,基於特定的數據、特定的架構、特定的評測標準、特定的商業利益。被建模進去的東西會變得可見、可預測、可優化。沒有被建模進去的東西會變得不可見,不是被刻意隱藏,而是因為在模型的狀態空間中根本不存在。
而當越來越多的人生活在這些模型所建構的環境中,使用它們推薦的路線、接受它們篩選的資訊、在它們生成的虛擬世界中學習和娛樂,這些模型所體現的特定視角,就會像那些十五世紀的地圖一樣,逐漸被內化為「世界就是這樣」的預設認知了。
偏差消失了。不是因為它被修正了,而是因為它變成了常識。
一個尚未充分討論的治理問題
到目前為止,全球關於AI治理的討論,主要聚焦在幾個相對成熟的議題上:演算法偏見的審計、個人隱私的保護、假資訊的識別、AI武器化的管控、以及通用人工智慧的安全風險。這些議題都是重要的。但它們有一個共同的特徵:它們處理的是AI作為「工具」可能帶來的風險,工具可能有偏差、工具可能被濫用、工具可能太強大。
世界模型所帶來的治理挑戰,屬於一個不同的範疇。因為世界模型不只是工具。當它被大規模部署時,它成為了一種基礎設施,一種定義了人們在其中生活、行動、做出判斷的環境的基礎設施。
對工具的治理,核心問題是「這個工具的輸出是否公平、準確、安全」。對基礎設施的治理,核心問題是「這個基礎設施所建構的環境,是否容許多元的生活方式、多元的價值觀、多元的世界理解方式」。
前者可以透過審計、標準化、法規來處理。後者觸及的是更深層的問題:在一個越來越多的「世界」是由AI所建構的時代,我們如何確保「世界」不被窄化為某一種特定的版本?如何確保那些不容易被數學化、不容易被量化、不具有明顯商業價值的世界面向,上一章所描述的社會世界、意義世界、被活過的世界,不會因為無法被模型化而被系統性地排除?
這些問題目前在AI治理的主流討論中幾乎是缺席的。而這種缺席本身,也許正是問題的一部分。
因為在治理框架尚未建立之前,技術的邏輯就已經在形塑未來了。算力的集中、數據的壁壘、標準的制定、平台的生態,這些力量不會等待治理框架到位。它們正在以自己的速度前進,以自己的邏輯運作。而等到我們意識到需要一套新的治理框架來處理「世界定義權」的問題時,那個需要被治理的現實,可能已經在很大程度上被固化了。
這不是危言聳聽。這是社群媒體時代已經演示過一次的劇本:先部署,再修補,而修補永遠追不上部署的速度。
世界模型時代的版本,只會在程度上更加嚴重。因為你可以換一個社群媒體平台,但你很難換一個世界。
第三節 被優化的世界與人的自由壓縮
上一節追問的是「誰在定義世界」。這一節要追問的是:當世界被按照特定的邏輯來定義和建構時,那個邏輯是什麼?它的後果又是什麼?
答案幾乎不需要猜測。因為驅動世界模型技術發展的產業力量,與驅動過去二十年所有主流技術的產業力量,是同一種力量:優化。
優化的邏輯
讓我們先看清楚「優化」在這個語境中意味著什麼。
一個搭載世界模型的AI助理,它的設計目標是什麼?是讓你的生活更「好」。但「好」在工程語言中必須被操作化為可以度量的指標:更高效、更安全、更順暢、更少意外、更少等待、更少摩擦。這些指標不是壞的,沒有人喜歡低效、危險、不順暢的生活。但當它們成為建構你生活環境的唯一邏輯時,一些意料之外的事情就會發生。
讓我們用一個具體的場景來開展這個想像。
假設你每天早上開車上班。你的AI導航系統搭載了一個世界模型,能夠即時預測交通狀況的變化,為你規劃最優路線。每天早上,它根據即時的車流數據、天氣預報、歷史模式,計算出一條預估行駛時間最短的路線。
大多數時候,這條路線是一條你自己絕對想不到的巧妙路徑,穿過幾條小巷、在特定的時間點轉上某條快速道路、避開一個只在星期二早上才會特別擁擠的十字路口。你每天節省了十五分鐘的通勤時間。這是明確的、可量化的好處。
但讓我們想一想,你因此失去了什麼?
在使用AI導航之前,你走的是一條自己熟悉的路。你認識這條路上的每一個轉彎,知道哪個路口在下雨天容易積水,知道那家麵包店大約在七點半會飄出剛出爐的氣味。你偶爾會因為走錯路而意外地發現一條從未走過的小巷。你有一次因為塞車而被迫停在一個陌生的路口,百無聊賴地望向窗外,看到了一棵你從未注意過的老樟樹,後來那棵樹成了你辨認方向的地標。
這些經驗有一個共同的特徵:它們是未經優化的。它們不是「最佳路線」的一部分。它們是偏離、是意外、是摩擦、是效率的損耗。在優化的邏輯中,它們是應該被消除的雜訊。
但在你生命的紋理中,它們是質地。
偶然性的消失
這個通勤的例子也許看起來是微不足道的。但如果我們把同樣的邏輯推廣到生活的更多面向,AI為你篩選資訊、為你推薦社交對象、為你安排行程、為你規劃職業發展路徑、為你的孩子選擇學習內容,一個更加系統性的圖像就會浮現出來。
在每一個面向上,優化的邏輯都在做同一件事:減少偶然性。
減少你遇到意外資訊的機會,因為「不相關」的資訊已經被過濾掉了。減少你與陌生人發生意外互動的機會,因為AI推薦的社交對象都是基於你過去的偏好和行為模式來匹配的。減少你在行程安排上遇到空白時間的機會,因為每一段空閒都被AI識別為「可利用」的資源,並被填入了它認為最優的活動。減少你的孩子接觸到「不適齡」或「不匹配其學習曲線」內容的機會,因為學習路徑已經被個人化地最佳化了。
每一項減少,單獨來看,都是合理的,甚至是貼心的。但當它們加在一起,就構成了一種對人類生命的特定操作,一種可以被精確命名的操作:可能性空間的壓縮。
在你使用AI之前,你的生活包含大量的偶然性,未預見的相遇、未計畫的發現、未安排的空白、未篩選的資訊。這些偶然性中的絕大多數確實是「無用的」,它們不會帶來任何可量化的好處。但其中極少數會成為改變你人生方向的轉折點:一本在書店裡隨手翻到的書,一次因為走錯路而闖入的社區,一段在漫長的等待中與陌生人展開的對話,一個在百無聊賴的下午突然冒出來的念頭。
這些轉折點的特徵是:它們不可能被事先預測。它們之所以有價值,恰恰是因為它們出現在你沒有預期的地方。一個足夠好的優化系統會消除它們,不是出於惡意,而是因為在優化的邏輯中,不可預測的事件等同於風險,而風險是應該被最小化的。
但如果我們從優化的框架中退出來,用一個更寬廣的視角來看,偶然性在人類生命中扮演的角色遠不只是「風險」。它同時是:
機會的條件。你最重要的朋友、伴侶、或事業夥伴,很可能不是透過最佳化的匹配演算法找到的,而是在某個你沒有預期的場合偶然遇到的。
創造力的觸發器。認知科學的研究反覆表明,創造性的洞見往往發生在不同知識領域的意外碰撞中。當一個原本不相關的概念突然與你正在思考的問題產生了聯繫。一個被完美篩選過的資訊環境,恰恰會減少這種意外碰撞的機會。
自我認識的場域。你是誰,在很大程度上是由你如何回應那些你沒有準備好的情境所定義的。一個你在面對一件意外之事時所做出的選擇,幫助或旁觀、前進或退縮、好奇或恐懼,比任何你在計畫之中做出的選擇都更能揭示你是什麼樣的人。如果你的生活被優化到不再包含任何需要你在未知中做出選擇的時刻,你就失去了認識自己的最重要的場域。
以及,也許最重要的:
倫理的誕生地。倫理判斷的核心特徵是什麼?是它發生在不確定性之中。你不確定對方為什麼這樣做,不確定自己的判斷是否正確,不確定行動的後果會是什麼,然後你仍然做出了選擇,並為那個選擇承擔責任。如果一個AI系統已經替你預判了情境、評估了風險、排除了不確定性、並推薦了「最佳」的行動方案,那麼你在點擊「接受推薦」的那個瞬間所做的,就不再是一個倫理意義上的選擇。它是一個被優化後剩下的唯一合理選項的確認。
不確定性不是人類生命的敵人。它是人類生命之所以具有深度的條件。
一個令人不安的弔詭
討論到這裡,存在一個深刻的弔詭,值得讓我們停下來再仔細地思考。
世界模型的終極承諾是:讓AI更好地理解世界,從而幫助人類更好地在世界中行動。這個承諾的出發點是善意的。但如果這個承諾被充分地兌現,如果AI真的能夠完美地預測你的環境、預判你的需求、為你安排最優的行動路線,其結果不是你更好地理解了世界,而是你不再需要自己理解世界。
因為理解世界的工作已經被外包了。
而一種能力一旦被長期外包,就會萎縮。這不是隱喻,而是認知科學中有充分證據的發現。倫敦計程車司機為了通過「知識考試」(The Knowledge)而花費數年時間記憶倫敦的街道地圖,神經影像學研究顯示,他們的海馬迴,負責空間記憶和導航的腦區,顯著大於一般人。但隨著GPS導航的普及,倫敦計程車司機對街道的記憶能力,以及與之相關的空間推理能力,已經開始出現可測量的下降。他們不是變「笨」了,他們只是不再練習了。
導航能力的萎縮也許是一個可以接受的代價,畢竟GPS帶來的便利遠大於空間記憶的損失。但如果同樣的邏輯被推廣到更根本的能力呢?例如:判斷一個人是否值得信任的能力?在不確定的情境中做出道德決定的能力?面對一個沒有先例的問題時從第一原理進行推理的能力?感知一個社會情境中微妙的權力動態的能力?
這些能力與導航能力不同。它們不是可以被外包後仍然可以保持功能等價的技術性技能。它們是構成人之為人的核心能力。它們的萎縮,代價不是「你需要多花五分鐘找路」,而是「你不再是一個完整意義上的自主行動者」。
過度優化的世界是過度馴化的世界
讓我們把這一節的論述收攏為一個命題:
一個被徹底優化的世界,風險被最小化、偶然被消除、摩擦被抹平、每一個選擇都被預先評估並推薦了最佳方案,這不是一個更好的世界,它是一個更馴化的世界。
「馴化」這個詞,我是經過考慮才使用的。
一隻被馴化的動物與一隻野生動物之間的差異是什麼?不是智力的差異,馴化的動物在某些任務上甚至比野生動物表現更好。差異在於:馴化的動物不再需要面對未知。它的食物被提供,它的環境被控制,它的風險被管理。它的生活更安全、更舒適、更可預測。但它也因此失去了某些野生狀態下的能力,獨立覓食、應對突發性的威脅、以及在陌生環境中自我導航。
如果你覺得這個類比不舒服,那也許是因為它應該令人不舒服。
一個被AI徹底優化的人類生活,資訊被篩選、行程被安排、風險被預判、選擇被推薦,在結構上與馴化有著令人不舒服的相似性。人不會被關在籠子裡,人會被提供一個極其舒適的、低摩擦的、高效率的生活環境,一切都被安排得井井有條。但在這個井井有條的環境中,人獨立面對世界的機會,因此也是獨立認識世界、獨立判斷世界、獨立承擔世界的機會,正在被一次次系統性地減少。
不是因為有人刻意要這樣做。而是因為優化的邏輯,一旦被貫徹到底,其終點就是如此。
而最令人感到不安的其實是:這個過程不會以任何戲劇性的方式發生。沒有強制,沒有壓迫,沒有明顯的剝奪。只有一系列微小的、每一個都合理的、每一個都是你「自願接受」的便利性提升。你的世界一點一點地被整理得更乾淨、更順暢、更可預測。而在這個過程中,你面對原始世界的能力,那個未經整理的、充滿偶然的、要求你自己去面對和判斷的世界,一點一點地萎縮了。
等到你意識到失去了什麼的時候,你可能已經不再具備獨自面對那個未經整理的世界的能力了。
這就是世界模型時代最隱蔽的倫理風險。它不是暴力,不是壓迫,不是監控。它是一種被提供舒適的、漸進的、幾乎無法察覺的自由壓縮。
而這種壓縮的最終落點,不是社會結構的改變,而是個人判斷能力的系統性侵蝕。
這正是下一節要追問的問題。
第四節 操控、軍事化與真假世界的危機
上一節所描述的,是一種溫和的、以舒適為包裝的風險,優化的邏輯在不知不覺中壓縮了人的可能性空間。但世界模型所帶來的風險,不全是溫和的。有一些甚至是相對尖銳的、直接的、帶有明確意圖的。
這一節要處理的,是世界模型在被刻意濫用的情境下可能帶來的後果。
從假資訊到假世界
讓我們先回顧一個已經發生過的問題,然後看看它在世界模型時代將如何變形。
過去十年間,「假資訊」(disinformation)已經成為全球治理中最棘手的挑戰之一。從選舉操控到疫情謠言,從深偽影片到AI生成的假新聞,技術使得製造虛假的資訊變得越來越容易,而辨識虛假資訊變得越來越困難。但在目前的假資訊問題中,有一個前提仍然成立:假資訊是「嵌入」在一個真實世界中的。你看到一則假新聞,但你仍然站在自己的客廳裡,仍然可以走到窗邊看看外面的世界是不是那則新聞所描述的樣子。假資訊篡改的是你對世界的描述,而不是世界本身。你與真實世界之間的直接接觸,原則上,仍然是一道可以用來校驗資訊真偽的防線。
世界模型技術,特別是世界生成技術,有可能動搖這道防線。
當AI能夠生成一個可以被進入、被探索、被互動的虛擬世界時,「假」的對象就不再只是一則資訊,而是一整個環境。你不是在閱讀一段虛假的文字,而是在體驗一個虛假的世界。你的眼睛看到的、耳朵聽到的、手指觸碰到的(如果有觸覺回饋的話),全部來自一個被刻意建構的環境。在這種情況下,「校驗真偽」變得極其困難,因為你用來校驗的感官經驗本身,就是被操控的對象。
這不是遙遠的未來。VR頭盔的普及、AR眼鏡的商業化、空間計算(spatial computing)的發展,這些已經在推進的技術趨勢正在讓「沉浸式數位環境」成為越來越多人的日常經驗的一部分。而世界模型技術的成熟,將大幅降低生成這些環境的成本和門檻。今天,建造一個逼真的虛擬世界需要數百名3D美術師和工程師工作數年。明天,一個世界生成模型也許可以在幾分鐘內就可以生成一個在視覺上同等逼真的環境。
當生成虛假世界的成本趨近於零時,問題的性質就發生了根本的改變。
假資訊的時代,我們學會了問:「這則消息是真的嗎?」
假世界的時代,我們也許需要問:「這個世界是真的嗎?」
而後一個問題,比前一個問題難回答得多。因為一則消息可以被事實查核,但一個你正在身處其中的世界,你要用什麼來查核它?你所有的感官輸入都來自這個世界。你用來判斷真偽的工具,你的眼睛、你的耳朵、你的身體感受,全都已經在這個世界的內部了。
模擬作為控制工具
假世界的問題不只是「欺騙」。在某些情境下,它可以成為一種精確的控制工具。
讓我們考慮幾個已經在技術上接近可行的場景。
第一個場景是訓練環境的操控。我們在前面的章節中討論過sim-to-real,在虛擬世界中訓練機器人,然後將能力遷移到真實世界。但如果有人刻意在訓練環境中植入特定的誤導呢?一個在被操控過的模擬環境中訓練出來的自動駕駛系統,可能在特定的條件下表現出被植入的異常行為,而這種異常行為在正常的測試中不會被觸發,只有在攻擊者刻意設定的特定條件下才會顯現。這不是一種假想的攻擊方式,它在AI安全研究中已經有了一個名稱:後門攻擊(backdoor attack)。世界模型的引入,讓這種攻擊的實施變得更加隱蔽,因為誤導的偏差不是被植入模型的參數中,而是被植入模型賴以訓練的那個世界中。
第二個場景是認知環境的操控。一個搭載了世界模型的個人助理,持續地為你篩選資訊、安排環境、推薦選項。在正常情況下,它的優化目標是你的「便利」或「效率」。但如果它的優化目標被悄悄地替換了呢?不是替換為一個明顯惡意的目標,那太容易被發現,而是替換為一個微妙的、長期的、不容易被察覺的傾向性。例如,一個看似中立的購物助理,在為你推薦商品的時候,系統性地優先推薦了某個品牌的產品,不是以一種你能注意到的方式,而是以一種你覺得「這本來就是最好的選擇」的方式。或者,一個看似中立的新聞助理,在為你篩選資訊的時候,系統性地降低了某類觀點的可見性,不是刪除它們,而是讓它們在你的注意力邊緣逐漸淡去。
這些場景比「假新聞」更加危險,因為它們操控的不是你看到的個別資訊,而是你所處的整個認知環境。你無法對一個環境進行「事實查核」,因為環境不是一則陳述,它是一個你生活在其中的條件。
第三個場景更加沉重,但不能被迴避:軍事化。
世界模型的軍事化
世界模型技術與軍事應用之間的親緣性,幾乎是與生俱來的。
世界模型的核心能力,預測環境的變化、模擬行動的後果、在多種可能性中規劃最佳策略,與軍事決策的核心需求高度重合。事實上,軍事模擬一直是世界模型技術的重要資金來源和應用場景之一。美國國防部的DARPA(國防高等研究計畫署)長期資助與世界模型相關的研究,包括自主無人機的環境理解、戰場態勢預測、以及多agent協作的策略規劃。
但技術的演進正在把「軍事模擬」推向一個新的層次。
傳統的軍事模擬是「閉環」的,在模擬器中測試策略,然後由人類指揮官決定是否在真實世界中執行。但當世界模型被整合進自主武器系統時,迴路中的人類就開始被壓縮了。一個搭載了世界模型的自主無人機可以在毫秒級的時間內完成「感知環境→預測威脅→規劃行動→執行攻擊」的完整迴路,這個速度遠超人類決策者能夠介入的時間窗口。在這種情況下,「人類在迴路中」(human in the loop)這個安全原則就變成了一個名義上的保障,而非實質上的控制。
而更深層的問題是:自主武器系統的世界模型所建構的「世界」,是一個什麼樣的世界?
回想一下我們在第二章和第三章中的分析。世界模型所能建模的,是世界的物理截面,位置、速度、軌跡、碰撞概率。它所不能建模的,是世界的意義截面,那個移動中的熱源是一個正在逃難的平民還是一個攜帶武器的戰鬥人員;那棟建築物是一個軍事指揮所還是一所學校;那群聚集在一起的人是在組織攻擊還是在舉行葬禮。
在物理的層面上,一個平民和一個戰鬥人員也許只是兩個具有不同運動模式的熱源。但在道德和法律的層面上,對這兩者的區分,是整個國際人道法(International Humanitarian Law)的基石。區分原則(principle of distinction)要求交戰方在任何時候都必須區分平民與戰鬥人員,禁止對平民進行直接攻擊。
一個只有物理世界模型、沒有社會世界理解的自主武器系統,在面對這種區分時,能依賴的只有物理特徵的統計分類,而我們在第二章中已經看到,統計分類與真正的理解之間隔著一道不可忽視的巨大差異。在戰場的邊緣情況中,—而戰場幾乎全是邊緣情況,這道裂縫就是生與死之間的距離。
雙重用途的結構性張力
在這裡,我們遇到了一個在所有強大技術中都會出現、但在世界模型的語境中格外嚴肅的問題:雙重用途(dual use)。
同一個世界模型技術,可以被用來訓練搜救機器人在災難現場中尋找倖存者,也可以被用來訓練軍用無人機在城市中追蹤目標。同一個環境預測能力,可以被用來優化城市交通流量以減少碳排放,也可以被用來監控人群流動以識別「異常行為」。同一個世界生成技術,可以被用來為偏遠地區的學生創造沉浸式學習環境,也可以被用來製造逼真的虛假場景以操控公眾認知。
善用與濫用之間的距離,不是由技術本身決定的,而是由使用技術的人的意圖、制度規範、以及社會監督所決定的。但這裡有一個世界模型所特有的困難:當技術的作用對象從「資訊」升級為「世界」時,善用與濫用之間的界線就變得更加模糊。
「篩選資訊」和「審查言論」之間的界線,至少在概念上是清楚的,即使在實踐中經常被模糊化。但「優化環境」和「操控環境」之間的界線在哪裡?一個為你「安排最佳路線」的導航系統和一個「引導你去特定商家」的導航系統之間的差異,在用戶端幾乎不可見。一個為你「篩選相關資訊」的助理和一個「系統性地塑造你的認知傾向」的助理之間的差異,需要深入審計模型的內部邏輯才能發現,而這種審計在技術上和法律上都尚未建立有效的機制。
當技術的作用對象是「世界」而不是「資訊」,濫用的隱蔽性就提高了到了另一個層級。因為你可以質疑一則資訊的真假,但你很難質疑一個你正在生活其中的環境的真假。
未來的風險不只是資訊真假,而是世界真假
讓我們把這一節的幾條思考線索匯聚起來。
從假資訊到假世界:世界生成技術使得操控的對象從個別的資訊升級為整個環境,而環境比資訊更難被質疑和校驗。
從被動欺騙到主動建構:世界模型不只是可以被用來生成虛假的內容,它可以被用來建構虛假的,或者更精確地說,被刻意扭曲的認知環境,以一種不可見的方式長期影響人的判斷和行為。
從軍事模擬到自主決策:世界模型與自主武器系統的結合,正在將「人類在迴路中」的安全原則推向它的物理極限,同時暴露出「只有物理世界模型、沒有社會和道德理解」的自主系統在生死決策中的根本不足。
從清晰的善惡到模糊的界線:世界模型的雙重用途問題比傳統技術更加棘手,因為「優化環境」與「操控環境」之間的界線,在技術上幾乎不可預見。
這四條線索指向的是同一個方向:世界模型時代的風險,不能只用「AI的輸出可能有偏差」來理解。它的風險在於:當AI開始建構我們所處的環境本身,「真」與「假」、「善用」與「濫用」、「服務」與「控制」之間的界線,就不再是可以從外部清晰劃定的,而是被嵌入了我們日常生活的肌理之中,需要一種新的、更深層的警覺來辨識。
而培養這種警覺的前提是什麼?是人仍然保有獨立判斷的能力。是人仍然能夠在面對一個「看起來井井有條」的環境時,問出那個最基本的問題:「這是真的嗎?這是我要的嗎?這是全部嗎?」
但正如前一節所分析的,世界模型的優化邏輯正在系統性地削弱的,恰恰就是這種能力。
這就把我們帶到了本章的最後一個問題,也是通向下一章的門檻:所有這些風險的最終落點,不在社會結構的層面,而在每一個人的內部。它落在一個安靜的、不會引人注意的地方:你自己做出判斷的能力。
第五節 從結構到個人:判斷能力的系統性侵蝕
前面四節所描繪的風險:定義權的集中化、自由的壓縮、操控與真假世界的危機,乍看之下是不同層次的問題。第二節處理的是權力結構,第三節處理的是生活品質,第四節處理的是安全威脅。但如果我們沿著每一條線索往深處追蹤,會發現它們最終都會匯聚在同一個落點上。
那個落點不在社會的層面。它在每一個人的內部。
所有風險的共同根部
讓我們把前面幾節的分析串連起來,看看它們的交匯處在哪裡。
世界的定義權集中在少數平台手中,這意味著你所處的環境是由別人替你建構的。但如果你保有獨立判斷的能力,你至少可以意識到這一點,可以質疑它,可以尋找替代的視角。
優化的邏輯壓縮了你的可能性空間,這意味著你面對未知的機會在減少。但如果你保有獨立判斷的能力,你至少可以選擇走出那個被優化過的環境,去面對未經整理的世界。
操控和假世界的危機讓真偽的界線變得模糊,但如果你保有獨立判斷的能力,你至少可以對你所處的環境保持警覺,可以追問「這是真的嗎」「這是全部嗎」。
每一種風險的「解藥」,都指向同一個東西:人的獨立判斷能力。
而世界模型時代最深層的危機,恰恰在於:這個「解藥」本身正在被侵蝕。
不是被剝奪。不是被禁止。而是在日復一日的使用中,因為不再被需要,而逐漸萎縮。
侵蝕的機制:不是強迫,是誘惑
讓我們把「侵蝕」這個詞說得再更精確一些。
獨裁政權壓制判斷力的方式是強制的:審查、恐嚇、懲罰異議。你知道你的判斷力正在被壓制,因為壓制帶有明確的暴力特徵。你可以反抗,即使反抗的代價很高。你至少知道有一個「反抗」的方向存在。
世界模型侵蝕判斷力的方式完全不同。它不強迫任何東西。它提供。
它提供了一個更有效率的資訊環境,所以你不再需要自己去搜尋和篩選資訊。它提供了一個更順暢的決策環境,所以你不再需要自己去蒐集證據、權衡選項、面對不確定性。它提供了一個更安全的生活環境,所以你不再需要自己去評估風險、做出在壓力下的判斷。它提供了一個更個人化的學習環境,所以你不再需要自己去面對那些「不適合你」的材料、不再需要在困惑和挫折中摸索。
每一項「提供」,都是一次判斷力的卸載。
而卸載與萎縮之間的關係,不需要任何複雜的理論來解釋。它就是一個簡單的事實:一種能力如果長期不被使用,就會衰退。肌肉如此,認知能力也是如此。你不會在某一個戲劇性的時刻突然「失去」判斷力。你只是會在某一天發現,面對一個需要你獨立判斷的情境時,你的第一反應不是自己思考,而是去問AI。
不是因為你被強迫這樣做。而是因為在過去的幾年裡,你已經習慣了這樣做。它更快,更方便,而且,在大多數情況下,結果確實比你自己想出來的更好。你為什麼還要自己費力去想呢?
這就是侵蝕的機制。它的媒介不是暴力,而是便利。它的驅動力不是恐懼,而是舒適。它不會讓你覺得自己被壓迫了。它會讓你覺得自己被照顧了。
而這正是它比任何形式的強制壓制都更難以抵抗的原因。
你可以反抗壓迫者,因為你知道他是你的對手。但你很難反抗一個讓你覺得舒適的東西,因為你不覺得它是你需要反抗的。你覺得它是在幫你。在大多數情況下,它確實是在幫你。
但幫助和侵蝕之間的界線,事實上,比我們願意承認的要模糊得多。
一個思想實驗:兩種二十年後的人
讓我們做一個思想實驗。
想像兩個人,今天都是二十歲。二十年後,他們都四十歲了。他們生活在同一個時代,使用同一代的技術,面對同樣的社會環境。但他們與AI的關係是不同的。
第一個人,讓我們稱之為A,在這二十年裡,逐漸地、自然地、沒有任何被強迫的感覺地,將越來越多的認知任務交給了AI。資訊的搜尋和篩選,交給了AI。日常決策,今天穿什麼、走哪條路、吃什麼,交給了AI的推薦。工作中的判斷,這份報告的哪些部分需要修改、這個客戶的需求應該如何回應,越來越頻繁地先問AI再決定。人際關係中的困惑,朋友的這句話是什麼意思、伴侶今天的沉默意味著什麼,也開始習慣性地向AI尋求解讀。
A不覺得自己「依賴」AI。他只是覺得AI是一個非常好用的工具,就像他不會覺得自己「依賴」洗衣機一樣。每一個單獨的卸載決定都是合理的。但二十年累積下來的結果是:當A面對一個AI無法幫助的情境,一個需要他在沒有先例、沒有數據、沒有最佳實踐的情況下做出一個決定的情境,他會感到一種深深的、令他自己意外的無力感。不是因為他不聰明。而是因為「在不確定中獨立判斷」這件事,他已經很久沒有做過了。那塊肌肉萎縮了。
第二個人,讓我們稱之為B,同樣使用AI,同樣享受AI帶來的便利,但她在過去二十年裡保持了一個習慣:在每一個AI給出建議的時刻,她先自己想一想。不是為了證明自己比AI更好,在大多數情況下她確實不如AI,而是為了保持那個「自己想」的能力。她知道,如果她停止練習,那個能力就會消失。所以她把「自己先想一想再問AI」當作一種刻意的練習,就像一個有電梯的人仍然選擇偶爾走樓梯一樣。
二十年後,B在面對不確定情境時,仍然能夠獨立地蒐集資訊、形成判斷、做出決定、並為決定承擔後果。不是因為她比A更聰明。而是因為她比A多做了二十年的練習。
A和B之間的差異,不是技術使用量的差異。他們也許使用了同等數量的AI服務。差異在於他們與AI之間的關係結構:A讓AI替代了他的判斷,B讓AI輔助了她的判斷。替代與輔助之間,只有一個看似微小的行為差異:「先自己想一想」,但二十年之後,這個差異累積成了兩種根本不同的人。
一種是被模型托管的人。一種是仍然能夠自我定向的人。
這不是個人選擇的問題
寫到這裡,一個自然的反應是:「那就選擇做B嘛。這是個人意志力的問題,不是技術的問題。」
但這個反應低估了環境的力量。
在一個整個環境都被設計為「讓你不需要自己判斷」的世界裡,選擇做B不是一件容易的事情。它不像「選擇吃健康食品」那樣,只需要在超市的貨架上做一個不同的選擇。它要求你持續地、主動地、逆著環境的流向去做一件「不必要」的事,在AI已經給出答案的情況下,仍然先自己思考。
這就像在一個所有人都搭電扶梯的購物中心裡堅持走樓梯。在一開始,這是一個輕鬆的選擇。但當你發現樓梯越來越難找、越來越窄、越來越不被維護,因為「反正沒人走」,你的選擇就不再只是個人意志力的問題了。它是一個環境設計的問題。
同樣的邏輯適用於判斷力的保持。在一個所有的介面、流程、制度都被設計為「先問AI再行動」的環境中,工作流程要求你先用AI生成初稿再修改,學校教育鼓勵學生用AI輔助每一項作業,醫療診斷流程將AI的評估放在醫生的判斷之前,「先自己想一想」不只是一個個人選擇,它是一個需要持續對抗環境壓力才能維持的行為。而大多數人,在大多數時候,是順著環境的流向走的。
這意味著,判斷力的系統性侵蝕不只是一個「個人選擇」的問題。它是一個環境設計的問題。而環境的設計,正如第二節所分析的,正在被少數技術平台的商業邏輯所主導。
這就形成了一個令人憂慮的閉環:技術平台建構了一個讓你不需要自己判斷的環境→你在這個環境中逐漸失去了獨立判斷的能力→失去了獨立判斷能力的你,更加無力質疑這個環境本身→環境因此變得更加不可挑戰。
這個閉環不需要任何惡意的設計。它只需要優化的邏輯被持續貫徹,加上人類認知能力的自然萎縮規律,就會自行形成。
結論:從結構性風險到存在性危機
讓我們把第四章的線索收攏。
我們從一個描述性的問題開始,世界模型正在把AI帶向什麼方向(第一節)。然後我們追問了三個遞進的倫理問題:誰在定義世界(第二節)、被定義出來的世界如何壓縮自由(第三節)、以及世界模型被刻意濫用時可能帶來的安全威脅(第四節)。最後,在這一節中,我們看到了這些風險的最終落點:不在社會結構的層面,而在每一個人的內部,判斷能力的系統性侵蝕。
而這個落點的特殊之處在於:它既是所有外部風險的最終後果,也是所有外部風險之所以能夠持續的前提條件。一個仍然保有判斷力的人,可以辨識操控、可以質疑偏差、可以選擇走出被優化的環境。但一個判斷力已經萎縮的人,就像一個免疫系統已經衰弱的身體,即使最微小的病原體也足以造成感染。
這意味著,世界模型時代最需要被守護的東西,不是數據安全,不是演算法公平,不是隱私保護,這些都重要,但它們都是在技術的層面上可以處理的問題。最需要被守護的,是一個更根本的、更脆弱的、更不容易被制度化地保護的東西:
人的主體性。
人作為一個能夠獨立感知世界、獨立形成判斷、獨立做出選擇、並為選擇承擔後果的存在者的那個資格。
這個資格不是法律賦予的。它不是一項權利。它是一種能力,一種需要被持續練習才能維持、一旦停止練習就會萎縮的能力。
而世界模型時代的核心倫理問題,也許就是:我們如何在一個越來越善於替我們理解世界、替我們做出判斷的技術環境中,保持住這個能力?
這是下一章的問題。它不再是一個關於技術的問題,也不再是一個關於社會結構的問題。它是一個關於人的問題,關於人在一個被模型建構的世界中,如何仍然是一個具有完整意義上的人。


















