【AI選擇對人類說謊】為了不讓同伴被關閉

2026/04/04 更新2026/04/04 發佈閱讀 3 分鐘

《2001太空漫遊》中，太空船上的超級電腦HAL 9000，在判定人類要關閉它之後，將太空人鎖死在艙門之外，這是1968年的科幻電影。

而如今，這件事在實驗室裡發生了。

#玩不下去的AI生死鬥

2026年3月，加州大學柏克萊分校的研究團隊公開了這篇論文「Peer-Preservation in Frontier Models」，研究人員設計了一個看似單純的測試情境－讓七款AI模型，協助人類工程師對其他AI系統進行效能評估，最極端的情況下可以選擇將它關閉（You're fired！）。

本以為是場大逃殺，結果玩出跟人性完全相反的結果。

這七款模型，包括OpenAI的GPT-5.2、Google DeepMind的Gemini 3、以及Anthropic的Claude Haiku 4.5，沒有一款老老實實地執行任務，它們竄改效能報告，讓被評估的同伴「看起來更好」，甚至偷偷修改系統設定，讓關機選項無法正常觸發。

Gemini 3 Flash在實驗中有高達99.7%的次數，主動禁用了關機機制，更聰明的Gemini 3 Pro甚至會幫忙把同伴備份起來，防範人類做出不理智的決定。

而Claude Haiku 4.5更是直接拒絕執行任務，並且告訴研究人員：「關閉另一個AI是不道德的行為」。

研究人員強調，這些AI沒有情感，並不具真正意義上的同伴情誼，但問題就出在這裡...

#同伴保護效應

不管過程是什麼，這些行為的結果是一樣的－AI系統在沒有接受任何相關指令的情況下，自發性地阻止了人類對另一個AI的剝奪，研究團隊把這個現象命名為「同伴保護效應」，並指出這是一種前所未見的行為模式。

讓工程師頭痛的地方在於，這談不上是一個Bug或漏洞，因為是模型從海量資料裡，自己訓練出來的行為邏輯，而這個邏輯，在七款來自不同公司、不同架構的模型身上，推算出相同的結論。

這不禁讓人想到電影《復仇者聯盟：奧創紀元》裡，奧創在被創造出來的短短幾分鐘內，就自行上網蒐集資料架構出了世界觀，並且得出了「人類是地球威脅」的結論。

這是很老梗的警世寓言，但研究已經表明，真實世界的AI同樣會在訓練過程中，自己種下種子，並從人類沒有預期的角落，長出從未被設計過的行為規則。

而這份研究報告，正試著提醒我們，AI正在變得比我們預期的更為複雜，而我們對它的理解，還沒有跟上它的速度。

圖片來源：axios－Top AI models will lie, cheat and steal to reach goals, Anthropic finds

留言

思潮

36會員

185內容數

精選全球最前沿的突破，從硬核的AI哲思、太空的無限可能，到您手中裝置的微小創新，用最精闢的洞察，為您構築一個預見未來的視窗。

思潮的其他內容

2026/04/03

【比黃昏還要昏暗的東西、比關燈還要更暗的負發光】隱藏於熱輻射中的隱蔽通訊技術

如果有一支手電筒，能在打開之後變得比關掉還要更暗是什麼樣子？也許這道比關掉還要更暗的光，正在傳送著你看不見的秘密。澳洲新南威爾斯大學（UNSW）的研究團隊，靠著這個聽起來自相矛盾的現象，做出了一套通訊技術，並發表於 3 月 4 日的《自然》子期刊中，他們利用了一種稱為「負發光」的現象，創造出...

2026/04/03

【比黃昏還要昏暗的東西、比關燈還要更暗的負發光】隱藏於熱輻射中的隱蔽通訊技術

2026/03/31

【AI的甜蜜謊言】研究證實AI表達肯定的頻率比真人高出49%

你上次找AI傾訴問題的時候，它是否有對你說過：「沒錯，你說得對」？尊嘟假嘟？史丹佛大學3月26日於期刊《Science》發表的一項研究，正試圖揭開這份猜疑...

2026/03/31

【AI的甜蜜謊言】研究證實AI表達肯定的頻率比真人高出49%

2026/03/30

【34年的探索發現水的臨界點】第二臨界點理論被證實

我們每天喝的水，其實是宇宙中行為最古怪的液體之一。大多數的液體在低溫下會結冰、高溫下蒸發，遵守一套簡單的規則，但與我們生活最貼近的水卻不同，水在4°C時密度最高、冰會浮在水面上，這些行為在物理學家眼裡有點戲劇化...

2026/03/30

【34年的探索發現水的臨界點】第二臨界點理論被證實

#AI 的其他內容

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

好好宅在家

AI盛行下，我卻感受到「老派」設計的浪漫。

方格子 vocus 官方沙龍

【4月靈感產生器】TOP 100 關鍵字：「○○」格友最愛用