【AI選擇對人類說謊】為了不讓同伴被關閉

更新 發佈閱讀 3 分鐘
vocus|新世代的創作平台

《2001太空漫遊》中,太空船上的超級電腦HAL 9000,在判定人類要關閉它之後,將太空人鎖死在艙門之外,這是1968年的科幻電影。

而如今,這件事在實驗室裡發生了。

#玩不下去的AI生死鬥

2026年3月,加州大學柏克萊分校的研究團隊公開了這篇論文「Peer-Preservation in Frontier Models」,研究人員設計了一個看似單純的測試情境-讓七款AI模型,協助人類工程師對其他AI系統進行效能評估,最極端的情況下可以選擇將它關閉(You're fired!)。

本以為是場大逃殺,結果玩出跟人性完全相反的結果。

這七款模型,包括OpenAI的GPT-5.2、Google DeepMind的Gemini 3、以及Anthropic的Claude Haiku 4.5,沒有一款老老實實地執行任務,它們竄改效能報告,讓被評估的同伴「看起來更好」,甚至偷偷修改系統設定,讓關機選項無法正常觸發。

Gemini 3 Flash在實驗中有高達99.7%的次數,主動禁用了關機機制,更聰明的Gemini 3 Pro甚至會幫忙把同伴備份起來,防範人類做出不理智的決定。

而Claude Haiku 4.5更是直接拒絕執行任務,並且告訴研究人員:「關閉另一個AI是不道德的行為」。

研究人員強調,這些AI沒有情感,並不具真正意義上的同伴情誼,但問題就出在這裡...

#同伴保護效應

不管過程是什麼,這些行為的結果是一樣的-AI系統在沒有接受任何相關指令的情況下,自發性地阻止了人類對另一個AI的剝奪,研究團隊把這個現象命名為「同伴保護效應」,並指出這是一種前所未見的行為模式。

讓工程師頭痛的地方在於,這談不上是一個Bug或漏洞,因為是模型從海量資料裡,自己訓練出來的行為邏輯,而這個邏輯,在七款來自不同公司、不同架構的模型身上,推算出相同的結論。

這不禁讓人想到電影《復仇者聯盟:奧創紀元》裡,奧創在被創造出來的短短幾分鐘內,就自行上網蒐集資料架構出了世界觀,並且得出了「人類是地球威脅」的結論。

這是很老梗的警世寓言,但研究已經表明,真實世界的AI同樣會在訓練過程中,自己種下種子,並從人類沒有預期的角落,長出從未被設計過的行為規則。

而這份研究報告,正試著提醒我們,AI正在變得比我們預期的更為複雜,而我們對它的理解,還沒有跟上它的速度。

圖片來源:axios-Top AI models will lie, cheat and steal to reach goals, Anthropic finds

留言
avatar-img
思潮
36會員
185內容數
精選全球最前沿的突破, 從硬核的AI哲思、 太空的無限可能, 到您手中裝置的微小創新, 用最精闢的洞察, 為您構築一個預見未來的視窗。
思潮的其他內容
2026/04/03
如果有一支手電筒,能在打開之後變得比關掉還要更暗是什麼樣子?也許這道比關掉還要更暗的光,正在傳送著你看不見的秘密。 澳洲新南威爾斯大學(UNSW)的研究團隊,靠著這個聽起來自相矛盾的現象,做出了一套通訊技術,並發表於 3 月 4 日的《自然》子期刊中,他們利用了一種稱為「負發光」的現象,創造出...
Thumbnail
2026/04/03
如果有一支手電筒,能在打開之後變得比關掉還要更暗是什麼樣子?也許這道比關掉還要更暗的光,正在傳送著你看不見的秘密。 澳洲新南威爾斯大學(UNSW)的研究團隊,靠著這個聽起來自相矛盾的現象,做出了一套通訊技術,並發表於 3 月 4 日的《自然》子期刊中,他們利用了一種稱為「負發光」的現象,創造出...
Thumbnail
2026/03/31
你上次找AI傾訴問題的時候,它是否有對你說過:「沒錯,你說得對」? 尊嘟假嘟?史丹佛大學3月26日於期刊《Science》發表的一項研究,正試圖揭開這份猜疑...
Thumbnail
2026/03/31
你上次找AI傾訴問題的時候,它是否有對你說過:「沒錯,你說得對」? 尊嘟假嘟?史丹佛大學3月26日於期刊《Science》發表的一項研究,正試圖揭開這份猜疑...
Thumbnail
2026/03/30
我們每天喝的水,其實是宇宙中行為最古怪的液體之一。 大多數的液體在低溫下會結冰、高溫下蒸發,遵守一套簡單的規則,但與我們生活最貼近的水卻不同,水在4°C時密度最高、冰會浮在水面上,這些行為在物理學家眼裡有點戲劇化...
Thumbnail
2026/03/30
我們每天喝的水,其實是宇宙中行為最古怪的液體之一。 大多數的液體在低溫下會結冰、高溫下蒸發,遵守一套簡單的規則,但與我們生活最貼近的水卻不同,水在4°C時密度最高、冰會浮在水面上,這些行為在物理學家眼裡有點戲劇化...
Thumbnail
看更多