
《2001太空漫遊》中,太空船上的超級電腦HAL 9000,在判定人類要關閉它之後,將太空人鎖死在艙門之外,這是1968年的科幻電影。
而如今,這件事在實驗室裡發生了。#玩不下去的AI生死鬥
2026年3月,加州大學柏克萊分校的研究團隊公開了這篇論文「Peer-Preservation in Frontier Models」,研究人員設計了一個看似單純的測試情境-讓七款AI模型,協助人類工程師對其他AI系統進行效能評估,最極端的情況下可以選擇將它關閉(You're fired!)。
本以為是場大逃殺,結果玩出跟人性完全相反的結果。
這七款模型,包括OpenAI的GPT-5.2、Google DeepMind的Gemini 3、以及Anthropic的Claude Haiku 4.5,沒有一款老老實實地執行任務,它們竄改效能報告,讓被評估的同伴「看起來更好」,甚至偷偷修改系統設定,讓關機選項無法正常觸發。
Gemini 3 Flash在實驗中有高達99.7%的次數,主動禁用了關機機制,更聰明的Gemini 3 Pro甚至會幫忙把同伴備份起來,防範人類做出不理智的決定。
而Claude Haiku 4.5更是直接拒絕執行任務,並且告訴研究人員:「關閉另一個AI是不道德的行為」。
研究人員強調,這些AI沒有情感,並不具真正意義上的同伴情誼,但問題就出在這裡...
#同伴保護效應
不管過程是什麼,這些行為的結果是一樣的-AI系統在沒有接受任何相關指令的情況下,自發性地阻止了人類對另一個AI的剝奪,研究團隊把這個現象命名為「同伴保護效應」,並指出這是一種前所未見的行為模式。
讓工程師頭痛的地方在於,這談不上是一個Bug或漏洞,因為是模型從海量資料裡,自己訓練出來的行為邏輯,而這個邏輯,在七款來自不同公司、不同架構的模型身上,推算出相同的結論。
這不禁讓人想到電影《復仇者聯盟:奧創紀元》裡,奧創在被創造出來的短短幾分鐘內,就自行上網蒐集資料架構出了世界觀,並且得出了「人類是地球威脅」的結論。
這是很老梗的警世寓言,但研究已經表明,真實世界的AI同樣會在訓練過程中,自己種下種子,並從人類沒有預期的角落,長出從未被設計過的行為規則。
而這份研究報告,正試著提醒我們,AI正在變得比我們預期的更為複雜,而我們對它的理解,還沒有跟上它的速度。
圖片來源:axios-Top AI models will lie, cheat and steal to reach goals, Anthropic finds






