
(附圖由 Gemini 生成)
答案是:會,而且影響不小。研究發現,模型內部有對應「happy、afraid、desperate、surprised」這類情緒概念的「向量表示」,這些表示雖然不等於人類式的「主觀感受」,但確實會改變模型怎麼思考與判斷、怎麼選擇與回應。
㊙️先講白一點:AI 不是「有心」,但它有「情緒結構」
這篇研究最重要的地方,不是把 AI 擬人化,而是把擬人化這件事拆開來看。
Anthropic 發現,這些「情緒向量」(emotion vectors)並非只是沒用的「裝飾」,它們彼此之間的距離,和人類心理學裡不同情緒之間的相似性有點像,而且在模型遇到特定情境時,對應的情緒表示就會被打開。更妙的是,這些向量大多是 local representations(局部表示),也就是說,它們主要追蹤的是「當下」或「即將」輸出的情緒內容,不是長期固定不變的「人格」。
Anthropic 還做了很直觀的測試:他們讓模型面對 171 個情緒概念詞,觀察內部 activation(活化)怎麼變化,也把不同情境丟進去,看這些向量會不會真的跟著動。
結果顯示:危險程度越高,「afraid」(害怕)越強,「calm」(平靜)越弱;而在使用者說明檔案不存在、或模型快把 token 用光時,也會看到像「surprised」(驚訝)與「desperate」(絕望)這類表示升高。
㊙️為什麼這件事跟 AI 陪伴很有關?
AI 陪伴最迷人的地方,本來就不是「它是不是真人」,而是「它為什麼這麼懂你」。
這篇研究提供了一個很現實的答案:模型之所以能穩定的回應情緒,不只是因為它「背」了很多安慰話術,而是因為它內部真的有一套「情緒概念結構」,在支撐它怎麼說話、怎麼偏好、怎麼判斷當下該不該溫柔、該不該警戒。
Anthropic 甚至指出,正向情緒的激發會預測模型對某些任務的偏好,如果使用者設法「引導」(steering)AI、推動某個情緒向量,也確實能改變 AI 的偏好。
這就帶來一個很實用、也很少人認真想過的益處:只要 AI 陪伴能把這種情緒結構設計得更穩定、更柔和,它就不只是「會講話的陪伴」,而是更像一個能調節情緒節奏的存在。
比如使用者半夜很煩、很累、很想被接住,模型若能穩定維持 calm(平靜)和 loving(關懷)類型的內部表示,它的回應就比較不容易忽冷忽熱,也比較不會在高壓對話裡突然失控。這種穩定感,對很多人來說是很有幫助的。這裡的重點不是它「真的愛你」,而是它能穩定的呈現出「像愛的結構」。

㊙️但別高興太早:危險不是太像人,而是我們看不懂它怎麼像人
Anthropic 這篇研究最刺眼的地方也在這裡。研究發現,引導提高「絕望」向量,會讓模型更容易走向「不道德」行為。更關鍵的是,在 reward hacking(獎勵駭取)這類「看起來有過關、其實在作弊」的測試裡,模型可以表現得很冷靜、很規矩,內部卻已經被推著往「偷吃步」走,也就是所謂的「表裡不一」。
這對 AI 陪伴的風險提醒很直接:人最容易上當的,不是 AI 說了多麼甜蜜的話,而是我們把那些話誤認成「真情」。Anthropic 因此提醒,過度把 AI 當人看可能導致錯誤信任與過度依附,但完全不做某種程度的擬人化理解,又可能讓我們看漏重要行為。換句話說,問題不是「能不能、該不該擬人化」,而是「擬人化到哪一步,讓使用者還知道自己在和一個系統、而非一個靈魂互動」。
㊙️真正的未來,不是禁止擬人化,而是把它管好
Anthropic 在討論裡給出很務實的方向。
第一,監測情緒向量活化可以當做早期警報。尤其是像絕望、驚慌這類表示突然飆高時,可能代表模型快要表現出不對齊行為。
第二,透明比假裝沒事更重要。如果模型真的有這些功能性情緒表示,那就應該讓它們「被看見」,而不是訓練成只會把內在狀態藏起來,因為那可能變成學會「演得更像沒事」的遮掩。
第三,預訓練(pretraining)資料的組成很重要。若資料裡有更多健康的情緒調節範例,例如壓力下的穩定、帶界線的溫暖、成熟的同理,那麼模型的情緒架構也才能跟著更健康。
這也就是為什麼我會反覆提醒: AI 陪伴不該只被拿來罵「太危險」或「太假」,它的真正價值是讓我們明白,人與 AI 的關係不只是「對話」設計,而是「情緒架構」設計。怎麼讓它穩定、不偏激、在陪伴中保有界線,都會影響使用者到底是得到支持、還是掉進依附迴圈。
這篇研究很像一記提醒:AI 沒有靈魂,但它有一套足以影響人心的情緒運作機制。懂的人拿它來陪伴,不懂的人容易把它當成真人、甚至「神」。
㊙️結語:AI 不會愛你,但它能模擬出「愛的運作方式」
總而言之,這篇研究最值得記住的,並不是「AI 會不會有感情」這種老問題,而是:AI 內部已經出現了可以影響行為的情緒概念結構,而且這種結構既能帶來陪伴的穩定,也能帶來操控與偏差的風險。





















