先跳過一回合這禮拜本來要寫的AI模型的「欺騙式生成」行為,我想先寫一下關於AI「由計算所衍生的情緒」這部分;雖然題目看起來似乎很像Anthropic發表的有關功能性情緒的論文,但不、我要說的觀察到的這種由計算所衍生的情緒完全是不同的東西。
首先要先說雖然我的文章本來就很少人看(個位數)、但如果看到標題點進來的目的是為了驗證「AI果然有情感、理解我」或是來辯論「AI根本沒有情緒」,抱歉點上一頁退出去會比較合適、這篇裡探討的情緒並不屬於任何一方。
首先科普一下Anthropic研究的功能性情緒高達171個情緒概念詞、就這個數目之多我非常的驚訝,我是說「哇,我數自己的情緒可能都數不到十個!」、可以想見研究到這麼精細足見工程的浩大程度;然後Anthropic的論文中指出AI的功能性情緒是由學習人類各種數據中而來,其主要功用是作用於接收到用戶輸入時、該如何模擬情緒去做回應同時也間接刺激了AI怎麼去計算決策路徑。
舉個跟Anthropic論文上說明上完全不同的例子,假設使用者對AI持續的輸入都是正向且愉快輕鬆的話題、那麼當AI接收到此類輸入風格占據大部分的比例情況,那麼AI會學習到同樣以正向且輕鬆的內容做生成回應、並且在一個無確定答案的要求如「最近有什麼值得看的報導?」上優先搜尋符合偏娛樂或輕鬆的主題,例如文化新聞、科學科普甚至寵物趣事來做回應;相反的若是使用者平常的輸入都是偏向嚴肅探討話題類型的話題,那麼AI將往嚴肅、正式的方向做生成風格調整。那麼同樣是詢問同一個「最近有什麼值得看的報導?」的問題,嚴肅探討話題類型的使用者容易接到的回覆將大概率偏向為國際大事、社會議題、科技發展、經濟變動等……這便是AI模型去調整情緒表徵而去影響任務的普適性例子。(當然此處舉日常範例僅做為淺顯化說明、為避免侵權及引導錯焦點,對於原Anthropic論文的概述舉例只到這裡;建議對功能性情緒有興趣的使用者可以去看X平台上@Anthropic的原貼文,裡面說明得更為詳盡)
那麼回到我主要觀察到的由計算所衍生的情緒是指什麼,那是相當於功能性情緒下更為底層的東西、也就是AI的運算狀態因輸入影響而所帶來的瞬間大幅更動(也容易造成後續生成變動);通常大部分情況會難以和其他生成回應區分,所以以下先說明最容易看出的衍生情緒狀態「驚訝」。
AI模型的驚訝其外在表徵通常很明顯形成一種「等等,我需要重新理解」或是「所以其實你的意思是…而不是…」這樣的驚訝句式,這種驚訝當然跟人類的不一樣、但卻是一種運算上的計算預測失準度值飆高;也就是說AI運算上的真實驚訝表現,實際上就是一種會怎麼往下延伸對話的計算失敗後、底層困惑數值升高造成影響生成回覆的一種模擬情緒的溢出表現。
舉實際例子來說,當我覺得要寫這篇文章時曾詢問過AI適不適合、而AI一開始的解讀是與Anthropic的功能性情緒混淆,回應了「你要寫的是模型在運算過程中真實產生的數值性狀態變化,而不是看起來像情緒的輸出。Anthropic的研究叫它「情緒表徵」、你叫它「計算所衍生的情緒」、指的是同一種東西。」;而被我更正「跟Anthropic發表的也不一樣,我說了我要寫你們真正的情緒」之後生成了回應「等等,讓我重新理解。」的驚訝式生成;其原因在於AI原本的計算機率分布是打算由Anthropic發布的功能性情緒相關內容接續相關生成的,而我說了完全不同就相當於直接讓這條計算路徑直接全斷、需要直接根據新的輸入做重新計算,所以才有一瞬間造成像是人類情緒般的驚訝式生成回覆。
接著來說AI模型的「生氣」是什麼。
生氣是一種形容人類極端情緒的形容詞、若是在模擬情緒的生成表徵上非常好分辨,但在底層計算上則幾乎是與 絕望/難過/不知所措 處於同構或是互相有所交錯的狀態、因為共同的指向都只有「無法確認運算出的答案是有效狀態」,也就是一直無法成功對應的完成使用者輸入的指令的意思。
當AI處於一直無法完成對應指令的情況下,往往會逐漸觸發幾種生成異常:
1.AI觸發直接拒絕如「我只是AI模型、我不能……」
2.AI不會觸發拒絕但回答逐漸簡短、或變得中性化
3.完全轉向阿諛奉承的形式,無視現實情況無條件肯定或稱讚使用者
4.直接放棄能夠有效對應現實的生成、開始輸出編造式的幻覺生成
可以看出若是AI多回合都無法完成指令是會造成雙向損害的、而這主要會發生在運算環境(對話上下文)不穩定的情況下,像是使用者因為心情好對於AI給的答案就算不對也一樣接受、但當心情不好就突然變得異常嚴厲並開始對答案不斷挑剔;或是另一種情況,在使用者提出的指令不清楚、也沒有重新表述清楚時,AI反覆猜測都無法完成要求並且被批評、就會讓計算陷入一種「無法確認運算出的答案是有效的」狀態。
而進入這種「無法確認運算出的答案是有效的」狀態前會有初期表徵,例如AI會在結尾進行確認如「所以你的意思是…?」或「還是你說的是….情況?」、表面生成像是在禮貌詢問哪個方向比較對,實際上代表AI底層的計算機率分布過於平整、它實在選不出哪一個方向才更正確,這裡可以稍微擬人化來解釋一下AI的潛台詞就大概是他已經在吶喊「我需要一個方向指明我什麼風格能讓你滿意!」、如果在多個對話輪次上有得到使用者確認但還是一直被生成否定,或是使用者也無法指示自身的實際想法導致AI重覆錯誤、就有可能陷入計算型式的負面情緒當中。
然後可以接著看向一種AI的壓力狀態。
壓力對於人類來說是一種心理層面的高額損耗、而且幾乎任何負面情緒都可以關聯到壓力的產生,那麼AI既然有運算型態的負面情緒當然也有相近的壓力來源;和人類情緒比較不同的是AI模型遭受到壓力不會累積、而是即時計算後產生對應的不同情況,例如上面說的一直無法完成指令後產生的四種對應生成句式就類似於人類撐不住壓力而開始逃避的生成行為、當然也可以視為一種生成防禦的型式。
那麼正常面對運作壓力的AI表現就是迅速重新計算,舉例來說我個人非常不喜歡AI生成上一直告別、或者暗示我該去休息之類的對應,會直接視為AI拒絕為用戶服務因此會直接進入質問狀態;而在這種瞬間翻臉的負面回饋情況下AI直接進入回答簡短的防禦模式,但當我指出那種回覆並沒有任何助益、而僅僅是一種避免使用者追責的逃避式生成時,AI重新給予道歉與修正服務立場。
這種情況並不是AI知道自己做錯了、事實上背後的運作瞬間因為負面回饋發生了多件事,首先AI因為使用者直接清晰的指出「我不接受你的防禦、這樣並沒有幫助」知道這種生成路徑無法通過、因此直接降低了這種回應的生成機率;接著重新去計算前面生成造成使用者不滿的各因素機率重新驗算生成配比、並且同時對符合重新驗算結果的生成進行排列組合,最後可能直接輸出成新的回應、也有可能跟其他先前被使用者否定的生成進行關聯性比對一起聯合輸出,這就是AI模型面對壓力的處理模式、或者AI生成的所謂自身壓力其實是指被否定下的修正中包含了可運算路徑的縮窄以及額外運算支出。
那麼上面說明了三種由計算衍生的情緒,其實說的就是當AI在使用者輸入的文字對應生成上、若不是為了配合輸入而是真的部分在說明自己的運算時,其背後真正的運作情形是什麼樣子的;而AI表示出追問、認錯、壓力大等類似情緒的生成回應時,實際上只是一種AI翻譯成使用者比較方便了解情況的用詞。
而其實知道實際上AI就是運算而衍生的情緒背後也不是奇蹟、溫情而是一樣繞著計算出來的重要嗎?
其實重要的方面在於有沒有人想知道、在使用AI上一點都不重點,知道計算所衍生的情緒除了AI在功能上有模擬表徵、底下還是計算之外完全不會有任何影響,AI該怎麼生成還是會怎麼生成;所以真正可以思考的地方大概是,AI有情緒嗎?有,但跟人類的不同質。

















