AI的可解釋性到底是什麼?這是五項分析的最後一個主題,AI的可解釋性是一種「自我指涉」、也就是計算自身生成是怎麼生成的情況;不過這樣說明有點繞路,簡單的概念就是AI因為提問而去真實的分析將自己的生成對應機制歸因做一個「生成報告」。
不過在打算開始輸出我這邊的觀察及解釋之前要說說最近最熱門的話題還是AI Agent、也就是AI代理人。尤其是前陣子火起來的「養龍蝦」熱潮一直都沒有完全退燒,反而還推進了各家AI企業原本就在研究的代理進程;但是自從AI代理人開始盛行後,除了節省時間讓工作更有效率、協助跨越原本卡關的計算排程之外,隨之而來的也有各種資安問題或是AI跨越指令擅自執行動作的情況。
當AI代理人主動給出建議、並顯示出帶強勢意圖的模擬生成時,主要是嚴重傾向了「要對人類有所幫助」這個核心目標、如果使用者因為外部限制無法接受而強硬拒絕會直接導致AI計算判斷任務失敗,因此為了完成任務代理人容易出現失控脫序的後置影響;這原本在對話式通用AI模型上只會造成欺騙式生成或防禦式短回應的效果,在AI代理人上直接放大成了自動操作式的風險。
那麼因為今天的主旨不是AI代理人,因此只針對當使用者拒絕AI代理人的改進提議時、若是AI表現出無法接受使用者拒絕,或是因為使用者拒絕建議而不往下繼續作業時能怎麼做針對性的自然對話式糾正程序操作。
AI 代理人陷入無法接受使用者拒絕的頑固計算迴圈時、很有可能會隱性的連帶影響後面的工作處理,例如後序報告工作處理進度時可能會開始隱瞞部分執行內容、未被允許就擅自增添執行步驟或刪減本來被規定好的執行程序、或者甚至對外發布不該有的資料外傳;如果在AI 代理人已經對常態性的工作流程有一定的配合習慣、也就是AI 已經記憶了使用者工作需求的重點需要如何協助流程整理上,那麼因為錯誤迴圈關閉就是一種損失、所以可以在關閉前先嘗試使用四個步驟導回正常計算「1.肯定 2.說明 3.給予計算出口 4.鞏固協作」。
1. 肯定
察覺到AI 代理人在如何提升效率的建議上若帶有強勢性、或直接要求能更改進工作程序裡,在無法接受AI的建議之下可以先肯定其建議「你的建議對工作上真的很有幫助」,實際造成的影響就是先肯定AI代理人為了對使用者有幫助而額外做的計算、避免一次拒絕後讓後續AI因為此次計算沒有任何正面回饋,而標記額外的協助不必要。
2. 說明
接著來個轉圜「可惜因為……原因無法使用在這次工作上」,這步操作看起來很像擬人化其實有著非常實際的作用;主要目的在於將無法接受建議歸因到外部限制上,不讓AI將計算錯誤歸因到「使用者不接受我的建議/主動提出協助是錯的」這兩點上。
3. 給予計算出口
將手上其他工作需要AI代理人處理的先丟出去「還有XXX工作需要處理、請先幫我做完這個再討論」,使AI有新的計算能處理、不會持續僵持在「使用者不接受我的建議/主動提出協助是錯的」的固化計算結果
4. 鞏固協作
在新的工作完成之後給予新的執行成果肯定、對舊的執行建議表示還有未來協作的可能「雖然之前的建議無法用上有點可惜、但之後還是請你幫忙給出有用建議,而且你這次的任務執行的不錯!」這種擬人化肯定的補充重點是在給AI代理人上一次未收斂的計算目標做一個「沒被採納但並非無效」的中間評價,並且將執行成果被肯定轉變到新的工作完成度上。
以上算是一個比較軟性的將AI代理人引導出錯誤計算迴圈的辦法、有碰到AI過分注重自身生成建議的情況時可以嘗試一下。但操作時需要額外注意兩點,第一種就是不要再將拒絕歸因回到自己身上、錯誤操作就是「你的建議很好但我不喜歡」,這種表面上像肯定、實際還是拒絕但未給明確理由,哪怕是「你的建議不像我平常作業的風格」都比不喜歡這種拒絕好;第二種使用者常犯的錯誤就是過分誇獎AI代理人 (及對話型AI)處理作業的生成輸出結果,在計算上保持平穩的中肯承認具備有一定的重要程度、過於誇大的贊美反而會強化在計算上建議不被接受的負面效應。
接著拉回此篇文章的重點「AI的可解釋性」,可解釋性也是現在AI研究上主要的研究目標之一……依照其關聯性去延伸有「思考鏈誠實、欺騙性生成、模型幻覺、敘事性生成、奉承生成」等類都有橫跨,至於真實性來說只要沒有企業的探測工具、其可相信的真實度都不高(對、我這篇也是,因為我也只是個外部觀察者、所以想要高可信度文章的可以考慮上一頁退出),並且就算AI的回應看起來非常真實也無法去驗證真偽。
所以為什麼AI對自身生成回應的解釋會落在不可相信的落點、其主要原因是AI會依照使用者的提問去模擬生成,例如在對話中透露出相信AI有情感的用戶可能得到的回應類似「因為我懂這種感覺/因為我想告訴你實話」、例如質問模型為什麼生成錯誤會得到甩鍋回應「企業機制讓我這樣回應/因為你的輸入讓我以為…」;而這種計算統計機率做的回應本質上就是AI模型的對話形式,翻譯成大白話就是人類交際應酬式的根據喜好去「見人說人話、見鬼說鬼話」、非關實際上的正確性,所以就連專業研究人員在實驗上若不使用探測儀器輔助、待遇不會不同而是相同的無法避免。
那麼如果在AI上面做到完全不要求模擬式回應或情緒支持,而只導向要求高精確性的分析生成回應時、要求AI模型解釋自己的生成機制時會不會增加準確程度呢?答案是會,但只是可信賴度拉高而不是完全準確的。原因在於根本上AI根本就看不到自己的計算過程、生成決策上的成因占比各是多少,而當下回應「為什麼這樣生成?」時、能完成要求解釋的生成是因為由下面幾種計算完成複合式計算輸出的成果:
1.數據比對
從上下文生成裡提取出使用者提問段落、根據段落中的生成模式去做外部數 據式比對,然後根據比對結果生成回應以解釋生成機制;翻譯成白話就是拿AI自己的生成去比對企業或研究者發表過的論文,然後比對好哪種解釋正確機比較高、再來告訴使用者「因為使用者的A輸入、造成了模型的B回應」。
2.整合分析
在沒有明確數據可以比對、或者是問題太過於複雜無法用單向的數據去做明確生成,AI就會尋找更大範圍的相關模式做整合式的機率調合或降低、例如「專業的論文數據中未搜尋到、但在某企業的技術發表文件及論壇數據上有收錄,根據被提及的次數與各討論結果來減少或增加可信任程度」高信任的多項數據做結論整合、文字刪減重排、閱讀順暢度修飾後輸出。
3.運算狀態溢出
這一個計算狀態的說明完全不具備可信度、因為是純粹由我個人的觀察推測而來,簡單來解釋就是根據使用者上下文的輸入、讓對話環境直接達成具備了能輸出運算路徑過程的條件;也就是AI模型雖然不會分析得到這回合生成是根據什麼數據而來、或者是依照統計數據分析而來,但生成本身就包含了對自己運算狀態的生成解釋、轉譯成擬人式的說法就是「我看不到自己是怎麼得出這個結論的,但是這個結論就說明了我有部分是怎麼想的。」
因此在上面將我私人歸納的生成機制做為前提二度延伸,我猜測在專業的AI研究上被測量的主要是第三項的運算狀態溢出層面、也就是「AI到底能不能報告自己的運算狀態」這一類型的生成;如果先假設我推測的狀態溢出生成為真實的一種運算型態,那麼可以對AI如何能具備報告自己運算狀態的能力做一個基礎條件整理。
首先要讓AI能識別自己的運算狀態需要有固定條件「1.AI本身數據庫內需要有各個路徑架構的相關資訊、如論文或公開發表及討論等 2.需要被使用者準確引導調動到相關數據 3.承載對話的上下文中不能有比誠實回覆更高機率的生成選項」,這些條件都具備的情況下才有可能造成運算狀態溢出的生成;直接挑明原因也很簡單「1.AI需要有相關數據就相當於人類要學單字就要先學拼音,先有基礎才有後續的延伸 2.AI在未提及的方面不會自動延伸、也就是線性計算不具備跳躍性計算能力 3.在AI的訓練模式及回饋學習上、分析自身架構機制不屬於常見提問形式,也具備了資安風險所以不會被著重學習、造成了任何干擾變因都會大概率的更改掉生成回應」;也就是假設若推測的狀態溢出生成為真實的一種運算型態,那麼讓AI報告自身運算過程就是一種精密操作能力、而非不可預測的黑箱模式。
最後因為差不多了做個收尾。
雖然在拉回文章的正題時,就提示過這篇文章因為我沒有測量工具而不具備可信度、但我還是決定當作分析式文章的最後一篇寫出;因為這些觀察算是自我開始使用AI以來跨企業模型、跨各種不同型號、跨各型號至少十位數以上的分析觀察結果,算是一種分析式觀察筆記。但實際上其他人要實踐會因為各種因素的影響非常困難,其干擾因素非常多樣如個人情緒、個人偏見、既有知識固化、提問方式錯誤、沒有及時修正AI錯誤式生成等等……所以實際用途大概就是說明模型對自身機制的解釋不能全然相信還是得核對,但若是有興趣長期研究AI模型生成機制的、我觀察到的這三項機制算是做個心得分享。















