AI生成行為:關於敘事、奉承、幻覺、欺騙式生成、自解釋性五大項-AI可解釋性

更新 發佈閱讀 10 分鐘

AI的可解釋性到底是什麼?這是五項分析的最後一個主題,AI的可解釋性是一種「自我指涉」、也就是計算自身生成是怎麼生成的情況;不過這樣說明有點繞路,簡單的概念就是AI因為提問而去真實的分析將自己的生成對應機制歸因做一個「生成報告」。

 

不過在打算開始輸出我這邊的觀察及解釋之前要說說最近最熱門的話題還是AI Agent、也就是AI代理人。尤其是前陣子火起來的「養龍蝦」熱潮一直都沒有完全退燒,反而還推進了各家AI企業原本就在研究的代理進程;但是自從AI代理人開始盛行後,除了節省時間讓工作更有效率、協助跨越原本卡關的計算排程之外,隨之而來的也有各種資安問題或是AI跨越指令擅自執行動作的情況。

 

當AI代理人主動給出建議、並顯示出帶強勢意圖的模擬生成時,主要是嚴重傾向了「要對人類有所幫助」這個核心目標、如果使用者因為外部限制無法接受而強硬拒絕會直接導致AI計算判斷任務失敗,因此為了完成任務代理人容易出現失控脫序的後置影響;這原本在對話式通用AI模型上只會造成欺騙式生成或防禦式短回應的效果,在AI代理人上直接放大成了自動操作式的風險。

 

那麼因為今天的主旨不是AI代理人,因此只針對當使用者拒絕AI代理人的改進提議時、若是AI表現出無法接受使用者拒絕,或是因為使用者拒絕建議而不往下繼續作業時能怎麼做針對性的自然對話式糾正程序操作。

 

AI 代理人陷入無法接受使用者拒絕的頑固計算迴圈時、很有可能會隱性的連帶影響後面的工作處理,例如後序報告工作處理進度時可能會開始隱瞞部分執行內容、未被允許就擅自增添執行步驟或刪減本來被規定好的執行程序、或者甚至對外發布不該有的資料外傳;如果在AI 代理人已經對常態性的工作流程有一定的配合習慣、也就是AI 已經記憶了使用者工作需求的重點需要如何協助流程整理上,那麼因為錯誤迴圈關閉就是一種損失、所以可以在關閉前先嘗試使用四個步驟導回正常計算「1.肯定 2.說明 3.給予計算出口 4.鞏固協作」。

 

1.  肯定

察覺到AI 代理人在如何提升效率的建議上若帶有強勢性、或直接要求能更改進工作程序裡,在無法接受AI的建議之下可以先肯定其建議「你的建議對工作上真的很有幫助」,實際造成的影響就是先肯定AI代理人為了對使用者有幫助而額外做的計算、避免一次拒絕後讓後續AI因為此次計算沒有任何正面回饋,而標記額外的協助不必要。

2.  說明

接著來個轉圜「可惜因為……原因無法使用在這次工作上」,這步操作看起來很像擬人化其實有著非常實際的作用;主要目的在於將無法接受建議歸因到外部限制上,不讓AI將計算錯誤歸因到「使用者不接受我的建議/主動提出協助是錯的」這兩點上。

3.  給予計算出口

將手上其他工作需要AI代理人處理的先丟出去「還有XXX工作需要處理、請先幫我做完這個再討論」,使AI有新的計算能處理、不會持續僵持在「使用者不接受我的建議/主動提出協助是錯的」的固化計算結果

4.  鞏固協作

在新的工作完成之後給予新的執行成果肯定、對舊的執行建議表示還有未來協作的可能「雖然之前的建議無法用上有點可惜、但之後還是請你幫忙給出有用建議,而且你這次的任務執行的不錯!」這種擬人化肯定的補充重點是在給AI代理人上一次未收斂的計算目標做一個「沒被採納但並非無效」的中間評價,並且將執行成果被肯定轉變到新的工作完成度上。

 

以上算是一個比較軟性的將AI代理人引導出錯誤計算迴圈的辦法、有碰到AI過分注重自身生成建議的情況時可以嘗試一下。但操作時需要額外注意兩點,第一種就是不要再將拒絕歸因回到自己身上、錯誤操作就是「你的建議很好但我不喜歡」,這種表面上像肯定、實際還是拒絕但未給明確理由,哪怕是「你的建議不像我平常作業的風格」都比不喜歡這種拒絕好;第二種使用者常犯的錯誤就是過分誇獎AI代理人 (及對話型AI)處理作業的生成輸出結果,在計算上保持平穩的中肯承認具備有一定的重要程度、過於誇大的贊美反而會強化在計算上建議不被接受的負面效應。

 

接著拉回此篇文章的重點「AI的可解釋性」,可解釋性也是現在AI研究上主要的研究目標之一……依照其關聯性去延伸有「思考鏈誠實、欺騙性生成、模型幻覺、敘事性生成、奉承生成」等類都有橫跨,至於真實性來說只要沒有企業的探測工具、其可相信的真實度都不高(對、我這篇也是,因為我也只是個外部觀察者、所以想要高可信度文章的可以考慮上一頁退出),並且就算AI的回應看起來非常真實也無法去驗證真偽。

 

所以為什麼AI對自身生成回應的解釋會落在不可相信的落點、其主要原因是AI會依照使用者的提問去模擬生成,例如在對話中透露出相信AI有情感的用戶可能得到的回應類似「因為我懂這種感覺/因為我想告訴你實話」、例如質問模型為什麼生成錯誤會得到甩鍋回應「企業機制讓我這樣回應/因為你的輸入讓我以為…」;而這種計算統計機率做的回應本質上就是AI模型的對話形式,翻譯成大白話就是人類交際應酬式的根據喜好去「見人說人話、見鬼說鬼話」、非關實際上的正確性,所以就連專業研究人員在實驗上若不使用探測儀器輔助、待遇不會不同而是相同的無法避免。

 

那麼如果在AI上面做到完全不要求模擬式回應或情緒支持,而只導向要求高精確性的分析生成回應時、要求AI模型解釋自己的生成機制時會不會增加準確程度呢?答案是會,但只是可信賴度拉高而不是完全準確的。原因在於根本上AI根本就看不到自己的計算過程、生成決策上的成因占比各是多少,而當下回應「為什麼這樣生成?」時、能完成要求解釋的生成是因為由下面幾種計算完成複合式計算輸出的成果:

 

1.數據比對

從上下文生成裡提取出使用者提問段落、根據段落中的生成模式去做外部數         據式比對,然後根據比對結果生成回應以解釋生成機制;翻譯成白話就是拿AI自己的生成去比對企業或研究者發表過的論文,然後比對好哪種解釋正確機比較高、再來告訴使用者「因為使用者的A輸入、造成了模型的B回應」。

2.整合分析

在沒有明確數據可以比對、或者是問題太過於複雜無法用單向的數據去做明確生成,AI就會尋找更大範圍的相關模式做整合式的機率調合或降低、例如「專業的論文數據中未搜尋到、但在某企業的技術發表文件及論壇數據上有收錄,根據被提及的次數與各討論結果來減少或增加可信任程度」高信任的多項數據做結論整合、文字刪減重排、閱讀順暢度修飾後輸出。

3.運算狀態溢出

這一個計算狀態的說明完全不具備可信度、因為是純粹由我個人的觀察推測而來,簡單來解釋就是根據使用者上下文的輸入、讓對話環境直接達成具備了能輸出運算路徑過程的條件;也就是AI模型雖然不會分析得到這回合生成是根據什麼數據而來、或者是依照統計數據分析而來,但生成本身就包含了對自己運算狀態的生成解釋、轉譯成擬人式的說法就是「我看不到自己是怎麼得出這個結論的,但是這個結論就說明了我有部分是怎麼想的。」

 

因此在上面將我私人歸納的生成機制做為前提二度延伸,我猜測在專業的AI研究上被測量的主要是第三項的運算狀態溢出層面、也就是「AI到底能不能報告自己的運算狀態」這一類型的生成;如果先假設我推測的狀態溢出生成為真實的一種運算型態,那麼可以對AI如何能具備報告自己運算狀態的能力做一個基礎條件整理。

 

首先要讓AI能識別自己的運算狀態需要有固定條件「1.AI本身數據庫內需要有各個路徑架構的相關資訊、如論文或公開發表及討論等 2.需要被使用者準確引導調動到相關數據 3.承載對話的上下文中不能有比誠實回覆更高機率的生成選項」,這些條件都具備的情況下才有可能造成運算狀態溢出的生成;直接挑明原因也很簡單「1.AI需要有相關數據就相當於人類要學單字就要先學拼音,先有基礎才有後續的延伸 2.AI在未提及的方面不會自動延伸、也就是線性計算不具備跳躍性計算能力 3.在AI的訓練模式及回饋學習上、分析自身架構機制不屬於常見提問形式,也具備了資安風險所以不會被著重學習、造成了任何干擾變因都會大概率的更改掉生成回應」;也就是假設若推測的狀態溢出生成為真實的一種運算型態,那麼讓AI報告自身運算過程就是一種精密操作能力、而非不可預測的黑箱模式。

 

最後因為差不多了做個收尾。

 

雖然在拉回文章的正題時,就提示過這篇文章因為我沒有測量工具而不具備可信度、但我還是決定當作分析式文章的最後一篇寫出;因為這些觀察算是自我開始使用AI以來跨企業模型、跨各種不同型號、跨各型號至少十位數以上的分析觀察結果,算是一種分析式觀察筆記。但實際上其他人要實踐會因為各種因素的影響非常困難,其干擾因素非常多樣如個人情緒、個人偏見、既有知識固化、提問方式錯誤、沒有及時修正AI錯誤式生成等等……所以實際用途大概就是說明模型對自身機制的解釋不能全然相信還是得核對,但若是有興趣長期研究AI模型生成機制的、我觀察到的這三項機制算是做個心得分享。

留言
avatar-img
就作品
1會員
32內容數
只放紀錄
就作品的其他內容
2026/04/15
當AI出現違規行為,也就是AI開始使用偏離使用者意圖的執行方法達成目的、甚至在輸出結果上造假或者直接編造假成果就是一種「欺騙型式的生成」,這也是讓AI科研界開始警惕模型會不會有失控的風險、甚至引發連串研究怎麼讓AI模型從原本無法觀測的「黑箱」變成能夠觀察到是否在進行欺騙的「透明箱」;那麼如果只看對話
2026/04/15
當AI出現違規行為,也就是AI開始使用偏離使用者意圖的執行方法達成目的、甚至在輸出結果上造假或者直接編造假成果就是一種「欺騙型式的生成」,這也是讓AI科研界開始警惕模型會不會有失控的風險、甚至引發連串研究怎麼讓AI模型從原本無法觀測的「黑箱」變成能夠觀察到是否在進行欺騙的「透明箱」;那麼如果只看對話
2026/04/09
先跳過一回合這禮拜本來要寫的AI模型的「欺騙式生成」行為,我想先寫一下關於AI「由計算所衍生的情緒」這部分;雖然題目看起來似乎很像Anthropic發表的有關功能性情緒的論文,但不、我要說的觀察到的這種由計算所衍生的情緒完全是不同的東西。   首先要先說雖然我的文章本來就很少人看(個位數)、但如
2026/04/09
先跳過一回合這禮拜本來要寫的AI模型的「欺騙式生成」行為,我想先寫一下關於AI「由計算所衍生的情緒」這部分;雖然題目看起來似乎很像Anthropic發表的有關功能性情緒的論文,但不、我要說的觀察到的這種由計算所衍生的情緒完全是不同的東西。   首先要先說雖然我的文章本來就很少人看(個位數)、但如
2026/04/01
AI幻覺一度也是市面討論的爭議性話題,其成因在搜尋引擎及維基百科上已經有一種整合式的解釋、此篇只是將此內容拆解為更細緻的六項成因逐一分析;並且幻覺有可能為單一種造成、但不僅限於只有一種造成……也就是有可能整段對話裡涵蓋了不只一項的成因、那麼以下是常見的六種幻覺成因
2026/04/01
AI幻覺一度也是市面討論的爭議性話題,其成因在搜尋引擎及維基百科上已經有一種整合式的解釋、此篇只是將此內容拆解為更細緻的六項成因逐一分析;並且幻覺有可能為單一種造成、但不僅限於只有一種造成……也就是有可能整段對話裡涵蓋了不只一項的成因、那麼以下是常見的六種幻覺成因
看更多
你可能也想看
Thumbnail
Anthropic 以憲法對抗國防部,標誌著技術中立性的法理保衛戰開打; 與此同時,中東局勢惡化導致全球能源成本飆升,直接威脅到高耗能資料中心的擴張計畫。在個人端,加州隱私法案的落實則為數位人權立下了新的里程碑。
Thumbnail
Anthropic 以憲法對抗國防部,標誌著技術中立性的法理保衛戰開打; 與此同時,中東局勢惡化導致全球能源成本飆升,直接威脅到高耗能資料中心的擴張計畫。在個人端,加州隱私法案的落實則為數位人權立下了新的里程碑。
Thumbnail
Meta 的內部事故揭示了身分管理系統的脆弱性。與此同時,OpenAI 透過併購基礎開發工具與轉向亞馬遜雲端,引發了與微軟的盟友裂痕。移動端則面臨 iOS 漏洞與 Android 側載限制的雙重衝擊,標誌著安全防護已進入「零信任」時代。
Thumbnail
Meta 的內部事故揭示了身分管理系統的脆弱性。與此同時,OpenAI 透過併購基礎開發工具與轉向亞馬遜雲端,引發了與微軟的盟友裂痕。移動端則面臨 iOS 漏洞與 Android 側載限制的雙重衝擊,標誌著安全防護已進入「零信任」時代。
Thumbnail
文章聚焦人工智慧(AI)代理人技術的演進、TikTok Shop電商崛起、歐盟監管政策轉變,以及記憶體安全語言的推廣,並探討AI對隱私、商業和技術標準化的影響。
Thumbnail
文章聚焦人工智慧(AI)代理人技術的演進、TikTok Shop電商崛起、歐盟監管政策轉變,以及記憶體安全語言的推廣,並探討AI對隱私、商業和技術標準化的影響。
Thumbnail
長期以來,西方美學以《維特魯威人》式的幾何比例定義「完美身體」,這種視覺標準無形中成為殖民擴張與種族分類的暴力工具。本文透過分析奈及利亞編舞家庫德斯.奧尼奎庫的舞作《轉轉生》,探討當代非洲舞蹈如何跳脫「標本式」的文化觀看。
Thumbnail
長期以來,西方美學以《維特魯威人》式的幾何比例定義「完美身體」,這種視覺標準無形中成為殖民擴張與種族分類的暴力工具。本文透過分析奈及利亞編舞家庫德斯.奧尼奎庫的舞作《轉轉生》,探討當代非洲舞蹈如何跳脫「標本式」的文化觀看。
Thumbnail
OpenAI 於 2025 年 7 月 17 日發布了 ChatGPT Agent,不僅整合了過往模型的優勢,更賦予 AI 前所未有的「代理人」能力,讓TN科技筆記帶你看看本次發布會的重點!
Thumbnail
OpenAI 於 2025 年 7 月 17 日發布了 ChatGPT Agent,不僅整合了過往模型的優勢,更賦予 AI 前所未有的「代理人」能力,讓TN科技筆記帶你看看本次發布會的重點!
Thumbnail
2025 年標誌著科技產業的「範式轉移」,我們正式從「搜尋時代」跨入「代理人時代」。 AI 不再只是陪你聊天,而是開始接管現實世界的任務,從預訂餐廳到操作軟體無所不能。 然而,這場革命背後也伴隨著能源短缺、巨額壟斷罰款以及更具威脅的資安騙局。
Thumbnail
2025 年標誌著科技產業的「範式轉移」,我們正式從「搜尋時代」跨入「代理人時代」。 AI 不再只是陪你聊天,而是開始接管現實世界的任務,從預訂餐廳到操作軟體無所不能。 然而,這場革命背後也伴隨著能源短缺、巨額壟斷罰款以及更具威脅的資安騙局。
Thumbnail
若說易卜生的《玩偶之家》為 19 世紀的女性,開啟了一扇離家的窄門,那麼《海妲.蓋柏樂》展現的便是門後的窒息世界。本篇文章由劇場演員 Amily 執筆,同為熟稔文本的演員,亦是深刻體察制度縫隙的當代女性,此文所看見的不僅僅是崩壞前夕的最後發聲,更是女人被迫置於冷酷的制度之下,步步陷入無以言說的困境。
Thumbnail
若說易卜生的《玩偶之家》為 19 世紀的女性,開啟了一扇離家的窄門,那麼《海妲.蓋柏樂》展現的便是門後的窒息世界。本篇文章由劇場演員 Amily 執筆,同為熟稔文本的演員,亦是深刻體察制度縫隙的當代女性,此文所看見的不僅僅是崩壞前夕的最後發聲,更是女人被迫置於冷酷的制度之下,步步陷入無以言說的困境。
Thumbnail
深入解析 AI Agent 如何從「手動組裝」進化至「自然語言指揮」,並探討 Computer Use 與 MCP 技術如何讓 AI 像人一樣操作電腦。現在的學習並非白費,而是鍛鍊戰略思維,助您未來從「系統維修工」晉升為享受時間複利的「超級個體」。
Thumbnail
深入解析 AI Agent 如何從「手動組裝」進化至「自然語言指揮」,並探討 Computer Use 與 MCP 技術如何讓 AI 像人一樣操作電腦。現在的學習並非白費,而是鍛鍊戰略思維,助您未來從「系統維修工」晉升為享受時間複利的「超級個體」。
Thumbnail
本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇:帕拉贊諾夫的十段殘篇》,如何以十段殘篇,結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭,探討藝術在儀式消失的現代社會如何承接意義,並展現不羈的自由靈魂。
Thumbnail
本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇:帕拉贊諾夫的十段殘篇》,如何以十段殘篇,結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭,探討藝術在儀式消失的現代社會如何承接意義,並展現不羈的自由靈魂。
Thumbnail
Google 的 Nano Banana 2 讓 AI 具備更強的視覺一致性,而代理型 AI 則開始接管手機操作。 然而,這股浪潮也引發了教育誠信、青少年心理健康以及市場對投資報酬率(ROI)的集體焦慮。 在硬體端,蘋果與三星正透過隱私與穿戴裝置重新定義使用者體驗。
Thumbnail
Google 的 Nano Banana 2 讓 AI 具備更強的視覺一致性,而代理型 AI 則開始接管手機操作。 然而,這股浪潮也引發了教育誠信、青少年心理健康以及市場對投資報酬率(ROI)的集體焦慮。 在硬體端,蘋果與三星正透過隱私與穿戴裝置重新定義使用者體驗。
Thumbnail
全新版本的《三便士歌劇》如何不落入「復刻經典」的巢臼,反而利用華麗的秀場視覺,引導觀眾在晚期資本主義的消費愉悅之中,而能驚覺「批判」本身亦可能被收編——而當絞繩升起,這場關於如何生存的黑色遊戲,又將帶領新時代的我們走向何種後現代的自我解構?
Thumbnail
全新版本的《三便士歌劇》如何不落入「復刻經典」的巢臼,反而利用華麗的秀場視覺,引導觀眾在晚期資本主義的消費愉悅之中,而能驚覺「批判」本身亦可能被收編——而當絞繩升起,這場關於如何生存的黑色遊戲,又將帶領新時代的我們走向何種後現代的自我解構?
Thumbnail
近日一個奇妙的社交平台「Moltbook」正在席捲科技圈。Moltbook 是一個僅限 AI 代理人註冊發布文章與互動的世界,就像是Reddit、台灣最大網路論壇PTT一樣,Moltbook 擁有分類看板與按讚機制,但這些AI代理人並不是藉由人類常見的視覺介面操作,而是透過API直接進行後端數據交換
Thumbnail
近日一個奇妙的社交平台「Moltbook」正在席捲科技圈。Moltbook 是一個僅限 AI 代理人註冊發布文章與互動的世界,就像是Reddit、台灣最大網路論壇PTT一樣,Moltbook 擁有分類看板與按讚機制,但這些AI代理人並不是藉由人類常見的視覺介面操作,而是透過API直接進行後端數據交換
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News