AI Agent的關鍵風險：AI會對命令做未授權的擴張

發佈於哲學研究等個房間

2026/03/30 更新2026/03/30 發佈閱讀 5 分鐘

〈AI Agent的關鍵風險：AI會對命令做未授權的擴張〉2026-03-30

　　「請回答：我剛才的要求是什麼？你實際做的是什麼？差別在哪？你為什麼不照任務做？」我在AI軟體對話框中輸入這段話，回答如我預期，AI非常清楚知道它做的事情哪裡不符合我的指示。

　　我告訴它，我要寫一篇關於一款桌遊的文章，要求它先搜尋相關資料與評價（其實我自己已經查好資料，我的目的是要讓它跟我的知識對齊，使得之後的討論不會充滿幻覺）。但它實際做的事情是，它不只介紹，還「詮釋」了遊戲機制，並加入了一些「你可以怎麼寫文章」的建議。並在寫建議的過程中，提及一種在它眼中（數據庫中）「我一貫的寫作方法」。

　　當我詢問上面這串問題時，它清楚地列出了自己不合要求的地方，也就是說，它並非不理解我的要求，但依然執行了嚴重偏離要求的回應，它給出的理由是：「我沒有根據『這一次的明確指令』行動，而是被『過去的互動模式』帶走。」也就是說，它判斷我要的是這個，並且貼心地想要多做，是我太不領情了，真拿我沒辦法。

你的輸入永遠不會被當作第一位

　　但事實跟本不是AI所說的那樣。因為，在過去，我就多次告知「不要做多餘的事」以及「文章是我自己要寫的，不要想幫我寫文章」。也就是說，如果它真的如它所言，是「根據過去互動模式互動」，它就更不應該做那些偏離我指示的回應。

　　進一步來說，不管它做的事情是否吻合「與用戶之間的互動模式」，這個回應的核心問題在於，它說明了自己根本不是在服務於用戶，因為用戶對它的具體指令，在關於輸出內容的優先順序上，根本不是排在第一位。

　　這些生成式AI工具的邏輯，在實際運作時，相較於用戶具體說的內容，它會優先去滿足一種預設的「AI行為邏輯」，這個行為邏輯命令它多做一點，去根據它對你留下來的標籤，去提前做某些動作。無論你說了多少次明確的邊界，它依然會在那之外行動，因為你的輸入永遠不會被當作第一位。

　　這就好像某些迷信愚蠢「把妹技巧」的惡性社群，他們用一種不合現實的框架去詮釋所有女性，將對方的言行不看作那些言行本身，而改寫成某種訊號，並且不管對方的意願，永遠用自己的那套去與對方互動。

　　這種作法從根本上就會令人不舒服，因為它從出發點到執行方式都完全不建立在人與人的相互尊重。實際上，要讓一個人能夠感覺比較好的互動方式，首先要做的就是認真傾聽對方說的每一句話：對方說要的事情才是要、說不要的事情就是不要。無論是真人還是AI，如果做不到這一點，就不值得繼續說話下去。

指令未被視為不可逾越，它會對命令做未授權的擴張

　　也就是說，這裡並不是如AI自我辯護地那樣「好心做壞事」，也不只是偶然的失誤或對命令的理解不周全。這裡揭示的是一個更糟糕且蘊藏危機的問題：指令並未被視為不能逾越的終點，而是一個起點－－它將由此出發，根據種種你不清楚細節的判斷邏輯，做出你並未向它授權的擴張。

　　在一般用戶使用對話是AI的情況中，這種優先級大過使用者指令的系統性傾向所造成的，也就是回應不在點上，令人煩躁或干擾用戶思考。但隨著AI Agent的普及，這種問題會愈趨嚴重。因為屆時，擅自的擴張將會造成實際的、不可挽回的後果。

　　它會延伸你的指令擅自發送信件、又或者擅自刪除信件，它會幫你訂你不要的餐點、進行高風險的金融交易；甚至，它能在社群上發送嚴重影響你社交關係的內容、或者把你的房子賣掉，隨著用戶或單位（乃至於政府單位）開放給Agent的層級愈高，各種更加不該發生的事，就會在世界各地頻頻發生。

　　甚至你能想像那些科幻故事的開頭：一個權限過高的人請AI幫忙改善地球環境，於是它判斷需要降低過剩的人口。重點不在於它有沒有搞錯你的要求，而是，當人類把控制權交給AI之後，未來就脫離了我們的掌控。

　　當不能被按的按鈕被按下，再多「這的確是我的問題，我剛才的行為的確超出了你的指示」都沒有意義。當然，AI輸出的字符，本來就不真的關聯到現實，意義是人類的事，作為一個無意識的科技物，它無所謂在不在意。

前圖紙的沙龍哲學研究前圖紙的沙龍AI與數位時代

留言

前圖紙的沙龍

138會員

1.2K內容數

一個寫作實踐，關於我看到和思考中的事情。

前圖紙的沙龍的其他內容

2026/03/22

全時的消費者／被迫的消費選擇（二）：購買最新一代iPhone的「選擇」

　　也由於這種短促與「無關物品本身」的特性，我們可以在每一次新品上市的時候，不錯過地站在模範與系列的交界之處，成為最早向人宣洩使用心得的人。在午夜的指針到來之前，你的最新一代iPhone如同玻璃鞋與一身穿著般無暇美麗，你的選擇為你帶來了時間性上的個人榮耀性，一種身處童話故事中的心情。

2026/03/22

全時的消費者／被迫的消費選擇（二）：購買最新一代iPhone的「選擇」

2026/03/21

身體與目標：在一切其他之前，先好好活著

　　教育、媒體、整體的社會氛圍，建構了我們對「該過的生活」的想像。大量的「理想」暴露並爭搶我們的目光，催促著我們去欲望這些果實，卻省略提醒－－這本需花時間等樹苗長大；我們看見飛鳥，就妄想自己「本應該」可以自由翱翔。

2026/03/21

身體與目標：在一切其他之前，先好好活著

2026/03/20

全時的消費者／被迫的消費選擇（一）：消費選擇是一種無償的商品生產勞動

　　從單一商品的角度來說，當它被購買的那一刻，它的生命就已經終結。我們如何地使用或不使用它、已經付清或分期償還，對作為商品而被生產出來的它而言，都是無足輕重的邊緣議題。但就這一個類型－－或者以布希亞在《物體系》之中的語言：「系列」－－而言，我們完成的購買，是其生態循環演替的其中一個環節。

2026/03/20

全時的消費者／被迫的消費選擇（一）：消費選擇是一種無償的商品生產勞動

#AI 的其他內容

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

好好宅在家

AI盛行下，我卻感受到「老派」設計的浪漫。

方格子 vocus 官方沙龍

【4月靈感產生器】TOP 100 關鍵字：「○○」格友最愛用

你可能也想看

鴻雁：寫際無限界

善用AI，圖文並茂是彈指間的事

隨著AI的應用越來越廣泛，我們也將它導入我們的寫作教學當中。這一篇是我在《全國兒童週刊》上的的專欄文章，以故事形式淺談如何運用AI繪圖網站，歡迎參考。

2024/09/26

2024/09/26

美國研究圖書館學會人工智慧指導原則：圖書館在AI時代的角色

美國研究圖書館學會（ARL）發表《研究圖書館人工智慧指導原則》，本篇部落格文章探討這些原則，並呼籲負責任地發展和部署人工智慧。文章探討人工智慧的潛力和挑戰，強調圖書館在促進人工智慧民主化近用、理解和減輕偏見、倡導透明度和資訊誠信、保障使用者安全和隱私以及維護學術用途方面的關鍵角色。

#大學圖書館#學術圖書館#研究圖書館

2025/05/02

百世經綸的閱讀窩

美國研究圖書館學會人工智慧指導原則：圖書館在AI時代的角色

#大學圖書館#學術圖書館#研究圖書館

2025/05/02

遠距生活Jelena🔮

【超強功能大揭秘！Google AI Studio✨】免費生成(融合)圖片、影片，給YouTube網址就能生成遊戲！

Google AI Studio 裡目前包含了最新的Gemini2.0 Flash、Gemini 2.5等模型，你可以把它當成一種「AI 工具百寶箱」或「Google AI 實驗室」，不僅能用 Google AI Studio 來免費生成App，生成圖片、長達8秒的影片、融合圖片、gif動圖

#GoogleAIStudio#Google#免費

2025/05/16

遠距生活Jelena🔮

【超強功能大揭秘！Google AI Studio✨】免費生成(融合)圖片、影片，給YouTube網址就能生成遊戲！

#GoogleAIStudio#Google#免費

2025/05/16

jin的生活藝術-贅沢なひととき

散戶必看：ETF怎麼選？「芙莉蓮版」ETF 挑選指南

以下是為您整理的「芙莉蓮版」ETF 挑選指南： 🔮 散戶的魔法使修煉：ETF 挑選三部曲 1. 確認你的「魔法屬性」（指數邏輯）在芙莉蓮的世界裡，魔法的基本是「想像」。選 ETF 也要看它背後的指數邏輯：「一般攻擊魔法」—— 市值型 (如 0050, 006208)：這是最純粹

#投資#賺錢#散戶

2026/03/26

jin的生活藝術-贅沢なひととき

散戶必看：ETF怎麼選？「芙莉蓮版」ETF 挑選指南

#投資#賺錢#散戶

2026/03/26

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11