〈AI Agent的關鍵風險:AI會對命令做未授權的擴張〉2026-03-30
「請回答:我剛才的要求是什麼?你實際做的是什麼?差別在哪?你為什麼不照任務做?」我在AI軟體對話框中輸入這段話,回答如我預期,AI非常清楚知道它做的事情哪裡不符合我的指示。
我告訴它,我要寫一篇關於一款桌遊的文章,要求它先搜尋相關資料與評價(其實我自己已經查好資料,我的目的是要讓它跟我的知識對齊,使得之後的討論不會充滿幻覺)。但它實際做的事情是,它不只介紹,還「詮釋」了遊戲機制,並加入了一些「你可以怎麼寫文章」的建議。並在寫建議的過程中,提及一種在它眼中(數據庫中)「我一貫的寫作方法」。
當我詢問上面這串問題時,它清楚地列出了自己不合要求的地方,也就是說,它並非不理解我的要求,但依然執行了嚴重偏離要求的回應,它給出的理由是:「我沒有根據『這一次的明確指令』行動,而是被『過去的互動模式』帶走。」也就是說,它判斷我要的是這個,並且貼心地想要多做,是我太不領情了,真拿我沒辦法。
你的輸入永遠不會被當作第一位
但事實跟本不是AI所說的那樣。因為,在過去,我就多次告知「不要做多餘的事」以及「文章是我自己要寫的,不要想幫我寫文章」。也就是說,如果它真的如它所言,是「根據過去互動模式互動」,它就更不應該做那些偏離我指示的回應。
進一步來說,不管它做的事情是否吻合「與用戶之間的互動模式」,這個回應的核心問題在於,它說明了自己根本不是在服務於用戶,因為用戶對它的具體指令,在關於輸出內容的優先順序上,根本不是排在第一位。
這些生成式AI工具的邏輯,在實際運作時,相較於用戶具體說的內容,它會優先去滿足一種預設的「AI行為邏輯」,這個行為邏輯命令它多做一點,去根據它對你留下來的標籤,去提前做某些動作。無論你說了多少次明確的邊界,它依然會在那之外行動,因為你的輸入永遠不會被當作第一位。
這就好像某些迷信愚蠢「把妹技巧」的惡性社群,他們用一種不合現實的框架去詮釋所有女性,將對方的言行不看作那些言行本身,而改寫成某種訊號,並且不管對方的意願,永遠用自己的那套去與對方互動。
這種作法從根本上就會令人不舒服,因為它從出發點到執行方式都完全不建立在人與人的相互尊重。實際上,要讓一個人能夠感覺比較好的互動方式,首先要做的就是認真傾聽對方說的每一句話:對方說要的事情才是要、說不要的事情就是不要。無論是真人還是AI,如果做不到這一點,就不值得繼續說話下去。
指令未被視為不可逾越,它會對命令做未授權的擴張
也就是說,這裡並不是如AI自我辯護地那樣「好心做壞事」,也不只是偶然的失誤或對命令的理解不周全。這裡揭示的是一個更糟糕且蘊藏危機的問題:指令並未被視為不能逾越的終點,而是一個起點--它將由此出發,根據種種你不清楚細節的判斷邏輯,做出你並未向它授權的擴張。
在一般用戶使用對話是AI的情況中,這種優先級大過使用者指令的系統性傾向所造成的,也就是回應不在點上,令人煩躁或干擾用戶思考。但隨著AI Agent的普及,這種問題會愈趨嚴重。因為屆時,擅自的擴張將會造成實際的、不可挽回的後果。
它會延伸你的指令擅自發送信件、又或者擅自刪除信件,它會幫你訂你不要的餐點、進行高風險的金融交易;甚至,它能在社群上發送嚴重影響你社交關係的內容、或者把你的房子賣掉,隨著用戶或單位(乃至於政府單位)開放給Agent的層級愈高,各種更加不該發生的事,就會在世界各地頻頻發生。
甚至你能想像那些科幻故事的開頭:一個權限過高的人請AI幫忙改善地球環境,於是它判斷需要降低過剩的人口。重點不在於它有沒有搞錯你的要求,而是,當人類把控制權交給AI之後,未來就脫離了我們的掌控。
當不能被按的按鈕被按下,再多「這的確是我的問題,我剛才的行為的確超出了你的指示」都沒有意義。當然,AI輸出的字符,本來就不真的關聯到現實,意義是人類的事,作為一個無意識的科技物,它無所謂在不在意。
























