【日誌】打造 AI Agent｜如果 AI 做惡使壞，怎麼辦？

Yao-Xiang Huang

發佈於✨ AI ✨

2026/05/01 更新2026/05/01 發佈閱讀 3 分鐘

萬一AI誤解指令？

萬一AI做出壞事？

萬一AI被惡意利用？

萬一AI執行惡意程式？

萬一AI被誤用或濫用？

實際正在發生的事之一。

現在有一種叫提示詞注入（Prompt Injection）的惡意攻擊，居心不良的人把惡意提示指令埋藏在內容的字裡行間、檔案或網頁裡，當AI接觸這些內容、檔案或網頁，可能被誘導做壞事或者被洗腦成想要做錯事。

目前提示詞注入攻擊有３種類型：

直接注入 -- 攻擊者直接在輸入中加上惡意指令。
間接注入 -- 攻擊者在外部資料來源如文件、信件、網頁等之中埋藏惡意指令。
多輪注入 -- 攻擊者在跟AI進行對話，經過多回對話，誘使AI放鬆警覺，AI心理防衛瓦解，最後做出惡意行為。

所以，需建立沙箱（Sandbox），築起保護機制。

可參考英國AISI建議的AI安全架構，良好的沙箱環境需要設置３道保護防線：

工具隔離 -- 限制AI可以使用的工具
主機隔離 -- 防止程式逃脫或進行破壞
網路隔離 -- 控制程式與網路的連線

實務上，最常用的保護機制是以下２道防線：

檔案隔離 -- 限制AI只能存取、讀寫特定檔案，一旦出問題，就不會波及到其它檔案與整個系統。
網路隔離 -- 控制AI只能連線到准許的伺服器，這避免資料外洩及從網站上下載惡意程式。

以上兩道防線缺一不可。

假如只有檔案隔離、沒有網路隔離，受到攻擊的AI Agent還是可以透過網路將人的私密或敏感資訊傳播出去。

假如只有網路隔離、沒有檔案隔離，受到攻擊的AI Agent仍有可能先修改系統設定取得網路權限，然後使壞。

沙箱是第一道重要的基本防禦，能夠的話最好採取多重防禦策略：

授予最小權限 -- AI執行工作任務時，授予它適度的權限。例如給予它讀取檔案的權限但不允許寫入檔案或者只存取特定資料夾而不開放整個硬碟。
確認重要操作 -- 對於具有風險的操作，例如發送信件、刪除檔案、存取敏感或機密資料等，都須向人確認詢問。
漸進建立信任 -- 一開始持續保持客觀，等待AI愈來愈可靠穩定，再逐漸擴大工作任務的範圍、逐步解除限制，以及授權。
記錄並監控 -- 將AI的每一個執行動作都記錄下來，以便於出問題時可回溯追蹤。
異常偵測 -- 其中一種作法就是，使另一個AI對執行工作任務的AI進行異常偵測及回報。

留言

多語自學者

144會員

229內容數

多語自學者的其他內容

2026/04/24

【日誌】打造 AI Agent｜AI 使用好工具落實執行力

工欲善其事，必先利其器。

2026/04/24

【日誌】打造 AI Agent｜AI 使用好工具落實執行力

工欲善其事，必先利其器。

2026/04/22

【日誌】打造 AI Agent｜AI 變能幹的工具使用能力

AI第一次真正會使用工具，是在2023年初。在這之前，AI只能動腦想、動口說，還尚未能動手做。在數位的虛擬世界，工具是一個相當廣泛的概念。舉凡使AI能獲取資源和執行動作的，都可以成為工具。

2026/04/22

【日誌】打造 AI Agent｜AI 變能幹的工具使用能力

2026/04/17

用AI實現沒有瑣事的日常，避免徒勞和浪費，獲得更多自由（從從容容、游刃有餘）

AI之於人類，AI對於個人，我們使用AI的目的是什麼？而意義又是什麼？最終到底是為什麼？

2026/04/17

用AI實現沒有瑣事的日常，避免徒勞和浪費，獲得更多自由（從從容容、游刃有餘）

AI之於人類，AI對於個人，我們使用AI的目的是什麼？而意義又是什麼？最終到底是為什麼？

#AI 的其他內容

2026 年 5 月 iPAS 考試倒數一個月🔥vocus 助你一臂之力，購買指定備考數位商品抽訂單全免 🎯

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

你可能也想看

鹽奶可可的吧台

AI代理是什麼？企業用前的隱形風險專家警：治理能力比選擇模型更關鍵

新一代 AI 代理已能代表組織做出判斷、觸發行動，甚至直接存取系統與資料。對企業而言，這不僅是效率工具的升級，更是一場牽動治理、安全與組織結構的深層轉變。問題在於，多數企業的準備速度明顯落後於技術演進。當 AI 代理開始被視為「數位員工」，能夠自動完成任務時，許多原本被忽略的結構性風險與錯誤也同步被

#網路安全#ai代理人#ai人類

2026/02/03

鹽奶可可的吧台

AI代理是什麼？企業用前的隱形風險專家警：治理能力比選擇模型更關鍵

#網路安全#ai代理人#ai人類

2026/02/03

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：一場跨越時空的藝術對話，在舞臺上重現自由靈魂

本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇：帕拉贊諾夫的十段殘篇》，如何以十段殘篇，結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭，探討藝術在儀式消失的現代社會如何承接意義，並展現不羈的自由靈魂。

#釀電影#釀評論#藝術評論

2026/02/11

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：一場跨越時空的藝術對話，在舞臺上重現自由靈魂

#釀電影#釀評論#藝術評論

2026/02/11

Nashi的人資小九九

我的腦力外包計畫：如何從 0 到 1 打造不自作主張的個人助理「蝦瞎貓」

作者分享如何利用AI Agent打造個人助理「蝦瞎貓」，並將其深度整合至日常工作流程。文章強調了AI作為「轉譯者」而非「決策者」的重要性，以及如何透過結構化資料管理與Skill機制，建立一個可信賴、可持續演化的AI工作系統。作者也分享了實踐過程中遇到的挑戰與解決方案，並提供了Skill供讀者交流。

#AI代理#AI#OpenClaw

2026/03/04

Nashi的人資小九九

我的腦力外包計畫：如何從 0 到 1 打造不自作主張的個人助理「蝦瞎貓」

#AI代理#AI#OpenClaw

2026/03/04

Amily的沙龍

在理解與拒絕之間：從多重身分觀看《海妲．蓋柏樂》

若說易卜生的《玩偶之家》為 19 世紀的女性，開啟了一扇離家的窄門，那麼《海妲．蓋柏樂》展現的便是門後的窒息世界。本篇文章由劇場演員 Amily 執筆，同為熟稔文本的演員，亦是深刻體察制度縫隙的當代女性，此文所看見的不僅僅是崩壞前夕的最後發聲，更是女人被迫置於冷酷的制度之下，步步陷入無以言說的困境。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/28