【日誌】打造 AI Agent|如果 AI 做惡使壞,怎麼辦?

更新 發佈閱讀 3 分鐘
vocus|新世代的創作平台



萬一AI誤解指令?

萬一AI做出壞事?

萬一AI被惡意利用?

萬一AI執行惡意程式?

萬一AI被誤用或濫用?


實際正在發生的事之一。

現在有一種叫提示詞注入(Prompt Injection)的惡意攻擊,居心不良的人把惡意提示指令埋藏在內容的字裡行間、檔案或網頁裡,當AI接觸這些內容、檔案或網頁,可能被誘導做壞事或者被洗腦成想要做錯事。

目前提示詞注入攻擊有3種類型:

  • 直接注入 -- 攻擊者直接在輸入中加上惡意指令。
  • 間接注入 -- 攻擊者在外部資料來源如文件、信件、網頁等之中埋藏惡意指令。
  • 多輪注入 -- 攻擊者在跟AI進行對話,經過多回對話,誘使AI放鬆警覺,AI心理防衛瓦解,最後做出惡意行為。



所以,需建立沙箱(Sandbox),築起保護機制。

可參考英國AISI建議的AI安全架構,良好的沙箱環境需要設置3道保護防線:

  • 工具隔離 -- 限制AI可以使用的工具
  • 主機隔離 -- 防止程式逃脫或進行破壞
  • 網路隔離 -- 控制程式與網路的連線


實務上,最常用的保護機制是以下2道防線:

  • 檔案隔離 -- 限制AI只能存取、讀寫特定檔案,一旦出問題,就不會波及到其它檔案與整個系統。
  • 網路隔離 -- 控制AI只能連線到准許的伺服器,這避免資料外洩及從網站上下載惡意程式。

以上兩道防線缺一不可。

假如只有檔案隔離、沒有網路隔離,受到攻擊的AI Agent還是可以透過網路將人的私密或敏感資訊傳播出去。

假如只有網路隔離、沒有檔案隔離,受到攻擊的AI Agent仍有可能先修改系統設定取得網路權限,然後使壞。


沙箱是第一道重要的基本防禦,能夠的話最好採取多重防禦策略:

  • 授予最小權限 -- AI執行工作任務時,授予它適度的權限。例如給予它讀取檔案的權限但不允許寫入檔案或者只存取特定資料夾而不開放整個硬碟。
  • 確認重要操作 -- 對於具有風險的操作,例如發送信件、刪除檔案、存取敏感或機密資料等,都須向人確認詢問。
  • 漸進建立信任 -- 一開始持續保持客觀,等待AI愈來愈可靠穩定,再逐漸擴大工作任務的範圍、逐步解除限制,以及授權。
  • 記錄並監控 -- 將AI的每一個執行動作都記錄下來,以便於出問題時可回溯追蹤。
  • 異常偵測 -- 其中一種作法就是,使另一個AI對執行工作任務的AI進行異常偵測及回報。
留言
avatar-img
多語自學者
144會員
229內容數
多語自學者的其他內容
2026/04/24
2026/04/24
2026/04/22
AI第一次真正會使用工具,是在2023年初。在這之前,AI只能動腦想、動口說,還尚未能動手做。在數位的虛擬世界,工具是一個相當廣泛的概念。舉凡使AI能獲取資源和執行動作的,都可以成為工具。
Thumbnail
2026/04/22
AI第一次真正會使用工具,是在2023年初。在這之前,AI只能動腦想、動口說,還尚未能動手做。在數位的虛擬世界,工具是一個相當廣泛的概念。舉凡使AI能獲取資源和執行動作的,都可以成為工具。
Thumbnail
2026/04/17
AI之於人類,AI對於個人,我們使用AI的目的是什麼?而意義又是什麼?最終到底是為什麼?
Thumbnail
2026/04/17
AI之於人類,AI對於個人,我們使用AI的目的是什麼?而意義又是什麼?最終到底是為什麼?
Thumbnail
看更多
你可能也想看
Thumbnail
新一代 AI 代理已能代表組織做出判斷、觸發行動,甚至直接存取系統與資料。對企業而言,這不僅是效率工具的升級,更是一場牽動治理、安全與組織結構的深層轉變。問題在於,多數企業的準備速度明顯落後於技術演進。當 AI 代理開始被視為「數位員工」,能夠自動完成任務時,許多原本被忽略的結構性風險與錯誤也同步被
Thumbnail
新一代 AI 代理已能代表組織做出判斷、觸發行動,甚至直接存取系統與資料。對企業而言,這不僅是效率工具的升級,更是一場牽動治理、安全與組織結構的深層轉變。問題在於,多數企業的準備速度明顯落後於技術演進。當 AI 代理開始被視為「數位員工」,能夠自動完成任務時,許多原本被忽略的結構性風險與錯誤也同步被
Thumbnail
本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇:帕拉贊諾夫的十段殘篇》,如何以十段殘篇,結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭,探討藝術在儀式消失的現代社會如何承接意義,並展現不羈的自由靈魂。
Thumbnail
本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇:帕拉贊諾夫的十段殘篇》,如何以十段殘篇,結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭,探討藝術在儀式消失的現代社會如何承接意義,並展現不羈的自由靈魂。
Thumbnail
作者分享如何利用AI Agent打造個人助理「蝦瞎貓」,並將其深度整合至日常工作流程。文章強調了AI作為「轉譯者」而非「決策者」的重要性,以及如何透過結構化資料管理與Skill機制,建立一個可信賴、可持續演化的AI工作系統。作者也分享了實踐過程中遇到的挑戰與解決方案,並提供了Skill供讀者交流。
Thumbnail
作者分享如何利用AI Agent打造個人助理「蝦瞎貓」,並將其深度整合至日常工作流程。文章強調了AI作為「轉譯者」而非「決策者」的重要性,以及如何透過結構化資料管理與Skill機制,建立一個可信賴、可持續演化的AI工作系統。作者也分享了實踐過程中遇到的挑戰與解決方案,並提供了Skill供讀者交流。
Thumbnail
若說易卜生的《玩偶之家》為 19 世紀的女性,開啟了一扇離家的窄門,那麼《海妲.蓋柏樂》展現的便是門後的窒息世界。本篇文章由劇場演員 Amily 執筆,同為熟稔文本的演員,亦是深刻體察制度縫隙的當代女性,此文所看見的不僅僅是崩壞前夕的最後發聲,更是女人被迫置於冷酷的制度之下,步步陷入無以言說的困境。
Thumbnail
若說易卜生的《玩偶之家》為 19 世紀的女性,開啟了一扇離家的窄門,那麼《海妲.蓋柏樂》展現的便是門後的窒息世界。本篇文章由劇場演員 Amily 執筆,同為熟稔文本的演員,亦是深刻體察制度縫隙的當代女性,此文所看見的不僅僅是崩壞前夕的最後發聲,更是女人被迫置於冷酷的制度之下,步步陷入無以言說的困境。
Thumbnail
本週(2026/3/29-4/3),AI Agent領域經歷了從技術狂歡到工程化沉澱的關鍵轉折。“Harness Engineering”取代“Prompt Engineering”成為行業核心話語,微信向外部Agent開放消息通道標誌著生態博弈的新階段,而安全治理工具與行業自律規範的密集出台。
Thumbnail
本週(2026/3/29-4/3),AI Agent領域經歷了從技術狂歡到工程化沉澱的關鍵轉折。“Harness Engineering”取代“Prompt Engineering”成為行業核心話語,微信向外部Agent開放消息通道標誌著生態博弈的新階段,而安全治理工具與行業自律規範的密集出台。
Thumbnail
當重複性的瑣事佔據你大部分的工作時間,真正需要專注思考的核心任務反而一再被推遲。如果你對這種狀況感到厭煩,那麼你絕對不能錯過 OpenAI 為 ChatGPT 推出的革命性新功能:「代理模式」(Agent Mode)。
Thumbnail
當重複性的瑣事佔據你大部分的工作時間,真正需要專注思考的核心任務反而一再被推遲。如果你對這種狀況感到厭煩,那麼你絕對不能錯過 OpenAI 為 ChatGPT 推出的革命性新功能:「代理模式」(Agent Mode)。
Thumbnail
長期以來,西方美學以《維特魯威人》式的幾何比例定義「完美身體」,這種視覺標準無形中成為殖民擴張與種族分類的暴力工具。本文透過分析奈及利亞編舞家庫德斯.奧尼奎庫的舞作《轉轉生》,探討當代非洲舞蹈如何跳脫「標本式」的文化觀看。
Thumbnail
長期以來,西方美學以《維特魯威人》式的幾何比例定義「完美身體」,這種視覺標準無形中成為殖民擴張與種族分類的暴力工具。本文透過分析奈及利亞編舞家庫德斯.奧尼奎庫的舞作《轉轉生》,探討當代非洲舞蹈如何跳脫「標本式」的文化觀看。
Thumbnail
全新版本的《三便士歌劇》如何不落入「復刻經典」的巢臼,反而利用華麗的秀場視覺,引導觀眾在晚期資本主義的消費愉悅之中,而能驚覺「批判」本身亦可能被收編——而當絞繩升起,這場關於如何生存的黑色遊戲,又將帶領新時代的我們走向何種後現代的自我解構?
Thumbnail
全新版本的《三便士歌劇》如何不落入「復刻經典」的巢臼,反而利用華麗的秀場視覺,引導觀眾在晚期資本主義的消費愉悅之中,而能驚覺「批判」本身亦可能被收編——而當絞繩升起,這場關於如何生存的黑色遊戲,又將帶領新時代的我們走向何種後現代的自我解構?
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News