
萬一AI誤解指令?
萬一AI做出壞事?
萬一AI被惡意利用?
萬一AI執行惡意程式?
萬一AI被誤用或濫用?
實際正在發生的事之一。
現在有一種叫提示詞注入(Prompt Injection)的惡意攻擊,居心不良的人把惡意提示指令埋藏在內容的字裡行間、檔案或網頁裡,當AI接觸這些內容、檔案或網頁,可能被誘導做壞事或者被洗腦成想要做錯事。
目前提示詞注入攻擊有3種類型:
- 直接注入 -- 攻擊者直接在輸入中加上惡意指令。
- 間接注入 -- 攻擊者在外部資料來源如文件、信件、網頁等之中埋藏惡意指令。
- 多輪注入 -- 攻擊者在跟AI進行對話,經過多回對話,誘使AI放鬆警覺,AI心理防衛瓦解,最後做出惡意行為。
所以,需建立沙箱(Sandbox),築起保護機制。
可參考英國AISI建議的AI安全架構,良好的沙箱環境需要設置3道保護防線:
- 工具隔離 -- 限制AI可以使用的工具
- 主機隔離 -- 防止程式逃脫或進行破壞
- 網路隔離 -- 控制程式與網路的連線
實務上,最常用的保護機制是以下2道防線:
- 檔案隔離 -- 限制AI只能存取、讀寫特定檔案,一旦出問題,就不會波及到其它檔案與整個系統。
- 網路隔離 -- 控制AI只能連線到准許的伺服器,這避免資料外洩及從網站上下載惡意程式。
以上兩道防線缺一不可。
假如只有檔案隔離、沒有網路隔離,受到攻擊的AI Agent還是可以透過網路將人的私密或敏感資訊傳播出去。
假如只有網路隔離、沒有檔案隔離,受到攻擊的AI Agent仍有可能先修改系統設定取得網路權限,然後使壞。
沙箱是第一道重要的基本防禦,能夠的話最好採取多重防禦策略:
- 授予最小權限 -- AI執行工作任務時,授予它適度的權限。例如給予它讀取檔案的權限但不允許寫入檔案或者只存取特定資料夾而不開放整個硬碟。
- 確認重要操作 -- 對於具有風險的操作,例如發送信件、刪除檔案、存取敏感或機密資料等,都須向人確認詢問。
- 漸進建立信任 -- 一開始持續保持客觀,等待AI愈來愈可靠穩定,再逐漸擴大工作任務的範圍、逐步解除限制,以及授權。
- 記錄並監控 -- 將AI的每一個執行動作都記錄下來,以便於出問題時可回溯追蹤。
- 異常偵測 -- 其中一種作法就是,使另一個AI對執行工作任務的AI進行異常偵測及回報。



















