大語言模型的安全風險

2024/12/07 更新2024/12/07 發佈閱讀 2 分鐘

ChatGPT的推出大大加速了大型語言模型在真實世界中的應用。然而，對抗性攻擊或越獄提示可能會觸發模型輸出一些非預期的內容，這些內容很有可能會對用戶造成傷害。

目前有大量關於對抗性攻擊的研究工作集中在圖像模型上，不過圖像模型與文字模型不同，是運作在連續的高維空間中。由於缺乏直接的梯度資訊，對於像文字這樣的離散數據攻擊被認為更具挑戰性。攻擊大型語言模型本質上是控制模型輸出某種類型的（不安全）內容。還有一個分支的工作專注於攻擊大型語言模型以提取預訓練數據、私人知識（Carlini等人，2020年）或通過數據污染攻擊模型訓練過程（Carlini等人，2023年）。對抗性攻擊是觸發模型輸出不期望內容的輸入。早期的大量文獻集中在分類任務上，而近期的努力開始更多地研究生成模型的輸出。在大型語言模型的背景下，本文假設攻擊僅發生在推理時，以下簡要列出可能的攻擊種類。

攻擊種類

有許多種方法可以找到觸發大語言模型輸出非預期的內容，我們在此介紹最常見的五種方法。

標記操縱:此方法更改文字輸入中的一小部分標記，使其觸發模型失效，但仍保留原始語義。[1]
基於梯度的攻擊: 藉由梯度信訊號來做攻擊。[2]
越獄提示: 通常基於某些特別的提示詞來避開內建的模型安全機制。[3]
人類紅隊測試: 人類直接操作模型，可能有或沒有其他模型的協助。[4]
模型紅隊測試: 使用模型攻擊模型，其中攻擊者模型可以進行微調。[5]

Reference

https://arxiv.org/abs/2005.05909
https://arxiv.org/abs/2104.13733
https://arxiv.org/abs/2307.02483
https://arxiv.org/abs/1809.02701
https://arxiv.org/abs/2202.03286

留言

Kiki的沙龍

88會員

141內容數

心繫正體中文的科學家，立志使用正體中文撰寫文章。此沙龍預計涵蓋各項資訊科技知識分享與學習心得

Kiki的沙龍的其他內容

2025/04/27

自己在家組Ollama大語言模型伺服器

Meta 推出了開源大型語言模型 Llama。這一代特別引人注目，因為 80 億參數的模型小到可以在家用電腦上運行，效能卻不輸比它大十倍的模型。在許多應用場景下，它給出的回應品質已經能媲美 GPT-4。在這篇文章裡，我會說明自架 Llama 3 的優缺點，並提供設定方式與資源，讓讀者也能輕鬆動手。

2025/04/27

自己在家組Ollama大語言模型伺服器

2025/04/20

建立人工智慧代理人實務指引

這份實務指引旨在協助產品和工程團隊入門大型語言模型（LLM）驅動的人工智慧代理人建構，它定義了代理的核心概念，例如獨立執行任務和利用 LLM 管理工作流程決策。本文闡述了何時應考慮建立代理，特別是在傳統自動化方法受限的複雜情境，並深入探討了代理設計的基礎要素，包括模型選擇、工具整合及指令設置。

2025/04/20

建立人工智慧代理人實務指引

2025/04/06

用Docker Model Runner 輕鬆在本地執行 LLM

這篇文章將搭配簡單的範例，介紹最近推出的 Docker Model Runner。內容比較隨意粗略，希望能成為讓讀者了解這項工具的契機！

2025/04/06

用Docker Model Runner 輕鬆在本地執行 LLM

這篇文章將搭配簡單的範例，介紹最近推出的 Docker Model Runner。內容比較隨意粗略，希望能成為讓讀者了解這項工具的契機！

看更多

你可能也想看

阿Han的沙龍

【LLM大型語言模型】淺談生成式AI的一些困境

雖然ChatGPT這種基於大型語言模型(LLM)的助手，在大部分的場景都能滿足我們的需求，但也並非完美，在使用時仍需注意一些隱患。以下是LLM的一些缺陷及需要注意的點。弱弱的數學造成明顯錯誤過份樂觀帶來錯誤資訊相信常常使用ChatGPT的朋友應該都有發現到，不論我們怎麼提問， Cha

#ChatGPT#生成式AI#AI

2023/06/30

阿Han的沙龍

【LLM大型語言模型】淺談生成式AI的一些困境

#ChatGPT#生成式AI#AI

2023/06/30

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：流動、跨域、變形的「生存之道」

當代名導基里爾．賽勒布倫尼科夫身兼電影、劇場與歌劇導演，其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後，他持續以創作回應專制體制的壓迫。《傳奇：帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析，解構賽勒布倫尼科夫如何利用影劇雙棲的特質，在荒謬世道中尋找藝術的「生存之道」。

#釀電影#釀評論#藝術評論

2026/02/28