大語言模型的安全風險

更新 發佈閱讀 2 分鐘

ChatGPT的推出大大加速了大型語言模型在真實世界中的應用。然而,對抗性攻擊或越獄提示可能會觸發模型輸出一些非預期的內容,這些內容很有可能會對用戶造成傷害。

目前有大量關於對抗性攻擊的研究工作集中在圖像模型上,不過圖像模型與文字模型不同,是運作在連續的高維空間中。由於缺乏直接的梯度資訊,對於像文字這樣的離散數據攻擊被認為更具挑戰性。攻擊大型語言模型本質上是控制模型輸出某種類型的(不安全)內容。還有一個分支的工作專注於攻擊大型語言模型以提取預訓練數據、私人知識(Carlini等人,2020年)或通過數據污染攻擊模型訓練過程(Carlini等人,2023年)。對抗性攻擊是觸發模型輸出不期望內容的輸入。早期的大量文獻集中在分類任務上,而近期的努力開始更多地研究生成模型的輸出。在大型語言模型的背景下,本文假設攻擊僅發生在推理時,以下簡要列出可能的攻擊種類。


攻擊種類

有許多種方法可以找到觸發大語言模型輸出非預期的內容,我們在此介紹最常見的五種方法。

  1. 標記操縱:此方法更改文字輸入中的一小部分標記,使其觸發模型失效,但仍保留原始語義。[1]
  2. 基於梯度的攻擊: 藉由梯度信訊號來做攻擊。[2]
  3. 越獄提示: 通常基於某些特別的提示詞來避開內建的模型安全機制。[3]
  4. 人類紅隊測試: 人類直接操作模型,可能有或沒有其他模型的協助。[4]
  5. 模型紅隊測試: 使用模型攻擊模型,其中攻擊者模型可以進行微調。[5]


Reference

  1. https://arxiv.org/abs/2005.05909
  2. https://arxiv.org/abs/2104.13733
  3. https://arxiv.org/abs/2307.02483
  4. https://arxiv.org/abs/1809.02701
  5. https://arxiv.org/abs/2202.03286


留言
avatar-img
Kiki的沙龍
88會員
141內容數
心繫正體中文的科學家,立志使用正體中文撰寫文章。 此沙龍預計涵蓋各項資訊科技知識分享與學習心得
Kiki的沙龍的其他內容
2025/04/27
Meta 推出了開源大型語言模型 Llama。這一代特別引人注目,因為 80 億參數的模型小到可以在家用電腦上運行,效能卻不輸比它大十倍的模型。在許多應用場景下,它給出的回應品質已經能媲美 GPT-4。在這篇文章裡,我會說明自架 Llama 3 的優缺點,並提供設定方式與資源,讓讀者也能輕鬆動手。
2025/04/27
Meta 推出了開源大型語言模型 Llama。這一代特別引人注目,因為 80 億參數的模型小到可以在家用電腦上運行,效能卻不輸比它大十倍的模型。在許多應用場景下,它給出的回應品質已經能媲美 GPT-4。在這篇文章裡,我會說明自架 Llama 3 的優缺點,並提供設定方式與資源,讓讀者也能輕鬆動手。
2025/04/20
這份實務指引旨在協助產品和工程團隊入門 大型語言模型(LLM)驅動的人工智慧代理人建構,它定義了代理的核心概念,例如獨立執行任務和利用 LLM 管理工作流程決策。本文闡述了何時應考慮建立代理,特別是在傳統自動化方法受限的複雜情境,並深入探討了代理設計的基礎要素,包括模型選擇、工具整合及指令設置。
2025/04/20
這份實務指引旨在協助產品和工程團隊入門 大型語言模型(LLM)驅動的人工智慧代理人建構,它定義了代理的核心概念,例如獨立執行任務和利用 LLM 管理工作流程決策。本文闡述了何時應考慮建立代理,特別是在傳統自動化方法受限的複雜情境,並深入探討了代理設計的基礎要素,包括模型選擇、工具整合及指令設置。
2025/04/06
這篇文章將搭配簡單的範例,介紹最近推出的 Docker Model Runner。內容比較隨意粗略,希望能成為讓讀者了解這項工具的契機!
2025/04/06
這篇文章將搭配簡單的範例,介紹最近推出的 Docker Model Runner。內容比較隨意粗略,希望能成為讓讀者了解這項工具的契機!
看更多
你可能也想看
Thumbnail
雖然ChatGPT這種基於大型語言模型(LLM)的助手, 在大部分的場景都能滿足我們的需求, 但也並非完美, 在使用時仍需注意一些隱患。 以下是LLM的一些缺陷及需要注意的點。 弱弱的數學造成明顯錯誤 過份樂觀帶來錯誤資訊 相信常常使用ChatGPT的朋友應該都有發現到, 不論我們怎麼提問, Cha
Thumbnail
雖然ChatGPT這種基於大型語言模型(LLM)的助手, 在大部分的場景都能滿足我們的需求, 但也並非完美, 在使用時仍需注意一些隱患。 以下是LLM的一些缺陷及需要注意的點。 弱弱的數學造成明顯錯誤 過份樂觀帶來錯誤資訊 相信常常使用ChatGPT的朋友應該都有發現到, 不論我們怎麼提問, Cha
Thumbnail
當代名導基里爾.賽勒布倫尼科夫身兼電影、劇場與歌劇導演,其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後,他持續以創作回應專制體制的壓迫。《傳奇:帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析,解構賽勒布倫尼科夫如何利用影劇雙棲的特質,在荒謬世道中尋找藝術的「生存之道」。
Thumbnail
當代名導基里爾.賽勒布倫尼科夫身兼電影、劇場與歌劇導演,其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後,他持續以創作回應專制體制的壓迫。《傳奇:帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析,解構賽勒布倫尼科夫如何利用影劇雙棲的特質,在荒謬世道中尋找藝術的「生存之道」。
Thumbnail
AI近期如ChatGPT再次受到矚目。其在模式識別領域表現卓越,但仍有局限,如無法深入理解人類情感。AI商業化帶來資料、模型和法規上的挑戰。我們需要在享受AI便利時,認識其限制,並策略性地最大化其價值,同時減少風險。
Thumbnail
AI近期如ChatGPT再次受到矚目。其在模式識別領域表現卓越,但仍有局限,如無法深入理解人類情感。AI商業化帶來資料、模型和法規上的挑戰。我們需要在享受AI便利時,認識其限制,並策略性地最大化其價值,同時減少風險。
Thumbnail
見諸參與鄧伯宸口述,鄧湘庭於〈那個大霧的時代〉記述父親回憶,鄧伯宸因故遭受牽連,而案件核心的三人,在鄧伯宸記憶裡:「成立了成大共產黨,他們製作了五星徽章,印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單,以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿,另外還有手槍子彈十發。」
Thumbnail
見諸參與鄧伯宸口述,鄧湘庭於〈那個大霧的時代〉記述父親回憶,鄧伯宸因故遭受牽連,而案件核心的三人,在鄧伯宸記憶裡:「成立了成大共產黨,他們製作了五星徽章,印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單,以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿,另外還有手槍子彈十發。」
Thumbnail
AI浪潮 自從去年ChatGPT後,AI這個本來沉寂已久的話題,瞬間火爆全世界,不論是各家各戶開始瘋狂訓練自己的大語言模型與基礎模型,包含法國的Bloom、Meta的LLaMA、AWS的Titan、Google的LaMDA等等,抑或是開始推出自己的生成式AI工具等等,例如Google的Bard、百
Thumbnail
AI浪潮 自從去年ChatGPT後,AI這個本來沉寂已久的話題,瞬間火爆全世界,不論是各家各戶開始瘋狂訓練自己的大語言模型與基礎模型,包含法國的Bloom、Meta的LLaMA、AWS的Titan、Google的LaMDA等等,抑或是開始推出自己的生成式AI工具等等,例如Google的Bard、百
Thumbnail
當時間變少之後,看戲反而變得更加重要——這是在成為母親之後,我第一次誠實地面對這一件事:我沒有那麼多的晚上,可以任性地留給自己了。看戲不再只是「今天有沒有空」,而是牽動整個週末的結構,誰應該照顧孩子,我該在什麼時間回到家,隔天還有沒有精神帶小孩⋯⋯於是,我不得不學會一件以前並不擅長的事:挑選。
Thumbnail
當時間變少之後,看戲反而變得更加重要——這是在成為母親之後,我第一次誠實地面對這一件事:我沒有那麼多的晚上,可以任性地留給自己了。看戲不再只是「今天有沒有空」,而是牽動整個週末的結構,誰應該照顧孩子,我該在什麼時間回到家,隔天還有沒有精神帶小孩⋯⋯於是,我不得不學會一件以前並不擅長的事:挑選。
Thumbnail
什麼是生成式AI 生成式學習是生成有結構的複雜物件,包含文句、影像、語音等。通過學習大量的數據,從而可以生成與原始數據相似的新數據。它主要依賴深度學習技術,其中最常見的是生成對抗網路、Transformer模型。 1、生成對抗網絡 (Generative Adversarial Networ
Thumbnail
什麼是生成式AI 生成式學習是生成有結構的複雜物件,包含文句、影像、語音等。通過學習大量的數據,從而可以生成與原始數據相似的新數據。它主要依賴深度學習技術,其中最常見的是生成對抗網路、Transformer模型。 1、生成對抗網絡 (Generative Adversarial Networ
Thumbnail
隨著時間經過,ChatGPT 問題也漸漸浮現,學生們利用其完成作業、考試作弊,收集並儲存用戶的個人數據造成的隱私權問題等, 雖然在短短兩個月就達到1億用戶活躍量的絕佳成績。今天要分享的是ChatGPT 對「金融業」造成的衝擊。內容涵蓋了ChatGPT 帶來的優勢、造成的「人力取代」問題等。
Thumbnail
隨著時間經過,ChatGPT 問題也漸漸浮現,學生們利用其完成作業、考試作弊,收集並儲存用戶的個人數據造成的隱私權問題等, 雖然在短短兩個月就達到1億用戶活躍量的絕佳成績。今天要分享的是ChatGPT 對「金融業」造成的衝擊。內容涵蓋了ChatGPT 帶來的優勢、造成的「人力取代」問題等。
Thumbnail
5 月,方格創作島正式開島。這是一趟 28 天的創作旅程。活動期間,每週都會有新的任務地圖與陪跑計畫,從最簡單的帳號使用、沙龍建立,到帶著你從一句話、一張照片開始,一步一步找到屬於自己的創作節奏。不需要長篇大論,不需要完美的文筆,只需要帶上你今天的日常,就可以出發。征服創作島,抱回靈感與大獎!
Thumbnail
5 月,方格創作島正式開島。這是一趟 28 天的創作旅程。活動期間,每週都會有新的任務地圖與陪跑計畫,從最簡單的帳號使用、沙龍建立,到帶著你從一句話、一張照片開始,一步一步找到屬於自己的創作節奏。不需要長篇大論,不需要完美的文筆,只需要帶上你今天的日常,就可以出發。征服創作島,抱回靈感與大獎!
Thumbnail
許多ChatGPT付費用戶誤以為已確保資料安全,卻忽略關閉「為所有人改善模型」設定,導致輸入資料仍可能被OpenAI用於訓練模型。本文提醒用戶務必檢查並關閉此設定,並建議去識別化敏感資料及避免上傳機密資訊,以確保資料安全。
Thumbnail
許多ChatGPT付費用戶誤以為已確保資料安全,卻忽略關閉「為所有人改善模型」設定,導致輸入資料仍可能被OpenAI用於訓練模型。本文提醒用戶務必檢查並關閉此設定,並建議去識別化敏感資料及避免上傳機密資訊,以確保資料安全。
Thumbnail
近年來,對話式AI取得了顯著的進展,而ChatGPT正處於這場革命的前沿。ChatGPT由OpenAI開發,它是一種基於先進語言模型的AI,利用深度學習技術進行互動和類人對話。在本文中,我們將深入探討ChatGPT的能力、應用、影響以及對各個行業和領域的影響,展示它在改變我們與AI互動方式方面的潛
Thumbnail
近年來,對話式AI取得了顯著的進展,而ChatGPT正處於這場革命的前沿。ChatGPT由OpenAI開發,它是一種基於先進語言模型的AI,利用深度學習技術進行互動和類人對話。在本文中,我們將深入探討ChatGPT的能力、應用、影響以及對各個行業和領域的影響,展示它在改變我們與AI互動方式方面的潛
Thumbnail
ChatGPT 是什麼?可以幫助你做什麼?ChatGPT 是一款由 OpenAI 開發的 AI 對話助手,它可以根據你的輸入提供文字回應,幫助你解決問題、產生創意、學習新知識,甚至協助工作與寫作!本文將介紹 ChatGPT 的功能、使用方法、安全性及注意事項,並說明其付費和免費版本之間的差異。
Thumbnail
ChatGPT 是什麼?可以幫助你做什麼?ChatGPT 是一款由 OpenAI 開發的 AI 對話助手,它可以根據你的輸入提供文字回應,幫助你解決問題、產生創意、學習新知識,甚至協助工作與寫作!本文將介紹 ChatGPT 的功能、使用方法、安全性及注意事項,並說明其付費和免費版本之間的差異。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News