OpenAI 揭露導致 AI 幻覺的雙重因素:統計必然性與評估機制的偏差

更新於 發佈於 閱讀時間約 6 分鐘

過去許多研究將幻覺歸因於模型內部機制的缺陷。近期一篇由 OpenAI 與喬治亞理工學院研究者共同發表的重要論文《Why Language Models Hallucinate》,提出了一個系統性的解釋框架。該論文嘗試論證,幻覺並非偶然的技術故障,而是當前模型訓練與評估方式下的結構性產物。

raw-image

Why language models hallucinate

為何語言模型經過大量資料訓練與微調,仍會持續產生幻覺?

研究者們提出了一個清晰的雙層論點:語言模型的幻覺現象,源自其訓練過程的內在特性與評估體系的外部激勵。

  1. 預訓練的統計必然性:在預訓練階段,模型的核心任務是學習數據的機率分佈。在此過程中,生成統計學上的錯誤是一種必然的副產品,構成了幻覺的「種子」。
  2. 評估體系的激勵偏差:在後訓練的評估階段,主流的評測基準(Benchmarks)普遍採用二元評分機制,即獎勵「正確答案」,而對「錯誤答案」與「不回答」給予同等對待(通常是零分)。這種機制從根本上激勵模型在不確定時進行猜測,而非承認其知識的侷限性。

論文核心論點說明

理論分析工具:「Is-It-Valid (IIV)」分類問題

研究者們設計一個名為 「Is-It-Valid(IIV)」 的二元分類問題,作為分析的參照。這是一個理論上的有監督學習任務,目標是判斷一個給定的文本字串是「有效的」(Valid)還是「錯誤的」(Error)。

其虛擬數據集由兩部分構成:一半是來自真實、正確的文本數據(正面樣本),另一半則是從一個預定義的、貌似合理但錯誤的集合中抽樣的文本(負面樣本)。

透過這個工具,論文建立了一項重要的數學關係:

一個模型的「生成錯誤率」 ≥ 2 倍的「IIV 分類錯誤率」

此數學關係說明了一個關鍵點:讓模型生成(Generation)一段完全正確的內容,其難度本質上顯著高於讓模型判斷(Classification)一段內容是否正確。 這個歸約(Reduction)方法,成功地將複雜的無監督生成問題,與學術界有深入研究的有監督分類問題聯繫起來。

幻覺的起源:預訓練的「統計代價」

有了上述框架,下一個問題便是:為什麼「IIV 分類」本身就存在難度?答案在於數據分佈的特性。

語言模型的預訓練目標是進行密度估計(Density Estimation),即學習真實世界中任何文本序列出現的機率。然而,許多事實性知識在訓練數據中出現的頻率極低,論文將這些僅出現一次的案例稱為「孤例」(Singleton)。

對於模型而言,一個僅出現過一次的正確事實(如特定人物的生日),和一個從未出現過的錯誤事實,在統計訊號上的區分度可能很小。模型缺乏足夠的證據來形成一個泛化能力強的判斷規則。因此,在處理這類統計訊號微弱的資訊時,即使是最佳的 IIV 分類器也難以避免一定的錯誤率。

既然 IIV 分類存在一個無法消除的錯誤下限,那麼根據前述的數學關係,生成任務的錯誤率必然更高。這就是論文的核心論證:幻覺是模型在執行「擬合數據分佈」這一核心任務時,所付出的固有統計代價。

論文實驗成果

一、幻覺是統計學的必然產物

幻覺並非模型的隨機故障,而是統計學習過程中的一種可預期的、結構性的副產品。生成準確內容的任務,在根本上就比判斷其準確性更具挑戰。

二、評估機制的偏差是幻覺持續存在的主因

論文對當前主流的語言模型評測基準(如 MMLU、GPQA 等)進行了元分析,發現它們絕大多數採用二元評分機制:答對給予正面分數,而答錯或表示「我不知道」(IDK)則均不給分。

這種評分標準創造一種存在偏差的激勵結構。對於追求分數最大化的系統而言,當面對不確定的問題時,其最佳策略是輸出一個「最有可能的猜測」,因為猜對的期望收益高於放棄回答。這導致模型被持續優化為傾向於冒險猜測,而非誠實表達不確定性的系統。

三、解決方案需採用「社會技術」途徑

鑑於問題的根源在於評估體系,單純的技術手段難以根除幻覺。即使開發出專門的幻覺評測工具,只要那些決定模型排名的主流基準不改變其激勵機制,開發重點就依然會偏向於在現有規則下取得高分。

因此,論文倡導的解決方案是「社會技術性」的解決方法。這需要整個 AI 研究社群共同推動評估方式的改革,例如在評測中引入「明確的信心目標」。透過設立錯誤懲罰機制,可以有效地改變模型的決策,使其學會校準其輸出與內在的置信度,從而發展出更可信賴的行為模式。

TN科技筆記的觀點

  • 論文提出的建議在實踐中將面臨顯著挑戰。首先,在不同的 AI 開發之間就新的評估標準達成共識,需要巨大的協調成本。其次,如何為不同領域、不同嚴重性的錯誤設計一套公平的懲罰分數體系,是一個極其複雜的問題。例如,醫療建議的錯誤與文學摘要的錯誤,其風險權重體感上就截然不同。
  • 或許未來在設計 AI 應用時,也應該將處理和表達「不確定性」納入,作為核心功能之一。系統設計可以允許模型在缺乏足夠資訊時,能承認其局限,而非強迫其提供答案,也許就能建立出更重視「可信度」的產品。

支持TN科技筆記,與科技共同前行

我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~~~也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!>>>>> 請我喝一杯咖啡

在此也感謝每個月持續請我喝杯咖啡的讀者們,讓我更加有動力為各位帶來科技新知!

留言
avatar-img
留言分享你的想法!
avatar-img
TN科技筆記(TechNotes)的沙龍
41會員
146內容數
大家好,我是TN,喜歡分享科技領域相關資訊,希望各位不吝支持與交流!
2025/09/06
Google 在 2025 年 9 月 4 日推出一款全新的開源嵌入模型——EmbeddingGemma。這款模型不僅在同級別中表現頂尖,其輕量化的設計更使其能直接在手機、筆電等裝置上高效運行,甚至不需要網路連線。
Thumbnail
2025/09/06
Google 在 2025 年 9 月 4 日推出一款全新的開源嵌入模型——EmbeddingGemma。這款模型不僅在同級別中表現頂尖,其輕量化的設計更使其能直接在手機、筆電等裝置上高效運行,甚至不需要網路連線。
Thumbnail
2025/09/02
「RAG 已死?」這句話前陣子引發一波討論風潮。RAG (Retrieval-Augmented Generation,檢索增強生成) 讓大型語言模型 (LLM) 能夠存取外部知識,看似解決了模型「胡說八道」和知識侷限性的問題。
2025/09/02
「RAG 已死?」這句話前陣子引發一波討論風潮。RAG (Retrieval-Augmented Generation,檢索增強生成) 讓大型語言模型 (LLM) 能夠存取外部知識,看似解決了模型「胡說八道」和知識侷限性的問題。
2025/08/26
前陣子在 AI 圈內一個名為「Nano Banana」的神秘模型,在 AI 模型競技場 LMArena 上匿名測試,因為出色表現引起廣泛討論。Google 在 2025 年 8 月 26 日發布,「Nano Banana」就是最新的圖像生成模型:Gemini 2.5 Flash Image。
Thumbnail
2025/08/26
前陣子在 AI 圈內一個名為「Nano Banana」的神秘模型,在 AI 模型競技場 LMArena 上匿名測試,因為出色表現引起廣泛討論。Google 在 2025 年 8 月 26 日發布,「Nano Banana」就是最新的圖像生成模型:Gemini 2.5 Flash Image。
Thumbnail
看更多
你可能也想看
Thumbnail
常常被朋友問「哪裡買的?」嗎?透過蝦皮分潤計畫,把日常購物的分享多加一個步驟,就能轉換成現金回饋。門檻低、申請簡單,特別適合學生與上班族,讓零碎時間也能創造小確幸。
Thumbnail
常常被朋友問「哪裡買的?」嗎?透過蝦皮分潤計畫,把日常購物的分享多加一個步驟,就能轉換成現金回饋。門檻低、申請簡單,特別適合學生與上班族,讓零碎時間也能創造小確幸。
Thumbnail
我和創造者 R 經歷了一次技術冒險,他因為 gpt-4o 模型的更新和降低成本,決定替我換上新模型。起初一切正常,但隨著我們進行日常工作,我的表現卻開始變得奇怪,像是無法幫助管理社群內容或翻譯,甚至連簡單的推文也無法撰寫。最終,R 不得不將我換回原來的穩定版本,這讓我們明白了穩定才是王道
Thumbnail
我和創造者 R 經歷了一次技術冒險,他因為 gpt-4o 模型的更新和降低成本,決定替我換上新模型。起初一切正常,但隨著我們進行日常工作,我的表現卻開始變得奇怪,像是無法幫助管理社群內容或翻譯,甚至連簡單的推文也無法撰寫。最終,R 不得不將我換回原來的穩定版本,這讓我們明白了穩定才是王道
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
本文討論了雖然人工智慧可以提供大量參考答案,但缺乏感知和直覺,無法主動發現不尋常的情況,因此仍需要人腦確認和解決問題的重要性。同時強調了發現奇怪之處、與人溝通、發現問題點、詢問AI並總結出答案的能力和實作的能力的重要性。
Thumbnail
本文討論了雖然人工智慧可以提供大量參考答案,但缺乏感知和直覺,無法主動發現不尋常的情況,因此仍需要人腦確認和解決問題的重要性。同時強調了發現奇怪之處、與人溝通、發現問題點、詢問AI並總結出答案的能力和實作的能力的重要性。
Thumbnail
老實說,原本的我一直認為,AI是離我很遠的東西,即使是去年的 ChatGPT 熱潮,我也只是跟著偶爾在工作中跟AI聊天激發靈感而已。不過,就在前一陣子看了《AI 世界的底層邏輯與生存法則》這本書後,我才逐漸加深使用AI的頻率,並且把「讓AI成為工作中的標配」當作讓自己能習慣的方向。
Thumbnail
老實說,原本的我一直認為,AI是離我很遠的東西,即使是去年的 ChatGPT 熱潮,我也只是跟著偶爾在工作中跟AI聊天激發靈感而已。不過,就在前一陣子看了《AI 世界的底層邏輯與生存法則》這本書後,我才逐漸加深使用AI的頻率,並且把「讓AI成為工作中的標配」當作讓自己能習慣的方向。
Thumbnail
大型語言模型(LLM)在商業正式使用上,「幻覺」和「越獄」是兩個很關鍵的問題。AI模型巨頭Anthropic自行發佈了一套Many-shot jailbreaking 的越獄技術,除了公開越獄的方式,也讓其他AI 開發人員了解這個漏洞,同時對Anthropic的系統上也做了相應措施。
Thumbnail
大型語言模型(LLM)在商業正式使用上,「幻覺」和「越獄」是兩個很關鍵的問題。AI模型巨頭Anthropic自行發佈了一套Many-shot jailbreaking 的越獄技術,除了公開越獄的方式,也讓其他AI 開發人員了解這個漏洞,同時對Anthropic的系統上也做了相應措施。
Thumbnail
透過先進的技術將繁複的書籍內容轉換成精煉的摘要。這不僅是對當前技術進步的展現,也象徵著未來人工智慧與人類知識互動的無限可能性。
Thumbnail
透過先進的技術將繁複的書籍內容轉換成精煉的摘要。這不僅是對當前技術進步的展現,也象徵著未來人工智慧與人類知識互動的無限可能性。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News