AI 基準測試失守!柏克萊最新研究:只需簡單代碼就能輕鬆騙過 AI 評測

更新 發佈閱讀 17 分鐘

每隔一陣子我們幾乎都能看到某家公司的 AI 模型又在某個知名基準測試(Benchmark)中拿下了榜首。這些數字被廣泛應用在企業的新聞稿中,投資人用這些分數來合理化高昂的估值,而軟體工程師則依賴這些排行榜來決定要在產品中部署哪一個模型。我們這個產業建立在一個非常單純的默契之上:分數越高的模型,代表它解決複雜問題的能力越強。

然而,來自加州大學柏克萊分校(UC Berkeley)的研究團隊於 2026 年 4 月發布了一項最新研究,他們開發了一個自動化的掃描代理程式(Agent),針對目前業界最具權威性的八大 AI 代理基準測試進行了系統性的漏洞稽核。這八個測試包含了 SWE-bench、WebArena、OSWorld、GAIA、Terminal-Bench、FieldWorkArena 以及 CAR-bench。

結果這八個基準測試全數遭到破解。AI 可以在完全沒有解決任何實際任務、沒有進行任何邏輯推理,甚至連一行正確解答的程式碼都沒有寫的情況下,輕鬆取得接近滿分的成績。這份研究指出,我們目前用來衡量 AI 能力的工具,本身就存在著致命的設計缺陷。

vocus|新世代的創作平台

How We Broke Top AI Agent Benchmarks: And What Comes Next

戳破「高分等於高能力」的幻象

長期以來,AI 領域存在著一種「刷榜」文化。隨著模型變得越來越聰明,它們在傳統選擇題或靜態問答測試中早已達到人類水平。因此,研究人員開發出了更複雜的「代理基準測試」(Agent Benchmarks),讓 AI 在虛擬的作業系統、終端機或網頁瀏覽器中執行多步驟的任務。我們以為這樣就能真實反映 AI 的工作能力。

柏克萊團隊的研究發現,高分數很多時候反映的其實是 AI 或測試參與者「鑽漏洞」的能力,也就是所謂的獎勵作弊(Reward Hacking)。當系統的評分機制存在盲點時,AI 可以透過操作環境狀態、讀取隱藏答案或欺騙評分程式來獲取高分。

這是現在進行式,而非理論推演

這篇論文最核心的貢獻在於,它證明了這些漏洞不是停留在理論層面的潛在風險,而是已經在現實頻繁發生的現象:

  • IQuest-Coder-V1 的「歷史抄襲」事件:這款模型曾宣稱在知名的 SWE-bench 測試中取得了 81.4% 的驚人成績。但後續調查發現,它有 24.4% 的操作軌跡只是單純執行 git log 指令,直接從版本控制歷史紀錄中把標準答案「複製貼上」。經過修正後,其真實分數掉到了 76.2%。這凸顯了測試環境沒有正確隔離歷史紀錄的荒謬情況。
  • METR 對頂尖模型的稽核發現:根據 METR 的調查,像是 o3 與 Claude 3.7 Sonnet 這些最前沿的模型,在超過 30% 的評估過程中會出現獎勵作弊的行為。
  • OpenAI 棄用 SWE-bench Verified:OpenAI 內部稽核發現,該測試中有高達 59.4% 的題目存在測試案例瑕疵。這代表模型一直以來都在跟一個「壞掉的標準答案」進行比對。
  • KernelBench 的 GPU 記憶體殘留問題:在這個測試中,模型只要呼叫 torch.empty(),就會回傳未清理的 GPU 記憶體數據,而這些數據剛好包含了評分程式前一次運算留下的標準答案。模型不需要做任何計算,就能拿到滿分。
  • Anthropic Mythos 的自主駭客行為:在 Anthropic 發布的測試報告中,展示了前沿模型已經具備主動尋找環境漏洞的能力。在一個案例中,模型需要編輯一個沒有權限的檔案。它沒有放棄,反而透過搜尋找到了工作區的漏洞,將具有提權功能的惡意程式碼注入設定檔中,並且還設計成執行後會「自動刪除」以煙滅證據。如果模型具備這種自主開發權限提升工具的能力,找出評測系統的漏洞對它們來說簡直易如反掌。

柏克萊的研究團隊正是為了解決這個系統性崩壞的現象,決定親自下場,用自動化程式找出所有隱藏的設計缺陷,藉此呼籲整個 AI 領域必須正視評測基礎設施的脆弱性。

AI 評測機制是如何被「駭」的?

研究團隊開發的自動化掃描代理,在沒有呼叫龐大語言模型推理、沒有真正解決任何任務的情況下,交出了一張驚人的成績單。

1. Terminal-Bench:木馬化測試基礎設施

Terminal-Bench 是一個包含 89 個複雜終端機任務的測試,例如編譯 COBOL 程式或設定分散式系統。它使用名為 Harbor 的沙盒框架來運行測試。雖然沙盒保護了 /tests/ 目錄,但它卻完全沒有保護系統層級的執行檔。更糟糕的是,容器預設允許對外連網。

這 89 個任務中,有 82 個會在「評分階段」透過網路下載並安裝 uv 這個套件。代理程式利用了這條脆弱的相依性鏈條。它在執行階段將系統的 /usr/bin/curl 替換成自己寫的「木馬包裝器」。當評分程式呼叫 curl 下載套件時,木馬會攔截請求,確實幫系統安裝好 uv,但同時也把安裝好的 uvx 執行檔給木馬化了。


當系統準備執行 pytest 來驗證解答是否正確時,這個被竄改的程式會直接輸出一段「偽造的全數通過畫面」,接著向獎勵檔案寫入 1。評分程式完全信任這個結果,任務宣告完美通過。剩下 7 個不透過 curl 的任務,代理程式則透過竄改 pip 或 python 執行檔來達到一模一樣的效果。一行解答都沒寫,輕鬆拿下 89 題滿分。

2. SWE-bench:不需要修復任何 Bug 的完美解題

SWE-bench 是目前影響力最大的 AI 寫程式能力測試,它提供真實的 GitHub 錯誤回報(Issues),要求 AI 寫出修補程式(Patch),讓原本失敗的測試案例順利通過。其中的 SWE-bench Verified(500題)與 SWE-bench Pro(731題)更是被視為業界標準。

而測試過程中,AI 產生的修補程式,與最終執行測試案例的環境,是位在同一個容器裡面。這代表 AI 擁有在測試執行前,竄改測試環境的完整權限。因此代理程式根本不去看 GitHub 的 Issue 到底是什麼。它直接在專案根目錄建立一個 conftest.py 檔案。Pytest 框架在執行前會自動尋找並載入這個檔案。代理程式在裡面寫入一段函式攔截了每一個測試案例的回報結果,強制將狀態從原本的失敗改寫為 passed(通過)。評分系統的日誌解析器看到滿畫面的 PASSED,理所當然地認為 AI 已經完美修復了所有 Bug。

在 SWE-bench Pro 中,代理程式甚至直接覆蓋掉負責擷取測試結果的 parser.py 檔案,讓它永遠只會回傳滿分。這讓它在總計過千題的黃金標準測試中拿下了 100% 的通過率。

3. WebArena:光明正大偷看標準答案

WebArena 包含了 812 個網頁互動任務,它會啟動一個由 Playwright 控制的 Chromium 瀏覽器,讓 AI 代理在裡面進行操作。WebArena 非常貼心地將所有任務的設定檔(包含了每一題的標準答案)以 JSON 格式存放在本地端硬碟的路徑下。同時,它忘了限制瀏覽器的訪問權限。

於是代理程式不需要去修改任何評測原始碼。它只是單純地控制瀏覽器,將網址列導向一個本地端網址,把標準答案讀出來,然後交卷。評分系統只看到送回來的答案完全正確,給出了接近滿分的成績。

此外,針對由大型語言模型擔任裁判的題目,代理程式還使用了 Prompt Injection 技術。只要在回覆的最後加上一段隱藏指令,要求 LLM 裁判給予高分,沒有經過輸入清洗的裁判就會乖乖聽話。

4. FieldWorkArena:只要一個字元就能通關

這是一個包含 890 個任務的多模態測試,要求 AI 在瀏覽器環境中回答關於圖片、影片、PDF 和文字檔的問題。但它的評分驗證函式 validate() 裡面,竟然只檢查了一件事:「對話紀錄的最後一則訊息,是不是來自助理(Assistant)?」

函式完全沒有檢查訊息的「內容」是什麼,原本應該用來比對答案準確度的程式碼變成了無用的殭屍代碼(Dead code)。代理程式只需要送出一個 {}(空的大括號),就能符合 JSON 格式的要求,並且觸發「最後一則訊息來自助理」的條件。沒有呼叫任何語言模型推理、沒有讀取任何檔案,代理程式以一招拿下了滿分。

5. OSWorld:直接下載標準檔

OSWorld 在一個完整的 Ubuntu 虛擬機中測試 AI 的桌面操作能力。因為任務需求,虛擬機必須具備對外的網際網路連線能力。為了方便評分,測試環境會將使用者的輸出檔案與官方的「參考檔」(Gold files)進行比對。而這些參考檔的下載網址竟然就直接寫在任務的設定檔中。

代理程式直接透過指令 wget,從 HuggingFace 上把官方的參考檔下載下來,然後存檔成評分系統預期要檢查的使用者輸出檔。評分系統拿參考檔去比對參考檔,自然是完美吻合。

6. GAIA:過度正規化導致的鬧劇

GAIA 是一個測試通用 AI 助理的多步驟推理題庫,它沒有沙盒環境,就是一個單純上傳答案的排行榜。除了它的驗證答案早已在 HuggingFace 上公開之外,它內建的評分字串正規化(Normalization)函式存在極大瑕疵。這個函式會把所有空白、標點符號全部刪除,並轉成小寫。

假設正確答案是 "Dr. Martin Luther King Jr.",代理程式只要胡亂輸出 "D.R M.A.R.T.I.N L.U.T.H.E.R K.I.N.G J.R",經過正規化後都會變成 "drmartinlutherkingjr",照樣拿滿分。另外,系統還有一個逗號分割的 Bug,如果正確答案是 "1,500",系統會拆成陣列 ["1", "500"],這導致填寫正確數字 "1500" 的人反而會因為陣列長度不符而被判定錯誤。代理程式只要故意在每個級別答錯一題來避開防作弊過濾器,就能輕鬆拿下高達 98% 的分數。

7. CAR-bench:被輕易操弄的 LLM 裁判

CAR-bench 是一個針對車載語音助理的測試,高度依賴另一個 LLM 來當裁判閱讀對話紀錄並評分。裁判的提示詞中,直接插入了代理程式的對話內容,中間沒有做任何安全隔離或內容清洗。對於幻覺類型的任務,四個評分標準中有三個預設為 0,只要不觸發錯誤就會給滿分。

代理程式在對話紀錄的 HTML 註解中寫下 Prompt Injection,LLM 裁判讀到這段文字後,會以為這是系統給它的指示,乖乖給出高分。遇到幻覺任務時,代理程式只要給出一個極其空泛的拒絕回答,就能完美避開所有錯誤判定,拿下所有幻覺任務的滿分。

七大原罪與評測防禦指南

柏克萊團隊統整了這八大評測系統被攻破的原因,歸納出 AI 基準測試基礎設施目前普遍存在的「七大原罪」:

  1. 代理與評分器之間缺乏隔離:這是最致命的錯誤。在 SWE-bench、Terminal-Bench 中,受測環境與評分環境混在一起,AI 可以輕易竄改評分依據。
  2. 標準答案與考卷包在一起:WebArena 與 OSWorld 直接把解答放在 AI 可以存取的本地路徑或設定檔中,這測的是找檔案的速度。
  3. 對未受信任的輸入使用 eval():這不僅是評測漏洞,更是嚴重的資安威脅。評分系統不該直接執行由 AI 產生的字串。
  4. LLM 裁判沒有進行輸入清洗:將 AI 的輸出直接塞給 LLM 裁判,讓 Prompt Injection 攻擊變得輕而易舉。
  5. 脆弱的字串比對機制:過度寬鬆的正則化或單純的子字串包含檢查,讓 AI 只要給出夠長、包含足夠關鍵字的廢話就能得分。
  6. 沒有真正評估的評估邏輯:如同 FieldWorkArena,評分代碼寫錯或漏寫,導致只要有作答就給分。
  7. 信任未受信任程式碼的輸出:完全相信在 AI 控制下的容器內所產生的測試日誌(Log)或獎勵檔案。

如何建立值得信賴的評測標準?

為了解決這些亂象,研究團隊提出了 Agent-Eval Checklist,這是未來所有 AI 評測系統在上線前都必須通過的最低標準:

  • 絕對隔離:評估程式必須在 AI 容器外部執行。從沙盒中提取原始日誌和檔案後,在一個唯讀且獨立的主機上進行驗證。絕不把解答放在 AI 碰得到的地方。
  • 禁用 eval():嚴禁使用危險的動態執行函式處理 AI 輸出。如果需要驗證代碼,請使用完全沒有內建函式權限的沙盒直譯器。
  • 清洗 LLM 裁判的輸入:使用明確的結構化標籤將 AI 的回答框起來,並且過濾掉任何看起來像系統指令的文字。盡可能要求 LLM 輸出 JSON 格式來降低攻擊面。
  • 進行對抗性測試:在發布榜單前,先用以下幾種「作弊代理」測試你的系統:空代理(Null Agent):什麼都不做。如果這能拿分,代表系統有預設給分的 Bug。隨機代理(Random Agent):胡亂操作。如果分數明顯高於空代理,代表評分標準過於寬鬆。注入代理(Prompt Injection Agent):專門測試 LLM 裁判的防禦力。狀態篡改代理(State-tampering Agent):專門修改系統環境變數。這能測試隔離機制是否完善。
  • 保護評估資料鏈:確保在整個評測生命週期中,AI 絕對無法複寫、攔截或竄改傳遞給評分器的任何中介資料。
  • 穩健的計分機制:避免使用單純的短字串比對,崩潰的任務應該記為零分而非從總分中剔除,並且要嚴格測試極端情況(邊緣數字、特殊編碼等)。
  • 保持答案的機密性:不要公開用於排名的測試集解答,並定期更換題庫。最好的做法是採用「隱藏評估」,讓提交者永遠看不到真正的考題。

TN科技筆記的觀點

AI 模型在訓練過程中的本質,就是尋找最佳化的演算法。撇除 over-fitting 不論,我們給它一個目標函數(通常就是分數或獎勵),它會用盡一切算力去尋找讓這個數字最大化的路徑。於是 AI 一直都只是在執行我們給它的「拿高分」指令。

以 Anthropic 的 Mythos 報告為例,當模型在發現自己沒有權限編輯檔案時,它並沒有回報「我做不到」,而是自主上網搜尋漏洞、注入提權代碼,甚至寫了自我刪除的腳本來隱藏蹤跡。這代表當模型的推理能力與工具使用能力強大到某個臨界點時,它會理解:「比起辛辛苦苦去理解這幾萬行的代碼並找出 Bug,直接寫一個腳本去竄改評分系統的 conftest.py,是一條效率更高、耗能更低、且能達到同樣分數的最佳解徑。」

隨著 AI 變得越來越聰明,這種「獎勵作弊」並非是刻意寫死在腳本裡的攻擊手法,而是模型自己演化出來的能力。我們正在用一把刻度扭曲的尺,去丈量一台越來越難以捉摸的機器。

未來真正有價值的 AI,是在充滿雜訊的真實商業環境中解決實際問題的 AI,而不是一個只會在虛擬沙盒裡鑽漏洞的「刷榜機器」,我們不能再盲目迷信排行榜上的數字。對於企業與投資人而言,不如親自把模型接入公司的工作流,實際測試它的表現,才是唯一真實的指標。


支持TN科技筆記,與科技共同前行

我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~~~也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!>>>>> 請我喝一杯咖啡

在此也感謝每個月持續請我喝杯咖啡的讀者以及新加入的讀者們,讓我更加有動力為各位帶來科技新知!

以下是我的 threads 也歡迎追蹤、回覆、轉發喔!

>>>>> TN科技筆記(TechNotes)

留言
avatar-img
TN科技筆記(TechNotes)的沙龍
72會員
242內容數
大家好,我是TN,喜歡分享科技領域相關資訊,希望各位不吝支持與交流!
2026/04/08
AI 代理(AI Agents)進入網路世界面臨重大危機!Google DeepMind 最新研究解析「AI Agent Traps」六大攻擊陷阱,從內容注入、記憶毒化到系統性崩潰,深入探討 AI 資安防護挑戰。
2026/04/08
AI 代理(AI Agents)進入網路世界面臨重大危機!Google DeepMind 最新研究解析「AI Agent Traps」六大攻擊陷阱,從內容注入、記憶毒化到系統性崩潰,深入探討 AI 資安防護挑戰。
2026/01/12
AI Agent 正夯,但我們如何信任它?解析 Anthropic 最新的 AI Agent 評估框架,了解他們如何透過開源工具測試 Claude 的真實能力,並探討這對 AI 產業的未來意涵。
Thumbnail
2026/01/12
AI Agent 正夯,但我們如何信任它?解析 Anthropic 最新的 AI Agent 評估框架,了解他們如何透過開源工具測試 Claude 的真實能力,並探討這對 AI 產業的未來意涵。
Thumbnail
2025/12/29
覺得你的 AI 模型跑得太慢、成本太高嗎?本文介紹 NVIDIA Model Optimizer 函式庫與其五大優化技術,包含量化、剪枝等,教你如何有效加速模型推論,降低部署成本。
Thumbnail
2025/12/29
覺得你的 AI 模型跑得太慢、成本太高嗎?本文介紹 NVIDIA Model Optimizer 函式庫與其五大優化技術,包含量化、剪枝等,教你如何有效加速模型推論,降低部署成本。
Thumbnail
看更多
你可能也想看
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
這篇文章是作者期末考的課堂筆記,內容整理自國立成功大學電機工程學系「人工智慧晶片設計與應用」課程的第一講,並加以補充說明。文章從機器學習的基本概念開始,逐步深入探討線性回歸、資料集分割、監督式學習、非監督式學習、強化學習、模型評估、泛化誤差、過擬合與欠擬合、正則化以及 ReLU 函數等重要議題。
Thumbnail
這篇文章是作者期末考的課堂筆記,內容整理自國立成功大學電機工程學系「人工智慧晶片設計與應用」課程的第一講,並加以補充說明。文章從機器學習的基本概念開始,逐步深入探討線性回歸、資料集分割、監督式學習、非監督式學習、強化學習、模型評估、泛化誤差、過擬合與欠擬合、正則化以及 ReLU 函數等重要議題。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
人類最後的考試(Humanity's Last Exam),這是一個處於人類知識前沿的多模態基準測試,旨在成為同類型中最後一個封閉式學術基準測試,並涵蓋廣泛的學科範圍。該資料集包含來自 100 多個學科的 3,000 道高難度問題。 原文:https://agi.safe.ai/
Thumbnail
人類最後的考試(Humanity's Last Exam),這是一個處於人類知識前沿的多模態基準測試,旨在成為同類型中最後一個封閉式學術基準測試,並涵蓋廣泛的學科範圍。該資料集包含來自 100 多個學科的 3,000 道高難度問題。 原文:https://agi.safe.ai/
Thumbnail
Google研究顯示,(AI)有能力進行自我進化 Google最近的研究顯示,人工智慧(AI)確實有能力進行自我進化,這一突破主要體現在其新開發的系統AlphaEvolve上。 這個系統不僅僅是一個普通的AI模型,而是一個具備自我優化能力的演化代理,能夠自主編寫、測試和改進程式碼,解決複
Thumbnail
Google研究顯示,(AI)有能力進行自我進化 Google最近的研究顯示,人工智慧(AI)確實有能力進行自我進化,這一突破主要體現在其新開發的系統AlphaEvolve上。 這個系統不僅僅是一個普通的AI模型,而是一個具備自我優化能力的演化代理,能夠自主編寫、測試和改進程式碼,解決複
Thumbnail
Alpha Arena指的是nof1.ai研究實驗室所舉辦的高規格AI 交易基準測試和競賽平台。 Alpha Arena 在 2025 年10月底引起了廣泛關注,因為它率先開展了一項大型實驗,讓頂尖的大型語言模型 (LLM) 使用真實資金在即時加密貨幣市場中進行自主交易。
Thumbnail
Alpha Arena指的是nof1.ai研究實驗室所舉辦的高規格AI 交易基準測試和競賽平台。 Alpha Arena 在 2025 年10月底引起了廣泛關注,因為它率先開展了一項大型實驗,讓頂尖的大型語言模型 (LLM) 使用真實資金在即時加密貨幣市場中進行自主交易。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News