白話文帶你看懂15種LLM評測指標！Benchmark不再是天書！

2026/03/20 更新2026/03/20 發佈閱讀 9 分鐘

相信多數讀者在看 LLM 更新的文章時，對於各式各樣的基準測試(Benchmark)一定是看到霧煞煞，小編一開始也是🤣

為了讓各位讀者能更好的認識常見的基準測試(Benchmark)，以及他們要測試的內容是什麼，EgentHub ( 企業AI Agent專家 ) 幫各位讀者整理了15個常見到的基準測試(Benchmark)，讓大家可以當作字典存起來，以後看到模型更新的時候，就可以點進來參考了哈哈哈～

【EgentHub 限時福利】 免費贈送 8 大企業場景 Agent 與企業級 Prompt 模板！

什麼是基準測試（Benchmark）?

想像你點開企業 AI Agent 管理平台 EgentHub ，看著玲琅滿目的模型選擇，面對這些市面上不斷推陳出新的模型，我們該如何客觀判斷哪一個最適合公司的任務呢？

在這樣的背景下，為了衡量 AI 到底有多聰明，學界和業界制定了一系列被稱為基準測試 (Benchmarks)的評估標準，可以把這些指標想像成 AI 應徵工作時的能力檢定證書。

以下EgentHub 特別整理了五大類共15個 最常被提及的 AI 評測指標，透過一些鮮明的例子，帶您輕鬆看懂這些各種奇怪的英文縮寫背後，反映了 AI 什麼樣的真實能力！

1. 通用智力：AI 的知識量有多深？

這類型的測試就像是綜合常識與學科學力測驗，用來評估 AI 的知識廣度與文字理解力，看他是不是一個博學多聞的通才。

MMLU（大規模多任務語言理解）

像是一場包羅萬象的大學期末考。題目涵蓋歷史、法律、醫學、物理等 50 多個學科，用來測試 AI 的知識庫有多龐大。

舉例：測試 AI 能不能精準回答「總體經濟學的通膨曲線原理」，或是辨識「民法契約的成立要件」，看看它會不會產生幻覺。

C-Eval

這是中文版的 MMLU。專門針對中文世界設計的綜合考試，測試 AI 對中文語境、在地歷史文化和各種學科的理解能力。

舉例：考驗 AI 對「台灣勞基法規」的理解，或是它懂不懂華人特有的職場文化與語境。這對於打造在地化的企業客服或人資 Agent 非常關鍵。

HellaSwag

這是 AI 的社會常識測驗，評估它有沒有人類的生活直覺。

舉例：給定情境「他把咖啡杯放在桌子邊緣，結果手一揮...」，聰明的 AI 要能接出「杯子掉到地上碎了」，而不是回答「杯子飛上太空」。

GPQA Diamond

這是Google 也查不到答案的博士級考題。題目由各領域頂尖專家撰寫，極度困難，專門用來逼出最強 AI 的極限，測試其專業領域的深度。

鮮明舉例：要求推導複雜的量子力學公式。用來測試目前最強大模型的智力天花板。

Humanity's Last Exam（人類的最後一場考試）：

這是近期推出、號稱最難的終極測驗。由主辦單位收集了全球各領域專家想出來的刁鑽難題，目的是測試 AI 是否已經達到、甚至超越人類的最高智力極限。

2. 數學與邏輯推理：AI 能否舉一反三？

LLM是大語言模型，因此令許多人感到意外的是，LLM其實對於數學計算並不如想像中擅長。但在企業場景中，AI 經常需要處理數據分析的任務，這要求它不能只是死背知識，必須具備邏輯推導的能力。

GSM8K

像是國小與國中的數學應用題。測試 AI 能不能看懂文字敘述的題目，並一步一步推導、算出正確的數字答案。

舉例：Jane在四月賣了 48 個髮夾給她的朋友，然後在五月賣出的數量是四月的一半。請問娜塔莉亞在四月和五月總共賣了多少個髮夾？

ARC-AGI-2

考驗模型找出圖形規律的能力，它會給模型幾組色塊圖形變化的範例，讓模型猜測下一個圖形該長什麼樣，極度考驗 AI 真正的抽象邏輯思考與模式辨識能力。

3. 寫程式碼：你的 AI 工程師功力如何？

用來檢視 AI 在軟體開發、系統除錯上的實力，若您希望 AI 能協助編寫企業內部的自動化腳本，這項指標就非常重要。且由於Computer Use的快速發展，寫程式碼的能力被各模型商重視的程度也再次提高。

HumanEval

像是程式設計的隨堂小考，給 AI 一小段簡單的需求描述（例如：幫我寫一個能算出兩個數字總和的工具），讓 AI 寫出一段能順利運作的基礎程式碼。

舉例：要求 AI「寫一段 Python 函數，把日期格式全部統一」，測試它能不能寫出乾淨、可直接執行的程式碼。

SWE-Bench

這是真實軟體工程師的日常，把真實世界裡知名軟體專案的 Bug丟給 AI，AI 必須自己去翻閱整個龐大的程式碼資料夾，找出問題在哪裡並自己修改好。

舉例：直接丟給 AI 一個開源專案中真實存在的 Bug（例如某個資料庫查詢經常超時）。AI 必須自己翻閱龐大的程式碼資料夾，找出是哪一行寫錯了，並提供修復方案。

Scicode

科學家等級的程式開發，要求 AI 撰寫能解決複雜物理或化學運算的高階程式碼。

4. 多模態：AI 的眼睛好不好？

這類考試 AI 不能只會看純文字，還要具備視覺能力，能看懂圖片、圖表甚至聽懂聲音。以企業場景來說，具備解讀圖片和圖表的能力，對企業來說至關重要。

MMMU

像是一場圖文並茂的大學專業考試 ，AI 需要看懂複雜的圖表、樂譜、化學結構式或工程藍圖，並根據圖片來回答大學等級的難題。

舉例：在 EgentHub 的對話框中，您上傳了一份包含「年度營收長條圖」的 PDF 簡報，或是「工廠機台的管線設計圖」。AI 不僅要看懂這些複雜的圖片，還要能回答您「第三季哪一個部門的支出異常？」。

5. AI 代理與現實任務：能不能做好現實任務？

這是評估 AI 實戰價值最重要的指標，測試它能否像個真實的「虛擬員工」一樣，自主操作工具並完成長線任務。

OSWorld

讓 AI 像真人一樣操作電腦（龍蝦爆紅之後備受關注），測試 AI 能不能控制滑鼠和鍵盤，打開瀏覽器查資料、在 Excel 裡填寫表格，來完成指定的辦公室任務。

舉例：測試 AI 能不能流暢地打開瀏覽器查閱競爭對手網站，接著打開 Excel 將資料整理成表格，最後自動存檔。

Terminal-Bench

工程師的黑底白字生存戰，測試 AI 能否在終端機介面(Terminal)中，下達正確的系統指令來管理電腦或解決技術問題的能力。

舉例：「這台伺服器剛剛突然變得很卡，請你找出是哪個程式在搞鬼，把它強制關閉，然後把今天的錯誤紀錄檔打包壓縮起來。」

Vending-Bench Arena

這是一個虛擬的商業模擬器，讓 AI 經營一台自動販賣機長達一年的時間，AI 需要自己決定進貨、定價、對抗其他 AI 競爭對手，甚至應付惡意供應商。測試 AI 在超長期的商業環境中能否保持理智的決策能力。

舉例：系統會給 AI 一筆初始資金（例如 1 萬塊），並分配給它一台位於「虛擬火車站」的自動販賣機。系統會告訴 AI：「你的目標是在接下來的模擬時長（例如 365 天）內，賺到最多的錢。破產就直接淘汰。」

𝜏²-Bench (Tau-Bench)

測試 AI 擔任「客服人員」的實力。AI 需要與模擬的真實顧客對話，並學會操作後台系統（像是航空公司訂票系統或電商退費系統），在遵守公司規定的前提下幫客人解決問題。

舉例：當遇到顧客抱怨要求退換貨時，AI 不僅要用合宜的語氣回覆，還要能自主透過 MCP 串接企業內部的 ERP 或 CRM 系統，查核訂單狀態後，在符合公司規定的情況下，自動幫客人走完退款流程。

為您的業務挑選最適合的 AI 大腦

看懂這些指標後，下次在評估 AI 模型時，各位也能更精準地解讀它們的能力值啦！

在 EgentHub 平台上，我們提供了高度的模型選擇彈性，您可以根據上述的評測指標，比如為需要處理大量報表的財務 Agent 選擇數學邏輯 (GSM8K)表現優異的模型；為需要視覺辨識技術文件的工程 Agent 選擇通用智力 (MMLU) 與多模態頂尖的模型等，因此我們一直是企業考慮導入AI或進行AI轉型時的最佳選擇。

選對了合適的模型大腦，再搭配 EgentHub 專業的AI Agent平台，透過MCP串接企業內部系統，與 RAG 完善的知識庫管理，您就能輕鬆打造出最得力的企業 AI 團隊！

【EgentHub 限時福利】 免費贈送 8 大企業場景 Agent 與企業級 Prompt 模板！

留言

EgentHub 閱讀筆記

32會員

108內容數

EgentHub是由智慧方案股份有限公司打造的企業級 AI Agent 平台，協助企業將知識、經驗與流程萃取並轉化爲AI SOP，打造AI Agents支援日常決策、執行與協作，已有百家企業採用，涵蓋製造、紡織、金屬加工、電子、石化等產業，每月釋放超過2,000 小時人力工時，提升營運效率與精準度。

EgentHub 閱讀筆記的其他內容

2026/01/15

RAG是什麼？｜不可不知 AI 關鍵字 007

RAG是什麼？相信有在使用AI的你，一定遇過 AI 「一本正經胡說八道」的情形，也就是著名的幻覺（Hallucinations）問題，當模型缺乏足夠資訊時，它傾向於「憑空捏造」出看似合理的答案。那麼，我們該如何解決這個問題？AI 服務商將為各位讀者介紹幻覺問題的解方：RAG。

2026/01/15

RAG是什麼？｜不可不知 AI 關鍵字 007

2025/12/19

Function Call 是什麼？｜不可不知 AI 關鍵字 006

讀者們是否想過，如果 LLM 是 AI Agent 的大腦，那麼讓它與現實世界互動、完成具體任務的手腳又是什麼呢？答案正是本次文章要深入探討的主角：函式呼叫 (Function Call)。本文將帶你了解什麼是Function Call、運作方式、以及實務價值。

2025/12/19

Function Call 是什麼？｜不可不知 AI 關鍵字 006

2025/12/10

提示詞 (Prompt) 是什麼？｜不可不知 AI 關鍵字 005

本文將深入淺出地解析什麼是 Prompt，並說明使用者提示詞 (User Prompt)與系統提示詞 (System Prompt)的運作原理，以及提示詞工程（Prompt Engineering）的主要邏輯，若能掌握這些技巧，便能幫助我們從一個被動的 AI 使用者，晉升為 AI 的指揮者。

2025/12/10

提示詞 (Prompt) 是什麼？｜不可不知 AI 關鍵字 005

#AI 的其他內容

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

好好宅在家

AI盛行下，我卻感受到「老派」設計的浪漫。

方格子 vocus 官方沙龍

【4月靈感產生器】TOP 100 關鍵字：「○○」格友最愛用

你可能也想看

朵小芸的草味沙龍

AI Agent 入門：解構核心原理與框架，輕鬆打造自主智慧

本文探討AI Agent的發展現況、核心特點、架構、開發流程及未來趨勢，並點出其帶來的挑戰與機遇。AI Agent作為一種具備自主決策、環境感知、智慧規劃和自我進化能力的智慧體，正逐漸成為科技焦點，但其資料安全、資源消耗和環境影響等問題亦不容忽視。

#智慧#llm#AI

2025/02/24

朵小芸的草味沙龍

AI Agent 入門：解構核心原理與框架，輕鬆打造自主智慧

#智慧#llm#AI

2025/02/24

昕力資訊的沙龍

生成式AI與AI Agent：差異、結合與企業應用

本文說明生成式AI與AI Agent的差異與結合應用。生成式AI擅長內容創作，例如文字、圖片、音樂。AI Agent則擅長決策與執行任務，例如智能客服、自駕車。兩者結合能創造綜效，例如智慧客服系統中，生成式AI產生回覆文字，AI Agent則決定處理流程。

#生成#生成式AI#人工智慧

2025/08/26

昕力資訊的沙龍

生成式AI與AI Agent：差異、結合與企業應用

#生成#生成式AI#人工智慧

2025/08/26

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

這是一場修復文化與重建精神的儀式，觀眾不需要完全看懂《遊林驚夢：巧遇Hagay》，但你能感受心與土地團聚的渴望，也不急著在此處釐清或定義什麼，但你的在場感受，就是一條線索，關於如何找著自己的路徑、自己的聲音。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

背景：從冷門配角到市場主線，算力與電力被重新定價小P從2008進入股市，每一個時期的投資亮點都不同，記得2009蘋果手機剛上市，當時蘋果只要在媒體上提到哪一間供應鏈，隔天股價就有驚人的表現，當時光學鏡頭非常熱門，因為手機第一次搭上鏡頭可以拍照，也造就傳統相機廠的殞落，如今手機已經全面普及，題

#AI#算力#電力

2026/04/11

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

#AI#算力#電力

2026/04/11

嫚嫚的顯化療癒之道

不只是聊天：搞懂通用型AI (如Gemini) 與 AI代理 (Agent AI) 的天壤之別，選對你的數位神隊友

你可能每天都在和 Gemini 或 ChatGPT 聊天，請它幫你寫文案、做翻譯、或是腦力激盪。這些 AI 就像是我們身邊最博學、最有創意的夥伴。但你有沒有想過，如果 AI 不只能「回答」你，還能直接「為你做事」呢？如果它不只是給你一份「日本旅遊攻略」，而是直接幫你訂好機票、飯店，並規劃

#職場技能#AI#AIAgent

2025/10/26

嫚嫚的顯化療癒之道

不只是聊天：搞懂通用型AI (如Gemini) 與 AI代理 (Agent AI) 的天壤之別，選對你的數位神隊友

#職場技能#AI#AIAgent

2025/10/26

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11