為了讓各位讀者能更好的認識常見的基準測試(Benchmark)，以及他們要測試的內容是什麼，EgentHub ( 企業AI Agent專家 ) 幫各位讀者整理了15個常見到的基準測試(Benchmark)，讓大家可以當作字典存起來，以後看到模型更新的時候，就可以點進來參考了！

職場

投資理財

學習

以行動支持創作者！付費即可解鎖

軟體開發

AI 知識學習

EgentHub是由智慧方案股份有限公司打造的企業級 AI Agent 平台，協助企業將知識、經驗與流程萃取並轉化爲AI SOP，打造AI Agents支援日常決策、執行與協作，已有百家企業採用，涵蓋製造、紡織、金屬加工、電子、石化等產業，每月釋放超過2,000 小時人力工時，提升營運效率與精準度。

EgentHub 閱讀筆記

商業

測試

模型

程式

企業

指標

自動販賣機

工程師

人類

圖表

白話文帶你看懂15種LLM評測指標！Benchmark不再是天書！

本文從 Gemini 3 公佈的 AI Benchmark 出發，解析 Gemini 等模型在 2025 年 AI 競賽中的評測標準。透過將複雜的基準測試框架，歸納為抽象推理、複雜代理行動、多模態整合、長上下文處理及競技效率五大維度，幫助讀者理解 AI 模型的實際能力和評估指標。

科技

豆漿學習

閱讀使人充實，思考使人深邃

用最短的人生，擁有最多的經驗，是把人生過長的唯一方法。

一杯豆漿的沙龍

語言

資訊

整合

文件

【豆漿筆記】最強 AI 怎麼比？用 Gemini 3 AI Benchmark 看懂大型語言模型能力評估

Google於2025年11月發布Gemini 3 Pro，以壓倒性優勢全面擊敗GPT-5.1與Claude Sonnet 4.5，正式重奪AI性能王座。該模型在數學(AIME 2025滿分)、長文本推理及代理任務上展現世代飛躍，樹立了全新的SOTA (State-of-the-Art)標竿。

國際

AI工作流自動化

Mucat創作研究室專注於將影像處理、電腦視覺與AI應用等領域的知識推廣給普羅大眾。作者擅長將艱澀的技術轉化為人人都能掌握的智慧。

MuCAT的沙龍

GPT-5

Google

數學

領先

Gemini 3 Pro全面刷新前沿基準：Google新王者登基，全面超越GPT-5.1與Claude Sonnet 4

Benchmark