【豆漿筆記】最強 AI 怎麼比？用 Gemini 3 AI Benchmark 看懂大型語言模型能力評估

2025/12/22 更新2025/12/22 發佈閱讀 7 分鐘

這篇從 Gemini 3 公布的 AI Benchmark 出發，幫你看懂 GPT、Gemini 等評估「最強 AI」的評測標準。

前言

2025 年 11 月，是我認為今年 AI 公司們煙硝味最濃的一個月。短短幾天內，GPT-5.1、Grok 4.1、Google Gemini 3 等 AI 模型接連發表，還順便把整個產品生態一起升級。對身為使用者的我來說最想問的是：

到底哪一個 AI「最強」？

雖然我使用 AI 是為了解決問題，追求最強本身沒有意義。但我不禁想知道，每次 AI 更新時，測試是否有變得更加厲害的指標跟數值代表什麼? 在閱讀的過程中，我發現他們不是單純比較指標或者模型的知識量，而是從規劃、執行、整合多模態資訊等的整套能力切入進行討論。

所以這篇文章，我參考 Gemini 3 發布時引用的那組頂級基準測試（benchmarks）框架，並依據理解把它們分類成五個核心測驗的維度。

Gemini 3 的評估方法

類別一：抽象推理與知識應用

類測模型基礎能力，當 AI 不靠外部工具時，它能否解決問題?

Humanitys Last Exam 人類的最後考試 / GPQA Diamond：偏高難度學術推理與跨領域知識整合，。
GPQA Diamond 常被視為「理工博士級問答」的壓力測試。
AIME 2025 / MathArena Apex：偏形式化推理、數學嚴謹度與多步驟解題韌性。
ARC-AGI-2：用抽象圖案測 AI 是否可以有規則歸納能力，要從未見過規則中舉一反三。
SimpleQA Verified：幻覺評估，確定模型記憶事實的準確度

類別二：複雜的代理行動

AI除了有知識之外，是否有實戰能力的考驗?

SWE-Bench Verified：測試 AI 在軟體工程的任務中的表現，給 AI 程式碼庫與對應的 issue，模型需要產生能夠修復該問題的修補程式。
Terminal-Bench 2.0：在真實終端環境中測試 AI 代理的測試工具，評估代理自主處理現實世界端到端任務的能力。
τ²-Bench (t2-bench)：能否使用外部工具和 API 完成任務，測試 AI 的「工具使用能力」。
Vending-Bench 2：讓AI 們嘗試在現實世界做生意的指標，測試讓AI 營運販賣機。人工智慧代理商必須追蹤庫存、下訂單、設定價格並支付每日費用，這些任務單獨來看都很簡單，但隨著時間的推移，會逐漸考驗人工智慧保持穩定運行和做出智慧決策的能力極限

類別三：多模態與感知整合

現實世界的資料更多時候是：文件、截圖、圖表、影片、報表。模型能不能把這些「非結構化」變成可用的理解。

MMMU-Pro / Video-MMMU： MMMU（Massive Multi-discipline Multimodal Understanding），需要整合圖像/影片內容與文字問題，做出推理。
OmniDocBench 1.5：偏 OCR 與文件結構還原，它測試是否可以讀得出字，且版面、結構和內容還原得像不像原始文件，而且不能胡亂改文件。
ScreenSpot-Pro：測試 GUI/螢幕理解，考 AI 是否可以看懂軟體畫面截圖，並根據自然語言描述，並正確定位畫面上的目標位置或元素。
CharXiv Reasoning：測驗偏複雜科研/技術圖表，比方說折線圖、熱力圖、柱狀圖等的資訊抽取與綜整能力。

類別四：長上下文與全球化

在面對實際的應用，會面對到的問題是文件超長，且語言多樣。模型是否能在這些複雜的長文裡找得到關鍵資訊呢?

MRCR v2 (8-needle)：名字的意思很像大海撈針，也確實如此。在超長文本裡塞幾個關鍵資訊點，看模型能不能準確取回。把文本長度推到極限長，刻意塞進少量關鍵資訊，並詢問的非常精準地對應到那些小段（針）。這些針跟後面的問題直接相關，但其他大多數內容都只是干擾。
MMMLU：多語言問答能力。其中包含 14 種語言的專業翻譯測試題，包括阿拉伯語、孟加拉語、德語、西班牙語、法語、印地語、印尼語、義大利語、日語、韓語、葡萄牙語、斯瓦希里語、約魯巴語和中文。每種語言約有 15,908 個選擇題，涵蓋 57 個科目。
Global PIQA：多語言常識推理基準測試，它評估跨越100種語言和文化的物理互動知識。它透過關於需要運用物理常識的日常情境的多項選擇題，測試人工智慧系統在不同文化背景下對物理世界知識的理解。

類別五：競技與效率

把模型丟進競爭、吃效率的程式題環境，測試他當一位演算法競賽選手，從 0 寫新程式且極限解題能力如何。

LiveCodeBench Pro：要求模型在讀完題目描述後，自行設計演算法並輸出完整程式碼，最後丟進評測系統，檢查是否能通過所有測試資料。

Kenny Eliason on Unsplash

結論

在 2025 年末這場技術大爆發，我們看到是一場透過AI 基準測試（AI benchmarks）展示多項能力指標的 AI 火力戰爭。如果糾結於單一的分數，會忘記使用者真正在乎的是測驗中提到的閱讀能力、自動化、工具調度能力等等。

個人心得｜為什麼突然在意最強 AI？

會突然好奇最強的AI ，有一大原因是身為GPT的長期訂閱戶，在2025年底突然發現隔壁的Germini 3 好像有點厲害啊！一時之間也沒有什麼東西可以測試看看到底有多厲害，純粹日常對話也不好感受到差異，因此乾脆來了解看看這些指標吧！

印象最深且讓我會心一笑的是這兩個指標：

人類最後的考試（Humanity’s Last Exam），命名聽起來好像只要被 AI 徹底破解拿高分，人類就可以準備退休不動腦；
大海撈針的 MRCR v2 (8-needle)，很具象地讓我想像，AI 能不能在一大坨文字的大海裡，乖乖把那幾根針找出來。

慶幸 2025 年末，人類還是比 AI 聰明一點。可惜 AI 還不能完全取代我的工作，讓我放心放假去。

留言

一杯豆漿的沙龍

42會員

64內容數

閱讀使人充實，思考使人深邃用最短的人生，擁有最多的經驗，是把人生過長的唯一方法。

一杯豆漿的沙龍的其他內容

2025/11/20

【豆漿筆記】什麼是 AI？從人工智慧、機器學習、生成式 AI 到大語言模型的入門指南

您是否常在會議中聽到 AI、機器學習、深度學習、生成式 AI、LLM 等名詞，卻感到混淆？本文將透過由外而內的五個同心圓，清晰地解釋這些名詞的定義、彼此之間的層級關係，以及它們的學習方式（監督學習、非監督學習、強化學習）。無論您是技術背景或非技術背景，都能藉此快速釐清概念，更精準地與他人溝通。

2025/11/20

【豆漿筆記】什麼是 AI？從人工智慧、機器學習、生成式 AI 到大語言模型的入門指南

2025/05/02

【豆漿筆記】你是產品還是專案PM？淺談Product / Project Manager 的差異與職責範圍

PM 是產品經理（Product Manager）還是專案經理（Project Manager）？本篇從 PdM 與 PjM 的差異談起，延伸解析 TPM、MPM、PMM 等常見 PM 類型與職責，並介紹 PCC 這個實務中不可忽視的協作角色。這篇文章將幫助你理解各種 PM 的角色分工與適合對象。

2025/05/02

【豆漿筆記】你是產品還是專案PM？淺談Product / Project Manager 的差異與職責範圍

2025/05/01

【豆漿筆記】SR/ER/PR 是什麼？解析 NPI 驗證流程與三階段打樣實戰經驗

本篇文章深入解析新產品導入流程（NPI）中的三大驗證關卡：SR、ER、PR。文章從實務經驗出發，逐一拆解每個階段的驗證重點與常見挑戰，讓初入行的工程師與 PM 不再被會議術語淹沒。無論你是剛進電子製造業，還是第一次跑打樣流程，這篇文章都能幫你建立清晰的邏輯與節奏感。

2025/05/01

【豆漿筆記】SR/ER/PR 是什麼？解析 NPI 驗證流程與三階段打樣實戰經驗

#AI 的其他內容

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

好好宅在家

AI盛行下，我卻感受到「老派」設計的浪漫。

方格子 vocus 官方沙龍

【4月靈感產生器】TOP 100 關鍵字：「○○」格友最愛用

你可能也想看

Hank吳的沙龍

Alpha Arena舉辦的AI 交易基準測試和競賽:六個領先的人工智慧模型，凸顯了一般推理能力和金融交易能力之間的差異

Alpha Arena指的是nof1.ai研究實驗室所舉辦的高規格AI 交易基準測試和競賽平台。 Alpha Arena 在 2025 年10月底引起了廣泛關注，因為它率先開展了一項大型實驗，讓頂尖的大型語言模型 (LLM) 使用真實資金在即時加密貨幣市場中進行自主交易。

#Alpha#DeepSeek#GPT-5

2025/11/30

Hank吳的沙龍

Alpha Arena舉辦的AI 交易基準測試和競賽:六個領先的人工智慧模型，凸顯了一般推理能力和金融交易能力之間的差異

#Alpha#DeepSeek#GPT-5

2025/11/30

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

這是一場修復文化與重建精神的儀式，觀眾不需要完全看懂《遊林驚夢：巧遇Hagay》，但你能感受心與土地團聚的渴望，也不急著在此處釐清或定義什麼，但你的在場感受，就是一條線索，關於如何找著自己的路徑、自己的聲音。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

背景：從冷門配角到市場主線，算力與電力被重新定價小P從2008進入股市，每一個時期的投資亮點都不同，記得2009蘋果手機剛上市，當時蘋果只要在媒體上提到哪一間供應鏈，隔天股價就有驚人的表現，當時光學鏡頭非常熱門，因為手機第一次搭上鏡頭可以拍照，也造就傳統相機廠的殞落，如今手機已經全面普及，題

#AI#算力#電力

2026/04/11

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

#AI#算力#電力

2026/04/11

九運科技

維基百科挺身護知識、OpenAI延攬英特爾核心人才、AI測試標準陷信任危機

當AI橫掃全球知識與產業鏈，新的權力關係正悄然重塑。維基百科為捍衛人類編輯的智慧價值，公開呼籲AI平台「標註來源並付費支持」； OpenAI則延攬英特爾技術長Katti，布局通用人工智慧（AGI）基礎建設；而牛津大學最新研究警示——AI性能基準測試正陷入「透明信任危機」。

#咖啡廳#方格新手#AI工作流

2025/11/11

九運科技

維基百科挺身護知識、OpenAI延攬英特爾核心人才、AI測試標準陷信任危機

#咖啡廳#方格新手#AI工作流

2025/11/11

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11

A.H.科普(pScience)

不要再說，左撇子的創造力較高了

從前從前科學說，左撇子的創造力較高，保守估計約佔人口10%的左撇子在創造力方面具有優勢。聽起來似乎合理的解釋。它是這樣的：你的大腦有兩個半球，一個左腦和一個右腦。右腦被認為是狂野的，是藝術家，是那個能提出所有新可能性的半球，心理學家稱之為「發散性思考」。現在，有趣的是，你大腦的右半球控制。。。

2025/07/01

2025/07/01

【1225米勒的投資觀測日報】馬士基宣布準備恢復通行紅海海運股重跌；宏碁、五鼎、安國大漲；華義、森寶、品安、中菲行回檔

馬士基宣布準備恢復通行紅海海運股重跌宏碁、五鼎、安國大漲；華義、森寶、品安、中菲行回檔

#投資#理財#股票

2023/12/25

Miller的投資沙龍

【1225米勒的投資觀測日報】馬士基宣布準備恢復通行紅海海運股重跌；宏碁、五鼎、安國大漲；華義、森寶、品安、中菲行回檔

馬士基宣布準備恢復通行紅海海運股重跌宏碁、五鼎、安國大漲；華義、森寶、品安、中菲行回檔

#投資#理財#股票

2023/12/25

詹育杰的沙龍

《轉轉生 Re:INCARNATION》：Qudus Onikeku、約魯巴哲學與 Afrobeat 的去殖民身體政治

《轉轉生》（Re:INCARNATION）為奈及利亞編舞家庫德斯．奧尼奎庫與 Q 舞團創作的當代舞蹈作品，結合拉各斯街頭節奏、Afrobeat／Afrobeats、以及約魯巴宇宙觀的非線性時間，建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發，解析其去殖民的身體政治。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

詹育杰的沙龍

《轉轉生 Re:INCARNATION》：Qudus Onikeku、約魯巴哲學與 Afrobeat 的去殖民身體政治

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

MuCAT的沙龍

Gemini 3 Pro全面刷新前沿基準：Google新王者登基，全面超越GPT-5.1與Claude Sonnet 4

Google於2025年11月發布Gemini 3 Pro，以壓倒性優勢全面擊敗GPT-5.1與Claude Sonnet 4.5，正式重奪AI性能王座。該模型在數學(AIME 2025滿分)、長文本推理及代理任務上展現世代飛躍，樹立了全新的SOTA (State-of-the-Art)標竿。

#Gemini3Pro#GoogleDeedMind#GPT51

2025/11/22

MuCAT的沙龍

Gemini 3 Pro全面刷新前沿基準：Google新王者登基，全面超越GPT-5.1與Claude Sonnet 4

#Gemini3Pro#GoogleDeedMind#GPT51

2025/11/22

Share-N-Do-U

不知道怎麼跟 AI 對話？來做個基準測試吧！

開始下 Prompt 之前要知道的事

#ShareNDoU#職場#PromptEngineering

2025/10/15

Share-N-Do-U

不知道怎麼跟 AI 對話？來做個基準測試吧！

開始下 Prompt 之前要知道的事

#ShareNDoU#職場#PromptEngineering

2025/10/15

Miranda Cheng的沙龍

ITS AI國際認證考試準備與筆記整理

這篇文章記錄了作者準備ITS AI國際認證的過程，內容涵蓋AI五大主題：AI問題定義、數據收集、處理與工程、AI演算法與模型、應用整合與部署以及AI的維護和監控。文章記錄了各章節的重點筆記，並包含關鍵概念的說明，例如機器學習類型、數據處理方法、常見演算法、模型評估指標、MLOps流程以及AI治理等。

#模型#數據#機器學習

2025/08/02