【豆漿筆記】最強 AI 怎麼比?用 Gemini 3 AI Benchmark 看懂大型語言模型能力評估

更新 發佈閱讀 7 分鐘

這篇從 Gemini 3 公布的 AI Benchmark 出發,幫你看懂 GPT、Gemini 等評估「最強 AI」的評測標準。

前言

2025 年 11 月,是我認為今年 AI 公司們煙硝味最濃的一個月。 短短幾天內,GPT-5.1、Grok 4.1、Google Gemini 3 等 AI 模型接連發表,還順便把整個產品生態一起升級。對身為使用者的我來說最想問的是:

到底哪一個 AI「最強」?

雖然我使用 AI 是為了解決問題,追求最強本身沒有意義。但我不禁想知道,每次 AI 更新時,測試是否有變得更加厲害的指標跟數值代表什麼? 在閱讀的過程中,我發現他們不是單純比較指標或者模型的知識量,而是從規劃、執行、整合多模態資訊等的整套能力切入進行討論。

所以這篇文章,我參考 Gemini 3 發布時引用的那組頂級基準測試(benchmarks)框架,並依據理解把它們分類成五個核心測驗的維度。

類別一:抽象推理與知識應用

類測模型基礎能力,當 AI 不靠外部工具時,它能否解決問題?

  • Humanitys Last Exam 人類的最後考試 / GPQA Diamond: 偏高難度學術推理與跨領域知識整合,。
  • GPQA Diamond 常被視為「理工博士級問答」的壓力測試。
  • AIME 2025 / MathArena Apex: 偏形式化推理、數學嚴謹度與多步驟解題韌性。
  • ARC-AGI-2: 用抽象圖案測 AI 是否可以有規則歸納能力,要從未見過規則中舉一反三。
  • SimpleQA Verified: 幻覺評估,確定模型記憶事實的準確度

類別二:複雜的代理行動

AI除了有知識之外,是否有實戰能力的考驗?

  • SWE-Bench Verified: 測試 AI 在軟體工程的任務中的表現,給 AI 程式碼庫與對應的 issue,模型需要產生能夠修復該問題的修補程式。
  • Terminal-Bench 2.0: 在真實終端環境中測試 AI 代理的測試工具,評估代理自主處理現實世界端到端任務的能力。
  • τ²-Bench (t2-bench): 能否使用外部工具和 API 完成任務,測試 AI 的「工具使用能力」。
  • Vending-Bench 2: 讓AI 們嘗試在現實世界做生意的指標,測試讓AI 營運販賣機。人工智慧代理商必須追蹤庫存、下訂單、設定價格並支付每日費用,這些任務單獨來看都很簡單,但隨著時間的推移,會逐漸考驗人工智慧保持穩定運行和做出智慧決策的能力極限

類別三:多模態與感知整合

現實世界的資料更多時候是:文件、截圖、圖表、影片、報表。模型能不能把這些「非結構化」變成可用的理解。

  • MMMU-Pro / Video-MMMU: MMMU(Massive Multi-discipline Multimodal Understanding),需要整合圖像/影片內容與文字問題,做出推理。
  • OmniDocBench 1.5: 偏 OCR 與文件結構還原,它測試是否可以讀得出字,且版面、結構和內容還原得像不像原始文件,而且不能胡亂改文件。
  • ScreenSpot-Pro: 測試 GUI/螢幕理解,考 AI 是否可以看懂軟體畫面截圖,並根據自然語言描述,並正確定位畫面上的目標位置或元素。
  • CharXiv Reasoning: 測驗偏複雜科研/技術圖表,比方說折線圖、熱力圖、柱狀圖等的資訊抽取與綜整能力。

類別四:長上下文與全球化

在面對實際的應用,會面對到的問題是文件超長,且語言多樣。模型是否能在這些複雜的長文裡找得到關鍵資訊呢?

  • MRCR v2 (8-needle): 名字的意思很像大海撈針,也確實如此。在超長文本裡塞幾個關鍵資訊點,看模型能不能準確取回。把文本長度推到極限長,刻意塞進少量關鍵資訊,並詢問的非常精準地對應到那些小段(針)。這些針跟後面的問題直接相關,但其他大多數內容都只是干擾。
  • MMMLU: 多語言問答能力。其中包含 14 種語言的專業翻譯測試題,包括阿拉伯語、孟加拉語、德語、西班牙語、法語、印地語、印尼語、義大利語、日語、韓語、葡萄牙語、斯瓦希里語、約魯巴語和中文。每種語言約有 15,908 個選擇題,涵蓋 57 個科目。
  • Global PIQA: 多語言常識推理基準測試,它評估跨越100種語言和文化的物理互動知識。它透過關於需要運用物理常識的日常情境的多項選擇題,測試人工智慧系統在不同文化背景下對物理世界知識的理解。

類別五:競技與效率

把模型丟進競爭、吃效率的程式題環境,測試他當一位演算法競賽選手,從 0 寫新程式且極限解題能力如何。

  • LiveCodeBench Pro: 要求模型在讀完題目描述後,自行設計演算法並輸出完整程式碼,最後丟進評測系統,檢查是否能通過所有測試資料。

結論

在 2025 年末這場技術大爆發,我們看到是一場透過AI 基準測試(AI benchmarks)展示多項能力指標的 AI 火力戰爭。 如果糾結於單一的分數,會忘記使用者真正在乎的是測驗中提到的閱讀能力、自動化、工具調度能力等等。

個人心得|為什麼突然在意最強 AI?

會突然好奇最強的AI ,有一大原因是身為GPT的長期訂閱戶,在2025年底突然發現隔壁的Germini 3 好像有點厲害啊!一時之間也沒有什麼東西可以測試看看到底有多厲害,純粹日常對話也不好感受到差異,因此乾脆來了解看看這些指標吧!

印象最深且讓我會心一笑的是這兩個指標:

  • 人類最後的考試(Humanity’s Last Exam),命名聽起來好像只要被 AI 徹底破解拿高分,人類就可以準備退休不動腦;
  • 大海撈針的 MRCR v2 (8-needle),很具象地讓我想像,AI 能不能在一大坨文字的大海裡,乖乖把那幾根針找出來。

慶幸 2025 年末,人類還是比 AI 聰明一點。可惜 AI 還不能完全取代我的工作,讓我放心放假去。

留言
avatar-img
一杯豆漿的沙龍
42會員
64內容數
閱讀使人充實,思考使人深邃 用最短的人生,擁有最多的經驗,是把人生過長的唯一方法。
一杯豆漿的沙龍的其他內容
2025/11/20
您是否常在會議中聽到 AI、機器學習、深度學習、生成式 AI、LLM 等名詞,卻感到混淆?本文將透過由外而內的五個同心圓,清晰地解釋這些名詞的定義、彼此之間的層級關係,以及它們的學習方式(監督學習、非監督學習、強化學習)。無論您是技術背景或非技術背景,都能藉此快速釐清概念,更精準地與他人溝通。
Thumbnail
2025/11/20
您是否常在會議中聽到 AI、機器學習、深度學習、生成式 AI、LLM 等名詞,卻感到混淆?本文將透過由外而內的五個同心圓,清晰地解釋這些名詞的定義、彼此之間的層級關係,以及它們的學習方式(監督學習、非監督學習、強化學習)。無論您是技術背景或非技術背景,都能藉此快速釐清概念,更精準地與他人溝通。
Thumbnail
2025/05/02
PM 是產品經理(Product Manager)還是專案經理(Project Manager)?本篇從 PdM 與 PjM 的差異談起,延伸解析 TPM、MPM、PMM 等常見 PM 類型與職責,並介紹 PCC 這個實務中不可忽視的協作角色。這篇文章將幫助你理解各種 PM 的角色分工與適合對象。
Thumbnail
2025/05/02
PM 是產品經理(Product Manager)還是專案經理(Project Manager)?本篇從 PdM 與 PjM 的差異談起,延伸解析 TPM、MPM、PMM 等常見 PM 類型與職責,並介紹 PCC 這個實務中不可忽視的協作角色。這篇文章將幫助你理解各種 PM 的角色分工與適合對象。
Thumbnail
2025/05/01
本篇文章深入解析新產品導入流程(NPI)中的三大驗證關卡:SR、ER、PR。文章從實務經驗出發,逐一拆解每個階段的驗證重點與常見挑戰,讓初入行的工程師與 PM 不再被會議術語淹沒。無論你是剛進電子製造業,還是第一次跑打樣流程,這篇文章都能幫你建立清晰的邏輯與節奏感。
Thumbnail
2025/05/01
本篇文章深入解析新產品導入流程(NPI)中的三大驗證關卡:SR、ER、PR。文章從實務經驗出發,逐一拆解每個階段的驗證重點與常見挑戰,讓初入行的工程師與 PM 不再被會議術語淹沒。無論你是剛進電子製造業,還是第一次跑打樣流程,這篇文章都能幫你建立清晰的邏輯與節奏感。
Thumbnail
看更多
你可能也想看
Thumbnail
Alpha Arena指的是nof1.ai研究實驗室所舉辦的高規格AI 交易基準測試和競賽平台。 Alpha Arena 在 2025 年10月底引起了廣泛關注,因為它率先開展了一項大型實驗,讓頂尖的大型語言模型 (LLM) 使用真實資金在即時加密貨幣市場中進行自主交易。
Thumbnail
Alpha Arena指的是nof1.ai研究實驗室所舉辦的高規格AI 交易基準測試和競賽平台。 Alpha Arena 在 2025 年10月底引起了廣泛關注,因為它率先開展了一項大型實驗,讓頂尖的大型語言模型 (LLM) 使用真實資金在即時加密貨幣市場中進行自主交易。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
當AI橫掃全球知識與產業鏈,新的權力關係正悄然重塑。 維基百科為捍衛人類編輯的智慧價值,公開呼籲AI平台「標註來源並付費支持」; OpenAI則延攬英特爾技術長Katti,布局通用人工智慧(AGI)基礎建設; 而牛津大學最新研究警示——AI性能基準測試正陷入「透明信任危機」。
Thumbnail
當AI橫掃全球知識與產業鏈,新的權力關係正悄然重塑。 維基百科為捍衛人類編輯的智慧價值,公開呼籲AI平台「標註來源並付費支持」; OpenAI則延攬英特爾技術長Katti,布局通用人工智慧(AGI)基礎建設; 而牛津大學最新研究警示——AI性能基準測試正陷入「透明信任危機」。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
從前從前科學說,左撇子的創造力較高,保守估計約佔人口10%的左撇子在創造力方面具有優勢。聽起來似乎合理的解釋。它是這樣的:你的大腦有兩個半球,一個左腦和一個右腦。 右腦被認為是狂野的,是藝術家,是那個能提出所有新可能性的半球,心理學家稱之為「發散性思考」。現在,有趣的是,你大腦的右半球控制。。。
Thumbnail
從前從前科學說,左撇子的創造力較高,保守估計約佔人口10%的左撇子在創造力方面具有優勢。聽起來似乎合理的解釋。它是這樣的:你的大腦有兩個半球,一個左腦和一個右腦。 右腦被認為是狂野的,是藝術家,是那個能提出所有新可能性的半球,心理學家稱之為「發散性思考」。現在,有趣的是,你大腦的右半球控制。。。
Thumbnail
馬士基宣布準備恢復通行紅海 海運股重跌 宏碁、五鼎、安國大漲;華義、森寶、品安、中菲行回檔
Thumbnail
馬士基宣布準備恢復通行紅海 海運股重跌 宏碁、五鼎、安國大漲;華義、森寶、品安、中菲行回檔
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
Google於2025年11月發布Gemini 3 Pro,以壓倒性優勢全面擊敗GPT-5.1與Claude Sonnet 4.5,正式重奪AI性能王座。該模型在數學(AIME 2025滿分)、長文本推理及代理任務上展現世代飛躍,樹立了全新的SOTA (State-of-the-Art)標竿。
Thumbnail
Google於2025年11月發布Gemini 3 Pro,以壓倒性優勢全面擊敗GPT-5.1與Claude Sonnet 4.5,正式重奪AI性能王座。該模型在數學(AIME 2025滿分)、長文本推理及代理任務上展現世代飛躍,樹立了全新的SOTA (State-of-the-Art)標竿。
Thumbnail
這篇文章記錄了作者準備ITS AI國際認證的過程,內容涵蓋AI五大主題:AI問題定義、數據收集、處理與工程、AI演算法與模型、應用整合與部署以及AI的維護和監控。文章記錄了各章節的重點筆記,並包含關鍵概念的說明,例如機器學習類型、數據處理方法、常見演算法、模型評估指標、MLOps流程以及AI治理等。
Thumbnail
這篇文章記錄了作者準備ITS AI國際認證的過程,內容涵蓋AI五大主題:AI問題定義、數據收集、處理與工程、AI演算法與模型、應用整合與部署以及AI的維護和監控。文章記錄了各章節的重點筆記,並包含關鍵概念的說明,例如機器學習類型、數據處理方法、常見演算法、模型評估指標、MLOps流程以及AI治理等。
Thumbnail
AI 基準測試(Benchmark)歷來無法捕捉現實世界中的複雜性,特別是針對 AI 系統可能執行的任務,經常導致對 AI 當前能力和未來影響產生誤導性結論。
Thumbnail
AI 基準測試(Benchmark)歷來無法捕捉現實世界中的複雜性,特別是針對 AI 系統可能執行的任務,經常導致對 AI 當前能力和未來影響產生誤導性結論。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News