Benchmark
含有「Benchmark」共 3 篇內容
全部內容
發佈日期由新至舊
EgentHub 閱讀筆記
2026/03/20
白話文帶你看懂15種LLM評測指標!Benchmark不再是天書!
為了讓各位讀者能更好的認識常見的基準測試(Benchmark),以及他們要測試的內容是什麼,EgentHub ( 企業AI Agent專家 ) 幫各位讀者整理了15個常見到的基準測試(Benchmark),讓大家可以當作字典存起來,以後看到模型更新的時候,就可以點進來參考了!
#
Agent
#
AI
#
Benchmark
1
留言
一杯豆漿的沙龍
2025/12/22
【豆漿筆記】最強 AI 怎麼比?用 Gemini 3 AI Benchmark 看懂大型語言模型能力評估
本文從 Gemini 3 公佈的 AI Benchmark 出發,解析 Gemini 等模型在 2025 年 AI 競賽中的評測標準。透過將複雜的基準測試框架,歸納為抽象推理、複雜代理行動、多模態整合、長上下文處理及競技效率五大維度,幫助讀者理解 AI 模型的實際能力和評估指標。
#
AI基準測試
#
AI
#
Benchmark
4
留言
MuCAT的沙龍
2025/11/22
Gemini 3 Pro全面刷新前沿基準:Google新王者登基,全面超越GPT-5.1與Claude Sonnet 4
Google於2025年11月發布Gemini 3 Pro,以壓倒性優勢全面擊敗GPT-5.1與Claude Sonnet 4.5,正式重奪AI性能王座。該模型在數學(AIME 2025滿分)、長文本推理及代理任務上展現世代飛躍,樹立了全新的SOTA (State-of-the-Art)標竿。
#
Gemini3Pro
#
GoogleDeedMind
#
GPT51
1
2
Shaou-Gang Miaou
發文者
2025/11/25
喜歡
喜歡