LMArena到底是什麼？誰是當今第一名的AI？

2025/11/22 更新2025/11/22 發佈閱讀 5 分鐘

11/17 那一天xAI 宣布他們家的 Grok 4.1 Thinking 在 LMArena 的評測上遙遙領先 Google 的 Gemini 2.5 Pro，穩居榜首。結果隔天，也就是 11/18 Google 就宣布，他們家的新模型 Gemini 3 Pro 已經再次超車，在 LMArena 的評測上創下綜合能力評估的新紀錄，重新拿回過去蟬聯六個月的榜首，而且在多個面向遙遙領先其他家。這就等於 Grok 4.1 只做了一天的 AI 天下第一王位，然後就又被 Google 趕下台，擠到凸台的第二位去了。

到底 LMArena 是一個什麼樣的評測呢，大家為何都會以在這個榜單上的成績拿出來說嘴呢？LMArena 有哪些有趣的評測項目？又是如何讓超過一千九百萬人次上去盲測評分，找出大家最喜歡的AI呢？今天讓楊老師來跟你好好講一下。

LMArena 是一個由加州大學柏克萊分校團隊所主導開發的一個開源線上平台，他的目的是要讓我們可以用公平客觀的方式，進去測試和比較各個送測的大型AI模型。使用者可以免費使用 LMArena 上的各種最新模型，去跟他們聊天、生成圖片或影片，條件是要參與使用後的投票表決。

楊老師AI365 LMArena到底是什麼？為什麼AI大廠都以他為標竿？

每次系統都會隨機安排兩個AI模型來回答你的問題，滿足你的需求。完成之後，你再從中選出表現比較好的那一個模型，然後系統就會揭開謎底，告訴你剛剛為你服務的是哪一個模型，這是不是很有趣。

所以，我們可以說 LMArena 的機制就像是「盲測」一樣，很公平、不可能作弊，這樣子累積夠多的使用者測試結果之後，我們就可以知道，到底誰是目前表現最好的大語言模型。

楊老師覺得這個平台很有趣，他就跟十項全能的競技比賽一樣，你進去之後可以看每一項的即時更新，每天都會有名次上的變化，隨時可以上去看看現在是誰是各單項的世界冠軍。

剛剛我進去看，幫大家做了一個統計喔，這是截至目前為止，今天的世界排名：

在圖像編輯的排行榜上，有爆量的1980萬人次參與投票，17個模型參賽，Google Gemini 3.0 Pro，也就是我們熟知的奈米香蕉Pro版模型排名第一，第二名也是Google，是奈米香蕉的前一個版本，在台灣掀起P圖熱潮的Google Gemini 2.5 Flash，奈米香蕉第一版。

在文字能力排行榜上，有累積約460萬人次參與投票，在273個大語言模型中，Google Gemini 3.0 Pro 排名第一，Grok 4.1 思考模式緊接在後。

如果是文字轉圖形的排名賽，也有350萬人次投票，30個模型參與PK，第一名是gemini-3-pro，第二名則是大陸的騰訊混元3.0。

在視覺能力排行榜上，也有56萬人次參與投票，第一名是gemini-3-pro，第二名也是Google他們家的gemini-2.5-pro

在文字轉影片排行榜，前兩名都是Google，分別是Veo 3.1，及Veo 3.1 Fast。

然後看到很流行的影像轉影片，在排行榜上前兩名都是Google，分別是Veo 3.1，及Veo 3.1 Fast。

再看大家關心的AI搜尋能力排行榜中，grok-4-fast-search第一名，第二名是 Perplexity Sonar Pro。

在寫網頁程式的能力上，共有16個模型參賽，Gemini 3.0 Pro 排名第一，gpt-5.1-medium 第二

台灣人最應該關心的，應該是誰的中文能力最強，來，我公布一下。第一名又是 Google 的 gemini-3-pro，第二名呢，則是xAI 的 grok-4.1-thinking，第三名是grok-4.1

另外，我覺得大家可能忽略，但是我認為非常重要的指標是創意寫作能力，也就是比，誰能夠精準掌握語言細節，同時理解不同文化背景中的語意脈絡，那是不是很重要呢？想知道誰的表現最好嗎？在66萬人次的投票見證下，榜首又是gemini-3-pro，第二名呢？就是他弟弟gemini-2.5-pro，第三名呢，則是xAI 的 grok-4.1-thinking

大家有沒有發現，好像都沒聽到ChatGPT，對不對？那就表示在每一個單項競賽中，他的表現都不是頂尖，我給大家整理一下，他目前表現最好的是哪幾項喔

在網頁程式寫作上，GPT5.1 排名第二；在文字綜合能力、視覺能力、文字轉影像的能力上，GPT5.1 都是排名第四；在中文能力排名第五，在創意寫作上，GPT 5.1排名第十。

這樣的評測是不是很有趣，也希望大家就此知道到底該怎麼理解這些AI模型的能力了吧

留言

楊老師AI365 | 生成式AI職場應用

94會員

77內容數

歡迎來到楊老師的生成式AI沙龍！這裡輕鬆帶你掌握GenAI的基礎概念，透過生活化案例幫助你了解AI如何影響工作與創造價值。我也會分享多年教學與輔導經驗，帶你掌握AI國際認證的考試技巧與學習心法。更重要的是，從教育、美容、製造、銷售等百工百業出發，帶你一步步認識各行各業如何實際導入AI，成為這波數位轉型浪潮中的領航者！

楊老師AI365 | 生成式AI職場應用的其他內容

2025/11/21

為什麼Anthropic對「知識蒸餾」這麼敏感

Anthropic因極度重視AI安全與國安風險，擴大禁止中國等威權國家使用其Claude模型，以防被用於「知識蒸餾」。知識蒸餾能讓小模型快速複製大模型的邏輯與能力，成為國安風險。小模型雖不如老師模型全面，但在特定任務上表現優秀且成本低，。對Anthropic而言，蒸餾已是政治問題而非單純技術。

2025/11/21

為什麼Anthropic對「知識蒸餾」這麼敏感

2025/11/20

想不到吧？學生分享Netlify與恆春古調思想起

今天楊老師帶領AI專案管理班實作Make平台流程自動化，串接Gemini AI、RSS與Notion。並有蛋糕慶生小插曲。李杰同學分享Vibe Coding經驗，指導學員用Gemini生成程式碼部署至Netlify建置網站。本文介紹Netlify優勢，鼓勵實作。最後由品辰同學彈唱《思想起》精彩收尾。

2025/11/20

想不到吧？學生分享Netlify與恆春古調思想起

2025/11/19

Cloudflare是幹嘛的，害我不能做作業

昨晚，Cloudflare全球性故障造成許多服務無法存取的事件。楊老師解釋Cloudflare提供DNS、CDN及資安服務，是網路的關鍵角色，其單點故障凸顯了「集中化風險」。為提升數位韌性，楊老師建議，重要資料備份，發生問題時保持冷靜並判斷故障範圍；在慌亂時警惕假冒官方的釣魚連結，避免帳號密碼被竊。

2025/11/19

Cloudflare是幹嘛的，害我不能做作業

看更多

#寫作的其他內容

方格子 ╳ 圓神出版｜我寫故我在，每篇文章都是一場美麗邂逅

目前共 5549 篇

方格子 vocus 官方沙龍

【野格團開箱｜上篇】首波新成員登場！5 題靈魂拷問，直擊「個人主題專家」的創作後台🔥

你可能也想看

Homeless Cosmopolitans' 實驗沙龍

【科學科技一科燙手報 Mk.2】：Google新發表的開源AI模型Gemma | 燙手度4天

大部分的人都知道Open AI的ChatGPT，部份的人知道Perplexity一類的生成式AI模型，還有一些人知道Google研發的生成式AI模型：Gemini (意思是拉丁文的雙生)。但幾小時前開放給開發者及研究者的開源AI模型Gemma（意思是拉丁文珍貴的石頭）大概沒什麼知道，

#Gemma#Google#AI

2024/02/25

Homeless Cosmopolitans' 實驗沙龍

【科學科技一科燙手報 Mk.2】：Google新發表的開源AI模型Gemma | 燙手度4天

#Gemma#Google#AI

2024/02/25

樂子

Google Gemini 對比 ChatGPT：AI助手評測

這篇文章評測了Google Gemini和ChatGPT兩個AI助手工具的表現，並對比了它們在簡單問題、創作文本和回應短文等方面的效果。

#ChatGPT#AI#人工智慧

2024/04/30

樂子

Google Gemini 對比 ChatGPT：AI助手評測

這篇文章評測了Google Gemini和ChatGPT兩個AI助手工具的表現，並對比了它們在簡單問題、創作文本和回應短文等方面的效果。

#ChatGPT#AI#人工智慧

2024/04/30

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11