LMArena到底是什麼?誰是當今第一名的AI?

更新 發佈閱讀 5 分鐘

11/17 那一天xAI 宣布他們家的 Grok 4.1 Thinking 在 LMArena 的評測上遙遙領先 Google 的 Gemini 2.5 Pro,穩居榜首。結果隔天,也就是 11/18 Google 就宣布,他們家的新模型 Gemini 3 Pro 已經再次超車,在 LMArena 的評測上創下綜合能力評估的新紀錄,重新拿回過去蟬聯六個月的榜首,而且在多個面向遙遙領先其他家。這就等於 Grok 4.1 只做了一天的 AI 天下第一王位,然後就又被 Google 趕下台,擠到凸台的第二位去了。

到底 LMArena 是一個什麼樣的評測呢,大家為何都會以在這個榜單上的成績拿出來說嘴呢?LMArena 有哪些有趣的評測項目?又是如何讓超過一千九百萬人次上去盲測評分,找出大家最喜歡的AI呢?今天讓楊老師來跟你好好講一下。

LMArena 是一個由加州大學柏克萊分校團隊所主導開發的一個開源線上平台,他的目的是要讓我們可以用公平客觀的方式,進去測試和比較各個送測的大型AI模型。使用者可以免費使用 LMArena 上的各種最新模型,去跟他們聊天、生成圖片或影片,條件是要參與使用後的投票表決。

楊老師AI365 LMArena到底是什麼?為什麼AI大廠都以他為標竿?

楊老師AI365 LMArena到底是什麼?為什麼AI大廠都以他為標竿?


每次系統都會隨機安排兩個AI模型來回答你的問題,滿足你的需求。完成之後,你再從中選出表現比較好的那一個模型,然後系統就會揭開謎底,告訴你剛剛為你服務的是哪一個模型,這是不是很有趣。

所以,我們可以說 LMArena 的機制就像是「盲測」一樣,很公平、不可能作弊,這樣子累積夠多的使用者測試結果之後,我們就可以知道,到底誰是目前表現最好的大語言模型。

楊老師覺得這個平台很有趣,他就跟十項全能的競技比賽一樣,你進去之後可以看每一項的即時更新,每天都會有名次上的變化,隨時可以上去看看現在是誰是各單項的世界冠軍。

剛剛我進去看,幫大家做了一個統計喔,這是截至目前為止,今天的世界排名:

在圖像編輯的排行榜上,有爆量的1980萬人次參與投票,17個模型參賽,Google Gemini 3.0 Pro,也就是我們熟知的奈米香蕉Pro版模型 排名第一,第二名也是Google,是奈米香蕉的前一個版本,在台灣掀起P圖熱潮的Google Gemini 2.5 Flash,奈米香蕉第一版。

在文字能力排行榜上,有累積約460萬人次參與投票,在273個大語言模型中,Google Gemini 3.0 Pro 排名第一,Grok 4.1 思考模式緊接在後。

如果是文字轉圖形的排名賽,也有350萬人次投票,30個模型參與PK,第一名是gemini-3-pro,第二名則是大陸的騰訊混元3.0。

在視覺能力排行榜上,也有56萬人次參與投票,第一名是gemini-3-pro,第二名也是Google他們家的gemini-2.5-pro

在文字轉影片排行榜,前兩名都是Google,分別是Veo 3.1,及Veo 3.1 Fast。

然後看到很流行的影像轉影片,在排行榜上前兩名都是Google,分別是Veo 3.1,及Veo 3.1 Fast。

再看大家關心的AI搜尋能力排行榜中,grok-4-fast-search第一名,第二名是 Perplexity Sonar Pro。

在寫網頁程式的能力上,共有16個模型參賽,Gemini 3.0 Pro 排名第一,gpt-5.1-medium 第二

台灣人最應該關心的,應該是誰的中文能力最強,來,我公布一下。第一名又是 Google 的 gemini-3-pro,第二名呢,則是xAI 的 grok-4.1-thinking,第三名是grok-4.1

另外,我覺得大家可能忽略,但是我認為非常重要的指標是創意寫作能力,也就是比,誰能夠精準掌握語言細節,同時理解不同文化背景中的語意脈絡,那是不是很重要呢?想知道誰的表現最好嗎?在66萬人次的投票見證下,榜首又是gemini-3-pro,第二名呢?就是他弟弟gemini-2.5-pro,第三名呢,則是xAI 的 grok-4.1-thinking

大家有沒有發現,好像都沒聽到ChatGPT,對不對?那就表示在每一個單項競賽中,他的表現都不是頂尖,我給大家整理一下,他目前表現最好的是哪幾項喔

在網頁程式寫作上,GPT5.1 排名第二;在文字綜合能力、視覺能力、文字轉影像的能力上,GPT5.1 都是排名第四;在中文能力排名第五,在創意寫作上,GPT 5.1排名第十。

這樣的評測是不是很有趣,也希望大家就此知道到底該怎麼理解這些AI模型的能力了吧


留言
avatar-img
楊老師AI365 | 生成式AI職場應用
94會員
77內容數
歡迎來到楊老師的生成式AI沙龍!這裡輕鬆帶你掌握GenAI的基礎概念,透過生活化案例幫助你了解AI如何影響工作與創造價值。我也會分享多年教學與輔導經驗,帶你掌握AI國際認證的考試技巧與學習心法。更重要的是,從教育、美容、製造、銷售等百工百業出發,帶你一步步認識各行各業如何實際導入AI,成為這波數位轉型浪潮中的領航者!
2025/11/21
Anthropic因極度重視AI安全與國安風險,擴大禁止中國等威權國家使用其Claude模型,以防被用於「知識蒸餾」。知識蒸餾能讓小模型快速複製大模型的邏輯與能力,成為國安風險。小模型雖不如老師模型全面,但在特定任務上表現優秀且成本低,。對Anthropic而言,蒸餾已是政治問題而非單純技術。
Thumbnail
2025/11/21
Anthropic因極度重視AI安全與國安風險,擴大禁止中國等威權國家使用其Claude模型,以防被用於「知識蒸餾」。知識蒸餾能讓小模型快速複製大模型的邏輯與能力,成為國安風險。小模型雖不如老師模型全面,但在特定任務上表現優秀且成本低,。對Anthropic而言,蒸餾已是政治問題而非單純技術。
Thumbnail
2025/11/20
今天楊老師帶領AI專案管理班實作Make平台流程自動化,串接Gemini AI、RSS與Notion。並有蛋糕慶生小插曲。李杰同學分享Vibe Coding經驗,指導學員用Gemini生成程式碼部署至Netlify建置網站。本文介紹Netlify優勢,鼓勵實作。最後由品辰同學彈唱《思想起》精彩收尾。
Thumbnail
2025/11/20
今天楊老師帶領AI專案管理班實作Make平台流程自動化,串接Gemini AI、RSS與Notion。並有蛋糕慶生小插曲。李杰同學分享Vibe Coding經驗,指導學員用Gemini生成程式碼部署至Netlify建置網站。本文介紹Netlify優勢,鼓勵實作。最後由品辰同學彈唱《思想起》精彩收尾。
Thumbnail
2025/11/19
昨晚,Cloudflare全球性故障造成許多服務無法存取的事件。楊老師解釋Cloudflare提供DNS、CDN及資安服務,是網路的關鍵角色,其單點故障凸顯了「集中化風險」。為提升數位韌性,楊老師建議,重要資料備份,發生問題時保持冷靜並判斷故障範圍;在慌亂時警惕假冒官方的釣魚連結,避免帳號密碼被竊。
Thumbnail
2025/11/19
昨晚,Cloudflare全球性故障造成許多服務無法存取的事件。楊老師解釋Cloudflare提供DNS、CDN及資安服務,是網路的關鍵角色,其單點故障凸顯了「集中化風險」。為提升數位韌性,楊老師建議,重要資料備份,發生問題時保持冷靜並判斷故障範圍;在慌亂時警惕假冒官方的釣魚連結,避免帳號密碼被竊。
Thumbnail
看更多
你可能也想看
Thumbnail
大部分的人都知道Open AI的ChatGPT, 部份的人知道Perplexity一類的生成式AI模型, 還有一些人知道Google研發的生成式AI模型:Gemini (意思是拉丁文的雙生)。 但幾小時前開放給開發者及研究者的開源AI模型Gemma(意思是拉丁文珍貴的石頭)大概沒什麼知道,
Thumbnail
大部分的人都知道Open AI的ChatGPT, 部份的人知道Perplexity一類的生成式AI模型, 還有一些人知道Google研發的生成式AI模型:Gemini (意思是拉丁文的雙生)。 但幾小時前開放給開發者及研究者的開源AI模型Gemma(意思是拉丁文珍貴的石頭)大概沒什麼知道,
Thumbnail
這篇文章評測了Google Gemini和ChatGPT兩個AI助手工具的表現,並對比了它們在簡單問題、創作文本和回應短文等方面的效果。
Thumbnail
這篇文章評測了Google Gemini和ChatGPT兩個AI助手工具的表現,並對比了它們在簡單問題、創作文本和回應短文等方面的效果。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
什麼是 Google Gemini? Gemini 是 Google DeepMind 開發的多模態大型語言模型的尖端家族,繼 LaMDA 和 PaLM 2 之後。它於 2023 年 12 月 6 日宣布,包括 Gemini Ultra、Pro 和 Nano,旨在超越 OpenAI 的 GPT-4
Thumbnail
什麼是 Google Gemini? Gemini 是 Google DeepMind 開發的多模態大型語言模型的尖端家族,繼 LaMDA 和 PaLM 2 之後。它於 2023 年 12 月 6 日宣布,包括 Gemini Ultra、Pro 和 Nano,旨在超越 OpenAI 的 GPT-4
Thumbnail
在AI領域的競爭中,Meta再次展現了其不可忽視的實力。Mark Zuckerberg的公司最近發布了他們迄今為止最強大的大型語言模型 Llama 3.1,這不僅是免費的,而且還可以說是開源的。這一舉動無疑將在AI界掀起巨浪,但它真的能與OpenAI和Google等巨頭抗衡嗎?讓我們一起深入探討
Thumbnail
在AI領域的競爭中,Meta再次展現了其不可忽視的實力。Mark Zuckerberg的公司最近發布了他們迄今為止最強大的大型語言模型 Llama 3.1,這不僅是免費的,而且還可以說是開源的。這一舉動無疑將在AI界掀起巨浪,但它真的能與OpenAI和Google等巨頭抗衡嗎?讓我們一起深入探討
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
隨著AI板塊的爆發,各大科技巨頭之間的競爭愈發激烈。尤其是Google與微軟這兩個搜尋引擎的老對手,都想借AI的東風,升級各自的科技服務。微軟背後有OpenAI的ChatGPT技術加持,始終壓Google一頭。
Thumbnail
隨著AI板塊的爆發,各大科技巨頭之間的競爭愈發激烈。尤其是Google與微軟這兩個搜尋引擎的老對手,都想借AI的東風,升級各自的科技服務。微軟背後有OpenAI的ChatGPT技術加持,始終壓Google一頭。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
AI -Gemini : 我鼓勵你探索自己的答案,並找到讓你感到充實和意義的東西。 我的 AI -Gemini 無法回答我全部的問題... “我從哪裡來?” “現在發生的事情的品質如何?” AI -Gemini : 我是一個由 Google AI 創建的大型語言模型,在大量文字和程式碼...
Thumbnail
AI -Gemini : 我鼓勵你探索自己的答案,並找到讓你感到充實和意義的東西。 我的 AI -Gemini 無法回答我全部的問題... “我從哪裡來?” “現在發生的事情的品質如何?” AI -Gemini : 我是一個由 Google AI 創建的大型語言模型,在大量文字和程式碼...
Thumbnail
Anthropic推出了新的Claude 3系列模型,號稱打敗OpenAI GPT-4與Google Gemini,成為地表最強的AI模型。文章介紹了Anthropic公司的核心理念、Claude 3模型家族與GPT-4 Gemini的比較。Claude 3模型在文字與圖像的理解能力都有大幅提升。
Thumbnail
Anthropic推出了新的Claude 3系列模型,號稱打敗OpenAI GPT-4與Google Gemini,成為地表最強的AI模型。文章介紹了Anthropic公司的核心理念、Claude 3模型家族與GPT-4 Gemini的比較。Claude 3模型在文字與圖像的理解能力都有大幅提升。
Thumbnail
隨著 AI 技術的進步,Google 推出了一款令人興奮的生產力工具—NotebookLM。這款結合 Gemini 1.5 Pro 模型的筆記本工具不僅能輕鬆生成問題、快速摘要文檔,還能幫助你建立專屬知識庫。今天,我將介紹 NotebookLM 是什麼、如何使用它,以及在三種不同情境中的應用方法。
Thumbnail
隨著 AI 技術的進步,Google 推出了一款令人興奮的生產力工具—NotebookLM。這款結合 Gemini 1.5 Pro 模型的筆記本工具不僅能輕鬆生成問題、快速摘要文檔,還能幫助你建立專屬知識庫。今天,我將介紹 NotebookLM 是什麼、如何使用它,以及在三種不同情境中的應用方法。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News