如何計算 AI 智力

更新 發佈閱讀 3 分鐘
vocus|新世代的創作平台

AI近年來的發展令人驚嘆,從寫作、翻譯,到程式設計、醫學諮詢,許多 AI 模型已展現出超越人類水準的表現。我們該如何量化、比較、甚至真正理解 AI 的智力如果說,20 世紀的智商(IQ)測驗是人類試圖捕捉大腦能力的一種方式,那麼 21 世紀的 AI 測評工具,就是科技界評估人工智能的智商考試。然而,AI 的智力,遠比人類智商複雜。AI 並不具備真正的理解、意識或常識,但它們卻能在特定任務中展現令人難以置信的計算與推理能力。因此,專業、嚴謹且持續演進的智力評估工具,成為整個 AI 產業的重要基礎。


MMLU:AI 智力排名的學科考試

面對衡量 AI 智力的需求,MMLU(Massive Multitask Language Understanding) 應運而生。這個由 UC Berkeley、Stanford、AI21 Labs 等機構於 2021 年提出的測試,迅速成為評比大型語言模型(LLM)的國際標準。MMLU 的設計類似學校考試,涵蓋 57 個領域,從醫學、法律、歷史,到數學、物理、電腦科學。每個領域題目都為多選題,結合專業知識與推理能力,全面檢驗 AI 的語言理解與跨領域整合實力。自 MMLU 推出後,科技巨頭紛紛將旗下最強模型送上比試擂台:

  • OpenAI o1:約 90.5 %
  • DeepSeek-R1:約 90.8 %
  • Grok‑3約92.7 %(存在爭議)
  • Claude 3.5 Sonnet:約 88 %

除了總分,許多「特殊題型」也反映出不同 AI 模型的獨特優勢:

  • DeepSeek-R1:在中文醫學、法律等專業題目中領先,特別適合中文多領域知識整合
  • Grok-3:在複雜數學推理、符號邏輯、Python 程式生成中表現突出,適合處理演算法、程式設計任務
  • Claude 3.5:擅長思維鏈推理,能清晰列出推理步驟,便於人類理解 AI 的思考邏輯

這些差異顯示,單純用總分評斷 AI 智力並不全面,實際應用場景才是關鍵。


AI 智力,無止盡的競賽

AI 智力測試,如同科技界的馬拉松,沒有終點,只有不斷推進的標準與挑戰。MMLU、MMLU‑Pro(進階、困難版多選題,更考驗推理深度)、Humanity's Last Exam(跨領域開放推理挑戰,測試泛化與創造性) 等工具,雖無法全面定義 AI 的智商,卻是觀察技術發展的重要窗口。



邊喝邊想,我們會聊聊酒、聊聊神話,也聊聊這個世界。

留言
avatar-img
想想
19會員
226內容數
Hi!歡迎來到想想。我們一起觀察趨勢,理解來龍去脈,聊聊科技如何改變生活。 在快速變動的世界裡,找回思考的節奏。
想想的其他內容
2025/06/25
NVIDIA 透過H200等AI晶片,全面布局生成式AI與資料中心市場,鞏固算力霸主地位。
Thumbnail
2025/06/25
NVIDIA 透過H200等AI晶片,全面布局生成式AI與資料中心市場,鞏固算力霸主地位。
Thumbnail
2025/06/24
Grok 3 快速逼近 AI 頂尖行列,成為生態關鍵變數。
Thumbnail
2025/06/24
Grok 3 快速逼近 AI 頂尖行列,成為生態關鍵變數。
Thumbnail
2025/06/24
AI競爭加劇,五大巨頭與模型廠商各自布局,權力版圖持續變動。
Thumbnail
2025/06/24
AI競爭加劇,五大巨頭與模型廠商各自布局,權力版圖持續變動。
Thumbnail
看更多
你可能也想看
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
科技發達,AI智能也越來越發達。 蠢孩子,我每篇小說的圖片都是用AI製作的唷!!
Thumbnail
科技發達,AI智能也越來越發達。 蠢孩子,我每篇小說的圖片都是用AI製作的唷!!
Thumbnail
如何運用A I這個工具,以人為本,不是讓AI主導你的人生。
Thumbnail
如何運用A I這個工具,以人為本,不是讓AI主導你的人生。
Thumbnail
最新的AI趨勢讓人眼花撩亂,不知要如何開始學習?本文介紹了作者對AI的使用和體驗,以及各類AI工具以及推薦的選擇。最後強調了AI是一個很好用的工具,可以幫助人們節省時間並提高效率。鼓勵人們保持好奇心,不停止學習,並提出了對健康生活和開心生活的祝福。
Thumbnail
最新的AI趨勢讓人眼花撩亂,不知要如何開始學習?本文介紹了作者對AI的使用和體驗,以及各類AI工具以及推薦的選擇。最後強調了AI是一個很好用的工具,可以幫助人們節省時間並提高效率。鼓勵人們保持好奇心,不停止學習,並提出了對健康生活和開心生活的祝福。
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
除現有已知的 AI 硬體建構廠商外,本篇並列出作者對於下一波 AI 應用興起時之潛力企業觀察清單,包含網路服務、網路安全、行業運用方案解決業者、與 AI 軟體開發商等。
Thumbnail
除現有已知的 AI 硬體建構廠商外,本篇並列出作者對於下一波 AI 應用興起時之潛力企業觀察清單,包含網路服務、網路安全、行業運用方案解決業者、與 AI 軟體開發商等。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News