如何計算 AI 智力

2025/07/09 更新2025/06/25 發佈閱讀 3 分鐘

AI近年來的發展令人驚嘆，從寫作、翻譯，到程式設計、醫學諮詢，許多 AI 模型已展現出超越人類水準的表現。我們該如何量化、比較、甚至真正理解 AI 的智力？如果說，20 世紀的智商（IQ）測驗是人類試圖捕捉大腦能力的一種方式，那麼 21 世紀的 AI 測評工具，就是科技界評估人工智能的智商考試。然而，AI 的智力，遠比人類智商複雜。AI 並不具備真正的理解、意識或常識，但它們卻能在特定任務中展現令人難以置信的計算與推理能力。因此，專業、嚴謹且持續演進的智力評估工具，成為整個 AI 產業的重要基礎。

MMLU：AI 智力排名的學科考試

面對衡量 AI 智力的需求，MMLU（Massive Multitask Language Understanding）應運而生。這個由 UC Berkeley、Stanford、AI21 Labs 等機構於 2021 年提出的測試，迅速成為評比大型語言模型（LLM）的國際標準。MMLU 的設計類似學校考試，涵蓋 57 個領域，從醫學、法律、歷史，到數學、物理、電腦科學。每個領域題目都為多選題，結合專業知識與推理能力，全面檢驗 AI 的語言理解與跨領域整合實力。自 MMLU 推出後，科技巨頭紛紛將旗下最強模型送上比試擂台：

OpenAI o1：約 90.5 %
DeepSeek-R1：約 90.8 %
Grok‑3：約92.7 %（存在爭議）
Claude 3.5 Sonnet：約 88 %

除了總分，許多「特殊題型」也反映出不同 AI 模型的獨特優勢：

DeepSeek-R1：在中文醫學、法律等專業題目中領先，特別適合中文多領域知識整合
Grok-3：在複雜數學推理、符號邏輯、Python 程式生成中表現突出，適合處理演算法、程式設計任務
Claude 3.5：擅長思維鏈推理，能清晰列出推理步驟，便於人類理解 AI 的思考邏輯

這些差異顯示，單純用總分評斷 AI 智力並不全面，實際應用場景才是關鍵。

AI 智力，無止盡的競賽

AI 智力測試，如同科技界的馬拉松，沒有終點，只有不斷推進的標準與挑戰。MMLU、MMLU‑Pro（進階、困難版多選題，更考驗推理深度）、Humanity's Last Exam（跨領域開放推理挑戰，測試泛化與創造性）等工具，雖無法全面定義 AI 的智商，卻是觀察技術發展的重要窗口。

邊喝邊想，我們會聊聊酒、聊聊神話，也聊聊這個世界。

留言

想想

19會員

226內容數

Hi！歡迎來到想想。我們一起觀察趨勢，理解來龍去脈，聊聊科技如何改變生活。在快速變動的世界裡，找回思考的節奏。

想想的其他內容

2025/06/25

NVIDIA，AI 世界的運算引擎

NVIDIA 透過H200等AI晶片，全面布局生成式AI與資料中心市場，鞏固算力霸主地位。

2025/06/25

NVIDIA，AI 世界的運算引擎

NVIDIA 透過H200等AI晶片，全面布局生成式AI與資料中心市場，鞏固算力霸主地位。

2025/06/24

Grok 3：馬斯克的地表最強 AI

Grok 3 快速逼近 AI 頂尖行列，成為生態關鍵變數。

2025/06/24

Grok 3：馬斯克的地表最強 AI

Grok 3 快速逼近 AI 頂尖行列，成為生態關鍵變數。

2025/06/24

AI五強之戰

AI競爭加劇，五大巨頭與模型廠商各自布局，權力版圖持續變動。

2025/06/24

AI五強之戰

AI競爭加劇，五大巨頭與模型廠商各自布局，權力版圖持續變動。

你可能也想看

2024/06/09

2024/06/09

解密 AI 與資料科學 (二) : AI 的類型與實戰場景

本文要探討AI的任務與實戰場景。AI技術已深入生活各層面，從違約預測到都市交通管理。AI任務主要有三類：數值型資料處理、自然語言處理（NLP）和電腦影像辨識。時間序列資料和強化學習方法（如AlphaGo）也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化，了解這些基礎有助選擇適合研究方向

#ChatGPT#AlphaGo#人工智慧

2024/07/19

Darren的沙龍

解密 AI 與資料科學 (二) : AI 的類型與實戰場景

#ChatGPT#AlphaGo#人工智慧

2024/07/19

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

這是一場修復文化與重建精神的儀式，觀眾不需要完全看懂《遊林驚夢：巧遇Hagay》，但你能感受心與土地團聚的渴望，也不急著在此處釐清或定義什麼，但你的在場感受，就是一條線索，關於如何找著自己的路徑、自己的聲音。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

Miller的投資沙龍

【0620米勒投資日報】每間公司都說有做AI，除了AI之外，還有什麼題目可以留意嗎？

#投資#理財#股票

2024/06/20

Miller的投資沙龍

【0620米勒投資日報】每間公司都說有做AI，除了AI之外，還有什麼題目可以留意嗎？

#投資#理財#股票

2024/06/20

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11