Andrej Karpathy 2025 年度回顧:為何 AI 正成為你電腦裡的「新物種」?

更新 發佈閱讀 10 分鐘

又到了歲末年終,當我們回顧 2025 年,AI 領域的進展速度依然令人目不暇給。在這片資訊的汪洋中,有幾個名字的觀點,總能為我們提供清晰的航向,Andrej Karpathy 從 OpenAI 的創始成員、到特斯拉 AI 部門的負責人,他對技術的深度理解與獨到見解,讓他的年度回顧成為所有科技關注者不容錯過的思想盛宴。

今年的回顧,Karpathy 提出了六個他認為真正改變了產業樣貌的「典範轉移」。這些轉變不僅僅是技術的迭代,更深層地影響了我們如何看待 AI 的智慧、如何與之互動,甚至徹底改變了軟體開發的本質。

vocus|新世代的創作平台

2025 LLM Year in Review

2025 年 LLM 六大典範轉移

典範轉移一:用「可驗證獎勵」教 AI 學會「思考」

過去幾年,訓練大型語言模型的標準流程大致穩定在三個階段:預訓練 (Pretraining)、監督式微調 (SFT),以及來自人類回饋的強化學習 (RLHF)。然而,2025 年,一個名為 RLVR (Reinforcement Learning from Verifiable Rewards) 的新階段強勢崛起,成為事實上的新標準。RLVR 的核心概念是,讓 LLM 在具有「可自動驗證」獎勵的環境中進行訓練。

Karpathy 指出,透過在這種環境下長時間的最佳化,LLM 自發性地發展出了類似人類「推理」的策略。它們學會了將複雜問題拆解成中間步驟,並在過程中反覆驗證、修正。這是過往的 SFT 或 RLHF 難以達成的,因為人類也很難明確告訴模型「最佳的思考路徑」是什麼。RLVR 讓模型透過獎勵機制,自己找到了最適合它的解決方案。

這個轉變帶來了幾個關鍵影響:

  • 更高的訓練效率:RLVR 提供了極高的「能力/成本」轉換率,使得原本要投入到預訓練的龐大算力,轉而投入到這個新階段,帶來了更顯著的能力提升。
  • 更強的模型能力:2025 年大部分 LLM 的能力進展,主要來自於各實驗室對 RLVR 這個新方法的深入探索。即使模型大小沒有顯著增加,但更長的強化學習運行時間讓模型變得更聰明。
  • 可控的「思考時間」:RLVR 引入了允許模型透過生成更長的推理鏈、增加「思考時間」,來換取更強大的解決問題能力。從 OpenAI 的 o1 模型初見端倪,到 o3 模型的成熟,使用者已經能直觀感受到這種能力上的質變。

典範轉移二:為何 AI 的智慧如此「參差不齊」?

Karpathy 認為整個產業開始更直觀地理解 LLM 智慧的「形狀」。他提出了一個深刻的比喻:我們不是在「養育動物」,而是在「召喚鬼魂」。

他解釋,LLM 的一切,從神經網路架構、訓練資料到最佳化壓力,都與生物大腦截然不同。人類大腦是為了在叢林中生存而演化,而 LLM 則是為了模仿人類文本、在數學題中拿高分、獲得人類點讚而最佳化。因此,用看待「動物」的眼光去理解 LLM 是不恰當的。

這就導致了 LLM 智慧一個非常有趣的特性:「參差不齊的智慧 (Jagged Intelligence)」。由於 RLVR 這類訓練方法的存在,LLM 在那些「可驗證」的領域(如數學、程式碼)能力會急遽飆升,形成一個個能力的「尖峰」。這也解釋了為何 LLM 可以同時是個博學的天才,卻又像個認知困難的小學生,下一秒就可能被簡單的提示詞攻擊 (Jailbreak) 。

這個「鬼魂理論」也讓 Karpathy 對傳統的基準測試 (Benchmarks) 失去了信心。因為基準測試本質上就是一種可驗證的環境,極易受到 RLVR 或合成資料生成的影響。各大實驗室不可避免地會針對評測項目進行最佳化,這種「為考試而訓練」的現象,也讓我們不禁反思:一個能稱霸所有榜單的 AI,就等於通用人工智慧 (AGI) 嗎?

典範轉移三:LLM 應用程式的時代來臨

在應用層面,Karpathy 特別提到了 Cursor 這款 AI 程式碼編輯器的崛起。他認為 Cursor 的成功,有力地證明了一個全新的「LLM 應用程式」層級的存在,人們開始討論「Cursor for X」的可能性。

這些新一代的 LLM 應用程式,並非只是簡單地包裝一層 API。它們為特定的垂直領域提供了更深度的價值,其核心工作包括:

  • 情境工程 (Context Engineering):自動為 LLM 準備和注入解決問題所需的所有相關背景資訊。
  • 多重呼叫的協調 (Orchestration):在底層,它們會聰明地組織和協調對 LLM 的多次呼叫,將其串成複雜的執行流程,並在性能與成本之間取得平衡。
  • 提供特定應用的圖形介面 (GUI):為使用者提供一個針對特定任務、高度優化的人機互動介面。
  • 提供「自主性滑桿 (Autonomy Slider)」:讓使用者可以自由控制 AI 的介入程度,從簡單的建議到完全自主執行任務。

Karpathy 認為基礎模型廠商像是培養出能力全面的大學畢業生,而這些 LLM 應用程式則像是專業的專案團隊,將這些「畢業生」組織、微調,並真正打造成能部署在特定垂直領域的專業人士。

典範轉移四:不再只是雲端服務,AI 正式「住進」你的電腦

2025 年,Anthropic 推出的 Claude Code 透過循環的方式,將工具使用和推理串聯起來,以解決更長、更複雜的問題,成為第一個令人信服的 LLM Agent (代理人)。

然而,Karpathy 認為 Claude Code 最重要的啟示在於它的運行模式:它運行在你的電腦上,與你的私有環境、數據和情境緊密結合。他直言,OpenAI 早期的 Codex 和 Agent 專案將重心放在雲端容器中,是一個錯誤的方向。雖然雲端代理人集群感覺像是 AGI 的終局,但在當前這個能力參差不齊的「慢速起飛」世界裡,讓 Agent 直接運行在開發者的本機電腦上,顯然是更合理的選擇。

典範轉移五:當寫程式就像聊天,人人都是開發者

Karpathy 觀察到,2025 年 AI 的能力跨越了一個門檻,使得人們可以單純透過自然語言來建構各種令人印象深刻的程式,甚至可以完全忘記程式碼的存在。 他用自己創造的詞「Vibe Coding」來形容這個現象。

Vibe Coding 的核心是,程式設計不再是訓練有素的專業人士的專利,而是任何人都可以參與的活動。Vibe Coding 不僅賦予了普通人寫程式的能力,也讓專業開發者能夠以前所未有的速度,創造出大量過去因為成本或時間考量而不會被寫出來的軟體。程式碼突然變得唾手可得、可隨意修改、甚至用完即丟。他斷言,Vibe Coding 將會徹底改造軟體產業,並改變軟體工程師的工作職責。

典範轉移六:告別純文字,迎接 AI 的「圖形化介面」

最後,Karpathy 將目光投向了人機互動的未來。他認為,LLM 是繼 70、80 年代電腦以來的下一個主要計算範式,因此我們將會看到許多類似的創新。

在他看來,目前與 LLM「聊天」的互動方式,就像是 1980 年代在電腦終端機輸入指令。文字是電腦和 LLM 最擅長處理的原始數據格式,但卻不是人類偏好的格式。人類更喜歡透過視覺和空間來消費資訊,這也是傳統計算機發明圖形化使用者介面 (GUI) 的原因。

同理,LLM 也應該用人類偏好的格式與我們對話,例如圖片、資訊圖表、簡報、白板、動畫影片或網頁應用程式。而 Google 的 Gemini Nano Banana,正是這個未來樣貌的早期線索。Karpathy 強調,其重要性不僅在於圖片生成本身,更在於它將文字生成、圖片生成和世界知識這三者緊密結合在模型權重中的綜合能力。

TN科技筆記的觀點

在 Karpathy 提出的所有典範轉移中,我認為最深刻、且最可能被低估的,是第六點所預示的:AI 正在迎來它的「圖形化介面 (GUI) 時刻」。我們可以說,整個世界正處於 AI 的「MS-DOS 時代」,雖然功能強大,但使用門檻依然存在於如何下達精準的「文字咒語」(Prompt)。而 Nano Banana 這類模型的出現,暗示 AI 的「Windows 時代」即將到來。

這為何如此重要?因為它徹底解放了 AI 的普及潛力。人類是視覺動物,我們理解一張圖表的速度遠勝於閱讀一段文字。當 AI 不再只能「說」,而是能夠「畫」、「展示」、「設計」時,它就不再只是一個問答工具,而是成為一個真正的夥伴與知識轉譯者。這個轉變,將會是繼 LLM 賦予普通人程式設計能力之後,更大規模的一次「權力下放」。


支持TN科技筆記,與科技共同前行

我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~~~也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!>>>>> 請我喝一杯咖啡

在此也感謝每個月持續請我喝杯咖啡的讀者以及新加入的讀者們,讓我更加有動力為各位帶來科技新知!

以下是我的 threads 也歡迎追蹤、回覆、轉發喔!

>>>>> TN科技筆記(TechNotes)

留言
avatar-img
TN科技筆記(TechNotes)的沙龍
72會員
242內容數
大家好,我是TN,喜歡分享科技領域相關資訊,希望各位不吝支持與交流!
2025/12/17
解析 NVIDIA 最新的 Nemotron-3 開放模型家族 (Nano, Super, Ultra)。了解其為 AI 代理 (Agentic AI) 設計的混合架構、強化學習訓練,以及前所未有的開放生態系,為何將定義下一個 AI 時代。
Thumbnail
2025/12/17
解析 NVIDIA 最新的 Nemotron-3 開放模型家族 (Nano, Super, Ultra)。了解其為 AI 代理 (Agentic AI) 設計的混合架構、強化學習訓練,以及前所未有的開放生態系,為何將定義下一個 AI 時代。
Thumbnail
2025/12/12
解析 OpenAI 最新模型 GPT-5.2。本文將深入探討其在專業工作、寫程式、抽象推理 (ARC-AGI) 與視覺分析的突破性功能,並提供完整的價格資訊與未來影響分析。
Thumbnail
2025/12/12
解析 OpenAI 最新模型 GPT-5.2。本文將深入探討其在專業工作、寫程式、抽象推理 (ARC-AGI) 與視覺分析的突破性功能,並提供完整的價格資訊與未來影響分析。
Thumbnail
2025/12/11
NVIDIA 推出 CUDA Tile,這是一場 GPU 編程的革命。本文將解析其核心概念、與傳統 SIMT 的差異,以及 cuTile 如何讓 Python 開發者輕鬆駕馭 Tensor Core 的強大效能。
Thumbnail
2025/12/11
NVIDIA 推出 CUDA Tile,這是一場 GPU 編程的革命。本文將解析其核心概念、與傳統 SIMT 的差異,以及 cuTile 如何讓 Python 開發者輕鬆駕馭 Tensor Core 的強大效能。
Thumbnail
看更多
你可能也想看
Thumbnail
加入免費👉Discord群組/TG Channel接收市場要聞、產業動態和更新通知。
Thumbnail
加入免費👉Discord群組/TG Channel接收市場要聞、產業動態和更新通知。
Thumbnail
當前的人工智慧(AI)技術,已不再只是實驗室中的前瞻研究,而是逐漸走入日常,從聊天機器人到圖片生成工具、語音助手、推薦演算法,AI正在改變我們工作的方式、生活的節奏,甚至學習與創作的模式。 在台灣,這場轉變也正在發生中。 最近在方格子上,我也注意到有越來越多格友分享與AI相關的創作與思考。有
Thumbnail
當前的人工智慧(AI)技術,已不再只是實驗室中的前瞻研究,而是逐漸走入日常,從聊天機器人到圖片生成工具、語音助手、推薦演算法,AI正在改變我們工作的方式、生活的節奏,甚至學習與創作的模式。 在台灣,這場轉變也正在發生中。 最近在方格子上,我也注意到有越來越多格友分享與AI相關的創作與思考。有
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
Anthropic、Google AI 技術突破!3D世界與智慧代理再升級 AI應用正深刻影響各行各業,從心理健康法規到技術創新,這些變化不僅重塑市場,也引發倫理與隱私的討論。了解最新趨勢,讓你在AI時代保持競爭力!
Thumbnail
Anthropic、Google AI 技術突破!3D世界與智慧代理再升級 AI應用正深刻影響各行各業,從心理健康法規到技術創新,這些變化不僅重塑市場,也引發倫理與隱私的討論。了解最新趨勢,讓你在AI時代保持競爭力!
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
歡迎體驗《寶寶吉拉科技日報》,為您提供最新的科技突破、趨勢與洞見。本期涵蓋AI進展、社會變遷與創新設備,塑造未來科技新面貌。每篇報導包含摘要、詳細內容及原始連結,並在最後分析未來趨勢。以下為今日精選新聞: OpenAI勁敵Anthropic狠賺 年化營收達30億美元 摘要:被譽為OpenAI最
Thumbnail
歡迎體驗《寶寶吉拉科技日報》,為您提供最新的科技突破、趨勢與洞見。本期涵蓋AI進展、社會變遷與創新設備,塑造未來科技新面貌。每篇報導包含摘要、詳細內容及原始連結,並在最後分析未來趨勢。以下為今日精選新聞: OpenAI勁敵Anthropic狠賺 年化營收達30億美元 摘要:被譽為OpenAI最
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News