突破預訓練瓶頸:推論端擴展定律與 Test-Time Compute 的崛起

更新 發佈閱讀 6 分鐘

前言:從「預訓練規模化」到「推理規模化」

在過去幾年中,AI 社群被一個簡單且強大的真理所驅動:Scaling Laws。從 Chinchilla 到 GPT-4,我們發現增加參數數量 (Parameters) 與預訓練數據量 (Tokens) 能穩定地提升模型性能。然而,隨著高品質數據的枯竭以及訓練成本的指數級增長,單純依賴 Pre-training compute 的邊際效用開始遞減。



現在,一個新的維度被開啟了:Test-Time Compute (TTC)。


核心假設在於:智能不僅僅取決於模型「知道」什麼(權重中儲存的知識),更取決於模型在面對特定問題時能「思考」多久。如果我們允許模型在輸出最終答案前,投入更多的計算資源進行搜索、驗證與自我修正,我們將能突破模型參數規模的物理限制,在推理複雜度極高的任務(如數學證明、程式碼架構設計)中取得突破性進展。


核心機制:如何將計算量轉化為智能?

要實現 Inference-time Scaling,模型必須從單純的 Next-token prediction 轉變為一種 Search-based reasoning 過程。這通常涉及以下三個核心技術支柱:

1. Chain-of-Thought (CoT) 作為計算緩衝區

傳統的 LLM 是「快思考」(System 1),幾乎在瞬間產出答案。而 TTC 的核心是引入「慢思考」(System 2)。透過引導模型生成長長的 Chain-of-Thought,模型實際上是在利用 Token 序列作為一種外部工作記憶 (External Working Memory)。每一個生成的思考步驟都為後續的推論提供了額外的計算路徑,將原本單次的前向傳播 (Forward Pass) 擴展為數千次。

2. 搜索與採樣策略 (Search & Sampling)

單一的 Greedy Decoding 容易陷入局部最佳解。為了規模化推論端計算,研究者引入了更複雜的搜索算法:

• Best-of-N Sampling: 採樣 N 個路徑,利用一個獨立的 Verifier (驗證器) 選出得分最高的一個。

• Monte Carlo Tree Search (MCTS): 將推理過程視為樹狀搜索,透過 Value Function 評估當前狀態,動態地探索最具潛力的思考路徑。

• Beam Search 變體: 在推理路徑中維持多個候選狀態,持續剪枝並優化。

3. 過程獎勵模型 (Process-based Reward Models, PRM)

這是 TTC 能否成功的關鍵。傳統的 Outcome-based Reward Models (ORM) 僅對最終結果給分,這會導致模型在推理過程中產生「幻覺」卻在巧合下得到正確答案。PRM 則對每一個推理步驟進行打分。透過 PRM,模型能夠在推論過程中即時發現錯誤並進行 Self-Correction,將計算資源精準地投入到正確的思考路徑上。

推論端擴展定律 (The Scaling Law of Inference)

最新的研究顯示,推論端計算量與任務準確率之間同樣存在著冪律關係 (Power Law)。



當我們增加 Test-time compute(例如增加採樣路徑 N 或增加 CoT 的長度)時,模型在困難任務上的性能會顯著提升。令人驚訝的是,在某些數學推理任務中,一個較小但賦予充足 TTC 的模型,其表現竟然能超越一個規模大數倍但僅使用單次前向傳播的大模型。



然而,這種擴展並非無限線性。研究發現存在 Overthinking (過度思考) 現象:當計算量超過某個閾值後,模型可能會在瑣碎的細節中循環,甚至將原本正確的推理路徑「修正」為錯誤路徑。因此,如何定義最佳計算預算 (Optimal Compute Budget) 成為當前工程實踐的核心。


戰略意義:AI 的下一階段

TTC 的崛起不僅僅是技術上的優化,它改變了 AI 的經濟模型與演進路徑:

• 成本轉移: 計算壓力從昂貴的、一次性的 Training phase 轉移到靈活的 Inference phase。開發者可以根據任務的難易程度,動態調整 Compute Budget。

• 自我進化 (Self-Improvement): 當模型能夠透過 TTC 找到正確答案後,這些正確的推理路徑可以被重新餵回模型進行 Supervised Fine-Tuning (SFT)。這形成了一個 Search -> Distill -> Train 的閉環,使模型在不增加參數的情況下持續進化。

• 邁向 AGI: 推理能力的規模化是通往 AGI 的必經之路。真正的智能不在於記憶,而在於面對未知問題時的邏輯推演能力。

結語

我們正在進入一個 Compute-optimal 的新時代。如果說預訓練決定了模型的「天賦上限」,那麼 Test-Time Compute 則決定了模型在實戰中能發揮出多少潛能。



從 System 1 到 System 2 的跨越,讓 LLM 不再僅僅是一個機率預測器,而是一個真正的思考者。下一場競賽,將不再僅僅關於誰擁有更多的 GPU 叢集來訓練模型,而將關於誰能最優化地調度推論端的每一分計算量。


留言
avatar-img
iBonnie_愛邦尼
12會員
94內容數
技術分享,如果對你有幫助可以請我喝杯咖啡~
iBonnie_愛邦尼的其他內容
2026/02/10
如果你還在電腦前苦苦思索如何寫出一段完美的「提示詞(Prompt)」,甚至對著 AI 玩「咒語教學」,那麼很遺憾地告訴你:你已經掉隊了。 在 2026 年的今天,矽谷最熱門的話題不再是如何與 AI 「聊天」,而是如何賦予它 「Skill(技能)」。這場革命正悄然發生,它將 AI 從一個只會寫詩、畫
2026/02/10
如果你還在電腦前苦苦思索如何寫出一段完美的「提示詞(Prompt)」,甚至對著 AI 玩「咒語教學」,那麼很遺憾地告訴你:你已經掉隊了。 在 2026 年的今天,矽谷最熱門的話題不再是如何與 AI 「聊天」,而是如何賦予它 「Skill(技能)」。這場革命正悄然發生,它將 AI 從一個只會寫詩、畫
2026/01/13
本文介紹 ASUS Ascent GX10 AI 超級電腦,搭載 NVIDIA GB10 Grace Blackwell 超級晶片,並配備 128GB 統一記憶體。作者因 Mac M3 ULTRA 送修,選擇 GX10 作為替代方案,探討其開箱、硬體規格、遠端 SSH 與 VNC 設定。
Thumbnail
2026/01/13
本文介紹 ASUS Ascent GX10 AI 超級電腦,搭載 NVIDIA GB10 Grace Blackwell 超級晶片,並配備 128GB 統一記憶體。作者因 Mac M3 ULTRA 送修,選擇 GX10 作為替代方案,探討其開箱、硬體規格、遠端 SSH 與 VNC 設定。
Thumbnail
2026/01/07
在 Dify 1.7.2中,製作與發佈 MCP(Model Context Protocol)主要分為兩個方向:「將 Dify 應用發佈為 MCP Server」(讓 Claude/Cursor 呼叫 Dify)以及 「在 Dify 中整合外部 MCP 工具」。 以下是針對 Dify 1.7.2
Thumbnail
2026/01/07
在 Dify 1.7.2中,製作與發佈 MCP(Model Context Protocol)主要分為兩個方向:「將 Dify 應用發佈為 MCP Server」(讓 Claude/Cursor 呼叫 Dify)以及 「在 Dify 中整合外部 MCP 工具」。 以下是針對 Dify 1.7.2
Thumbnail
看更多
你可能也想看
Thumbnail
全新版本的《三便士歌劇》如何不落入「復刻經典」的巢臼,反而利用華麗的秀場視覺,引導觀眾在晚期資本主義的消費愉悅之中,而能驚覺「批判」本身亦可能被收編——而當絞繩升起,這場關於如何生存的黑色遊戲,又將帶領新時代的我們走向何種後現代的自我解構?
Thumbnail
全新版本的《三便士歌劇》如何不落入「復刻經典」的巢臼,反而利用華麗的秀場視覺,引導觀眾在晚期資本主義的消費愉悅之中,而能驚覺「批判」本身亦可能被收編——而當絞繩升起,這場關於如何生存的黑色遊戲,又將帶領新時代的我們走向何種後現代的自我解構?
Thumbnail
學習內容: 了解 LLM 的基本原理(Transformer、Attention 機制) 熟悉 Hugging Face、OpenAI API、LangChain 等工具 探索不同 LLM 模型(GPT、Llama、Claude、Mistral)
Thumbnail
學習內容: 了解 LLM 的基本原理(Transformer、Attention 機制) 熟悉 Hugging Face、OpenAI API、LangChain 等工具 探索不同 LLM 模型(GPT、Llama、Claude、Mistral)
Thumbnail
你是否曾經打開 ChatGPT,輸入問題後卻不確定「該用哪一個模型」?面對 GPT-4o、GPT-4.5、o4-mini、o3 等等眼花撩亂的選項,很多人都感到困惑。Open AI出了一個教學指南,但是英文的。別擔心,我將那篇指南翻成中文,幫你一次搞懂: 各模型的定位、適用情境,以及常見用法範例!
Thumbnail
你是否曾經打開 ChatGPT,輸入問題後卻不確定「該用哪一個模型」?面對 GPT-4o、GPT-4.5、o4-mini、o3 等等眼花撩亂的選項,很多人都感到困惑。Open AI出了一個教學指南,但是英文的。別擔心,我將那篇指南翻成中文,幫你一次搞懂: 各模型的定位、適用情境,以及常見用法範例!
Thumbnail
本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇:帕拉贊諾夫的十段殘篇》,如何以十段殘篇,結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭,探討藝術在儀式消失的現代社會如何承接意義,並展現不羈的自由靈魂。
Thumbnail
本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇:帕拉贊諾夫的十段殘篇》,如何以十段殘篇,結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭,探討藝術在儀式消失的現代社會如何承接意義,並展現不羈的自由靈魂。
Thumbnail
長期以來,西方美學以《維特魯威人》式的幾何比例定義「完美身體」,這種視覺標準無形中成為殖民擴張與種族分類的暴力工具。本文透過分析奈及利亞編舞家庫德斯.奧尼奎庫的舞作《轉轉生》,探討當代非洲舞蹈如何跳脫「標本式」的文化觀看。
Thumbnail
長期以來,西方美學以《維特魯威人》式的幾何比例定義「完美身體」,這種視覺標準無形中成為殖民擴張與種族分類的暴力工具。本文透過分析奈及利亞編舞家庫德斯.奧尼奎庫的舞作《轉轉生》,探討當代非洲舞蹈如何跳脫「標本式」的文化觀看。
Thumbnail
DeepSeek,一家中國AI新創公司,以其低成本、高性能的大型語言模型崛起,挑戰AI晶片軍備競賽。文章比較了DeepSeek V3與其他領先模型(如GPT-4o, Gemini, Claude等)的優勢和應用場景,並展望了邊緣AI技術的未來。
Thumbnail
DeepSeek,一家中國AI新創公司,以其低成本、高性能的大型語言模型崛起,挑戰AI晶片軍備競賽。文章比較了DeepSeek V3與其他領先模型(如GPT-4o, Gemini, Claude等)的優勢和應用場景,並展望了邊緣AI技術的未來。
Thumbnail
學習內容: 了解 Tokenization、Embedding、向量搜索(FAISS、Chroma) 學習如何微調 LLM(LoRA、PEFT) 準備數據集(清理、標註、格式化)
Thumbnail
學習內容: 了解 Tokenization、Embedding、向量搜索(FAISS、Chroma) 學習如何微調 LLM(LoRA、PEFT) 準備數據集(清理、標註、格式化)
Thumbnail
若說易卜生的《玩偶之家》為 19 世紀的女性,開啟了一扇離家的窄門,那麼《海妲.蓋柏樂》展現的便是門後的窒息世界。本篇文章由劇場演員 Amily 執筆,同為熟稔文本的演員,亦是深刻體察制度縫隙的當代女性,此文所看見的不僅僅是崩壞前夕的最後發聲,更是女人被迫置於冷酷的制度之下,步步陷入無以言說的困境。
Thumbnail
若說易卜生的《玩偶之家》為 19 世紀的女性,開啟了一扇離家的窄門,那麼《海妲.蓋柏樂》展現的便是門後的窒息世界。本篇文章由劇場演員 Amily 執筆,同為熟稔文本的演員,亦是深刻體察制度縫隙的當代女性,此文所看見的不僅僅是崩壞前夕的最後發聲,更是女人被迫置於冷酷的制度之下,步步陷入無以言說的困境。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News