前言:從「預訓練規模化」到「推理規模化」
在過去幾年中,AI 社群被一個簡單且強大的真理所驅動:Scaling Laws。從 Chinchilla 到 GPT-4,我們發現增加參數數量 (Parameters) 與預訓練數據量 (Tokens) 能穩定地提升模型性能。然而,隨著高品質數據的枯竭以及訓練成本的指數級增長,單純依賴 Pre-training compute 的邊際效用開始遞減。現在,一個新的維度被開啟了:Test-Time Compute (TTC)。
核心假設在於:智能不僅僅取決於模型「知道」什麼(權重中儲存的知識),更取決於模型在面對特定問題時能「思考」多久。如果我們允許模型在輸出最終答案前,投入更多的計算資源進行搜索、驗證與自我修正,我們將能突破模型參數規模的物理限制,在推理複雜度極高的任務(如數學證明、程式碼架構設計)中取得突破性進展。
核心機制:如何將計算量轉化為智能?
要實現 Inference-time Scaling,模型必須從單純的 Next-token prediction 轉變為一種 Search-based reasoning 過程。這通常涉及以下三個核心技術支柱:
1. Chain-of-Thought (CoT) 作為計算緩衝區
傳統的 LLM 是「快思考」(System 1),幾乎在瞬間產出答案。而 TTC 的核心是引入「慢思考」(System 2)。透過引導模型生成長長的 Chain-of-Thought,模型實際上是在利用 Token 序列作為一種外部工作記憶 (External Working Memory)。每一個生成的思考步驟都為後續的推論提供了額外的計算路徑,將原本單次的前向傳播 (Forward Pass) 擴展為數千次。
2. 搜索與採樣策略 (Search & Sampling)
單一的 Greedy Decoding 容易陷入局部最佳解。為了規模化推論端計算,研究者引入了更複雜的搜索算法:
• Best-of-N Sampling: 採樣 N 個路徑,利用一個獨立的 Verifier (驗證器) 選出得分最高的一個。
• Monte Carlo Tree Search (MCTS): 將推理過程視為樹狀搜索,透過 Value Function 評估當前狀態,動態地探索最具潛力的思考路徑。
• Beam Search 變體: 在推理路徑中維持多個候選狀態,持續剪枝並優化。
3. 過程獎勵模型 (Process-based Reward Models, PRM)
這是 TTC 能否成功的關鍵。傳統的 Outcome-based Reward Models (ORM) 僅對最終結果給分,這會導致模型在推理過程中產生「幻覺」卻在巧合下得到正確答案。PRM 則對每一個推理步驟進行打分。透過 PRM,模型能夠在推論過程中即時發現錯誤並進行 Self-Correction,將計算資源精準地投入到正確的思考路徑上。
推論端擴展定律 (The Scaling Law of Inference)
最新的研究顯示,推論端計算量與任務準確率之間同樣存在著冪律關係 (Power Law)。
當我們增加 Test-time compute(例如增加採樣路徑 N 或增加 CoT 的長度)時,模型在困難任務上的性能會顯著提升。令人驚訝的是,在某些數學推理任務中,一個較小但賦予充足 TTC 的模型,其表現竟然能超越一個規模大數倍但僅使用單次前向傳播的大模型。
然而,這種擴展並非無限線性。研究發現存在 Overthinking (過度思考) 現象:當計算量超過某個閾值後,模型可能會在瑣碎的細節中循環,甚至將原本正確的推理路徑「修正」為錯誤路徑。因此,如何定義最佳計算預算 (Optimal Compute Budget) 成為當前工程實踐的核心。
戰略意義:AI 的下一階段
TTC 的崛起不僅僅是技術上的優化,它改變了 AI 的經濟模型與演進路徑:
• 成本轉移: 計算壓力從昂貴的、一次性的 Training phase 轉移到靈活的 Inference phase。開發者可以根據任務的難易程度,動態調整 Compute Budget。
• 自我進化 (Self-Improvement): 當模型能夠透過 TTC 找到正確答案後,這些正確的推理路徑可以被重新餵回模型進行 Supervised Fine-Tuning (SFT)。這形成了一個 Search -> Distill -> Train 的閉環,使模型在不增加參數的情況下持續進化。
• 邁向 AGI: 推理能力的規模化是通往 AGI 的必經之路。真正的智能不在於記憶,而在於面對未知問題時的邏輯推演能力。
結語
我們正在進入一個 Compute-optimal 的新時代。如果說預訓練決定了模型的「天賦上限」,那麼 Test-Time Compute 則決定了模型在實戰中能發揮出多少潛能。
從 System 1 到 System 2 的跨越,讓 LLM 不再僅僅是一個機率預測器,而是一個真正的思考者。下一場競賽,將不再僅僅關於誰擁有更多的 GPU 叢集來訓練模型,而將關於誰能最優化地調度推論端的每一分計算量。











