LLM 為什麼突然開竅了？從「不能用」到「很好用」的轉變

2025/08/18 更新2025/08/18 發佈閱讀 6 分鐘

近幾年來社群媒體、報章雜誌等各處都標榜著運用 AI 或是與 LLM 有關的報導與文章，也許大部分的人聽過甚至用過 ChatGPT ，也可能看過 DeepSeek 的崛起影響了世界等等的報導，但有沒有想過它們到底為什麼突然能派上用場？從早期只能補字的小模型，到如今能進行翻譯、推理甚至聊天，這篇針對「湧現能力」與「上下文學習」來說明LLM 從「不能用」到「很好用」的轉變。

LLM 的定義

大型語言模型（Large Language Model, LLM）顧名思義就是相比傳統語言模型來說具有更多的參數量（運算需求更高），更大規模的訓練資料（訓練成本更高）；這樣的說明好像解釋了卻也沒解釋一樣，尤其隨著硬體與學術領域新的方法與技術的創新（如前幾篇篇介紹的合成數據等）"大型語言模型"也可以很小，所以到底什麼是 LLM?

湧現能力（Emergent Abilities）

早在 2022年時就有研究（Emergent Abilities of Large Language Models）發現當模型在參數量、訓練資料或計算資源達到某臨界點後，會突然出現且可被穩定觀測到的能力，如之前介紹到的零樣本 / 少樣本學習（Zero-shot、Few-shot Learning）、鏈式思考推理（Chain-of-Thought Reasoning）、多語言翻譯等。這種「能力跳躍」被視為區分傳統預訓練語言模型（PLM）與現代 LLM 的重要標誌，也是為什麼 LLM 突然可以用了。

小狗階段（小模型）

你新養的小狗，只會做最基本的事像是吃喝拉撒睡等（小的語言模型，只會做簡單任務如補幾個字、回答很短的問題）

小狗長大了一點（開始訓練）

當小狗長大了一些後你開始訓練牠，漸漸地學會了「起立」「坐下」「握手」等指令（模型變大，開始能做翻譯、寫小故事這種進階工作）

貼心的夥伴（突然開竅）

當狗再繼續長大，但你沒有特別教牠，卻突然發現牠聽得懂你說的話，甚至能分辨你今天心情好不好（突然會一些你沒特別教的技能「湧現能力」）

上下文學習（In-Context Learning, ICL）

在過去想要讓傳統語言模型獲得一些能力需要透過額外的監督式微調（Supervised Fine-Tuning, SFT）才能獲得，但進行 SFT 很昂貴因為需要人工標註這些訓練資料，且微調時又需要更多額外的運算資源與時間，且每次遇到新的任務時都要再重頭來過。

而上下文學習（In-Context Learning）第一次在 GPT-3 的《Language Models are Few-Shot Learners》此篇中所提出，研究人員發現當 LLM 訓練到一定規模後，會「突然出現」一種能力，只要在 Prompt 中提供幾個範例，並保持前後格式一致，模型就能自己產生正確答案，最重要的是此格式不需要嚴格設計，只要一致即可。

假設你要設計一個客服機器人，希望他能自動回答顧客的問題。

給範例（依據：顧客 - 機器人的格式）:
------------------------------------------------
顧客：這個布偶多少錢？
機器人：布偶 300 元。
顧客：這輛汽車多少錢？
機器人：汽車 200 元。

現在顧客詢問一個新問題

顧客：這隻洋娃娃多少錢？

機器人可以自動照剛剛的規則回答

機器人：「洋娃娃 250 元。」

但 ICL 其實只是一種被觀察到的現象，是什麼原因導致 LLM 具備 ICL 能力，目前也沒有一個比較好的解釋，但此 Prompt 技巧（之前其實也有簡單提到過）卻被廣泛運用到許多領域，像是客服機器人或是一些醫療或法律的查詢聊天室，這也是為什麼後來 Prompt Engineering 甚至現在的 Context Engineering 這麼受歡迎且成功的原因，細節可以參考我的《Context Engineering 前世今生》系列文章。

LLM 從不能用到可以用的轉變

其實從 LLM 的發展歷史可以看到（下圖來自《A Survey of Large Language Models》），大家所孰知的模型如 OpenAI 的 ChatGPT 系列，或是在程式領域大放異彩的 Anthropic 的 Claude 系列。

語言模型的發展歷程（任務解決能力）

從傳統 PLM 演進成現在的 LLM 最大的分界就是語言模型的任務解決能力（Task Solveing），而今天所介紹的 湧現能力（Emergent Abilities）與上下文學習（In-Context Learning, ICL）正是讓語言模型變聽話（能依據使用者的需求正確的解決任務）的重要轉捩點，但要注意的是這兩個「突然」出現的能力到底是怎麼產生的，仍然存在討論，但這也不正是 LLM 的魅力所在嗎?

但讓 LLM 變得能用還不夠，LLM 是如何變得聰明甚至接近所謂 AGI 的可能，這就要留到下次我們再接著討論大型語言模型的「指令遵循（Instruction Following）」與「逐步推理（Step by Step Reasoning）」能力吧

留言

AI 工程師的 LLM 筆記

0會員

14內容數

聊一聊提示工程、模型調校與優化技巧，同時分享一路走來的挑戰與突破，作為提醒未來的自己：別忘初心，走得更踏實。

AI 工程師的 LLM 筆記的其他內容

2025/08/06

ArmoRM-Llama3-8B-v0.1：多面向LLM評估模型與使用教學

ArmoRM-Llama3-8B-v0.1 模型，能從多個面向（誠實性、詳盡度、安全性等）評估LLM生成的文本。包含架構說明、評分方式、輸入(Prompt, Response, messages)、輸出(19項評估，包含HelpSteer dataset的五種評估)以及使用範例。

2025/08/06

ArmoRM-Llama3-8B-v0.1：多面向LLM評估模型與使用教學

2025/08/06

合成資料的隱私保護，針對品質三面向評估框架：SynEval

採用 SynEval 工具，從「隱私保護（Privacy preservation）」出發，同時兼顧「保真度（Fidelity）」與「實用性（Utility）」，確保在支持下游任務的前提下，不洩露敏感資訊。利用TSTR框架和MAE、準確率等指標評估實用性，透過推斷攻擊評估隱私保護效果。

2025/08/06

合成資料的隱私保護，針對品質三面向評估框架：SynEval

2025/07/30

合成資料生成流程大解密：深入解析 Nemotron‑4 340B 背後的 "資料生產線"

延續上篇所介紹的 Nemotron-4 340B Technical Report 細說合成資料集的流程，可以依據需要使用其中的步驟（流程），建置自己的合成資料生產線，最後附上範例 Prompt

2025/07/30

合成資料生成流程大解密：深入解析 Nemotron‑4 340B 背後的 "資料生產線"

#方格新手的其他內容

你可能也想看

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11