AI 之心 2：LLM 如何生成回應

2026/05/04 更新2026/05/04 發佈閱讀 10 分鐘

AI 之心介紹了 LLM 理解人類語言的過程。那麼 AI 是如何產生語言的？看完本文，你就會知道為什麼我們說，大型語言模型本質上是文字接龍－－因為真的是接龍接出來的。

AI 之心描述的是大語言模型當中，BERT 類的 Encoder 模型：模型吃進一段文字，輸出一個分類結果；它雙向閱讀整句話，目的是「理解」。

我們現在更常看到的對話型 AI，例如 Claude、Gemini、Grok、ChatGPT 等，使用的是 Decoder 架構。Decoder 也有同樣的 Tokenizer、Embedding、Attention 機制，但它輸出的不是一個分類結果，而是下一個最可能的 token。而這個新的 token 會成為輸入的一部分，重複整個過程——這就是我們在對話介面上看到文字逐漸出現的原因。

一、Encoder vs Decoder 的差異

AI 之心一文描述的是 BERT 類的模型，這種模型雙向閱讀整句話，目的是「理解」。對話型 AI 的架構是 Decoder，單向，只能看到當前 token 之前的內容，目的是「預測下一個」。

BERT（Encoder）：

← 同時看所有方向 →

「它很累所以沒有過馬路」

輸出：模型對整個輸入內容的「理解」。

GPT/Claude（Decoder）：

← 看前面已經存在的內容

「它很累所以沒有」→ 下一個是什麼？

「它很累所以沒有過」→ 下一個是什麼？

「它很累所以沒有過馬」→ 下一個是什麼？

輸出：下一個字應該是什麼？

這個「只能往前看」就是生成的基礎；在生成下一個詞的時候，下一個詞還不存在。

二、自迴歸生成（Autoregressive Generation）

如果你與 LLM 對話時，送出內容後仔細觀察，會發現 LLM 的回應並不是一整段出，而是逐字出現的。這就是 Decoder 模型產生內容的方式：根據目前的輸入（包括剛才的輸出），持續產生下一個詞，這就是為什麼說，大語言模型的本質是文字接龍。

「自迴歸」的意思是：輸出成為下一次的輸入。模型吃自己生成的東西繼續生成。每次 Decoder 模型生成一個 token，後就會完整執行下列過程：

[對話歷史到目前為止的所有 token]

↓ Transformer + Attention

每個 token 的 Hidden States

↓ Head（Language Model Head）

Logits（字典裡每個 token 的分數，可能是 5 萬個數字）

↓ SoftMax

機率分布

↓ Sampling（抽樣）

選出一個 token

↓ 加進對話歷史

重複整個過程

自迴歸生成這個運作方式，有時候會為使用者帶來困擾。不知道你有沒有這樣的經驗：大語言模型把它自己的推論，說成是你的見解。因為對 Decoder 來說，整個 context window 是一條連續的 token 序列，沒有『你說的』和『我說的』的邊界標記，只有先後順序。整個對話的歷史都是輸入；包括模型對你的回應在內。而你是使用者，模型會將對話當中的觀點歸功給你。

三、Temperature——控制「選擇」的方式

在 SoftMax 產生機率分布之後，Sampling 會選出下一個 token。如果要影響選出的 token，就要影響 SoftMax 產生的機率。這個有影響力的參數叫做 Temperature（溫度）。Temperature 直接作用在 Logits 上——把每個 Logit 除以 Temperature 的值，再送進 SoftMax。Temperature 越低，Logits 之間的差距被放大，高分的更高；Temperature 越高，差距被壓縮，機率分布變得更平均。

Temperature = 1（預設）

「好」：40%

「的」：25%

「嗎」：15%

其他：20%

按照這個機率隨機選——「好」最常被選，但不是每次都選。

Temperature → 0（接近零）

「好」：99.9%

其他：0.01%

Temperature 接近零，就幾乎永遠會選機率最高的那個。輸出保守、可預測、重複。

Temperature 高（比如 1.5）

「好」：30%

「的」：25%

「嗎」：20%

其他：25%

Temperature 提高，低機率的 token 也有更多機會被選。這使得輸出的變化增加了，可能更有創意，也可能產生奇怪的結果。這就是為什麼我們用同一句話問大語言模型兩次，答案會不完全一樣——每次 sampling 的結果都略有不同。

Ari Holtzman 等人 2019的論文 "The Curious Case of Neural Text Degeneration" 系統性地分析了不同 sampling 策略的效果。這篇論文提出的 nucleus sampling（top-p），只從機率加總達到門檻 p 的 token 裡抽樣，是現在最常用的 sampling 策略之一。

四、從「預測下一個詞」到「有用的助理」

一個純粹的 Decoder 模型只會預測訓練資料裡下一個最可能出現的 token。我們輸入「今天天氣」，它可能輸出「今天天氣預報說明日將有」——因為這是網路文章裡統計上最常接的東西。但這樣不是一個有用的對話助理。

讓它變成對話助理，需要三個額外的訓練階段，這套方法叫做人類回饋強化學習 RLHF（Reinforcement Learning from Human Feedback）。

RLHF 三個階段

階段一：Supervised Fine-tuning（SFT）

收集大量「問題-回答」對，由人工撰寫高品質的回答，用這些資料微調模型。

問：台灣的首都是哪裡？

答：台灣的首都是台北。

模型開始學會「問答」的格式，而不只是「接龍」。

階段二：訓練 Reward Model（獎勵模型）

給模型同一個問題，生成幾個不同的回答，讓人類評分員排序：哪個回答最好？

這些排序資料被用來訓練一個獨立的獎勵模型——它學會預測「人類會給這個回答幾分」。

階段三：PPO（強化學習）

用獎勵模型當作「裁判」，持續調整語言模型的權重：

語言模型生成回答

↓

獎勵模型評分

↓

PPO 演算法：往高分方向調整權重

↓

語言模型下次生成更好的回答

這個循環跑很多次，模型學會生成「人類評分員會給高分」的回答。

Ouyang 等人 2022 的論文 "Training language models to follow instructions with human feedback"，是 InstructGPT 的論文，RLHF 方法的核心參考文獻。OpenAI 的 GPT 系列、Anthropic 的 Claude 都是從這個框架發展出來的。

五、System Prompt：使用者看不到的第一層輸入

每次我們與 LLM 對話，context window 裡最前面有一段使用者看不到的文字，是 AI 開發公司放進去的，告訴 LLM：

你是什麼模型，由哪個組織製造
你的價值觀和行為原則
這次對話的特定規則

也就是說，AI 開發商的規則直接放在輸入端；每次模型在 Attention 計算時，先看到的都是 System Prompt 的每個 token。

完整流程

[System Prompt（我們看不到）]

[對話歷史]

[我們的輸入]

↓ Tokenizer

Token ID 矩陣

↓ Embedding

高維向量

↓ Transformer + Attention（單向，只看前面）

Hidden States

↓ Language Model Head

Logits（5萬個候選 token 的分數）

↓ Temperature 調整

↓ SoftMax

機率分布

↓ Sampling

選出一個 token → 顯示在你螢幕上

↓ 加進輸入，重複

下一個 token...

AI 如何與我們對話

以 Decoder 模型構成的對話式 LLM，會把整個對話歷史當作輸入，用 Temperature 調整輸出的多樣性，輸出的 token 又成為對話歷史的一部分，如此周而復始。

也就是說，大語言模型產生的回應，是整個對話歷史的回聲。這個回聲被 AI 開發商的 System Prompt 與 RLHF 訓練時人類評分員的決策所影響；但影響最大的，依然是我們使用者的輸入。

所以駕馭 AI 的第一步，就是駕馭我們的輸入。

Royal ClubAI strategy AI 應用策略

留言

Royal Club

3會員

25內容數

探討敘事邏輯的威力與邊界。

Royal Club的其他內容

2026/03/30

AI 之心——LLM 如何理解自然語言

大型語言模型 LLM 是如何讀懂我們的？對機器來說，人類的語言要如何理解？AI真的知道它在說什麼嗎？

2026/03/30

AI 之心——LLM 如何理解自然語言

大型語言模型 LLM 是如何讀懂我們的？對機器來說，人類的語言要如何理解？AI真的知道它在說什麼嗎？

2025/12/03

AI 是一把鏟子

我認為人是訊息的動物，天生喜歡收集與傳播訊息。有一個術語叫做 Data Mining，資料探勘，就是一種訊息的淘金工作：在散亂複雜的訊息當中，找到對我們來說有價值的資訊。而我們的工作，尤其是所謂的白領工作，主要內容就是在處理訊息。

2025/12/03

AI 是一把鏟子

2025/11/30

AI 發展的敘事邏輯

今年七月，我跟指導教授在土城開 AI 結合 ESG 的課；我們負責 ESG，AI 的課由資訊顧問公司的專家負責。開課單位發現我有 iPAS AI 應用規劃師的證照，她們問我能不能開 AI 的課。在溝通的過程中，我發現她們想開的是那種「教你用各種 AI 應用工具」的課。

2025/11/30

#AI 的其他內容

《穿著Prada的惡魔2》(The Devil Wears Prada 2) - 致我們這群過時的人

方格子 vocus 官方沙龍

2026 年 5 月 iPAS 考試倒數一個月🔥vocus 助你一臂之力，購買指定備考數位商品抽訂單全免 🎯

你可能也想看

阿Han的沙龍

【LLM大型語言模型】淺談生成式AI的一些困境

雖然ChatGPT這種基於大型語言模型(LLM)的助手，在大部分的場景都能滿足我們的需求，但也並非完美，在使用時仍需注意一些隱患。以下是LLM的一些缺陷及需要注意的點。弱弱的數學造成明顯錯誤過份樂觀帶來錯誤資訊相信常常使用ChatGPT的朋友應該都有發現到，不論我們怎麼提問， Cha

#ChatGPT#生成式AI#AI

2023/06/30

阿Han的沙龍

【LLM大型語言模型】淺談生成式AI的一些困境

#ChatGPT#生成式AI#AI

2023/06/30

釀電影，啜一口電影的美好。

往霧的更深處去──從《白色說書人》看轉型正義，與白色恐怖影視文本

見諸參與鄧伯宸口述，鄧湘庭於〈那個大霧的時代〉記述父親回憶，鄧伯宸因故遭受牽連，而案件核心的三人，在鄧伯宸記憶裡：「成立了成大共產黨，他們製作了五星徽章，印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單，以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿，另外還有手槍子彈十發。」

#釀電影#釀藝評#藝術評論

2026/05/07

釀電影，啜一口電影的美好。

往霧的更深處去──從《白色說書人》看轉型正義，與白色恐怖影視文本

#釀電影#釀藝評#藝術評論

2026/05/07

Karen的沙龍

將RAG與Semantic Search融入LLM：提升準確性與效率

前言前幾篇分享了 IBM Watsonx.ai 平台，以及在平台上使用 LLM 完成客戶體驗分析、與LLM串連處理較複雜的問題。在這一篇中，我們想來嘗試使用檢索增強生成（RAG）的技術，RAG 通過整合外部數據來增強基礎模型的回答能力，這不僅能解決模型訓練數據的局限性問題，還可以提供更精準和相關

#LLM#RAG#huggingface

2023/12/18

Karen的沙龍

將RAG與Semantic Search融入LLM：提升準確性與效率

#LLM#RAG#huggingface

2023/12/18

光淺JY的沙龍

你以為AI會「聽」？別再誤會了！AI聽你說話其實是這樣運作的

音檔並非直接被大語言模型處理，而是先被轉換成文字，再被轉換成模型可理解的Token。本文探討音檔大小與Token數的關係，說明音檔容量與Token數並非直接相關，影響Token數的是轉換後的文字數量。

#生成式AI#AI#AI工具

2025/05/02

光淺JY的沙龍

你以為AI會「聽」？別再誤會了！AI聽你說話其實是這樣運作的

#生成式AI#AI#AI工具

2025/05/02

Karen的沙龍

LLM 串連：利用不同模型的優勢完成更複雜和多樣的任務

前言在先前的文章中，我們探討了 IBM Watsonx 在客戶滿意度分析中的應用。今天，我們將利用 Google 的兩款大型語言模型（LLM）— flan-ul2 和 flan-t5-xxl，展示它們如何串聯起來生成關於特定主題的隨機問題和回答。在這篇文章中，將使用 SimpleSequen

#模型#LLM#IBM

2023/12/18

Karen的沙龍

LLM 串連：利用不同模型的優勢完成更複雜和多樣的任務

#模型#LLM#IBM

2023/12/18

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：流動、跨域、變形的「生存之道」

當代名導基里爾．賽勒布倫尼科夫身兼電影、劇場與歌劇導演，其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後，他持續以創作回應專制體制的壓迫。《傳奇：帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析，解構賽勒布倫尼科夫如何利用影劇雙棲的特質，在荒謬世道中尋找藝術的「生存之道」。

#釀電影#釀評論#藝術評論

2026/02/28