AI 之心 2:LLM 如何生成回應

更新 發佈閱讀 10 分鐘



AI 之心介紹了 LLM 理解人類語言的過程。那麼 AI 是如何產生語言的?看完本文,你就會知道為什麼我們說,大型語言模型本質上是文字接龍--因為真的是接龍接出來的。



AI 之心描述的是大語言模型當中,BERT 類的 Encoder 模型:模型吃進一段文字,輸出一個分類結果;它雙向閱讀整句話,目的是「理解」。

我們現在更常看到的對話型 AI,例如 Claude、Gemini、Grok、ChatGPT 等,使用的是 Decoder 架構。Decoder 也有同樣的 Tokenizer、Embedding、Attention 機制,但它輸出的不是一個分類結果,而是下一個最可能的 token。而這個新的 token 會成為輸入的一部分,重複整個過程——這就是我們在對話介面上看到文字逐漸出現的原因。


一、Encoder vs Decoder 的差異

AI 之心一文描述的是 BERT 類的模型,這種模型雙向閱讀整句話,目的是「理解」。對話型 AI 的架構是 Decoder,單向,只能看到當前 token 之前的內容,目的是「預測下一個」。


BERT(Encoder):

← 同時看所有方向 →

「它很累所以沒有過馬路」

輸出:模型對整個輸入內容的「理解」。


GPT/Claude(Decoder):

← 看前面已經存在的內容

「它很累所以沒有」→ 下一個是什麼?

「它很累所以沒有過」→ 下一個是什麼?

「它很累所以沒有過馬」→ 下一個是什麼?

輸出:下一個字應該是什麼?


這個「只能往前看」就是生成的基礎;在生成下一個詞的時候,下一個詞還不存在。


二、自迴歸生成(Autoregressive Generation)

如果你與 LLM 對話時,送出內容後仔細觀察,會發現 LLM 的回應並不是一整段出,而是逐字出現的。這就是 Decoder 模型產生內容的方式:根據目前的輸入(包括剛才的輸出),持續產生下一個詞,這就是為什麼說,大語言模型的本質是文字接龍。

「自迴歸」的意思是:輸出成為下一次的輸入。模型吃自己生成的東西繼續生成。每次 Decoder 模型生成一個 token,後就會完整執行下列過程:


[對話歷史到目前為止的所有 token]

  ↓ Transformer + Attention

每個 token 的 Hidden States

  ↓ Head(Language Model Head)

Logits(字典裡每個 token 的分數,可能是 5 萬個數字)

  ↓ SoftMax

機率分布

  ↓ Sampling(抽樣)

選出一個 token

  ↓ 加進對話歷史

重複整個過程


自迴歸生成這個運作方式,有時候會為使用者帶來困擾。不知道你有沒有這樣的經驗:大語言模型把它自己的推論,說成是你的見解。因為對 Decoder 來說,整個 context window 是一條連續的 token 序列,沒有『你說的』和『我說的』的邊界標記,只有先後順序。整個對話的歷史都是輸入;包括模型對你的回應在內。而你是使用者,模型會將對話當中的觀點歸功給你。


三、Temperature——控制「選擇」的方式

在 SoftMax 產生機率分布之後,Sampling 會選出下一個 token。如果要影響選出的 token,就要影響 SoftMax 產生的機率。這個有影響力的參數叫做 Temperature(溫度)。Temperature 直接作用在 Logits 上——把每個 Logit 除以 Temperature 的值,再送進 SoftMax。Temperature 越低,Logits 之間的差距被放大,高分的更高;Temperature 越高,差距被壓縮,機率分布變得更平均。


Temperature = 1(預設)

「好」:40%

「的」:25%

「嗎」:15%

其他:20%

按照這個機率隨機選——「好」最常被選,但不是每次都選。


Temperature → 0(接近零)

「好」:99.9%

其他:0.01%

Temperature 接近零,就幾乎永遠會選機率最高的那個。輸出保守、可預測、重複。


Temperature 高(比如 1.5)

「好」:30%

「的」:25%

「嗎」:20%

其他:25%


Temperature 提高,低機率的 token 也有更多機會被選。這使得輸出的變化增加了,可能更有創意,也可能產生奇怪的結果。這就是為什麼我們用同一句話問大語言模型兩次,答案會不完全一樣——每次 sampling 的結果都略有不同。

Ari Holtzman 等人 2019的論文 "The Curious Case of Neural Text Degeneration" 系統性地分析了不同 sampling 策略的效果。這篇論文提出的 nucleus sampling(top-p),只從機率加總達到門檻 p 的 token 裡抽樣,是現在最常用的 sampling 策略之一。


四、從「預測下一個詞」到「有用的助理」

一個純粹的 Decoder 模型只會預測訓練資料裡下一個最可能出現的 token。我們輸入「今天天氣」,它可能輸出「今天天氣預報說明日將有」——因為這是網路文章裡統計上最常接的東西。但這樣不是一個有用的對話助理。

讓它變成對話助理,需要三個額外的訓練階段,這套方法叫做人類回饋強化學習 RLHF(Reinforcement Learning from Human Feedback)


RLHF 三個階段

階段一:Supervised Fine-tuning(SFT)

收集大量「問題-回答」對,由人工撰寫高品質的回答,用這些資料微調模型。


問:台灣的首都是哪裡?

答:台灣的首都是台北。


模型開始學會「問答」的格式,而不只是「接龍」。


階段二:訓練 Reward Model(獎勵模型)

給模型同一個問題,生成幾個不同的回答,讓人類評分員排序:哪個回答最好?

這些排序資料被用來訓練一個獨立的獎勵模型——它學會預測「人類會給這個回答幾分」。


階段三:PPO(強化學習)

用獎勵模型當作「裁判」,持續調整語言模型的權重:


語言模型生成回答

  ↓

獎勵模型評分

  ↓

PPO 演算法:往高分方向調整權重

  ↓

語言模型下次生成更好的回答


這個循環跑很多次,模型學會生成「人類評分員會給高分」的回答。

Ouyang 等人 2022 的論文 "Training language models to follow instructions with human feedback",是 InstructGPT 的論文,RLHF 方法的核心參考文獻。OpenAI 的 GPT 系列、Anthropic 的 Claude 都是從這個框架發展出來的。


五、System Prompt:使用者看不到的第一層輸入

每次我們與 LLM 對話,context window 裡最前面有一段使用者看不到的文字,是 AI 開發公司放進去的,告訴 LLM:

  • 你是什麼模型,由哪個組織製造
  • 你的價值觀和行為原則
  • 這次對話的特定規則


也就是說,AI 開發商的規則直接放在輸入端;每次模型在 Attention 計算時,先看到的都是 System Prompt 的每個 token。


完整流程

[System Prompt(我們看不到)]

[對話歷史]

[我們的輸入]

  ↓ Tokenizer

Token ID 矩陣

  ↓ Embedding

高維向量

  ↓ Transformer + Attention(單向,只看前面)

Hidden States

  ↓ Language Model Head

Logits(5萬個候選 token 的分數)

  ↓ Temperature 調整

  ↓ SoftMax

機率分布

  ↓ Sampling

選出一個 token → 顯示在你螢幕上

  ↓ 加進輸入,重複

下一個 token...


AI 如何與我們對話

以 Decoder 模型構成的對話式 LLM,會把整個對話歷史當作輸入,用 Temperature 調整輸出的多樣性,輸出的 token 又成為對話歷史的一部分,如此周而復始。

也就是說,大語言模型產生的回應,是整個對話歷史的回聲。這個回聲被 AI 開發商的 System Prompt 與 RLHF 訓練時人類評分員的決策所影響;但影響最大的,依然是我們使用者的輸入。

所以駕馭 AI 的第一步,就是駕馭我們的輸入

留言
avatar-img
Royal Club
3會員
25內容數
探討敘事邏輯的威力與邊界。
Royal Club的其他內容
2026/03/30
大型語言模型 LLM 是如何讀懂我們的?對機器來說,人類的語言要如何理解?AI真的知道它在說什麼嗎?
2026/03/30
大型語言模型 LLM 是如何讀懂我們的?對機器來說,人類的語言要如何理解?AI真的知道它在說什麼嗎?
2025/12/03
我認為人是訊息的動物,天生喜歡收集與傳播訊息。有一個術語叫做 Data Mining,資料探勘,就是一種訊息的淘金工作:在散亂複雜的訊息當中,找到對我們來說有價值的資訊。 而我們的工作,尤其是所謂的白領工作,主要內容就是在處理訊息。
2025/12/03
我認為人是訊息的動物,天生喜歡收集與傳播訊息。有一個術語叫做 Data Mining,資料探勘,就是一種訊息的淘金工作:在散亂複雜的訊息當中,找到對我們來說有價值的資訊。 而我們的工作,尤其是所謂的白領工作,主要內容就是在處理訊息。
2025/11/30
今年七月,我跟指導教授在土城開 AI 結合 ESG 的課;我們負責 ESG,AI 的課由資訊顧問公司的專家負責。開課單位發現我有 iPAS AI 應用規劃師的證照,她們問我能不能開 AI 的課。在溝通的過程中,我發現她們想開的是那種「教你用各種 AI 應用工具」的課。
Thumbnail
2025/11/30
今年七月,我跟指導教授在土城開 AI 結合 ESG 的課;我們負責 ESG,AI 的課由資訊顧問公司的專家負責。開課單位發現我有 iPAS AI 應用規劃師的證照,她們問我能不能開 AI 的課。在溝通的過程中,我發現她們想開的是那種「教你用各種 AI 應用工具」的課。
Thumbnail
看更多
你可能也想看
Thumbnail
雖然ChatGPT這種基於大型語言模型(LLM)的助手, 在大部分的場景都能滿足我們的需求, 但也並非完美, 在使用時仍需注意一些隱患。 以下是LLM的一些缺陷及需要注意的點。 弱弱的數學造成明顯錯誤 過份樂觀帶來錯誤資訊 相信常常使用ChatGPT的朋友應該都有發現到, 不論我們怎麼提問, Cha
Thumbnail
雖然ChatGPT這種基於大型語言模型(LLM)的助手, 在大部分的場景都能滿足我們的需求, 但也並非完美, 在使用時仍需注意一些隱患。 以下是LLM的一些缺陷及需要注意的點。 弱弱的數學造成明顯錯誤 過份樂觀帶來錯誤資訊 相信常常使用ChatGPT的朋友應該都有發現到, 不論我們怎麼提問, Cha
Thumbnail
見諸參與鄧伯宸口述,鄧湘庭於〈那個大霧的時代〉記述父親回憶,鄧伯宸因故遭受牽連,而案件核心的三人,在鄧伯宸記憶裡:「成立了成大共產黨,他們製作了五星徽章,印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單,以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿,另外還有手槍子彈十發。」
Thumbnail
見諸參與鄧伯宸口述,鄧湘庭於〈那個大霧的時代〉記述父親回憶,鄧伯宸因故遭受牽連,而案件核心的三人,在鄧伯宸記憶裡:「成立了成大共產黨,他們製作了五星徽章,印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單,以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿,另外還有手槍子彈十發。」
Thumbnail
前言 前幾篇分享了 IBM Watsonx.ai 平台,以及在平台上使用 LLM 完成客戶體驗分析、與LLM串連處理較複雜的問題。在這一篇中,我們想來嘗試使用檢索增強生成(RAG)的技術,RAG 通過整合外部數據來增強基礎模型的回答能力,這不僅能解決模型訓練數據的局限性問題,還可以提供更精準和相關
Thumbnail
前言 前幾篇分享了 IBM Watsonx.ai 平台,以及在平台上使用 LLM 完成客戶體驗分析、與LLM串連處理較複雜的問題。在這一篇中,我們想來嘗試使用檢索增強生成(RAG)的技術,RAG 通過整合外部數據來增強基礎模型的回答能力,這不僅能解決模型訓練數據的局限性問題,還可以提供更精準和相關
Thumbnail
音檔並非直接被大語言模型處理,而是先被轉換成文字,再被轉換成模型可理解的Token。本文探討音檔大小與Token數的關係,說明音檔容量與Token數並非直接相關,影響Token數的是轉換後的文字數量。
Thumbnail
音檔並非直接被大語言模型處理,而是先被轉換成文字,再被轉換成模型可理解的Token。本文探討音檔大小與Token數的關係,說明音檔容量與Token數並非直接相關,影響Token數的是轉換後的文字數量。
Thumbnail
前言 在先前的文章中,我們探討了 IBM Watsonx 在客戶滿意度分析中的應用。今天,我們將利用 Google 的兩款大型語言模型(LLM)— flan-ul2 和 flan-t5-xxl,展示它們如何串聯起來生成關於特定主題的隨機問題和回答。 在這篇文章中,將使用 SimpleSequen
Thumbnail
前言 在先前的文章中,我們探討了 IBM Watsonx 在客戶滿意度分析中的應用。今天,我們將利用 Google 的兩款大型語言模型(LLM)— flan-ul2 和 flan-t5-xxl,展示它們如何串聯起來生成關於特定主題的隨機問題和回答。 在這篇文章中,將使用 SimpleSequen
Thumbnail
當代名導基里爾.賽勒布倫尼科夫身兼電影、劇場與歌劇導演,其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後,他持續以創作回應專制體制的壓迫。《傳奇:帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析,解構賽勒布倫尼科夫如何利用影劇雙棲的特質,在荒謬世道中尋找藝術的「生存之道」。
Thumbnail
當代名導基里爾.賽勒布倫尼科夫身兼電影、劇場與歌劇導演,其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後,他持續以創作回應專制體制的壓迫。《傳奇:帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析,解構賽勒布倫尼科夫如何利用影劇雙棲的特質,在荒謬世道中尋找藝術的「生存之道」。
Thumbnail
當時間變少之後,看戲反而變得更加重要——這是在成為母親之後,我第一次誠實地面對這一件事:我沒有那麼多的晚上,可以任性地留給自己了。看戲不再只是「今天有沒有空」,而是牽動整個週末的結構,誰應該照顧孩子,我該在什麼時間回到家,隔天還有沒有精神帶小孩⋯⋯於是,我不得不學會一件以前並不擅長的事:挑選。
Thumbnail
當時間變少之後,看戲反而變得更加重要——這是在成為母親之後,我第一次誠實地面對這一件事:我沒有那麼多的晚上,可以任性地留給自己了。看戲不再只是「今天有沒有空」,而是牽動整個週末的結構,誰應該照顧孩子,我該在什麼時間回到家,隔天還有沒有精神帶小孩⋯⋯於是,我不得不學會一件以前並不擅長的事:挑選。
Thumbnail
5 月,方格創作島正式開島。這是一趟 28 天的創作旅程。活動期間,每週都會有新的任務地圖與陪跑計畫,從最簡單的帳號使用、沙龍建立,到帶著你從一句話、一張照片開始,一步一步找到屬於自己的創作節奏。不需要長篇大論,不需要完美的文筆,只需要帶上你今天的日常,就可以出發。征服創作島,抱回靈感與大獎!
Thumbnail
5 月,方格創作島正式開島。這是一趟 28 天的創作旅程。活動期間,每週都會有新的任務地圖與陪跑計畫,從最簡單的帳號使用、沙龍建立,到帶著你從一句話、一張照片開始,一步一步找到屬於自己的創作節奏。不需要長篇大論,不需要完美的文筆,只需要帶上你今天的日常,就可以出發。征服創作島,抱回靈感與大獎!
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News