LLM 006｜BERT與GPT是怎麼從Transformer演化來的？

王啟樺

發佈於LLM 筆記

2024/04/28 更新2024/04/28 發佈閱讀 2 分鐘

在上一期「LLM 005｜大語言模型是如何利用Transformer理解語言的？」我們提到，Transformer是大語言模型理解語言的關鍵。

而Transformer架構兩個主要的後代是BERT以及GPT。

BERT是bidirectional encoder representations from transformers的縮寫，直譯為「來自Transformer的雙向編碼器表現」。

GPT是generative pretrained transformers的縮寫，直譯為「生成預訓練 Transformer」。

如此，BERT的T，GPT的T，兩者都是指Transformer。

BERT建構於原始的Transformer的編碼器子模組，

與GPT的訓練方式不同。

有別於GPT是為了生成任務而設計，BERT是為了「遮蔽詞預測 masked word prediction」而設計。

在遮蔽詞預測任務中，語言模型要根據給定的句子，去預測被藏起來的文字。

BERT這種透過遮蔽詞預測來訓練語言模型的策略，使得BERT能夠做「文本分類 Text Classification」的任務。

文本分類任務的例子有情緒分析 Sentiment Prediction與文件分類 Document Categorization。

BERT的這個文本分類能力一個具體應用，就是Twitter拿來偵測有毒的垃圾內容。

另一方面，GPT則聚焦在原始Transformer架構的解碼器部分。

GPT被設計為能解需要產生文本的任務，例如「機器翻譯 Machine Translation」，「文本總結 Text Summarization」，「小說寫作 Fiction Writing」，「寫程式碼 Writing Computer Code」等等。

GPT模型主要被設計與訓練來做「文本補全 Text Completion」工作。

GPT模型擅長「零樣本學習 Zero-Shot Learning」與「少樣本學習 Few-Shot Learning」的任務。

零樣本學習是指，不用任何先前特定範例，就能推廣至完全未見過的任務。

少樣本學習則是指學習的過程需要用戶提供一些範例。

留言

王啟樺的沙龍

648會員

2.0K內容數

Outline as Content

王啟樺的沙龍的其他內容

2024/04/27

LLM 005｜大語言模型是如何利用Transformer理解語言的？

現代大語言模型建構於Transformer結構。 Transformer結構是源自於2017年著名論文 Attention Is All You Need的深度神經網路結構。原始的Trasformer是為了機器翻譯發展，當初的任務是將英文翻譯成德文與法文。 Transformer

2024/04/27

LLM 005｜大語言模型是如何利用Transformer理解語言的？

2024/04/26

LLM 004｜創建大語言模型需要哪兩個關鍵階段？

從頭開始寫大語言模型的程式碼，是最好理解大語言模型的機制與限制的方風。從頭開始寫大語言模型的程式碼，可以幫助我們得到預訓練與微調整開源大語言模型架構所需要的知識，並應用到特定領域的數據及以及任務。客製化大語言模型一般來說比起通用大語言模型有更好的表現。一個具體的例子是

2024/04/26

LLM 004｜創建大語言模型需要哪兩個關鍵階段？

2024/04/25

LLM 003｜人工智慧如何從數據中學習？

大語言模型能夠生成文本，因此被認為是生成式人工智慧的一種形式。人工智慧的學科任務，是製作機器，使其能執行需要人類智慧才能執行的任務，例如理解語言，便是模式，做出決策。除了大語言模型，人工智慧也包含了深度學習以及機器學習。機器學習的學科任務，是透過演算法來實踐AI。特別

2024/04/25

LLM 003｜人工智慧如何從數據中學習？

看更多

你可能也想看

Learn AI 不 BI

AI說書 - 從0開始 - 130 | Masked Language Modeling 訓練

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 129 中說，Bidirectional Encoder Representations from Transformers (BER

#AI#ai#PromptEngineering

2024/08/13

Learn AI 不 BI

AI說書 - 從0開始 - 130 | Masked Language Modeling 訓練

#AI#ai#PromptEngineering

2024/08/13

王啟樺的沙龍

【大語言模型LLMs：為何「大」字至關重要？】

大語言模型（LLMs）對於任何對人工智能和自然語言處理感興趣的人來說都是一個令人興奮的領域。這類模型，如GPT-4，透過其龐大的數據集和複雜的參數設置，提供了前所未有的語言理解和生成能力。那麼，究竟是什麼讓這些模型「大」得如此不同呢？

#大語言模型#GPT4#ChatGPT

2024/01/19

王啟樺的沙龍

【大語言模型LLMs：為何「大」字至關重要？】

#大語言模型#GPT4#ChatGPT

2024/01/19

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

這是一場修復文化與重建精神的儀式，觀眾不需要完全看懂《遊林驚夢：巧遇Hagay》，但你能感受心與土地團聚的渴望，也不急著在此處釐清或定義什麼，但你的在場感受，就是一條線索，關於如何找著自己的路徑、自己的聲音。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11