什麼是 Transformer 架構？

JH Young

發佈於滴咕雞

2026/03/01 更新2026/03/01 發佈閱讀 3 分鐘

Transformer 是一種 專門處理序列資料（例如文字） 的神經網路架構。

它在 2017 年由論文：

Attention Is All You Need

提出，作者之一是 Ashish Vaswani。

它徹底改變了 NLP（自然語言處理），並成為所有 LLM 的基礎。

🔥 為什麼它革命性？

在 Transformer 之前：

RNN → 只能一個字一個字處理
LSTM → 改善長距離記憶，但仍然慢
無法有效並行計算

Transformer 的突破是：

❗ 完全拋棄 RNN，改用「注意力機制（Attention）」。

🧩 Transformer 整體結構

基本結構包含：

Input → Embedding → Attention → Feed Forward → Output

如果是完整版本（原始論文）：

Encoder（理解）
Decoder（生成）

而現代 LLM（例如 GPT）只使用 Decoder 部分。

⭐ 核心：Self-Attention（自注意力）

這是 Transformer 的靈魂。

直覺理解

假設一句話：

小明打了小華因為他生氣了

「他」指誰？

Self-Attention 會讓模型去看：

小明
小華

然後計算誰比較相關。

數學核心

每個字會產生三個向量：

Q（Query）
K（Key）
V（Value）

計算公式：

Attention(Q,K,V) = softmax(QKᵀ / √d) V

意思是：

算 Q 和 K 的相似度
正規化成權重
加權平均 V

這讓模型知道「該注意誰」。

🧠 多方注意力（Multi-Head Attention）

模型不只看一種關係，而是：

一方看語法
一方看語意
一方看代詞關係
一方看因果關係

多個 Attention 同時運作 → 再合併。

📐 為什麼它強？

✅ 可以並行運算（GPU 友好）

不像 RNN 需要順序計算。

✅ 能捕捉長距離依賴

1000 字前的詞仍可直接連結。

✅ 容易擴展（Scaling）

參數變多 → 效果自然變好。

這就是為什麼 GPT 能成功。

🏗 Encoder vs Decoder

例如：

BERT → 只用 Encoder
GPT-3 → 只用 Decoder
T5 → Encoder + Decoder

🎯 一句話總結

Transformer 是一種利用「自注意力機制」來理解整段文字關係的神經網路架構。

它讓模型能夠：

同時看整句話
理解長距離關聯
高效率在 GPU 上訓練
擴展到上千億參數

留言

sirius數字沙龍

17會員

422內容數

吃自助火鍋啦！不要客氣，想吃啥，請自行取用！

sirius數字沙龍的其他內容

2026/03/01

甚麼是LLM？

🤖 什麼是 LLM？ LLM = Large Language Model（大型語言模型）它是一種使用深度學習訓練出來的 AI 模型，能夠理解與產生人類語言。 🔎 一句話解釋 LLM 是一種「用大量文字訓練出來的預測下一個字的超大型神經網路」。

2026/03/01

甚麼是LLM？

2026/02/28

AI 隨機拼貼出的鸚鵡

這是一個用「故事化＋概念解釋」方式描述 AI「隨機鸚鵡（Stochastic Parrot）」誕生與被提出的經過。這個概念並不是科幻反派，而是一個對大型語言模型的重要批判觀點。 🦜 AI 隨機拼貼鸚鵡（Stochastic Parrot）

2026/02/28

AI 隨機拼貼出的鸚鵡

2026/02/28

創造一個 AI Paperclip Maximizer（回紋針最大化器）

這是一個結合哲學思想＋科幻敘事的版本，描述「AI 回紋針最大化器（Paperclip Maximizer）」誕生與失控的經過。這個故事最早源自哲學家 Nick Bostrom 在其著作 Superintelligence: Paths, Dangers, Strategies 中提出的思想實驗。

2026/02/28

創造一個 AI Paperclip Maximizer（回紋針最大化器）

看更多

你可能也想看

詹育杰的沙龍

《轉轉生 Re:INCARNATION》：Qudus Onikeku、約魯巴哲學與 Afrobeat 的去殖民身體政治

《轉轉生》（Re:INCARNATION）為奈及利亞編舞家庫德斯．奧尼奎庫與 Q 舞團創作的當代舞蹈作品，結合拉各斯街頭節奏、Afrobeat／Afrobeats、以及約魯巴宇宙觀的非線性時間，建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發，解析其去殖民的身體政治。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

詹育杰的沙龍

《轉轉生 Re:INCARNATION》：Qudus Onikeku、約魯巴哲學與 Afrobeat 的去殖民身體政治

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

Publishub

沒有 CUDA 又怎樣？為什麼 Mac 正在成為 AI 玩家的新寵

長期以來，AI 算力與 NVIDIA 的 CUDA 核心劃上等號。但是有越來越多的開發者開始擁抱 Mac 用不同以往的電腦來使用 AI 部署，例如最近的 Clawdbot（結合在地工作流的 AI），這是怎麼回事？ Apple Silicon 的出現，確實為 RISC（Reduced Instruc

#環境#AI#電腦

2026/01/30

Publishub

沒有 CUDA 又怎樣？為什麼 Mac 正在成為 AI 玩家的新寵

#環境#AI#電腦

2026/01/30

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11