對比 RNN / CNN / Transformer 的本質差異

JH Young

發佈於滴咕雞

2026/03/01 更新2026/03/01 發佈閱讀 4 分鐘

我們從「資訊如何流動」與「依賴如何被建模」來對比

RNN / CNN / Transformer 的本質差異。

一、RNN（循環神經網路）

代表模型：

LSTM

GRU

🧠 核心思想

時間是主軸，資訊沿時間線傳遞。

每一步的隱藏狀態：

h_t = f(x_t, h_{t-1})

它把「過去」壓縮進一個向量裡。

📈 資訊流動方式

x1 → h1 → h2 → h3 → h4 ...

是鏈式傳遞。

🔥 本質特性

有明確時間順序
記憶透過狀態壓縮
長距離依賴會衰減（梯度消失）
無法並行（必須一步一步算）

🎯 優點

天然適合時間序列
參數較少

⚠ 缺點

記憶有限
難以捕捉長距離關係
訓練慢

二、CNN（卷積神經網路）

代表模型：

LeNet

ResNet

🧠 核心思想

局部模式可重複出現，用濾波器掃描整個空間。

卷積操作：

局部視窗 × 權重矩陣

📈 資訊流動方式

局部區域 → 特徵圖 → 更高階特徵

它假設：

世界是「局部結構」堆疊出來的。

🔥 本質特性

局部感受野（local receptive field）
權重共享（translation invariant）
階層式特徵抽象
高度並行

🎯 優點

影像效果極佳
計算效率高
參數共享節省資源

⚠ 缺點

難以捕捉全域依賴
序列建模能力有限

三、Transformer

提出論文：

Attention Is All You Need

🧠 核心思想

任何位置都可以直接關注任何位置。

不靠時間傳遞，也不靠局部掃描。

而是直接計算：

所有 token 彼此的關聯

📈 資訊流動方式

每個詞 ↔ 所有詞（全連接）

是全局圖結構。

🔥 本質特性

全域依賴建模
完全並行
計算複雜度 O(n²)
可大規模擴展

四、三者本質對比（核心差異）

五、用一個比喻理解

想像在分析一本小說：

RNN

像一個人從第一頁讀到最後一頁，

只能靠「記憶力」記住前面內容。

CNN

像拿放大鏡看局部段落，

透過重複觀察局部模式理解整體。

Transformer

像開了一個會議室，

讓書中所有角色同時互相對話，動態決定誰影響誰。

六、為什麼 Transformer 統治世界？

因為語言本質是：

遠距離依賴 + 複雜關聯網絡

而 Transformer 本質上就是：

一個可學習的全連接關聯圖。

七、從數學角度看本質差異

RNN = 動態系統（state machine）
CNN = 卷積算子（平移不變線性算子）
Transformer = 自適應加權圖運算

八、更深一層（你可能會喜歡的哲學角度）

RNN 是「時間哲學」

CNN 是「空間哲學」

Transformer 是「關係哲學」

它不再問：

過去是什麼？

而是問：

誰與誰相關？

留言

sirius數字沙龍

16會員

405內容數

吃自助火鍋啦！不要客氣，想吃啥，請自行取用！

sirius數字沙龍的其他內容

2026/03/01

什麼是 Transformer 架構？

Transformer 是一種專門處理序列資料（例如文字）的神經網路架構。它在 2017 年由論文： Attention Is All You Need 提出，作者之一是 Ashish Vaswani。它徹底改變了 NLP（自然語言處理），並成為所有 LLM 的基礎。

2026/03/01

什麼是 Transformer 架構？

2026/03/01

甚麼是LLM？

🤖 什麼是 LLM？ LLM = Large Language Model（大型語言模型）它是一種使用深度學習訓練出來的 AI 模型，能夠理解與產生人類語言。 🔎 一句話解釋 LLM 是一種「用大量文字訓練出來的預測下一個字的超大型神經網路」。

2026/03/01

甚麼是LLM？

2026/02/28

AI 隨機拼貼出的鸚鵡

這是一個用「故事化＋概念解釋」方式描述 AI「隨機鸚鵡（Stochastic Parrot）」誕生與被提出的經過。這個概念並不是科幻反派，而是一個對大型語言模型的重要批判觀點。 🦜 AI 隨機拼貼鸚鵡（Stochastic Parrot）

2026/02/28

AI 隨機拼貼出的鸚鵡

看更多

你可能也想看

Mech muse 智慧新知

🧠 UC Riverside打造全球首個「全合成腦組織」模型：神經藥物測試新時代來了？

加州大學河濱分校打造全球首個「完全合成」的大腦組織模型，使用 PEG 多孔材料重建類大腦微環境，不需動物來源基質。細胞能在支架中生長並形成神經網路，可用於研究腦傷、阿茲海默症與神經藥物測試。模型更可控、批次更一致，有望成為新一代動物實驗替代工具。

#科技#細胞#大腦

2025/11/19

Mech muse 智慧新知

🧠 UC Riverside打造全球首個「全合成腦組織」模型：神經藥物測試新時代來了？

#科技#細胞#大腦

2025/11/19

Ho7的沙龍

創傷大腦的運作與療癒：由下而上的神經序列模型《你發生過什麼事》

本書介紹了創傷大腦如何運作然後如何重塑療癒作者表示大腦是由下而上發展的神經序列模型底層（腦幹中腦）：負責調節體溫心跳壓力反應（生存）中層（邊緣系統）：負責情緒與關係連結高層（大腦皮質）：負責理智語言邏輯等循序處理法則所有感官輸入會先進

#書評#書單#閱讀

2026/02/13

Ho7的沙龍

創傷大腦的運作與療癒：由下而上的神經序列模型《你發生過什麼事》

#書評#書單#閱讀

2026/02/13

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

背景：從冷門配角到市場主線，算力與電力被重新定價小P從2008進入股市，每一個時期的投資亮點都不同，記得2009蘋果手機剛上市，當時蘋果只要在媒體上提到哪一間供應鏈，隔天股價就有驚人的表現，當時光學鏡頭非常熱門，因為手機第一次搭上鏡頭可以拍照，也造就傳統相機廠的殞落，如今手機已經全面普及，題

#AI#算力#電力

2026/04/11

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

#AI#算力#電力

2026/04/11

甘果的沙龍

Python/pyTorch 如何建立股價趨勢模型：一個三層式類神經網路模型

本文介紹如何使用 PyTorch 建立一個三層式反饋類神經網路模型來預測股價。文章涵蓋了資料取得、資料預處理 (正規化)、GPU 資料轉換、模型訓練、模型預測以及結果評估等步驟。透過將模型預測結果與原始股價資料繪製比較圖表，並結合統計指標例如「95%區間」來分析模型的準確性和可靠性。

#類神經網路#股市模型#人工智慧

2025/08/24

甘果的沙龍

Python/pyTorch 如何建立股價趨勢模型：一個三層式類神經網路模型

#類神經網路#股市模型#人工智慧

2025/08/24

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

這是一場修復文化與重建精神的儀式，觀眾不需要完全看懂《遊林驚夢：巧遇Hagay》，但你能感受心與土地團聚的渴望，也不急著在此處釐清或定義什麼，但你的在場感受，就是一條線索，關於如何找著自己的路徑、自己的聲音。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11