AI說書 - 從0開始 - 487 | Vision Transformer 介紹

2025/08/04 更新2025/08/04 發佈閱讀 2 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。

類似單詞的圖像序列可以適配於 Transformer 中，問題在於，它們仍然是圖像，Google Research 決定使用一種混合輸入模型來完成這項工作，如下圖所示：

添加卷積網路來嵌入這些圖像塊
添加位置編碼以保留原始圖像的結構
使用標準類似 BERT 的編碼器來處理嵌入的輸入
Transformer 生成原始 Logits 輸出，採樣器將其轉換為適配標籤 Logits 的概率，結果將是一個標籤

Google Research 找到了一種巧妙的方法，將 NLP Transformer 模型轉換為視覺 Transformer，該模型的架構與原始 Transformer 由 Vaswani 等人於 2017 年提出的結構非常接近，ViT 架構的優點可以總結為三點：

ViT 架構繼承了原始 Transformer 模型的可擴展能力
ViT 架構能夠比僅使用卷積神經網路的架構更好地捕捉長期依賴關係
ViT 將在其注意力層中學習所有圖像塊之間的關係，從而提供更精確的預測

Learn AI 不 BI三分鐘學AI (3)AI從0開始-十六章

留言

Learn AI 不 BI

247會員

1.2K內容數

這裡將提供： AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹，一起在未來AI的世界擁抱AI技術，不BI。

Learn AI 不 BI的其他內容

2025/08/02

AI說書 - 從0開始 - 486 | Vision Transformer 介紹

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Dosovitskiy 等人於 2021 年在其論文標題中概括了他們設計的視覺 Transformer 架構的本質：一張圖像相當於 16 x 16 個單詞：用於大規模圖

2025/08/02

AI說書 - 從0開始 - 486 | Vision Transformer 介紹

2025/08/01

AI說書 - 從0開始 - 485 | 第十六章涵蓋之模型

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformer 模型的抽象層次使其產生多模態神經元，多模態神經元可以處理被標記為像素或影像區塊的圖像，然後將其作為詞彙在視覺 Transformer 中處理，一

2025/08/01

AI說書 - 從0開始 - 485 | 第十六章涵蓋之模型

2025/07/31

AI說書 - 從0開始 - 484 | 第十六章涵蓋範圍

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。本章節將涵蓋以下內容：從任務無關模型到視覺模型 ViT 視覺 Transformer ViT 程式使用 CLIP 的文字影像視覺 Transformer

2025/07/31

AI說書 - 從0開始 - 484 | 第十六章涵蓋範圍

#AI 的其他內容

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

好好宅在家

AI盛行下，我卻感受到「老派」設計的浪漫。

方格子 vocus 官方沙龍

【4月靈感產生器】TOP 100 關鍵字：「○○」格友最愛用

你可能也想看