Vision Transformer（ViT）

2025/08/19 更新2025/08/19 發佈閱讀 3 分鐘

Vision Transformer（ViT）是一種將 Transformer 架構應用於圖像處理的深度學習模型，與傳統卷積神經網路（CNN）不同，ViT 將圖片拆分成一系列不重疊的小塊（patches），並將這些塊視為 Transformer 的輸入序列來處理。

ViT 架構重要步驟：

1. 圖像切片（Patch Splitting） 將輸入圖像分割成固定大小的小塊（例如 16x16 像素），每個塊類似於NLP中的「詞」。

2. 塊展平與嵌入（Flattening and Embedding） 每個圖像塊展平成一維向量，再經過一個線性全連接層，將其映射到一個高維的嵌入空間。

3. 位置編碼（Positional Encoding） 由於 Transformer 本身缺乏序列位置信息，ViT 會將位置向量加到每個圖像塊的嵌入向量中，以保留空間結構資訊。

4. Transformer Encoder 加入位置編碼後的圖像塊嵌入序列被輸入多層Transformer編碼器（由多頭自注意力層和前饋層組成），模型通過自注意力捕捉圖像各部分間的關聯。

5. 分類符號（CLS token） 在序列前加入一個可訓練的特殊符號，經過 Transformer 編碼後，該符號的輸出預測整張圖片的分類結果。

ViT的優勢：

• 能捕捉到圖像中全局的關聯與長距離依賴結構，較 CNN 更靈活。

• 在大數據和大量計算資源支持下，ViT 可展現優越性能。

• 架構一致性，使它在跨模態學習（如圖片+文字）更易整合。

挑戰：

• 需要較多的訓練數據和算力，較小數據集上表現不及具有先驗偏差的 CNN。

• 對於小尺寸圖像或局部細節捕捉相對弱於 CNN。

簡單比喻：

ViT 把圖片切成「小拼圖」，像處理詞語一樣，把這些拼圖作為序列交給 Transformer，模型能理解每個拼圖及其間關係，整合成對圖像的整體理解。

總結：

Vision Transformer 是將 Transformer 序列處理架構引入圖像領域，通過切分圖像為小塊並進行自注意力運算，開啟了圖像理解的新途徑，成為現代視覺任務重要的替代架構。

含 AI 應用內容

郝信華 iPAS AI應用規劃師學習筆記多模態人工智慧應用

留言

郝信華 iPAS AI應用規劃師學習筆記

44會員

572內容數

現職 : 富邦建設資訊副理證照：經濟部 iPAS AI應用規劃師初級+中級(數據分析) AWS AIF-C01 AWS CLF-C02 Microsoft AI-900 其他：富邦美術館志工

郝信華 iPAS AI應用規劃師學習筆記的其他內容

2025/08/19

CLIP（Contrastive Language–Image Pre-training）

CLIP（Contrastive Language–Image Pre-training）是由 OpenAI 開發的一種多模態模型，用於將圖片和文字映射到同一語義空間中，使模型能理解和關聯圖像與自然語言。主要特點： • 對比學習架構：CLIP 同時訓練圖片編碼器和文字編碼器，通過最大化匹配圖

2025/08/19

CLIP（Contrastive Language–Image Pre-training）

2025/08/18

Tensor Fusion (張量融合)

Tensor Fusion 是多模態學習中的一種融合技術，特別設計用來捕捉不同模態間的高階互動關係。其核心思想是以張量（tensor）的形式來表示並融合多模態特徵，能同時包含各模態的獨立信息以及模態間的交互作用，從而更全面深入地挖掘多模態數據的複雜關聯。 Tensor Fusion 的關鍵機制：

2025/08/18

Tensor Fusion (張量融合)

2025/08/18

多模態融合的具體技術

多模態融合的具體技術包括多種經典與進階方法，主要可分為特徵級、決策級和模型級等不同層次，常見的融合技術與方法如下： 1. 特徵級融合（Feature-level Fusion）直接拼接（Concatenation）：將不同模態的特徵向量直接合併為一個高維特徵，最常用且簡單。逐元素操作

2025/08/18

多模態融合的具體技術

看更多

你可能也想看

詹育杰的沙龍

《轉轉生 Re:INCARNATION》：Qudus Onikeku、約魯巴哲學與 Afrobeat 的去殖民身體政治

《轉轉生》（Re:INCARNATION）為奈及利亞編舞家庫德斯．奧尼奎庫與 Q 舞團創作的當代舞蹈作品，結合拉各斯街頭節奏、Afrobeat／Afrobeats、以及約魯巴宇宙觀的非線性時間，建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發，解析其去殖民的身體政治。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

詹育杰的沙龍

《轉轉生 Re:INCARNATION》：Qudus Onikeku、約魯巴哲學與 Afrobeat 的去殖民身體政治

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

Karen的沙龍

【邁向圖神經網絡GNN】Part1:圖數據的基本元素與應用

GNN發展背景傳統的深度學習模型如在計算機視覺（CV）和自然語言處理（NLP）領域中極為成功，主要是處理結構化數據如影像和文本。這些數據類型通常具有固定且規律的結構，例如影像是由有序的像素點組成。然而，在真實世界中，許多數據是非結構化的，如化合物結構（原子和分子）。這些數據雖然具有一定的規則性，

#數據#結構#社交

2024/07/22

Karen的沙龍

【邁向圖神經網絡GNN】Part1:圖數據的基本元素與應用

#數據#結構#社交

2024/07/22

螃蟹_crab的沙龍

[深度學習][Python]利用訓練完成的GAN模型來生成圖片_生成篇

本文將延續上一篇文章，經由訓練好的GAN模型中的生成器來生成圖片 [深度學習][Python]訓練MLP的GAN模型來生成圖片_訓練篇 [深度學習][Python]訓練CNN的GAN模型來生成圖片_訓練篇相較之下CNN的GAN生成的效果比較好，但模型也相對比較複雜，訓練時間花的也比較

#GAN生成圖片#生成器生成圖片#VAE

2024/07/26

螃蟹_crab的沙龍

[深度學習][Python]利用訓練完成的GAN模型來生成圖片_生成篇

#GAN生成圖片#生成器生成圖片#VAE

2024/07/26

螃蟹_crab的沙龍

[深度學習]訓練VAE模型用於生成圖片_訓練篇

本文主要介紹，如何利用VAE變分自編碼器來訓練生成圖片。訓練集資料將採用TF影像資料庫中的fashion_mnist VAE變分自編碼器簡單介紹 •VAE(Variational Auto-Encoder)中文名稱變分自編碼器，主要是一種將原始資料編碼到潛在向量空間，再編碼回來的神經網路。

#深度學習#VAE模型#生成圖片

2024/07/25

螃蟹_crab的沙龍

[深度學習]訓練VAE模型用於生成圖片_訓練篇

#深度學習#VAE模型#生成圖片

2024/07/25

螃蟹_crab的沙龍

[深度學習]訓練VAE模型用於生成圖片_生成篇

本文將延續上一篇文章，經由訓練好的VAE模型其中的解碼器，來生成圖片。 [深度學習]訓練VAE模型用於生成圖片_訓練篇輸入產生的隨機雜訊，輸入VAE的解碼器後，生成的圖片

#深度學習#VAE模型#生成圖片

2024/07/25

螃蟹_crab的沙龍

[深度學習]訓練VAE模型用於生成圖片_生成篇

#深度學習#VAE模型#生成圖片

2024/07/25

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

這是一場修復文化與重建精神的儀式，觀眾不需要完全看懂《遊林驚夢：巧遇Hagay》，但你能感受心與土地團聚的渴望，也不急著在此處釐清或定義什麼，但你的在場感受，就是一條線索，關於如何找著自己的路徑、自己的聲音。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11

dab戴伯的沙龍

卷積神經網路(CNN)在影像辨識中的應用

卷積神經網路（CNN）是一種專門用於影像相關應用的神經網路。本文介紹了CNN在影像辨識中的應用，包括圖片的組成、Receptive Field、Parameter Sharing、以及Pooling等技術。通過本文，讀者將瞭解CNN在影像辨識領域的優勢和運作原理。

2024/05/02

2024/05/02

[深度學習][Python]訓練MLP的GAN模型來生成圖片_訓練篇

本文主要介紹，如何利用GAN生成對抗網路來訓練生成圖片。利用tensorflow，中的keras來建立生成器及鑑別器互相競爭訓練，最後利用訓練好的生成器來生成圖片。 GAN生成對抗網路的介紹它由生成網路(Generator Network)和鑑別網路(Discriminator Netwo

#GAN#生成對抗網路#生成器

2024/07/25

螃蟹_crab的沙龍

[深度學習][Python]訓練MLP的GAN模型來生成圖片_訓練篇

#GAN#生成對抗網路#生成器

2024/07/25

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

背景：從冷門配角到市場主線，算力與電力被重新定價小P從2008進入股市，每一個時期的投資亮點都不同，記得2009蘋果手機剛上市，當時蘋果只要在媒體上提到哪一間供應鏈，隔天股價就有驚人的表現，當時光學鏡頭非常熱門，因為手機第一次搭上鏡頭可以拍照，也造就傳統相機廠的殞落，如今手機已經全面普及，題

#AI#算力#電力

2026/04/11

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

#AI#算力#電力

2026/04/11

JayRay 的沙龍

【資料分析】python資料處理-特徵工程的使用時機與基礎操作語法彙整

特徵工程是機器學習中的核心技術，通過將原始數據轉換為有意義的特徵，以提升模型的準確性和穩定性。常見的特徵工程方法包括異常值檢測、特徵轉換、特徵縮放、特徵表示、特徵選擇和特徵提取。本文將深入探討這些方法的適用情況及具體實施流程，以幫助讀者有效利用特徵工程來優化機器學習模型表現。

#數據#模型#異常

2024/08/14

JayRay 的沙龍

【資料分析】python資料處理-特徵工程的使用時機與基礎操作語法彙整

#數據#模型#異常

2024/08/14

Karen的沙龍

【邁向圖神經網絡GNN】Part5: 建構 GNN model 實作 Cora 資料集結點分類任務

本篇文章介紹如何使用PyTorch構建和訓練圖神經網絡（GNN），並使用Cora資料集進行節點分類任務。通過模型架構的逐步優化，包括引入批量標準化和獨立的消息傳遞層，調整Dropout和聚合函數，顯著提高了模型的分類準確率。實驗結果表明，經過優化的GNN模型在處理圖結構數據具有強大的性能和應用潛力。

#GNN#Graph#dropout

2024/07/28

Karen的沙龍

【邁向圖神經網絡GNN】Part5: 建構 GNN model 實作 Cora 資料集結點分類任務

#GNN#Graph#dropout

2024/07/28

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News