Vision Transformer(ViT)

更新 發佈閱讀 3 分鐘

Vision Transformer(ViT)是一種將 Transformer 架構應用於圖像處理的深度學習模型,與傳統卷積神經網路(CNN)不同,ViT 將圖片拆分成一系列不重疊的小塊(patches),並將這些塊視為 Transformer 的輸入序列來處理。

ViT 架構重要步驟:

1. 圖像切片(Patch Splitting)
將輸入圖像分割成固定大小的小塊(例如 16x16 像素),每個塊類似於NLP中的「詞」。

2. 塊展平與嵌入(Flattening and Embedding)
每個圖像塊展平成一維向量,再經過一個線性全連接層,將其映射到一個高維的嵌入空間。

3. 位置編碼(Positional Encoding)
由於 Transformer 本身缺乏序列位置信息,ViT 會將位置向量加到每個圖像塊的嵌入向量中,以保留空間結構資訊。

4. Transformer Encoder
加入位置編碼後的圖像塊嵌入序列被輸入多層Transformer編碼器(由多頭自注意力層和前饋層組成),模型通過自注意力捕捉圖像各部分間的關聯。

5. 分類符號(CLS token)
在序列前加入一個可訓練的特殊符號,經過 Transformer 編碼後,該符號的輸出預測整張圖片的分類結果。

ViT的優勢:

能捕捉到圖像中全局的關聯與長距離依賴結構,較 CNN 更靈活。

在大數據和大量計算資源支持下,ViT 可展現優越性能。

架構一致性,使它在跨模態學習(如圖片+文字)更易整合。

挑戰:

需要較多的訓練數據和算力,較小數據集上表現不及具有先驗偏差的 CNN。

對於小尺寸圖像或局部細節捕捉相對弱於 CNN。

簡單比喻:

ViT 把圖片切成「小拼圖」,像處理詞語一樣,把這些拼圖作為序列交給 Transformer,模型能理解每個拼圖及其間關係,整合成對圖像的整體理解。

總結:

Vision Transformer 是將 Transformer 序列處理架構引入圖像領域,通過切分圖像為小塊並進行自注意力運算,開啟了圖像理解的新途徑,成為現代視覺任務重要的替代架構。

留言
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
44會員
572內容數
現職 : 富邦建設資訊副理 證照:經濟部 iPAS AI應用規劃師 初級+中級(數據分析) AWS AIF-C01 AWS CLF-C02 Microsoft AI-900 其他:富邦美術館志工
2025/08/19
CLIP(Contrastive Language–Image Pre-training)是由 OpenAI 開發的一種多模態模型,用於將圖片和文字映射到同一語義空間中,使模型能理解和關聯圖像與自然語言。 主要特點: • 對比學習架構:CLIP 同時訓練圖片編碼器和文字編碼器,通過最大化匹配圖
2025/08/19
CLIP(Contrastive Language–Image Pre-training)是由 OpenAI 開發的一種多模態模型,用於將圖片和文字映射到同一語義空間中,使模型能理解和關聯圖像與自然語言。 主要特點: • 對比學習架構:CLIP 同時訓練圖片編碼器和文字編碼器,通過最大化匹配圖
2025/08/18
Tensor Fusion 是多模態學習中的一種融合技術,特別設計用來捕捉不同模態間的高階互動關係。其核心思想是以張量(tensor)的形式來表示並融合多模態特徵,能同時包含各模態的獨立信息以及模態間的交互作用,從而更全面深入地挖掘多模態數據的複雜關聯。 Tensor Fusion 的關鍵機制:
2025/08/18
Tensor Fusion 是多模態學習中的一種融合技術,特別設計用來捕捉不同模態間的高階互動關係。其核心思想是以張量(tensor)的形式來表示並融合多模態特徵,能同時包含各模態的獨立信息以及模態間的交互作用,從而更全面深入地挖掘多模態數據的複雜關聯。 Tensor Fusion 的關鍵機制:
2025/08/18
多模態融合的具體技術包括多種經典與進階方法,主要可分為特徵級、決策級和模型級等不同層次,常見的融合技術與方法如下: 1. 特徵級融合(Feature-level Fusion) 直接拼接(Concatenation):將不同模態的特徵向量直接合併為一個高維特徵,最常用且簡單。 逐元素操作
2025/08/18
多模態融合的具體技術包括多種經典與進階方法,主要可分為特徵級、決策級和模型級等不同層次,常見的融合技術與方法如下: 1. 特徵級融合(Feature-level Fusion) 直接拼接(Concatenation):將不同模態的特徵向量直接合併為一個高維特徵,最常用且簡單。 逐元素操作
看更多
你可能也想看
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
GNN發展背景 傳統的深度學習模型如在計算機視覺(CV)和自然語言處理(NLP)領域中極為成功,主要是處理結構化數據如影像和文本。這些數據類型通常具有固定且規律的結構,例如影像是由有序的像素點組成。然而,在真實世界中,許多數據是非結構化的,如化合物結構(原子和分子)。這些數據雖然具有一定的規則性,
Thumbnail
GNN發展背景 傳統的深度學習模型如在計算機視覺(CV)和自然語言處理(NLP)領域中極為成功,主要是處理結構化數據如影像和文本。這些數據類型通常具有固定且規律的結構,例如影像是由有序的像素點組成。然而,在真實世界中,許多數據是非結構化的,如化合物結構(原子和分子)。這些數據雖然具有一定的規則性,
Thumbnail
本文將延續上一篇文章,經由訓練好的GAN模型中的生成器來生成圖片 [深度學習][Python]訓練MLP的GAN模型來生成圖片_訓練篇 [深度學習][Python]訓練CNN的GAN模型來生成圖片_訓練篇 相較之下CNN的GAN生成的效果比較好,但模型也相對比較複雜,訓練時間花的也比較
Thumbnail
本文將延續上一篇文章,經由訓練好的GAN模型中的生成器來生成圖片 [深度學習][Python]訓練MLP的GAN模型來生成圖片_訓練篇 [深度學習][Python]訓練CNN的GAN模型來生成圖片_訓練篇 相較之下CNN的GAN生成的效果比較好,但模型也相對比較複雜,訓練時間花的也比較
Thumbnail
本文主要介紹,如何利用VAE變分自編碼器來訓練生成圖片。 訓練集資料將採用TF影像資料庫中的fashion_mnist VAE變分自編碼器簡單介紹 •VAE(Variational Auto-Encoder)中文名稱變分自編碼器,主要是一種將原始資料編碼到潛在向量空間,再編碼回來的神經網路。
Thumbnail
本文主要介紹,如何利用VAE變分自編碼器來訓練生成圖片。 訓練集資料將採用TF影像資料庫中的fashion_mnist VAE變分自編碼器簡單介紹 •VAE(Variational Auto-Encoder)中文名稱變分自編碼器,主要是一種將原始資料編碼到潛在向量空間,再編碼回來的神經網路。
Thumbnail
本文將延續上一篇文章,經由訓練好的VAE模型其中的解碼器,來生成圖片。 [深度學習]訓練VAE模型用於生成圖片_訓練篇 輸入產生的隨機雜訊,輸入VAE的解碼器後,生成的圖片
Thumbnail
本文將延續上一篇文章,經由訓練好的VAE模型其中的解碼器,來生成圖片。 [深度學習]訓練VAE模型用於生成圖片_訓練篇 輸入產生的隨機雜訊,輸入VAE的解碼器後,生成的圖片
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
卷積神經網路(CNN)是一種專門用於影像相關應用的神經網路。本文介紹了CNN在影像辨識中的應用,包括圖片的組成、Receptive Field、Parameter Sharing、以及Pooling等技術。通過本文,讀者將瞭解CNN在影像辨識領域的優勢和運作原理。
Thumbnail
卷積神經網路(CNN)是一種專門用於影像相關應用的神經網路。本文介紹了CNN在影像辨識中的應用,包括圖片的組成、Receptive Field、Parameter Sharing、以及Pooling等技術。通過本文,讀者將瞭解CNN在影像辨識領域的優勢和運作原理。
Thumbnail
本文主要介紹,如何利用GAN生成對抗網路來訓練生成圖片。 利用tensorflow,中的keras來建立生成器及鑑別器互相競爭訓練,最後利用訓練好的生成器來生成圖片。 GAN生成對抗網路的介紹 它由生成網路(Generator Network)和鑑別網路(Discriminator Netwo
Thumbnail
本文主要介紹,如何利用GAN生成對抗網路來訓練生成圖片。 利用tensorflow,中的keras來建立生成器及鑑別器互相競爭訓練,最後利用訓練好的生成器來生成圖片。 GAN生成對抗網路的介紹 它由生成網路(Generator Network)和鑑別網路(Discriminator Netwo
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
特徵工程是機器學習中的核心技術,通過將原始數據轉換為有意義的特徵,以提升模型的準確性和穩定性。常見的特徵工程方法包括異常值檢測、特徵轉換、特徵縮放、特徵表示、特徵選擇和特徵提取。本文將深入探討這些方法的適用情況及具體實施流程,以幫助讀者有效利用特徵工程來優化機器學習模型表現。
Thumbnail
特徵工程是機器學習中的核心技術,通過將原始數據轉換為有意義的特徵,以提升模型的準確性和穩定性。常見的特徵工程方法包括異常值檢測、特徵轉換、特徵縮放、特徵表示、特徵選擇和特徵提取。本文將深入探討這些方法的適用情況及具體實施流程,以幫助讀者有效利用特徵工程來優化機器學習模型表現。
Thumbnail
本篇文章介紹如何使用PyTorch構建和訓練圖神經網絡(GNN),並使用Cora資料集進行節點分類任務。通過模型架構的逐步優化,包括引入批量標準化和獨立的消息傳遞層,調整Dropout和聚合函數,顯著提高了模型的分類準確率。實驗結果表明,經過優化的GNN模型在處理圖結構數據具有強大的性能和應用潛力。
Thumbnail
本篇文章介紹如何使用PyTorch構建和訓練圖神經網絡(GNN),並使用Cora資料集進行節點分類任務。通過模型架構的逐步優化,包括引入批量標準化和獨立的消息傳遞層,調整Dropout和聚合函數,顯著提高了模型的分類準確率。實驗結果表明,經過優化的GNN模型在處理圖結構數據具有強大的性能和應用潛力。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News