AI說書 - 從0開始 - 498 | CLIP 前言與架構

2025/08/17 更新2025/08/17 發佈閱讀 2 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。

Contrastive Language-Image Pre-Training（CLIP）是一種多模態 Transformer，可用於圖像分類，CLIP 的流程可總結如下：

像 ViT 一樣，特徵提取器生成圖像的 Token
文本也像 ViT 一樣作為 Token 輸入
注意力層通過某種“交叉注意力”學習圖像 Token 與文本 Token 之間的關係
輸出同樣是原始 Logits，如同 ViT 一樣，我們將首先了解 CLIP 的基本架構，然後在程式碼中運行 CLIP

該模型是對比式的：圖像透過差異和相似性學習如何組合在一起，圖像和說明文字透過（文本與圖像的結合）預訓練彼此對應，經過預訓練後，CLIP 可以學習新任務，CLIP 具有可轉移性，因為它可以學習新的視覺概念，如同 GPT 模型，例如在視頻序列中的動作識別，說明文字為無限的應用場景鋪路。

ViT 將圖像分割為類似單詞的塊，CLIP 聯合訓練文本和圖像編碼器，對（說明文字，圖像）配對進行訓練，以最大化餘弦相似度，如下圖所示：

Learn AI 不 BI三分鐘學AI (3)AI從0開始-十六章

留言

Learn AI 不 BI

247會員

1.2K內容數

這裡將提供： AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹，一起在未來AI的世界擁抱AI技術，不BI。

Learn AI 不 BI的其他內容

2025/08/15

AI說書 - 從0開始 - 497 | Vision Transformer 之輸出 Softmax 檢視

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們可以對輸出的 Logit 應用 Temperature、Softmax、Top-K 與 Top-P，以下為應用 Softmax： probs = torch.nn

2025/08/15

AI說書 - 從0開始 - 497 | Vision Transformer 之輸出 Softmax 檢視

2025/08/14

AI說書 - 從0開始 - 496 | Vision Transformer 之輸出標籤檢視

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們可以窺探 ViT 模型的輸出標籤形狀： print(outputs.logits.shape) 結果為：也可以看看模型原本配置幾個標籤： mode

2025/08/14

AI說書 - 從0開始 - 496 | Vision Transformer 之輸出標籤檢視

2025/08/13

AI說書 - 從0開始 - 495 | Vision Transformer 之模型參數檢視

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。以下程式碼顯示 ViT 模型： model 結果為：

2025/08/13

AI說書 - 從0開始 - 495 | Vision Transformer 之模型參數檢視

#AI 的其他內容

2026 年 5 月 iPAS 考試倒數一個月🔥vocus 助你一臂之力，購買指定備考數位商品抽訂單全免 🎯

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

歐馬克的沙龍

工具可以為你解決問題，但不會為你帶來意義

你可能也想看