CLIP（Contrastive Language–Image Pre-training）

iPAS AI應用規劃師學習筆記

發佈於多模態人工智慧應用

2025/08/19 更新2025/08/19 發佈閱讀 2 分鐘

CLIP（Contrastive Language–Image Pre-training）是由 OpenAI 開發的一種多模態模型，用於將圖片和文字映射到同一語義空間中，使模型能理解和關聯圖像與自然語言。

主要特點：

• 對比學習架構：CLIP 同時訓練圖片編碼器和文字編碼器，通過最大化匹配圖片和其對應文本描述的向量相似度，最小化不相關圖片和文本的相似度。

• 多模態嵌入向量：令圖像和文字轉換成同樣維度的向量，方便後續跨模式應用和檢索。

• 強大的零樣本學習能力：CLIP 不需要在特定任務上微調，就能直接用自然語言提示來識別圖片內容，在許多圖像分類標準數據集上達到接近監督學習的表現。

架構組成：

• 圖像編碼器：通常為 ResNet 或 ViT（Vision Transformer）架構。

• 文字編碼器：基於 Transformer 的語言模型，處理文本描述。

• 對比損失函數：使圖片-文字對的嵌入向量相似度最大化。

主要應用：

• 圖像檢索：輸入文字描述，找到匹配圖片。

• 生成模型條件控制：如 Stable Diffusion 使用 CLIP 來指導生成符合文字描述的圖像。

• 多模態研究與應用：在跨模態檢索、視覺問答等領域發揮重要作用。

總結：

CLIP 是一種利用對比學習技術，多角度聯合理解圖片和文字的多模態模型，擁有卓越的語義對齊和零樣本識別能力。

含 AI 應用內容

郝信華 iPAS AI應用規劃師學習筆記多模態人工智慧應用

留言

郝信華 iPAS AI應用規劃師學習筆記

44會員

572內容數

現職 : 富邦建設資訊副理證照：經濟部 iPAS AI應用規劃師初級+中級(數據分析) AWS AIF-C01 AWS CLF-C02 Microsoft AI-900 其他：富邦美術館志工

郝信華 iPAS AI應用規劃師學習筆記的其他內容

2025/08/18

Tensor Fusion (張量融合)

Tensor Fusion 是多模態學習中的一種融合技術，特別設計用來捕捉不同模態間的高階互動關係。其核心思想是以張量（tensor）的形式來表示並融合多模態特徵，能同時包含各模態的獨立信息以及模態間的交互作用，從而更全面深入地挖掘多模態數據的複雜關聯。 Tensor Fusion 的關鍵機制：

2025/08/18

Tensor Fusion (張量融合)

2025/08/18

多模態融合的具體技術

多模態融合的具體技術包括多種經典與進階方法，主要可分為特徵級、決策級和模型級等不同層次，常見的融合技術與方法如下： 1. 特徵級融合（Feature-level Fusion）直接拼接（Concatenation）：將不同模態的特徵向量直接合併為一個高維特徵，最常用且簡單。逐元素操作

2025/08/18

多模態融合的具體技術

2025/08/18

Hybrid Fusion（混合融合）

Hybrid Fusion（混合融合）是多模態學習中的一種融合策略，結合了早期融合（Early Fusion）和晚期融合（Late Fusion）的方法優點，旨在彈性地利用不同模態間的信息，提高融合效果。 Hybrid Fusion的主要特點：部分模態早期融合：將部分相關性較強或結構相似的模態

2025/08/18

Hybrid Fusion（混合融合）

看更多

你可能也想看

漫步筆記的沙龍

測試一下用copilot畫AI正在畫一張圖

2024/06/16

漫步筆記的沙龍

測試一下用copilot畫AI正在畫一張圖

2024/06/16

黃郁書的沙龍

《海妲．蓋柏樂》：女性困境與「永恆少年」的毀滅衝動

5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》，由臺灣劇團「晃晃跨幅町」製作，本文將以從舞台符號、聲音與表演調度切入，討論海妲・蓋柏樂在父權社會結構下的困境，並結合榮格心理學與馮．法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析，理解女人何以走向精神性的操控、毀滅與死亡。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

黃郁書的沙龍

《海妲．蓋柏樂》：女性困境與「永恆少年」的毀滅衝動

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

Frank Plaza

ComfyUI 研究 - 圖像提示詞

這篇要講的圖像提示詞概念是在AI繪圖的過程中輸入圖片，讓AI去理解圖像內容，或是直接參考圖像的構圖或色彩，再產生新的圖片。雖然我最常用的是文字提示詞的方式生圖，但是圖像提示詞的應用比文字提示詞更廣也更加複雜，尤其在生成影片的範疇。即使OpenAI在近日發表了強大的文生影片的Sora模型，但畢

#comfyui#stablediffusion#ai繪圖

2024/02/24

Frank Plaza

ComfyUI 研究 - 圖像提示詞

#comfyui#stablediffusion#ai繪圖

2024/02/24

Learn AI 不 BI

AI說書 - 從0開始 - 82

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo

#AI#ai#PromptEngineering

2024/07/10

Learn AI 不 BI

AI說書 - 從0開始 - 82

#AI#ai#PromptEngineering

2024/07/10

陳星晴老師-教育斜棟人生

[附教案及教學影片]運用AI 生成圖片功能，學習描寫文寫作

在學習描寫文的過程中，將思維視覺化是一個重要的教學策略。通過使用AI生成圖片功能，教師能夠幫助學生將抽象的描述轉化為具體的圖像。

#AI#人工智能#人工智慧

2024/04/23

陳星晴老師-教育斜棟人生

[附教案及教學影片]運用AI 生成圖片功能，學習描寫文寫作

在學習描寫文的過程中，將思維視覺化是一個重要的教學策略。通過使用AI生成圖片功能，教師能夠幫助學生將抽象的描述轉化為具體的圖像。

#AI#人工智能#人工智慧

2024/04/23

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

這是一場修復文化與重建精神的儀式，觀眾不需要完全看懂《遊林驚夢：巧遇Hagay》，但你能感受心與土地團聚的渴望，也不急著在此處釐清或定義什麼，但你的在場感受，就是一條線索，關於如何找著自己的路徑、自己的聲音。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11