CLIP(Contrastive Language–Image Pre-training)是由 OpenAI 開發的一種多模態模型,用於將圖片和文字映射到同一語義空間中,使模型能理解和關聯圖像與自然語言。
主要特點:• 對比學習架構:CLIP 同時訓練圖片編碼器和文字編碼器,通過最大化匹配圖片和其對應文本描述的向量相似度,最小化不相關圖片和文本的相似度。
• 多模態嵌入向量:令圖像和文字轉換成同樣維度的向量,方便後續跨模式應用和檢索。
• 強大的零樣本學習能力:CLIP 不需要在特定任務上微調,就能直接用自然語言提示來識別圖片內容,在許多圖像分類標準數據集上達到接近監督學習的表現。
架構組成:
• 圖像編碼器:通常為 ResNet 或 ViT(Vision Transformer)架構。
• 文字編碼器:基於 Transformer 的語言模型,處理文本描述。
• 對比損失函數:使圖片-文字對的嵌入向量相似度最大化。
主要應用:
• 圖像檢索:輸入文字描述,找到匹配圖片。
• 生成模型條件控制:如 Stable Diffusion 使用 CLIP 來指導生成符合文字描述的圖像。
• 多模態研究與應用:在跨模態檢索、視覺問答等領域發揮重要作用。
總結:
CLIP 是一種利用對比學習技術,多角度聯合理解圖片和文字的多模態模型,擁有卓越的語義對齊和零樣本識別能力。




















