CLIP(Contrastive Language–Image Pre-training)

更新 發佈閱讀 2 分鐘

CLIP(Contrastive Language–Image Pre-training)是由 OpenAI 開發的一種多模態模型,用於將圖片和文字映射到同一語義空間中,使模型能理解和關聯圖像與自然語言。

主要特點:

對比學習架構:CLIP 同時訓練圖片編碼器和文字編碼器,通過最大化匹配圖片和其對應文本描述的向量相似度,最小化不相關圖片和文本的相似度。

多模態嵌入向量:令圖像和文字轉換成同樣維度的向量,方便後續跨模式應用和檢索。

強大的零樣本學習能力:CLIP 不需要在特定任務上微調,就能直接用自然語言提示來識別圖片內容,在許多圖像分類標準數據集上達到接近監督學習的表現。

架構組成:

圖像編碼器:通常為 ResNet 或 ViT(Vision Transformer)架構。

文字編碼器:基於 Transformer 的語言模型,處理文本描述。

對比損失函數:使圖片-文字對的嵌入向量相似度最大化。

主要應用:

圖像檢索:輸入文字描述,找到匹配圖片。

生成模型條件控制:如 Stable Diffusion 使用 CLIP 來指導生成符合文字描述的圖像。

多模態研究與應用:在跨模態檢索、視覺問答等領域發揮重要作用。

總結:

CLIP 是一種利用對比學習技術,多角度聯合理解圖片和文字的多模態模型,擁有卓越的語義對齊和零樣本識別能力。

留言
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
44會員
572內容數
現職 : 富邦建設資訊副理 證照:經濟部 iPAS AI應用規劃師 初級+中級(數據分析) AWS AIF-C01 AWS CLF-C02 Microsoft AI-900 其他:富邦美術館志工
2025/08/18
Tensor Fusion 是多模態學習中的一種融合技術,特別設計用來捕捉不同模態間的高階互動關係。其核心思想是以張量(tensor)的形式來表示並融合多模態特徵,能同時包含各模態的獨立信息以及模態間的交互作用,從而更全面深入地挖掘多模態數據的複雜關聯。 Tensor Fusion 的關鍵機制:
2025/08/18
Tensor Fusion 是多模態學習中的一種融合技術,特別設計用來捕捉不同模態間的高階互動關係。其核心思想是以張量(tensor)的形式來表示並融合多模態特徵,能同時包含各模態的獨立信息以及模態間的交互作用,從而更全面深入地挖掘多模態數據的複雜關聯。 Tensor Fusion 的關鍵機制:
2025/08/18
多模態融合的具體技術包括多種經典與進階方法,主要可分為特徵級、決策級和模型級等不同層次,常見的融合技術與方法如下: 1. 特徵級融合(Feature-level Fusion) 直接拼接(Concatenation):將不同模態的特徵向量直接合併為一個高維特徵,最常用且簡單。 逐元素操作
2025/08/18
多模態融合的具體技術包括多種經典與進階方法,主要可分為特徵級、決策級和模型級等不同層次,常見的融合技術與方法如下: 1. 特徵級融合(Feature-level Fusion) 直接拼接(Concatenation):將不同模態的特徵向量直接合併為一個高維特徵,最常用且簡單。 逐元素操作
2025/08/18
Hybrid Fusion(混合融合)是多模態學習中的一種融合策略,結合了早期融合(Early Fusion)和晚期融合(Late Fusion)的方法優點,旨在彈性地利用不同模態間的信息,提高融合效果。 Hybrid Fusion的主要特點: 部分模態早期融合:將部分相關性較強或結構相似的模態
2025/08/18
Hybrid Fusion(混合融合)是多模態學習中的一種融合策略,結合了早期融合(Early Fusion)和晚期融合(Late Fusion)的方法優點,旨在彈性地利用不同模態間的信息,提高融合效果。 Hybrid Fusion的主要特點: 部分模態早期融合:將部分相關性較強或結構相似的模態
看更多
你可能也想看
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
這篇要講的圖像提示詞概念是在AI繪圖的過程中輸入圖片,讓AI去理解圖像內容,或是直接參考圖像的構圖或色彩,再產生新的圖片。 雖然我最常用的是文字提示詞的方式生圖,但是圖像提示詞的應用比文字提示詞更廣也更加複雜,尤其在生成影片的範疇。 即使OpenAI在近日發表了強大的文生影片的Sora模型,但畢
Thumbnail
這篇要講的圖像提示詞概念是在AI繪圖的過程中輸入圖片,讓AI去理解圖像內容,或是直接參考圖像的構圖或色彩,再產生新的圖片。 雖然我最常用的是文字提示詞的方式生圖,但是圖像提示詞的應用比文字提示詞更廣也更加複雜,尤其在生成影片的範疇。 即使OpenAI在近日發表了強大的文生影片的Sora模型,但畢
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
在學習描寫文的過程中,將思維視覺化是一個重要的教學策略。通過使用AI生成圖片功能,教師能夠幫助學生將抽象的描述轉化為具體的圖像。
Thumbnail
在學習描寫文的過程中,將思維視覺化是一個重要的教學策略。通過使用AI生成圖片功能,教師能夠幫助學生將抽象的描述轉化為具體的圖像。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
如果你想練習英文口說,那非常clipchamp中將英文文字轉換為語音,簡單且免費,對話發音比google翻譯自然許多,我相當推薦,馬上來看如何使用吧!
Thumbnail
如果你想練習英文口說,那非常clipchamp中將英文文字轉換為語音,簡單且免費,對話發音比google翻譯自然許多,我相當推薦,馬上來看如何使用吧!
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Trainin
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Trainin
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
筆記-曲博談AI模型.群聯-24.05.05 https://www.youtube.com/watch?v=JHE88hwx4b0&t=2034s *大型語言模型 三個步驟: 1.預訓練,訓練一次要用幾萬顆處理器、訓練時間要1個月,ChatGPT訓練一次的成本為1000萬美金。 2.微調(
Thumbnail
筆記-曲博談AI模型.群聯-24.05.05 https://www.youtube.com/watch?v=JHE88hwx4b0&t=2034s *大型語言模型 三個步驟: 1.預訓練,訓練一次要用幾萬顆處理器、訓練時間要1個月,ChatGPT訓練一次的成本為1000萬美金。 2.微調(
Thumbnail
前言 讀了許多理論,是時候實際動手做做看了,以下是我的模型訓練初體驗,有點糟就是了XD。 正文 def conv(filters, kernel_size, strides=1): return Conv2D(filters, kernel_size,
Thumbnail
前言 讀了許多理論,是時候實際動手做做看了,以下是我的模型訓練初體驗,有點糟就是了XD。 正文 def conv(filters, kernel_size, strides=1): return Conv2D(filters, kernel_size,
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News