Modality Gap 模態間隙

2025/08/19 更新2025/08/19 發佈閱讀 2 分鐘

「Modality Gap」是在多模態機器學習中常見的一種幾何現象，指的是不同模態（例如影像和文字）的向量表示在共享的嵌入空間中彼此保持一定距離、分開分布，形成一個明顯的「間隙」。

具體來說，這個現象在多模態對比學習模型（如CLIP）中尤為突出：不同模態的資料在嵌入空間被「嵌入」在彼此分開的區域，呈現出「手臂長度」的距離。這種「modality gap」現象是由模型初始化（隨機初始權重導致兩個編碼器的表示向量在不同錐形空間）以及對比學習優化過程共同作用所造成。對比學習中的溫度參數常會影響這種距離的大小。

有趣的是，modality gap並非一定是負面現象。研究發現增加這種間隙距離往往能在一些下游任務（如零樣本分類和公平性任務）中提升模型表現。這表示modality gap可能是多模態表示學習的自然幾何結果，而非必須去消除的問題。

研究也指出，不同數據集、對比學習方法及超參數設定（例如溫度調節）都會影響modality gap的形成和大小，並且減少這個間隙不一定會持續帶來下游任務性能的提升。

總結：

Modality Gap是多模態模型中，不同模態嵌入在共享空間中分開的「間隙」現象。
原因來自模型隨機初始化和對比學習過程中的優化方式。
溫度參數在對比學習損失中對modality gap的大小有關鍵影響。
增加modality gap有時會提升模型下游任務的表現和公平性，並非絕對的缺陷。
減少gap不一定改善性能，可能是對多模態學習的自然表徵。

這些研究有助於我們更好理解多模態模型的表示學習機制，並透過調整溫度和對比損失設計優化模型。

含 AI 應用內容

郝信華 iPAS AI應用規劃師學習筆記多模態人工智慧應用

留言

郝信華 iPAS AI應用規劃師學習筆記

46會員

572內容數

現職 : 富邦建設資訊副理證照：經濟部 iPAS AI應用規劃師初級+中級(數據分析) AWS AIF-C01 AWS CLF-C02 Microsoft AI-900 其他：富邦美術館志工

郝信華 iPAS AI應用規劃師學習筆記的其他內容

2025/08/19

多模態預訓練模型

目前知名的多模態預訓練模型主要包括以下幾種： CLIP：由OpenAI提出，採用對比學習方法，同時訓練一個視覺編碼器和一個語言編碼器，使模型能將影像與其對應的文字描述關聯起來，是多模態學習的基礎突破。wbolt LLaVA：結合強大的視覺編碼器和大型語言模型，採用兩階段訓練，第一階段為大規模多模

2025/08/19

多模態預訓練模型

2025/08/19

數據對齊（Data Alignment）

數據對齊（Data Alignment）**主要是指在多模態或多來源數據中，把不同類型或不同時間點的數據正確匹配或關聯起來。例如在視覺語言模型中，將圖像和其對應的文字描述對齊，使模型能學會圖像和文字之間的關聯和映射。重點是準確地匹配不同數據間的內容或語義。

2025/08/19

數據對齊（Data Alignment）

2025/08/19

DALL·E

DALL·E 是由 OpenAI 開發的文本到圖像生成模型，能根據自然語言描述（prompt）生成多樣且具有創意的數字圖像。它基於 Transformer 架構，將語言和圖像視覺內容結合，實現文字指令到圖片的轉換。主要技術特點： • 架構組成：包括離散變分自編碼器（discrete VAE）

2025/08/19

你可能也想看

大語言模型（如GPT-3和GPT-4）的出現改變了我們與機器互動的方式。這些模型能夠理解和生成自然語言，實現許多以前無法想像的應用。然而，你可能會好奇，這些模型究竟是如何理解語言的？這裡，我們來探討一個關鍵的概念：「一切語義都是關係」。

2024/05/20

2024/05/20

隨機截距交叉延宕模式Extension 2: Multiple group(5)

在上一篇中，我們在模型探討隨機截距交叉延宕模式加入為預測或結果變量。而在Extension 2中，可以使用的分類變量進行Multiple group分析。這種方法常用在探討調節效果是否成立，本文將簡介其意義和語法。

#限制#MOD#隨機

2024/03/15

教育心理博士的筆記本

隨機截距交叉延宕模式Extension 2: Multiple group(5)

#限制#MOD#隨機

2024/03/15

Learn AI 不 BI

AI說書 - 從0開始 - 130 | Masked Language Modeling 訓練

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 129 中說，Bidirectional Encoder Representations from Transformers (BER

#AI#ai#PromptEngineering

2024/08/13

Learn AI 不 BI

AI說書 - 從0開始 - 130 | Masked Language Modeling 訓練

#AI#ai#PromptEngineering

2024/08/13

釀電影，啜一口電影的美好。

吃完飯後再談道德，除魅之後再復魅：巴里．柯斯基與柏林劇團的《三便士歌劇》

全新版本的《三便士歌劇》如何不落入「復刻經典」的巢臼，反而利用華麗的秀場視覺，引導觀眾在晚期資本主義的消費愉悅之中，而能驚覺「批判」本身亦可能被收編——而當絞繩升起，這場關於如何生存的黑色遊戲，又將帶領新時代的我們走向何種後現代的自我解構？

#2026北藝嚴選#BarrieKosky#BerlinerEnsemble

2026/03/10

釀電影，啜一口電影的美好。

吃完飯後再談道德，除魅之後再復魅：巴里．柯斯基與柏林劇團的《三便士歌劇》

#2026北藝嚴選#BarrieKosky#BerlinerEnsemble

2026/03/10

普普文創

【文創漫談】跨領域合作與溝通能力 | 如何利用AI | 增強能力

跨領域合作與溝通在現代AI時代中，跨領域合作與溝通能力已成為不可或缺的重要職能。隨著技術不斷發展，AI項目通常需要來自不同領域的專業知識，如技術、設計、業務等。因此，能夠與來自不同背景的人有效溝通和合作，成為實現成功的關鍵。跨領域合作的重要性跨領域合作涉及將不同領域的專業知識和技

#文創漫談#跨領域合作與溝通能力#如何利用AI

2024/08/02

普普文創

【文創漫談】跨領域合作與溝通能力 | 如何利用AI | 增強能力

#文創漫談#跨領域合作與溝通能力#如何利用AI

2024/08/02

Saraha的情緒拾光手扎

溝通，有溝沒有通？

有溝沒有通，是因為即便頭腦理解，身體卻經驗著限制。

#溝通#限制#理解

2024/05/15

Saraha的情緒拾光手扎

溝通，有溝沒有通？

有溝沒有通，是因為即便頭腦理解，身體卻經驗著限制。

#溝通#限制#理解

2024/05/15

Amily的沙龍

在理解與拒絕之間：從多重身分觀看《海妲．蓋柏樂》

若說易卜生的《玩偶之家》為 19 世紀的女性，開啟了一扇離家的窄門，那麼《海妲．蓋柏樂》展現的便是門後的窒息世界。本篇文章由劇場演員 Amily 執筆，同為熟稔文本的演員，亦是深刻體察制度縫隙的當代女性，此文所看見的不僅僅是崩壞前夕的最後發聲，更是女人被迫置於冷酷的制度之下，步步陷入無以言說的困境。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/28