「Modality Gap」是在多模態機器學習中常見的一種幾何現象,指的是不同模態(例如影像和文字)的向量表示在共享的嵌入空間中彼此保持一定距離、分開分布,形成一個明顯的「間隙」。
具體來說,這個現象在多模態對比學習模型(如CLIP)中尤為突出:不同模態的資料在嵌入空間被「嵌入」在彼此分開的區域,呈現出「手臂長度」的距離。這種「modality gap」現象是由模型初始化(隨機初始權重導致兩個編碼器的表示向量在不同錐形空間)以及對比學習優化過程共同作用所造成。對比學習中的溫度參數常會影響這種距離的大小。有趣的是,modality gap並非一定是負面現象。研究發現增加這種間隙距離往往能在一些下游任務(如零樣本分類和公平性任務)中提升模型表現。這表示modality gap可能是多模態表示學習的自然幾何結果,而非必須去消除的問題。
研究也指出,不同數據集、對比學習方法及超參數設定(例如溫度調節)都會影響modality gap的形成和大小,並且減少這個間隙不一定會持續帶來下游任務性能的提升。
總結:
- Modality Gap是多模態模型中,不同模態嵌入在共享空間中分開的「間隙」現象。
- 原因來自模型隨機初始化和對比學習過程中的優化方式。
- 溫度參數在對比學習損失中對modality gap的大小有關鍵影響。
- 增加modality gap有時會提升模型下游任務的表現和公平性,並非絕對的缺陷。
- 減少gap不一定改善性能,可能是對多模態學習的自然表徵。
這些研究有助於我們更好理解多模態模型的表示學習機制,並透過調整溫度和對比損失設計優化模型。


















