Modality Gap 模態間隙

更新 發佈閱讀 2 分鐘

「Modality Gap」是在多模態機器學習中常見的一種幾何現象,指的是不同模態(例如影像和文字)的向量表示在共享的嵌入空間中彼此保持一定距離、分開分布,形成一個明顯的「間隙」。

具體來說,這個現象在多模態對比學習模型(如CLIP)中尤為突出:不同模態的資料在嵌入空間被「嵌入」在彼此分開的區域,呈現出「手臂長度」的距離。這種「modality gap」現象是由模型初始化(隨機初始權重導致兩個編碼器的表示向量在不同錐形空間)以及對比學習優化過程共同作用所造成。對比學習中的溫度參數常會影響這種距離的大小。

有趣的是,modality gap並非一定是負面現象。研究發現增加這種間隙距離往往能在一些下游任務(如零樣本分類和公平性任務)中提升模型表現。這表示modality gap可能是多模態表示學習的自然幾何結果,而非必須去消除的問題。

研究也指出,不同數據集、對比學習方法及超參數設定(例如溫度調節)都會影響modality gap的形成和大小,並且減少這個間隙不一定會持續帶來下游任務性能的提升。

總結:

  • Modality Gap是多模態模型中,不同模態嵌入在共享空間中分開的「間隙」現象。
  • 原因來自模型隨機初始化和對比學習過程中的優化方式。
  • 溫度參數在對比學習損失中對modality gap的大小有關鍵影響。
  • 增加modality gap有時會提升模型下游任務的表現和公平性,並非絕對的缺陷。
  • 減少gap不一定改善性能,可能是對多模態學習的自然表徵。

這些研究有助於我們更好理解多模態模型的表示學習機制,並透過調整溫度和對比損失設計優化模型。

留言
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
46會員
572內容數
現職 : 富邦建設資訊副理 證照:經濟部 iPAS AI應用規劃師 初級+中級(數據分析) AWS AIF-C01 AWS CLF-C02 Microsoft AI-900 其他:富邦美術館志工
2025/08/19
目前知名的多模態預訓練模型主要包括以下幾種: CLIP:由OpenAI提出,採用對比學習方法,同時訓練一個視覺編碼器和一個語言編碼器,使模型能將影像與其對應的文字描述關聯起來,是多模態學習的基礎突破。wbolt LLaVA:結合強大的視覺編碼器和大型語言模型,採用兩階段訓練,第一階段為大規模多模
2025/08/19
目前知名的多模態預訓練模型主要包括以下幾種: CLIP:由OpenAI提出,採用對比學習方法,同時訓練一個視覺編碼器和一個語言編碼器,使模型能將影像與其對應的文字描述關聯起來,是多模態學習的基礎突破。wbolt LLaVA:結合強大的視覺編碼器和大型語言模型,採用兩階段訓練,第一階段為大規模多模
2025/08/19
數據對齊(Data Alignment)**主要是指在多模態或多來源數據中,把不同類型或不同時間點的數據正確匹配或關聯起來。例如在視覺語言模型中,將圖像和其對應的文字描述對齊,使模型能學會圖像和文字之間的關聯和映射。重點是準確地匹配不同數據間的內容或語義。
2025/08/19
數據對齊(Data Alignment)**主要是指在多模態或多來源數據中,把不同類型或不同時間點的數據正確匹配或關聯起來。例如在視覺語言模型中,將圖像和其對應的文字描述對齊,使模型能學會圖像和文字之間的關聯和映射。重點是準確地匹配不同數據間的內容或語義。
2025/08/19
DALL·E 是由 OpenAI 開發的文本到圖像生成模型,能根據自然語言描述(prompt)生成多樣且具有創意的數字圖像。它基於 Transformer 架構,將語言和圖像視覺內容結合,實現文字指令到圖片的轉換。 主要技術特點: • 架構組成:包括離散變分自編碼器(discrete VAE)
2025/08/19
DALL·E 是由 OpenAI 開發的文本到圖像生成模型,能根據自然語言描述(prompt)生成多樣且具有創意的數字圖像。它基於 Transformer 架構,將語言和圖像視覺內容結合,實現文字指令到圖片的轉換。 主要技術特點: • 架構組成:包括離散變分自編碼器(discrete VAE)
看更多
你可能也想看
Thumbnail
大語言模型(如GPT-3和GPT-4)的出現改變了我們與機器互動的方式。這些模型能夠理解和生成自然語言,實現許多以前無法想像的應用。然而,你可能會好奇,這些模型究竟是如何理解語言的?這裡,我們來探討一個關鍵的概念:「一切語義都是關係」。
Thumbnail
大語言模型(如GPT-3和GPT-4)的出現改變了我們與機器互動的方式。這些模型能夠理解和生成自然語言,實現許多以前無法想像的應用。然而,你可能會好奇,這些模型究竟是如何理解語言的?這裡,我們來探討一個關鍵的概念:「一切語義都是關係」。
Thumbnail
在上一篇中,我們在模型探討隨機截距交叉延宕模式加入為預測或結果變量。而在Extension 2中,可以使用的分類變量進行Multiple group分析。這種方法常用在探討調節效果是否成立,本文將簡介其意義和語法。
Thumbnail
在上一篇中,我們在模型探討隨機截距交叉延宕模式加入為預測或結果變量。而在Extension 2中,可以使用的分類變量進行Multiple group分析。這種方法常用在探討調節效果是否成立,本文將簡介其意義和語法。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
全新版本的《三便士歌劇》如何不落入「復刻經典」的巢臼,反而利用華麗的秀場視覺,引導觀眾在晚期資本主義的消費愉悅之中,而能驚覺「批判」本身亦可能被收編——而當絞繩升起,這場關於如何生存的黑色遊戲,又將帶領新時代的我們走向何種後現代的自我解構?
Thumbnail
全新版本的《三便士歌劇》如何不落入「復刻經典」的巢臼,反而利用華麗的秀場視覺,引導觀眾在晚期資本主義的消費愉悅之中,而能驚覺「批判」本身亦可能被收編——而當絞繩升起,這場關於如何生存的黑色遊戲,又將帶領新時代的我們走向何種後現代的自我解構?
Thumbnail
跨領域合作與溝通 在現代AI時代中,跨領域合作與溝通能力已成為不可或缺的重要職能。隨著技術不斷發展,AI項目通常需要來自不同領域的專業知識,如技術、設計、業務等。因此,能夠與來自不同背景的人有效溝通和合作,成為實現成功的關鍵。 跨領域合作的重要性 跨領域合作涉及將不同領域的專業知識和技
Thumbnail
跨領域合作與溝通 在現代AI時代中,跨領域合作與溝通能力已成為不可或缺的重要職能。隨著技術不斷發展,AI項目通常需要來自不同領域的專業知識,如技術、設計、業務等。因此,能夠與來自不同背景的人有效溝通和合作,成為實現成功的關鍵。 跨領域合作的重要性 跨領域合作涉及將不同領域的專業知識和技
Thumbnail
有溝沒有通,是因為即便頭腦理解,身體卻經驗著限制。
Thumbnail
有溝沒有通,是因為即便頭腦理解,身體卻經驗著限制。
Thumbnail
若說易卜生的《玩偶之家》為 19 世紀的女性,開啟了一扇離家的窄門,那麼《海妲.蓋柏樂》展現的便是門後的窒息世界。本篇文章由劇場演員 Amily 執筆,同為熟稔文本的演員,亦是深刻體察制度縫隙的當代女性,此文所看見的不僅僅是崩壞前夕的最後發聲,更是女人被迫置於冷酷的制度之下,步步陷入無以言說的困境。
Thumbnail
若說易卜生的《玩偶之家》為 19 世紀的女性,開啟了一扇離家的窄門,那麼《海妲.蓋柏樂》展現的便是門後的窒息世界。本篇文章由劇場演員 Amily 執筆,同為熟稔文本的演員,亦是深刻體察制度縫隙的當代女性,此文所看見的不僅僅是崩壞前夕的最後發聲,更是女人被迫置於冷酷的制度之下,步步陷入無以言說的困境。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 仔細看 AI說書 - 從0開始 - 66 中,Decoder 的 Multi-Head Attention 框框,會發現有一條線空接,其實它是有意義的,之所以空接,是因
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 仔細看 AI說書 - 從0開始 - 66 中,Decoder 的 Multi-Head Attention 框框,會發現有一條線空接,其實它是有意義的,之所以空接,是因
Thumbnail
前言 讀了許多理論,是時候實際動手做做看了,以下是我的模型訓練初體驗,有點糟就是了XD。 正文 def conv(filters, kernel_size, strides=1): return Conv2D(filters, kernel_size,
Thumbnail
前言 讀了許多理論,是時候實際動手做做看了,以下是我的模型訓練初體驗,有點糟就是了XD。 正文 def conv(filters, kernel_size, strides=1): return Conv2D(filters, kernel_size,
Thumbnail
之前已經說過限制模型,接下來進入下一部份根據Mulder and Hamaker (2021)建議,在 RI-CLPM 中,有許多擴展模型,今天要介紹的是 Extension 1。Extension 1就是加入跨時間不變的預測或結果變項,本文將介紹此模型構造和語法。
Thumbnail
之前已經說過限制模型,接下來進入下一部份根據Mulder and Hamaker (2021)建議,在 RI-CLPM 中,有許多擴展模型,今天要介紹的是 Extension 1。Extension 1就是加入跨時間不變的預測或結果變項,本文將介紹此模型構造和語法。
Thumbnail
長期以來,西方美學以《維特魯威人》式的幾何比例定義「完美身體」,這種視覺標準無形中成為殖民擴張與種族分類的暴力工具。本文透過分析奈及利亞編舞家庫德斯.奧尼奎庫的舞作《轉轉生》,探討當代非洲舞蹈如何跳脫「標本式」的文化觀看。
Thumbnail
長期以來,西方美學以《維特魯威人》式的幾何比例定義「完美身體」,這種視覺標準無形中成為殖民擴張與種族分類的暴力工具。本文透過分析奈及利亞編舞家庫德斯.奧尼奎庫的舞作《轉轉生》,探討當代非洲舞蹈如何跳脫「標本式」的文化觀看。
Thumbnail
本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇:帕拉贊諾夫的十段殘篇》,如何以十段殘篇,結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭,探討藝術在儀式消失的現代社會如何承接意義,並展現不羈的自由靈魂。
Thumbnail
本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇:帕拉贊諾夫的十段殘篇》,如何以十段殘篇,結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭,探討藝術在儀式消失的現代社會如何承接意義,並展現不羈的自由靈魂。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News