Hybrid Fusion(混合融合)

更新 發佈閱讀 2 分鐘

Hybrid Fusion(混合融合)是多模態學習中的一種融合策略,結合了早期融合(Early Fusion)和晚期融合(Late Fusion)的方法優點,旨在彈性地利用不同模態間的信息,提高融合效果。

Hybrid Fusion的主要特點:

  • 部分模態早期融合:將部分相關性較強或結構相似的模態在特徵層進行融合,捕捉它們之間的細緻互動。
  • 其他模態晚期融合:對於結構差異大或難以直接融合的模態,先獨立提取高階特徵或決策後,再在輸出層進行融合。
  • 多階段融合過程:融合過程可能包括多個融合層次和方式的組合,既充分融合內部模式,也保持部分模態的獨立性。
  • 靈活性高:能根據數據特徵、計算資源及任務需求調整不同模態融合的階段和方式。

優點:

  • 兼顧信息豐富性與計算效率:利用早期融合捕捉模態間深度交互,避免純晚期融合可能丟失的細節;同時減少過度維度擴張帶來的計算負擔。
  • 提高模型魯棒性:對缺失或不完整模態有更好容錯能力,適應多變的多模態場景。
  • 支持複雜多模態任務:適合結構多樣且多模態數據量大的實際應用。

應用示例:

  • 視覺語言模型中,先融合圖像和局部語義特徵,再與全局語言模型輸出進行晚期融合。
  • 影像與音訊分析任務,部分融合低層特徵,部分融合分類器輸出。


總結來說,Hybrid Fusion是將早期融合和晚期融合有機結合,通過多層次融合策略實現多模態數據的高效整合與靈活應用,是多模態深度學習中越來越普遍且高效的融合方法。

留言
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
44會員
572內容數
現職 : 富邦建設資訊副理 證照:經濟部 iPAS AI應用規劃師 初級+中級(數據分析) AWS AIF-C01 AWS CLF-C02 Microsoft AI-900 其他:富邦美術館志工
2025/08/18
Late Fusion(晚期融合),也稱為決策層融合,是多模態學習中的一種融合策略。它的核心特點是在各模態經過獨立模型處理並生成各自的預測結果後,再將這些結果進行合併(融合)以得到最終決策。 Late Fusion 的運作流程: 獨立訓練模態模型:對每個模態(如圖像、文字、音訊)分別訓練獨立模型
2025/08/18
Late Fusion(晚期融合),也稱為決策層融合,是多模態學習中的一種融合策略。它的核心特點是在各模態經過獨立模型處理並生成各自的預測結果後,再將這些結果進行合併(融合)以得到最終決策。 Late Fusion 的運作流程: 獨立訓練模態模型:對每個模態(如圖像、文字、音訊)分別訓練獨立模型
2025/08/18
Early Fusion(早期融合),又稱為特徵層融合,是多模態表示學習中的一種融合策略。它的核心思想是在數據輸入模型前,將來自不同模態的原始數據或特徵先行整合為一個統一的特徵向量,再作為模型的輸入進行學習。 主要流程: 特徵提取:從每個模態(如影像、音訊、文字)提取原始或低階特徵。 特徵拼接
2025/08/18
Early Fusion(早期融合),又稱為特徵層融合,是多模態表示學習中的一種融合策略。它的核心思想是在數據輸入模型前,將來自不同模態的原始數據或特徵先行整合為一個統一的特徵向量,再作為模型的輸入進行學習。 主要流程: 特徵提取:從每個模態(如影像、音訊、文字)提取原始或低階特徵。 特徵拼接
2025/08/18
Coordinated Representation(協調表示)是多模態學習中一種表示學習策略,與Joint Representation(聯合表示)相對。其核心思想是:將不同模態的數據映射到各自的專屬表示空間中,但同時通過某種約束或優化方法,使這些不同空間的表示相互協調、保持語義一致性。 主要特
2025/08/18
Coordinated Representation(協調表示)是多模態學習中一種表示學習策略,與Joint Representation(聯合表示)相對。其核心思想是:將不同模態的數據映射到各自的專屬表示空間中,但同時通過某種約束或優化方法,使這些不同空間的表示相互協調、保持語義一致性。 主要特
看更多
你可能也想看
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 講完 Transformer 之 Encoder 架構中的 Embedding 與 Positional Encoding 部分,現在進入 Multi-Head Att
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 講完 Transformer 之 Encoder 架構中的 Embedding 與 Positional Encoding 部分,現在進入 Multi-Head Att
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 到 AI說書 - 從0開始 - 63 為止,我們已經介紹完 Multi-Head Attention ,接著我們來談 Add & Norm 兩元件的功能: Add
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 到 AI說書 - 從0開始 - 63 為止,我們已經介紹完 Multi-Head Attention ,接著我們來談 Add & Norm 兩元件的功能: Add
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 先做個總回顧: Transformer 架構總覽:AI說書 - 從0開始 - 39 Attention 意圖說明:AI說書 - 從0開始 - 40 Transfo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 先做個總回顧: Transformer 架構總覽:AI說書 - 從0開始 - 39 Attention 意圖說明:AI說書 - 從0開始 - 40 Transfo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
最近在嘗試使用不同的AI生圖方式混合出圖的方式,採用A平台的優點,並用B平台後製的手法截長補短,創造出自己更想要的小說場景,效果不錯,現在以這張圖為例,來講一下我的製作步驟。
Thumbnail
最近在嘗試使用不同的AI生圖方式混合出圖的方式,採用A平台的優點,並用B平台後製的手法截長補短,創造出自己更想要的小說場景,效果不錯,現在以這張圖為例,來講一下我的製作步驟。
Thumbnail
  最近遇到一些人想做音訊的合成,我回答他或許可以從圖像風格轉換中找到些靈感,我才突然想起我對於這部分的認知只止於知道他能做什麼及結果大概如何,對於內部訓練邏輯及結構並沒有認真的去了解,現在剛好趁此機會好好的學習一下。
Thumbnail
  最近遇到一些人想做音訊的合成,我回答他或許可以從圖像風格轉換中找到些靈感,我才突然想起我對於這部分的認知只止於知道他能做什麼及結果大概如何,對於內部訓練邏輯及結構並沒有認真的去了解,現在剛好趁此機會好好的學習一下。
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續AI說書 - 從0開始 - 44說完 Embedding ,下一步就是闡述 Positional Embedding,其於原始 Transformer 架構中的角色
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續AI說書 - 從0開始 - 44說完 Embedding ,下一步就是闡述 Positional Embedding,其於原始 Transformer 架構中的角色
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News