Late Fusion(晚期融合)

更新 發佈閱讀 2 分鐘

Late Fusion(晚期融合),也稱為決策層融合,是多模態學習中的一種融合策略。它的核心特點是在各模態經過獨立模型處理並生成各自的預測結果後,再將這些結果進行合併(融合)以得到最終決策。

Late Fusion 的運作流程:

  1. 獨立訓練模態模型:對每個模態(如圖像、文字、音訊)分別訓練獨立模型。
  2. 生成各自預測:每個模型根據自己的輸入模態產生預測結果(如分類概率分布)。
  3. 融合預測結果:通過投票(majority voting)、加權平均(weighted averaging)、置信度加權(confidence weighting)或訓練一個融合模型(如元學習器)等方法合併多個預測。
  4. 產生最終決策:融合後的結果作為最終輸出。

優點:

  • 模組化強:不同模態的模型可以獨立設計、訓練與優化,方便維護與擴展。
  • 彈性高:新增或移除模態比較容易,不需重新訓練整個多模態模型。
  • 降低維度災難:避免早期融合將多模態特徵拼接帶來的高維計算與過擬合問題。
  • 缺失模態容錯:即使部分模態不可用,只要其他模態模型正常可用,系統仍能做出決策。

缺點:

  • 缺乏跨模態深度交互:因為模態獨立處理,可能無法捕捉模態間細緻且有利的互動信息。
  • 性能限制:在需要強調模態間語義融合的任務上,晚期融合方法性能可能不及早期融合。

適用場景:

  • 各模態數據來自完全不同源且差異較大,
  • 需要靈活組合多模態模型的應用,
  • 計算資源有限或訓練資料有限時。


總結來說,Late Fusion是一種先分別處理多模態數據並獨立產生預測,最後在決策層融合結果的策略,強調模組間解耦與靈活性,適用於模態差異大且需容錯多模態系統。

留言
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
44會員
572內容數
現職 : 富邦建設資訊副理 證照:經濟部 iPAS AI應用規劃師 初級+中級(數據分析) AWS AIF-C01 AWS CLF-C02 Microsoft AI-900 其他:富邦美術館志工
2025/08/18
Early Fusion(早期融合),又稱為特徵層融合,是多模態表示學習中的一種融合策略。它的核心思想是在數據輸入模型前,將來自不同模態的原始數據或特徵先行整合為一個統一的特徵向量,再作為模型的輸入進行學習。 主要流程: 特徵提取:從每個模態(如影像、音訊、文字)提取原始或低階特徵。 特徵拼接
2025/08/18
Early Fusion(早期融合),又稱為特徵層融合,是多模態表示學習中的一種融合策略。它的核心思想是在數據輸入模型前,將來自不同模態的原始數據或特徵先行整合為一個統一的特徵向量,再作為模型的輸入進行學習。 主要流程: 特徵提取:從每個模態(如影像、音訊、文字)提取原始或低階特徵。 特徵拼接
2025/08/18
Coordinated Representation(協調表示)是多模態學習中一種表示學習策略,與Joint Representation(聯合表示)相對。其核心思想是:將不同模態的數據映射到各自的專屬表示空間中,但同時通過某種約束或優化方法,使這些不同空間的表示相互協調、保持語義一致性。 主要特
2025/08/18
Coordinated Representation(協調表示)是多模態學習中一種表示學習策略,與Joint Representation(聯合表示)相對。其核心思想是:將不同模態的數據映射到各自的專屬表示空間中,但同時通過某種約束或優化方法,使這些不同空間的表示相互協調、保持語義一致性。 主要特
2025/08/18
Joint Representation(聯合表示)是多模態學習中的重要策略之一,指的是將來自不同模態(如文字、圖像、音訊等)的數據,同時編碼並映射到一個共享的高維向量空間中,形成一個統一的數據表示。這種表示方法試圖捕捉並融合各模態間的互補信息與共通語義,讓模型能對多源資料進行更深度的理解與推理。
2025/08/18
Joint Representation(聯合表示)是多模態學習中的重要策略之一,指的是將來自不同模態(如文字、圖像、音訊等)的數據,同時編碼並映射到一個共享的高維向量空間中,形成一個統一的數據表示。這種表示方法試圖捕捉並融合各模態間的互補信息與共通語義,讓模型能對多源資料進行更深度的理解與推理。
看更多
你可能也想看
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 以下陳述任務 (Task)、模型 (Model)、微調 (Fine-Tuning)、GLUE (General Language Understanding Evalu
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 以下陳述任務 (Task)、模型 (Model)、微調 (Fine-Tuning)、GLUE (General Language Understanding Evalu
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
最近在嘗試使用不同的AI生圖方式混合出圖的方式,採用A平台的優點,並用B平台後製的手法截長補短,創造出自己更想要的小說場景,效果不錯,現在以這張圖為例,來講一下我的製作步驟。
Thumbnail
最近在嘗試使用不同的AI生圖方式混合出圖的方式,採用A平台的優點,並用B平台後製的手法截長補短,創造出自己更想要的小說場景,效果不錯,現在以這張圖為例,來講一下我的製作步驟。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 講完 Transformer 之 Encoder 架構中的 Embedding 與 Positional Encoding 部分,現在進入 Multi-Head Att
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 講完 Transformer 之 Encoder 架構中的 Embedding 與 Positional Encoding 部分,現在進入 Multi-Head Att
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 接著來談 Transformer 架構中的 Feedforward Network (FFN): 其為全連接的神經網路架構 回顧 AI說書 - 從0開始 - 64
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 接著來談 Transformer 架構中的 Feedforward Network (FFN): 其為全連接的神經網路架構 回顧 AI說書 - 從0開始 - 64
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News