Multimodal Machine Translation(多模態機器翻譯,MMT)

更新 發佈閱讀 2 分鐘

Multimodal Machine Translation(多模態機器翻譯,MMT)是一種結合多種模態信息(例如文本、圖像、語音等)來提升機器翻譯質量的技術。傳統機器翻譯多依賴純文字,而多模態機器翻譯則利用與文本相關的視覺、語音信息,增強語義理解和上下文判斷。

Multimodal Machine Translation 的主要特點:

多信息融合:除文字外,模型還會引入與文本相關的圖像或語音特徵,通過融合多模態數據來幫助理解句意,解決文本中詞義模糊或歧義問題。

多模態 Transformer 架構:通常基於 Transformer 架構,加入跨模態注意力(cross-attention)等機制實現圖像與文本的相互影響。

提升翻譯準確率與流暢度:模態間的互補信息有助於生成更貼切上下文及文化背景的目標語句。

應用場景與研究重點:

圖像說明文本的跨語言翻譯,例如旅遊圖片配文翻譯、多語種社交媒體內容翻譯。

聲音和語言融合,改善口語或方言的理解與翻譯。

解決純文字翻譯中遇到的詞義不明、上下文資訊不足等問題。

簡單比喻:

多模態機器翻譯就像同時看圖片和聽講解來理解一段話,更全面、準確地翻譯意思。

總結:

Multimodal Machine Translation 是結合文字與其他感官信息(如圖像、語音)的智能翻譯方法,借助多模態融合提高翻譯的語義準確性和上下文適應能力,是機器翻譯領域的前沿研究方向。

留言
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
46會員
572內容數
現職 : 富邦建設資訊副理 證照:經濟部 iPAS AI應用規劃師 初級+中級(數據分析) AWS AIF-C01 AWS CLF-C02 Microsoft AI-900 其他:富邦美術館志工
2025/08/19
「Modality Gap」是在多模態機器學習中常見的一種幾何現象,指的是不同模態(例如影像和文字)的向量表示在共享的嵌入空間中彼此保持一定距離、分開分布,形成一個明顯的「間隙」。 具體來說,這個現象在多模態對比學習模型(如CLIP)中尤為突出:不同模態的資料在嵌入空間被「嵌入」在彼此分開的區域,
2025/08/19
「Modality Gap」是在多模態機器學習中常見的一種幾何現象,指的是不同模態(例如影像和文字)的向量表示在共享的嵌入空間中彼此保持一定距離、分開分布,形成一個明顯的「間隙」。 具體來說,這個現象在多模態對比學習模型(如CLIP)中尤為突出:不同模態的資料在嵌入空間被「嵌入」在彼此分開的區域,
2025/08/19
目前知名的多模態預訓練模型主要包括以下幾種: CLIP:由OpenAI提出,採用對比學習方法,同時訓練一個視覺編碼器和一個語言編碼器,使模型能將影像與其對應的文字描述關聯起來,是多模態學習的基礎突破。wbolt LLaVA:結合強大的視覺編碼器和大型語言模型,採用兩階段訓練,第一階段為大規模多模
2025/08/19
目前知名的多模態預訓練模型主要包括以下幾種: CLIP:由OpenAI提出,採用對比學習方法,同時訓練一個視覺編碼器和一個語言編碼器,使模型能將影像與其對應的文字描述關聯起來,是多模態學習的基礎突破。wbolt LLaVA:結合強大的視覺編碼器和大型語言模型,採用兩階段訓練,第一階段為大規模多模
2025/08/19
數據對齊(Data Alignment)**主要是指在多模態或多來源數據中,把不同類型或不同時間點的數據正確匹配或關聯起來。例如在視覺語言模型中,將圖像和其對應的文字描述對齊,使模型能學會圖像和文字之間的關聯和映射。重點是準確地匹配不同數據間的內容或語義。
2025/08/19
數據對齊(Data Alignment)**主要是指在多模態或多來源數據中,把不同類型或不同時間點的數據正確匹配或關聯起來。例如在視覺語言模型中,將圖像和其對應的文字描述對齊,使模型能學會圖像和文字之間的關聯和映射。重點是準確地匹配不同數據間的內容或語義。
看更多
你可能也想看
Thumbnail
本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇:帕拉贊諾夫的十段殘篇》,如何以十段殘篇,結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭,探討藝術在儀式消失的現代社會如何承接意義,並展現不羈的自由靈魂。
Thumbnail
本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇:帕拉贊諾夫的十段殘篇》,如何以十段殘篇,結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭,探討藝術在儀式消失的現代社會如何承接意義,並展現不羈的自由靈魂。
Thumbnail
單語者是使用或通曉一種語言的人,通常為母語;多語者是使用或通曉多國語言的人,除了母語,還包括其他外語。
Thumbnail
單語者是使用或通曉一種語言的人,通常為母語;多語者是使用或通曉多國語言的人,除了母語,還包括其他外語。
Thumbnail
我們前面幾篇已經講完TTS技術的一大半架構了,知道了如何將聲學特徵重建回音訊波形,也從中可以知道要是聲學特徵不完善,最終取得的結果也會不自然,剩下要探討該如何將文字轉換成聲學特徵,且能夠自然地表現停頓及細節變化,讓我們開始吧。
Thumbnail
我們前面幾篇已經講完TTS技術的一大半架構了,知道了如何將聲學特徵重建回音訊波形,也從中可以知道要是聲學特徵不完善,最終取得的結果也會不自然,剩下要探討該如何將文字轉換成聲學特徵,且能夠自然地表現停頓及細節變化,讓我們開始吧。
Thumbnail
沉浸式翻譯是一款多功能的瀏覽器插件和手機APP,專門為僅懂中文的使用者打造。它支援瀏覽器的擴充插件,也支援手機APP,並且提供多項功能,包括實時雙語字幕翻譯、PDF翻譯功能、雙語EPUB電子書,以及鼠標懸停翻譯等。欲瞭解更多請訪問官網。
Thumbnail
沉浸式翻譯是一款多功能的瀏覽器插件和手機APP,專門為僅懂中文的使用者打造。它支援瀏覽器的擴充插件,也支援手機APP,並且提供多項功能,包括實時雙語字幕翻譯、PDF翻譯功能、雙語EPUB電子書,以及鼠標懸停翻譯等。欲瞭解更多請訪問官網。
Thumbnail
若說易卜生的《玩偶之家》為 19 世紀的女性,開啟了一扇離家的窄門,那麼《海妲.蓋柏樂》展現的便是門後的窒息世界。本篇文章由劇場演員 Amily 執筆,同為熟稔文本的演員,亦是深刻體察制度縫隙的當代女性,此文所看見的不僅僅是崩壞前夕的最後發聲,更是女人被迫置於冷酷的制度之下,步步陷入無以言說的困境。
Thumbnail
若說易卜生的《玩偶之家》為 19 世紀的女性,開啟了一扇離家的窄門,那麼《海妲.蓋柏樂》展現的便是門後的窒息世界。本篇文章由劇場演員 Amily 執筆,同為熟稔文本的演員,亦是深刻體察制度縫隙的當代女性,此文所看見的不僅僅是崩壞前夕的最後發聲,更是女人被迫置於冷酷的制度之下,步步陷入無以言說的困境。
Thumbnail
  在 AI 應用中,圖像、語音、文字三種可以說是主要應用,其中我一直以來都是專注於圖像上的研究,對於另兩種僅止於淺嚐,接下來就往音訊上研究看看,先從入門級的Text-To-Speech (TTL) 入場並一個個嘗試其他類型的應用,那麼,就讓我們開始吧。
Thumbnail
  在 AI 應用中,圖像、語音、文字三種可以說是主要應用,其中我一直以來都是專注於圖像上的研究,對於另兩種僅止於淺嚐,接下來就往音訊上研究看看,先從入門級的Text-To-Speech (TTL) 入場並一個個嘗試其他類型的應用,那麼,就讓我們開始吧。
Thumbnail
長期以來,西方美學以《維特魯威人》式的幾何比例定義「完美身體」,這種視覺標準無形中成為殖民擴張與種族分類的暴力工具。本文透過分析奈及利亞編舞家庫德斯.奧尼奎庫的舞作《轉轉生》,探討當代非洲舞蹈如何跳脫「標本式」的文化觀看。
Thumbnail
長期以來,西方美學以《維特魯威人》式的幾何比例定義「完美身體」,這種視覺標準無形中成為殖民擴張與種族分類的暴力工具。本文透過分析奈及利亞編舞家庫德斯.奧尼奎庫的舞作《轉轉生》,探討當代非洲舞蹈如何跳脫「標本式」的文化觀看。
Thumbnail
全新版本的《三便士歌劇》如何不落入「復刻經典」的巢臼,反而利用華麗的秀場視覺,引導觀眾在晚期資本主義的消費愉悅之中,而能驚覺「批判」本身亦可能被收編——而當絞繩升起,這場關於如何生存的黑色遊戲,又將帶領新時代的我們走向何種後現代的自我解構?
Thumbnail
全新版本的《三便士歌劇》如何不落入「復刻經典」的巢臼,反而利用華麗的秀場視覺,引導觀眾在晚期資本主義的消費愉悅之中,而能驚覺「批判」本身亦可能被收編——而當絞繩升起,這場關於如何生存的黑色遊戲,又將帶領新時代的我們走向何種後現代的自我解構?
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 118 安裝完 googletrans,現在示範如何從英文翻譯成法文: import googletrans translator
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 118 安裝完 googletrans,現在示範如何從英文翻譯成法文: import googletrans translator
Thumbnail
語言模型與文字表示以不同的方式來分析自然語言的詞語分佈及語意關係。本文章簡要介紹了語言模型、Word2vec、FastText、GloVe和Transformer等技術,並提供了實際的應用參考點,幫助讀者深入理解自然語言處理的技術。
Thumbnail
語言模型與文字表示以不同的方式來分析自然語言的詞語分佈及語意關係。本文章簡要介紹了語言模型、Word2vec、FastText、GloVe和Transformer等技術,並提供了實際的應用參考點,幫助讀者深入理解自然語言處理的技術。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 講完 Transformer 之 Encoder 架構中的 Embedding 與 Positional Encoding 部分,現在進入 Multi-Head Att
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 講完 Transformer 之 Encoder 架構中的 Embedding 與 Positional Encoding 部分,現在進入 Multi-Head Att
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News