多模態人類影片生成高度逼真動畫 OmniHuman-1 技術

更新 發佈閱讀 5 分鐘
vocus|新世代的創作平台
vocus|新世代的創作平台

多模態人類影片生成高度逼真動畫


OmniHuman-1 技術解析

OmniHuman-1 是由字節跳動(ByteDance)開發的端到端多模態人類影片生成框架,可透過單一人物圖像與動作訊號(如音訊、影片或姿勢數據)生成高度逼真的人類動畫。其核心基於Diffusion Transformer(DiT)架構,結合混合條件訓練策略,解決傳統方法因高品質數據稀缺導致的限制。

主要功能與特點

單圖生成影片:僅需一張人物圖像(半身、全身或特寫),無需複雜數據集即可生成流暢動作。

多模態輸入支援: 音訊驅動:同步口型、手勢與音樂節奏,適用於虛擬歌手或演講內容。

影片驅動:模仿特定動作(如舞蹈),或結合音訊與影片控制局部肢體。

泛用性:支援卡通、人造物體、動物,並適應不同長寬比(如直式9:16、正方形1:1)。

高真實度輸出:細節涵蓋光影、紋理與肢體協調,尤其在處理手部動作與持物互動時表現優異。

技術架構

模型設計: OmniHuman 主模型:整合文字、圖像、音訊、姿勢等輸入,透過Transformer區塊生成逐幀特徵。

混合條件訓練:分階段強化多模態處理能力: 預訓練:文字到影片(T2V)與文字輸入。

階段性擴充:逐步加入圖像、音訊與姿勢數據。

運作流程:輸入圖像與動作訊號後,模型將訊號轉換為運動特徵,再透過DiT架構合成連續影格。

使用方式

輸入準備: 上傳一張清晰人物圖像。

選擇動作訊號(例如:音檔、參考影片或姿勢數據)。

生成設定:可指定輸出的長寬比與風格(如寫實或卡通)。

輸出調整:依需求微調肢體動作或口型同步細節。

倫理與限制

潛在風險:可能被濫用於偽造名人影片或散布不實訊息,需嚴格審查生成內容。

技術限制: 輸入圖像品質直接影響輸出真實度。

複雜場景(如多人互動)處理能力有限。

現況與發展

目前OmniHuman-1尚未公開服務,官方提醒防範詐騙資訊,未來將透過字節跳動或TikTok相關平台發布更新。

OmniHuman-1 詳細報告

OmniHuman-1 是字節跳動(ByteDance)開發的端到端多模態人類影片生成框架,能夠從單張人物圖像和動作訊號(例如音訊、影片或姿勢數據)生成高度逼真的人類動畫。 它基於Diffusion Transformer(DiT)架構,並採用混合條件訓練策略,克服了傳統方法由於高品質數據稀缺而面臨的限制。

主要功能與特點

單圖生成影片:僅需一張人物圖像(可以是半身、全身或特寫)即可生成流暢自然的動作影片,無需複雜的數據集或多個影格。

多模態輸入支援:

音訊驅動:能夠精確同步口型、手勢與音樂節奏,適用於製作虛擬歌手或演講內容。

影片驅動:能夠模仿特定動作(例如舞蹈),或者結合音訊與影片來控制局部肢體運動。

廣泛的適用性:支援卡通、人造物體、動物等多種主題,並且可以適應不同的長寬比,例如直式 (9:16) 和正方形 (1:1)。

高真實度輸出:產生的影片在光影、紋理和肢體協調等細節方面都表現出色,尤其是在處理手部動作和持物互動時。

技術架構

模型設計:

OmniHuman 主模型:整合文字、圖像、音訊、姿勢等多種輸入,透過 Transformer 區塊生成逐幀特徵。

混合條件訓練:模型訓練分為多個階段,以強化多模態處理能力:預訓練:使用文字到影片(T2V)以及文字輸入。

階段性擴充:逐步加入圖像、音訊和姿勢數據。

運作流程:在接收到輸入圖像和動作訊號後,模型會將這些訊號轉換為運動特徵,然後透過 DiT 架構合成連續的影格。

使用方式

輸入準備:上傳一張清晰的人物圖像。

選擇適合的動作訊號(例如:音訊檔案、參考影片或姿勢數據)。

生成設定:可根據需求指定輸出的長寬比和影片風格(例如寫實或卡通)。

輸出調整:根據需要微調肢體動作或口型同步等細節。

倫理與限制

潛在風險:OmniHuman-1 可能被濫用,例如偽造名人影片或散布不實訊息,因此需要對生成內容進行嚴格審查.

技術限制:輸入圖像的品質會直接影響輸出影片的真實度。

對於複雜場景(例如多人互動)的處理能力可能有限。

現況與發展

目前,OmniHuman-1 尚未公開服務,官方提醒用戶注意防範詐騙資訊。字節跳動將在未來透過其官方管道或 TikTok 等相關平台發布更新。

特性 描述

模型類型 多模態人類影片生成框架

開發者 字節跳動 (ByteDance)

核心架構 Diffusion Transformer (DiT)

主要輸入 單張人物圖像,動作訊號 (音訊、影片、姿勢數據)

主要功能 從單張圖像生成逼真人物影片,支援多模態輸入驅動,適用於不同主題和長寬比

應用場景 娛樂、媒體、虛擬實境,例如製作電影、電視節目、遊戲等

使用注意事項 注意倫理風險,確保內容適當及尊重他人

目前狀態 尚未公開服務,注意詐騙資訊


未來發展 將透過字節跳動或 TikTok 相關平台發布更新

DiT (Diffusion Transformer)是什麼 一種用於生成模型的深度學習架構,特別適用於圖像和影片生成任務。它結合了擴散模型和 Transformer 模型的優點,能夠產生高品質、高解析度的輸出。

留言
avatar-img
AI.ESG.數位轉型顧問 沈重宗
83會員
640內容數
你可能也想看
Thumbnail
我們最早就是在做動畫,從一般廣告開始,慢慢去擴展不同的類型,比如說遊戲、角色動畫、電視與電影的特效……等等,但是越做越專業的情況下,我們就想再去做一些延伸,像是虛擬攝影棚跟虛擬製作,我們找到這些工作項目的共通元素去發展,甚至到後面我們還去做互動設計、沉浸式多媒體展覽與現在時下最熱門的AI生成技術。
Thumbnail
我們最早就是在做動畫,從一般廣告開始,慢慢去擴展不同的類型,比如說遊戲、角色動畫、電視與電影的特效……等等,但是越做越專業的情況下,我們就想再去做一些延伸,像是虛擬攝影棚跟虛擬製作,我們找到這些工作項目的共通元素去發展,甚至到後面我們還去做互動設計、沉浸式多媒體展覽與現在時下最熱門的AI生成技術。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
創建虛擬角色想要賦予生動表情,或是讓歷史人物更變得栩栩如生,利用 AI 模型即可將靜態人物照片變成擁有表情的動態影像。LivePortrait AI 模型可以分析影片中的人物表情,並將其套用至靜態照片,產生具有與影片人物相同表情的動態人像。
Thumbnail
創建虛擬角色想要賦予生動表情,或是讓歷史人物更變得栩栩如生,利用 AI 模型即可將靜態人物照片變成擁有表情的動態影像。LivePortrait AI 模型可以分析影片中的人物表情,並將其套用至靜態照片,產生具有與影片人物相同表情的動態人像。
Thumbnail
這篇介紹 Allor Plugin 的影像合成用節點。
Thumbnail
這篇介紹 Allor Plugin 的影像合成用節點。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
AI生成動漫圖片 爆出資料庫中有真人兒色
Thumbnail
AI生成動漫圖片 爆出資料庫中有真人兒色
Thumbnail
影片剪輯比較複雜 創作者不但要能文能武,還需要會影片剪輯。影片剪輯說起來就比較複雜,因為牽涉到比較多的面向。剛開始入手的時候很難理解,不過了解系統架構以後,其實也就那麼一回事。但是總得來說,耗時相對要多很多,比起一般的文章或繪圖,你也可能要耗時許多,因為他的素材就是比較多。 聲音素材、圖片素材、
Thumbnail
影片剪輯比較複雜 創作者不但要能文能武,還需要會影片剪輯。影片剪輯說起來就比較複雜,因為牽涉到比較多的面向。剛開始入手的時候很難理解,不過了解系統架構以後,其實也就那麼一回事。但是總得來說,耗時相對要多很多,比起一般的文章或繪圖,你也可能要耗時許多,因為他的素材就是比較多。 聲音素材、圖片素材、
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
本文探討了影像生成模型的多種應用,包括文字、圖像和聲音到影片的生成,涵蓋了GAN、Transformer和Diffusion等技術。透過回顧相關研究,分析影像生成技術的未來趨勢與挑戰,為讀者提供全面的理解與啟示。
Thumbnail
本文探討了影像生成模型的多種應用,包括文字、圖像和聲音到影片的生成,涵蓋了GAN、Transformer和Diffusion等技術。透過回顧相關研究,分析影像生成技術的未來趨勢與挑戰,為讀者提供全面的理解與啟示。
Thumbnail
Stable Diffusion 的 Mov2Mov 套件是一個非常強大的工具,讓你可以自動化和簡化視頻轉換過程。這個套件特別適合那些希望在視頻中進行面部替換、添加配件或改變角色外觀的人。這裡是關於這個套件的一些詳細介紹: 功能和優點 自動化視頻轉換: Mov2Mov 可以自動化視頻到
Thumbnail
Stable Diffusion 的 Mov2Mov 套件是一個非常強大的工具,讓你可以自動化和簡化視頻轉換過程。這個套件特別適合那些希望在視頻中進行面部替換、添加配件或改變角色外觀的人。這裡是關於這個套件的一些詳細介紹: 功能和優點 自動化視頻轉換: Mov2Mov 可以自動化視頻到
Thumbnail
此篇調查論文探討了Diffusion模型在文字、圖片和聲音轉換為影片,以及影片衍生和編輯的應用類型。作者也介紹了U-Net架構和Vision Transformer等生成圖像架構,並詳細探討了訓練模型的方法以及不同的影像資料集來源。
Thumbnail
此篇調查論文探討了Diffusion模型在文字、圖片和聲音轉換為影片,以及影片衍生和編輯的應用類型。作者也介紹了U-Net架構和Vision Transformer等生成圖像架構,並詳細探討了訓練模型的方法以及不同的影像資料集來源。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News