人工智慧如何生成聲音 第六章_生成式模型如何生成聲音:核心架構邏輯

更新 發佈閱讀 75 分鐘

在第五章中,我們討論了深度學習時代語音生成系統的主要架構,從Tacotron 與 FastSpeech 這類文字到聲學表徵的模型,到 WaveNet、HiFi-GAN 等神經聲碼器,再到 VITS、Matcha-TTS 這類逐漸走向整合式生成的近年方法。那一章的重點,是回答一個偏工程與系統設計的問題:現代 TTS 系統通常由哪些關鍵模組組成?它們各自解決什麼問題,又在品質、速度、穩定性與可控性之間做了哪些取捨?

第六章則要把視角再往上拉一層。我們不再先問「這個系統用了哪個模型」,而是改問:這些模型背後,其實各自站在怎樣的生成模型觀上? 為什麼有些方法選擇逐步自回歸生成,有些方法選擇先建立潛在空間,有些方法依賴對抗訓練,有些方法強調可逆映射,有些方法則把生成理解為反向去噪?換句話說,若第五章談的是現代語音生成系統的「架構地圖」,那麼第六章要討論的,就是這些架構背後更一般的理論骨架:生成式模型究竟如何理解「生成」本身。

6.1 生成模型的共同問題

既然第五章已經看過 Tacotron、FastSpeech、VITS、Matcha-TTS 等不同系統架構,現在我們可以更進一步的追問一個更根本的問題:這些模型雖然長得不一樣,但它們究竟都在試圖解決什麼共同難題? 若把模型名稱與工程細節先暫時拿開,我們會發現,無論是變分自編碼器、生成對抗網路、正規化流、擴散模型,還是後來以 Transformer 為核心的音訊 token 模型,它們其實都在回答同一件事:如何建立一個能夠生成真實聲音樣本的模型。

這裡所謂的「生成」,並不只是把某個輸入機械地轉成輸出而已。以聲音為例,給定同一段文字,模型不只要產生一段可播放的語音,還要讓它聽起來自然、符合條件,而且保留真實說話本來就存在的多樣性。換句話說,模型面對的不是一條唯一正確的答案,而是一整個可能的聲音空間;它的任務,是從這個空間中學會生成那些真正像人類語音、音樂或環境聲的樣本。

把這件事形式化地寫下來,我們可以假設存在一個真實但未知的資料分布 pdatax)。在聲音生成的語境中,x 可以是一段波形、一張 Mel 頻譜圖,或是一個音訊 token 序列。我們的目標,是學得一個參數化模型x),使它盡可能接近 pdatax),並且能夠從x)中高效地採樣,生成新的、真實的聲音樣本。

這個表述背後至少包含三個困難。第一,真實分布 pdatax) 本身是未知的。我們手上只有從這個分布中抽出的有限樣本,而沒有它的解析式。第二,聲音資料通常是高維的。對聲音而言,一秒 16 kHz 的波形就包含 16,000 個取樣點;一張 80 個 Mel 頻道、100 個時間幀的頻譜圖也有 8,000 個數值。在如此高維的空間裡,真實聲音其實只佔據一個相對低維的流形(manifold)附近;絕大多數隨機波形雖然在數學上是合法向量,在感知上卻只是雜訊。第三,聲音生成通常不是一對一映射。對同一段輸入文字,可以有多種自然的說法:語速可以不同、停頓可以不同、情緒可以不同,甚至同一位說話者也不會每次都用完全相同的韻律重複一句話。模型若只學到單一確定性輸出,就會犧牲自然語音原本的多樣性。

這也解釋了為什麼聲音生成幾乎總是條件生成(conditional generation)問題。文字轉語音要以文字為條件,語音轉語音要以參考音訊為條件,Text-to-Audio 則要以自然語言提示為條件。條件生成的形式化表述,可以寫成xc ),其中c 表示條件輸入。以下各節在介紹不同生成框架時,會先說明其無條件生成的基本邏輯,再討論條件如何加入。這樣做的目的,是讓讀者先看清楚各架構對「生成」這個一般問題的回答,再理解條件控制只是附加在這個骨架之上的另一層設計。

如果用更抽象的方式來說,所有生成模型其實都在處理三個共同挑戰:如何近似未知分布、如何在高維空間中找到真實資料所在的低維結構,以及如何保留一對多映射所帶來的隨機性與多樣性。不同架構之間真正的差異,不在於它們各自用了什麼流行名詞,而在於它們選擇從哪個角度切入這三個問題。

6.2 自回歸模型

在所有生成模型裡,自回歸模型(autoregressive model)也許是最容易先從直覺上理解的一類。它的基本想法非常樸素:如果一個高維物件太複雜,沒辦法一次決定全部內容,那就不要企圖一步到位,而是改成按照順序,一小步一小步地生成。對文字來說,這很像語言模型逐字往後續寫;對聲音來說,則可以理解成:模型先根據已經生成的部分,決定下一個取樣點,或下一個音訊 token 應該是什麼。

這個想法之所以強,是因為它背後有一個非常乾淨的機率基礎。機率論中的鏈式法則告訴我們,任何一個高維聯合分布都可以精確地拆成一連串條件分布的乘積。若把資料序列寫成 x=(x1,x2,…,xT),那麼聯合分布可以寫成:

px)=п(t=1→T) pxt x<t

其中x<t  表示第t 個位置之前的所有元素。這個算式的關鍵之處在於,它不是近似,而是恆等式。也就是說,自回歸模型真正要做的,不是發明一個新的機率分解,而是用神經網路去近似每一個條件分布pxt x<t )。一旦這些條件分布學得夠好,生成過程就變得非常自然:先生成第一個元素,再根據前面已經生成的前綴,依序往後生成整個序列。

從訓練角度看,自回歸模型通常採用最大似然(maximum likelihood)或等價的交叉熵目標。這件事有一個很大的好處:訓練目標定義清楚、理論基礎乾淨,而且多樣性並不是額外硬塞進去的,而是天然地來自每一步的條件採樣。換句話說,自回歸模型的優勢,在於它同時兼具了明確的機率意義與自然的生成多樣性。

但它的代價也同樣直接:生成必須按順序進行,無法完全並行化。對文字而言,這雖然會造成延遲,但通常還在可接受範圍內;對聲音而言,問題就嚴重得多。因為音訊序列遠長於文字序列,一秒 16 kHz 的波形就有 16,000 個取樣點。若模型在這個粒度上做自回歸,就意味著每秒都要進行 16,000 次依序決策。這也就是為什麼自回歸模型在聲音生成中特別具有代表性,同時也特別容易碰到速度瓶頸。除此之外,自回歸模型還有一個典型問題:訓練時模型看到的前綴是真實資料中的前綴,推論時看到的卻是自己剛生成的前綴。這種訓練—推論分布偏移,會使早期的小誤差在長序列中逐步累積。

對聲音而言,自回歸建模大致可以落在兩個不同表徵層次上。第一種是取樣點層次的自回歸,也就是像 WaveNet 那樣,直接逐點生成波形。這種方式保留的細節最完整,但序列極長,計算代價最大。第二種是token 層次的自回歸,也就是先把音訊離散化成較短的 token 序列,再像語言模型那樣逐 token 生成。前者的長處是波形細節的精準性,後者的長處則是更容易把模型容量用在長程結構、條件遵循與語義一致性上。這個表徵層次的選擇,正是第三章談到的表徵問題與本章生成模型問題真正相接的地方。

6.2.1 WaveNet:自回歸模型在波形層次的典型實現

前一節已經說明了自回歸模型的一般邏輯與兩種表徵層次的區分。現在讓我們透過 WaveNet,看看取樣點層次的自回歸在實作上究竟是怎麼做的。

WaveNet 的第一個重要設計選擇,是它並不直接回歸下一個連續振幅值,而是先用 μ-law 壓擴把振幅離散成 256 個等級,再把下一個取樣點的生成視為一個 256 類分類問題。這個設計很重要,因為它讓模型輸出的不再只是單一均值,而是一個多峰(multimodal)的條件分布。對聲音這種局部上常常存在多種合理延續方式的訊號來說,這比單純的連續值回歸更自然,也更符合生成模型的精神。

若把整段波形記為x=(x1,x2,…,xT),並把條件資訊(例如 Mel 頻譜圖、語言特徵或說話者嵌入)記為 c,那麼 WaveNet 的條件生成可以寫成:

pxc)= п(t=1→T) pxt x<t , c

這個數學算式延續了前面一般自回歸模型的邏輯,只是多了一個條件c。它說明:WaveNet 雖然神經架構看起來很複雜,但在機率意義上,仍然是在最大化整段波形的條件對數似然。也就是說,它的生成過程本質上依然是逐步往前展開的條件採樣。

在神經網路結構上,WaveNet 的關鍵是擴張因果卷積(dilated causal convolution)。所謂「因果」,是指模型在預測第t 個取樣點時,只能使用t 之前的資訊,而不能偷看未來;所謂「擴張」,則是讓卷積核在不顯著增加參數量的前提下,快速擴大感受野。這種設計非常適合自回歸波形建模,因為它讓模型既能看見極局部的波形細節,又能逐步累積足夠長的上下文。以典型的 WaveNet 殘差塊為例,10 層擴張卷積就可覆蓋約 1,024 個取樣點;若在 16 kHz 取樣率下,這大約相當於 64 毫秒的上下文。再堆疊多個殘差塊後,感受野可以擴大到約 3,000 個取樣點,足以覆蓋語音局部韻律的短時結構。

條件資訊則可透過兩種方式加入模型。若條件是整句共享的說話者身份,通常使用全局條件(global conditioning);若條件是隨時間變化的 Mel 頻譜幀,則使用局部條件(local conditioning),先把頻譜條件上採樣到波形時間解析度,再逐層加入卷積網路。這套做法後來幾乎成為神經聲碼器的標準設計之一。

從本章的視角看,WaveNet 最值得讀者記住的,不只是它的歷史地位,而是它展示了一件根本的事:只要序列分解足夠自然、模型容量足夠大,逐點自回歸確實可以把極高維、極細緻的波形結構學下來。 但它也同時把自回歸模型的代價暴露得非常清楚:理論上優雅,品質上強大,卻在推論速度上極為昂貴。這個難解的困局,正是後續很多生成模型路線持續回應的核心問題。

6.2.2 自回歸模型在音訊 Token 層次的應用

這裡我們可以思考一個非常關鍵的差別:在逐取樣點自回歸中,模型每一步都在處理極低層、極細緻的訊號細節,因此它的長處是音色與波形紋理的精準性;但在 token 層次自回歸中,模型每一步面對的是已被壓縮過的符號單位,因此更容易把計算容量用在長程結構、語義一致性與條件遵循上。這也是為什麼近年的大型音訊模型常採取「先離散化,再語言模型化」的路線:不是因為波形自回歸在原理上不對,而是因為它把太多計算資源消耗在最底層訊號上。

換句話說,自回歸模型的問題從來不是「能不能生成高品質聲音」,而是「在哪一個表徵層次做自回歸最划算」。當目標是聲碼器,逐取樣點自回歸仍然極具代表性;當目標是長段語音、音樂,或可提示式生成,token 層次的自回歸通常更具擴展性。這個表徵層次的選擇,不只是工程權衡,也是生成模型設計中的核心決策。

隨著 EnCodec、SoundStream 等音訊 tokenizer 的成熟,自回歸模型在音訊 token 層次的應用成為近年最活躍的研究方向之一。其核心思路是:先把音訊壓縮成較短的離散 token 序列,再以語言模型的方式逐 token 生成。這使得原本看似需要大量專門語音工程模組處理的問題,開始能夠被改寫成「根據前綴與條件續寫一段音訊 token 序列」的統一形式。AudioLM、VALL-E 等代表性系統,正是沿著這條路線展開的;我們將在 6.7 節結合 Transformer 與音訊 token 的整體討論中,再更詳細地介紹它們的具體設計與條件控制方式。

這裡真正值得先記住的,是一個更一般的觀點:對自回歸模型而言,真正的設計自由度不只在於卷積還是 Transformer,而在於你究竟要逐點生成什麼。從取樣點到 token,表徵層次的選擇本身就是生成模型設計中的核心決策。這也正是第三章談到的表徵問題與本章生成模型問題真正相接的地方。

6.3 變分自編碼器

如果說自回歸模型的基本策略,是把高維聯合分布拆成一連串局部條件分布,那麼變分自編碼器(Variational Autoencoder, VAE)則代表另一條非常不同的思路:與其直接在原始資料空間裡逐步生成,不如先學一個低維、連續、而且可採樣的潛在空間,再從這個空間中生成資料。

這個想法對聲音特別有吸引力。因為聲音資料往往維度極高、細節極多,而我們真正關心的某些生成因素,例如說話風格、語氣強弱、情緒色彩、局部節奏,看起來又像是隱含在資料背後的較低維結構。若模型能先把資料壓縮進一個有組織的潛在空間,那麼後續的採樣、插值與控制就都會變得更自然。

但這裡立刻會出現一個很關鍵的問題:普通自編碼器不也能把資料壓縮成潛在向量嗎?為什麼還需要 VAE?答案是,普通自編碼器雖然也能得到壓縮表徵,卻不保證這個潛在空間適合拿來「生成」。它可能只學會把每個訓練樣本壓縮到某個方便重建的位置,但不同樣本之間的幾何關係未必平滑,也未必能保證從空間裡隨機取一個點,就能解碼出合理的聲音。換句話說,普通自編碼器擅長重建,卻不一定擅長建立一個可抽樣、可內插、可操控的潛在空間。VAE 的特殊之處,就在於它把「可生成性」本身寫進了訓練目標。

6.3.1 基本架構與訓練目標

如果用一句話概括 VAE 的精神,那就是:我們不只想學會把資料重建出來,還想把資料壓縮進一個結構良好、可以抽樣的潛在空間。這也就是為什麼 VAE 在聲音生成中的意義,往往不只是一個壓縮器,而是一個讓潛在空間變得可用的機率框架。

VAE 的三個基本組件分別是編碼器 qϕzx)、先驗分布 p(z),以及解碼器 pθ​xz)。簡單地說,編碼器的工作是:看到一筆資料 x 之後,不是只給出單一潛在向量,而是輸出一個潛在變數z 的分布;解碼器則要學會:若給我一個潛在向量 z,我應該如何把它還原成資料x

在最常見的設定裡,先驗分布p(z)被設成標準高斯分布N(0 , I)。編碼器則輸出一個高斯後驗分布的參數,通常是均值 μ 與對數方差 logσ2。這意味著,對同一筆輸入資料而言,模型不是把它壓到單一點上,而是壓到潛在空間中的一個小區域。這個設計非常重要,因為它讓潛在表徵從一開始就帶有隨機性與分布觀,而不是僅僅是一個固定座標。

但這裡又會碰到一個技術問題:若編碼器輸出的是一個分布,我們就需要從中抽樣 z ;然而抽樣操作本身不可微,梯度無法直接穿過去。VAE 的關鍵技巧,是把這個抽樣步驟改寫成所謂的重參數化技巧(reparameterization trick):

z = μ + σϵ ,   ϵ ~ N(0 , I

這個數學算式的概念是:真正的隨機性不再直接來自z 本身,而是來自外部噪聲 ϵ。一旦如此,z 就成為 μ 與 σ 的可微函數,梯度便能順利穿過抽樣步驟。這也是 VAE 可以用標準梯度下降來訓練的關鍵原因。

VAE 的訓練目標是最大化證據下界(Evidence Lower Bound, ELBO):

LELBO = Ezx [logpθx z)]− DKL qϕzx pz))

這個目標最好不要一上來就把它當成一個必背公式,而應先理解它在做兩件什麼事。

第一項:Ezx [logpθx z)]

重建項。它要求解碼器從潛在變數 z 出發時,真的能把原始資料 x 重建出來。若這一項做不好,模型雖然可能得到一個很規整的潛在空間,但最後生成出的聲音會與資料相差太遠。

第二項:DKL qϕz x pz))

KL 正則化項。它要求編碼器得到的後驗分布,不要偏離先驗分布太遠。這是在約束模型,不要把每筆資料都藏到一個彼此毫無關係、難以採樣的角落;相反地,要把整個潛在空間整理成一個接近標準高斯、可以被平滑採樣與插值的形狀。

更重要的是,ELBO 不是兩個臨時拼湊起來的損失,而有明確的機率意義。它是對資料邊際對數似然 logpθ​ (x ) 的一個可計算下界。也就是說,最大化 ELBO,等價於在最大化「模型對資料的機率解釋能力」的一個可優化替代目標。這正是 VAE 比普通自編碼器更像真正生成模型的原因。

6.3.2 VAE 的生成過程與潛在空間操控

從生成角度看,VAE 的流程很簡單:先從先驗分布p(z)中採樣一個潛在向量 z ,再把它送入解碼器pθ​xz),生成資料 x。理想情況下,由於訓練時 KL 項已經把後驗分布整理得接近先驗,所以我們只要從標準高斯中的合理區域取樣,就應該有機會生成合理的聲音樣本。

這種設計帶來了幾種對聲音生成非常有用的能力。

第一,是採樣多樣性。對同一條件輸入而言,只要在潛在空間中採不同的z,就可以得到不同但合理的語音實例。這對聲音生成尤其重要,因為真實語音本來就不是一對一映射:同一句話可以說得較快、較慢、較平穩、較激動,而這些差異很難只靠單一路徑決定。

第二,是潛在空間插值。若我們取兩個潛在向量zA​ 與 zB​,在它們之間做線性插值,常常可以得到從一種音色、風格或情緒平滑過渡到另一種的中介聲音。這也是 VAE 在教學上特別有啟發性的地方:它讓我們直接看見「生成」與「表徵」原來可以是同一件事的兩面。若潛在空間學得好,模型不只是會重建資料,還會讓這個空間本身具有幾何上的可理解性。

第三,是潛在屬性操控。在理想情況下,潛在空間中的不同方向或區域,可能對應不同語音屬性,例如較高能量、較慢語速、較強情緒等。這當然未必會自動發生,但至少 VAE 提供了一個讓這種可操控性變得可能的技術框架。也正因如此,VAE 在許多語音系統中常常不是被用來單獨負責最終波形品質,而是被用來提供一個可以被抽樣、被內插、被控制的隱空間

若把條件生成也納入考慮,VAE 的形式還可以自然擴充成條件 VAE(conditional VAE)。在這種情況下,解碼器不只依賴z,還依賴外部條件 c,例如文字、說話者身份或其他控制訊號。形式上可寫為pθ​xz,c)。這使模型能在條件固定的情況下,利用潛在變數來承載那些「同樣條件下仍然可以變動」的部分,例如局部節奏、風格差異、韻律變化等。這也是為什麼 VAE 在現代語音生成中,特別適合處理多樣性與風格控制問題。

6.3.3 VAE 的局限與在聲音生成中的位置

不過,VAE 並不是沒有代價。它最大的難處,在於必須同時兼顧兩件彼此拉扯的事情:一方面,解碼器要把資料重建得足夠好;另一方面,潛在空間又必須被整理得足夠規整,才能方便採樣與插值。這兩個目標常常是衝突的。

若 KL 正則化太強,潛在空間會更平滑、更接近先驗分布,因此更容易抽樣與操控;但代價是,解碼器真正能利用的訊息變少,重建品質容易下降。反過來說,若 KL 項太弱,模型雖然可能把輸入重建得很好,卻可能把每筆資料都塞進一個彼此關係鬆散、難以採樣的潛在空間,讓插值與生成失去意義。這也就是 VAE 的核心張力:重建品質與潛在空間規整性往往不能同時極致。

此外,VAE 還有一個著名問題,叫做後驗坍縮(posterior collapse)。它指的是:解碼器太強時,模型可能逐漸學會不怎麼依賴潛在變數 z,只靠條件與解碼器本身就把資料大致重建出來。結果就是,潛在變數攜帶的有效資訊很少,原本應該提供多樣性與控制力的隱空間,反而變得空洞。這對聲音生成尤其麻煩,因為語音裡很多感知上重要的細節,例如顫音、氣音、摩擦音中的隨機性,或細微韻律變化,都很容易在壓縮與正則化過程中被抹平。

也正因如此,VAE 在當代語音生成中更常扮演的是組合架構中的一個核心部件,而不是單獨承擔最終高品質波形生成的全部任務。它的長處不在於一定能給出最終最逼真的波形,而在於它提供了一個可以被採樣、內插與操控的潛在空間。當這個長處和其他生成框架結合起來時,VAE 就會變得非常有力量。VITS 正是一個典型例子:它不是只使用條件 VAE,而是再把正規化流與 GAN 訓練一起結合進來,試圖同時保留潛在空間的規整性、生成的多樣性,以及最終輸出的感知品質。

從本章整體的角度來看,VAE 之所以重要,不只是因為它是一種生成模型,而是因為它把我們在第三章討論過的表徵學習問題,正式接到生成問題上來。自回歸模型教我們如何用條件分解逐步生成;VAE 則教我們另一件事:有時候,先把資料放進一個好的潛在空間,再在那個空間中思考採樣與控制,會讓生成問題本身變得更容易。這種「先改善表徵,再做生成」的觀點,往後在正規化流、潛在擴散模型,以及各種複合式架構裡,還會一再出現。

6.4 生成對抗網路

到目前為止,我們已經看過兩條很有代表性的生成路線。自回歸模型的做法,是把聯合分布拆成一連串條件分布,逐步往前生成;VAE 的做法,則是先學一個可採樣的潛在空間,再從這個空間中解碼出資料。生成對抗網路(Generative Adversarial Network, GAN)則提出了另一種完全不同的回答:也許我們不必顯式寫出資料分布,也不必先建立一個變分下界;我們可以改成讓一個模型專門生成,另一個模型專門挑錯,讓兩者在對抗中共同學出什麼樣的樣本才像真的。

這條路線對聲音特別有吸引力,原因在於:有些聲音品質雖然人耳一聽就知道「像不像真實人聲」,但卻很難用單一解析損失函數精確表達。舉例來說,逐點的 L1 或 L2 損失能衡量兩條波形或兩張頻譜在數值上的差距,卻不一定能充分反映氣音、摩擦音、週期性、細微粗糙感與整體真實度。很多時候,我們未必能明確寫出「自然的人聲應該滿足什麼公式」,但我們相對容易訓練出一個模型去分辨「這段聲音比較像真實資料,還是比較像假樣本」。GAN 正是抓住了這個概念:當直接設計感知損失很困難時,或許可以讓模型自己學會一個資料驅動的判準。

6.4.1 對抗訓練的基本原理

GAN 由兩個神經網路構成:生成器 G 與判別器 D。生成器的工作,是從一個簡單分布中採樣噪聲向量 z,再把它映射成生成樣本 x^=Gz );判別器的工作,則是接收真實樣本 x 或生成樣本x^,並輸出該樣本來自真實資料的機率。判別器像是一個越來越嚴格的審查者,而生成器則像是一個越來越會模仿的偽造者。訓練的目的,就是讓這兩者在互相拉扯中,不斷逼近真實資料分布。

原始 GAN 的 minimax 目標可以寫成:

minGmaxD VD,G )Ex~pdata[ logDx)]+ Ez~p(z)[log(1 - DGz)))]

這個數學算式可以分成兩部分理解。第一項要求判別器把真實樣本判成 1,也就是「這是真的」;第二項要求判別器把生成器產生的假樣本判成 0,也就是「這是假的」。而生成器的目標剛好相反:它希望自己產生的樣本能夠騙過判別器,使判別器誤以為它們來自真實資料。理想情況下,若生成分布真的與真實資料分布重合,判別器對任何樣本都只能給出約 0.5 的判斷,因為它已經分不出真與假。

不過,在實際訓練時,生成器通常不直接最小化上式中的log(1 - DGz))) ,因為當判別器太強時,這一項很容易使梯度飽和,讓生成器幾乎學不到東西。更常見的做法,是改用所謂的非飽和損失(non-saturating loss):

maxG Ez~p(z)[ logDGz))]

這個版本雖然在形式上和原始 minimax 目標不同,但直覺上更容易理解:生成器不再被動地最小化「不要被判成假」,而是主動地最大化「要被判成真」。在訓練早期,這通常能提供更穩定的梯度訊號。

GAN 最值得讀者記住的,不是 minimax 公式本身,而是它對生成問題的基本改寫:它不要求模型顯式寫出資料分布,而是讓判別器在對抗過程中,學出一個資料驅動的感知損失函數。 對聲音而言,這一點格外重要,因為很多感知品質,例如真實人聲的粗細質感、週期規律與高頻細節,很難靠單一解析損失完整描述。

6.4.2 GAN 在音訊生成中的挑戰與解決方向

但也正因為如此,GAN 的訓練總帶有一種對抗平衡的脆弱性。判別器若太弱,生成器學不到真正有用的訊號;判別器若太強,生成器又可能幾乎得不到有效梯度。這種此消彼長的關係,使得 GAN 在理論上很迷人,在實務上卻往往需要大量工程經驗。

到了音訊領域,問題又會再更難一層。圖像中的「真假」很多時候可以從空間紋理與局部結構來判斷;但聲音的真實性,往往同時體現在多個時間尺度與頻率尺度上。一段語音之所以自然,不只是因為某個很短的片段看起來合理,而是因為它在局部週期結構、較長時間範圍的一致性,以及整體感知質地上都必須同時成立。換句話說,音訊 GAN 面對的,不只是「局部像不像」,而是「不同尺度上是否同時自然」。

這也是為什麼音訊 GAN 通常不會只用一個單一判別器,而是會設計多尺度多週期的判別器。以 HiFi-GAN 為例,多週期判別器(MPD)專門檢查不同週期下的波形規律,多尺度判別器(MSD)則從不同時間解析度觀察波形。若用更直白的方式說,這等於不是只用一雙眼睛來看聲音,而是用好幾種不同焦距的鏡頭,分別去檢查局部週期性、較長時段的一致性,以及整體的感知自然度。這也說明一件事:GAN 在音訊裡真正的成功,往往不只來自「用了對抗訓練」,而是來自判別器是否真的理解音訊結構本身。

GAN 的另一個經典問題是訓練不穩定。最著名的現象之一,是模式崩潰(mode collapse),也就是生成器只學會少數幾種最容易騙過判別器的樣本,而無法覆蓋整個資料分布。對聲音來說,這意味著模型可能總是生成某幾種固定質地的聲音,缺乏應有的多樣性。除此之外,GAN 也容易出現訓練震盪,生成器與判別器交替壓制對方卻不穩定收斂。為了改善這些問題,研究社群提出了許多變體與技巧,例如 Wasserstein GAN、梯度懲罰、特徵匹配損失等;這些方法在音訊 GAN 中同樣扮演重要角色。

因此,若用一句話概括 GAN 在音訊生成中的地位,可以這樣說:GAN 最強的地方,是它能透過對抗訓練逼出高感知真實度;但它也最需要精心設計,因為這種真實度不是免費得來的,而是建立在訓練穩定性與模式覆蓋的持續平衡之上。

6.4.3 GAN 作為後處理增強器

還有一點在聲音領域特別值得注意:GAN 不一定非得作為主要生成器存在。很多系統會先讓其他較穩定的模型生成初步波形或中介表徵,再用 GAN 當作後處理增強器(post-processing enhancer),專門補回高頻細節與感知真實感。這種做法的概念其實很好理解:若一個模型已經能把大致結構生成正確,那麼 GAN 不必負責從零開始生成整段聲音,而可以更聚焦地處理「怎麼讓它聽起來更像真的」這個問題。

這種組合式設計的好處,是保留 GAN 對感知品質敏銳的優勢,同時避免讓整個系統的成敗完全押在不穩定的對抗訓練上。從更大的角度看,這也呼應了第六章的一個重要觀點:不同生成框架之間未必是互斥的。GAN 可以作為主要生成器,也可以作為品質增強器;它既可以單獨使用,也可以嵌入複合式架構之中。這也是為什麼在真實系統裡,我們常看到 GAN 與 VAE、flow、擴散模型,甚至 token 模型彼此組合,而不是各自孤立地存在。

從本章的比較視角來看,GAN 最值得保留在腦中的不是某一個特定公式,而是一個核心問題意識:當顯式密度難以建模、解析式重建損失又不足以表達感知真實度時,我們能否改用一個學會挑錯的模型來提供生成壓力? 這正是 GAN 對生成問題提出的獨特回答。它和 VAE、自回歸、正規化流、擴散模型的差異,不只是技術路線不同,而是對「什麼叫做學會生成資料分布」這件事本身,有不同的理解。

6.5 正規化流模型

如果說 GAN 的魅力在於它不必顯式寫出資料分布,而是透過對抗訓練逼近感知真實度;VAE 的魅力在於它建立了一個可採樣、可操控的潛在空間;那麼正規化流(normalizing flow)最吸引人的地方,則在於它試圖同時保住兩件很多生成模型難以兼得的事:一方面可以精確計算資料的機率密度,另一方面又能高效地進行採樣。

這一點之所以重要,是因為生成模型常常在兩個目標之間拉扯。某些模型容易生成樣本,但很難明確計算「這個樣本在模型下的概率有多高」;另一些模型雖然能寫出很乾淨的機率目標,卻不容易高效採樣。正規化流的野心,就是不要在這兩者之間二選一,而是直接建立一條從簡單分布到複雜資料分布的可逆道路。若這條路存在,我們既能從簡單分布出發生成資料,也能把真實資料反向映回簡單分布,從而精確計算密度。

這個想法對聲音生成很有吸引力。因為我們知道,高品質音訊樣本所在的資料分布極其複雜;但若能把它們穩定地對應到一個簡單分布,例如高斯分布,那麼生成問題就會被重新表述成:如何學一個既足夠有表達力、又保持可逆的變換。 也就是說,flow 模型對生成問題的回答,不是逐步預測,也不是對抗競爭,而是「找一個能來回穿梭於簡單與複雜之間的座標系」。

不過,這種優雅不是沒有代價。為了讓模型既可逆,又能計算密度,flow 的每一個變換都必須受到比一般深度網路更嚴格的數學限制。從概念角度來看,正規化流特別能說明一件事:不同生成模型之間,不只是比效果,而是在交換不同類型的便利性。flow 模型得到的是精確密度與直接採樣的雙重優勢;它付出的代價,則是架構設計上的自由度被大幅限制。

6.5.1 可逆映射與變數替換:flow 到底在做什麼?

正規化流最值得讀者牢記的地方,是它把「生成」與「密度估計」緊密綁在一起。它的核心假設是:存在一串可逆且可微的變換,把資料空間中的樣本 x 映射到較簡單的潛在變數 z。若把這串變換記為

z = fx)=fK​。fK−1。⋯。f1​x),

那麼生成方向就是它的反函數:x = f −1z ).

簡單地說,flow 模型做的事,就是把原本形狀複雜、難以描述的資料分布,透過一連串精心設計的可逆變換,慢慢「拉直」成一個簡單分布;而生成時,則再沿著這條路反向走回來。這種來回可逆的特性,正是 flow 與一般生成網路最大的差異。

一旦映射是可逆的,我們就可以用變數替換公式來計算資料空間中的密度。若                  z = fx ),則有

vocus|新世代的創作平台

若改寫成對數形式,則得到

vocus|新世代的創作平台

這兩個數學算式的意思其實很簡單:當我們把一個點從資料空間映射到潛在空間時,不只改變了點的位置,也改變了局部空間的體積。若某個變換把原本一小塊區域拉伸得更大,那麼密度就應相對下降;若把區域壓得更小,密度就應相對上升。雅可比行列式(Jacobian determinant)描述的,正是這種局部體積伸縮。也就是說,flow 模型之所以能精確計算密度,不是因為它「猜」到了密度,而是因為它追蹤了每一步變換如何改變空間體積。

這裡也能更清楚地看見 flow 的獨特性。很多生成模型能採樣,但難以精確計算對數概率;flow 模型則透過可逆變換與雅可比修正,同時保留了這兩件事:訓練時可以直接做最大似然,生成時又能從簡單分布中取樣,再反向映射回資料空間。這種雙重能力,正是正規化流在生成模型譜系中始終佔有特殊位置的原因。

但這些好處不是免費的。為了讓 det∂f (x ) / ∂x​ 可計算,flow 的變換設計必須非常講究。若每一步變換都設計得太自由,雅可比行列式就會難以計算;若設計得太簡單,模型的表達能力又可能不足。因此,flow 模型真正的工程藝術,就在於如何在表達能力與可計算性之間取得平衡。這也是為什麼實作中常見的設計,例如耦合層(coupling layer)、可逆 1×1 卷積與各種自回歸流,都是為了讓這個平衡成為可能。

6.5.2 WaveGlow:flow 在聲碼器中的典型實現

若要看正規化流在音訊生成中的具體落地,WaveGlow 是最具代表性的例子之一。WaveGlow 可以理解為:把 Glow 式的 flow 思想帶進聲碼器領域,讓模型學會如何在 Mel 頻譜條件 下,把簡單分布中的樣本變換成真實波形。這和 WaveNet 的做法形成了很漂亮的對照:WaveNet 是逐點自回歸地生成波形;WaveGlow 則是試圖透過一個整體的可逆映射,一次把簡單分布中的樣本拉成波形。

對 WaveGlow 而言,輸入條件是 Mel 頻譜圖,目標輸出是對應波形。整體架構由多個 flow step 串接而成,而每個 flow step 通常包含兩個核心部分:可逆 1×1 卷積仿射耦合層(affine coupling layer)。可逆卷積的作用,是在通道之間充分混合資訊,使變換不至於過於侷限;仿射耦合層則負責做真正的條件化變換,其縮放與平移參數通常由一個類 WaveNet 的子網路根據 Mel 條件來估計。簡單地說,這些 flow step 就像一連串逐步精煉的座標變換:每一步都把簡單分布中的樣本,往更像真實語音波形的方向推進一點。

WaveGlow 的重要性,在於它保留了 flow 模型的兩大優勢。第一,訓練時它可以直接最大化對數似然,而不必依賴對抗學習那種較脆弱的訓練平衡。第二,生成時它不需要像 WaveNet 那樣逐點自回歸,因此能以高度並行的方式完成取樣。這使它在推論速度上遠快於原始 WaveNet,同時又能維持相當高的聲音品質。從這個角度看,WaveGlow 非常適合拿來說明 flow 路線的核心承諾:在保有機率訓練嚴謹性的同時,擺脫自回歸的速度瓶頸。

不過,WaveGlow 也清楚顯示了 flow 的代價。雖然它比逐點自回歸快得多,但架構本身必須服從可逆性與雅可比可計算的要求,因此設計空間並不像一般神經網路那麼自由。也就是說,flow 模型的優雅來自一種非常嚴格的結構紀律。這種紀律讓它在理論上很乾淨,但也可能在表達能力與工程靈活性上受到限制。這也是為什麼後續音訊生成中,GAN 與擴散模型仍然持續受到青睞:因為 flow 雖然漂亮,卻不一定在所有任務上都是最終的贏家。

6.5.3 正規化流在 VITS 中的角色:不是終點,而是形狀塑造器

正規化流在當代語音系統中的角色,並不一定是直接擔任最終波形生成器。在 VITS 這類組合式模型中,flow 的功能更微妙,也更能體現它在生成模型工具箱中的價值。VITS 並不是把 flow 單獨拿出來生成整段聲音,而是把它用來增強潛在空間的靈活性

具體來說,VITS 先利用條件 VAE 得到一個相對簡單的後驗分布,再用正規化流把這個分布變形成更能匹配文字條件先驗的複雜分布。VAE 先替模型建立了一個潛在空間,但這個空間本身未必足夠靈活,未必能很好地對應真實語音資料的複雜結構。flow 的作用,就是進一步把這個潛在空間「塑形」,讓它更貼近真實語音後驗的幾何形狀。如此一來,推論時即使只能從文字條件的先驗分布採樣,生成結果仍然比較有機會落在真實語音資料常出現的區域裡。

這個角色非常值得注意,因為它揭示了 flow 在複合架構中的另一種價值:它不一定非要從頭到尾獨立生成資料,也可以作為一個分布形狀調整器。VAE 提供可採樣的潛在空間,GAN 提供感知真實度壓力,而 flow 則負責讓潛在空間的幾何結構更貼近真實資料。這也正是第六章一再想強調的觀點:不同生成框架不必彼此排斥,它們可以在同一個系統裡各自負責最擅長的部分。

從這個角度看,正規化流的重要性不只在於它是否單獨拿下某個任務的最佳成績,而在於它提供了一種非常獨特的能力:精確地、可逆地改變分布的形狀。 在某些系統裡,這種能力可直接拿來生成波形;在另一些系統裡,則更適合用來整理潛在空間、協調先驗與後驗的差距。也正因如此,flow 模型雖然不像 GAN 或擴散模型那樣在近年最受矚目,卻仍然是理解現代生成式聲音系統時不可或缺的一塊拼圖。

6.6 擴散模型

如果說自回歸模型的策略,是把高維生成問題拆成一連串「下一步是什麼」的局部決策;如果說VAE 的策略,是先學一個可採樣的潛在空間;那麼擴散模型(diffusion model)提出的,則是另一種非常有力量的想法:與其要求模型一步到位地猜出最終樣本,不如把困難任務拆成很多個比較容易的去噪小步驟。

這個想法之所以吸引人,是因為很多高維資料,包括聲音,都很難一次性精確生成。對模型來說,要從零開始直接產生一段自然語音、音樂或環境聲,問題非常複雜;但如果只是問:「在一個已經被汙染了一點點的訊號裡,哪些成分比較像雜訊,應該被去掉?」這個局部任務往往就容易得多。擴散模型的關鍵洞見,就是把原本抽象的生成問題,改寫成一連串比較具體的去噪問題。

對聲音而言,這種想法也特別自然。因為我們很容易想像一段乾淨的語音被雜訊逐步污染,也容易理解:若我們學會了如何一步步把這些雜訊去掉,理論上就能從純噪聲慢慢還原出一段結構清晰、感知自然的聲音樣本。從這個角度看,擴散模型不是在直接「畫出」或「說出」一段聲音,而是在學一條從噪聲回到資料分布的逆向路徑。

6.6.1 前向擴散與逆向去噪:為什麼這個想法可行?

理解擴散模型時,最重要的一個概念是:前向加噪過程不是模型要學的東西,而是我們自己設計好的、完全已知的過程。 真正困難、也真正需要學習的,是如何把這個過程反轉回來。這種設計很漂亮,因為它把原本一個很抽象的分布學習問題,轉換成「逆轉一個我們自己已知的汙染過程」。

前向擴散過程可以理解為:從真實資料 x0出發,在每一個時間步 t 都加上一點高斯噪聲,使資料逐漸被污染,直到最後趨近於純高斯噪聲。形式上,這個固定的馬可夫鏈可寫為:

vocus|新世代的創作平台

其中βt​ 是預先設計的噪聲排程,控制每一步加多少噪聲。簡單地說,βt​​ 小時,每一步只輕微模糊資料;若不斷重複很多步,原始訊號就會慢慢失去細節,最後接近純噪聲。

如果每次都一步一步模擬這個加噪過程,訓練會很麻煩。擴散模型的一個重要數學便利,在於前向過程有一個封閉形式。若定義:

αt =1−βt​

vocus|新世代的創作平台

那麼在任意時間步 t,帶噪樣本 xt​ 都可以直接由原始資料 x0 寫成:

vocus|新世代的創作平台

這個數學算式的概念非常重要:它告訴我們,某個中間時間步的帶噪樣本,其實就是「原始資料」與「高斯噪聲」的加權混合。也正因如此,訓練時我們不必真的從 x0 一步步走到 xt,而是可以直接抽一個時間步 t,再用上式一次性構造對應的帶噪樣本。這大幅簡化了訓練流程。

既然前向過程是已知的,那麼模型真正要學的,就是逆向去噪過程。最早期的擴散模型可以直接學習逆向轉移分布,但 Ho 等人的關鍵發現是:我們可以改成訓練一個神經網路 ϵθxt , t),讓它直接預測「當前這一步加入的噪聲是什麼」。一旦模型能可靠地預測噪聲,就等於掌握了把xt 往較乾淨方向拉回去所需的核心資訊。這使原本複雜的逆向生成問題,被轉換成了一個較簡單、也更穩定的監督學習問題。

因此,常見的簡化訓練目標可寫成:

Lsimple=Ex0,ϵ,t[∥ϵ−ϵθxt ,t)∥2].

表面上看,這只是「預測噪聲的均方誤差」;但它之所以重要,是因為它把一個本來很難直接描述的生成問題,轉成了大量局部去噪子問題的總和。因此,擴散模型最值得記住的,不是它一定有多複雜,而是它非常巧妙地把「生成」改寫成「學會逆轉已知汙染過程」。

6.6.2 條件生成與無分類器引導:如何讓模型更聽話?

在實際聲音任務中,我們通常不是要無條件地生成任意聲音,而是要根據某種條件來生成。文字轉語音要以文字為條件,聲碼器要以 Mel 頻譜圖為條件,Text-to-Audio 則要以自然語言提示為條件。因此,去噪網路通常不只寫成ϵθ​(xt​ ,t),而是進一步寫成  ϵθ​(xt,t,c),其中c 表示條件資訊。

但這裡會出現一個很實際的問題:模型雖然「看見」了條件,卻未必會足夠強地服從條件。也就是說,生成出來的樣本可能仍然很自然,但和輸入文字或提示的對應程度不夠高。為了改善這件事,擴散模型發展出了一個非常實用的技巧,叫做無分類器引導(classifier-free guidance, CFG)。

CFG 的核心想法是:在訓練時,故意以一定機率把條件c 拿掉,讓模型同時學會兩種情況:一種是有條件的去噪器,一種是無條件的去噪器。到了推論時,再利用這兩者的差異,去強化模型往「更符合條件」的方向移動。形式上,可寫成:

ϵ^θxt,t,c)=ϵθxt,t,∅)+wϵθxt,t,c)−ϵθxt,t,∅)),

其中 w 是引導強度。簡單地說,ϵθxt,t,∅)告訴我們模型在不考慮條件時會怎麼去噪,而 ϵθxt,t,c)告訴我們有條件時會怎麼去噪;兩者的差值,就像是「條件訊息想把生成方向往哪裡推」。透過外插這個差值,我們就能在推論時提高條件遵循程度。

這個方法在教學上非常值得注意,因為它展示了擴散模型中的一種特殊控制哲學:控制力不一定非要寫進中間變量,也可以在採樣路徑本身上被柔性地調節。 當 w =1 時,CFG 退化為普通條件生成;當 w >1 時,樣本會更貼近條件,但多樣性通常會下降;若w 太大,模型甚至可能過度追隨條件而損害自然性。因此,CFG 提供的不是一個絕對正確的值,而是一個在「條件服從」與「樣本多樣性」之間調節的旋鈕。這和第五章 FastSpeech 2 那種顯式調整時長、音高、能量的控制方式很不一樣:前者是採樣路徑上的柔性引導,後者是中間變量上的顯性操控。

6.6.3 擴散模型的採樣加速:從研究上很強,到系統上可用

擴散模型的最大弱點,不在訓練,而在推論。因為原始生成過程通常需要數百到數千步的逆向去噪,這意味著即使單步計算不算太重,整體採樣時間仍然很長。對圖像這已經是實務挑戰,對聲音則更敏感,因為許多音訊應用對延遲非常在意。若一個模型要花太久時間才能「說出聲來」,那麼即使品質很高,也很難直接進入互動式系統。

也正因如此,擴散模型後續有大量研究都在回答同一個問題:我們能不能在盡量不犧牲品質的前提下,用更少步數完成採樣? 這不是附帶問題,而是擴散模型能否從「研究上最強」走向「系統上可用」的核心。

其中一條代表性路線,是 DDIM(Denoising Diffusion Implicit Models)。它的關鍵想法,是把原本帶隨機性的去噪過程,改寫成更接近確定性路徑的更新方式。這意味著,我們不一定非得沿著原始擴散的隨機鏈逐步走完所有步驟,而可以用較少步數沿著一條更直接的軌跡逼近最終樣本。DDIM 嘗試做的,就是把原本很多細小的修正,壓縮成更少、但更有方向性的修正。

另一條路線則從數值分析的角度切入,例如 DPM-Solver 與 DPM-Solver++。這些方法把擴散採樣視為一個常微分方程(ODE)求解問題,然後設計更高階、更有效率的數值步進法。這種觀點很值得注意,因為它提醒我們:擴散模型的速度問題,不只可以靠神經網路本身改進,也可以透過更好的數值求解策略來改善。換句話說,生成模型的效能有時不只是架構問題,也是採樣演算法問題。

更進一步的做法,例如 Consistency Models,則試圖把這種多步生成的過程進一步壓縮成極少步數甚至單步近似。值得注意的是,Consistency Models 雖然受擴散模型啟發,但在方法論上已具有獨立性:它既可以透過蒸餾已有擴散模型來學習(consistency distillation),也可以直接從資料中訓練(consistency training),不一定依賴一個預先訓練好的擴散模型作為前提。這類研究背後的共同目標,是把擴散模型從「每次都要走一條很長的逆向路」逐漸推向「用較短路徑也能到達相似品質」。也就是說,擴散模型的發展已經不只是比誰品質更高,而是開始認真回答一個工程問題:在品質、速度與穩定性之間,我們究竟能把採樣壓到多快,而不至於失去擴散模型原本的優勢?

6.6.4 潛在擴散模型:先改善表徵,再做擴散

除了在採樣步數上做文章,擴散模型還有另一條非常重要的效率改善路線:不要在原始資料空間裡做擴散,而改在較低維、較規整的潛在空間中做擴散。 這就是潛在擴散模型(Latent Diffusion Model, LDM)的基本思想(Rombach et al., 2022)。

這個想法和第三章的表徵問題有非常直接的呼應。若原始波形空間維度極高、結構複雜,那麼直接在其中做擴散,計算成本會很大,模型也要同時面對太多細節。相反地,若先用 VAE 之類的模型把資料壓縮到較低維、較規整的潛在空間,再在那裡做擴散,問題就可能變得容易得多。這裡的關鍵不只是維度降低,更在於:VAE 的 KL 正則化通常已經把潛在空間整理得比較接近高斯,這和擴散模型從高斯噪聲出發的假設自然地相容。換句話說,潛在擴散不是單純「先壓縮再生成」,而是讓表徵空間本身就更適合擴散這種生成原理。

在音訊領域,AudioLDM 就是把這種做法帶進 Text-to-Audio 的代表性系統。它不是直接在原始波形上學習從文字提示到聲音的映射,而是先在潛在表徵空間中做條件擴散,再把生成出的潛在表徵解碼回可聽的聲音(Liu et al., 2023)。這種做法非常能說明本章的一個核心觀點:很多生成模型的成功,並不只來自生成器本身,也來自它究竟是在什麼表徵空間中工作。若表徵空間設計得好,原本看似很難的生成問題,往往會變得更可處理。

因此,潛在擴散模型真正值得記住的,不只是它更有效率,而是它清楚展示了「表徵」與「生成」其實是可以互相支撐的。自回歸模型強調順序分解,VAE 強調潛在空間,擴散模型強調逐步去噪;到了潛在擴散,這幾種觀點開始交會:我們先用表徵學習把資料送進一個較好的空間,再用擴散去處理生成本身。這也說明,現代生成式聲音系統很少只站在一個純粹框架上,而更像是在不同生成思想之間有意識地組裝與取捨。

6.7 Transformer 與音訊 Token 模型

到目前為止,我們已經看過幾條主要生成路線:自回歸模型透過順序分解來生成資料,VAE 透過潛在空間來支撐採樣與操控,GAN 透過對抗訓練來學習感知真實度,擴散模型則把生成改寫成逐步去噪。那麼,為什麼近年的聲音生成研究,還會大幅轉向 Transformer 與音訊 token 模型?最直接的答案是:當聲音能被改寫成較短的離散序列時,很多原本屬於語音工程的問題,就開始能用語言模型的方式重新表述。

但這裡需要先說清楚一件事:Transformer 不是不能做音訊,而是不能天然地直接對原始波形做和文字一樣的處理。這和 Transformer 本身的能力無關,而和音訊的序列長度有關。文字序列通常幾十到幾百個 token;但一秒 16 kHz 的音訊波形,就有 16,000 個取樣點。若直接把原始波形當成序列輸入 Transformer,計算量會快速失控。也正因如此,Transformer 在音訊領域真正的轉折點,不只是自注意力本身,而是 audio tokenizer 的成熟:它讓聲音第一次能以較短、較結構化的離散序列形式被建模。

6.7.1 為什麼 Transformer 不能直接吃原始波形?

Transformer 在自然語言處理中的成功,很大程度上建立在自注意力(self-attention)可以有效建模長距離依賴;但它也有一個著名代價:標準自注意力的計算複雜度和序列長度 T 的平方成正比(更精確地說是 O (T²·d ),其中 d 為表徵維度;但由於 d 通常遠小於音訊序列長度 T,瓶頸主要來自 T² 這一項)。

對文字來說,這通常還能承受。若序列長度是 1,000,注意力矩陣大小約是 106 個元素;但若直接處理一秒 16 kHz 的波形,序列長度就是 16,000,注意力矩陣大小會變成約 2.56×108。這還只是 1 秒音訊;若是更長的語音、音樂或環境聲片段,成本會迅速擴張。這說明了一個簡單但關鍵的事實:不是 Transformer 不適合音訊,而是原始波形的表徵粒度太細,讓 Transformer 的代價變得過高

這裡也可以順便回扣第三章與第五章的主題。第三章告訴我們,不同表徵會改變後續學習問題的難度;第五章則讓我們看到,很多現代 TTS 系統都建立在中介表徵之上。到了第六章 6.7,這個問題變得更尖銳:若表徵不改變,Transformer 就很難真正進入音訊生成的核心。 因此,Transformer 在音訊中的有效應用,通常必須配合更短的表徵形式。對原始波形來說,它太昂貴;對 Mel 頻譜幀來說,在短句子上可行,但長音訊仍然吃力;對音訊 token 來說,則因序列長度被大幅壓縮,而變得最自然也最實用。

也正因為如此,audio tokenizer 在近年扮演的角色,遠不只是「換了一種表徵」。它真正做的事,是替 Transformer 打開了一條技術通道:把原本過長、過細、直接處理代價過高的聲音訊號,轉換成較短、較抽象、較適合序列建模的離散單位。換句話說,tokenization 不是附帶技巧,而是 Transformer 能否有效用在音訊上的前提條件。

6.7.2 殘差向量量化與多層 Token 結構

那麼,音訊 token 是怎麼來的?現代音訊 tokenizer 多半建立在神經音訊 codec 之上,而其中最常見的技術之一,就是殘差向量量化(Residual Vector Quantization, RVQ)。它的基本想法是:與其企圖一次用一個離散碼本把所有音訊細節都壓進去,不如把量化過程拆成多層,讓前一層先捕捉較粗的結構,後一層再逐步補回殘留的誤差。

具體來說,第一個量化器會先把編碼器輸出的連續表徵映射到某個離散碼本中,得到第一層 token;接著計算這次量化後留下的殘差,再用第二個量化器去近似這個殘差,得到第二層 token;之後可以再重複這個過程,多層疊加。這樣做的好處,是整個音訊不必依賴單一量化器一次做完所有工作,而能以分層方式逐步逼近原始表徵。

這種多層 token 結構很重要,因為它讓不同層次的 token 可以承擔不同功能。較高層的 token 往往更偏向粗粒度的結構與語義,例如某段語音大致說了什麼、某段音樂大致是什麼旋律走向;較低層的 token 則更偏向細節,例如音色紋理、局部聲學質感與微觀變化。這種分層性,讓我們第一次可以比較自然地把聲音中的「高層結構」與「低層細節」分開處理。也就是說,tokenization 不只是把連續訊號換成離散序列,它還常常內含了一種對聲音結構的分層理解。

一旦音訊具有多層 token 結構,語言模型的設計也會有不同選擇。有些系統採用層次自回歸:先生成高層 token,再生成低層 token;有些系統則把不同 RVQ 層交錯排列成單一序列,用一個 Transformer 統一建模;還有些系統改採 masked prediction 或半並行生成,以提升速度。這些設計表面上很不一樣,但本質上都在做同一件事:把聲音生成改寫成「如何續寫一段離散序列」的問題。

從第六章整體角度看,這一點特別關鍵。前面幾節介紹的自回歸、VAE、GAN、flow、diffusion,很多都仍以波形或連續表徵為中心;但 token 模型帶來的是另一種抽象化:它不是直接處理原始連續訊號,而是先把聲音重新編碼成一組較短的符號單位,再交給通用序列模型處理。這使得聲音生成開始真正和自然語言處理中的大型語言模型方法論接軌。

6.7.3 音訊 Token 模型的條件控制:從顯式模組到上下文學習

這裡還可以看到 token 模型和傳統 TTS 系統的一個深刻差異。傳統 TTS 通常會把「內容」、「說話者」、「韻律」、「音色」分別建模,再透過不同模組安排它們如何交會。這種設計的優點,是模組邊界清楚、控制介面明確;但缺點則是系統往往較分裂。音訊 token + Transformer 的思路則比較像大型語言模型:它傾向把各種條件都當成可前綴化、可嵌入化的上下文訊息,讓模型在同一個序列框架中自行整合。

這種差異,會直接影響控制的方式。在 token 模型裡,文字提示可以先經過文字編碼器,再透過交叉注意力或前綴條件進入 Transformer;參考音訊則可先被轉成 token 序列,作為生成序列的前文,讓模型在上下文中延續相同的說話者、音色或風格。若用比較直白的方式說,很多原本需要專門模組處理的能力,例如語音複製、零樣本 TTS、風格延續,現在開始能被重新理解為一種上下文學習(in-context learning):模型看到某些條件前綴後,自然學會往相符的方向續寫音訊 token。

AudioLM 可以說是這條路線中很有代表性的例子。它把音訊生成分成較高層的語義 token 與較低層的聲學 token,使模型不必在同一層序列上同時兼顧長程結構與細節紋理。VALL-E 則進一步展示了零樣本語音合成的力量:只要給定幾秒參考語音與文字內容,模型就能以語言模型方式生成符合該說話者音色的音訊 token,再交由 codec 解碼器還原成波形。這裡最值得注意的,不只是模型能「模仿聲音」,而是它證明了一件事:當音訊被適當 tokenize 之後,語音合成在很大程度上可以被重新表述為一個語言模型任務。

當然,這條路線也不是沒有代價。token 模型雖然很容易吃到 Transformer 與大型語言模型的規模優勢,但它通常也更依賴 tokenizer 的品質:若 token 表徵本身不好,後續 Transformer 再強,也只是把一組欠佳的離散序列續寫得很流暢。此外,這種「把所有條件都交給上下文整合」的方式,雖然架構統一,但在某些任務上未必像顯式 F0 / duration / energy 控制那樣直覺可調。換句話說,token 模型的強項往往在於統一性與擴展性,而不一定在於最細粒度、最透明的控制介面。

從模型的比較視角來看,Transformer 與音訊 token 模型真正重要的地方,不是它們單純「把語言模型搬來做音訊」,而是它們讓我們重新思考了一件事:聲音生成也許不必永遠從波形或頻譜出發,它也可以在一個更抽象、更符號化的層次上被表述。 一旦這件事成立,許多原本看起來屬於專門音訊工程的問題,就開始能與大型序列模型、上下文學習、多模態條件控制等更一般的方法論接軌。這正是 6.7 在本章中的真正位置:它不只補充了一種新模型,而是把聲音生成進一步拉進更大尺度的生成模型世界。

6.8 不同模型路線的優缺點比較

走到這裡,讀者很容易出現一種典型感受:前面看過了自回歸、VAE、GAN、正規化流、擴散模型,以及 Transformer 與音訊 token 模型,似乎每一條路都有自己的代表作與成功案例;但如果現在要回答「到底哪一類模型比較好」,答案反而變得更不清楚。這其實正是生成模型學習中一個很重要的轉折點:真正的理解,不是記住每個模型的名字,而是看懂它們究竟在交換什麼能力。

因此,本節不再逐一重講模型細節,而是把前面介紹過的幾條路線重新放回同一張比較地圖裡。我們真正要比較的,不只是效果好不好,而是幾個彼此拉扯的維度:生成品質、推論速度、訓練穩定性、可控性,以及多樣性。 一個模型若在其中一個維度特別強,往往意味著它在其他地方付出了代價。也正因如此,生成模型的比較從來不只是排名問題,而是權衡問題。

先看生成品質。若不考慮計算成本,擴散模型在許多音訊任務上,尤其是 Text-to-Audio 與 Text-to-Music,往往能提供最高水準的感知品質。它們的優勢在於能夠把生成拆成許多細小去噪步驟,因此在細節、穩定性與整體自然度上表現出色。音訊 token 結合 Transformer 的路線,則在語音複製、長程結構建模與高階條件控制上表現非常突出。GAN 類方法在聲碼器任務中依然極具實用性,尤其像 HiFi-GAN 這樣的架構,在品質與速度之間取得了非常漂亮的平衡。至於 VAE,若單獨作為最終生成器,通常不是品質最高的一類,但它在潛在空間的建立、多樣性的提供,以及後續控制能力上,具有非常基礎的地位。

再看推論速度。這裡不同路線的差異往往比品質更劇烈。取樣點層次的自回歸模型,例如 WaveNet,通常是最慢的一類,因為它們必須逐點往前生成。GAN 與正規化流通常最快,因為生成多半是一次前向傳播或少量可並行步驟。音訊 token 模型的速度介於中間:它們雖然仍可能是自回歸的,但因為 token 序列遠短於原始波形,速度通常比逐取樣點生成好得多。擴散模型原本是最慢的一群,但在 DDIM、DPM-Solver 等加速方法之後,和其他方法的差距已經明顯縮小。這也再次提醒我們,速度不是附帶條件,而是很多真實系統是否可用的核心標準。

若把焦點放到訓練穩定性,情況又會改觀。VAE、擴散模型與正規化流,通常都具有較明確的機率目標,因此訓練相對穩定;自回歸模型依託最大似然或交叉熵,也往往有清楚的優化方向。GAN 則是訓練最不穩定的一類,因為生成器與判別器之間始終存在脆弱的對抗平衡,容易出現模式崩潰與震盪。音訊 token + Transformer 則因為繼承了語言模型成熟的交叉熵訓練框架,整體穩定性通常也相當不錯。這說明一件事:有些模型之所以在研究社群中特別「討人喜歡」,不只是因為它們品質高,而是因為它們更容易被穩定地訓練與擴展。

接著是可控性。這裡沒有單一贏家,因為不同模型的控制哲學並不一樣。若系統明確預測時長、F0、能量等韻律因子,則像 FastSpeech 類方法那樣的顯式控制,通常最直接、最透明,也最方便做細粒度調整。擴散模型則常透過 CFG 等方式,在採樣階段柔性調整條件強度,控制更偏向路徑引導而不是中間變量操控。音訊 token 模型的控制能力,則較依賴上下文設計與提示形式,強在統一性與擴展性,但未必像顯式韻律模型那樣細緻透明。至於 VAE,它最大的控制潛力來自潛在空間本身:若潛在空間學得好,便可能沿某些方向調節風格、音色或情緒。但這種控制未必像顯式變量那樣直接。換句話說,可控性不是單一刻度,而是取決於模型究竟把控制放在哪一層:中間變量、採樣路徑、潛在空間,還是上下文前綴。

再來是多樣性。在這一點上,VAE 與擴散模型通常表現很強,因為它們從設計上就保留了隨機採樣過程。自回歸模型若採樣策略得當,多樣性也可以很高;但若溫度過低或解碼策略過於保守,輸出會趨於單一。GAN 則比較容易受模式崩潰限制,多樣性常常不是它最穩的優勢。純確定性的非自回歸模型若沒有額外隨機性注入,對相同輸入通常會產生非常接近的輸出,這讓它們在穩定性上有優勢,但也較難自然保留「同一句話其實可以有多種合理說法」這種真實人類表達中的變異。

如果把這些比較重新濃縮成一組比較容易記住的印象,可以這樣理解。

取樣點層次的自回歸模型:生成品質高,理論目標清楚,多樣性天然存在,但推論最慢。

token 層次的自回歸模型:保留自回歸的條件序列優勢,又因序列縮短而更具擴展性,特別適合長段語音與大型模型整合。

VAE:訓練穩定、推論快,最大的價值在於建立可採樣、可內插、可操控的潛在空間,但單獨作為最終生成器時未必提供最高感知品質。

GAN:在聲碼器場景中能提供極高感知真實度,且推論很快,但訓練最不穩,模式崩潰風險也最高。

正規化流:兼具精確密度估計與高效採樣,是非常優雅的模型類型,但可逆性與雅可比計算限制了架構自由度。

擴散模型:在品質與多樣性上通常最強,條件控制也很有彈性,但原始採樣成本較高,必須依賴各種加速技巧才能進入實用範圍。

但是,到了這裡還必須再加上一個關鍵提醒:真實系統很少只用單一框架。 VITS 同時結合了 VAE、GAN 與正規化流;潛在擴散模型結合了 VAE 與 diffusion;某些大型語音模型則同時用到 tokenization、自回歸與並行生成。這意味著,實務上真正重要的,從來不是問哪個框架「絕對最好」,而是問:在某個任務裡,哪些能力必須優先保留,哪些代價可以接受。品質、速度、穩定性、可控性與多樣性之間,本來就存在根本張力;理解這些交換關係,才算真正理解了生成模型的架構邏輯。

本章小結

本章介紹了生成式模型中最核心的幾條技術路線。自回歸模型透過鏈式法則,把高維聯合分布拆解成一連串局部條件決策;VAE 透過潛在空間,把表示學習與生成結合起來;GAN 用對抗訓練學習感知上逼真的樣本;正規化流以可逆映射精確追蹤密度;擴散模型則把生成重新改寫成反向去噪問題;Transformer 與音訊 token 模型,則進一步把聲音拉進語言模型式的序列建模框架。

但本章最重要的,不只是知道「有哪些模型」,而是看懂這些模型其實都在回應同一組共同問題:如何近似未知資料分布、如何在高維空間中找到真實資料的低維結構,以及如何在條件生成中保留一對多映射所帶來的多樣性。不同模型真正的差異,不在於它們各自用了什麼名詞,而在於它們選擇從哪個角度切入這些問題,又願意用什麼代價去交換什麼能力。

從這個角度看,這些框架不是彼此排斥的流派,而更像是一組可以互補、可以組合、也可以彼此嵌套的工具箱。自回歸模型擅長順序展開,VAE 擅長建立可操控的潛在空間,GAN 擅長逼近感知真實度,flow 擅長在採樣與密度估計之間取得精確平衡,擴散模型擅長把複雜生成問題拆成穩定的小步驟,而 token 模型則擅長把聲音重新帶入大型序列模型的方法論之中。理解這些能力的交換關係,比單純背下模型名稱更重要。

也正因如此,本章真正建立的,不是一張模型名單,而是一種看待生成問題的方式:當我們面對一個聲音任務時,不該只問「現在最流行的是哪個模型」,而應該問「這個任務最需要的是品質、速度、穩定性、可控性,還是多樣性?」、「這些能力分別由哪種生成原理提供?」、「我們是否需要單一路線,還是更適合採用混合架構?」當這些問題開始變得清楚,生成模型才不再只是名詞堆疊,而成為可分析、可設計、可比較的理論工具。

從下一章開始,我們的討論將從一般生成模型的比較,轉向更具體的應用任務。也就是說,第六章回答的是「生成模型如何理解生成本身」,而下一章開始,問題將變成:「在不同聲音任務中,這些生成原理究竟如何落地,又會遇到哪些新的技術挑戰?」

參考文獻

Arjovsky, M., Chintala, S., & Bottou, L. (2017). Wasserstein GAN. arXiv preprint arXiv:1701.07875.

Borsos, Z., Marinier, R., Vincent, D., Kharitonov, E., Zeghidour, N., Sharifi, M., Robinson, O., Ballas, N., Pierrot, T., Engel, J., Garivier, A., Pietquin, O., Tagliasacchi, M., & Zeghidour, N. (2023). AudioLM: A language modeling approach to audio generation. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 31, 2523–2533.

Copet, J., Kreuk, F., Gat, I., Remez, T., Kant, D., Synnaeve, G., Adi, Y., & Défossez, A. (2023). Simple and controllable music generation. In Advances in Neural Information Processing Systems (Vol. 36).

Défossez, A., Copet, J., Synnaeve, G., & Adi, Y. (2023). High fidelity neural audio compression. Transactions on Machine Learning Research.

Dinh, L., Sohl-Dickstein, J., & Bengio, S. (2017). Density estimation using Real-valued Non-Volume Preserving (Real NVP) transformations. In Proceedings of the International Conference on Learning Representations (ICLR).

Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A., & Bengio, Y. (2014). Generative adversarial nets. In Advances in Neural Information Processing Systems (Vol. 27).

Ho, J., Jain, A., & Abbeel, P. (2020). Denoising diffusion probabilistic models. In Advances in Neural Information Processing Systems (Vol. 33, pp. 6840–6851).

Ho, J., & Salimans, T. (2022). Classifier-free diffusion guidance. arXiv preprint arXiv:2207.12598.

Kingma, D. P., & Dhariwal, P. (2018). Glow: Generative flow with invertible 1×1 convolutions. In Advances in Neural Information Processing Systems (Vol. 31).

Kingma, D. P., & Welling, M. (2014). Auto-encoding variational Bayes. In Proceedings of the International Conference on Learning Representations (ICLR).

Kumar, K., Kumar, R., de Boissiere, T., Gestin, L., Teoh, W. Z., Sotelo, J., de Brébisson, A., Bengio, Y., & Courville, A. (2019). MelGAN: Generative adversarial networks for conditional waveform synthesis. In Advances in Neural Information Processing Systems (Vol. 32).

Le, M., Vyas, A., Shi, B., Karrer, B., Sari, L., Moritz, R., Williamson, M., Manohar, V., Adi, Y., Mahadeokar, J., & Hsu, W.-N. (2023). Voicebox: Text-guided multilingual universal speech generation at scale. In Advances in Neural Information Processing Systems (Vol. 36).

Liu, H., Chen, Z., Yuan, Y., Mei, X., Liu, X., Mandic, D., Wang, W., & Plumbley, M. D. (2023). AudioLDM: Text-to-audio generation with latent diffusion models. In Proceedings of the International Conference on Machine Learning (ICML).

Lu, C., Zhou, Y., Bao, F., Chen, J., Li, C., & Zhu, J. (2022). DPM-Solver: A fast ODE solver for diffusion probabilistic model sampling in around 10 steps. In Advances in Neural Information Processing Systems (Vol. 35).

Rombach, R., Blattmann, A., Lorenz, D., Esser, P., & Ommer, B. (2022). High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (pp. 10684–10695).

Sohl-Dickstein, J., Weiss, E., Maheswaranathan, N., & Ganguli, S. (2015). Deep unsupervised learning using nonequilibrium thermodynamics. In Proceedings of the International Conference on Machine Learning (ICML) (pp. 2256–2265).

Song, J., Meng, C., & Ermon, S. (2021). Denoising diffusion implicit models. In Proceedings of the International Conference on Learning Representations (ICLR).

Song, Y., Dhariwal, P., Chen, M., & Sutskever, I. (2023). Consistency models. In Proceedings of the International Conference on Machine Learning (ICML).

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention is all you need. In Advances in Neural Information Processing Systems (Vol. 30).

Wang, C., Chen, S., Wu, Y., Zhang, Z., Zhou, L., Liu, S., Chen, Z., Liu, Y., Wang, H., Li, J., He, L., Zhao, S., & Wei, F. (2023). Neural codec language models are zero-shot text to speech synthesizers. arXiv preprint arXiv:2301.02111.

Zeghidour, N., Luebs, A., Omran, A., Skoglund, J., & Tagliasacchi, M. (2022). SoundStream: An end-to-end neural audio codec. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 30, 495–507.

 

留言
avatar-img
Dino Lee的AI 智識館
5會員
31內容數
這裡是一個探索 人工智慧 × 人文思想 × 跨域研究 的知識空間。 從《深度認識人工智慧》出發,分享 AI 的基礎概念、最新發展,以及它與心理學、哲學、社會的深度對話。
2026/05/02
深度學習時代語音合成的每一步架構演進,本質上都在重新回答同一個問題:哪些決策應該留給人類先驗,哪些可以交由模型從資料中發現。 從對齊到韻律,從頻譜預測到波形生成,從模組管線到整合式框架,這條線索貫穿了 從Tacotron、FastSpeech、到Matcha-TTS 的所有差異。
Thumbnail
2026/05/02
深度學習時代語音合成的每一步架構演進,本質上都在重新回答同一個問題:哪些決策應該留給人類先驗,哪些可以交由模型從資料中發現。 從對齊到韻律,從頻譜預測到波形生成,從模組管線到整合式框架,這條線索貫穿了 從Tacotron、FastSpeech、到Matcha-TTS 的所有差異。
Thumbnail
2026/04/19
在深度學習尚未改寫語音技術之前,工程師面對的問題是「如何用有限而可控的工程手段,把一串文字變成一段勉強自然、但至少可以理解的語音」。早期工程師沒有大型神經網路,也沒有端到端學習可以依賴,因此只能把連續整體的現象拆解成許多可以操作的小問題,再用明確規則、資料庫與訊號處理的方法把它們重新組裝起來。
Thumbnail
2026/04/19
在深度學習尚未改寫語音技術之前,工程師面對的問題是「如何用有限而可控的工程手段,把一串文字變成一段勉強自然、但至少可以理解的語音」。早期工程師沒有大型神經網路,也沒有端到端學習可以依賴,因此只能把連續整體的現象拆解成許多可以操作的小問題,再用明確規則、資料庫與訊號處理的方法把它們重新組裝起來。
Thumbnail
2026/04/17
機器究竟是如何「理解」聲音的?對人類而言,這個問題似乎不難。我們能分辨一句話說了什麼、是誰在說、語氣是否緊張、背景是否嘈雜。然而,對機器而言,輸入只是一串隨時間變化的數值。機器並不天然知道音高、音色、語速、情緒或語意,它只能透過某種表徵方式,把原始訊號轉換成對任務有用的形式。
Thumbnail
2026/04/17
機器究竟是如何「理解」聲音的?對人類而言,這個問題似乎不難。我們能分辨一句話說了什麼、是誰在說、語氣是否緊張、背景是否嘈雜。然而,對機器而言,輸入只是一串隨時間變化的數值。機器並不天然知道音高、音色、語速、情緒或語意,它只能透過某種表徵方式,把原始訊號轉換成對任務有用的形式。
Thumbnail
看更多
你可能也想看
Thumbnail
轉向「為己之學」: 每日自省「我今日懂得了什麼真理?」而非「我能得到幾分?」。 實踐「正念讀書」: 學習時一心不亂,運用念佛調心之法,平復競爭的燥動,讓心識回歸當下。 體認「學為利他」: 正如基督宗教與佛教共同的體認:沒有愛與慈悲的知識,只是冰冷的空殼。
Thumbnail
轉向「為己之學」: 每日自省「我今日懂得了什麼真理?」而非「我能得到幾分?」。 實踐「正念讀書」: 學習時一心不亂,運用念佛調心之法,平復競爭的燥動,讓心識回歸當下。 體認「學為利他」: 正如基督宗教與佛教共同的體認:沒有愛與慈悲的知識,只是冰冷的空殼。
Thumbnail
5 月,方格創作島正式開島。這是一趟 28 天的創作旅程。活動期間,每週都會有新的任務地圖與陪跑計畫,從最簡單的帳號使用、沙龍建立,到帶著你從一句話、一張照片開始,一步一步找到屬於自己的創作節奏。不需要長篇大論,不需要完美的文筆,只需要帶上你今天的日常,就可以出發。征服創作島,抱回靈感與大獎!
Thumbnail
5 月,方格創作島正式開島。這是一趟 28 天的創作旅程。活動期間,每週都會有新的任務地圖與陪跑計畫,從最簡單的帳號使用、沙龍建立,到帶著你從一句話、一張照片開始,一步一步找到屬於自己的創作節奏。不需要長篇大論,不需要完美的文筆,只需要帶上你今天的日常,就可以出發。征服創作島,抱回靈感與大獎!
Thumbnail
當時間變少之後,看戲反而變得更加重要——這是在成為母親之後,我第一次誠實地面對這一件事:我沒有那麼多的晚上,可以任性地留給自己了。看戲不再只是「今天有沒有空」,而是牽動整個週末的結構,誰應該照顧孩子,我該在什麼時間回到家,隔天還有沒有精神帶小孩⋯⋯於是,我不得不學會一件以前並不擅長的事:挑選。
Thumbnail
當時間變少之後,看戲反而變得更加重要——這是在成為母親之後,我第一次誠實地面對這一件事:我沒有那麼多的晚上,可以任性地留給自己了。看戲不再只是「今天有沒有空」,而是牽動整個週末的結構,誰應該照顧孩子,我該在什麼時間回到家,隔天還有沒有精神帶小孩⋯⋯於是,我不得不學會一件以前並不擅長的事:挑選。
Thumbnail
Gemini Diffusion Google 在本次 Google I/O 大會上,揭曉了一款名為 Gemini Diffusion 的實驗性文字生成模型。這款模型最大的亮點在於採用了「擴散技術 (Diffusion Techniques)」,與我們熟知的傳統自回歸語言模型 (Autoregre
Thumbnail
Gemini Diffusion Google 在本次 Google I/O 大會上,揭曉了一款名為 Gemini Diffusion 的實驗性文字生成模型。這款模型最大的亮點在於採用了「擴散技術 (Diffusion Techniques)」,與我們熟知的傳統自回歸語言模型 (Autoregre
Thumbnail
MAGI-1 是由 SandAI 開發的先進自回歸視頻生成模型,旨在通過自回歸方式預測視頻塊序列來生成高質量視頻。該模型經過訓練,能夠對視頻塊進行去噪,實現因果時間建模並支持流式生成。MAGI-1 在圖像到視頻(I2V)任務中表現卓越,提供高時間一致性與可擴展性,這得益於多項算法創新與專門的基礎設施
Thumbnail
MAGI-1 是由 SandAI 開發的先進自回歸視頻生成模型,旨在通過自回歸方式預測視頻塊序列來生成高質量視頻。該模型經過訓練,能夠對視頻塊進行去噪,實現因果時間建模並支持流式生成。MAGI-1 在圖像到視頻(I2V)任務中表現卓越,提供高時間一致性與可擴展性,這得益於多項算法創新與專門的基礎設施
Thumbnail
我們應當從追求「達標修行」轉向「覺悟修行」。人生不應該是一張冷冰冰、寫滿績效數字的報表,而是一場回歸自性、體現慈悲的旅程。數字應是輔助前行的工具,而非奴役靈魂的枷鎖。 最後,想請您一同反思:「在你的生活中,有哪些數字正悄悄地取代了你的良知與快樂?」
Thumbnail
我們應當從追求「達標修行」轉向「覺悟修行」。人生不應該是一張冷冰冰、寫滿績效數字的報表,而是一場回歸自性、體現慈悲的旅程。數字應是輔助前行的工具,而非奴役靈魂的枷鎖。 最後,想請您一同反思:「在你的生活中,有哪些數字正悄悄地取代了你的良知與快樂?」
Thumbnail
當代名導基里爾.賽勒布倫尼科夫身兼電影、劇場與歌劇導演,其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後,他持續以創作回應專制體制的壓迫。《傳奇:帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析,解構賽勒布倫尼科夫如何利用影劇雙棲的特質,在荒謬世道中尋找藝術的「生存之道」。
Thumbnail
當代名導基里爾.賽勒布倫尼科夫身兼電影、劇場與歌劇導演,其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後,他持續以創作回應專制體制的壓迫。《傳奇:帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析,解構賽勒布倫尼科夫如何利用影劇雙棲的特質,在荒謬世道中尋找藝術的「生存之道」。
Thumbnail
「當初說好的 5 年寬限期,怎麼到了第 3 年就變了樣?」這是許多 2023 年搶搭新青安列車的首購族,在 2026 年即將面臨的真實恐慌。根據財政部規劃,利息補貼將於 2026 年 7 月 31 日正式畫下句點。 這不僅是利率的「校正回歸」,對於過度槓桿的購屋族而言,這更像是一場「現金流斷裂」的
Thumbnail
「當初說好的 5 年寬限期,怎麼到了第 3 年就變了樣?」這是許多 2023 年搶搭新青安列車的首購族,在 2026 年即將面臨的真實恐慌。根據財政部規劃,利息補貼將於 2026 年 7 月 31 日正式畫下句點。 這不僅是利率的「校正回歸」,對於過度槓桿的購屋族而言,這更像是一場「現金流斷裂」的
Thumbnail
我們制訂日益繁複的法令、施加更密集的干預,試圖以此平息混亂,結果卻往往適得其反:法令愈嚴,社會愈見疏離;干預愈多,系統的自愈能力愈發萎縮。老子在《道德經》第五十七章中揭示了一個震撼千古的祕密:「我無為而民自化」。這並非教導我們消極放棄,而是洞察到宇宙與生命系統中那股神聖的、自發的秩序。
Thumbnail
我們制訂日益繁複的法令、施加更密集的干預,試圖以此平息混亂,結果卻往往適得其反:法令愈嚴,社會愈見疏離;干預愈多,系統的自愈能力愈發萎縮。老子在《道德經》第五十七章中揭示了一個震撼千古的祕密:「我無為而民自化」。這並非教導我們消極放棄,而是洞察到宇宙與生命系統中那股神聖的、自發的秩序。
Thumbnail
見諸參與鄧伯宸口述,鄧湘庭於〈那個大霧的時代〉記述父親回憶,鄧伯宸因故遭受牽連,而案件核心的三人,在鄧伯宸記憶裡:「成立了成大共產黨,他們製作了五星徽章,印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單,以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿,另外還有手槍子彈十發。」
Thumbnail
見諸參與鄧伯宸口述,鄧湘庭於〈那個大霧的時代〉記述父親回憶,鄧伯宸因故遭受牽連,而案件核心的三人,在鄧伯宸記憶裡:「成立了成大共產黨,他們製作了五星徽章,印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單,以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿,另外還有手槍子彈十發。」
Thumbnail
為何多數 AI 影片編輯時常出現惱人的閃爍與抖動?本文將深度解析 Everlyn-1 的核心穩定性技術,揭示其從 2D 像素思維躍遷至 3D 感知架構的革命性轉變。理解這項技術,你將明白 AI 影片的未來,為何關乎「控制」而非「運氣」。
Thumbnail
為何多數 AI 影片編輯時常出現惱人的閃爍與抖動?本文將深度解析 Everlyn-1 的核心穩定性技術,揭示其從 2D 像素思維躍遷至 3D 感知架構的革命性轉變。理解這項技術,你將明白 AI 影片的未來,為何關乎「控制」而非「運氣」。
Thumbnail
這是一篇關於洗淨「機心」(功利算計之心)的心靈導讀。透過莊子「老園丁拒絕機械」的寓言,揭示追求效率可能帶來的精神危機。並結合佛教「淨化蓮池」、儒家「真誠玉雕師」與基督宗教「謙卑園丁」的故事,引導讀者放下得失計算,以慈悲、真誠與順服,找回內心的純真與平靜。
Thumbnail
這是一篇關於洗淨「機心」(功利算計之心)的心靈導讀。透過莊子「老園丁拒絕機械」的寓言,揭示追求效率可能帶來的精神危機。並結合佛教「淨化蓮池」、儒家「真誠玉雕師」與基督宗教「謙卑園丁」的故事,引導讀者放下得失計算,以慈悲、真誠與順服,找回內心的純真與平靜。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News