人工智慧如何生成聲音 第九章_聲音複製與語音轉換:為何 AI 可以模仿特定人的聲音

更新 發佈閱讀 53 分鐘

9.1 聲音複製的社會意義與技術背景

在所有聲音生成的任務中,聲音複製(voice cloning)是最容易讓非技術背景的讀者立即感到震撼的。其原因並不神秘:因為它觸及的是人類對「聲音與身份」之間關係的直覺信念。當我們透過電話辨認親友、在廣播裡分辨主持人、或在擁擠的空間裡僅憑一句呼喚就辨認出熟人時,我們其實都在使用一種日常而深刻的心理假設:人的聲音雖然會隨情緒、年齡與情境而改變,但在整體上仍然具有足夠穩定的個體性,因此可以作為身份的判準。語音複製技術之所以格外引人關注,正在於它動搖了這個假設:假使機器能夠生成一段「足以被誤認為某人」的語音,那麼聲音便不再是天然可靠的身份憑據,而成為可以被建模、被遷移、被再生產的統計結構。

從技術史來看,聲音複製不是一項突然誕生的魔術,而是幾條研究路線逐步會合的結果。其一是說話者辨識與說話者驗證的研究,長期累積了如何從語音中提取穩定的身份特徵的能力;其二是語音合成技術,尤其是多說話者 TTS,使模型能夠在文字條件下生成具有特定音色的語音;其三是語音轉換(voice conversion)研究,逐步建立了「保留內容、替換說話者」的技術框架;其四則是近年神經音訊編碼器與音訊語言模型的興起,使少量參考語音即可觸發高度相似的說話者條件生成成為可能。換言之,聲音複製不是單一模型的勝利,而是表徵學習、條件生成、說話者建模與高品質解碼幾個方向共同成熟的產物。

如果從問題定義來看,聲音複製真正要解決的問敵並不是「重播一段錄音」,而是更困難的任務:在輸入一段新文字時,讓系統以某個特定人的聲音風格化地說出此前從未錄過的內容。這意味著模型必須同時做到兩件事。第一,它要從參考語音中抽取與身份有關而與內容相對無關的特徵;第二,它要把這些特徵作為條件,驅動一個語音生成系統產生新的語音。前者關心的是表徵的穩定性,後者關心的是條件生成能力。如果任何一個環節技術能力不足,最後的複製效果都會下降:表徵不穩定,模型就抓不準「這個人是誰」;生成不精,模型就無法把這些身份線索轉換成可以聽見的說話風格。

這種技術之所以帶有強烈的社會意義,還因為聲音不像文字那樣容易被視為抽象內容,也不像影像那樣容易先被視為畫面材料。聲音總是帶著人格的痕跡:它同時傳遞內容、情感、社會關係、信任感與在場感。也正因為如此,聲音複製的衝擊不只是「多了一種生成能力」,而是讓原本綁定於具體個人的聲音表現,第一次在大規模統計學習的框架下,變成可以跨文本、跨場景遷移的生成條件。

前幾章已經為理解聲音複製準備了必要的技術基礎:第三章的表徵學習與解糾纏概念、第六章的生成模型框架、第七章的任務分類、第八章的說話者嵌入模組。本章不再重述這些基礎,而是要追問一組只有在語音複製場景中才會真正浮現的深層問題:一個在辨識任務中表現良好的說話者嵌入,為什麼不一定能直接驅動高品質的聲音複製?少樣本與零樣本複製的成功條件究竟是什麼,它們又在什麼條件下會系統性地失敗?自監督表示、GAN 與擴散模型這三條語音轉換路線,在內容保真與音色替換的取捨上各自落在什麼位置?高相似度為什麼不等於完全複製,複製品質又會在哪些情境下可預測地退化?最後,這些技術能力如何同時構成風險與正當價值,又需要什麼樣的防禦與治理框架?帶著這些問題進入本章,讀者將不只是知道「聲音複製怎麼做」,而是能更精確地判斷:它真正做到了什麼、尚未做到什麼、以及這些能力邊界對社會意味著什麼。

9.2 從說話者嵌入到複製條件:表徵的可用性問題

第八章已經從模組化的視角,系統性地討論了說話者嵌入的訓練方式、提取架構與在 TTS 系統中的整合策略。讀者到這裡,應該已經知道說話者嵌入是什麼、它如何被學出來、以及它如何作為條件訊號進入生成模型。本節不再重述這些基礎,而是要追問一個第八章未深入的問題:一個在辨識任務中表現良好的說話者嵌入,是否就自動適合作為語音複製的生成條件?

這個問題之所以重要,是因為語音複製領域最常見的技術路線,正是把說話者驗證系統訓練出來的嵌入,直接拿來當作TTS或語音轉換的條件輸入。SV2TTS 便是這個思路的典型代表。然而,辨識與生成對嵌入的要求,其實存在一個常被忽略的結構性差異。

9.2.1 可分性不等於可解碼性

在說話者驗證任務中,嵌入空間的核心要求是可分性:同一說話者的向量要靠近,不同說話者的向量要分開。只要系統能夠穩定地判斷「這兩段語音是否來自同一人」,嵌入的任務就完成了。至於向量的每一維究竟編碼了什麼聲學細節、這些細節是否足以讓另一個模組把它「還原」成可聽見的音色差異,驗證任務本身並不關心。但語音複製對嵌入的要求就不止於此。它還要求可解碼性:下游的聲學模型或解碼器,必須能夠把嵌入向量中的差異,轉譯成實際可聽見的音色、共鳴特性、基頻範圍與發聲習慣的差異。換句話說,嵌入不只要能「分開不同的人」,還要攜帶足夠豐富的聲學資訊,讓生成器知道「這個人的聲音具體長什麼樣子」。

這兩個要求之間的落差,在實務中常以一種很具體的方式表現出來:某個說話者編碼器在驗證任務上達到了很低的等錯誤率(EER),但當它的嵌入被送入 TTS 系統作為條件時,合成出來的語音卻只是「大致像」:音色方向大體上正確,但缺少讓人立刻認出「就是這個人」的細膩特徵。這種現象的原因,往往不是編碼器太弱,而是它在訓練過程中學到了一種對驗證任務最優、但對生成任務不夠豐富的表徵。

為什麼會這樣?因為驗證任務的優化壓力,本質上是在鼓勵嵌入保留最具區辨力的身份線索,同時盡量壓縮其他變異。這意味著,那些對「分開不同人」貢獻不大、但對「聽起來像某個特定的人」非常重要的細節,例如特定的氣聲質地、某些音素上的獨特共振峰軌跡、或笑聲邊緣的聲帶鬆弛方式,很可能在訓練過程中被當作雜訊壓掉了。嵌入仍然能把這個人和其他人分開,但它保留的資訊已經不足以讓生成器重建出那些讓人耳覺得「就是他」的微觀特徵。

從更一般的角度來看,這個問題其實是表徵學習中一個常見的問題:任務導向的壓縮,會傾向於只保留對當前任務有用的資訊,而丟棄對其他任務可能仍然重要的資訊。第三章在討論資訊瓶頸時已經提到過這個原理;在說話者嵌入的語境中,它具體表現為:辨識任務壓縮出的嵌入,未必攜帶生成任務所需要的全部聲學細節。

9.2.2 嵌入捕捉了什麼、遺漏了什麼

如果我們想更精確地理解這個落差,就需要問:說話者嵌入在實際操作中,到底保留了哪些說話者屬性,又系統性地遺漏了哪些資訊?從目前的研究來看,主流說話者嵌入最穩定保留的,是那些在大量語音樣本中都一致出現的全局性身份特徵:整體音色傾向、平均基頻範圍、共振峰的大致分布位置、以及性別與年齡等人口學特徵。這些特徵之所以被穩定地保留,是因為它們在不同語句、不同情緒、不同錄音條件下都大致不變,因此對辨識任務的貢獻最大。相對容易被遺漏的,則是那些局部性、情境依賴或低頻出現的發聲特徵。例如:某些說話者在特定音素組合上獨特的協同發音方式;情緒激動時聲帶振動模式的微妙變化;句尾收束時特有的氣息釋放模式;或者在低語、笑聲、嘆氣等非典型發聲狀態下的嗓音質地。這些特徵之所以容易丟失,有兩個原因。第一,它們在訓練資料中出現的頻率較低,統計信號較弱。第二,它們往往與內容、情緒或語境高度糾纏一起,嵌入模型在學習「對內容不變」的過程中,容易把它們一併壓掉。

這就解釋了為什麼語音複製在「朗讀標準文本」的場景下通常表現最好,但一旦進入即興對話、情緒表達、耳語或跨語言場景,相似度就會明顯下降。不是因為生成器變弱了,而是因為嵌入在一開始就沒有攜帶足夠的資訊來覆蓋這些非典型條件。

值得注意的是,嵌入空間中還經常殘留一些並非刻意保留的結構。例如,許多研究發現說話者嵌入會自發地編碼語言背景、口音類型甚至錄音設備的資訊。這些殘留結構一方面說明嵌入並未完全解糾纏,另一方面也帶來實務上的後果:當模型試圖讓一位英語說話者「說中文」時,嵌入中殘留的英語發音習慣可能會干擾目標語言的生成,導致跨語言複製中的身份一致性下降。在第八章 8.6節已經從多語言建模的角度討論了這個問題;在語音複製的語境中,它表現得更為明顯,因為使用者的期待是「同一個人在說不同語言」,而不只是「不同語言各自說得自然」。

9.2.3 嵌入的跨模組相容性:從分開訓練到聯合優化

理解了可分性與可解碼性的落差之後,下一個問題就是:工程上該如何彌補?最直接的解決思路是在訓練說話者編碼器時,不只優化辨識目標,還同時考慮嵌入在下游生成任務中的可用性。但這樣的作法在實務中並不容易,因為說話者編碼器通常需要在遠大於TTS訓練集的說話者多樣性上預訓練,而TTS系統的訓練集則需要高品質的文字—語音配對,兩者的資料條件往往不一致。SV2TTS 的解決辦法是一種務實的折衷性想法:先在大規模說話者驗證資料上訓練編碼器,取得泛化能力;再在TTS訓練過程中,讓合成網路持續接收這個編碼器輸出的向量作為條件,使合成器逐漸適應嵌入的分布特性。這種設計的關鍵想法在於:即使兩個模組沒有進行聯合訓練,只要合成器在訓練過程中「見過」編碼器的輸出分布,它就有機會學會如何解讀這些向量。嵌入的可解碼性,不完全由編碼器決定,也部分由解碼器的適應能力決定。

更近期的系統則開始探索更緊密的整合方式。例如,有些方法在端到端框架中同時訓練說話者編碼器與聲學模型,讓嵌入從一開始就在「辨識」與「生成」兩個目標的聯合壓力下被塑形。這種聯合訓練的潛在優勢是:嵌入不再只被優化為「分得開」,而是同時被優化為「解碼器能用得上」。但它也帶來新的風險:若TTS訓練集的說話者數量有限,聯合訓練可能反而讓編碼器過度適應這些已見過的說話者,削弱對新說話者的泛化能力。因此,說話者嵌入的跨模組相容性,本質上是一個需要在泛化與適配之間取捨的問題。凍結預訓練編碼器,泛化能力強但可解碼性可能不足;聯合訓練,可解碼性高但泛化風險上升;SV2TTS 式的中間路線,則試圖在兩者之間找到可操作的平衡。理解這些取捨,對於後面討論少樣本與零樣本複製的成敗條件非常重要,因為在那些場景中,嵌入的每一點不穩定,都會被參考語音的不足進一步放大。

9.3 少樣本與零樣本語音複製

語音複製技術的真正分水嶺,不在於它能否複製,而在於它需要多少資料才能複製得像。從多樣本微調、少樣本推論時適應,到零樣本前綴條件化,這條演進路線的本質,是「對新說話者的適應成本」持續下降的過程。第八章 8.3.4 節已經從說話者嵌入的角度,討論了少樣本條件下的魯棒性挑戰;本節不再重述那些基礎,而是進一步追問:在語音複製的完整系統中,從微調到免微調的範式轉移,究竟改變了什麼?零樣本複製的成功條件是什麼?它又在什麼條件下會系統性地失敗?

9.3.1 從微調到推論時適應:範式轉移的工程邏輯

最早期的神經語音複製建立在微調機制上:先以多說話者資料預訓練一個基礎 TTS模型,再以目標說話者的大量語音進一步更新模型參數。這種方法在資料充足時仍然能產出最高品質的個人化語音,因此在失語者溝通輔具、專業配音員數位分身、企業品牌聲音資產等需要長期穩定服務同一使用者的場景中,至今仍是重要的基準線。它不是過時,而是應用邏輯不同:它追求的是高度個人化與長期穩定,而非大規模即時泛化。

少樣本語音複製的範式轉移,在於把原本需要在微調中學習的說話者適應能力,提前學進了預訓練的說話者編碼器與多說話者合成模型之中。SV2TTS 把這個思路具體化為三個模組的對接:說話者編碼器負責從任意短語音中提取嵌入,合成網路在該嵌入條件下生成 Mel 頻譜圖,聲碼器再將其還原為波形。上一節已經討論了嵌入本身的可分性與可解碼性問題;這裡要強調的是這種三模組設計在工程上的一個關鍵細節:合成器必須在訓練過程中持續接收編碼器的輸出分布,才能學會解讀它。

這個條件看似簡單,卻帶來具體的工程條件。如果說話者編碼器在預訓練完成後被凍結,那麼合成器就必須適應一個固定的、由辨識任務塑形的嵌入空間,然而上一節已經說明,這個空間未必完全適合生成任務。如果反過來讓編碼器與合成器聯合訓練,則TTS訓練集的說話者數量通常遠少於驗證任務的預訓練集,編碼器的泛化能力可能因此下降。SV2TTS 選擇的是折衷路線:凍結編碼器、讓合成器適應。這種設計在實務中被證明是可行的,但它也意味著系統的最終品質,同時受到編碼器的表徵品質與合成器的適應能力兩方面的條件所決定。

從商業部署的角度來看,少樣本複製真正的困難不在於最佳案例的展示效果,而在於穩定泛化。研究論文裡常展示最好的案例,但在實際的部署中,輸入條件是不可控的:有的人提供語音太短,有的人環境噪聲太大,有的人參考語音情緒過強,還有人說話內容太單一,使模型只看到有限音素組合。一個真正可用的少樣本系統,不只需要在理想條件下表現好,更需要對非理想條件保持最低可接受品質。這也是為什麼商業系統常要求至少十到三十秒錄音,而不是純粹追逐論文裡最亮眼的三秒數字:額外的時間不是因為模型不夠強,而是為了讓嵌入有更多樣本來平均掉偶發因素。

9.3.2 零樣本複製:前綴條件化的機制與限制

第六章已經從生成模型的角度介紹了VALL-E如何把語音生成改寫為音訊 token 的語言模型續寫。本節不重述其框架,而是聚焦於一個第六章尚未深入討論的問題:在語音複製的具體場景中,這種前綴條件化機制的成功條件與失敗模式究竟是什麼?

首先是前綴長度與音色穩定性的關係。VALL-E類系統的運作方式,是把參考語音的音訊token作為前綴,讓語言模型在這個前綴之後續寫新內容。從統計學的角度來看,前綴越長,模型能觀察到的說話者聲學模式就越豐富,續寫時的音色一致性也越穩定。但前綴不是越長越好,過長的前綴會佔用上下文窗口,壓縮留給新內容生成的空間,也可能引入與目標內容無關的韻律模式。在實務中,前綴長度的選擇是一個需要在音色穩定性與生成靈活性之間取捨的設計決策,而非一個可以無限提升的參數。

其次是長句生成中的身份漂移。即使前綴條件化在開始時成功捕捉了說話者特徵,隨著生成序列變長,語言模型的自回歸特性會使後續token逐漸偏離前綴所設定的風格。這種現象在語言模型文獻中被稱為「風格漂移」或「條件遺忘」;在語音複製的語境中,它表現為:合成語音的前幾秒聽起來很像目標說話者,但到了十秒、二十秒之後,音色開始變得模糊,逐漸向模型的「平均說話者」靠攏。這不是因為模型忘記了前綴,而是因為在長距離自回歸中,每一步的微小偏移會累積,最終把生成軌跡推離前綴所設定的區域。

第三個關鍵問題是 codec tokenizer 的設計選擇如何影響說話者特徵的保留。VALL-E類系統依賴EnCodec或SoundStream等神經音訊編碼器將波形轉換為離散token。這些編碼器通常使用殘差向量量化(RVQ),其中第一層碼本捕捉最粗糙的聲學結構,後續各層依次補充更細緻的殘差。一個直接的後果是:說話者身份資訊在不同RVQ層次中的分布並不均勻。如果系統只使用前幾層 token(例如為了降低序列長度或加速生成),就可能丟失對音色細節至關重要的高層殘差資訊;如果使用所有層次,序列長度與建模複雜度又會大幅上升。碼本大小的選擇也有類似的影響:碼本越大,單一token能表徵的聲學細節越多,但訓練所需的資料量和模型容量也越高。換句話說,tokenizer的設計不是一個與語音複製無關的「前處理細節」,而是直接決定了說話者特徵能以多高的解析度進入語言模型的關鍵瓶頸。

最後,值得我們把「三秒複製」還原到它的統計學本質來進行討論。VALL-E 類系統能在極短參考條件下產出高相似度語音,不是因為三秒音訊「足以完整描述一個人的聲音」,而是因為模型在預訓練階段已經見過成千上萬位不同說話者,從而學會了一套強大的先驗知識:人類聲音的變化空間大致長什麼樣子,不同說話者特徵之間如何共變。三秒前綴的作用,更像是在這個龐大的先驗空間中指定一個大致方位,讓模型知道「往哪個方向生成」。如果目標說話者的聲學特徵恰好落在模型見過的說話者分布之內,三秒可能就足夠;但如果目標說話者具有非常獨特的嗓音質地、罕見的口音或極端的音域,模型的先驗覆蓋不到,那麼即使給更長的前綴,複製品質也會明顯下降。

正因為如此,零樣本複製的能力邊界,本質上由兩件事情共同決定:前綴所能提供的局部資訊量,與模型先驗所能覆蓋的說話者多樣性。前者決定了「模型對這個人知道多少」,後者決定了「模型對人類聲音的一般性理解有多廣」。兩者缺一,複製都會失敗,只是失敗的方式不同:前綴不足時,輸出會偏向模型的平均想像;先驗不足時,輸出可能維持某種一致性,但聽起來不像任何真實的人。

然而,這也正是風險急遽升高的原因。當適應新說話者不再需要微調或人工整理資料,而只是一次推論前綴,聲音複製的成本將大幅下降,門檻同步降低。公開演講片段、Podcast、採訪錄音、短影片語音,都可能成為複製素材。從此,「是否能複製」不再是主要問題,真正的問題變成「如何授權、如何標記、如何防止未經允許的使用」。而這些問題我們將在 9.6 節進一步討論。

9.4 語音轉換:三條技術路線的深度比較

9.4.1 問題設定

語音轉換(voice conversion, VC)的核心問題是在既有語音中保留內容、替換說話者。此一問題在本書中已從多個角度被討論過。第三章從表徵學習的角度引入了解糾纏的概念;第七章從任務分類的角度定義了語音轉換與語音複製的關係;第八章則討論了說話者嵌入作為身份條件的技術基礎。本節不再重述這些框架,而是直接進入一個前幾章未曾處理過的問題:目前三條主要的語音轉換技術路線——基於自監督表示、基於 GAN、基於擴散模型——在實際操作中的表現差異究竟是什麼?它們各自在什麼條件下表現最強大、在什麼條件下表現最為脆弱?

9.4.2 基於自監督表徵的路線

近年最具影響力的語音轉換方法,有很大一部分建立在自監督語音表徵之上。其核心邏輯是:如果一個模型是在大量未標記語音上、透過遮蔽預測或對比學習等任務學得表徵,那麼它的某些中間層可能已經自然分化出對語言內容敏感、但對說話者身份相對不敏感的特徵。研究者發現,HuBERT、WavLM 等模型的特定中間層確實具有這種性質,因而成為內容表徵的理想來源。

kNN-VC 把這個思路推到了極簡。它不訓練任何轉換器,而是在WavLM特徵空間中,直接用來源語音的每一幀去目標說話者的語音庫中搜索最近鄰,並以目標幀的特徵替代來源幀,再由聲碼器還原為波形。這個方法之所以可行,不是因為最近鄰搜索本身有多強大,而是因為自監督表示已經把語義上相近的語音幀放到了彼此接近的位置,使得搜索具有聲學意義。NANSY則走另一個方向:它顯式地把音高、非週期性與語言內容拆開,再用神經合成器重組,提供了比 kNN-VC更強的逐因素控制能力。

這條路線的最大優勢,在於它的內容保真度通常很高。自監督表徵在訓練時從未見過說話者標籤,因此它天然傾向於編碼語言結構而非身份資訊。但這個優勢的另一面,正是它的結構性侷限:自監督表徵的「內容偏向」,可能導致某些與說話者身份高度相關的聲學細節被系統性地丟失。例如,某些說話者獨特的協同發音方式、特定音素上的共振峰偏移、或帶有個人風格的聲門閉合模式,可能在自監督表示的中間層中已經被壓縮掉,因為這些特徵對「預測被遮蔽的語言內容」貢獻不大。

在實際的表現上,這條路線在同性別、同語言的說話者配對上通常效果最好,因為此時來源與目標的聲學空間重疊最大,最近鄰搜索或特徵替換能找到合理的對應。但在跨性別轉換中,來源與目標的基頻範圍、共振峰分布與發聲機制差異很大,簡單的幀級替換往往無法處理這種全局性的聲學結構變化,導致輸出帶有不自然的混合感。在跨語言轉換中,問題又更進一步:自監督模型主要在特定語言上預訓練,其內容表徵可能隱含了語言特有的音素組織方式;當來源語言與目標語言差異很大時,內容表徵本身的跨語言遷移性就變成了瓶頸。

9.4.3 基於GAN的路線

在自監督表示成為主流之前,GAN架構是非平行語音轉換的重要突破。CycleGAN-VC的核心設計,是透過雙向轉換與循環一致性約束,迫使模型在 A→B 與 B→A 兩條路徑上都保留內容:若一段語音從A轉成B後,再轉回 A還能近似恢復原貌,那麼轉換過程中便不能隨意丟失語言內容。StarGAN-VC 進一步將此擴展到多說話者情境,使單一模型即可在多個說話者間切換。

GAN路線的歷史意義,在於它把「內容保留」從資料對齊問題轉換成訓練目標設計問題,為不依賴平行語料的語音轉換開闢了可行路徑。但這條路線也有幾個在實務中反覆出現的結構性問題。

第一是循環一致性約束在什麼條件下會失效。循環一致性假設「A→B→A應該恢復原貌」,但這個假設隱含了一個前提:轉換過程中的資訊損失是可逆的。如果A與B的聲學空間差異過大(例如跨性別或跨年齡轉換),A→B這一步可能已經不可避免地丟失了某些A特有的結構,使B→A的「恢復」實際上是在重建一個近似值,而非真正的逆映射。在這種情況下,循環一致性損失仍然會下降,但模型學到的可能是一種「看起來恢復了、實際上已經偷偷改變了」的近似解。

第二是GAN訓練固有的不穩定性與模式崩潰風險。在語音轉換中,模式崩潰的典型表現是:模型對所有輸入都產出相似的「目標說話者平均聲音」,失去了對來源語音內容與韻律細節的敏感度。這種現象在說話者數量少或訓練資料不平衡時尤其容易發生。此外,GAN的判別器通常在頻譜層面做真偽判斷,這意味著它更擅長捕捉整體音色是否像目標說話者,但對局部的內容保真度缺乏直接約束。

第三是音質上限的問題。GAN路線的輸出品質高度依賴判別器的設計與訓練穩定性。在最佳條件下,GAN可以產出音色轉換效果很好的語音;但在非理想條件下(短語音、噪聲環境、罕見說話者配對),品質波動較大。相較之下,自監督路線的品質下限通常更穩定,因為它的內容保真不依賴對抗訓練的動態平衡。

9.4.4 基於擴散模型的路線

擴散模型進入語音轉換後,提供了一種不同於GAN的生成概念:把語音轉換視為一個條件去噪過程:來源語音提供內容條件,目標說話者嵌入提供身份條件,模型從噪聲出發,逐步生成最終頻譜或波形。DiffVC是這類思路的代表。

擴散路線最顯著的優勢是自然度。由於去噪過程天然保留了生成中的隨機性,輸出更容易表現出自然語音中的微小變化:氣息的隨機波動、聲帶振動的微擾動、音素邊界處的不完美過渡,而不會像確定性映射那樣產出過於平滑、過於「完美」的結果。從感知的角度看,這些微小的不完美反而是自然度的重要來源。

但擴散路線也面臨幾個明確的挑戰。第一是推論速度。擴散模型需要多步迭代採樣,推論時間通常比基於編碼—解碼器或GAN的系統長一到兩個數量級。雖然近年的加速方法(如減少採樣步數、一致性蒸餾等)已大幅改善這個問題,但在需要即時響應的場景中,擴散路線仍面臨部署壓力。

第二是條件注入方式對內容保真與音色轉換之間平衡的影響。擴散模型在每一步去噪中都需要同時參考內容條件與說話者條件,但這兩種條件的注入方式會直接影響最終結果的傾向。如果內容條件的引導強度太高,輸出會忠實保留來源語音的時間結構與韻律,但音色轉換可能不夠徹底;如果說話者條件的引導強度太高,音色轉換更完整,但內容細節可能被犧牲。這種取捨與文字轉影像中 classifier-free guidance 的強度調節非常類似:引導越強,輸出越符合條件,但多樣性與自然度可能下降。在語音轉換中,這個平衡尤其敏感,因為內容保真的失敗(聽起來說了不同的話)比音色偏差的失敗(聽起來不太像目標說話者)通常更容易被使用者察覺。

第三是對訓練資料的需求。擴散模型的訓練通常需要大量高品質語音資料來學習穩定的去噪路徑;在資料有限的場景中,模型可能學到的噪聲—語音映射不夠豐富,導致輸出在某些音素或韻律條件下出現品質波動。

9.4.5 三條路線的比較框架

把這三條路線放在一起看,它們其實是在同一個問題空間中做了不同的設計取捨。我們從以下五個維度進行結構化比較:

內容保真度。自監督路線在這個維度上通常最強,因為自監督表徵天然偏向編碼語言內容而非說話者身份,轉換過程中內容被破壞的風險最低。GAN路線依賴循環一致性來間接約束內容保留,效果取決於訓練穩定性與說話者配對的難度。擴散路線的內容保真度取決於條件注入的設計,調節得當時可以很好,但對引導強度的選擇較為敏感。

音色相似度。GAN路線在封閉集(訓練時已見過的說話者配對)條件下,音色轉換效果通常很好,因為判別器直接優化「聽起來像目標說話者」。擴散路線的音色相似度受益於逐步精煉的生成過程,在自然度方面尤其出色。自監督路線在音色相似度上相對較弱,尤其在跨性別或差異大的配對中,因為幀級替換難以處理全局性的聲學結構變化。

跨性別與跨語言泛化。這是三條路線都面臨挑戰的維度。自監督路線受限於內容表示的語言偏向與幀級替換的局部性;GAN路線受限於循環一致性在大差異配對中的失效;擴散路線理論上更靈活,因為它在每一步去噪中都可以從全局角度調整,但實際表現仍高度依賴訓練資料是否覆蓋了足夠多樣的說話者配對。整體而言,跨性別與跨語言仍是語音轉換中最前沿的挑戰。

推論速度。自監督+ kNN路線與GAN路線在推論時通常只需一次前向傳播或搜索,速度最快。擴散路線需要多步迭代,速度最慢,但其加速方法正在縮小這個差距。

訓練資料需求。GAN 路線對訓練資料的品質與平衡性要求較高,尤其在多說話者設定下需要足夠多的說話者才能避免模式崩潰。擴散路線需要大量資料來學習穩定的去噪路徑。自監督路線的內容編碼器通常來自大規模預訓練模型,但目標說話者仍需要一定量的語音庫供搜索或適應使用。

從更高的角度來看,這三條路線的差異不只是工程實作的差異,而是對「語音轉換究竟是什麼」的三種不同理解。自監督路線把轉換理解為表徵空間中的幀級替換,找到內容相同但身份不同的對應幀。GAN路線把轉換理解為對抗約束下的風格遷移,在保留循環一致性的前提下,把一個說話者的風格映射到另一個。擴散路線則把轉換理解為條件約束下的逐步生成,在內容與身份的雙重條件下,從噪聲中逐漸收斂到一個自然樣本。這三種理解都抓住了語音轉換的一部分,也各自承受了不同的代價。理解這些差異,不只是為了知道「該用哪個模型」,更是為了理解:當某個系統在特定場景中失敗時,失敗的原因可能正是它所選擇的那種生成哲學的結構性侷限。

9.5 為何「像」不等於「完全複製」

當大眾第一次聽到高品質語音複製時,最常見的反應是:既然這麼像,是不是表示機器已經完整複製了某個人的聲音?然而,這個推論並不成立。理解這一點很重要,因為它同時影響我們對技術能力的評估,以及對風險的判斷。若把「像」誤認為「完全一樣」,便容易在兩個方向上犯錯:一方面誇大技術,另一方面低估其侷限與可檢測性。

9.5.1 系統層次的能力邊界

前面幾節的分析已經揭示了複製系統在多個環節上的結構性限制。9.2節說明了說話者嵌入的可分性不等於可解碼性,嵌入作為壓縮表徵必然丟失局部性與情境依賴的發聲特徵;9.3節說明了少樣本條件下參考語音的資訊不足,以及零樣本複製中前綴條件化的身份漂移問題。這些限制疊加起來,意味著複製系統在最好的情況下,能夠重建說話者最穩定、最常見的聲學特徵,但在面對參考語音中未覆蓋的音素組合、未出現過的情緒狀態,或與訓練分布差異較大的說話者時,輸出會開始偏向模型的平均想像,而不是目標說話者真正會怎麼說。

還有一個常被忽略的限制來自解碼端。聲碼器或端到端解碼器在還原波形時,雖然能學到自然語音的分布特性,卻傾向於把隨機微變化平滑掉,導致輸出在宏觀上自然、在微觀上卻過於乾淨。這種「過度整潔」的質地,恰恰是很多聽者在細聽時覺得「很像但有一點不對」的來源之一。

9.5.2 感知層次的人耳辨識機制

系統層次的限制說明了模型「做不到」什麼;但同樣重要的是理解人耳「怎麼判斷」。因為最終決定複製是否「成功」的,不是嵌入空間中的餘弦距離,而是聽者的感知判斷。而人耳辨識說話者的方式,遠比任何單一聲學指標所能捕捉的更為複雜。

語音身份感知研究(如 Lavan et al., 2019 的綜述)指出,人類辨識說話者時動員的線索至少涵蓋三個層次。第一個層次是音色與嗓音質地:共振峰分布、基頻範圍、聲門振動模式、氣聲比例、嗓音的顆粒感或金屬感。這是最直覺的「聲音像不像」判斷依據,也是目前說話者嵌入最擅長捕捉的部分。

第二個層次是超音段特徵:說話的節奏、停頓習慣、句尾收束方式、重音分配模式、語速的微觀波動。研究顯示,對於熟悉的說話者,這些韻律層面的特徵往往比音色本身更具辨識力。一個人說話的「腔調」,不是指口音,而是指整體的節奏感與語氣習慣,常常是讓熟人一耳就認出來的關鍵。目前的語音複製系統在這個層次上的控制力仍然有限:它們通常能產出大致合理的韻律,但很難精確重現某個人獨特的停頓節奏或句尾處理方式。

第三個層次是情境依賴的發聲模式:一個人在笑、嘆氣、猶豫、驚訝、疲倦或親密對話中的聲音變化方式。這些模式高度個人化,且與情緒、社會關係和對話情境深度糾纏。對非常熟悉某個人的聽者來說,這些細節可能是最敏感的辨識線索,因此,越熟悉某人,越容易察覺複製語音中的不自然之處。

這裡有一個值得強調的不對稱性:複製語音對陌生聽者的欺騙力,通常遠高於對熟悉聽者的欺騙力。陌生聽者主要依賴第一層次(音色)做判斷,而這正是當前系統最擅長的部分;熟悉聽者則會同時動員三個層次,因此更容易察覺第二、第三層次的偏差。這個不對稱性對風險評估非常重要:它意味著語音複製在「欺騙不認識目標說話者的第三方」這個場景中,已經具有相當的威脅性;但在「欺騙目標說話者的親友」這個場景中,成功門檻仍然較高。

9.5.3 可量化的相似度與感知真實感的落差

研究中常用說話者嵌入的餘弦相似度,或說話者驗證系統的得分,來衡量複製語音與目標語音的接近程度。這些指標非常有用,因為它們提供了可重複、可大規模計算的度量基準。然而,這些指標測量的,本質上是「在某個模型的表徵空間中是否接近」,而不是「人類是否在所有情境下都會把它當成真人」。

這種落差來自三件事。第一,嵌入空間只捕捉到模型認為最重要的身份特徵,不保證涵蓋所有人耳在意的細節,上一小節分析的第二、第三層次線索,在嵌入中往往沒有被充分編碼。第二,量化評估通常在控制條件下進行:乾淨語料、固定文本、單一評估系統;但真實場景裡,說話速度、情緒、錄音條件與對話情境都可能改變。第三,人類的真實感判斷不是單一連續量,而是一種混合判斷:像不像、自然不自然、是否可信、是否是那個人在當下語境中「會那樣說話」。

因此,技術論文中的高相似度不應被直接翻譯成日常語境中的「完全以假亂真」。更準確的說法是:在某些條件下,它已足以造成誤認;在另一些條件下,它仍有可察覺的破綻。研究者傾向說「在某個 benchmark 上已接近人類基準」,因為那是精確的技術描述;市場宣傳則傾向說「幾秒即可完整複製你的聲音」,因為那更容易被理解與傳播。作為本書的讀者,需要能夠把兩者區分開來。

9.5.4 複製的退化模式

前面幾節說明了複製為什麼不等於完全複製;本節要進一步追問一個更具實務價值的問題:複製品質會在什麼條件下可預測地下降? 這不是一個學術上的邊緣問題,而是任何真正部署語音複製系統的人都必須面對的現實。前幾章討論的大多是系統「能做到什麼」;在這裡我們第一次系統性地討論「在什麼條件下會失敗」。

第一類退化:跨語言場景。當來源說話者的參考語音是語言A,而目標生成內容是語言B時,複製品質幾乎必然下降。原因在9.2節已經分析過:說話者嵌入中常殘留語言特有的發音習慣,這些習慣在切換語言後會與目標語言的音韻規則產生衝突。問題在來源語言無聲調、目標語言有聲調時尤其嚴重,因為系統必須同時生成正確的詞彙聲調並維持說話者的個人F0範圍,而參考語音中可能完全沒有聲調的範例可供模型參考。

第二類退化:情緒極端條件。 哭腔、笑聲、喊叫、耳語、嘆息,這些非典型發聲狀態涉及的聲門振動模式、氣流控制方式與聲道構型,都與正常說話有顯著的差異。如果參考語音是在平靜狀態下錄製的(這是最常見的情況),模型對該說話者在極端情緒下的聲音表現幾乎沒有直接觀察。此時的輸出通常會呈現一種特徵性的退化:情緒的「形式」大致正確(例如音量升高、語速加快),但嗓音質地卻回歸到模型的通用模板,失去了目標說話者在那種情緒下真正會有的獨特表現。

第三類退化:長篇文本生成。9.3 節已經分析了零樣本複製中的身份漂移問題;但即使在非零樣本系統中,長篇生成也會面臨另一種退化:韻律疲勞。當系統需要連續生成數分鐘甚至更長的語音時(例如有聲書朗讀),韻律模組往往會逐漸趨向平均化,語調起伏變小、停頓模式變得機械、段落之間的情緒層次感消失。這不是因為模型「累了」,而是因為大多數訓練資料是以短句為單位的,模型對超出訓練長度的篇章結構缺乏足夠的學習經驗。

第四類退化:未見過的音素組合。即使在同一語言中,如果目標文本包含參考語音中從未出現過的音素組合(例如罕見的外來詞、專有名詞或技術術語),複製品質也可能在這些局部位置下降。原因是模型無法從參考語音中推斷出該說話者在這些特定音素上的發音習慣,只能回退到訓練集中的統計平均。這種退化通常是局部性的,整段語音大體仍像目標說話者,但某些詞彙聽起來會突然「跳出」音色一致性。

第五類退化:參考語音品質低下。如果參考語音帶有明顯的背景噪聲、混響、頻寬受限(如電話錄音)或編碼失真,說話者嵌入就可能把這些環境因素誤當成身份特徵。9.2節已從理論角度解釋了這個問題;在實際表現上,它通常導致兩種結果:一是合成語音也帶有類似的環境質地(因為模型把噪聲學成了「這個人聲音的一部分」),二是音色偏差加大(因為環境干擾遮蔽了真正的身份線索,使嵌入偏離)。

如果把這五類退化模式放在一起看,它們揭示了一個共同的結構性原因:語音複製系統的品質,本質上受到「參考語音所能提供的資訊」與「模型先驗所能覆蓋的條件」之間交集的限制。凡是落在這個交集之內的生成條件,系統表現通常令人滿意;凡是超出這個交集的,無論是因為參考語音太短、太窄、太髒,還是因為目標條件太偏、太極端、太罕見,品質就會以可預測的方式下降。理解這些退化模式的價值,不在於否定語音複製的能力,而在於提供一套更精確的判斷框架:當我們說「這個系統能複製聲音」時,我們需要同時追問:在什麼條件下?對什麼類型的說話者?在多長的語音範圍內?面對什麼樣的情緒與語境要求?只有回答了這些問題,技術能力的評估才不會停留在最佳案例的展示效果上。

9.6 語音複製的技術風險與現實應用

理解語音複製的風險,不能只靠道德直覺,還必須回到技術結構本身。風險之所以成立,不是因為系統必須做到百分之百完美,而是因為在很多現實場景中,攻擊者只需要讓語音「夠像」就可以。特別是在聽眾陌生、情境緊迫、資訊不對稱的場景中,複製語音的成功門檻遠低於研究者心中對「完美複製」的標準。這使得風險評估必須區分:技術上是否完全複製,與社會上是否足以造成傷害,兩者不是同一件事。

9.6.1 攻擊向量的技術分析

第一類風險是針對語音生物識別系統的攻擊。若某個系統以語音作為身分驗證依據,那麼複製語音理論上就可能被用來偽裝合法使用者。當然,實際上不少語音驗證系統已搭配防欺騙機制,能夠辨識播放錄音、合成語音與某些生成痕跡;但這仍是一場持續演化的軍備競賽。生成模型越好,防偽模型就必須越快更新。

第二類風險是社會工程攻擊。這類攻擊往往不需要攻破任何技術系統,只要讓聽者在情緒與時間壓力下誤判即可。模仿主管要求匯款、模仿親友求救、模仿名人發表從未說過的言論,都是典型例子。從技術角度來看,這類攻擊最危險之處在於它的成功條件不是「完全一樣」,而是「足夠可信以啟動錯誤決策」。

第三類風險是大規模虛假內容的生成與傳播。當公眾人物、政治人物、媒體主持人或企業品牌聲音都可以被低成本複製時,偽造語音內容便可能在公共討論中迅速擴散。這類風險的可怕之處不只在於個別詐欺,而在於它侵蝕社會對聲音證據的信任基礎。當人們開始普遍懷疑任何語音都可能被偽造時,真實錄音的證明力也可能被連帶削弱。

從技術策略來看,這三類攻擊的門檻其實並不相同。繞過高品質的說話者驗證系統,通常需要更穩定的音色保真與更少的合成痕跡;社會工程攻擊則更依賴情境設計與對人類心理的利用;至於虛假輿論內容生成,則重點在大規模低成本生產與快速傳播。因此,我們不能用單一「複製品質高低」去概括所有風險。某些系統也許還不足以穩定欺騙生物識別,但已經足以在新聞片段、社群平台與電話場景中造成實質損害。

9.6.2 防禦技術的現狀

目前主要的防禦方向之一,是深偽語音偵測(deepfake speech detection)。其基本做法是訓練分類器,專門辨識合成語音在相位一致性、頻譜細節、統計分布等層面留下的痕跡。ASVspoof 系列挑戰賽(Yamagishi et al., 2021)是這個方向最重要的基準平台。它提供持續更新的對抗資料集,涵蓋語音合成(TTS)、語音轉換(VC)與重播攻擊等多種偽造類型,讓研究社群能夠在統一條件下評估防偽系統的能力。ASVspoof 採用的核心評估指標包括等錯誤率(Equal Error Rate, EER)與串聯偵測成本函數(tandem detection cost function, t-DCF)。EER衡量的是系統把真實語音誤判為偽造、與把偽造語音誤判為真實這兩類錯誤相等時的錯誤率;t-DCF則進一步考慮偽造語音對下游說話者驗證系統的實際影響,是更貼近真實部署場景的綜合指標。

從 ASVspoof 歷屆挑戰的趨勢來看,有一個值得關注的現象:隨著生成模型品質的提升,合成語音在頻譜層面留下的痕跡正在變得越來越細微。早期的合成語音在高頻區域、相位結構或頻譜包絡上常有明顯的統計異常,傳統分類器可以相對容易地捕捉;但近年的高品質系統,特別是基於擴散模型與大規模音訊語言模型的合成語音,在這些粗粒度特徵上已經與真實語音非常接近,迫使偵測器必須轉向更精細的特徵層次。這也是為什麼近期的研究越來越重視跨系統泛化能力:一個偵測器如果只在特定合成系統的語音上訓練,面對未見過的新型合成方法時,漏檢率往往會急遽上升。

另一個方向是主動式語音保護,也就是在公開語音中加入人耳難以察覺、卻會破壞模型學習效果的對抗性擾動。AntiFake 這類方法的邏輯,不是事後偵測,而是事前污染訓練素材,使未經授權的複製系統無法學到高品質表徵。這條路線目前仍有不少工程與實務限制,例如擾動在不同編碼、轉存與後處理流程中是否仍然有效,以及它是否會反過來傷害真正合法的下游用途。

在更廣義的治理層次,還需要非模型性的防禦:例如高風險應用場景不單獨依賴語音作為唯一驗證因子;平台對合成語音要求標示;商業工具限制名人聲音、未授權聲音與敏感情境用途;內容發布端建立音訊水印與來源鏈。這些手段不是替代技術防禦,而是承認單一技術防禦永遠不足,因此必須由制度、產品設計與使用規範共同分擔風險。

換句話說,語音複製的防禦問題不能只被理解成「再訓練一個更好的偵測器」。只要生成模型持續進步,單靠被動偵測就很難成為終局解法。更合理的理解是:防禦必須前移到資料、產品、平台與制度的每一層,形成多層防線。這種多層設計,也正是為什麼在第十五章的治理討論中不能被視為外加倫理,而是技術系統本身的一部分。

9.6.3 正當應用的技術特性

持平而論,語音複製並不只是屬於風險敘事。它在某些場景中的正當價值是非常明確的。最經典的例子是失語患者的聲音保存:若能在患者失語前蒐集足夠語音,之後便有可能用其本人聲音協助溝通。這與惡意複製最大的不同,不在技術,而在目標與治理條件:它要求明確授權、資料可追溯、長期穩定與高度個人化,而非快速對大量陌生聲音泛化。

其他正當場景還包括內容在地化與無障礙輔助。例如,一位創作者希望把自己的內容快速翻譯成多語版本,並仍維持自身音色;或一位教師希望以自己熟悉的聲音生成大量教材朗讀。這些用途之所以有價值,正因為聲音不只是傳遞資訊的載體,也承載信任、情感與個人風格。語音複製技術在這些場景中,不是取代人,而是延長一個人的聲音可傳達性。

不過,正當用途要成立,不能只靠「目的善良」。它還需要配套條件:清楚的授權邏輯、資料保存與刪除機制、模型輸出的標示方式、以及對使用情境的限制。也就是說,語音複製的倫理問題不是技術外加在技術上,而是它一開始就內嵌在系統設計條件之中。

從技術層面來看,正當用途通常反而要求更高的系統可靠性。對失語者而言,生成語音不只是展示效果,而是實際溝通工具,因此需要長期穩定、延遲可接受、內容正確且說話者身份一致。對內容在地化而言,則要求跨語言時仍維持音色,而不只是生成一段「差不多像」的聲音。這說明一個很有意思的現象:惡意用途有時只需要中等品質就足夠造成傷害;正當用途卻常需要高品質、可追溯與高穩定性的完整工程系統。

本章小結

本章的核心工作,不是重新介紹語音複製與語音轉換的技術基礎,那些已在前幾章中完成,而是追問一組只有在語音複製場景中才會真正浮現的深層問題。

從說話者嵌入出發,我們看到辨識任務中的可分性並不自動等於生成任務中的可解碼性:一個在驗證基準上表現優秀的嵌入,未必攜帶了足以讓解碼器重建出完整音色細節的資訊。嵌入作為壓縮表徵,系統性地保留了全局性身份特徵,卻容易遺漏局部性、情境依賴或低頻出現的發聲細節,而這些被遺漏的部分,恰恰是人耳在細聽時覺得「很像但又有一點不對」的來源。

從少樣本到零樣本複製的演進中,我們看到範式轉移的本質不只是適應成本的下降,更是知識位置的重新分配。零樣本複製的成功,依賴前綴條件化與大規模先驗的共同作用;但它也帶來了可預測的失敗模式:前綴資訊不足時音色偏向平均,長句生成中身份逐漸漂移,tokenizer 的設計選擇則從根本上決定了說話者特徵能以多高的解析度進入語言模型。

從語音轉換的三條技術路線中,我們看到自監督表徵、GAN與擴散模型各自對「轉換是什麼」有不同的理解,也各自在內容保真、音色相似度、跨條件泛化、推論速度與訓練資料需求上做了不同的取捨。沒有一條路線在所有維度上都是最優的,而特定場景中的失敗,往往可以追溯到該路線所選擇的生成哲學的結構性侷限。

從感知與退化模式的分析中,我們看到高相似度不等於完全複製。人耳辨識說話者時動員的線索,音色、超音段特徵、情境依賴的發聲模式,遠比嵌入空間中的餘弦距離所能捕捉的更為豐富。而複製品質會在跨語言、情緒極端、長篇生成、罕見音素與低品質參考等條件下可預測地退化,其共同的結構性原因在於:系統的能力邊界,始終受到參考語音所能提供的資訊與模型先驗所能覆蓋的條件之間交集的限制。

最後,這些技術能力與限制共同構成了語音複製的風險圖景。風險的成立在於不需要系統做到完美,在陌生聽者、緊急情境與資訊不對稱場景中,高相似度已足以造成真實傷害;而防禦也不能只靠單一偵測器,而必須在資料、產品、平台與制度的多個層次上形成協同防線。

帶著這些理解,下一章我們將把視角轉向另一個同樣複雜、但結構截然不同的生成任務:AI音樂生成。在那裡,生成的挑戰不再是「像不像某個人」,而是「能不能在時間中維持一種讓人感到『這是一首音樂』的內在組織」。

參考文獻

Baas, M., Shepperd, B., Nortje, H., & Kamper, H. (2023). Voice conversion with just nearest neighbors. In Proceedings of Interspeech 2023 (pp. 2053–2057).

Chen, S., Wang, C., Chen, Z., Wu, Y., Liu, S., Chen, Z., Li, J., Kanda, N., Yoshioka, T., Xiao, X., Wu, J., Zhou, L., Ren, S., Qian, Y., Qian, Y., Wu, J., Zeng, M., Yu, X., & Wei, F. (2022). WavLM: Large-scale self-supervised pre-training for full stack speech processing. IEEE Journal of Selected Topics in Signal Processing, 16(6), 1505–1518.

Choi, H.-S., Lee, J., & Lee, K. (2021). Neural analysis and synthesis: Reconstructing speech from self-supervised representations. In Advances in Neural Information Processing Systems (Vol. 34).

Défossez, A., Copet, J., Synnaeve, G., & Adi, Y. (2023). High fidelity neural audio compression. Transactions on Machine Learning Research.

Hsu, W.-N., Bolte, B., Tsai, Y.-H. H., Lakhotia, K., Salakhutdinov, R., & Mohamed, A. (2021). HuBERT: Self-supervised speech representation learning by masked prediction of hidden units. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 29, 3451–3460.

Jia, Y., Zhang, Y., Weiss, R. J., Wang, Q., Shen, J., Ren, F., Nguyen, P., Chen, R., Kirkpatrick, J., Cao, Y., Ge, N., Strohman, T., Han, F., & Wu, Y. (2018). Transfer learning from speaker verification to multispeaker text-to-speech synthesis. In Advances in Neural Information Processing Systems (Vol. 31).

Kameoka, H., Kaneko, T., Tanaka, K., & Hojo, N. (2018). StarGAN-VC: Non-parallel many-to-many voice conversion using star generative adversarial networks. In Proceedings of the IEEE Spoken Language Technology Workshop (SLT) (pp. 266–273).

Kaneko, T., & Kameoka, H. (2018). CycleGAN-VC: Non-parallel voice conversion using cycle-consistent adversarial networks. In Proceedings of the European Signal Processing Conference (EUSIPCO) (pp. 2100–2104).

Lavan, N., Scott, S. K., & McGettigan, C. (2019). Recent advances in understanding voice identity perception. Psychonomic Bulletin & Review, 26(6), 1744–1760.

Popov, V., Vovk, I., Gogoryan, V., Sadekova, T., Kudinov, M., & Wei, J. (2022). Diffusion-based voice conversion with fast maximum likelihood sampling scheme. In Proceedings of the International Conference on Learning Representations (ICLR).

Wang, C., Chen, S., Wu, Y., Zhang, Z., Zhou, L., Liu, S., Chen, Z., Liu, Y., Wang, H., Li, J., He, L., Zhao, S., & Wei, F. (2023). Neural codec language models are zero-shot text to speech synthesizers. arXiv preprint arXiv:2301.02111.

Yamagishi, J., Wang, X., Todisco, M., Sahidullah, M., Patino, J., Nautsch, A., Liu, X., Lee, K. A., Kinnunen, T., Evans, N., & Tan, T. (2021). ASVspoof 2021: Accelerating progress in spoofed and deepfake speech detection. In Proceedings of the ASVspoof Workshop 2021 (pp. 47–54).

Yu, Z., Tu, Z., Li, Y., Chen, F., Gu, J., & Ba, J. (2023). AntiFake: Using adversarial audio to prevent unauthorized speech synthesis. In Proceedings of the ACM SIGSAC Conference on Computer and Communications Security (CCS) (pp. 3074–3087).

Zeghidour, N., Luebs, A., Omran, A., Skoglund, J., & Tagliasacchi, M. (2022). SoundStream: An end-to-end neural audio codec. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 30, 495–507.

 

 

留言
avatar-img
Dino Lee的AI 智識館
4會員
31內容數
這裡是一個探索 人工智慧 × 人文思想 × 跨域研究 的知識空間。 從《深度認識人工智慧》出發,分享 AI 的基礎概念、最新發展,以及它與心理學、哲學、社會的深度對話。
2026/05/09
文字前端決定語言輸入是否被正確理解;說話者嵌入決定系統能否穩定地表達「像誰說」;韻律模組決定語音是否像人那樣自然、有情境、有節奏;聲碼器決定這一切最終是否能以高品質波形落地;而多語與跨語設計,則考驗這些模組能否在不同語言資源條件下協同工作。這些模組不是彼此平行互不相干的零件,而是相互制約的系統結構。
Thumbnail
2026/05/09
文字前端決定語言輸入是否被正確理解;說話者嵌入決定系統能否穩定地表達「像誰說」;韻律模組決定語音是否像人那樣自然、有情境、有節奏;聲碼器決定這一切最終是否能以高品質波形落地;而多語與跨語設計,則考驗這些模組能否在不同語言資源條件下協同工作。這些模組不是彼此平行互不相干的零件,而是相互制約的系統結構。
Thumbnail
2026/05/05
從工程的角度看,聲音生成是一組彼此相關、但目標並不相同的任務家族。文字轉語音的重點,是把語言內容轉成可懂且自然的說話聲;語音轉語音的重點是在保留某些屬性的同時改變另一些屬性;文字轉音訊與文字轉音樂的重點,在文字描述與聲音結果之間的語義對應。音訊修復是在已有音訊的基礎上,恢復、補全、分離或改善音質。
Thumbnail
2026/05/05
從工程的角度看,聲音生成是一組彼此相關、但目標並不相同的任務家族。文字轉語音的重點,是把語言內容轉成可懂且自然的說話聲;語音轉語音的重點是在保留某些屬性的同時改變另一些屬性;文字轉音訊與文字轉音樂的重點,在文字描述與聲音結果之間的語義對應。音訊修復是在已有音訊的基礎上,恢復、補全、分離或改善音質。
Thumbnail
2026/05/04
自回歸模型擅長順序展開,VAE 擅長建立可操控的潛在空間,GAN 擅長逼近感知真實度,flow 擅長在採樣與密度估計之間取得精確平衡,擴散模型擅長把複雜生成問題拆成穩定的小步驟,而 token 模型則擅長把聲音重新帶入大型序列模型的方法論之中。這些框架像是可以互補、可以組合、也可以彼此嵌套的工具箱。
Thumbnail
2026/05/04
自回歸模型擅長順序展開,VAE 擅長建立可操控的潛在空間,GAN 擅長逼近感知真實度,flow 擅長在採樣與密度估計之間取得精確平衡,擴散模型擅長把複雜生成問題拆成穩定的小步驟,而 token 模型則擅長把聲音重新帶入大型序列模型的方法論之中。這些框架像是可以互補、可以組合、也可以彼此嵌套的工具箱。
Thumbnail
看更多
你可能也想看
Thumbnail
說真的,如果臉部困擾有分等級,我應該是「地獄級」的😂 我是那種超級難搞的「混合偏乾+敏感肌」❗️ 你以為抗痘是油肌的專利嗎?錯🙅🏻‍♀️ 我臉頰乾到如果洗完臉沒立刻擦保養品就會當場「脫皮」給你看,但偏偏 T 字部位又愛出油,還會長那種躲在深處、按下去會痛到想哭的「悶痘」😮‍💨 這困
Thumbnail
說真的,如果臉部困擾有分等級,我應該是「地獄級」的😂 我是那種超級難搞的「混合偏乾+敏感肌」❗️ 你以為抗痘是油肌的專利嗎?錯🙅🏻‍♀️ 我臉頰乾到如果洗完臉沒立刻擦保養品就會當場「脫皮」給你看,但偏偏 T 字部位又愛出油,還會長那種躲在深處、按下去會痛到想哭的「悶痘」😮‍💨 這困
Thumbnail
這篇文章探討了一位電子業從業者的職涯挑戰和轉變,從產品說明書的撰寫到BOM成本分析,再到面對高成本和量產的種種困難。作者分享了在市場變化、企業跳槽以及團隊變遷中的學習與成長,最終靠自身的努力和貢獻,實現薪資上升的過程,揭示了電子產業的現實與潛在風險。
Thumbnail
這篇文章探討了一位電子業從業者的職涯挑戰和轉變,從產品說明書的撰寫到BOM成本分析,再到面對高成本和量產的種種困難。作者分享了在市場變化、企業跳槽以及團隊變遷中的學習與成長,最終靠自身的努力和貢獻,實現薪資上升的過程,揭示了電子產業的現實與潛在風險。
Thumbnail
見諸參與鄧伯宸口述,鄧湘庭於〈那個大霧的時代〉記述父親回憶,鄧伯宸因故遭受牽連,而案件核心的三人,在鄧伯宸記憶裡:「成立了成大共產黨,他們製作了五星徽章,印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單,以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿,另外還有手槍子彈十發。」
Thumbnail
見諸參與鄧伯宸口述,鄧湘庭於〈那個大霧的時代〉記述父親回憶,鄧伯宸因故遭受牽連,而案件核心的三人,在鄧伯宸記憶裡:「成立了成大共產黨,他們製作了五星徽章,印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單,以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿,另外還有手槍子彈十發。」
Thumbnail
當代名導基里爾.賽勒布倫尼科夫身兼電影、劇場與歌劇導演,其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後,他持續以創作回應專制體制的壓迫。《傳奇:帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析,解構賽勒布倫尼科夫如何利用影劇雙棲的特質,在荒謬世道中尋找藝術的「生存之道」。
Thumbnail
當代名導基里爾.賽勒布倫尼科夫身兼電影、劇場與歌劇導演,其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後,他持續以創作回應專制體制的壓迫。《傳奇:帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析,解構賽勒布倫尼科夫如何利用影劇雙棲的特質,在荒謬世道中尋找藝術的「生存之道」。
Thumbnail
妳也正在經歷人生的「重啟」嗎?這不只是一個關於離婚與職場的故事,更是一場找回自己的旅程。跟著林雨萱,在淡水河邊、在辦公桌前,一頁頁填滿空白的藍圖。這一次,我們為自己而寫;翻開下一頁,遇見更真實的妳。
Thumbnail
妳也正在經歷人生的「重啟」嗎?這不只是一個關於離婚與職場的故事,更是一場找回自己的旅程。跟著林雨萱,在淡水河邊、在辦公桌前,一頁頁填滿空白的藍圖。這一次,我們為自己而寫;翻開下一頁,遇見更真實的妳。
Thumbnail
當時間變少之後,看戲反而變得更加重要——這是在成為母親之後,我第一次誠實地面對這一件事:我沒有那麼多的晚上,可以任性地留給自己了。看戲不再只是「今天有沒有空」,而是牽動整個週末的結構,誰應該照顧孩子,我該在什麼時間回到家,隔天還有沒有精神帶小孩⋯⋯於是,我不得不學會一件以前並不擅長的事:挑選。
Thumbnail
當時間變少之後,看戲反而變得更加重要——這是在成為母親之後,我第一次誠實地面對這一件事:我沒有那麼多的晚上,可以任性地留給自己了。看戲不再只是「今天有沒有空」,而是牽動整個週末的結構,誰應該照顧孩子,我該在什麼時間回到家,隔天還有沒有精神帶小孩⋯⋯於是,我不得不學會一件以前並不擅長的事:挑選。
Thumbnail
5 月,方格創作島正式開島。這是一趟 28 天的創作旅程。活動期間,每週都會有新的任務地圖與陪跑計畫,從最簡單的帳號使用、沙龍建立,到帶著你從一句話、一張照片開始,一步一步找到屬於自己的創作節奏。不需要長篇大論,不需要完美的文筆,只需要帶上你今天的日常,就可以出發。征服創作島,抱回靈感與大獎!
Thumbnail
5 月,方格創作島正式開島。這是一趟 28 天的創作旅程。活動期間,每週都會有新的任務地圖與陪跑計畫,從最簡單的帳號使用、沙龍建立,到帶著你從一句話、一張照片開始,一步一步找到屬於自己的創作節奏。不需要長篇大論,不需要完美的文筆,只需要帶上你今天的日常,就可以出發。征服創作島,抱回靈感與大獎!
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News