聲碼器

含有「聲碼器」共 2 篇內容
全部內容
發佈日期由新至舊
深度學習時代語音合成的每一步架構演進,本質上都在重新回答同一個問題:哪些決策應該留給人類先驗,哪些可以交由模型從資料中發現。 從對齊到韻律,從頻譜預測到波形生成,從模組管線到整合式框架,這條線索貫穿了 從Tacotron、FastSpeech、到Matcha-TTS 的所有差異。
Thumbnail
在深度學習尚未改寫語音技術之前,工程師面對的問題是「如何用有限而可控的工程手段,把一串文字變成一段勉強自然、但至少可以理解的語音」。早期工程師沒有大型神經網路,也沒有端到端學習可以依賴,因此只能把連續整體的現象拆解成許多可以操作的小問題,再用明確規則、資料庫與訊號處理的方法把它們重新組裝起來。
Thumbnail