聲音生成

含有「聲音生成」共 6 篇內容

全部內容

發佈日期由新至舊

Dino Lee的AI 智識館

人工智慧如何生成聲音第九章＿聲音複製與語音轉換：為何 AI 可以模仿特定人的聲音

人的聲音雖然會隨著情緒、年齡與情境而改變，但在整體上仍然具有足夠穩定的個體性，因此可以作為身份的判準。語音複製技術之所以格外引人關注，正在於它動搖了這個假設：假使機器能夠生成一段「足以被誤認為某人」的語音，那麼聲音便不再是天然可靠的身份憑據，而成為可以被建模、被遷移、被再生產的統計結構。

#少樣本複製 #零樣本複製 #能力邊界

Dino Lee的AI 智識館

人工智慧如何生成聲音第六章_生成式模型如何生成聲音：核心架構邏輯

自回歸模型擅長順序展開，VAE 擅長建立可操控的潛在空間，GAN 擅長逼近感知真實度，flow 擅長在採樣與密度估計之間取得精確平衡，擴散模型擅長把複雜生成問題拆成穩定的小步驟，而 token 模型則擅長把聲音重新帶入大型序列模型的方法論之中。這些框架像是可以互補、可以組合、也可以彼此嵌套的工具箱。

#自回歸 #核心架構 #變分自編碼器

Dino Lee的AI 智識館

人工智慧如何生成聲音第五章＿深度學習時代的語音生成架構

深度學習時代語音合成的每一步架構演進，本質上都在重新回答同一個問題：哪些決策應該留給人類先驗，哪些可以交由模型從資料中發現。從對齊到韻律，從頻譜預測到波形生成，從模組管線到整合式框架，這條線索貫穿了從Tacotron、FastSpeech、到Matcha-TTS 的所有差異。

#Tacotron #FastSpeech #WaveNet

Dino Lee的AI 智識館

人工智慧如何生成聲音第二章＿聲音的數位表徵

AI 並不是直接理解「聲音」，而是理解某種表徵。模型實際接觸到的，可能是原始波形，也可能是頻譜圖、Mel 頻譜圖、MFCC，或離散音訊 token。每一種表徵都不是單純的格式差異，而是對聲音資訊的一種重組與取捨。表徵選擇得不同，模型所面對的學習問題就會不同，系統的優勢與限制也會跟著改變。

#波形 #傅立葉轉換 #頻譜圖

Dino Lee的AI 智識館

人工智慧如何生成聲音第一章＿為什麼要從人工智慧的角度理解聲音生成

聲音生成有一個重要的特點：聲音不是靜態的物件，而是沿著時間展開的動態結構。一段語音或音樂必須隨著時間逐步被感知。它有開始、有延續、有節奏、有轉折；它既包含瞬時的頻率結構，也包含跨越更長時間範圍的韻律與形式。生成聲音不是單純把正確的元素「放上去」就好，而是要讓這些元素在時間中以合理的方式發生。

#生成式AI #聲音生成 #技術原理

Dino Lee的AI 智識館

AI時代的聲音敘事與創作革命第一章　聲音創作的典範轉移

AI時代的創作者更像是一位導演或策展人，透過清楚的指令、反覆的比較與選擇，讓作品逐步成形。這並不表示技術已經不重要，而是說：技術的重心正在轉移。以前的技術，是如何操作錄音器材與後製軟體；現在的技術，越來越包括如何形成精準的創作意圖、如何轉譯為有效的提示、如何在多個生成版本中做出有審美判斷的選擇。

#音樂生成 #聲音生成 #導演

‌
‌
‌
‌
‌
‌
‌

‌
‌
‌
‌
‌
‌
‌

‌
‌
‌
‌
‌
‌
‌

‌
‌
‌
‌
‌
‌
‌

‌
‌
‌
‌
‌
‌
‌

‌
‌
‌
‌
‌
‌
‌