Dino Lee

1 位追蹤者

Dino Lee

1 位追蹤者

我是 Dino，主修心理學，也是跨域創作者，關注人的存在與幸福。這裡從人工智慧談起，聊技術、也聊人心；談模型與演算法，也談意識、理解與哲學。希望在快速變動的 AI 時代，把知識慢慢轉化為智識，陪你一起思考：科技如何影響我們，又如何好好地Well-Being。

Dino Lee的AI 智識館

4會員

24內容數

這裡是一個探索人工智慧 × 人文思想 × 跨域研究的知識空間。從《深度認識人工智慧》出發，分享 AI 的基礎概念、最新發展，以及它與心理學、哲學、社會的深度對話。

全部內容

由新到舊

Dino Lee的AI 智識館

2026/04/17

人工智慧如何生成聲音第三章＿機器如何「理解」聲音

機器究竟是如何「理解」聲音的？對人類而言，這個問題似乎不難。我們能分辨一句話說了什麼、是誰在說、語氣是否緊張、背景是否嘈雜。然而，對機器而言，輸入只是一串隨時間變化的數值。機器並不天然知道音高、音色、語速、情緒或語意，它只能透過某種表徵方式，把原始訊號轉換成對任務有用的形式。

#表徵學習 #自監督學習 #多層次資訊

Dino Lee的AI 智識館

2026/04/16

人工智慧如何生成聲音第二章＿聲音的數位表徵

AI 並不是直接理解「聲音」，而是理解某種表徵。模型實際接觸到的，可能是原始波形，也可能是頻譜圖、Mel 頻譜圖、MFCC，或離散音訊 token。每一種表徵都不是單純的格式差異，而是對聲音資訊的一種重組與取捨。表徵選擇得不同，模型所面對的學習問題就會不同，系統的優勢與限制也會跟著改變。

#波形 #傅立葉轉換 #頻譜圖

Dino Lee的AI 智識館

2026/04/16

人工智慧如何生成聲音第一章＿為什麼要從人工智慧的角度理解聲音生成

聲音生成有一個重要的特點：聲音不是靜態的物件，而是沿著時間展開的動態結構。一段語音或音樂必須隨著時間逐步被感知。它有開始、有延續、有節奏、有轉折；它既包含瞬時的頻率結構，也包含跨越更長時間範圍的韻律與形式。生成聲音不是單純把正確的元素「放上去」就好，而是要讓這些元素在時間中以合理的方式發生。

重新學會看與聽，最根本的意義是讓你重新成為一個真正活在世界中的人。你不只是經過世界，而是接住世界；不只是知道世界，而是讓世界在你身上留下痕跡。當你真的到場，世界才會開始豐富起來。而那份豐富，正是一切創作、一切理解、甚至一切深刻生活的真正起點。世界從未離開，它只是一直在等待我們回來。

#感官 #知覺 #知覺心理學

Dino Lee的AI 智識館

2026/04/03

AI時代的聲音敘事與創作革命第七章　結語：創作倫理與聲音的未來

即使聲音變成了資料與機率，作品仍然必須回到人的選擇。因為聲音之所以成為故事，不是因為它被算出來，而是因為它被放在恰當的位置、被賦予恰當的關係、被一個有感受與判斷的人選中。AI可以計算相似性，可以生成plausible的結果，但它不自動擁有作品的必要性。那個「必要性」最終仍舊來自於創作者。

#聲音 #聲音創作 #聽覺語彙

Dino Lee的AI 智識館

2026/04/03

AI時代的聲音敘事與創作革命第六章　創作觀點：聲音導演的調度能力

聲音創作的核心不是單點品質，而是整體關係。因此，聲音導演最重要的能力，常常是一種關係感知力。你必須知道哪裡該讓音樂退後，哪裡該讓人聲貼近，哪裡該讓空間突然變空，哪裡該讓一個小小的物件聲變成注意力中心。這種能力與其說是技術，不如說是一種敘事的時間感與感官秩序感。

#聲音 #聲音導演 #場面調度

Dino Lee的AI 智識館

2026/04/01

AI時代的聲音敘事與創作革命第五章　AI音效：語義與空間的重構

「腳步聲」是一個非常模糊的提示。腳步究竟是在木地板上、泥地裡、樓梯間、醫院病房外，還是在濕冷的巷子裡？是急促追趕、偷偷移動，還是疲憊拖行？不同條件會導致聲音的節奏、力度、鞋底材質感、回音長度與整體心理效果完全不同。創作者只輸入「腳步聲」，AI可能給你一段類型中性、功能上無誤、但戲劇上完全無效的結果。