AI 並不是直接理解「聲音」，而是理解某種表徵。模型實際接觸到的，可能是原始波形，也可能是頻譜圖、Mel 頻譜圖、MFCC，或離散音訊 token。每一種表徵都不是單純的格式差異，而是對聲音資訊的一種重組與取捨。表徵選擇得不同，模型所面對的學習問題就會不同，系統的優勢與限制也會跟著改變。

職場

音樂藝文

以行動支持創作者！付費即可解鎖

這裡是一個探索 人工智慧 × 人文思想 × 跨域研究 的知識空間。
從《深度認識人工智慧》出發，分享 AI 的基礎概念、最新發展，以及它與心理學、哲學、社會的深度對話。