看到了這裡,我們已經依序討論了AI如何處理人聲、音樂與音效,也逐步看到一個共同事實:生成式AI並不是一種單一工具,而是一整套重新組織聲音創作的方法。它能把文字變成人聲,把情緒變成配樂,把語義描述變成音效與空間,從表面看來,似乎讓創作變得前所未有地容易。但也正因為如此,一個更基本的問題隨之浮現:當機器越來越能夠生成聲音,創作者真正要做的是什麼?
這正是本章要處理的核心。若把AI聲音創作理解成一場新的分工,那麼創作者的角色已不再只是傳統意義上的錄音者、剪接者或技術執行者,而越來越像一位聲音導演。所謂聲音導演,不只是會操作工具的人,而是能夠統整人聲、音樂、音效與空間,使它們共同為敘事服務的人。他需要知道故事要往哪裡走,角色的心理在哪裡轉折,某一段沉默為何比音樂更重要,哪一種聲音質感會讓作品更誠實,哪一種又只是廉價而多餘的效果。換句話說,在AI生成式時代,真正稀缺的能力不再只是製造聲音,而是調度聲音。
這樣的轉變,也重新定義了所謂的「技術」。傳統技術常常指的是軟體操作、設備掌握與後製流程;但在AI時代,技術的一部分變成了如何形成清楚意圖、如何把想像轉譯成模型可以理解的條件、如何在多個生成版本中辨認真正有力的結果。這意味著,創作不只是「做」,更是一連串的翻譯、試驗、比較與選擇。因此,本章將集中討論兩個重要主題:第一,提示詞工程(prompt engineering)究竟是什麼,它為何不是只靠堆砌形容詞;第二,當AI持續生成多個可能結果時,創作者如何進行策展式選擇(curation)與後製修整,而將機率結果轉化為作品。
一、當創作從手工執行轉向條件設定
在傳統聲音製作中,創作者的很多工作是直接作用在素材上。你錄一段對白、剪掉失誤、加一段音效、調整音量、進行混音,這些都是具體而直接的操作。你碰觸的對象都是已經存在的聲音材料,工作方式偏向加工與編修。
但在AI模式中,創作者的許多工作前移了。也就是說,很多關鍵決定不是在素材已經出現之後才做,而是在生成之前就先透過條件設定完成。你不再只是問「我怎麼修改這段音訊」,而是更早就要問「我要讓模型先朝哪個方向生成」。這表示,創作的一部分從後端加工轉向前端設計。
這種改變很像建築設計與施工的區別。若只是施工,你的工作重點是如何把既有材料組裝得準確;但若是設計,你必須先決定結構、功能、動線與整體感受。AI創作中的提示詞與條件設定,就有某種類似設計藍圖的功能。它不等於作品本身,卻會深刻影響作品生成的方向與上限。
因此,在生成式時代,創作者不能只當結果的消費者,而要學會成為條件的設計者。你必須知道,模型所需要的不是模糊的「幫我做一段有感覺的聲音」,而是可被計算的創作方向。你必須把自己腦中偏感性的畫面與感受,轉譯成相對具體的聲音條件。這種能力,正是提示詞工程的基礎。
二、提示詞工程不是咒語,而是轉譯能力
「提示詞工程」這個詞在AI熱潮中常被談論,有時甚至被說得像某種神秘技巧,好像只要掌握幾個公式,就能讓模型準確做出任何作品。但若從創作角度來看,提示詞工程的本質並不是魔法,而是一種轉譯能力。所謂轉譯,是指把原本存在於想像、直覺或感受中的東西,翻成模型可以操作的條件語言。
對有聲故事劇創作者而言,這種轉譯尤其重要。因為聲音創作本來就有很多內容是難以直接說清楚的。例如,你可能想要一段「不是明顯的悲傷,但有一種已經來不及了的空洞感」的配樂;或者你想要一種「像是在努力壓住眼淚,卻不願被聽出來」的人聲;又或者你想要一種「空間很大,但人其實被困住」的場景聲。這些都是創作上非常真實的需求,但如果你只把它們留在模糊的感覺裡,模型很難替你逼近。你需要做的,是把這種感覺拆解成較可描述的元素。
例如,一段「已經來不及了的空洞感」可能可以拆成幾個層次:音樂速度不宜太慢,以免變成純抒情;和聲不應太滿,留出未完成感;音色可能偏薄、偏遠;旋律不宜太明確,因為太明確會產生主題感,反而削弱那種失落的懸置。又例如,一種「壓住眼淚」的人聲,可能不是要有明顯的哭腔,而是語速稍慢、句尾略虛、呼吸較淺、停頓有壓抑感,但整體仍努力維持平穩。當你能這樣拆解時,提示詞就不再只是隨便丟出幾個情緒詞,而會變成一組有方向的創作條件。
因此,提示詞工程的關鍵不在於「最厲害的詞」,而在於你是否真的知道自己想要的是什麼。模型輸出常常會暴露創作者本人的模糊程度。若你的提示很空泛,生成結果通常也會停留在類型化與平均化;若你的提示帶有清楚的敘事功能與聲學理解,結果就更有可能具有作品性。
三、好的提示詞,通常包含敘事、感官與技術三個層次
對初學者而言,最實用的理解方式,是把提示詞分成三個常見層次:敘事層次、感官層次與技術層次。這三者不一定每次都要完整具備,但越能兼顧,它就越有可能逼近理想結果。
首先是敘事層次。這一層回答的是:這段聲音在故事裡的任務是什麼?它屬於哪個角色、哪個場景、哪一種情緒進程?例如,你不是只說「悲傷女聲」,而是說「二十歲出頭的女性角色,在爭執後獨自留在空房間裡,努力冷靜地說出一句不想承認的事」。這樣的提示會立刻比單純情緒標籤更有敘事方向,因為它說明了角色的處境與說話目的。
其次是感官層次。這一層回答的是:這段聲音聽起來應該有什麼質感?例如人聲是乾淨還是沙啞的;音樂是貼近還是遙遠的;音效是清脆還是悶鈍的;空間是狹窄還是空曠。感官層次讓模型不只是知道「演什麼」,還知道「聽起來怎麼」。例如同樣是腳步聲,「急促腳步」仍太粗略;若進一步描述為「濕冷的樓梯間裡,橡膠鞋底急促地上樓,帶有短促的回音與喘息貼近感」,聲音畫面就會鮮明得很多。
最後是技術層次。這一層涉及結構、速度、音域、音色、配器、距離、空間感等較可操作的條件。例如你可以指定「低頻少一點」、「不要太戲劇化」、「鋼琴偏遠,混響較長」、「語速稍慢,但不要停頓太多」、「背景氛圍維持稀薄,不要蓋過台詞」。技術層次的作用,是把抽象審美需求轉成更具體的調整方向。
當這三層結合時,提示詞就會從模糊願望變成有效的創作指令。例如:「年輕男性第一人稱旁白,剛離開醫院後在夜路上走,情緒壓抑而疲憊,不要是明顯哭腔。語速偏慢,呼吸略淺,句尾微弱。整體貼近耳邊,但背景要有遠方的車流與夜風,保持空曠感。」這樣的描述之所以有效,不是因為用了多少高級詞,而是因為它同時交代了敘事任務、感官質地與技術方向。
四、提示詞不是一次完成,而是反覆逼近
即使你已經掌握如何寫較好的提示詞,也不應該把它想成一次就定稿的動作。生成式創作更接近一種反覆逼近的過程。你得先提出一個版本,得到一個結果;然後不是立刻接受或否定,而是分析這個結果離你真正想要的東西差在哪裡,再將這個差異回饋到下一輪提示或條件設定中。
這種過程很像雕塑。你不是先在腦中有一個百分之百清楚的成品,然後一下子把它做出來;你往往是在與材料互動的過程中,逐步更清楚地看見作品應該長成什麼樣子。AI生成的版本,就是一種回饋的材料。它讓你看見你原本想像中尚未說清楚的地方。
例如,某段AI配樂生成後,你可能覺得「太美了,但不夠空靈」。這句評語本身就很有價值,因為它顯示你開始辨識作品真正需要的質地。接著你就可以把「不夠空靈」進一步拆開:是不是和聲太滿?是不是旋律太明顯?是不是殘響太厚?是不是低頻太多?當你把這些感受一一拆解,下一輪的提示詞就會更精準。
同樣地,人聲生成後若聽起來「太像在朗讀,沒有內心活動」,這也不是單純失敗,而是一個線索。你可以問:是不是語速太平均?停頓太像標點?呼吸太少?語氣變化太平?角色的處境沒有被寫進提示?透過這種分析,你慢慢學到的不只是怎麼「用 AI」,而是怎麼聽出表演、情緒與場景為什麼成立或不成立。
因此,提示詞工程最接近的,其實不是輸入法,而是排練法。它要求創作者不斷修正自己的表達,直到模型產生的版本開始接近作品的精神。
五、從生成到策展:為什麼Curation是AI創作的核心能力
當模型一次可以提供多個版本時,創作者最關鍵的工作往往不再是「有沒有生成」,而是「怎麼選」。這裡就進入了curation,也就是策展式選擇的問題。這個詞原本多用在藝術展覽、影像編輯或資料篩選上,但放在AI創作裡其實非常合適。因為創作者面對的,已經不只是單一素材,而是一批由機率生成出來的候選結果。
這時候,問題不再是工具能不能做,而是你能不能判斷哪一個版本真正值得保留。這種判斷不是一種純粹的主觀任性,而是一種有敘事標準與審美標準的選擇。你要問的不是單純「我喜不喜歡」,而是「它適不適合這場戲」、「它有沒有說過頭」、「它是否搶走角色的內在」、「它是深化了氛圍,還是只是在表面上更戲劇化而已」。
在AI時代,這種能力比以往都更重要,因為模型常常很會生成「看起來不錯」的結果。它們合理、完整、順耳,但未必真的屬於這個作品。創作者若缺乏 curation能力,就很容易被工具的表面效果帶著走,最後做出充滿素材、卻缺乏內在精神統一性的作品。
Curation的第一步,是建立評估標準。對有聲故事劇而言,至少可以從幾個方向思考:第一,這個聲音是否與角色心理一致;第二,它是否與前後段落風格連貫;第三,它是否為台詞、人聲或情節讓出足夠空間;第四,它是否帶來必要的細節,而非不必要的裝飾;第五,它是否在整體節奏上剛好,而不是過飽和或過空缺。
換句話說,AI讓創作者從手工製造者的一部分角色,轉向了審美裁決者。但這並不是比較輕鬆的工作,而是更需要成熟判斷的工作。因為選擇,本身就是一種創作。
六、後製不是補救,而是人機協作真正開始的地方
很多人以為,用AI生成完聲音之後,後製工作就會大幅減少,甚至不再重要。但實際上,在成熟創作流程中,後製反而會成為人機協作真正開始的地方。因為AI提供的通常不是最終作品,而是一批有潛力的材料。這些材料要真正進入敘事,還需要被剪接、排序、平衡、修整與對位。
以AI人聲為例,即使生成版本已經很自然,創作者仍可能需要重新安排停頓、局部替換某些字句、削弱過度平順的部分、加入細微呼吸,甚至與空間音重新整合,使它更像處在某個場景而不是錄音棚中。同樣地,AI配樂即使方向正確,也常需要被剪成符合段落長度的形狀,或降低某些頻段,避免遮蔽人聲。至於AI音效,則更常需要層次拼接,例如把一個door slam的事件聲與持續的空間噪聲分開處理,使世界感更為可信。
因此,後製不是單純修理AI的不足,而是把AI生成的「一般可能」轉成這部作品的「具體必要」。這很像寫作中的修辭整理。初稿可能已經有內容,但還不算文章;只有經過句與句之間的調整、刪減與重新排列,思想才真正成形。同樣地,AI生成結果若沒有經過後製,就常停留在demo或草稿層次。
從創作者角度來看,這一點非常重要。因為創作者若過度迷信生成,就會忽略作品最後真正成立的原因,往往是在後端細節。真正成熟的創作者,不會只問「AI做得夠不夠好」,而是問「我怎麼把這些結果整理成作品的聲音語法」。
七、聲音導演真正要處理的是關係,而不是單一元素
當我們把提示詞、版本挑選與後製放在一起看,就會發現:聲音導演的核心工作,並不是讓某一個元素完美,而是處理元素之間的關係。人聲、音樂、音效與沉默,並不是各自獨立存在,它們的意義往往在彼此相遇時才真正形成。
例如,一段旁白本身可能很動人,但若配樂太早進來,就會把它推向過度抒情;一個音效本身可能很逼真,但若放在錯誤節點,反而破壞節奏;一段場景的噪聲本身可能很自然,但若沒有適時留白,角色的孤獨感就無法浮現。這些都說明了:聲音創作的核心不是單點品質,而是整體關係。
因此,聲音導演最重要的能力,常常是一種關係感知力。你必須知道哪裡該讓音樂退後,哪裡該讓人聲貼近,哪裡該讓空間突然變空,哪裡該讓一個小小的物件聲變成注意力中心。這種能力與其說是技術,不如說是一種敘事的時間感與感官秩序感。
這也解釋了為什麼有些作品明明沒有用很多高級工具,卻依然非常動人;而有些作品雖然充滿精緻素材,卻讓人感到雜亂而缺乏力量。真正讓作品成立的,往往不是聲音多厲害,而是關係有沒有被導演處理好。
八、AI時代最需要的,不是更少創作者,而是更成熟的創作者
當創作者面對AI時,常常會產生一種焦慮:如果機器越來越會生成人聲、配樂與音效,那創作者是不是會變得不重要?但走到本章,我們其實可以更清楚地回答:AI不是讓創作者消失,而是讓創作者的標準提高了。
因為當技術門檻降低,真正能區分作品高下的,就不再只是誰會操作,而是誰更能理解聲音與敘事的關係;誰更能聽出細節差異;誰更能寫出準確提示詞;誰更能從眾多版本中辨認真正屬於這部作品的那一個。這些能力都不是機器可以自然替代的。相反地,AI越強,越需要有人來定義什麼叫「好」,什麼叫「必要」,什麼叫「誠實」,什麼叫「只是看起來厲害」。
從這個意義上看,AI時代最需要的不是更少的創作者,而是更成熟的創作者。所謂成熟,不是指年齡或資歷,而是指一種能夠把工具放回作品脈絡中思考的能力。你不只是追求生成得快,而是知道為什麼這一段要這樣聽;你不只是挑最漂亮的版本,而是挑最符合角色真實的版本;你不只是把技術完成,而是把敘事完成。
九、本章小結:創作者的價值,在於把可能性整理成作品
總結本章,我們可以說,生成式AI的出現,使聲音創作從「直接手工操作素材」的一部分,轉向了「設定條件、生成版本、挑選結果、後製整合」的新流程。在這個流程中,提示詞工程的重要性不在於技巧炫耀,而在於創作者是否能把模糊的感受、想像與敘事目的,轉譯成模型可操作的條件。好的提示詞往往同時包含敘事層次、感官層次與技術層次,並且透過反覆修正逐步逼近作品所需。
同時,我們也看到,當AI可以快速生成多種可能結果時,創作者最關鍵的能力之一便是 curation,也就是策展式選擇。這種能力要求創作者建立清楚的審美與敘事判準,從眾多 plausible 的版本中,選出真正 necessary 的那一個。接著,透過後製修整與元素關係調度,讓這些生成材料真正進入作品的聲音語法中。
因此,AI時代的創作者,不再只是技術執行者,而是更像聲音導演。他的工作不是憑空製造每一個聲音,而是把一系列機率生成出的可能性,整理、裁剪、排列與導演成一個具有風格、節奏與情感方向的作品。這正是創作者價值最不可取代的地方:不是因為他比機器更快,而是因為他能賦予聲音整體意義。
下一章將作為全文的結語,進一步討論AI聲音創作所牽涉的倫理與未來問題。我們將觸及聲紋與版權、真實性與虛構邊界、學術誠信與創作責任,並思考:當聲音越來越可以被生成、複製與重組,我們究竟應該如何理解創作、作者與聽覺真實的未來。























