# 僅分享個人工作流程、所用工具,不代表業界做法
前情提要:用 AI 做短片,入選 13 個國際影展你也對做影片一竅不通嗎?
別擔心,我當時也是
外行人有外行人的好處,不會被學院派框架住
心法
先想想電影需要哪些元素,從根本拆解整幅圖像
再一一製作拼圖,湊回去就行了
首要問題:影片是什麼?
影片就是一堆動很快的圖片,加上聲音 (BGM、歌曲、旁白等),字幕則可錦上添花
所以:
- 首先要有圖片
- 有圖片就可以用圖生影片 (連續、順暢的多張圖片)
- 聲音,我的案例需要:
- 旁白
- 背景音樂 (BGM)
- 歌聲
- 要做就做全套,我要字幕
工具
知道要什麼之後,就分別找工具做拼圖吧!
文生圖工具
這大家應該都很熟,當時最紅的莫過於
- Stable Diffusion, SD
- Midjourney, MJ (現已苟延殘喘)
- Dalle 2 (現已出到 3)
我做電影 SD 用最兇,畢竟免費開源、有一堆架好的服務、又滿滿輔助工具
MJ 只用免費額度生了幾張圖,限制太多不方便
如果你此時進場,我會建議:
一直有新模型、工具也推陳出新,還是很好用
盡量從 SDXL 開始選,除非你對破老舊模型情有獨鍾
堪稱進化版 SD,授權更寬、圖感更好,是我最愛的系列
簡明指南:
Schnell 是最小、最快的,圖的細節比較少,但已在 SDXL 等級以上
# Schnell 是德文的「快速」,因為 Flux 的公司 Black Forest Labs 在德國
Dev 則是中等模型,圖的品質多數情況夠用,不過比較笨重
Pro 是旗艦模型,加一堆 Ultra 之類的尾綴只代表更大更強
需注意只有 Schnell 是 Apache 授權,其他模型若要商用請詳閱說明書
前陣子出了 Kontext,生圖外也能改圖,品質很不錯
近期更推出 Flux 2,集生圖、改圖於一身,質感更不在話下
沒硬體的話,可找第一方、第三方服務 (有很多免費選擇)
甚至法國語言模型公司 Mistral 的 Le Chat (類似 GPT),生圖模型就是 Flux
# 免費用喔!
美國公司,提供慷慨的線上算圖服務,免費帳號也能大量產圖
# 不過額度常常變換,使用前請查閱時下方案
有自家「即時產圖」模型,也有 Flux 可用
# 兩間公司關係良好,甚至合作推出 Krea-flux 模型
「即時產圖」指你在畫布上鬼畫符,模型會即時根據你的線條、配色、prompt 生成圖片,可控性較高
有點類似 Adobe Firefly (Photoshop 的 AI),但沒噁心的收費制度
喜歡開源的人,可用 Krita + SD / ComfyUI 外掛達成類似效果
如果你是開發者,不妨試試 Bria AI 的 FIBO
近期才剛上架,開源、可生圖改圖,能力非凡
且訓練資料經授權,並非強取豪奪
不過 FIBO 吃 JSON 格式輸入,不是一般詠唱詞
也許比較小眾,此公司有同名閉源模型,品質也很不錯
特點是可在圖中「呈現文字」,且錯誤率低 (主要支援英文)
在 GPT 能生圖前,可謂空前壯舉
# 現在當然 Flux、FIBO、Gemini 都能辦到
一樣有免費額度,不過官方平台介面有點陽春
- GPT-image-1
不太想推閉源、隱私不友善公司
但 GPT 身為 SOTA (時代標竿)、很多人在用,對大眾難度較低,還是提一下
GPT-image 模型仍在第一代,支援文生圖、改圖、字體內嵌等
就生圖本領而言,算十分出色
缺點是非常耗算力,因此很貴、配予的額度少
還有個大麻煩 - 內容篩選器
有時詠唱正常的圖片,生了半天結果被 ban
造成工作流程阻塞,生產效率大幅降低
- Google imagen
如果 OpenAI 算「隱私不友善」,Google 就是「隱私災難」
imagen 是 Google DeepMind 的圖片生成模型,能用相對少的算力產圖、改圖
圖的品質不錯,不過風格較受限
可嘗試在圖內放文字,但錯誤率高
即使換了新版模型,也沒完全解決
- Gemini 2.5 Flash (nano banana)
也是隱私惡夢公司 Google 的模型,生圖、改圖都行,能力很不錯
雖不見得能在品質上贏過 GPT-image,但生圖速度、花費資源都大勝
因此變成免費仔寵兒,就算要付費也便宜很多
- Adobe Firefly
別急,我也是 Adobe 黑
Firefly 有吝嗇的每月免費額度,沒花錢一樣能用
從瀏覽器進入網頁就行,不必下載
不過直接生圖的品質超差,比較適合搭配 Photoshop 改圖
# 也許有人是盤子訂戶,還是提一下
- Dalle 2 / 3
OpenAI 的模型,但多數人從微軟的平台操作
可透過 Image Creator、Bing copilot 使用
微軟一天給很多免費額度,缺點是超會 ban
且標準不明,它愛擋就擋
畢竟微軟是很保守又霸道的公司,用戶體驗非優先考量
上述管道,現在疑似只能取用塑膠感很重、風格受限的 Dalle 3 了
# API 還是能用 Dalle 2
Dalle 3 對大眾比較友善,但如果善於詠唱,Dalle 2 能生出更多樣、細緻的圖
那麼多選擇,看到眼都花了嗎?
別擔心,有許多第三方公司整合多家服務,讓你輕鬆操作
例如 Leonardo AI、NightCafe,都有會更新的免費額度能用
# 兩家都是澳洲公司,可取用多種模型
不過前者一直移除好用的功能、兩者都有中度內容篩選
NSFW 內容不易通關 (當然,有技巧還是能偷渡)
另一間美國新創 Civitai,俗稱 C 站,能用許多開源模型
一樣提供免費額度,且可透過互動賺更多
還能用別人微調的模型,很像 AI 製圖的社群網站
# 如果再嫌額度不夠,那就只能訂閱囉!
總之,找個自己喜歡的平台 / 模型,把底稿生出來就對了
# 可類比為電影的分鏡、或動畫的印象版 (畫作底稿)
圖生影片工具
你也可以直接生影片,不透過底稿
但有底圖比較好控制畫面,尤其想連戲的話不可或缺
前一步生完圖,就拿圖來產片吧!
你可能說:「我知道,Midjourney、Google Veo 都行」
請冷靜,那年代沒 Sora、沒 Veo,Midjourney 也只能生圖
當時 AI 影片,由兩個平台二分天下:
我做到一半又冒出一個
但尚處早期測試階段,功能不太齊全
社群有人用 SD 硬生影片,做法是串接生圖流程,瘋狂產圖再接成影片
# 別忘記,影片就是一堆動很快的圖片
但那種做法很不可控,每幀都高機率不搭調
所以我當時僅靠上述三個方案,生完多數片段
若此時想進場,Krea、Veo、Sora 都算方便,想用 Midjourney 也行
不過我用的那三個,蠻值得介紹一下
早期需從 Discord 頻道訪問,用類似程式指令的方式操作
# 那時我還沒刪 Discord,惡質平台很不推薦,之後會撰文替換掉
能給的有:
- 底圖
- 影片動態 (類似每個物件的位移程度)
- 運鏡
- 其他就跟文生圖工具差不多
# 有人寫了一篇介紹,細節請參考那篇
可以放入底圖,加入咒語祈禱畫面順利生成,然後靠運氣
沒錯就是靠運氣,因為能控制的太少,詠唱大師也難保證一次到位
多嘗試幾次,再選最適合的就好 (反正當時免費、無次數限制)
- Runway
介面相對友善,可用網頁的圖形介面操作
圖片轉影片、影片生影片都行,還有動態筆刷能控制想移動的物件
筆刷可調整動態程度、也能控制物件移動方向
而且在當時,Runway 生成的影片解析度、細節都勝過 Pika Labs
缺點是免費帳號有點數限制,用完就沒了
Stable Diffusion 的圖生影片模型,當時只能「塞入圖片,然後開盲盒」
沒任何調控機制,頂多設定長寬比、每秒幀數
好處是沒浮水印、次數限制,甚至不用帳號 (畢竟在公測,現在應該沒那麼好混)
所以我的短片有不少畫面,是靠 Stable Video Diffusion 生成的
上述工具在當時,大多只能生 10 秒內的影片
等等,那不連戲怎麼辦?
這就有個技巧 - 影片接龍
和 AI 技術無關,純粹是個手法
用前一段影片的終幕,作為下一段影片的輸入圖
如此畫面就會連貫,效果酷似一張底圖生出長片,且中間有斷點可調整
聲音
首先是旁白
這很好處理,找個文字轉語音 (Text-To-Speech, TTS) 工具就行
差異在於音色好不好聽、抑揚頓挫是否自然、語速能否調整等
許多 TTS 服務有免費額度,但用完就得等刷新
當時挑的有:
NaturalReader 介面乾淨,但額度很有限、可調之處不多
TTSFree 則是可選聲音較多,但廣告不少
兩者操作可參考我古早發的「用 AI 做報告」文章 (含影片教學)
TTSReader 最陽春,只想要「有個聲音唸出來」、其他都不管,才考慮它
重點來啦!
最強的就是 TTSMaker,高度可客製化、免費版絕對夠用
不需帳號、不用登入,只是得忍受廣告
超多種聲音能選,可調語速、音調,免費用量無上限 (至少我用很兇都沒遇過上限)
除了逗、句號外,也能靠特定符號微調停頓時間
# 例如 ((⏱️=400))會停 0.4 秒,可插入文稿任何地方製造停頓
口音也能選,有英國腔、美式英語、北京腔、台灣發音等
# 口音視你選的角色而定,綁定聲線
聽順耳的,再匯出成音檔即可
接著是背景音樂 (Background Music, BGM)
當年試的有:
其他不是要錢,就是有許多麻煩限制
Facebook 開發的「文生樂 (text-to-audio)」工具,MIT 開源授權
# MIT 屬真開源,你要商用也行,開源簡介請見這篇
官方有架站可限額試用,或到 Hugging Face 空間用到爽
# Hugging Face space 是個託管空間,可部署開源模型
因為開源,你也可以拉到自己電腦執行
缺點是每段只能 15 秒,長曲目會不連貫
Stability AI 的文生樂工具,和 Stable Diffusion 是同家公司
當年尚在公測,只有一個模型
現在則有 Stable Audio 2.5 (旗艦閉源模型)、兩個開源選擇
需辦帳號,每月有 20 個免費點數,一首曲耗費一點
曲子品質很高、最長可有 45 秒,對短片來說很夠用
# 現在改成每月 10 點、最長一首 3 分鐘
同樣因為開源 (實際上是開放權重),可自行下載操作
# 不過授權有商用限制,使用前請詳閱
缺點是官網介面不直觀,偶爾還會當機
當時我便以 Stable Audio 為主、MusicGen 為輔,產 BGM 供短片使用
歌曲 (Song)
這分兩部分:
- 歌詞 (Lyrics)
- 曲 (song)
Lyrics 我是自己想的,想完拿給 AI 檢查,再丟進「詞生曲 (lyrics-to-song)」工具
至於歌詞內容,就看你想表達什麼
如果想不出來,可諮詢語言模型,恕不在此贅述
# 你熟悉的 Mistral、GPT 等,就是語言模型
當時使用的工具:
那時只用這一個,其他限制都很多
Riffusion 是開源 (MIT 授權)模型,初版從 Stable Diffusion 微調而來
原理是用文字「生成頻譜圖像 (spectrogram)」,再將 spectrogram 轉成音訊
# 能想到用這種方式產聲音,創意跟鬼一樣
可自己下載安裝,線上免費用也行
永久免費,且生成的音訊可隨意使用 (商用亦可,官方自己說的)
可挑風格、詠唱曲風、自代歌詞,且輸出品質不差
當年每首只能 12 秒,現在最長 4 分鐘,AI 進展神速啊!
Riffusion 免費又好用,所以就沒用其他工具
# 廣告打很兇的 Suno AI,免費版有商用限制、且當年額度用完不會刷新
注意
截稿前 Riffusion 團隊成立了 Producer.ai,需 Google / Discord 連動,或綁門號登入
# Google、Discord 都非常侵犯隱私,綁門號更暴露個資
音訊產字幕工具
技術上來說,應該叫自動語音辨識 (Automatic Speech Recognition, ASR)工具
現在工具一個比一個強,當年幾乎只有 Whisper 能用
有關注自動字幕的,想必都聽過
Whisper 是舊石器時代的 ASR 模型,由 OpenAI 以 MIT 授權開源釋出
鑑於 Whisper 能力強大、我的短片無專業術語,就直接拿原版 Whisper 來用了
# 如有領域專業,一般建議先微調過
Whisper 有一系列模型,最大的版本相較現今語言模型,仍非常小巧可愛
因此拉到自己筆電跑,通常也不會有問題 (CPU 就行)
如果想蹭算力的,裝到 Colab GPU 上,可大幅提升效率
教學影片滿坑滿谷,隨便找都有 (畢竟是早就成熟的技術)
想要更強、處理更複雜音訊的,可選用 Mistral 的 Voxtral
# 模型大很多,但為時下標竿 (State of The Art, SOTA),且 Apache 真開源授權
Voxtral 有語意理解能力、能處理長音訊,可視情況選用
因為旁白就是英文,我用 Whisper 直接產英文字幕
中文我「工人智慧」生成,母語人士比較能精準挑詞
其他多國語言,則靠 DeepL 翻譯而成,文法與品質不清楚
# 許多影展要求當地語言字幕,為了投件就亂翻一通 XD
當然,你想直接用大語言模型翻譯,也沒有問題
發想
抱歉,這沒靠 AI,全是自己動腦想的
剪片軟體
這也沒靠 AI,試過兩個:
# 其他不是要錢,就是有浮水印、使用限制
開源免費的剪片軟體,介面簡單易用 (有繁中介面喔!)
Linux、MacOS、Windows 都支援,網路教學也很多
沒付費版,所以不會藏功能,你想付錢就捐助他們吧!
# GPL 3 開源授權,是真開源
不過 OpenShot 頗吃資源,電腦不夠好會有點卡
我當年系統過舊,只能裝舊版 OpenShot
一堆無解 bug,於是忍痛棄用
# 你有新版作業系統的話,應該不用擔心
鼎鼎有名的剪片軟體,分免費和付費版
但別急,免費版產片無浮水印、功能齊全
剪片、校色、特效、濾鏡...幾乎具備所有功能,別家公司的付費版恐怕都沒那麼強
製作的影片版權在用戶手上,當然也能商用
就算是專業玩家,除非你要拍鉅片,不然免費版就超夠用
# 付費版有 AI 摘除物件功能,不過效果差強人意,還不如用別的工具修完再放進來
優點是功能又多又強,缺點就是新手門檻高
摸索期可能會有點長,但學會之後全靠它就行
硬體要求不高,不過硬體越好當然越順
我的短片全靠 DaVinchi Resolve + 破爛筆電剪,是我少數下載的閉源軟體
如果是現在,我會用以下套組來做:
- 底圖 → Flux / SD
- 圖生影片 → Stable Video Diffusion
- 聲音
- 旁白 (如果需要) → TTSMaker
- BGM → Stable Audio
- 歌曲 → Riffusion
- 字幕 → Whisper / Voxtral
- 字幕翻譯 → LibreTranslate
# LibreTranslate 是開源翻譯軟體,詳情請見這篇

























