製造的原理 - AI 影片

移幣

發佈於AI報告與製片

2025/12/05 更新2025/12/03 發佈閱讀 18 分鐘

# 僅分享個人工作流程、所用工具，不代表業界做法

前情提要：用 AI 做短片，入選 13 個國際影展

你也對做影片一竅不通嗎？

別擔心，我當時也是

外行人有外行人的好處，不會被學院派框架住

心法

先想想電影需要哪些元素，從根本拆解整幅圖像

再一一製作拼圖，湊回去就行了

首要問題：影片是什麼？

影片就是一堆動很快的圖片，加上聲音 (BGM、歌曲、旁白等)，字幕則可錦上添花

undefined on Tenor

所以：

首先要有圖片
有圖片就可以用圖生影片 (連續、順暢的多張圖片)
聲音，我的案例需要：
- 旁白
- 背景音樂 (BGM)
- 歌聲
要做就做全套，我要字幕

工具

知道要什麼之後，就分別找工具做拼圖吧！

文生圖工具

這大家應該都很熟，當時最紅的莫過於

- Stable Diffusion, SD
- Midjourney, MJ (現已苟延殘喘)
- Dalle 2 (現已出到 3)

我做電影 SD 用最兇，畢竟免費開源、有一堆架好的服務、又滿滿輔助工具

MJ 只用免費額度生了幾張圖，限制太多不方便

如果你此時進場，我會建議：

- Stable Diffusion

一直有新模型、工具也推陳出新，還是很好用

盡量從 SDXL 開始選，除非你對破老舊模型情有獨鍾

- Flux

堪稱進化版 SD，授權更寬、圖感更好，是我最愛的系列

簡明指南：

Schnell 是最小、最快的，圖的細節比較少，但已在 SDXL 等級以上

# Schnell 是德文的「快速」，因為 Flux 的公司 Black Forest Labs 在德國

Dev 則是中等模型，圖的品質多數情況夠用，不過比較笨重

Pro 是旗艦模型，加一堆 Ultra 之類的尾綴只代表更大更強

需注意只有 Schnell 是 Apache 授權，其他模型若要商用請詳閱說明書

前陣子出了 Kontext，生圖外也能改圖，品質很不錯

近期更推出 Flux 2，集生圖、改圖於一身，質感更不在話下

沒硬體的話，可找第一方、第三方服務 (有很多免費選擇)

甚至法國語言模型公司 Mistral 的 Le Chat (類似 GPT)，生圖模型就是 Flux

# 免費用喔！

- Krea

美國公司，提供慷慨的線上算圖服務，免費帳號也能大量產圖

# 不過額度常常變換，使用前請查閱時下方案

有自家「即時產圖」模型，也有 Flux 可用

# 兩間公司關係良好，甚至合作推出 Krea-flux 模型

「即時產圖」指你在畫布上鬼畫符，模型會即時根據你的線條、配色、prompt 生成圖片，可控性較高

有點類似 Adobe Firefly (Photoshop 的 AI)，但沒噁心的收費制度

喜歡開源的人，可用 Krita + SD / ComfyUI 外掛達成類似效果

- FIBO

如果你是開發者，不妨試試 Bria AI 的 FIBO

近期才剛上架，開源、可生圖改圖，能力非凡

且訓練資料經授權，並非強取豪奪

不過 FIBO 吃 JSON 格式輸入，不是一般詠唱詞

- Ideogram

也許比較小眾，此公司有同名閉源模型，品質也很不錯

特點是可在圖中「呈現文字」，且錯誤率低 (主要支援英文)

在 GPT 能生圖前，可謂空前壯舉

# 現在當然 Flux、FIBO、Gemini 都能辦到

一樣有免費額度，不過官方平台介面有點陽春

- GPT-image-1

不太想推閉源、隱私不友善公司

但 GPT 身為 SOTA (時代標竿)、很多人在用，對大眾難度較低，還是提一下

GPT-image 模型仍在第一代，支援文生圖、改圖、字體內嵌等

就生圖本領而言，算十分出色

缺點是非常耗算力，因此很貴、配予的額度少

還有個大麻煩 - 內容篩選器

有時詠唱正常的圖片，生了半天結果被 ban

造成工作流程阻塞，生產效率大幅降低

- Google imagen

如果 OpenAI 算「隱私不友善」，Google 就是「隱私災難」

imagen 是 Google DeepMind 的圖片生成模型，能用相對少的算力產圖、改圖

圖的品質不錯，不過風格較受限

可嘗試在圖內放文字，但錯誤率高

即使換了新版模型，也沒完全解決

- Gemini 2.5 Flash (nano banana)

也是隱私惡夢公司 Google 的模型，生圖、改圖都行，能力很不錯

雖不見得能在品質上贏過 GPT-image，但生圖速度、花費資源都大勝

因此變成免費仔寵兒，就算要付費也便宜很多

- Adobe Firefly

別急，我也是 Adobe 黑

Firefly 有吝嗇的每月免費額度，沒花錢一樣能用

從瀏覽器進入網頁就行，不必下載

不過直接生圖的品質超差，比較適合搭配 Photoshop 改圖

# 也許有人是盤子訂戶，還是提一下

- Dalle 2 / 3

OpenAI 的模型，但多數人從微軟的平台操作

可透過 Image Creator、Bing copilot 使用

微軟一天給很多免費額度，缺點是超會 ban

且標準不明，它愛擋就擋

畢竟微軟是很保守又霸道的公司，用戶體驗非優先考量

上述管道，現在疑似只能取用塑膠感很重、風格受限的 Dalle 3 了

# API 還是能用 Dalle 2

Dalle 3 對大眾比較友善，但如果善於詠唱，Dalle 2 能生出更多樣、細緻的圖

那麼多選擇，看到眼都花了嗎？

別擔心，有許多第三方公司整合多家服務，讓你輕鬆操作

例如 Leonardo AI、NightCafe，都有會更新的免費額度能用

# 兩家都是澳洲公司，可取用多種模型

不過前者一直移除好用的功能、兩者都有中度內容篩選

NSFW 內容不易通關 (當然，有技巧還是能偷渡)

另一間美國新創 Civitai，俗稱 C 站，能用許多開源模型

一樣提供免費額度，且可透過互動賺更多

還能用別人微調的模型，很像 AI 製圖的社群網站

# 如果再嫌額度不夠，那就只能訂閱囉！

總之，找個自己喜歡的平台 / 模型，把底稿生出來就對了

# 可類比為電影的分鏡、或動畫的印象版 (畫作底稿)

圖生影片工具

你也可以直接生影片，不透過底稿

但有底圖比較好控制畫面，尤其想連戲的話不可或缺

前一步生完圖，就拿圖來產片吧！

你可能說：「我知道，Midjourney、Google Veo 都行」

請冷靜，那年代沒 Sora、沒 Veo，Midjourney 也只能生圖

當時 AI 影片，由兩個平台二分天下：

我做到一半又冒出一個

Stable Video Diffusion

但尚處早期測試階段，功能不太齊全

社群有人用 SD 硬生影片，做法是串接生圖流程，瘋狂產圖再接成影片

# 別忘記，影片就是一堆動很快的圖片

但那種做法很不可控，每幀都高機率不搭調

所以我當時僅靠上述三個方案，生完多數片段

若此時想進場，Krea、Veo、Sora 都算方便，想用 Midjourney 也行

不過我用的那三個，蠻值得介紹一下

Pika Labs

早期需從 Discord 頻道訪問，用類似程式指令的方式操作

# 那時我還沒刪 Discord，惡質平台很不推薦，之後會撰文替換掉

能給的有：

- 底圖
- 影片動態 (類似每個物件的位移程度)
- 運鏡
- 其他就跟文生圖工具差不多

# 有人寫了一篇介紹，細節請參考那篇

可以放入底圖，加入咒語祈禱畫面順利生成，然後靠運氣

沒錯就是靠運氣，因為能控制的太少，詠唱大師也難保證一次到位

多嘗試幾次，再選最適合的就好 (反正當時免費、無次數限制)

Runway

介面相對友善，可用網頁的圖形介面操作

圖片轉影片、影片生影片都行，還有動態筆刷能控制想移動的物件

筆刷可調整動態程度、也能控制物件移動方向

而且在當時，Runway 生成的影片解析度、細節都勝過 Pika Labs

缺點是免費帳號有點數限制，用完就沒了

Stable Video Diffusion

Stable Diffusion 的圖生影片模型，當時只能「塞入圖片，然後開盲盒」

沒任何調控機制，頂多設定長寬比、每秒幀數

好處是沒浮水印、次數限制，甚至不用帳號 (畢竟在公測，現在應該沒那麼好混)

所以我的短片有不少畫面，是靠 Stable Video Diffusion 生成的

上述工具在當時，大多只能生 10 秒內的影片

等等，那不連戲怎麼辦？

這就有個技巧 - 影片接龍

和 AI 技術無關，純粹是個手法

用前一段影片的終幕，作為下一段影片的輸入圖

如此畫面就會連貫，效果酷似一張底圖生出長片，且中間有斷點可調整

聲音

首先是旁白

這很好處理，找個文字轉語音 (Text-To-Speech, TTS) 工具就行

差異在於音色好不好聽、抑揚頓挫是否自然、語速能否調整等

許多 TTS 服務有免費額度，但用完就得等刷新

當時挑的有：

NaturalReader 介面乾淨，但額度很有限、可調之處不多

TTSFree 則是可選聲音較多，但廣告不少

兩者操作可參考我古早發的「用 AI 做報告」文章 (含影片教學)

TTSReader 最陽春，只想要「有個聲音唸出來」、其他都不管，才考慮它

重點來啦！

最強的就是 TTSMaker，高度可客製化、免費版絕對夠用

不需帳號、不用登入，只是得忍受廣告

超多種聲音能選，可調語速、音調，免費用量無上限 (至少我用很兇都沒遇過上限)

除了逗、句號外，也能靠特定符號微調停頓時間

# 例如 ((⏱️=400))會停 0.4 秒，可插入文稿任何地方製造停頓

口音也能選，有英國腔、美式英語、北京腔、台灣發音等

# 口音視你選的角色而定，綁定聲線

聽順耳的，再匯出成音檔即可

接著是背景音樂 (Background Music, BGM)

當年試的有：

其他不是要錢，就是有許多麻煩限制

MusicGen

Facebook 開發的「文生樂 (text-to-audio)」工具，MIT 開源授權

# MIT 屬真開源，你要商用也行，開源簡介請見這篇

官方有架站可限額試用，或到 Hugging Face 空間用到爽

# Hugging Face space 是個託管空間，可部署開源模型

因為開源，你也可以拉到自己電腦執行

缺點是每段只能 15 秒，長曲目會不連貫

Stable Audio

Stability AI 的文生樂工具，和 Stable Diffusion 是同家公司

當年尚在公測，只有一個模型

現在則有 Stable Audio 2.5 (旗艦閉源模型)、兩個開源選擇

需辦帳號，每月有 20 個免費點數，一首曲耗費一點

曲子品質很高、最長可有 45 秒，對短片來說很夠用

# 現在改成每月 10 點、最長一首 3 分鐘

同樣因為開源 (實際上是開放權重)，可自行下載操作

# 不過授權有商用限制，使用前請詳閱

缺點是官網介面不直觀，偶爾還會當機

當時我便以 Stable Audio 為主、MusicGen 為輔，產 BGM 供短片使用

歌曲 (Song)

這分兩部分：

歌詞 (Lyrics)
曲 (song)

Lyrics 我是自己想的，想完拿給 AI 檢查，再丟進「詞生曲 (lyrics-to-song)」工具

至於歌詞內容，就看你想表達什麼

如果想不出來，可諮詢語言模型，恕不在此贅述

# 你熟悉的 Mistral、GPT 等，就是語言模型

當時使用的工具：

Riffusion

那時只用這一個，其他限制都很多

Riffusion 是開源 (MIT 授權)模型，初版從 Stable Diffusion 微調而來

原理是用文字「生成頻譜圖像 (spectrogram)」，再將 spectrogram 轉成音訊

# 能想到用這種方式產聲音，創意跟鬼一樣

可自己下載安裝，線上免費用也行

永久免費，且生成的音訊可隨意使用 (商用亦可，官方自己說的)

可挑風格、詠唱曲風、自代歌詞，且輸出品質不差

當年每首只能 12 秒，現在最長 4 分鐘，AI 進展神速啊！

Riffusion 免費又好用，所以就沒用其他工具

# 廣告打很兇的 Suno AI，免費版有商用限制、且當年額度用完不會刷新

注意

截稿前 Riffusion 團隊成立了 Producer.ai，需 Google / Discord 連動，或綁門號登入

建議從舊網站進入，或直接拿開源模型用，避免個資被侵犯

# Google、Discord 都非常侵犯隱私，綁門號更暴露個資

音訊產字幕工具

技術上來說，應該叫自動語音辨識 (Automatic Speech Recognition, ASR)工具

現在工具一個比一個強，當年幾乎只有 Whisper 能用

Whisper

有關注自動字幕的，想必都聽過

Whisper 是舊石器時代的 ASR 模型，由 OpenAI 以 MIT 授權開源釋出

鑑於 Whisper 能力強大、我的短片無專業術語，就直接拿原版 Whisper 來用了

# 如有領域專業，一般建議先微調過

Whisper 有一系列模型，最大的版本相較現今語言模型，仍非常小巧可愛

因此拉到自己筆電跑，通常也不會有問題 (CPU 就行)

如果想蹭算力的，裝到 Colab GPU 上，可大幅提升效率

教學影片滿坑滿谷，隨便找都有 (畢竟是早就成熟的技術)

想要更強、處理更複雜音訊的，可選用 Mistral 的 Voxtral

# 模型大很多，但為時下標竿 (State of The Art, SOTA)，且 Apache 真開源授權

Voxtral 有語意理解能力、能處理長音訊，可視情況選用

因為旁白就是英文，我用 Whisper 直接產英文字幕

中文我「工人智慧」生成，母語人士比較能精準挑詞

其他多國語言，則靠 DeepL 翻譯而成，文法與品質不清楚

# 許多影展要求當地語言字幕，為了投件就亂翻一通 XD

當然，你想直接用大語言模型翻譯，也沒有問題

發想

抱歉，這沒靠 AI，全是自己動腦想的

剪片軟體

這也沒靠 AI，試過兩個：

# 其他不是要錢，就是有浮水印、使用限制

OpenShot

開源免費的剪片軟體，介面簡單易用 (有繁中介面喔！)

Linux、MacOS、Windows 都支援，網路教學也很多

沒付費版，所以不會藏功能，你想付錢就捐助他們吧！

# GPL 3 開源授權，是真開源

不過 OpenShot 頗吃資源，電腦不夠好會有點卡

我當年系統過舊，只能裝舊版 OpenShot

一堆無解 bug，於是忍痛棄用

# 你有新版作業系統的話，應該不用擔心

DaVinci Resolve

鼎鼎有名的剪片軟體，分免費和付費版

但別急，免費版產片無浮水印、功能齊全

剪片、校色、特效、濾鏡...幾乎具備所有功能，別家公司的付費版恐怕都沒那麼強

製作的影片版權在用戶手上，當然也能商用

就算是專業玩家，除非你要拍鉅片，不然免費版就超夠用

# 付費版有 AI 摘除物件功能，不過效果差強人意，還不如用別的工具修完再放進來

優點是功能又多又強，缺點就是新手門檻高

摸索期可能會有點長，但學會之後全靠它就行

硬體要求不高，不過硬體越好當然越順

我的短片全靠 DaVinchi Resolve + 破爛筆電剪，是我少數下載的閉源軟體

如果是現在，我會用以下套組來做：

底圖 → Flux / SD
圖生影片 → Stable Video Diffusion
聲音
- 旁白 (如果需要) → TTSMaker
- BGM → Stable Audio
- 歌曲 → Riffusion
字幕 → Whisper / Voxtral
- 字幕翻譯 → LibreTranslate

# LibreTranslate 是開源翻譯軟體，詳情請見這篇

留言

移幣的沙龍

25會員

43內容數

技術文章、文學抒發、低門檻創意實作教學，想收到通知歡迎加入 # 除了方格贊助，也可以透過門羅幣 (monero, xmr)打賞： 8AEyT2biCC7S5impodPReHdRrUipEnj3GLFRZStyeUHiWWzq9q8emkpibJiPRxScXranJqKrinEere938k9pWkVcFWYTDzG

移幣的沙龍的其他內容

2025/11/21

用 AI 做短片，入選 13 個國際影展

路人用 AI 做電影，結果入選 12 個國際影展。預算 0 元、沒有幫手，而且在 Sora 都還沒誕生的年代製作，能入選影展就很高興了，何況收穫滿滿。本篇內含影片連結，是只有 4 分鐘的短片，歡迎免費觀賞。

2025/11/21

用 AI 做短片，入選 13 個國際影展

2023/11/03

用AI做報告

本文章分享如何藉由AI輔助產出學術報告的投影片、摘要，甚至可由AI進行報告即用AI：讀文獻 → 整理重點 → 將精華做成投影片 → 口頭報告本文所用方法與軟體皆免費，無需程式背景即可操作文中有附詳細版教學影片與成果

2023/11/03

用AI做報告

2023/10/27

Abstract

AI seminar abstract: Effects of body plan evolution on the hydrodynamic drag and energy requirements of swimming in ichthyosaurs

2023/10/27

Abstract

AI seminar abstract: Effects of body plan evolution on the hydrodynamic drag and energy requirements of swimming in ichthyosaurs

看更多

你可能也想看

第七宇宙覺醒真相的部落格的沙龍

-靈性教學- 短短三分鐘動畫短片《一指城》讓你了解現在為何有這樣多的災難!

今天分享一部影片动画短片《一指城》這部影片可是中國所製作的動畫短片，我找到的是簡短三分鐘的縮短版，裡面所講的就是現在的人類社會裡發生的事~ 希望大家看完可以感受到我的感受，這部影片裡都是我每天文章在說的話，你心中是否有"道" ，道即是愛愛即是光光即是佛佛即是一切，那

2020/02/12

第七宇宙覺醒真相的部落格的沙龍

-靈性教學- 短短三分鐘動畫短片《一指城》讓你了解現在為何有這樣多的災難!

2020/02/12

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11

歐拉熊的小廢文專欄

【 #週四看影片】7 - FLASH動畫短片【木馬屠城 Trojan Horse】

這篇文章回顧了作者大學時期的畢業製作，一部名為《木馬屠城 Trojan Horse》的MSN小綠人短片動畫，將Windows作業系統中的圖示和軟體想像成一個實體化的城鎮，並加入了木馬病毒入侵的情節。此外，作者也提到了另一款由台灣團隊開發的遊戲《廖添丁-稀代兇賊之最期》，分享了一些相關連結和資訊。

#FLASH動畫#MSN小綠人紀念短片#畢業製作

2024/05/16

歐拉熊的小廢文專欄

【 #週四看影片】7 - FLASH動畫短片【木馬屠城 Trojan Horse】

#FLASH動畫#MSN小綠人紀念短片#畢業製作

2024/05/16

一起分享電影戲劇、小說創作與生活大小事的絮語

動畫短片「無論如何我愛你」觀後感：逝者已矣、來者可追

片子的一開頭是分坐在餐桌兩頭用餐，相對無言的一對夫妻，表面無交集，內心卻責怪著對方。作者用黑色剪影來象徵內在的自己，或者死者的靈魂，夫妻倆有點失魂落魄地做著例行公事，先生對著外牆上的藍色油漆輕嘆，妻子因為烘乾機的藍色女童T恤而哭泣。一顆滾動的足球，觸動了黑膠唱盤，為這個沈悶的家帶來了一些生氣，夫

#校園槍擊案#痛失至親#療傷止痛

2023/05/11

一起分享電影戲劇、小說創作與生活大小事的絮語

動畫短片「無論如何我愛你」觀後感：逝者已矣、來者可追

#校園槍擊案#痛失至親#療傷止痛

2023/05/11

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

背景：從冷門配角到市場主線，算力與電力被重新定價小P從2008進入股市，每一個時期的投資亮點都不同，記得2009蘋果手機剛上市，當時蘋果只要在媒體上提到哪一間供應鏈，隔天股價就有驚人的表現，當時光學鏡頭非常熱門，因為手機第一次搭上鏡頭可以拍照，也造就傳統相機廠的殞落，如今手機已經全面普及，題

#AI#算力#電力

2026/04/11

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

#AI#算力#電力

2026/04/11

林柏勛的沙龍

【限時觀看】要跑得比冬天快可愛動畫短片《森林運動會》

《森林運動會》,( Marjolaine Perreten)｜瑞士｜2019｜動畫短片｜7分鐘天氣有點秋了，跟各位介紹可愛的動畫短片《森林運動會》，在森林裡飄散的白色迷霧，就是凜冽的冬天。噗哧的一聲，尾巴蓬起來，難道冬天對狐狸尾巴施了魔法了嗎? 有養毛小孩的朋友們，一定會發現冬天一旦到來，無

#動物#短片#動畫

2021/10/04

林柏勛的沙龍

【限時觀看】要跑得比冬天快可愛動畫短片《森林運動會》

#動物#短片#動畫

2021/10/04

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

這是一場修復文化與重建精神的儀式，觀眾不需要完全看懂《遊林驚夢：巧遇Hagay》，但你能感受心與土地團聚的渴望，也不急著在此處釐清或定義什麼，但你的在場感受，就是一條線索，關於如何找著自己的路徑、自己的聲音。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

陸坡的圖像文字回收桶

《九十屆奧斯卡動畫短片》入圍作品

短篇動畫《親愛的籃球》抱得了第九十屆奧斯卡動畫短片作品的殊榮，雖然許多人對於這個結果有所不滿。短片是一個必須在短時間抓住觀眾目光且說出吸引人故事一項藝術，尤其在動畫中的可能性和自由度又更加廣大，而先撇開這次是誰得講，就讓我們來了解這次獲選《九十屆奧斯卡動畫短片》入圍五部作品，各自有什麼樣的優劣點吧。

2018/03/28