用 AI 把任何歌變成卡拉 OK？Nightingale 體驗報告與安裝踩坑全紀錄

電話喵

發佈於日常碎碎念

2026/03/24 更新2026/03/24 發佈閱讀 10 分鐘

Nightingale — Karaoke from your music library

Nightingale 是一款開源的 AI 卡拉 OK 應用程式，只要丟入任何歌曲，它就能自動分離人聲與伴奏、產生逐字歌詞，變成一個完整的卡拉 OK 體驗。

Rust + Bevy 遊戲引擎作為前端，Python + PyTorch 作為 AI 後端，兩者透過 JSON IPC 溝通。

主要功能

AI 人聲分離 — 使用 UVR Karaoke 模型或 Meta 的 Demucs 自動將歌曲拆成伴奏與人聲，可調整導唱音量
自動歌詞產生 — 透過 WhisperX 逐字轉錄並對齊時間戳，或從 LRCLIB 線上歌詞庫抓取現成歌詞，不過WhisperX對歌詞的效果說不上好，最好還是LRCLIB 上有timestamp的歌詞檔
即時音高評分 — 麥克風收音即時與原唱音高比對，給予星級評分
多人檔案系統 — 支援建立多個使用者檔案，各自追蹤每首歌的最佳成績與排行榜
影片與動態背景 — 支援 MP4 等影片作為背景，另有 7 種 GPU 著色器特效（Plasma、Aurora、Waves、Nebula、Starfield 等）
遊戲手把支援 — 用手把就能操作所有功能
單一執行檔部署 — 下載一個 exe，首次啟動自動安裝所有依賴，理論上是這樣，但我失敗了
廣泛格式支援 — MP3、FLAC、OGG、WAV、M4A、AAC、WMA，以及 MP4、MKV、AVI、WebM 等影片格式
跨平台 — Windows、macOS、Linux 都能用

運作原理

┌─────────────────────────────────────────┐
│         Rust + Bevy 遊戲引擎             │
│  啟動 → 掃描音樂庫 → 選歌 → 即時播放    │
│  （音訊播放、歌詞同步、麥克風、評分）      │
└──────────────┬──────────────────────────┘
               │ stdin/stdout JSON 通訊
┌──────────────▼──────────────────────────┐
│        Python AI 分析伺服器              │
│  人聲分離 → 歌詞轉錄 → 時間對齊          │
└─────────────────────────────────────────┘

首次播放一首歌時，Rust 主程式會呼叫 Python 後端進行分析，產出三個快取檔案：

檔案內容*_instrumental.ogg伴奏（去人聲）*_vocals.ogg人聲*_transcript.json逐字歌詞與時間戳

之後播放同一首歌就直接讀取快取，畫面、字幕、音高評分全部由 Bevy 引擎即時渲染，不會產出影片檔。

安裝踩坑紀錄

理論上只要下載一個 exe 就能用，但實際在 Windows 上安裝的過程踩了不少坑。

坑 1：安裝路徑寫死在 C 槽

所有資料（FFmpeg、Python、PyTorch、ML 模型等）一律存放在 C:\Users\<帳號>\.nightingale\，完全沒有任何選項可以更改。我的 C 槽空間已經不多了，而完整安裝大約需要 5～15 GB。

解法：用 Windows 的目錄連接（Junction）把路徑導到其他磁碟：

mklink /J "C:\Users\<帳號>\.nightingale" "E:\nightingale-data"

程式以為在寫 C 槽，實際上所有資料都存到了 E 槽。

坑 2：torch 版本太舊，安全漏洞導致直接報錯

首次啟動的自動安裝流程裝的是 torch 2.5.1+cu121，但最新的 transformers 套件因為 CVE-2025-32434（torch.load 的嚴重安全漏洞）要求至少 v2.6，直接噴出錯誤：

ValueError: Due to a serious vulnerability issue in `torch.load`, even with
`weights_only=True`, we now require users to upgrade torch to at least v2.6

坑 3：升到 2.6 還不夠，WhisperX 要求 2.8

以為升到 torch 2.6 就好了？沒有。WhisperX 3.8.2 的依賴寫的是 torch~=2.8.0，升到 2.6 之後又跳其他依賴錯誤，修了 A 壞了 B。

而且 CUDA 12.1 的 PyTorch wheel 倉庫根本沒有 2.8 版，必須換到 CUDA 12.8 (download.pytorch.org/whl/cu128) 才行。

坑 4：跨磁碟安裝造成 metadata 損壞

因為我用了 Junction 把資料導到 E 槽，uv 套件管理器的 hardlink 在跨磁碟時會失敗。雖然它會 fallback 到 copy 模式，但過程中 torch 的 package metadata 損壞了，importlib.metadata.version('torch') 直接回傳 None：

TypeError: expected string or bytes-like object

這個錯誤訊息完全看不出跟 metadata 有關，找了好一陣子，雖然負責找的人是claude code 不是我

坑 5：重裝時 uv 從 PyPI 抓了 CPU 版的 torch

決定砍掉 venv 重建，一次裝好所有套件。但同時指定 --index-url cu128 和 --extra-index-url pypi 時，uv 竟然優先從 PyPI 拉了 CPU 版的 torch（沒有 CUDA 支援），導致 GPU 完全無法使用。

坑 6：日文歌詞辨識品質極差

好不容易裝好了，拿日文歌測試，結果歌詞辨識慘不忍睹。LRCLIB 沒有收錄這首歌的歌詞，回退到 WhisperX 自動轉錄後，日文對齊模型把歌詞拆成了一個一個字母：

{ "word": "I" }, { "word": "j" }, { "word": "u" }, { "word": "s" }, { "word": "t" }

原本應該是完整的日文歌詞，結果變成一堆毫無意義的單字母，不過這算是預想範圍內本來就不覺得whisper對唱歌的辨識度會高到哪裡去

最終解法

用 mklink /J 建立 Junction 解決路徑問題
砍掉整個 venv 重建
先從 PyPI 安裝所有套件（一次解析完依賴）
再單獨從 download.pytorch.org/whl/cu128 reinstall torch 三件套，並加上 --link-mode=copy 避免跨磁碟的 metadata 損壞

# 步驟 1：從 PyPI 一次裝好所有套件
uv pip install "torch==2.8.0" "torchaudio==2.8.0" "torchvision==0.23.0" \
  "whisperx>=3.8.0" "demucs>=4.0.0" "soundfile" "huggingface_hub>=0.27.0" \
  "audio-separator[gpu]>=0.25" "cython" "setuptools" \
  --index-url https://download.pytorch.org/whl/cu128 \
  --extra-index-url https://pypi.org/simple \
  --link-mode=copy

# 步驟 2：單獨重裝 torch CUDA 版（蓋掉 PyPI 的 CPU 版）
uv pip install --reinstall "torch==2.8.0" "torchaudio==2.8.0" "torchvision==0.23.0" \
  --index-url https://download.pytorch.org/whl/cu128 \
  --link-mode=copy

總結

雖然我在安裝上花了一點時間，但Nightingale 的功能設計很棒——單一執行檔、AI 人聲分離、即時卡拉 OK，概念上非常吸引人，還有導唱功能。

日文歌詞辨識的部分則是 WhisperX 上游的限制，不完全是 Nightingale 的問題，但如果能加入手動匯入 LRC 歌詞檔的功能會好很多。

留言

電話喵的電波塔

1會員

26內容數

一個現實中找不到地方抒發內心想法的亞斯的碎唸

電話喵的電波塔的其他內容

2026/03/11

關於我從新創光速落跑這檔事

你有看過員工密碼都用同一組的公司嗎？你有看過每天都要拖地的公司嗎？你有看過欠實習生好幾個月薪水的公司嗎？痾～好吧欠薪偶爾新聞上也會看到但這些全都是我在同一間新創看到的事情真的...沒事別去新創賭自己人品啊我就是賭輸的那個

2026/03/11

關於我從新創光速落跑這檔事

2026/02/10

用一個字證明你不是AI，我的答案是「蛤?」

深圳高中老師出題「用一個字證明你不是AI」學生答案顯人性溫度用一個字證明你不是AI 之前在網上看到上面這篇報導，這題目的確很有趣，學生也給出了比方「媽」，因為AI沒有母親，也有人認為是「急」因為AI也沒有著急的情緒，另外也有不少人給出了「悔」、「憾」、「痛」、「我」、「情」之類充滿溫度的文字

2026/02/10

用一個字證明你不是AI，我的答案是「蛤?」

2026/01/22

No Means Nothing：一款讓你練習說「不」的反約會模擬遊戲

這幾天玩了一款很有意思的遊戲，叫做《Bober Bros: No Means Nothing》，號稱是「反約會模擬」。光是遊戲名稱的設計就很巧妙，logo 上把「Nothing」拆成了「No」和「thing」，用不同顏色區隔開來，所以這句話有兩種解讀方式....

2026/01/22

No Means Nothing：一款讓你練習說「不」的反約會模擬遊戲

#AI 的其他內容

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

好好宅在家

AI盛行下，我卻感受到「老派」設計的浪漫。

方格子 vocus 官方沙龍

【4月靈感產生器】TOP 100 關鍵字：「○○」格友最愛用

你可能也想看

歐拉熊的小廢文專欄

【 #週日唱首歌】17 -【卡拉OK】踊り子 / Vaundy (KARAOKE by AuraBear)

作者分享Vaundy歌曲《踊り子》卡拉OK錄音試唱，並介紹多位歌手的翻唱版本，包含韓國女團成員、彩虹社Vtuber、以及其他獨立音樂人等，並附上影片連結及個人心得。適合喜歡Vaundy或翻唱歌曲的讀者閱讀。

#AuraBearSing#卡拉OK#KARA

2025/03/16

歐拉熊的小廢文專欄

【 #週日唱首歌】17 -【卡拉OK】踊り子 / Vaundy (KARAOKE by AuraBear)

#AuraBearSing#卡拉OK#KARA

2025/03/16

週報時光機的沙龍

他發明了卡拉OK，從酒吧樂手晉升為亞洲20世紀最有影響力人物

卡拉OK是由井上大佑所發明的，他曾被時代雜誌選為《亞洲20世紀最有影響力人物》之一。關於卡拉OK的發明，可以追溯到1971年，當時在酒吧擔任樂手的井上大佑，替歌手打造了一台伴奏機器，這項劃時代的娛樂設備，更讓他榮獲搞笑諾貝爾和平獎，因為卡拉OK讓人們彼此學會容忍。

#卡拉OK#發明#娛樂

2024/02/26

週報時光機的沙龍

他發明了卡拉OK，從酒吧樂手晉升為亞洲20世紀最有影響力人物

#卡拉OK#發明#娛樂

2024/02/26

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11