免費開源的語音辨識功能：Google Colab + Faster Whisper

Let's Write

2025/01/16 更新2024/01/17 發佈閱讀 6 分鐘

本篇要解決的問題

上一篇，我們用了 Google Colab，加上 OpenAI 的 Whisper，製作出了一個語音辨識功能，結果筆記文寫完沒過幾天，就看到有人改良了 Whisper，製作出了 Faster Whisper，辨識速度更快也更精準。

一開始研究時，因為是改到 Google Colab，所以跟著官方說明文件一直失敗，後來是爬了一下文後才找到解法。

確實，Faster Whisper 真的更快更準，測試了一個 70 分鐘的音檔，原本 OpenAI Whisper 要 14 分鐘，換用 Faster Whisper 後，只需要 7 分鐘。

不得不說，現在語音辨識模型已經到這程度，到年底時不知道又會有什麼樣子的進步。

Google Colab 的使用方式，在前一篇幾乎都寫到了，本篇不會再重寫，請先閱讀上一篇筆記文囉：

〈免費開源的語音辨識功能：Google Colab + Whisper large v3〉

安裝 Faster Whisper

官方說明文件：GitHub

文件一開始有說，要使用 GPU，要先安裝 NVIDIA 函式庫，一開始就是卡在這邊卡很久，因為找不到 Colab 的安裝方式。

後來爬了一下文後，才找到只要安裝「libcublas11」就可以了。

安裝 Faster Whisper 的二行程式碼如下：

!apt install libcublas11

!pip install faster-whisper

複製貼上二行程式碼，點擊執行後就會進行安裝。

使用 Faster Whisper

這篇來點跟前一篇不一樣的，因為官方提供的 Demo，產出的內容會加上時間軸，所以這邊 August 也試著做出三種格：一般、時間軸、字幕檔。

完整程式碼如下，可以直接貼上 Colab：

from faster_whisper import WhisperModel
import os
from google.colab import files

model_size = "large-v2" # tiny, base, small, medium, large, large-v2, large-v3
mode = "normal" # normal 一般, timeline 加入時間軸, subtitle 產生成字幕檔格式

# Run on GPU with FP16
model = WhisperModel(model_size, device="cuda", compute_type="float16")

# 設定檔案路徑
audio_path = "/content/letswrite.mp3" # 替換成你的檔案名稱

segments, info = model.transcribe(audio_path, beam_size=5, initial_prompt="繁體")

transcription = ""

# 1 以下為一般版本
if mode == "normal":
  transcription_segments = [segment.text for segment in segments]
  transcription = "，".join(transcription_segments)

# 2 以下為加入時間軸版本
elif mode == "timeline":
  for segment in segments:
    transcription += "[%.2fs -> %.2fs] %sn" % (segment.start, segment.end, segment.text)

# 3 以下為產生字幕檔的版本
elif mode == "subtitle":
  for i, segment in enumerate(segments, 1):
    start_hours, start_remainder = divmod(segment.start, 3600)
    start_minutes, start_seconds = divmod(start_remainder, 60)
    end_hours, end_remainder = divmod(segment.end, 3600)
    end_minutes, end_seconds = divmod(end_remainder, 60)
    transcription += "%dn%02d:%02d:%06.3f --> %02d:%02d:%06.3fn%snn" % (
      i,
      start_hours, start_minutes, start_seconds,
      end_hours, end_minutes, end_seconds,
      segment.text
    )

print(transcription)

# 獲取不帶副檔名的檔案名稱
file_name = os.path.splitext(os.path.basename(audio_path))[0]

# 將結果保存為txt檔案
with open(f"{file_name}.txt", "w") as file:
  file.write(transcription)
  files.download(f"{file_name}.txt")

貼上後，要修改的部份有三個。

model_size

這邊要寫的是，想要用哪種 model 來進行辨識。

目前 OpenAI 提供的 Whisper API 是 Large-V2，也確實 V2 就很好用了。

如果改用最新的 Large-V3，辨識時間會再久一點。

mode

mode 就是要產出什麼格式的檔案，分為：

normal：一般的格式，單純加上逗號去區分每一句。
timeline：加入時間軸。
subtitle：產生成字幕檔格式。

audio_path

audio_path 就是填寫要辨識的音檔路徑。

最後，附上完整的 Google Colab。

結論

這篇算是上一篇的…外傳？就是一個補充寫法。

網路上如果搜尋一下 Google Golab Faster Whisper，就還蠻多人有做出厲害的範例。

這篇就分享給需要的棒油囉~

留言

Let's Write 的沙龍

9會員

19內容數

沙龍到底是…做什麼用的勒？

Let's Write 的沙龍的其他內容

2024/08/24

CodiumAI PR-Agent，在 GitLab 上用 AI 來 Code Review

了解如何在 GitLab 中設置和使用 CodiumAI PR-Agent 進行 AI Code Review，自動檢查和改進程式碼。本文提供詳細步驟，包括環境設置、提交必要檔案，以及如何使用 OpenAI API Key 進行配置。

2024/08/24

CodiumAI PR-Agent，在 GitLab 上用 AI 來 Code Review

2024/08/07

免費開源的語音辨識功能：Cloudflare Workers AI + Whisper

了解如何使用 Cloudflare Workers AI 與 Whisper 建立免費開源的語音辨識功能。本文詳細說明註冊步驟、部署流程及程式碼修改，讓你輕鬆將語音轉換成文字。

2024/08/07

免費開源的語音辨識功能：Cloudflare Workers AI + Whisper

了解如何使用 Cloudflare Workers AI 與 Whisper 建立免費開源的語音辨識功能。本文詳細說明註冊步驟、部署流程及程式碼修改，讓你輕鬆將語音轉換成文字。

2024/06/05

用 TensorFlow.js COCO-SSD 辨識圖片物件

學習如何使用 Tensorflow.js 的 COCO-SSD 模型在網頁上進行圖片物件辨識，包括基本使用方法、進階應用及實作範例，輕鬆辨識圖片中的人數和物件。

2024/06/05

用 TensorFlow.js COCO-SSD 辨識圖片物件

學習如何使用 Tensorflow.js 的 COCO-SSD 模型在網頁上進行圖片物件辨識，包括基本使用方法、進階應用及實作範例，輕鬆辨識圖片中的人數和物件。

看更多

你可能也想看

釀電影，啜一口電影的美好。

往霧的更深處去──從《白色說書人》看轉型正義，與白色恐怖影視文本

見諸參與鄧伯宸口述，鄧湘庭於〈那個大霧的時代〉記述父親回憶，鄧伯宸因故遭受牽連，而案件核心的三人，在鄧伯宸記憶裡：「成立了成大共產黨，他們製作了五星徽章，印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單，以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿，另外還有手槍子彈十發。」

#釀電影#釀藝評#藝術評論

2026/05/07

釀電影，啜一口電影的美好。

往霧的更深處去──從《白色說書人》看轉型正義，與白色恐怖影視文本

#釀電影#釀藝評#藝術評論

2026/05/07

Amily的沙龍

北藝嚴選指南：從兒童藝術節到國際共製，聰明玩家的 75 折選戲術

當時間變少之後，看戲反而變得更加重要——這是在成為母親之後，我第一次誠實地面對這一件事：我沒有那麼多的晚上，可以任性地留給自己了。看戲不再只是「今天有沒有空」，而是牽動整個週末的結構，誰應該照顧孩子，我該在什麼時間回到家，隔天還有沒有精神帶小孩⋯⋯於是，我不得不學會一件以前並不擅長的事：挑選。

#北藝嚴選指南#兒童藝術節#臺北表演藝術中心

2026/04/20

Amily的沙龍

北藝嚴選指南：從兒童藝術節到國際共製，聰明玩家的 75 折選戲術

#北藝嚴選指南#兒童藝術節#臺北表演藝術中心

2026/04/20

螃蟹_crab的沙龍

[Python]使用SpeechRecognition進行語音辨識

本文主要使用SpeechRecognition來做一個簡單的語音辨識，使用pyqt5介面呈現。按下Start Recording，開始錄音，並顯示請開始說話。然後按鈕名改名Stop 在按下Stop Recording，稍等片刻後就會呈現出辨識結果程式範例 import sys i

#Python#語音辨識#SpeechRecognition

2024/06/22

螃蟹_crab的沙龍

[Python]使用SpeechRecognition進行語音辨識

#Python#語音辨識#SpeechRecognition

2024/06/22

樂子

ChatGPT新功能：Read out loud，直接念誦你的對話！

ChatGPT最近更新了語音對話功能，同時推出了附屬功能Read out loud，讓對話更方便。使用者可以立刻知道英文單字的讀音和例句唸法，加上十秒重播功能，非常實用。

#ChatGPT#人工智能#人工智慧

2024/01/15

樂子

ChatGPT新功能：Read out loud，直接念誦你的對話！

#ChatGPT#人工智能#人工智慧

2024/01/15

方格子 vocus 官方沙龍

🏝️ 方格創作島｜【創作地圖組】全攻略：解鎖靈感，再抽精美家電 ദ്ദി(•̀ ᗜ <)

5 月，方格創作島正式開島。這是一趟 28 天的創作旅程。活動期間，每週都會有新的任務地圖與陪跑計畫，從最簡單的帳號使用、沙龍建立，到帶著你從一句話、一張照片開始，一步一步找到屬於自己的創作節奏。不需要長篇大論，不需要完美的文筆，只需要帶上你今天的日常，就可以出發。征服創作島，抱回靈感與大獎！

#創作#vocus#方格創作島

2026/04/23

方格子 vocus 官方沙龍

🏝️ 方格創作島｜【創作地圖組】全攻略：解鎖靈感，再抽精美家電 ദ്ദി(•̀ ᗜ <)

#創作#vocus#方格創作島

2026/04/23

Let's Write 的沙龍

免費開源的語音辨識功能：Google Colab + Faster Whisper

本文提供如何使用 Google Colab 結合 Faster Whisper 來提升語音辨識速度與準確性，包含安裝指南與使用方法。探索如何將語音轉換為文本，並對檔案進行不同格式的輸出。

#Whisper#FasterWhisper#OpenAI

2024/01/17

Let's Write 的沙龍

免費開源的語音辨識功能：Google Colab + Faster Whisper

#Whisper#FasterWhisper#OpenAI

2024/01/17

Let's Write 的沙龍

免費開源的語音辨識功能：Cloudflare Workers AI + Whisper

了解如何使用 Cloudflare Workers AI 與 Whisper 建立免費開源的語音辨識功能。本文詳細說明註冊步驟、部署流程及程式碼修改，讓你輕鬆將語音轉換成文字。

#Cloudflare#OpenAI#Whisper

2024/08/07

Let's Write 的沙龍

免費開源的語音辨識功能：Cloudflare Workers AI + Whisper

了解如何使用 Cloudflare Workers AI 與 Whisper 建立免費開源的語音辨識功能。本文詳細說明註冊步驟、部署流程及程式碼修改，讓你輕鬆將語音轉換成文字。

#Cloudflare#OpenAI#Whisper

2024/08/07

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：流動、跨域、變形的「生存之道」

當代名導基里爾．賽勒布倫尼科夫身兼電影、劇場與歌劇導演，其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後，他持續以創作回應專制體制的壓迫。《傳奇：帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析，解構賽勒布倫尼科夫如何利用影劇雙棲的特質，在荒謬世道中尋找藝術的「生存之道」。

#釀電影#釀評論#藝術評論

2026/02/28