TIMIT

更新 發佈閱讀 3 分鐘

TIMIT 是一個經典且廣泛使用的語音資料庫,全名為「Texas Instruments/Massachusetts Institute of Technology Acoustic-Phonetic Continuous Speech Corpus」。它主要用於聲學語音學研究和自動語音識別系統的開發與評估。下面是關於 TIMIT 的詳細介紹:

  • 語料內容:包含來自美國8大主要方言區的630位母語為美式英語的說話者,每人錄製10句語音,共計約6300句,總長約5小時語音數據。
  • 語音特性:每句語音為朗讀語音,包含豐富的語音學特徵,以利研究語音聲學和語音辨識。
  • 標註資料:提供時間對齊的正字法(orthographic)、音素(phonetic)及詞彙(word)轉錄,且標註均經過人工校驗,便於準確的語音分析和模型訓練。
  • 錄音細節:語音以16-bit精度、16kHz取樣率數字錄製,錄音環境為專業隔音室,保證音質清晰。
  • 語句設計:包含三種類型的句子—
    • 兩句方言標語句(Dialect “shibboleth” sentences),用於揭示方言變體,
    • 450句音素緊湊句(Phonemically-Compact sentences),覆蓋豐富的音素組合,
    • 1890句音素多樣句(Phonetically-Diverse sentences),來自其他文獻,增加語音多樣性。
  • 訓練與測試分割:資料庫提供有平衡方言和音素覆蓋的訓練與測試子集,其中測試集包含24位說話者資料作為核心集,以確保模型的泛化性能。
  • 合作機構:由麻省理工學院(MIT)、SRI國際研究所與德州儀器公司(TI)共同開發,國家標準與技術研究院(NIST)負責校驗與發布。
  • 用途:是語音識別、語音合成、語音轉錄及語音學研究的重要標準數據集,具有豐富的語音學信息和高質量標註。
  • 限制:TIMIT資料集非免費公開,使用者需透過語言資料聯盟(Linguistic Data Consortium, LDC)購買授權取得。

簡言之,TIMIT 是一個設計精良且高度標註的美式英語語音資料庫,專為推動語音技術和聲學語音學研究而建,是評估和開發語音處理系統的重要基準資料集。

留言
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
46會員
572內容數
現職 : 富邦建設資訊副理 證照:經濟部 iPAS AI應用規劃師 初級+中級(數據分析) AWS AIF-C01 AWS CLF-C02 Microsoft AI-900 其他:富邦美術館志工
2025/08/14
LibriSpeech 是一個非常著名的語音資料集,主要用於自動語音識別(ASR,Automatic Speech Recognition)系統的訓練與評估。以下是關於 LibriSpeech 的繁體中文說明: 資料規模與來源: LibriSpeech 是一個包含約1000小時、取樣率為16kHz
2025/08/14
LibriSpeech 是一個非常著名的語音資料集,主要用於自動語音識別(ASR,Automatic Speech Recognition)系統的訓練與評估。以下是關於 LibriSpeech 的繁體中文說明: 資料規模與來源: LibriSpeech 是一個包含約1000小時、取樣率為16kHz
2025/08/14
CIFAR-10是一個廣泛應用於機器學習與計算機視覺領域的影像數據集,具備以下主要特點: 數據規模:總共包含60,000張彩色圖片,圖像尺寸為32×32像素。 類別數量與平衡性:涵蓋10個不同類別,每個類別有6,000張圖片。 訓練與測試集:分為50,000張訓練圖片和10,000張測試圖片。
2025/08/14
CIFAR-10是一個廣泛應用於機器學習與計算機視覺領域的影像數據集,具備以下主要特點: 數據規模:總共包含60,000張彩色圖片,圖像尺寸為32×32像素。 類別數量與平衡性:涵蓋10個不同類別,每個類別有6,000張圖片。 訓練與測試集:分為50,000張訓練圖片和10,000張測試圖片。
2025/08/14
MNIST(Modified National Institute of Standards and Technology)是一個非常經典且廣泛使用的手寫數字影像資料集,常被用來作為機器學習和深度學習模型在影像分類任務中的訓練與評估標準。 以下是 MNIST 的主要特點: 資料規模:包含60,0
2025/08/14
MNIST(Modified National Institute of Standards and Technology)是一個非常經典且廣泛使用的手寫數字影像資料集,常被用來作為機器學習和深度學習模型在影像分類任務中的訓練與評估標準。 以下是 MNIST 的主要特點: 資料規模:包含60,0
看更多
你可能也想看
Thumbnail
  在 AI 應用中,圖像、語音、文字三種可以說是主要應用,其中我一直以來都是專注於圖像上的研究,對於另兩種僅止於淺嚐,接下來就往音訊上研究看看,先從入門級的Text-To-Speech (TTL) 入場並一個個嘗試其他類型的應用,那麼,就讓我們開始吧。
Thumbnail
  在 AI 應用中,圖像、語音、文字三種可以說是主要應用,其中我一直以來都是專注於圖像上的研究,對於另兩種僅止於淺嚐,接下來就往音訊上研究看看,先從入門級的Text-To-Speech (TTL) 入場並一個個嘗試其他類型的應用,那麼,就讓我們開始吧。
Thumbnail
全新版本的《三便士歌劇》如何不落入「復刻經典」的巢臼,反而利用華麗的秀場視覺,引導觀眾在晚期資本主義的消費愉悅之中,而能驚覺「批判」本身亦可能被收編——而當絞繩升起,這場關於如何生存的黑色遊戲,又將帶領新時代的我們走向何種後現代的自我解構?
Thumbnail
全新版本的《三便士歌劇》如何不落入「復刻經典」的巢臼,反而利用華麗的秀場視覺,引導觀眾在晚期資本主義的消費愉悅之中,而能驚覺「批判」本身亦可能被收編——而當絞繩升起,這場關於如何生存的黑色遊戲,又將帶領新時代的我們走向何種後現代的自我解構?
Thumbnail
本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇:帕拉贊諾夫的十段殘篇》,如何以十段殘篇,結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭,探討藝術在儀式消失的現代社會如何承接意義,並展現不羈的自由靈魂。
Thumbnail
本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇:帕拉贊諾夫的十段殘篇》,如何以十段殘篇,結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭,探討藝術在儀式消失的現代社會如何承接意義,並展現不羈的自由靈魂。
Thumbnail
時時泰泰語資源中心為您提供豐富的泰語學習資源和文化交流的平臺,專注於製作親切且具啟發性的泰語教學內容,並提供豐富的出版書籍系列和付費訂閱方案。歡迎加入我們的學習社群,一起探索更多關於泰國的美好!
Thumbnail
時時泰泰語資源中心為您提供豐富的泰語學習資源和文化交流的平臺,專注於製作親切且具啟發性的泰語教學內容,並提供豐富的出版書籍系列和付費訂閱方案。歡迎加入我們的學習社群,一起探索更多關於泰國的美好!
Thumbnail
這篇教學介紹如何進行中文語音訓練,包括準備素材、GPT-SoVITS安裝步驟、音頻切割、字幕打標和推理等。文章提供了清晰的教學步驟,適合初學者閱讀。
Thumbnail
這篇教學介紹如何進行中文語音訓練,包括準備素材、GPT-SoVITS安裝步驟、音頻切割、字幕打標和推理等。文章提供了清晰的教學步驟,適合初學者閱讀。
Thumbnail
  我們在語音初探篇提到TTS的流程可以分成三個部分 :輸入前處理、預測音訊特徵、語音重建,其中輸入前處理的部分上兩篇已經處理完,在進入預測音訊特徵前,讓我們先來理解最後的語音重建部分。
Thumbnail
  我們在語音初探篇提到TTS的流程可以分成三個部分 :輸入前處理、預測音訊特徵、語音重建,其中輸入前處理的部分上兩篇已經處理完,在進入預測音訊特徵前,讓我們先來理解最後的語音重建部分。
Thumbnail
長期以來,西方美學以《維特魯威人》式的幾何比例定義「完美身體」,這種視覺標準無形中成為殖民擴張與種族分類的暴力工具。本文透過分析奈及利亞編舞家庫德斯.奧尼奎庫的舞作《轉轉生》,探討當代非洲舞蹈如何跳脫「標本式」的文化觀看。
Thumbnail
長期以來,西方美學以《維特魯威人》式的幾何比例定義「完美身體」,這種視覺標準無形中成為殖民擴張與種族分類的暴力工具。本文透過分析奈及利亞編舞家庫德斯.奧尼奎庫的舞作《轉轉生》,探討當代非洲舞蹈如何跳脫「標本式」的文化觀看。
Thumbnail
若說易卜生的《玩偶之家》為 19 世紀的女性,開啟了一扇離家的窄門,那麼《海妲.蓋柏樂》展現的便是門後的窒息世界。本篇文章由劇場演員 Amily 執筆,同為熟稔文本的演員,亦是深刻體察制度縫隙的當代女性,此文所看見的不僅僅是崩壞前夕的最後發聲,更是女人被迫置於冷酷的制度之下,步步陷入無以言說的困境。
Thumbnail
若說易卜生的《玩偶之家》為 19 世紀的女性,開啟了一扇離家的窄門,那麼《海妲.蓋柏樂》展現的便是門後的窒息世界。本篇文章由劇場演員 Amily 執筆,同為熟稔文本的演員,亦是深刻體察制度縫隙的當代女性,此文所看見的不僅僅是崩壞前夕的最後發聲,更是女人被迫置於冷酷的制度之下,步步陷入無以言說的困境。
Thumbnail
我們前面幾篇已經講完TTS技術的一大半架構了,知道了如何將聲學特徵重建回音訊波形,也從中可以知道要是聲學特徵不完善,最終取得的結果也會不自然,剩下要探討該如何將文字轉換成聲學特徵,且能夠自然地表現停頓及細節變化,讓我們開始吧。
Thumbnail
我們前面幾篇已經講完TTS技術的一大半架構了,知道了如何將聲學特徵重建回音訊波形,也從中可以知道要是聲學特徵不完善,最終取得的結果也會不自然,剩下要探討該如何將文字轉換成聲學特徵,且能夠自然地表現停頓及細節變化,讓我們開始吧。
Thumbnail
這篇文章介紹臺語語詞聽寫軟體,包括聽例句寫語詞和聽語詞來練拼音的。功能有選擇漢字+拼音抑是干焦拼音的練習方式,以及白話字抑臺羅的選擇。透過對答案,使用者能即時瞭解自己的練習結果。使用方式、適用對象以及認證適用性都有詳細介紹。兩個網站提供真有效率的學習方法,幫助學習者提升臺語的聽寫能力。
Thumbnail
這篇文章介紹臺語語詞聽寫軟體,包括聽例句寫語詞和聽語詞來練拼音的。功能有選擇漢字+拼音抑是干焦拼音的練習方式,以及白話字抑臺羅的選擇。透過對答案,使用者能即時瞭解自己的練習結果。使用方式、適用對象以及認證適用性都有詳細介紹。兩個網站提供真有效率的學習方法,幫助學習者提升臺語的聽寫能力。
Thumbnail
「人工智障計畫」也執行了好一段時間了,關於這個專案中文字轉語音的方案,在之前的筆記中也有稍微提到,為了達成能自訂聲線,並且能完全離線運作兩個條件,我已經做過了不少嘗試。
Thumbnail
「人工智障計畫」也執行了好一段時間了,關於這個專案中文字轉語音的方案,在之前的筆記中也有稍微提到,為了達成能自訂聲線,並且能完全離線運作兩個條件,我已經做過了不少嘗試。
Thumbnail
上篇我們簡單的了解了 TTS 想要達到的目標,但是對於訓練資料的處理、網路架構、損失函數、輸出分析等考慮到篇幅尚未解釋清楚,這篇將針對訓練資料處理中的文字部分進行詳細說明,讓我們開始吧。
Thumbnail
上篇我們簡單的了解了 TTS 想要達到的目標,但是對於訓練資料的處理、網路架構、損失函數、輸出分析等考慮到篇幅尚未解釋清楚,這篇將針對訓練資料處理中的文字部分進行詳細說明,讓我們開始吧。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News