小米開源 Xiaomi-MiMo-Audio：首個端到端語音大模型，顛覆語音 AI 的新時代

發佈於中國等個房間

2025/09/19 更新2025/09/19 發佈閱讀 7 分鐘

你好，我是 Mech Muse。今天要帶大家追一條最新的科技新聞：小米在 2025 年 9 月 19 日正式開源了它的首個原生端到端語音大模型 Xiaomi-MiMo-Audio。這不是單純的「小米又發表了一個 AI」，而是可能改變整個語音 AI 生態的事件。本文會帶你了解：

小米這次到底發表了什麼？
它的技術突破在哪裡？
與 Google、OpenAI 等巨頭相比，表現如何？
未來我們會在哪些場景遇到這個模型？

準備好了嗎？讓我們用輕鬆的方式來解析這場「聲音革命」。

小米語音大模型發布：新聞事件與核心亮點

在 2025 年 9 月 19 日，小米正式宣布開源 Xiaomi-MiMo-Audio，這是一個基於 Transformer 架構、擁有 12 億參數（1.2B） 的語音大模型。

這個模型的訓練規模相當驚人——小米表示，它使用了 上億小時（hundreds of millions of hours） 的無標注語音數據進行預訓練。換句話說，它聽過的聲音，比我們人生中能聽的所有音樂、對話、廣播加起來還要多。

核心功能包括：

音頻重建：能夠還原甚至修復音頻訊號。
語音轉文字（Speech-to-Text）：更準確的語音識別。
語音理解與對話交互：讓 AI 更懂你的語音意圖。

更特別的是，小米並非只開源模型權重，還同步釋出了 無損壓縮的音頻 Tokenizer、模型結構、訓練方法與完整評測體系。這就好比不是只送你一部車，而是把設計圖、引擎製造流程，甚至測試方法都分享出來。

📍 Mech Muse 觀點 小米的這次發布，不僅是「有了一個新的語音模型」，更是一種戰略動作。開源意味著他們不只要自己玩，還要拉整個生態圈一起推進。這對學術研究者、開發者來說都是一大利多。

技術解析：ICL、涌現與開源設計

如果說新聞發布是舞台上的煙火，那麼技術細節就是煙火背後的火藥配方。這次 Xiaomi-MiMo-Audio 帶來的幾個亮點特別值得注意：

1. In-Context Learning（ICL）在語音領域的突破

過去的語音模型，要學會一個新任務（例如從電話語音中辨識口音），往往需要大量標注數據。但 Xiaomi-MiMo-Audio 引入了 上下文學習（ICL） 能力，意味著它可以用很少的樣本，就能快速適應新的語音任務。

就像是你請朋友幫忙唱卡拉 OK，只要先哼兩句，他就能立刻抓到旋律並跟上。

2. 涌現行為（Emergent Behaviour）

小米在報告中指出，他們在模型訓練過程中觀察到明顯的「涌現行為」。這是 AI 領域的一個熱詞，意思是隨著模型規模與數據量的增長，會自然出現一些設計時沒預料到的能力。

對語音來說，這可能包括：

能自動處理不同口音
在嘈雜環境中依然辨識語音
自主學會一些語音轉換的技巧

這就像養一個小孩，原本只教他說話，結果他自己學會了唱歌。

3. 開源設計與完整生態

Xiaomi-MiMo-Audio 不只釋出模型，還完整開源了：

無損壓縮 Tokenizer：保持音質同時降低計算成本。
模型架構：基於 Transformer，支援多模態擴展。
訓練方法與評測體系：方便其他人驗證與改進。

📍 Mech Muse 觀點 這讓我想到開放樂譜的概念——你不只是給別人聽歌，而是把樂譜、伴奏、甚至錄音軟體都送出去。這種做法，往往能激發更多創意與應用。

與 Google、OpenAI 的對比：性能與競爭力

很多人會問：「小米的這個模型，到底能不能打？」

答案是：至少在公開數據上，它很有看頭。

根據小米公布的測試結果：

在 MMAU（多模態音頻理解） 測試中，Xiaomi-MiMo-Audio 表現超越了 Google Gemini-2.5-Flash。
在 Big Bench Audio S2T（音頻轉文字） 任務上，甚至超過了 OpenAI GPT-4o-Audio-Preview。

換句話說，這不是單純的「開源玩具」，而是真的能跟國際頂尖模型掰手腕。

不過，我們要冷靜一下。這些測試結果雖然漂亮，但仍有幾個問題需要釐清：

測試語言主要是中文，還是涵蓋多語言？
真實場景中的穩定度如何（例如地鐵、餐廳環境）？
推理效率能不能適合手機端運行？

📍 Mech Muse 觀點 我認為小米的優勢不一定是在「全面性能超越 Google、OpenAI」，而是在 中文語音場景 和 硬體生態整合 上。畢竟小米有手機、智慧家居，甚至汽車，這些裝置都可能成為 Xiaomi-MiMo-Audio 的落地場域。

應用與挑戰：語音 AI 的下一步

1. 應用場景

智慧助手升級：小愛同學將不再只是「接收指令」，而是能跟你對話、理解情感。
即時翻譯：跨語言會議、旅行翻譯器。
多模態互動：結合視覺 AI，讓語音助理「看得懂，也聽得懂」。
無障礙應用：幫助聽障人士進行更自然的語音交流。

2. 面臨挑戰

隱私問題：語音數據涉及個人身份與習慣，如何保護？
安全風險：語音 Deepfake 的濫用可能更容易。
資源成本：端到端大模型的計算需求高，是否能真正落地在手機或 IoT 裝置？

📍 Mech Muse 觀點 我覺得這場「語音大模型之戰」就像一場樂團競賽。小米這次拿出的是一把新的樂器——它的聲音夠響亮，但要真正進入主流舞台，還需要解決音質、耐用度，以及如何與其他樂手（應用生態）合奏的問題。

結尾

總結來說，小米這次開源 Xiaomi-MiMo-Audio，不只是科技新聞的一則，而是語音 AI 發展的一個重要里程碑。它展示了：

語音大模型可以具備 ICL 能力，擺脫對大量標注數據的依賴。
開源能推動整個生態加速進步。
在中文場景與硬體整合上，中國廠商有機會走出差異化道路。

未來我們可能會在小米的手機、汽車、智慧家居裡，逐漸體驗到更自然的語音互動。

如果你也對 AI 語音的未來感興趣，別忘了追蹤我——Mech Muse。我會繼續用最輕鬆的方式，陪你聊最新的科技趨勢。

Mech muse 智慧新知小型核能 x 太空科技Mech muse 智慧新知中國

留言

Mech muse 智慧新知

64會員

885內容數

因為喜歡分享科技新知，所以創立這個部落格，目前主要分享人型機器人，偶爾分享一些AI、小型核能的最新趨勢，讓你即時掌握最新消息。聯絡我：[email protected]

Mech muse 智慧新知的其他內容

2025/09/18

🌏中國小型核能SMR大突破：從「玲瓏一號」到釷基熔鹽反應爐，未來能源新棋局

中國正在加速推進小型模組化核能反應爐（SMR），從即將落地的「玲瓏一號」到已商轉的高溫氣冷堆，再到前沿的釷基熔鹽實驗堆，正重新定義核能的未來。讀完這篇文章，你將了解中國如何透過SMR搶佔全球能源新賽局，以及這對能源轉型與減碳的啟示。

2025/09/18

🌏中國小型核能SMR大突破：從「玲瓏一號」到釷基熔鹽反應爐，未來能源新棋局

2025/09/17

🎶 全球首支人形機器人樂隊誕生！從「超人樂隊」看超能機器人的科技野心與未來應用

在長沙「2025 互聯網嶽麓大會」上，全球首支人形機器人樂隊「超人樂隊」驚艷登場！本文帶你了解它的技術亮點、幕後推手超能機器人公司、未來應用場景，以及人形機器人如何走上文化舞台。讀完，你將知道：機器人不只會工作，還能跟你合奏一首歌！ 🎶🤖

2025/09/17

🎶 全球首支人形機器人樂隊誕生！從「超人樂隊」看超能機器人的科技野心與未來應用

2025/09/15

阿里巴巴注資 X Square Robot：加速具身 AI 與人形機器人的全球賽局 🤖💰

阿里巴巴豪砸 1.4 億美元投資深圳新創 X Square Robot，押注具身 AI 與人形機器人未來。從開源模型 WALL-OSS 到 Quanta X2 機器人，他們想在三到五年內把價格壓到 1 萬美元，走進家庭與全球市場。這是一場資本、技術與未來生活方式的賽跑。

2025/09/15

阿里巴巴注資 X Square Robot：加速具身 AI 與人形機器人的全球賽局 🤖💰

#AI 的其他內容

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

好好宅在家

AI盛行下，我卻感受到「老派」設計的浪漫。

方格子 vocus 官方沙龍

【4月靈感產生器】TOP 100 關鍵字：「○○」格友最愛用

你可能也想看

Baozilla, Let's go!

20240729_TechNEws

蘋果跨入生成式AI的時間比對手晚，雖然該公司已開發出小型AI模型，但較複雜或特殊的任務，仍希望交由AI夥伴接手。蘋果軟體負責人Craig Federighi先前表示，該公司希望一開始就提供最優秀選項；ChatGPT是蘋果用戶當今的最佳選擇。他並說，蘋果也想整合Google AI模型「Gemini」

2024/07/29

2024/07/29

蘋果發表會已經大概講述全新的系統主要就是Apple Intelligence 全新的個人智慧系統總結就是AI的輔助可以讓生活想像擴大到哪個階段就是市場的共鳴這次第二季收尾的題材也就是蘋果手機的AI功能想像 2022~2024第一季都是摺疊手機的想像,主要是成長性爆發最容易算數學,這

2024/06/10

2024/06/10

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

背景：從冷門配角到市場主線，算力與電力被重新定價小P從2008進入股市，每一個時期的投資亮點都不同，記得2009蘋果手機剛上市，當時蘋果只要在媒體上提到哪一間供應鏈，隔天股價就有驚人的表現，當時光學鏡頭非常熱門，因為手機第一次搭上鏡頭可以拍照，也造就傳統相機廠的殞落，如今手機已經全面普及，題

#AI#算力#電力

2026/04/11

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

#AI#算力#電力

2026/04/11

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

這是一場修復文化與重建精神的儀式，觀眾不需要完全看懂《遊林驚夢：巧遇Hagay》，但你能感受心與土地團聚的渴望，也不急著在此處釐清或定義什麼，但你的在場感受，就是一條線索，關於如何找著自己的路徑、自己的聲音。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11