Meta Muse Spark ：棄守開源？150億美元重塑超級智慧

2026/04/10 更新2026/04/10 發佈閱讀 10 分鐘

回顧過去，Meta 曾經是開源模型的最大推手，其 Llama 系列一度成為開發者社群的標準配備。然而，Llama 4 的發布過程遭遇了不少波折，市場評價褒貶不一，這使得Mark Zuckerberg決定在2025年夏季進行一場史無前例的內部戰略重組。

Meta 不惜斥資超過 143 億美元的鉅資入股 Scale AI，並成功延攬創辦人 Alexandr Wang 擔任首席 AI 總監，更成立了全新的「超級智慧實驗室」(Meta Superintelligence Labs，簡稱 MSL)。在沉寂了整整九個月後，Meta 終於交出了這支頂尖團隊的首個心血結晶：全新自研多模態推理模型 Muse Spark。

砍掉重練的九個月與技術解密

Meta 這次在 Muse Spark 的開發上，展現了極高的工程嚴謹度與不計成本的投入。

原生多模態與視覺思維鏈

傳統的多模態模型往往是「拼湊」出來的：先用一個視覺模型將圖片轉化為文字標籤，再交由語言模型進行處理。這種做法會流失大量的細節。Muse Spark 則是真正的「原生多模態推理模型」。它在預訓練階段就同時接收並理解文字、圖像與環境資訊。

更關鍵的是其具備「視覺思維鏈」(Visual Chain of Thought) 的能力。這意味著當 Muse Spark 看到一張圖片時，它不會只給出一個單一的分類結果，而是能夠像人類一樣進行多步驟的視覺推理。例如，當用戶戴著 Ray-Ban 智慧眼鏡看著超市貨架上的多款零食時，Muse Spark 能夠先辨識出所有商品，接著分別讀取它們背後的營養標示，最後進行數學換算，找出蛋白質含量最高且熱量最低的選項。這種能力的展現，標誌著 AI 已經從單純的「識別工具」進化為「決策輔助系統」。

三大技術軸心：預訓練、強化學習與測試時推理

Meta 在官方技術文件中詳細說明了 Muse Spark 效能爆發的三個核心階段。

首先是預訓練 (Pretraining)。根據官方測試，Muse Spark 在達到與前代 Llama 4 相同的效能水平時，所消耗的運算資源 (FLOPs) 竟然少了整整一個數量級。這顯示了 MSL 團隊在底層架構設計上的卓越功力，使得這款模型具備了極高的運算效率。

其次是強化學習 (Reinforcement Learning) 與思想壓縮 (Thought Compression)。在傳統的強化學習中，模型如果答對了複雜的數學題就會獲得獎勵，這往往導致模型養成「長篇大論」的壞習慣，浪費了大量的輸出 Token。為了徹底解決這個問題，Meta 導入了「思考時間懲罰」機制。

這產生了一個非常有趣的相變過程 (Phase Transition)：在訓練初期，模型會為了提高正確率而拼命延長思考步驟；當長度懲罰機制介入後，模型被迫開始「壓縮」它的邏輯推導，尋找最簡潔的解題捷徑；最後，模型會在極致的簡潔與高正確率之間找到一個完美的動態平衡。這種思想壓縮技術，讓 Muse Spark 能夠用極少的算力資源完成高難度的科學推理。

最後是測試時推理 (Test-Time Reasoning) 與多代理協作。這是專門為 Contemplating (沉思) 模式設計的殺手鐧。當面臨極度複雜的任務時，Muse Spark 會在內部啟動多個子代理 (Sub-agents) 進行平行運算。舉例來說，當用戶要求規劃一趟前往日本的自助旅行時，系統不會只用單一執行緒去搜尋資料，而是同時派出一個代理去比對各大航空公司的機票價格，另一個代理去爬取當地的特色住宿，第三個代理去安排每日的交通動線。最終，主模型會將這些平行處理的資訊聚合，給出一份完美的企劃書。這讓 AI 的運作模式更加接近人類專業團隊的分工合作。

測試數據的真相：進步神速，但仍有缺點

在 Artificial Analysis 公布的最新資料中，Muse Spark 一舉拿下了 52 分，與前代 Llama 4 僅有 18 分的窘境形成強烈對比。它在具挑戰性的Humanity's Last Exam 中取得了 58% 的佳績，在前沿科學研究 (FrontierScience Research) 中也達到了 38%。

然而，理性的數據分析告訴我們，Muse Spark 並非完美無缺。Meta 在技術文件中坦誠模型在某些特定領域的缺點。在需要高度抽象空間理解的 ARC-AGI-2 測試中，Muse Spark 的得分僅有 42.5，遠落後於 GPT-5.4 與 Gemini 3.1 Pro 的 70 多分。更重要的是，在評估純終端機操作與自主程式開發能力的 Terminal-Bench 2.0 測試中，Muse Spark 的 59.0 分也大幅落後於對手的 75.1 分。

Muse Spark 可說是被設計為一個服務普羅大眾的「個人超級智慧」，它的強項在於理解日常圖像、健康數據分析與跨語言溝通。它並非為了解代碼 Bug 或是執行全自動化軟體工程而生。Meta 非常清楚自己的主戰場在哪裡，他們選擇將資源全數投入到能為數十億社群用戶帶來直接價值的領域。

Introducing Muse Spark: Scaling Towards Personal Superintelligence

放棄開源、全面擁抱自身生態系的決策

從社群媒體到「超級個人助理」：重塑數位廣告邏輯

過去十年，我們的數位生活是建立在「搜尋」與「滑動動態消息」之上的。當 Muse Spark 被深度整合進 WhatsApp、Instagram 與 Messenger 後，這個邏輯將被徹底顛覆。使用者不再需要跳出聊天視窗去開啟搜尋引擎。

這將直接衝擊現有的電商與數位廣告產業。Meta 已經預告將導入「購物模式」，這個模式會整合 IG 上的創作者內容與品牌故事，為用戶提供個人化的決策建議。未來的消費者可能只會對著手機說：「幫我找一件適合下週去海邊玩、且符合我平常穿搭風格的洋裝，預算在兩千元以內」。此時，Muse Spark 會綜合分析用戶過去按讚的貼文、常看的創作者風格，直接在對話框中給出三套搭配建議。對於品牌行銷人員來說，未來的戰場將從「搜尋引擎最佳化」轉向「人工智慧最佳化」。

醫療健康助理的普及與硬體的完美結合

醫療領域一直是 AI 應用中門檻最高、風險也最大的板塊。Meta 這次他們與超過一千位專業醫師合作，對 Muse Spark 的訓練資料進行了極度嚴格的審查與精煉。

這種對醫療專業知識的重金投資，將透過 Ray-Ban 智慧眼鏡發揮最大的效益。想像一個場景：一位糖尿病患者戴著智慧眼鏡坐在餐廳裡，他只需要看著菜單，Muse Spark 就能立即透過語音提醒他哪幾道菜的升糖指數過高，並給出替代建議。由於模型具備高準確性與強大的拒絕防護網 (能主動擋下危險或不實的醫療建議)，這套系統將有機會成為全球數百萬人貼身的健康管理師，也替未來 Meta 在穿戴式裝置的市占率開始建構護城河。

閉源策略對開發者生態的衝擊

Muse Spark 的問世，正式宣告 Meta 暫時擱置了過往完全開源的模型路線。目前，這項技術僅開放「私有 API 預覽版」給少數特邀的企業合作夥伴。這一轉變無疑會讓習慣依賴 Llama 系列開源權重進行二次開發的開源社群感到失落。

但從商業角度來看，這是 Meta 保護其 150 億美元投資的必然舉措。當模型的研發成本動輒高達百億美元時，繼續無償提供給競爭對手或新創公司使用已經不再符合股東利益。Meta 的策略非常明確：將最頂級的智慧能力鎖在自己的應用程式內，透過提供更好的使用者體驗來增加用戶黏著度，進而賺取更多的廣告與訂閱收入。

TN科技筆記的觀點

Meta 這次採取了「情境與通路的打擊策略」。當一個智商 150 但你必須特地打開網頁、APP、登入帳號才能跟它對話的 AI，與一個智商 120 但它已經住在你的社群軟體裡、知道你最好的朋友是誰、看過你昨天的晚餐照片、還能直接幫你訂餐廳的 AI，哪一個對普通人的價值更高？答案或許是後者。Meta 擁有全球三十億的月活躍用戶，這就是他們最大的護城河。Muse Spark 放棄在終端機寫程式的競賽，轉而極致優化視覺理解與醫療健康，這是一個聰明的戰略收斂，就讓我們拭目以待後續帶來的效果吧！

支持TN科技筆記，與科技共同前行

我是TN科技筆記，如果喜歡這篇文章，歡迎留言、點選愛心、轉發給我支持鼓勵～～～也歡迎每個月請我喝杯咖啡，鼓勵我撰寫更多科技文章，一起跟著科技浪潮前進！！>>>>> 請我喝一杯咖啡

在此也感謝每個月持續請我喝杯咖啡的讀者以及新加入的讀者們，讓我更加有動力為各位帶來科技新知！

以下是我的 threads 也歡迎追蹤、回覆、轉發喔！

>>>>> TN科技筆記(TechNotes)

TN科技筆記(TechNotes)的沙龍科技領域筆記

留言

TN科技筆記(TechNotes)的沙龍

72會員

242內容數

大家好，我是TN，喜歡分享科技領域相關資訊，希望各位不吝支持與交流！

TN科技筆記(TechNotes)的沙龍的其他內容

2026/04/06

Google開源模型Gemma 4：架構設計、多模態能力與Agent代理實踐

Google 正式推出 Gemma 4 開源模型，支援 Apache 2.0 授權。本文深度解析 E2B、E4B、26B MoE 與 31B 模型的底層架構、多模態影像音訊處理能力，以及強大的 Agent 代理工作流，帶你掌握邊緣運算與 AI 開發的最新趨勢。

2026/04/06

Google開源模型Gemma 4：架構設計、多模態能力與Agent代理實踐

2026/04/03

微軟 Copilot Researcher：Critique 與 Council 雙架構如何重塑知識工作流？

微軟最新發布 Copilot Researcher 的多模型 AI 架構。透過 Critique 審核機制與 Council 多模型協作模式，大幅提升 AI 深度研究的準確度與廣度。解析 DRACO 測試與技術亮點，了解 AI 如何成為可靠的決策幕僚。

2026/04/03

微軟 Copilot Researcher：Critique 與 Council 雙架構如何重塑知識工作流？

2026/04/01

Andrej Karpathy 訪談：從自動化研究到 AI Agent，工程師與科技產業的未來走向

Andrej Karpathy 分享他如何利用 AI Agent 改變開發模式。本文深入解析 AutoResearch 自動化研究、軟體開發職缺趨勢、開源模型價值，以及 AI 能力參差不齊帶來的挑戰。

2026/04/01

Andrej Karpathy 訪談：從自動化研究到 AI Agent，工程師與科技產業的未來走向

#AI 的其他內容

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

好好宅在家

AI盛行下，我卻感受到「老派」設計的浪漫。

方格子 vocus 官方沙龍

【4月靈感產生器】TOP 100 關鍵字：「○○」格友最愛用

你可能也想看

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11