付費限定

8個專家小模型勝過ChatGPT3，SMoE論文導讀 for Mixtral-8x7B

2023/12/27 更新2023/12/26 發佈閱讀 7 分鐘

知名的 Mistral AI 團隊近期丟出了使用 SMOE技術搭建的Mixtral-8x7B，能用較小的運算資源與參數量，打敗ChatGPT3的考試成績。本文藉由兩篇SMoE論文的導讀，抽取其中的核心概念，試圖打開這項技術的神秘面紗。

SMOE研究動機:

Transformer模型距離"完美"還有一段距離，而這段距離目前看起來最有可能用 SMoE (Sparse Mixture-of-Experts) 稀疏混和專家技術來進行彌補，SMoE改良方法基於以下痛點進行改良，每一項都戳到Transformer的死穴。

Transformer模型訓練非常容易Over-fitting，訓練資料集需要高度的"質/量"
Transformer模型參數訓練後會有過多的冗餘重複的部分，無法充分利用
Transformer MLP部分有大量的參數需要調整，訓練計算複雜度巨大
Transformer 訓練與推論耗費大量的記憶體資源

Transformer大模型，參數自由度很高，矩陣Rank數目很高，訓練時會產生參數具有大量的冗餘，容易造成模型理解崩潰的結果(Over-fitting) 。現在的解法就是利用大量且多樣性高的訓練資料集來訓練，多數大語言模型看過的文本數量遠遠超過人類一生的閱讀量，需要上千個GPU小時，才有辦法完成Pretrained model的訓練，結果令人豔，成果"非常有效"但十分"沒有效率"。

SMOE核心理念:

降低Transformer 裡面MLP的維度 / Rank 數 / 與參數量，用多個MLP多層感知層 + 路由層，來組成和原本參數一樣多的大模型。顯而易見的好處是可以藉由路由層的開關來控制學習任務所需要的參數量，達成高度具有自我調整性(self-slimmable)模型。

配合SMoE獨特的訓練方法，如SMoE-Dropout降低模型理解崩潰的可能性，推論時也有路由可以僅使用前K個最高關聯的專家產生結果，可大幅降低計算量。

甚至可統計每個專家參數被路由選到的頻率，將被使用頻率較少的參數與頻率較高的參數進行參數壓縮，獲得參數量更低，運算複雜度更低的SoTA (State-of-the-art)模型。

SMOE論文手法:

以下統整最近兩篇關於SMOE的論文手法:

以行動支持創作者！付費即可解鎖

本篇內容共 3109 字、0 則留言，僅發佈於人工智慧宇宙你目前無法檢視以下內容，可能因為尚未登入，或沒有該房間的查看權限。

無限智慧學院的沙龍人工智慧宇宙AI論文詳解

留言

無限智慧學院的沙龍

96會員

128內容數

帶你用上帝視角，針對市面上具有高度價值的影片/論文/書籍，用東方取象，與西方邏輯辯證的角度同時出發，跟著我一起來探討宇宙萬事萬物的本質，隨時隨地都可以來一場說走就走的思維旅行。作者在台積電 / 聯發科等科技產業有累計10年的資歷，近期對於人工智慧，東方易經，西方辯證邏輯，還有佛法向內求有深度興趣。

無限智慧學院的沙龍的其他內容

2024/02/28

Mask-LM 生成影片能力趨近完美 with MAGVIT-V2 by Google & CMU Yu et al.

這次要介紹的這篇，使用Mask-LM的生成方式，可以達到最頂尖的FID/FVD分數，取得超越Diffusion Model的生成品質，並兼顧了生成速度，讓我們一起從MAGVIT開始，逐步理解到MAGVIT-V2，相信能讓對於最新影像生成領域有興趣的讀者，感到收穫滿滿。

2024/02/28

Mask-LM 生成影片能力趨近完美 with MAGVIT-V2 by Google & CMU Yu et al.

2024/02/20

快速準確AI預測全球天氣 with GraphCast by Google Research Lam et al.

對於天氣的精密掌握，不僅得以改善各種生存條件，還能藉此訂定各種軍事策略，對於各種地緣政治紛爭的此刻，有其重大意義，於是各國對於快速準確的天氣預測技術，皆十分有興趣。本文介紹Google Research 的研究利用AI來預測天氣，誤差可以勝過傳統超級計算機的估算，讓我們一起看看是怎麼做到的。

2024/02/20

快速準確AI預測全球天氣 with GraphCast by Google Research Lam et al.

2024/02/10

緊湊型神經網路壓縮技術 for NeRF by Nvidia Takikawa et al.

隨著生成式AI不斷的推陳出新，對於能有效壓縮這些豐富且大量內容的技術，變得至關重要，影響著傳輸速度與執行速度，本文的壓縮架構，能夠有效地做成專用IC，在同樣的畫質水準下，甚至能夠達成JPEG 1/3的壓縮後容量，此方法可應用在各種3D NeRF生成作品上面，各種VR與3D生成技術都必然會用到。

2024/02/10

緊湊型神經網路壓縮技術 for NeRF by Nvidia Takikawa et al.

看更多

你可能也想看

朵小芸的草味沙龍

SLM是什麼？探索小型語言模型的未來趨勢

在AI時代中，GPT技術正在改變我們的生活。然而，SLM（小型語言模型）也開始受到關注，具有更高的效率、更低的資源消耗和更快的響應速度。這篇文章將討論LLM和SLM的比較、SLM的應用場景以及未來的發展趨勢。

2024/06/06

2024/06/06

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo

#AI#ai#PromptEngineering

2024/07/10

Learn AI 不 BI

AI說書 - 從0開始 - 82

#AI#ai#PromptEngineering

2024/07/10

無限智慧學院的沙龍

需時間驗證的Transformer挑戰者，Mamba (Albert Gu & Tri Dao)

本篇文章為大家導讀近日火熱的Mamba Paper，新聞標題說它是Transformer的繼任者，是否真是如此? 讓我們一起一探究竟，本文著重介紹論文前半部分。

#Mamba#FlashAttention#SSMs

2023/12/12

無限智慧學院的沙龍

需時間驗證的Transformer挑戰者，Mamba (Albert Gu & Tri Dao)

本篇文章為大家導讀近日火熱的Mamba Paper，新聞標題說它是Transformer的繼任者，是否真是如此? 讓我們一起一探究竟，本文著重介紹論文前半部分。

#Mamba#FlashAttention#SSMs

2023/12/12

釀電影，啜一口電影的美好。

吃完飯後再談道德，除魅之後再復魅：巴里．柯斯基與柏林劇團的《三便士歌劇》

全新版本的《三便士歌劇》如何不落入「復刻經典」的巢臼，反而利用華麗的秀場視覺，引導觀眾在晚期資本主義的消費愉悅之中，而能驚覺「批判」本身亦可能被收編——而當絞繩升起，這場關於如何生存的黑色遊戲，又將帶領新時代的我們走向何種後現代的自我解構？

#2026北藝嚴選#BarrieKosky#BerlinerEnsemble

2026/03/10

釀電影，啜一口電影的美好。

吃完飯後再談道德，除魅之後再復魅：巴里．柯斯基與柏林劇團的《三便士歌劇》

#2026北藝嚴選#BarrieKosky#BerlinerEnsemble

2026/03/10

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：一場跨越時空的藝術對話，在舞臺上重現自由靈魂

本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇：帕拉贊諾夫的十段殘篇》，如何以十段殘篇，結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭，探討藝術在儀式消失的現代社會如何承接意義，並展現不羈的自由靈魂。

#釀電影#釀評論#藝術評論

2026/02/11

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：一場跨越時空的藝術對話，在舞臺上重現自由靈魂

#釀電影#釀評論#藝術評論

2026/02/11

Learn AI 不 BI

AI說書 - 從0開始 - 128 | Transformer 和 BERT 模型參數比較

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在 AI說書 - 從0開始 - 127 中提及： Transformer 的關鍵參數為：原始 Transformer 模型中，左圖的 N = 6 原始 Tran

#AI#ai#PromptEngineering

2024/08/12

Learn AI 不 BI

AI說書 - 從0開始 - 128 | Transformer 和 BERT 模型參數比較

#AI#ai#PromptEngineering

2024/08/12

Learn AI 不 BI

AI說書 - 從0開始 - 111 | Smoothing 方法

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧我們在 AI說書 - 從0開始 - 110，介紹了 BLEU 使用方法與公式，現在我們再跑一個例子： #Example 3 reference = [['the

#AI#ai#PromptEngineering

2024/08/02

Learn AI 不 BI

AI說書 - 從0開始 - 111 | Smoothing 方法

#AI#ai#PromptEngineering

2024/08/02

Everything ✨

AI 模型的進化｜從大型語言模型LLM 到多模態模型LMM

大型語言模型(LLM)是基於深度學習的自然語言處理模型，而多模態模型(LMM)能處理多種資料型態。這些模型將對未來帶來重大改變。LLM 專注於理解和生成自然語言，LMM 能夠處理跨模態的內容，並整合多種資料的能力，有望成為未來趨勢。

#ChatGPT#AI#人工智慧

2024/02/24

Everything ✨

AI 模型的進化｜從大型語言模型LLM 到多模態模型LMM

#ChatGPT#AI#人工智慧

2024/02/24

趙鐸的沙龍

《轉轉生 Re:INCARNATION》：釋放差異的身體裂縫

長期以來，西方美學以《維特魯威人》式的幾何比例定義「完美身體」，這種視覺標準無形中成為殖民擴張與種族分類的暴力工具。本文透過分析奈及利亞編舞家庫德斯．奧尼奎庫的舞作《轉轉生》，探討當代非洲舞蹈如何跳脫「標本式」的文化觀看。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/28

趙鐸的沙龍

《轉轉生 Re:INCARNATION》：釋放差異的身體裂縫

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/28

Amily的沙龍

在理解與拒絕之間：從多重身分觀看《海妲．蓋柏樂》

若說易卜生的《玩偶之家》為 19 世紀的女性，開啟了一扇離家的窄門，那麼《海妲．蓋柏樂》展現的便是門後的窒息世界。本篇文章由劇場演員 Amily 執筆，同為熟稔文本的演員，亦是深刻體察制度縫隙的當代女性，此文所看見的不僅僅是崩壞前夕的最後發聲，更是女人被迫置於冷酷的制度之下，步步陷入無以言說的困境。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/28