MoE模型 - 參數達1 兆,推理成本低

更新 發佈閱讀 7 分鐘

這是很多最新大模型的核心技術,用直觀 + 技術結構解釋目前很多大型模型使用的架構:Mixture of Experts(MoE)。這種架構讓模型可以做到超大參數量,但推理成本卻沒有等比例增加


一、什麼是 Mixture of Experts(MoE)

MoE 的概念是:

不是每個神經網路都參與計算,而是只啟動少數「專家」。

概念圖:

</>Plain text
輸入問題


Gate Router(路由器)

├── Expert 1
├── Expert 2
├── Expert 3
├── Expert 4
└── Expert N

Router 只選 幾個最適合的 expert

例如:

</>Plain text
只啟動 Expert 3 和 Expert 7

二、為何 MoE 能做到超大模型

假設一個模型:

</>Plain text
64 個 experts每個 10B 參數

總參數:

</>Plain text
640B

但推理時:

</>Plain text
只用 2 個 expert

計算量:

</>Plain text
20B

因此:

vocus|新世代的創作平台

這就是 MoE 的魔法。


三、MoE 的核心元件

1️⃣ Router(Gate)

Router 是一個小神經網路:

</>Plain text
input → linear layer → softmax

輸出:

</>Plain text
每個 expert 的權重

例如:

</>Plain text
Expert1: 0.01Expert2: 0.02Expert3: 0.60Expert4: 0.30

只選 top-k

</>Plain text
Expert3 + Expert4

2️⃣ Experts

Experts 本質是:

</>Plain text
Feed Forward Network (FFN)

Transformer block:

</>Plain text
Attention │ ▼MoE layer

取代原本的:

</>Plain text
Dense FFN

四、MoE Transformer 結構

普通 Transformer:

</>Plain text
Attention │Dense FFN

MoE Transformer:

</>Plain text
Attention │Router │Experts (多個)

這樣每層都可以有很多 experts。


五、為何 MoE 表現很好

原因有三個:

1️⃣ 專家分工

不同 expert 會專精不同領域:

例如:

</>Plain text
Expert 5 → 數學Expert 12 → 程式Expert 21 → 歷史

2️⃣ 容量巨大

總參數可以非常大。

例如:

</>Plain text
1T parameters

3️⃣ 計算成本低

因為只啟動少數 experts。


六、MoE 的實際模型

一些知名模型使用 MoE:

vocus|新世代的創作平台

例如 Mixtral:

</>Plain text
8 experts每 token 啟動 2

七、MoE 的缺點

MoE 也有問題。

1️⃣ Load imbalance

可能某些 experts 被過度使用:

</>Plain text
Expert3 → 80% tokens

其他 expert 閒置。

所以訓練時要加:

</>Plain text
load balancing loss

2️⃣ 分散式訓練困難

Experts 通常分布在不同 GPU:

</>Plain text
GPU1 → Expert1GPU2 → Expert2GPU3 → Expert3

需要高速網路。


3️⃣ latency

token 需要路由到不同 GPU。


八、MoE 的計算流程

一個 token:

</>Plain text
Token embedding


Attention


Router

├── Expert A
└── Expert B


Combine


下一層

九、為何 MoE 越來越流行

原因:

Dense 模型 scaling 越來越貴。

例如:

</>Plain text
70B → 175B → 1T

成本爆炸。

MoE 可以:

</>Plain text
計算成本 ≈ 小模型能力 ≈ 大模型

十、未來 AI 架構

現在很多研究方向:

</>Plain text
MoE + RAGMoE + Tool useMoE + Agents

甚至:

</>Plain text
Hierarchical MoE

多層專家系統。


十一、為什麼 MoE 對個人開發者重要

因為:

未來開源模型很可能都是 MoE。

例如:

  • 30B dense
  • 8x7B MoE

性能可能相近。


十二、簡單理解 MoE

可以把 MoE 想像成:

</>Plain text
一家大型醫院

病人來了:

</>Plain text
先掛號

系統判斷:

</>Plain text
心臟科骨科神經科

只找 對的醫生

這就是 Mixture of Experts


總結

MoE 的核心:

</>Plain text
很多專家但每次只用少數

所以:

</>Plain text
模型巨大成本可控




留言
avatar-img
sirius數字沙龍
16會員
405內容數
吃自助火鍋啦!不要客氣,想吃啥,請自行取用!
sirius數字沙龍的其他內容
2026/03/07
現在 AI 公司最常用的 dataset 技術: 「RAG + 微調」混合架構 它能讓小模型能力 提升 5~20 倍。 目前 AI 系統非常主流的一種架構:RAG + 微調(Fine-tuning)混合架構。很多公司都使用這種方法來打造專業 AI 助手,因為它能讓模型既有知識又能查最新資料。
Thumbnail
2026/03/07
現在 AI 公司最常用的 dataset 技術: 「RAG + 微調」混合架構 它能讓小模型能力 提升 5~20 倍。 目前 AI 系統非常主流的一種架構:RAG + 微調(Fine-tuning)混合架構。很多公司都使用這種方法來打造專業 AI 助手,因為它能讓模型既有知識又能查最新資料。
Thumbnail
2026/03/06
一步一步示範 Self-Instruct(自動生成訓練資料)的方法。 這是很多模型(如 OpenAI、Stanford University 研究團隊)提出並實際使用的技巧,可以用一個強模型自動生成大量資料,然後用來微調另一個模型。
Thumbnail
2026/03/06
一步一步示範 Self-Instruct(自動生成訓練資料)的方法。 這是很多模型(如 OpenAI、Stanford University 研究團隊)提出並實際使用的技巧,可以用一個強模型自動生成大量資料,然後用來微調另一個模型。
Thumbnail
2026/03/06
這是很多人自己做「私人 AI 助手 / 領域模型」的典型做法。整體分成:模型選擇 → 資料 → 訓練 → 推論部署。 一、硬體條件(RTX 4090) RTX 4090 VRAM:24GB FP16 算力:約 82 TFLOPS 適合:LoRA / QLoRA 微調 能訓練模型大小:
Thumbnail
2026/03/06
這是很多人自己做「私人 AI 助手 / 領域模型」的典型做法。整體分成:模型選擇 → 資料 → 訓練 → 推論部署。 一、硬體條件(RTX 4090) RTX 4090 VRAM:24GB FP16 算力:約 82 TFLOPS 適合:LoRA / QLoRA 微調 能訓練模型大小:
Thumbnail
看更多
你可能也想看
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
如果熟悉公報(如450號、501號、3000號)和基本概念,這題難度對有經驗或教材複習過的人算「中等偏易」關鍵在於條列清楚、分類明確、說明合理判斷即可。
Thumbnail
如果熟悉公報(如450號、501號、3000號)和基本概念,這題難度對有經驗或教材複習過的人算「中等偏易」關鍵在於條列清楚、分類明確、說明合理判斷即可。
Thumbnail
實施教育訓練當年度,這家通路的銷售額翻增300%,幫助法蘭克成為年度銷售冠軍。
Thumbnail
實施教育訓練當年度,這家通路的銷售額翻增300%,幫助法蘭克成為年度銷售冠軍。
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這篇文章是政大EMBA財務管理課程心得,以Guna Fibres案例闡述現金流的重要性,並探討資金成本、利率、舉債風險及全球利率聯動對企業和個人的影響。文章重點整理三大學習主軸:現金流、資金成本及全球市場變動,並提出反思與問題,鼓勵讀者思考個人財務管理及投資決策。
Thumbnail
這篇文章是政大EMBA財務管理課程心得,以Guna Fibres案例闡述現金流的重要性,並探討資金成本、利率、舉債風險及全球利率聯動對企業和個人的影響。文章重點整理三大學習主軸:現金流、資金成本及全球市場變動,並提出反思與問題,鼓勵讀者思考個人財務管理及投資決策。
Thumbnail
這週就要公布國內最新電價,傳出台電的提案是整體平均漲6%,產業電價不超過5%、民生用電比10%低。台電表示會照實將成本提交給電價審議會。
Thumbnail
這週就要公布國內最新電價,傳出台電的提案是整體平均漲6%,產業電價不超過5%、民生用電比10%低。台電表示會照實將成本提交給電價審議會。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News