MoE模型 - 參數達1 兆，推理成本低

JH Young

發佈於滴咕雞

2026/03/08 更新2026/03/08 發佈閱讀 7 分鐘

這是很多最新大模型的核心技術，用直觀 + 技術結構解釋目前很多大型模型使用的架構：Mixture of Experts（MoE）。這種架構讓模型可以做到超大參數量，但推理成本卻沒有等比例增加。

一、什麼是 Mixture of Experts（MoE）

MoE 的概念是：

不是每個神經網路都參與計算，而是只啟動少數「專家」。

概念圖：

</>Plain text
輸入問題
   │
   ▼
Gate Router（路由器）
   │
   ├── Expert 1
   ├── Expert 2
   ├── Expert 3
   ├── Expert 4
   └── Expert N

Router 只選 幾個最適合的 expert。

例如：

</>Plain text
只啟動 Expert 3 和 Expert 7

二、為何 MoE 能做到超大模型

假設一個模型：

</>Plain text
64 個 experts每個 10B 參數

總參數：

</>Plain text
640B

但推理時：

</>Plain text
只用 2 個 expert

計算量：

</>Plain text
20B

因此：

這就是 MoE 的魔法。

三、MoE 的核心元件

1️⃣ Router（Gate）

Router 是一個小神經網路：

</>Plain text
input → linear layer → softmax

輸出：

</>Plain text
每個 expert 的權重

例如：

</>Plain text
Expert1: 0.01Expert2: 0.02Expert3: 0.60Expert4: 0.30

只選 top-k：

</>Plain text
Expert3 + Expert4

2️⃣ Experts

Experts 本質是：

</>Plain text
Feed Forward Network (FFN)

Transformer block：

</>Plain text
Attention   │   ▼MoE layer

取代原本的：

</>Plain text
Dense FFN

四、MoE Transformer 結構

普通 Transformer：

</>Plain text
Attention   │Dense FFN

MoE Transformer：

</>Plain text
Attention   │Router   │Experts (多個)

這樣每層都可以有很多 experts。

五、為何 MoE 表現很好

原因有三個：

1️⃣ 專家分工

不同 expert 會專精不同領域：

例如：

</>Plain text
Expert 5 → 數學Expert 12 → 程式Expert 21 → 歷史

2️⃣ 容量巨大

總參數可以非常大。

例如：

</>Plain text
1T parameters

3️⃣ 計算成本低

因為只啟動少數 experts。

六、MoE 的實際模型

一些知名模型使用 MoE：

例如 Mixtral：

</>Plain text
8 experts每 token 啟動 2 個

七、MoE 的缺點

MoE 也有問題。

1️⃣ Load imbalance

可能某些 experts 被過度使用：

</>Plain text
Expert3 → 80% tokens

其他 expert 閒置。

所以訓練時要加：

</>Plain text
load balancing loss

2️⃣ 分散式訓練困難

Experts 通常分布在不同 GPU：

</>Plain text
GPU1 → Expert1GPU2 → Expert2GPU3 → Expert3

需要高速網路。

3️⃣ latency

token 需要路由到不同 GPU。

八、MoE 的計算流程

一個 token：

</>Plain text
Token embedding
      │
      ▼
Attention
      │
      ▼
Router
      │
      ├── Expert A
      └── Expert B
      │
      ▼
Combine
      │
      ▼
下一層

九、為何 MoE 越來越流行

原因：

Dense 模型 scaling 越來越貴。

例如：

</>Plain text
70B → 175B → 1T

成本爆炸。

MoE 可以：

</>Plain text
計算成本 ≈ 小模型能力 ≈ 大模型

十、未來 AI 架構

現在很多研究方向：

</>Plain text
MoE + RAGMoE + Tool useMoE + Agents

甚至：

</>Plain text
Hierarchical MoE

多層專家系統。

十一、為什麼 MoE 對個人開發者重要

因為：

未來開源模型很可能都是 MoE。

例如：

30B dense
8x7B MoE

性能可能相近。

十二、簡單理解 MoE

可以把 MoE 想像成：

</>Plain text
一家大型醫院

病人來了：

</>Plain text
先掛號

系統判斷：

</>Plain text
心臟科骨科神經科

只找 對的醫生。

這就是 Mixture of Experts。

✅ 總結

MoE 的核心：

</>Plain text
很多專家但每次只用少數

所以：

</>Plain text
模型巨大成本可控

留言

sirius數字沙龍

16會員

405內容數

吃自助火鍋啦！不要客氣，想吃啥，請自行取用！

sirius數字沙龍的其他內容

2026/03/07

「RAG + 微調」混合架構 - AI 公司最常用的 dataset 技術

現在 AI 公司最常用的 dataset 技術：「RAG + 微調」混合架構它能讓小模型能力提升 5～20 倍。目前 AI 系統非常主流的一種架構：RAG + 微調（Fine-tuning）混合架構。很多公司都使用這種方法來打造專業 AI 助手，因為它能讓模型既有知識又能查最新資料。

2026/03/07

「RAG + 微調」混合架構 - AI 公司最常用的 dataset 技術

2026/03/06

如何用 AI 自動生成 10 萬筆訓練資料（Self-Instruct Dataset）

一步一步示範 Self-Instruct（自動生成訓練資料）的方法。這是很多模型（如 OpenAI、Stanford University 研究團隊）提出並實際使用的技巧，可以用一個強模型自動生成大量資料，然後用來微調另一個模型。

2026/03/06

如何用 AI 自動生成 10 萬筆訓練資料（Self-Instruct Dataset）

2026/03/06

用一張 RTX 4090 就能跑的完整 LLM 微調專案架構

這是很多人自己做「私人 AI 助手 / 領域模型」的典型做法。整體分成：模型選擇 → 資料 → 訓練 → 推論部署。一、硬體條件（RTX 4090） RTX 4090 VRAM：24GB FP16 算力：約 82 TFLOPS 適合：LoRA / QLoRA 微調能訓練模型大小：

2026/03/06

用一張 RTX 4090 就能跑的完整 LLM 微調專案架構

看更多

你可能也想看

黃郁書的沙龍

《海妲．蓋柏樂》：女性困境與「永恆少年」的毀滅衝動

5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》，由臺灣劇團「晃晃跨幅町」製作，本文將以從舞台符號、聲音與表演調度切入，討論海妲・蓋柏樂在父權社會結構下的困境，並結合榮格心理學與馮．法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析，理解女人何以走向精神性的操控、毀滅與死亡。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

黃郁書的沙龍

《海妲．蓋柏樂》：女性困境與「永恆少年」的毀滅衝動

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

玥汐智匯藝創元工作室

114年會計師——審計學申論題考題作答

如果熟悉公報（如450號、501號、3000號）和基本概念，這題難度對有經驗或教材複習過的人算「中等偏易」關鍵在於條列清楚、分類明確、說明合理判斷即可。

2026/02/09

2026/02/09

通路---通路就像血管。血管裡的血液流動順暢，企業才能獲得所需的營養。

實施教育訓練當年度，這家通路的銷售額翻增300%，幫助法蘭克成為年度銷售冠軍。

#經營#管理#管理專家

2025/08/19

職場法蘭克

通路---通路就像血管。血管裡的血液流動順暢，企業才能獲得所需的營養。

實施教育訓練當年度，這家通路的銷售額翻增300%，幫助法蘭克成為年度銷售冠軍。

#經營#管理#管理專家

2025/08/19

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

背景：從冷門配角到市場主線，算力與電力被重新定價小P從2008進入股市，每一個時期的投資亮點都不同，記得2009蘋果手機剛上市，當時蘋果只要在媒體上提到哪一間供應鏈，隔天股價就有驚人的表現，當時光學鏡頭非常熱門，因為手機第一次搭上鏡頭可以拍照，也造就傳統相機廠的殞落，如今手機已經全面普及，題

#AI#算力#電力

2026/04/11

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

#AI#算力#電力

2026/04/11

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11