description: "簡(jiǎn)潔、清晰的 MoE 介紹，涵蓋了為什么重要、稀疏的含義、共享專(zhuān)家以及示例架構(gòu)。"
date: 2026.03.22 10:26
categories:
- AI
tags: [AI, LLM]
keywords: MoE, Mixture of Experts, Transformer, LLM, DeepSeek, shared experts, latent MoE

混合專(zhuān)家（Mixture of Experts, MoE）是近年來(lái)開(kāi)源大模型能夠擁有極高的總參數(shù)量，又不會(huì)使每次推理的代價(jià)同等昂貴的主要原因之一。

其基本思想是，用多個(gè)專(zhuān)家型前饋塊（FeedForward blocks）替換單一的稠密前饋塊，然后通過(guò)路由讓每個(gè) token 只激活其中的一小部分。

架構(gòu)畫(huà)廊
《從零構(gòu)建大模型》章節(jié)

DeepSeek V3 和 R1 中的混合專(zhuān)家模塊與標(biāo)準(zhǔn)前饋塊的對(duì)比

引自大語(yǔ)言模型架構(gòu)對(duì)比：主要結(jié)構(gòu)的變化非常直接。一個(gè)單一的稠密前饋塊被一個(gè)帶有多個(gè)專(zhuān)家的路由 MoE 模塊所取代。

改變了什么：一個(gè)稠密前饋路徑變成了多個(gè)專(zhuān)家前饋路徑，外加一個(gè)路由
實(shí)際好處：模型可以擁有更高的總?cè)萘浚瑫r(shí)每個(gè) token 只激活較小的路徑
示例架構(gòu)：DeepSeek V3、Qwen3 235B-A22B、GPT-OSS 120B、Mistral Large 3、GLM-5 744B 和 MiniMax M2 230B

為什么重要

前饋塊已占據(jù)了 transformer 層中很大一部分參數(shù)。因此，當(dāng)我們用多個(gè)專(zhuān)家塊替換一個(gè)前饋塊時(shí)，模型的總參數(shù)量可以顯著增加。

關(guān)鍵點(diǎn)是，路由不會(huì)為每個(gè) token 激活所有專(zhuān)家。它只選擇一個(gè)小的子集。這就是為什么 MoE 模型可以在總?cè)萘可戏浅４?，同時(shí)在每次推理步驟中只使用較少的活躍參數(shù)。

混合專(zhuān)家層中總參數(shù)與活躍參數(shù)的差異

引自《從零構(gòu)建大模型》中 MoE 材料：隨著專(zhuān)家數(shù)量的增加，總參數(shù)的增長(zhǎng)速度遠(yuǎn)快于每個(gè) token 的活躍參數(shù)。

這里的“稀疏”是什么意思

MoE 層通常被描述為稀疏的，因?yàn)椴⒎敲總€(gè) token 都使用所有專(zhuān)家。模型很大，但每個(gè) token 的計(jì)算是有選擇性的。

這也是為什么 MoE 模型經(jīng)常同時(shí)列出總參數(shù)和活躍參數(shù)的原因。DeepSeek V3 就是一個(gè)典型的例子：總參數(shù)量非常大，但每個(gè)步驟只激活了一個(gè)更小的子集。

共享專(zhuān)家及其變體

隨著 MoE 的基本思想被廣泛采用，各團(tuán)隊(duì)開(kāi)始對(duì)細(xì)節(jié)進(jìn)行不同的調(diào)整。例如，“共享專(zhuān)家”就是除了路由選擇的專(zhuān)家外，始終保持激活的專(zhuān)家；還有“潛在 MoE”（latent MoE），如 Nemotron 3 Super，將專(zhuān)家計(jì)算遷移到更小的潛在空間中。

所以，雖然許多模型被稱(chēng)為 MoE 模型，但它們?cè)趯?zhuān)家數(shù)量、每個(gè) token 的路由專(zhuān)家數(shù)、是否使用共享專(zhuān)家以及專(zhuān)家子網(wǎng)絡(luò)的大小方面仍然可能有很大差異。

示例架構(gòu)

DeepSeek V3：畫(huà)廊中最清晰的 MoE 參考點(diǎn)
Qwen3 235B-A22B：一個(gè)當(dāng)前的大規(guī)模開(kāi)放 MoE 模型，具有 GQA
GPT-OSS 120B：一個(gè)稀疏的 MoE 堆棧，具有交替的局部和全局注意力
Mistral Large 3：另一個(gè) DeepSeek 風(fēng)格的 MoE 架構(gòu)

參考來(lái)源

大語(yǔ)言模型架構(gòu)對(duì)比
《從零構(gòu)建大模型》MoE 章節(jié)

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

【譯】混合專(zhuān)家（Mixture of Experts, MoE）

【譯】混合專(zhuān)家（Mixture of Experts, MoE）

為什么重要

這里的“稀疏”是什么意思

共享專(zhuān)家及其變體

示例架構(gòu)

參考來(lái)源

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

【譯】混合專(zhuān)家（Mixture of Experts, MoE）

為什么重要

這里的“稀疏”是什么意思

共享專(zhuān)家及其變體

示例架構(gòu)

參考來(lái)源

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av