description: "簡(jiǎn)潔、清晰的 MoE 介紹,涵蓋了為什么重要、稀疏的含義、共享專(zhuān)家以及示例架構(gòu)。"
date: 2026.03.22 10:26
categories:
- AI
tags: [AI, LLM]
keywords: MoE, Mixture of Experts, Transformer, LLM, DeepSeek, shared experts, latent MoE
- 原文地址:Mixture of Experts (MoE)
- 原文作者:Sebastian Raschka
混合專(zhuān)家(Mixture of Experts, MoE)是近年來(lái)開(kāi)源大模型能夠擁有極高的總參數(shù)量,又不會(huì)使每次推理的代價(jià)同等昂貴的主要原因之一。
其基本思想是,用多個(gè)專(zhuān)家型前饋塊(FeedForward blocks)替換單一的稠密前饋塊,然后通過(guò)路由讓每個(gè) token 只激活其中的一小部分。
DeepSeek V3 和 R1 中的混合專(zhuān)家模塊與標(biāo)準(zhǔn)前饋塊的對(duì)比
引自 大語(yǔ)言模型架構(gòu)對(duì)比:主要結(jié)構(gòu)的變化非常直接。一個(gè)單一的稠密前饋塊被一個(gè)帶有多個(gè)專(zhuān)家的路由 MoE 模塊所取代。
- 改變了什么:一個(gè)稠密前饋路徑變成了多個(gè)專(zhuān)家前饋路徑,外加一個(gè)路由
- 實(shí)際好處:模型可以擁有更高的總?cè)萘浚瑫r(shí)每個(gè) token 只激活較小的路徑
- 示例架構(gòu):DeepSeek V3、Qwen3 235B-A22B、GPT-OSS 120B、Mistral Large 3、GLM-5 744B 和 MiniMax M2 230B
為什么重要
前饋塊已占據(jù)了 transformer 層中很大一部分參數(shù)。因此,當(dāng)我們用多個(gè)專(zhuān)家塊替換一個(gè)前饋塊時(shí),模型的總參數(shù)量可以顯著增加。
關(guān)鍵點(diǎn)是,路由不會(huì)為每個(gè) token 激活所有專(zhuān)家。它只選擇一個(gè)小的子集。這就是為什么 MoE 模型可以在總?cè)萘可戏浅4?,同時(shí)在每次推理步驟中只使用較少的活躍參數(shù)。
混合專(zhuān)家層中總參數(shù)與活躍參數(shù)的差異
引自《從零構(gòu)建大模型》中 MoE 材料:隨著專(zhuān)家數(shù)量的增加,總參數(shù)的增長(zhǎng)速度遠(yuǎn)快于每個(gè) token 的活躍參數(shù)。
這里的“稀疏”是什么意思
MoE 層通常被描述為稀疏的,因?yàn)椴⒎敲總€(gè) token 都使用所有專(zhuān)家。模型很大,但每個(gè) token 的計(jì)算是有選擇性的。
這也是為什么 MoE 模型經(jīng)常同時(shí)列出總參數(shù)和活躍參數(shù)的原因。DeepSeek V3 就是一個(gè)典型的例子:總參數(shù)量非常大,但每個(gè)步驟只激活了一個(gè)更小的子集。
共享專(zhuān)家及其變體
隨著 MoE 的基本思想被廣泛采用,各團(tuán)隊(duì)開(kāi)始對(duì)細(xì)節(jié)進(jìn)行不同的調(diào)整。例如,“共享專(zhuān)家”就是除了路由選擇的專(zhuān)家外,始終保持激活的專(zhuān)家;還有“潛在 MoE”(latent MoE),如 Nemotron 3 Super,將專(zhuān)家計(jì)算遷移到更小的潛在空間中。
所以,雖然許多模型被稱(chēng)為 MoE 模型,但它們?cè)趯?zhuān)家數(shù)量、每個(gè) token 的路由專(zhuān)家數(shù)、是否使用共享專(zhuān)家以及專(zhuān)家子網(wǎng)絡(luò)的大小方面仍然可能有很大差異。
示例架構(gòu)
- DeepSeek V3:畫(huà)廊中最清晰的 MoE 參考點(diǎn)
- Qwen3 235B-A22B:一個(gè)當(dāng)前的大規(guī)模開(kāi)放 MoE 模型,具有 GQA
- GPT-OSS 120B:一個(gè)稀疏的 MoE 堆棧,具有交替的局部和全局注意力
- Mistral Large 3:另一個(gè) DeepSeek 風(fēng)格的 MoE 架構(gòu)

