【譯】混合專(zhuān)家(Mixture of Experts, MoE)


description: "簡(jiǎn)潔、清晰的 MoE 介紹,涵蓋了為什么重要、稀疏的含義、共享專(zhuān)家以及示例架構(gòu)。"
date: 2026.03.22 10:26
categories:
- AI
tags: [AI, LLM]
keywords: MoE, Mixture of Experts, Transformer, LLM, DeepSeek, shared experts, latent MoE



混合專(zhuān)家(Mixture of Experts, MoE)是近年來(lái)開(kāi)源大模型能夠擁有極高的總參數(shù)量,又不會(huì)使每次推理的代價(jià)同等昂貴的主要原因之一。

其基本思想是,用多個(gè)專(zhuān)家型前饋塊(FeedForward blocks)替換單一的稠密前饋塊,然后通過(guò)路由讓每個(gè) token 只激活其中的一小部分。


DeepSeek V3 和 R1 中的混合專(zhuān)家模塊與標(biāo)準(zhǔn)前饋塊的對(duì)比

引自 大語(yǔ)言模型架構(gòu)對(duì)比:主要結(jié)構(gòu)的變化非常直接。一個(gè)單一的稠密前饋塊被一個(gè)帶有多個(gè)專(zhuān)家的路由 MoE 模塊所取代。

為什么重要

前饋塊已占據(jù)了 transformer 層中很大一部分參數(shù)。因此,當(dāng)我們用多個(gè)專(zhuān)家塊替換一個(gè)前饋塊時(shí),模型的總參數(shù)量可以顯著增加。

關(guān)鍵點(diǎn)是,路由不會(huì)為每個(gè) token 激活所有專(zhuān)家。它只選擇一個(gè)小的子集。這就是為什么 MoE 模型可以在總?cè)萘可戏浅4?,同時(shí)在每次推理步驟中只使用較少的活躍參數(shù)。

混合專(zhuān)家層中總參數(shù)與活躍參數(shù)的差異

引自《從零構(gòu)建大模型》中 MoE 材料:隨著專(zhuān)家數(shù)量的增加,總參數(shù)的增長(zhǎng)速度遠(yuǎn)快于每個(gè) token 的活躍參數(shù)。

這里的“稀疏”是什么意思

MoE 層通常被描述為稀疏的,因?yàn)椴⒎敲總€(gè) token 都使用所有專(zhuān)家。模型很大,但每個(gè) token 的計(jì)算是有選擇性的。

這也是為什么 MoE 模型經(jīng)常同時(shí)列出總參數(shù)和活躍參數(shù)的原因。DeepSeek V3 就是一個(gè)典型的例子:總參數(shù)量非常大,但每個(gè)步驟只激活了一個(gè)更小的子集。

共享專(zhuān)家及其變體

隨著 MoE 的基本思想被廣泛采用,各團(tuán)隊(duì)開(kāi)始對(duì)細(xì)節(jié)進(jìn)行不同的調(diào)整。例如,“共享專(zhuān)家”就是除了路由選擇的專(zhuān)家外,始終保持激活的專(zhuān)家;還有“潛在 MoE”(latent MoE),如 Nemotron 3 Super,將專(zhuān)家計(jì)算遷移到更小的潛在空間中。

所以,雖然許多模型被稱(chēng)為 MoE 模型,但它們?cè)趯?zhuān)家數(shù)量、每個(gè) token 的路由專(zhuān)家數(shù)、是否使用共享專(zhuān)家以及專(zhuān)家子網(wǎng)絡(luò)的大小方面仍然可能有很大差異。

示例架構(gòu)

  • DeepSeek V3:畫(huà)廊中最清晰的 MoE 參考點(diǎn)
  • Qwen3 235B-A22B:一個(gè)當(dāng)前的大規(guī)模開(kāi)放 MoE 模型,具有 GQA
  • GPT-OSS 120B:一個(gè)稀疏的 MoE 堆棧,具有交替的局部和全局注意力
  • Mistral Large 3:另一個(gè) DeepSeek 風(fēng)格的 MoE 架構(gòu)

參考來(lái)源

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀(guān)點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • """1.個(gè)性化消息: 將用戶(hù)的姓名存到一個(gè)變量中,并向該用戶(hù)顯示一條消息。顯示的消息應(yīng)非常簡(jiǎn)單,如“Hello ...
    她即我命閱讀 5,329評(píng)論 0 6
  • 1、expected an indented block 冒號(hào)后面是要寫(xiě)上一定的內(nèi)容的(新手容易遺忘這一點(diǎn)); 縮...
    庵下桃花仙閱讀 1,103評(píng)論 1 2
  • 一、工具箱(多種工具共用一個(gè)快捷鍵的可同時(shí)按【Shift】加此快捷鍵選取)矩形、橢圓選框工具 【M】移動(dòng)工具 【V...
    墨雅丫閱讀 1,610評(píng)論 0 0
  • 跟隨樊老師和伙伴們一起學(xué)習(xí)心理知識(shí)提升自已,已經(jīng)有三個(gè)月有余了,這一段時(shí)間因?yàn)樘鞖獾脑蛐菡n,順便整理一下之前學(xué)習(xí)...
    學(xué)習(xí)思考行動(dòng)閱讀 1,017評(píng)論 0 2
  • 一臉憤怒的她躺在了床上,好幾次甩開(kāi)了他抱過(guò)來(lái)的雙手,到最后還堅(jiān)決的翻了個(gè)身,只留給他一個(gè)冷漠的背影。 多次嘗試抱她...
    海邊的藍(lán)兔子閱讀 1,024評(píng)論 1 4

友情鏈接更多精彩內(nèi)容