大模型榜單周報(bào)(2025-12-20)

1. 本周概覽

本周大模型領(lǐng)域呈現(xiàn)顯著變化,Google的Gemini 3 Flash模型系列表現(xiàn)突出,不僅在多個(gè)榜單新晉前列,還發(fā)布了新的高速低成本模型。OpenAI的GPT系列在編程和圖像能力方面繼續(xù)保持強(qiáng)勢(shì)地位。xAI市場(chǎng)份額持續(xù)下降,而OpenAI份額則穩(wěn)步上升。整體來看,新模型發(fā)布和性能優(yōu)化仍是本周主要趨勢(shì)。

2. 重點(diǎn)關(guān)注事件

  • OpenAI推出了其新一代圖像模型 GPT Image 1.5,這一代模型具備更強(qiáng)的指令遵循,更精準(zhǔn)的圖像編輯,也能較好的保留細(xì)節(jié),生成速度則來到上一代模型的4倍。目前屠榜了Artificial Analysis、LMArena 兩大權(quán)威榜單。

  • Google本周發(fā)布了一系列新產(chǎn)品,包括高速、低成本模型 Gemini 3 Flash(該模型基于上個(gè)月發(fā)布的 Gemini 3,并被設(shè)為 Gemini 應(yīng)用和搜索 AI 模式中的默認(rèn)模型,目前在智能/成本上,成為了全球性價(jià)比最高的模型)和 T5Gemma 模型(首個(gè)多模態(tài)和長上下文的編碼器-解碼器模型,建立在 Gemma 3 的強(qiáng)大功能之上,使用了「適應(yīng)(adaptation)」技術(shù)將已經(jīng)完成預(yù)訓(xùn)練的僅解碼器模型轉(zhuǎn)換為編碼器-解碼器架構(gòu)),進(jìn)一步鞏固了其在AI領(lǐng)域的領(lǐng)先地位。

  • 阿里通義萬相 2.6 上線,成為國內(nèi)首個(gè)具備角色扮演功能的視頻模型。Wan 2.6 在模型結(jié)構(gòu)上集成了多項(xiàng)創(chuàng)新技術(shù),可對(duì)輸入?yún)⒖家曨l進(jìn)行多模態(tài)聯(lián)合建模與學(xué)習(xí),參考具有時(shí)序信息的主體情緒、姿態(tài)和多角度全面視覺特征,同時(shí)提取音色、語速等聲學(xué)特征,在生成階段作為參考條件控制,實(shí)現(xiàn)從畫面到聲音的全感官全維度一致性保持與遷移。

  • 字節(jié)Seed本周也發(fā)布多項(xiàng)產(chǎn)品,推出了豆包視頻生成模型Seedance 1.5 Pro(該模型采用了一套基于 MMDiT(Multi-Modal Diffusion Transformer) 的原生聯(lián)合生成框架,它建立了一個(gè)雙分支的DiT架構(gòu),通過深度跨模態(tài)信息交互機(jī)制,讓視覺流和聽覺流在潛在空間(Latent Space)里實(shí)時(shí)通信)和通用 Agent 模型 Seed1.8(具備強(qiáng)大的多模態(tài)能力,支持圖文輸入,能在信息檢索、代碼生成、GUI 交互及復(fù)雜工作流等場(chǎng)景中高效精準(zhǔn)地完成任務(wù),滿足日益多元的技術(shù)需求)。

3. 榜單變化

模型調(diào)用量排名變化

  • Gemini 2.5 Flash 排名上升了 1 名到第 2,僅次于 Grok Code Fast 1
  • GPT-OSS-120B 排名上升了 1 名到第 4
  • DeepSeek V3.2 重回榜單前 10,位列第 8 名

公司市占率變化

  • Google 保持第 1 位置
  • OpenAI 在發(fā)布 GPT-5.2 之后市占率超過 xAI 來到第 2 位;Anthropic、DeepSeek 緊跟 xAI 之后
  • xAI 份額持續(xù)下降了(17.3% → 14.8%),三周內(nèi)累計(jì)下降 22.9%
  • OpenAI 份額上升了 2.9%(14.8% → 17.7%)

編程調(diào)用量排名變化

  • Grok Code Fast 1 保持第 1 位置
  • GPT-5.2 躍升至第 2 位
  • Claude Sonnet 4.5、Claude Opus 4.5 排名第 3、4
  • MiniMax M2 排名保持第 5
  • Devstral 2 2512 排名由第 9 上升了 2 名

大語言模型(Text Arena)排名變化

  • gemini-3-flash 新晉榜單第 3 名
  • gemini-3-flash 的 thinking-minimal 版本排名榜單第 7
  • gpt-5.2-high 和 gpt-5.2 分別排名 15、17位

編程能力榜單(WebDev Arena)排名變化

  • gemini-3-flash 新晉榜單第 5 名
  • gemini-3-flash 的 thinking-minimal 版本排名榜單第 12

編程能力榜單(LiveCodeBench GSO Leaderboard)排名變化

  • GPT-5.2 新晉榜單第 1 位
  • GPT-5.1 排名第 6 位

圖像編輯能力榜單(Image Edit Arena)排名變化

  • chatgpt-image-latest (20251216)新晉榜單第 1 名
  • gpt-image-1.5 新晉榜單第 3 位,超過 gemini-3-pro-image-preview-2k (nano-banana-pro)
  • reve-v1.1 新晉榜單第 8 名

文生圖榜單(Text-to-Image Arena)排名變化

  • gpt-image-1.5 超過 nano banana pro,新晉榜單首位
  • flux-2-max 排名僅次于二者,新晉榜單第 3 名

圖像編輯能力榜單 (Artificial Analysis Image Editing Leaderboard)排名變化

  • GPT-Image-1.5 超過 Nano Banana Pro,新晉榜單首位
  • FLUX-2-max 排名僅次于二者,新晉榜單第 3 名

文生圖榜單(Artificial Analysis Text to Image Leaderboard)排名變化

  • GPT-Image-1.5 超過 Nano Banana Pro,新晉榜單首位
  • FLUX-2-max 排名僅次于二者,新晉榜單第 3 名

理科能力榜單(LLM Stats GPQA)排名變化

  • Gemini 3 Flash 新晉榜單第 4 名,得分 90.4%

前沿?cái)?shù)學(xué)能力榜單(EPOCH AI FrontierMath)排名變化

  • GPT-5.2 的 xhigh 推理版本以 40.7% 的得分新晉榜單首位
  • Gemini 3 Flash 以 35.6% 的得分排名榜單第 5 位

多模態(tài)基準(zhǔn)測(cè)試榜單(HLE)排名變化

  • GPT-5.2 新晉榜單第 3 名

GAIA 榜單排名變化

  • Microsoft AI Asia -Ads 發(fā)布的 HALO V1217-1 新晉榜首

4. OpenRouter排行榜

測(cè)評(píng)類型 第一名 第二名 第三名
模型調(diào)用量 Grok Code Fast 1 Gemini 2.5 Flash Claude Sonnet 4.5
編程模型調(diào)用量 Grok Code Fast 1 GPT-5.2 Claude Sonnet 4.5
公司市占率 Google OpenAI xAI

各公司按不同能力領(lǐng)域排名匯總

測(cè)評(píng)類型 領(lǐng)先公司
大語言模型 Text Arena Google、xAI、Anthropic、OpenAI、阿里巴巴、百度、月之暗面、智譜
編程能力 LMArena Anthropic、OpenAI、Google
編程能力 LiveCodeBench OpenAI、Anthropic、Google
代碼工程任務(wù)能力 SWE-benchLite (基于 Claude、Gemini、GPT、Qwen、DeepSeek 開發(fā)的開源系統(tǒng)排名靠前)
圖像編輯和生成能力 Image Edit Arena OpenAI、Google、字節(jié)、Reve
文生圖能力 Text-to-Image Arena OpenAI、Google、Black Forest Labs、騰訊、字節(jié)
圖像編輯和生成能力 Image Editing Leaderboard OpenAI、Google、Black Forest Labs、字節(jié)、Pruna AI
文生圖能力 Text to Image Leaderboard OpenAI、Google、Black Forest Labs、字節(jié)
GPQA 榜單 OpenAI、Google、xAI、Anthropic、阿里巴巴
FrontierMath 榜單 OpenAI、Google、月之暗面、Anthropic、xAI
Humanity's Last Exam 榜單 Google、OpenAI、Anthropic

?? 關(guān)注我,第一時(shí)間掌握更多AI前沿資訊!

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容