1. 本周概覽
本周大模型領(lǐng)域呈現(xiàn)顯著變化,Google的Gemini 3 Flash模型系列表現(xiàn)突出,不僅在多個(gè)榜單新晉前列,還發(fā)布了新的高速低成本模型。OpenAI的GPT系列在編程和圖像能力方面繼續(xù)保持強(qiáng)勢(shì)地位。xAI市場(chǎng)份額持續(xù)下降,而OpenAI份額則穩(wěn)步上升。整體來看,新模型發(fā)布和性能優(yōu)化仍是本周主要趨勢(shì)。
2. 重點(diǎn)關(guān)注事件
OpenAI推出了其新一代圖像模型 GPT Image 1.5,這一代模型具備更強(qiáng)的指令遵循,更精準(zhǔn)的圖像編輯,也能較好的保留細(xì)節(jié),生成速度則來到上一代模型的4倍。目前屠榜了Artificial Analysis、LMArena 兩大權(quán)威榜單。
Google本周發(fā)布了一系列新產(chǎn)品,包括高速、低成本模型 Gemini 3 Flash(該模型基于上個(gè)月發(fā)布的 Gemini 3,并被設(shè)為 Gemini 應(yīng)用和搜索 AI 模式中的默認(rèn)模型,目前在智能/成本上,成為了全球性價(jià)比最高的模型)和 T5Gemma 模型(首個(gè)多模態(tài)和長上下文的編碼器-解碼器模型,建立在 Gemma 3 的強(qiáng)大功能之上,使用了「適應(yīng)(adaptation)」技術(shù)將已經(jīng)完成預(yù)訓(xùn)練的僅解碼器模型轉(zhuǎn)換為編碼器-解碼器架構(gòu)),進(jìn)一步鞏固了其在AI領(lǐng)域的領(lǐng)先地位。
阿里通義萬相 2.6 上線,成為國內(nèi)首個(gè)具備角色扮演功能的視頻模型。Wan 2.6 在模型結(jié)構(gòu)上集成了多項(xiàng)創(chuàng)新技術(shù),可對(duì)輸入?yún)⒖家曨l進(jìn)行多模態(tài)聯(lián)合建模與學(xué)習(xí),參考具有時(shí)序信息的主體情緒、姿態(tài)和多角度全面視覺特征,同時(shí)提取音色、語速等聲學(xué)特征,在生成階段作為參考條件控制,實(shí)現(xiàn)從畫面到聲音的全感官全維度一致性保持與遷移。
字節(jié)Seed本周也發(fā)布多項(xiàng)產(chǎn)品,推出了豆包視頻生成模型Seedance 1.5 Pro(該模型采用了一套基于 MMDiT(Multi-Modal Diffusion Transformer) 的原生聯(lián)合生成框架,它建立了一個(gè)雙分支的DiT架構(gòu),通過深度跨模態(tài)信息交互機(jī)制,讓視覺流和聽覺流在潛在空間(Latent Space)里實(shí)時(shí)通信)和通用 Agent 模型 Seed1.8(具備強(qiáng)大的多模態(tài)能力,支持圖文輸入,能在信息檢索、代碼生成、GUI 交互及復(fù)雜工作流等場(chǎng)景中高效精準(zhǔn)地完成任務(wù),滿足日益多元的技術(shù)需求)。
3. 榜單變化
模型調(diào)用量排名變化
- Gemini 2.5 Flash 排名上升了 1 名到第 2,僅次于 Grok Code Fast 1
- GPT-OSS-120B 排名上升了 1 名到第 4
- DeepSeek V3.2 重回榜單前 10,位列第 8 名
公司市占率變化
- Google 保持第 1 位置
- OpenAI 在發(fā)布 GPT-5.2 之后市占率超過 xAI 來到第 2 位;Anthropic、DeepSeek 緊跟 xAI 之后
- xAI 份額持續(xù)下降了(17.3% → 14.8%),三周內(nèi)累計(jì)下降 22.9%
- OpenAI 份額上升了 2.9%(14.8% → 17.7%)
編程調(diào)用量排名變化
- Grok Code Fast 1 保持第 1 位置
- GPT-5.2 躍升至第 2 位
- Claude Sonnet 4.5、Claude Opus 4.5 排名第 3、4
- MiniMax M2 排名保持第 5
- Devstral 2 2512 排名由第 9 上升了 2 名
大語言模型(Text Arena)排名變化
- gemini-3-flash 新晉榜單第 3 名
- gemini-3-flash 的 thinking-minimal 版本排名榜單第 7
- gpt-5.2-high 和 gpt-5.2 分別排名 15、17位
編程能力榜單(WebDev Arena)排名變化
- gemini-3-flash 新晉榜單第 5 名
- gemini-3-flash 的 thinking-minimal 版本排名榜單第 12
編程能力榜單(LiveCodeBench GSO Leaderboard)排名變化
- GPT-5.2 新晉榜單第 1 位
- GPT-5.1 排名第 6 位
圖像編輯能力榜單(Image Edit Arena)排名變化
- chatgpt-image-latest (20251216)新晉榜單第 1 名
- gpt-image-1.5 新晉榜單第 3 位,超過 gemini-3-pro-image-preview-2k (nano-banana-pro)
- reve-v1.1 新晉榜單第 8 名
文生圖榜單(Text-to-Image Arena)排名變化
- gpt-image-1.5 超過 nano banana pro,新晉榜單首位
- flux-2-max 排名僅次于二者,新晉榜單第 3 名
圖像編輯能力榜單 (Artificial Analysis Image Editing Leaderboard)排名變化
- GPT-Image-1.5 超過 Nano Banana Pro,新晉榜單首位
- FLUX-2-max 排名僅次于二者,新晉榜單第 3 名
文生圖榜單(Artificial Analysis Text to Image Leaderboard)排名變化
- GPT-Image-1.5 超過 Nano Banana Pro,新晉榜單首位
- FLUX-2-max 排名僅次于二者,新晉榜單第 3 名
理科能力榜單(LLM Stats GPQA)排名變化
- Gemini 3 Flash 新晉榜單第 4 名,得分 90.4%
前沿?cái)?shù)學(xué)能力榜單(EPOCH AI FrontierMath)排名變化
- GPT-5.2 的 xhigh 推理版本以 40.7% 的得分新晉榜單首位
- Gemini 3 Flash 以 35.6% 的得分排名榜單第 5 位
多模態(tài)基準(zhǔn)測(cè)試榜單(HLE)排名變化
- GPT-5.2 新晉榜單第 3 名
GAIA 榜單排名變化
- Microsoft AI Asia -Ads 發(fā)布的 HALO V1217-1 新晉榜首
4. OpenRouter排行榜
| 測(cè)評(píng)類型 | 第一名 | 第二名 | 第三名 |
|---|---|---|---|
| 模型調(diào)用量 | Grok Code Fast 1 | Gemini 2.5 Flash | Claude Sonnet 4.5 |
| 編程模型調(diào)用量 | Grok Code Fast 1 | GPT-5.2 | Claude Sonnet 4.5 |
| 公司市占率 | OpenAI | xAI |
各公司按不同能力領(lǐng)域排名匯總
| 測(cè)評(píng)類型 | 領(lǐng)先公司 |
|---|---|
| 大語言模型 Text Arena | Google、xAI、Anthropic、OpenAI、阿里巴巴、百度、月之暗面、智譜 |
| 編程能力 LMArena | Anthropic、OpenAI、Google |
| 編程能力 LiveCodeBench | OpenAI、Anthropic、Google |
| 代碼工程任務(wù)能力 SWE-benchLite | (基于 Claude、Gemini、GPT、Qwen、DeepSeek 開發(fā)的開源系統(tǒng)排名靠前) |
| 圖像編輯和生成能力 Image Edit Arena | OpenAI、Google、字節(jié)、Reve |
| 文生圖能力 Text-to-Image Arena | OpenAI、Google、Black Forest Labs、騰訊、字節(jié) |
| 圖像編輯和生成能力 Image Editing Leaderboard | OpenAI、Google、Black Forest Labs、字節(jié)、Pruna AI |
| 文生圖能力 Text to Image Leaderboard | OpenAI、Google、Black Forest Labs、字節(jié) |
| GPQA 榜單 | OpenAI、Google、xAI、Anthropic、阿里巴巴 |
| FrontierMath 榜單 | OpenAI、Google、月之暗面、Anthropic、xAI |
| Humanity's Last Exam 榜單 | Google、OpenAI、Anthropic |
?? 關(guān)注我,第一時(shí)間掌握更多AI前沿資訊!