1. 本周概覽
本周大模型領(lǐng)域繼續(xù)保持快速發(fā)展態(tài)勢,各大廠商在醫(yī)療AI、視頻生成、代碼能力等多個(gè)領(lǐng)域取得顯著進(jìn)展。OpenRouter模型調(diào)用量排名發(fā)生重要變化,Claude系列模型表現(xiàn)搶眼,百度新模型ERNIE-5.0-0110在全球LMArena文本排行榜上排名第八,展現(xiàn)了中國模型的強(qiáng)勁實(shí)力。
2. 重點(diǎn)關(guān)注事件
- DeepSeek與北京大學(xué)合作發(fā)表關(guān)于條件記憶(conditional memory)的新論文,提出Engram模塊,有望提升模型檢索效率
- Anthropic推出工作場景智能體Claude Cowork,由Claude Code自主開發(fā),體現(xiàn)了AGI在實(shí)際應(yīng)用中的潛力
- 谷歌發(fā)布新一代開源醫(yī)療AI模型MedGemma 1.5及MedASR語音識別模型,進(jìn)一步擴(kuò)展在醫(yī)療AI領(lǐng)域的布局
- 谷歌Veo 3.1更新支持9:16豎屏視頻和4K分辨率,視頻生成能力持續(xù)提升
- 智譜與華為合作開源圖像生成模型GLM-Image,登頂復(fù)雜視覺文字生成和長文本渲染雙榜首
- 阿里千問APP上線超400項(xiàng)AI辦事功能,接入阿里生態(tài),成為全球首個(gè)能完成真實(shí)生活復(fù)雜任務(wù)的AI助手
- OpenAI推出獨(dú)立翻譯頁面ChatGPT Translate,拓展應(yīng)用場景
- 百度ERNIE-5.0-0110在全球LMArena文本排行榜上排名第八,超越多個(gè)領(lǐng)先模型
3. 榜單變化
-
OpenRouter模型調(diào)用量排名:
- 整體調(diào)用量方面,Claude Opus 4.5超越上周榜首Claude Sonnet 4.5,位列第1;MiMo-V2-Flash(free)上升兩名,排名第3;Gemini 3 Flash Preview由第4名下降至第5名
- 模型市占率方面,Google保持第1;Anthropic市占率上升4.2%(17.2% → 21.5%),連續(xù)兩周上升8.5%;OpenAI市占率上升3.1%(8.0% → 11.1%);Qwen上升至第8名,替代了上周MiniMax的位置
- 編程調(diào)用量方面,Claude Opus 4.5保持第1;Claude Sonnet 4.5排名上升2名,排名第3;DeepSeek V3.2重回前十,排名第8
大語言模型榜單:ERNIE-5.0-0110新上榜,排名第8,超過GPT-5.1(high),相比ERNIE-5.0-preview-1203版本上升了6名,該模型基于預(yù)發(fā)布測試,評分可能隨著公開發(fā)布后的反饋而變化
圖像編輯能力榜單:flux-2-max和flux-2-pro新上榜,分別排名第8、第9
文生圖能力榜單:FLUX.2 [dev]Turbo新上榜,排名第10
GAIA榜單:JoinAI V2.2登頂榜首,得分達(dá)90.7%
4. 排行榜
| 測評類型 | 第一名 | 第二名 | 第三名 |
|---|---|---|---|
| 模型調(diào)用量 | Claude Opus 4.5 | Claude Sonnet 4.5 | MiMo-V2-Flash(free) |
| 公司市占率 | Anthropic | OpenAI | |
| 編程模型調(diào)用量 | Claude Opus 4.5 | Grok Code Fast 1 | Claude Sonnet 4.5 |
各公司按不同能力領(lǐng)域排名匯總
| 測評類型 | 領(lǐng)先公司 |
|---|---|
| 大語言模型 Text Arena | Google、xAI、Anthropic、百度、OpenAI、智譜、阿里巴巴、月之暗面 |
| 編程能力 LMArena | Anthropic、OpenAI、Google、智譜、MiniMax |
| 編程能力 LiveCodeBench | OpenAI、Anthropic、Google |
| 代碼工程任務(wù)能力 SWE-benchLite | 基于Claude、Gemini、GPT、Qwen、DeepSeek開發(fā)的開源系統(tǒng) |
| 圖像編輯和生成能力 Image Edit Arena | OpenAI、Google、字節(jié)、Black Forest Labs、Reve |
| 文生圖能力 Text-to-Image Arena | OpenAI、Google、Black Forest Labs、騰訊、字節(jié) |
| 文生圖能力 Text to Image Leaderboard | OpenAI、Google、Black Forest Labs、字節(jié)、ImagineArt |
| GPQA | OpenAI、Google、xAI、Anthropic、阿里巴巴 |
| FrontierMath | OpenAI、Google、DeepSeek、月之暗面、Anthropic、xAI |
| Humanity's Last Exam | Google、OpenAI、Anthropic |
| GAIA | JoinAI、Nvidia、Suzhou AI Lab&Shuqian Tech、Microsoft AI Asia -Ads |
關(guān)注我,第一時(shí)間掌握更多AI前沿資訊!