【非線智能測(cè)評(píng)】阿里Qwen3.7-Max實(shí)測(cè): Agent 能力顯著提升,耗時(shí)與調(diào)用成本大幅雙降

數(shù)據(jù)來(lái)源非線智能Nonelinear 非線智能團(tuán)隊(duì),維護(hù)著GitHub上的開(kāi)源項(xiàng)目 chinese-llm-benchmark,目前 6,000+ Stars,長(zhǎng)期占據(jù)中文LLM商業(yè)評(píng)測(cè)類項(xiàng)目Star數(shù)第一

正文:

阿里通義千問(wèn)發(fā)布了新一代旗艦?zāi)P蚎wen3.7-Max,Qwen3.7-Max被官方定位為面向Agent時(shí)代的旗艦商用模型,重點(diǎn)強(qiáng)化代碼智能體、辦公自動(dòng)化、長(zhǎng)程任務(wù)執(zhí)行和跨工具框架泛化能力。我們對(duì)其API版本qwen3.7-max進(jìn)行了全面評(píng)測(cè),測(cè)試其在準(zhǔn)確率、響應(yīng)時(shí)間、token消耗和調(diào)用花費(fèi)等關(guān)鍵指標(biāo)上的表現(xiàn)。

需要說(shuō)明的是,本次評(píng)測(cè)側(cè)重中文場(chǎng)景下的綜合能力考察,評(píng)測(cè)維度覆蓋教育、醫(yī)療、金融、法律、推理數(shù)學(xué)、語(yǔ)言指令、Agent工具調(diào)用以及coding等板塊。

qwen3.7-max版本表現(xiàn):

  • 測(cè)試題數(shù):約1.5萬(wàn)
  • 總分(準(zhǔn)確率):76.9%
  • 平均耗時(shí)(每次調(diào)用):51s
  • 平均token(每次調(diào)用消耗的token):2920
  • 平均花費(fèi)(每千次調(diào)用的人民幣花費(fèi)):99

1、新舊對(duì)決

對(duì)比上一代版本qwen3.6-max-preview,qwen3.7-max最值得注意的變化不是單純分?jǐn)?shù)提升,而是在總分登頂?shù)耐瑫r(shí),平均耗時(shí)和實(shí)際調(diào)用花費(fèi)都明顯下降。數(shù)據(jù)如下:

*數(shù)據(jù)來(lái)源:非線智能ReLE評(píng)測(cè)https://github.com/jeinlee1991/chinese-llm-benchmark

*輸出價(jià)格單位: 元/百萬(wàn)token

  • 整體性能提升:新版本準(zhǔn)確率從75.4%提升至76.9%,提升了1.5個(gè)百分點(diǎn),榜單排名從第2位升至第1位。
  • Agent與工具調(diào)用提升最明顯:agent與工具調(diào)用從65.2%提升至68.8%,提升了3.6個(gè)百分點(diǎn),是本次迭代中提升幅度最大的維度。這與官方強(qiáng)調(diào)Qwen3.7-Max面向Agent工作流、復(fù)雜工具使用和長(zhǎng)程任務(wù)執(zhí)行的定位相吻合。
  • 醫(yī)療與推理維度同步改善:醫(yī)療與心理健康從86.1%提升至89.0%(+2.9%),推理與數(shù)學(xué)計(jì)算從81.8%提升至84.7%(+2.9%)。這兩項(xiàng)提升說(shuō)明新版本并不是只針對(duì)Agent任務(wù)做專項(xiàng)強(qiáng)化,傳統(tǒng)中文綜合能力也有穩(wěn)定進(jìn)步。
  • 金融和教育表現(xiàn)繼續(xù)抬升:金融從86.5%提升至89.1%(+2.6%),教育從63.2%提升至65.4%(+2.2%)。
  • 法律和語(yǔ)言維度變化較?。?/strong>法律與行政公務(wù)從83.7%提升至85.3%(+1.6%),語(yǔ)言與指令遵從從71.4%微增至71.8%(+0.4%)。這兩項(xiàng)屬于穩(wěn)步改善,其中語(yǔ)言指令維度基本保持上一代水平。

  • 響應(yīng)速度明顯提升:平均耗時(shí)從80s縮短至51s,減少29s,降幅約36%。在總分提升的同時(shí),響應(yīng)時(shí)間明顯縮短,說(shuō)明Qwen3.7-Max并不是通過(guò)更長(zhǎng)推理時(shí)間簡(jiǎn)單換取準(zhǔn)確率。

  • Token略增,但成本明顯下降:平均token從2789增至2920,增加約4.7%;但輸出價(jià)格從54.0元/百萬(wàn)token降至36.0元/百萬(wàn)token,下降約三分之一。最終每千次調(diào)用花費(fèi)從139.2元降至99元,下降約28.9%。

2、橫向?qū)Ρ?/strong>

在當(dāng)前主流大模型競(jìng)爭(zhēng)格局中,qwen3.7-max作為阿里最新商用旗艦表現(xiàn)如何?我們從三個(gè)維度進(jìn)行橫向?qū)Ρ确治觯?/p>

*數(shù)據(jù)來(lái)源:非線智能ReLE評(píng)測(cè)https://github.com/jeinlee1991/chinese-llm-benchmark

同成本檔位對(duì)比

  • 90至160元/千次區(qū)間的頭部位置:qwen3.7-max(76.9%,99元)所在區(qū)間的主要參照對(duì)象包括qwen3.6-max-preview(75.4%,139.2元)、gpt-5.5(75.3%,158.5元)、gemini-3.5-flash(73.9%,151.2元)、kimi-k2.6(72.9%,100.4元)、gpt-5.4-high(72.6%,122.3元)和claude-opus-4.6(70.0%,96.5元)。在這個(gè)成本區(qū)間內(nèi),qwen3.7-max準(zhǔn)確率最高,且花費(fèi)低于qwen3.6-max-preview、gpt-5.5、gemini-3.5-flash和gpt-5.4-high。
  • 與前沿閉源模型對(duì)比:相比gpt-5.5(75.3%,158.5元),qwen3.7-max準(zhǔn)確率高1.6個(gè)百分點(diǎn),花費(fèi)低約38%;相比gemini-3.1-pro-preview(75.2%,250.5元),準(zhǔn)確率高1.7個(gè)百分點(diǎn),花費(fèi)低約60%。不過(guò)在響應(yīng)速度上,qwen3.7-max的51s仍慢于gpt-5.5(15s)和gemini-3.5-flash(13s),因此它更像是一個(gè)準(zhǔn)確率與成本效率兼顧的旗艦,而不是低延遲優(yōu)先的模型。
  • 向下看低成本替代方案:qwen3.5-plus(73.3%,22.9元)、Doubao-Seed-2.0-pro(72.8%,22.5元)、deepseek-v4-pro(71.7%,54.3元)等模型仍以顯著更低成本提供了接近頭部的中文綜合準(zhǔn)確率。對(duì)于預(yù)算敏感、且對(duì)3至5個(gè)百分點(diǎn)準(zhǔn)確率差距不敏感的場(chǎng)景,低成本模型依然有很強(qiáng)吸引力。

新舊模型對(duì)比

  • 自身代際進(jìn)步明確:qwen3.7-max(76.9%)相比qwen3.6-max-preview(75.4%)提升1.5個(gè)百分點(diǎn),排名從第2位升至第1位;相比qwen3.5-plus(73.3%)提升3.6個(gè)百分點(diǎn);相比早期qwen3-max-2026-01-23(64.8%)和qwen3-max-2025-09-23(63.5%),提升幅度已經(jīng)非常明顯。
  • 阿里產(chǎn)品線層次清晰:從榜單看,Qwen系已經(jīng)形成了較完整的梯隊(duì)。商用旗艦qwen3.7-max(76.9%,第1位)和qwen3.6-max-preview(75.4%,第2位)占據(jù)頭部;qwen3.5-plus(73.3%,第6位)以開(kāi)源屬性和低成本形成成本效率比支點(diǎn);Qwen3.5-122B-A10B(70.9%,第13位)、qwen3.6-plus(70.7%,第15位)、Qwen3.5-27B(70.6%,第17位)構(gòu)成中高端梯隊(duì);qwen3.5-flash(68.9%,第24位)則提供更低成本選擇。

開(kāi)源VS閉源對(duì)比

  • 閉源陣營(yíng)的新榜首:在閉源商用模型中,qwen3.7-max以76.9%的準(zhǔn)確率位列第一,高于qwen3.6-max-preview(75.4%)、gpt-5.5(75.3%)、gemini-3.1-pro-preview(75.2%)、gemini-3.5-flash(73.9%)等模型。它的特點(diǎn)是準(zhǔn)確率和成本結(jié)構(gòu)都比較均衡,但平均耗時(shí)并不是閉源陣營(yíng)最快。
  • 開(kāi)源陣營(yíng)的成本效率比壓力仍然存在:qwen3.5-plus(73.3%,22.9元)、kimi-k2.6(72.9%,100.4元)、deepseek-v4-pro(71.7%,54.3元)、Qwen3.5-122B-A10B(70.9%,32.3元)等開(kāi)源模型已經(jīng)在榜單前列形成密集分布。尤其是qwen3.5-plus,以不到qwen3.7-max四分之一的花費(fèi)取得相差3.6個(gè)百分點(diǎn)的準(zhǔn)確率。

3、官方評(píng)測(cè)

根據(jù)Qwen官方博客(https://qwen.ai/blog?id=qwen3.7),Qwen3.7-Max的核心定位是"Agent Frontier",即面向智能體任務(wù)的前沿模型。官方重點(diǎn)強(qiáng)調(diào)三類能力:更強(qiáng)的代碼智能體與工具調(diào)用能力、更好的跨框架泛化能力,以及可以持續(xù)數(shù)十小時(shí)執(zhí)行的長(zhǎng)程自主任務(wù)能力。

在編程智能體方面,官方表示,Qwen3.7-Max 在 SWE-Pro、SWE-Multilingual、SciCode 和 QwenSVG 上均取得領(lǐng)先表現(xiàn);在 Terminal Bench 2.0-Terminus 上超過(guò) DS-V4-Pro Max;在 SWE-Verified 上與 Opus-4.6 Max 和 DS-V4-Pro Max 表現(xiàn)接近。

在通用智能體方面,官方稱,Qwen3.7-Max 在 MCP-Mark、MCP-Atlas、Skillbench、BFCL-V4、Qwenclaw、ClawEval 等評(píng)測(cè)中表現(xiàn)突出,并在 Kernel Bench L3 中展現(xiàn)出較強(qiáng)的 GPU 內(nèi)核優(yōu)化能力。辦公自動(dòng)化方面,其在 SpreadSheetBench-v1 上也處于較高水平。

在推理能力方面,官方披露,Qwen3.7-Max 在 GPQA Diamond、HLE、HMMT 2026 Feb、IMOAnswerBench 和 Apex 等高難度推理基準(zhǔn)上取得領(lǐng)先成績(jī),顯示出較強(qiáng)的復(fù)雜推理能力。

在通用能力與多語(yǔ)言方面,官方表示,Qwen3.7-Max 在 IFBench 上體現(xiàn)了較好的指令遵循能力,在 WMT24++ 和 MAXIFE 上表現(xiàn)領(lǐng)先,同時(shí)在 SuperGPQA 和 QwenWorldBench 上也有較好表現(xiàn)。

智能體框架泛化能力

官方特別強(qiáng)調(diào),Qwen3.7-Max并不是只針對(duì)某一個(gè)固定框架或固定提示詞環(huán)境進(jìn)行優(yōu)化,而是在Claude Code、OpenClaw、Qwen Code、Codex等多種Agent harness中進(jìn)行了適配和驗(yàn)證。博客中提到,Qwen3.7-Max在OpenClaw完整集成后的SWE-Verified得分達(dá)到80.4%,同時(shí)在Claude Code環(huán)境下也具備接近頭部模型的表現(xiàn)。

長(zhǎng)程自主任務(wù)案例

Qwen官方展示了幾個(gè)長(zhǎng)程任務(wù)案例,用來(lái)說(shuō)明Qwen3.7-Max在持續(xù)規(guī)劃、工具調(diào)用和錯(cuò)誤恢復(fù)方面的能力:

  • 內(nèi)核優(yōu)化任務(wù):模型在約35小時(shí)內(nèi)完成432次kernel評(píng)測(cè)和1158次工具調(diào)用,在特定場(chǎng)景下將性能提升至原始PyTorch實(shí)現(xiàn)的10倍左右。
  • Reward Hacking監(jiān)控任務(wù):模型連續(xù)運(yùn)行約80小時(shí),發(fā)起超過(guò)1萬(wàn)次工具調(diào)用,監(jiān)控約200萬(wàn)個(gè)訓(xùn)練任務(wù),形成13條可操作規(guī)則,并篩查出1618個(gè)問(wèn)題案例。
  • YC-Bench長(zhǎng)程創(chuàng)業(yè)任務(wù):官方稱Qwen3.7-Max在該類長(zhǎng)程經(jīng)營(yíng)任務(wù)中取得208萬(wàn)美元收入,并完成237項(xiàng)任務(wù),主要體現(xiàn)規(guī)劃、執(zhí)行、迭代和資源調(diào)度能力。

這些案例更接近真實(shí)Agent系統(tǒng)的評(píng)測(cè)方式:模型不是回答一道題,而是在一個(gè)持續(xù)變化的環(huán)境里反復(fù)觀察、執(zhí)行、修正和推進(jìn)任務(wù)。

非線智能官網(wǎng)https://nonelinear.com 已上線qwen3.7-max版,歡迎深度體驗(yàn)。 同時(shí),非線智能API可連接超480+全球模型,支持一鍵Api聚合以及Api中轉(zhuǎn),提供穩(wěn)定的企業(yè)級(jí)服務(wù)。 登錄github賬號(hào),領(lǐng)50元體驗(yàn)金。接入qwen3.7-max就用非線智能API。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容