最近在庫拉KULAAI(c.877ai.cn)這類AI模型聚合平臺(tái)上做Gemini系列縱向?qū)Ρ葴y試時(shí),把3.1 Pro和2.5 Pro從基準(zhǔn)分?jǐn)?shù)到實(shí)際任務(wù)表現(xiàn)完整跑了一遍。有些維度跳得嚇人,有些漲得不多。逐項(xiàng)拆開來說。

先看最亮眼的一個(gè)數(shù)字
ARC-AGI-2從2.5 Pro的約31%直接跳到3.1 Pro的77.1%。翻了一倍多。這個(gè)測試衡量的是抽象推理——給模型看從未見過的變換規(guī)則,讓它推斷規(guī)律。3.1 Pro在這個(gè)指標(biāo)上的跳躍幅度在前沿模型迭代中很罕見。
為什么跳這么多?一個(gè)解釋是3.1 Pro新增了四檔推理強(qiáng)度控制:low、medium、high、deep。ARC-AGI-2用deep模式時(shí)模型會(huì)花更多計(jì)算步驟做中間推理,正好適合抽象規(guī)則發(fā)現(xiàn)。2.5 Pro沒有這種動(dòng)態(tài)調(diào)優(yōu),推理深度基本固定。
JetBrains的AI總監(jiān)把3.1 Pro描述為"更強(qiáng)、更快、且更高效"。關(guān)鍵不是單純堆算力,而是按任務(wù)復(fù)雜度動(dòng)態(tài)調(diào)整推理深度。
代碼能力:有梯度地漲
SWE-Bench Verified(代碼修復(fù)):2.5 Pro約68%,3.1 Pro拿到80.6%。漲了12個(gè)百分點(diǎn)。面對真實(shí)GitHub Issue時(shí)定位bug和生成修復(fù)補(bǔ)丁的能力有實(shí)質(zhì)性提升。
HumanEval(代碼生成):2.5 Pro約85%,3.1 Pro拿到92.5%。漲了7個(gè)百分點(diǎn)。穩(wěn)步提升,不算爆發(fā)但很扎實(shí)。Replit總裁評價(jià)Gemini為"能力與延遲之間取得平衡的最佳前沿模型",3.1 Pro在保持速度的同時(shí)把準(zhǔn)確率又推高了一截。
WebDev Arena(前端開發(fā)):2.5 Pro I/O版拿到1499.95分,超過Claude 3.7 Sonnet的1377.10。3.1 Pro在此基礎(chǔ)上進(jìn)一步優(yōu)化了UI生成質(zhì)量。Cursor CEO表示內(nèi)部測試顯示工具調(diào)用失敗顯著減少。
科學(xué)推理:跳升幅度僅次于ARC-AGI-2
GPQA Diamond(科學(xué)推理):2.5 Pro約78%,3.1 Pro拿到94.3%。漲了16個(gè)百分點(diǎn)。物理、化學(xué)、生物等研究生級問題的準(zhǔn)確率提升非常明顯。
這個(gè)提升幅度僅次于ARC-AGI-2。說明3.1 Pro不僅在抽象推理上有突破,在需要深度領(lǐng)域知識的科學(xué)推理上也有質(zhì)的飛躍。做科研輔助的同學(xué)值得重點(diǎn)關(guān)注。
MMLU(多任務(wù)理解):2.5 Pro約88%,3.1 Pro拿到90.2%。只漲了2個(gè)百分點(diǎn)。這個(gè)指標(biāo)本身已經(jīng)很高,天花板效應(yīng)明顯。2個(gè)百分點(diǎn)在高分區(qū)已經(jīng)算不錯(cuò)了。
智能體能力:從無到有
APEX-Agents(智能體任務(wù)):3.1 Pro拿到33.5%,超過Claude Opus 4.6的29.8%和GPT-5.2的23.0%。2.5 Pro在這項(xiàng)上沒有突出表現(xiàn)。
這是3.1 Pro區(qū)別于2.5 Pro最明顯的新能力維度。Gemini不再只是"回答問題"的模型,而是開始具備任務(wù)拆解、工具調(diào)用、多步執(zhí)行的能力。做Agent開發(fā)的同學(xué),3.1 Pro比2.5 Pro高出的不是一個(gè)量級的問題。
輸出速度:快了45%
3.1 Pro輸出速度達(dá)到363 tokens/s,比2.5 Flash快45%。
提升來自兩方面。一是推理架構(gòu)優(yōu)化減少了不必要的計(jì)算路徑。二是四檔推理強(qiáng)度讓簡單任務(wù)跳過部分計(jì)算層。實(shí)測一個(gè)代碼生成任務(wù),2.5 Pro平均耗時(shí)8秒,3.1 Pro在medium模式下平均5.5秒,快了約30%。
但deep模式下3.1 Pro反而更慢——因?yàn)榛烁嘤?jì)算步驟做深度推理。這是有意識的設(shè)計(jì)取舍:簡單任務(wù)更快,復(fù)雜任務(wù)更慢但更準(zhǔn)。
長上下文:差距不大
兩者都支持100萬token上下文。"大海撈針"測試中3.1 Pro召回率超99.7%,2.5 Pro也不差。Long-Context MRCR v2測試中128K上下文下兩者打成平手均拿到84.9%。
純文本長上下文場景下差距不大。提升主要在多模態(tài)長上下文——圖文混合輸入時(shí)3.1 Pro信息遺漏率更低。
定價(jià):零成本升級
3.1 Pro定價(jià)跟2.5 Pro完全一樣。200K上下文以內(nèi)輸入每百萬token 2美元,輸出12美元。超過200K輸入4美元輸出18美元。緩存命中時(shí)輸入僅0.50美元。
能力漲了一截價(jià)格一分沒變。對比GPT 5.5輸入5美元輸出30美元,Claude Opus 4.6輸入15美元輸出75美元。Google在用定價(jià)策略打生態(tài)戰(zhàn)。
新增能力:3D生成和交互模擬
3.1 Pro有一個(gè)2.5 Pro完全不具備的能力:輸入提示詞生成交互式3D模型和實(shí)時(shí)模擬。用戶可以旋轉(zhuǎn)模型、拖動(dòng)滑塊調(diào)整參數(shù)。所有Gemini App用戶均可體驗(yàn)。
功能還在早期階段,但方向很有想象力——從"看文字回答"到"看場景交互",是模型能力邊界的一次擴(kuò)展。
哪些場景值得立刻升級
代碼修復(fù)和開發(fā):SWE-Bench從68%到80.6%,值得立刻切。
科學(xué)研究和學(xué)術(shù)分析:GPQA從78%到94.3%,提升大。
智能體和自動(dòng)化:APEX-Agents 33.5%超過競品。
日常對話和簡單問答:MMLU只漲2個(gè)百分點(diǎn)。2.5 Pro夠用,升級收益有限。
三個(gè)注意點(diǎn)
不是所有任務(wù)都該用deep模式。deep模式延遲高token消耗大。簡單任務(wù)用low或medium就夠了。
緩存命中的成本優(yōu)勢別忽略。緩存命中時(shí)輸入價(jià)格只有0.50美元。重復(fù)性查詢場景這是降本關(guān)鍵。
不跑評測就全面切換有風(fēng)險(xiǎn)。雖然整體更強(qiáng),但在你的具體任務(wù)上可能跟2.5 Pro持平。建議先在聚合平臺(tái)上跑一輪對比再?zèng)Q定。
趨勢判斷
ARC-AGI-2從31%到77.1%的跳躍說明模型能力提升不是線性的而是階梯式的。一個(gè)架構(gòu)改進(jìn)加數(shù)據(jù)訓(xùn)練優(yōu)化就能帶來跨量級的能力躍遷。
定價(jià)保持不變說明Google在打生態(tài)戰(zhàn)。斯坦福報(bào)告顯示前沿模型趨同,選模型的重點(diǎn)正在從"誰更強(qiáng)"變成"誰更適合我的場景"。
建議在聚合平臺(tái)上拿你自己的實(shí)際任務(wù)做一輪對比。整體數(shù)據(jù)好看不代表你的場景一定受益。用數(shù)據(jù)做決策比看排行榜靠譜得多。