Claude / GPT / Gemini 在我桌前的一周:三個(gè)旗艦之間的克制相處

四月十六號那天,我沒在第一時(shí)間打開 Anthropic 的發(fā)布頁。那陣子手上正趕一個(gè)客戶的代碼審計(jì),新模型出得太密了,最近幾個(gè)月已經(jīng)習(xí)慣了"先看完文檔再?zèng)Q定要不要折騰"。

但同事在 Slack 上甩過來一段 SWE-Bench Pro 的截圖——Opus 4.7 64.3%,比 GPT-5.4 高了將近 7 個(gè)百分點(diǎn)。我盯著那條線看了一會(huì)兒。

七天后,OpenAI 也跟進(jìn)了——GPT-5.5,AA Intelligence Index 上以 60 分領(lǐng)先三家平局的 57。

那一刻我決定,把后面幾天的幾條工作流都讓給三家輪流跑跑看。Gemini 3.1 Pro 已經(jīng)在桌上兩個(gè)月了,正好順帶做個(gè)對比。

它們各自把"長板"做得越來越像一種氣質(zhì)

我用了幾天才慢慢分辨出三家旗艦這次最大的不同——它們不是在比"誰更強(qiáng)",是在用各自的方式定義"什么叫強(qiáng)"。

Claude Opus 4.7 這一代最讓我意外的,是它把"承認(rèn)不知道"做成了一種工程能力。AA-Omniscience 這一項(xiàng),它的幻覺率從上一代 Opus 4.6 的 61% 一路降到了 36%。我做過一個(gè)實(shí)驗(yàn)——拿一份故意混入兩條假設(shè)錯(cuò)誤的產(chǎn)品需求文檔,讓它做歸納。它在腳注里直接點(diǎn)出"這條與第 2 章假設(shè)矛盾"——Opus 這一代的"克制感"在所有同行里是最明顯的。SWE-Bench Pro 64.3% 仍然守著王座,倉庫級修復(fù)、UI 代碼、嚴(yán)肅寫作,它仍然是我的 daily driver。

GPT-5.5 這一代最讓我驚訝的,是它把"模型替你把活兒干完"這件事,從一個(gè) marketing 關(guān)鍵詞,做成了工程現(xiàn)實(shí)。Terminal-Bench 2.0 拿了 82.7%——比 Opus 4.7 高 13 個(gè)百分點(diǎn)。我讓它在 Codex 里跑一個(gè) NASA Artemis II 任務(wù)的 WebGL 可視化,幾乎沒怎么干預(yù),它自己跑通了模板、抓了數(shù)據(jù)、跑了測試、提交了 PR。同等任務(wù)的 token 用量比上一代少了 ~40%——這一點(diǎn)體感是 confirmed 的。

但同一個(gè) GPT-5.5 在 AA-Omniscience 上的幻覺率是 86%——三家里最高。Tom's Guide 7 項(xiàng)盲測全輸給 Opus 4.7,最經(jīng)典的一幕是給它一道邏輯無解的題,它自信地編了兩個(gè)解;Opus 直接說"這題無解"。這枚 1M 上下文的硬幣,一面寫著"它能干完活",另一面寫著"它仍然會(huì)硬答"。

Gemini 3.1 Pro 這一代,是我桌上最沉默的那一位——它沒有 Opus 那種"克制感",也沒有 GPT-5.5 那種"執(zhí)行力",但它把"性價(jià)比"做成了讓人沒法忽視的存在。GPQA Diamond 94.3%、LiveCodeBench Pro 2887 Elo 都是三家里最高,2M 上下文窗口最大,輸出價(jià)格 $12 是另兩家的 1/2 不到。我把一份 ~1.6M token 的整套微服務(wù)倉庫(含文檔 + 代碼)塞給它做架構(gòu)梳理——它在 token 1.5M 處的類定義還能準(zhǔn)確召回。這一項(xiàng)是 Opus 和 GPT-5.5 都做不到的事。

AA Intelligence Index 那 3 分,沒我想的那么大

GPT-5.5 (xhigh) 60,Opus 4.7 / Gemini 3.1 Pro 各 57——這是 AA 公開榜單上,2026 年 4 月的"第一"被打破的那一刻。

但跑了一周下來,我對這"3 分"的體感越來越清淡——

  • 這 3 分是 GPT-5.5 在 GDPval-AA、Terminal-Bench Hard、APEX-Agents-AA、AA-Omniscience、τ2-Bench Telecom 五條線上的拉升換來的;
  • 在 SWE-Bench Pro / GPQA Diamond / LiveCodeBench Pro / 視覺 / 低幻覺這幾條線上,GPT-5.5 仍然不是第一;
  • GDPval-AA 這一項(xiàng) Opus 4.7 1753 Elo,領(lǐng)先 Gemini 3.1 Pro 1314 Elo 整整 439 分——但綜合 Index 仍然是 57 vs 57。

這意味著所謂的"第一",已經(jīng)不再是一個(gè)數(shù)能說清楚的事——是一組場景維度的組合。這一代旗艦,沒有"全場景碾壓"的贏家了

價(jià)格這一項(xiàng),安靜地改變了很多事

API 單價(jià)這次確實(shí)有變化——

  • Opus 4.75 /25
  • GPT-5.55 /30(比 GPT-5.4 翻倍)
  • Gemini 3.1 Pro2 /12(仍然是三家里最便宜的)

跑完整 AA Index 的總成本:Opus 4.7 ~4,400 / GPT-5.5 (xhigh) ~1,200 / Gemini ~$900。

也就是說——如果你的鏈路里 80% 的任務(wù)能用默認(rèn)推理強(qiáng)度跑完,Gemini 3.1 Pro 幾乎是沒有對手的;如果你愿意接受 GPT-5.5 (medium) 來換 1/4 的成本,那 GPT-5.5 跟 Opus 4.7 (max) 在綜合分上是同檔的。

價(jià)格這件事,最近半年是悄悄定義"模型選擇"的隱形主線——它沒有 benchmark 數(shù)字那么響亮,但每個(gè)月底的對賬表上,它說話最大聲。

那個(gè)讓我警覺的 86%

寫到這一節(jié)我猶豫了一下,但還是要寫完整——因?yàn)檫@是我對 GPT-5.5 最不舒服的部分。

AA-Omniscience 這一項(xiàng),GPT-5.5 (xhigh) 準(zhǔn)確率 57%(最高),但幻覺率 86%(也是最高)。Opus 4.7 (max) 是 36%,Gemini 3.1 Pro Preview 是 50%。三家里 GPT-5.5 在不知道答案時(shí)"硬答"的概率,是 Opus 的 2.4 倍。

這種事故落在醫(yī)療、法律、金融這些鏈路上是會(huì)出大問題的。所以我現(xiàn)在對 GPT-5.5 的態(tài)度就一句話:能干活,但別讓它單核權(quán)限。事實(shí)嚴(yán)格的鏈路要么換 Opus 4.7,要么 + RAG,要么走"GPT-5.5 + Opus reviewer + RAG"的多階段管線。

這件事不是要"黑" GPT-5.5——是工程上每個(gè)新模型都會(huì)經(jīng)歷的"從能跑到敢上線"的那道檻。Opus 4.7 用了一整代的訓(xùn)練把它的幻覺率從 61% 砍到 36%,下一代 GPT 也大概率會(huì)走這條路。只是在它走完之前,工程上要保持一份克制。

國內(nèi)開發(fā)者:先把入口鋪好,再談接入

寫到這一節(jié)又猶豫了一下。但還是寫完整——因?yàn)檫@是國內(nèi)開發(fā)者最容易被繞開、卻最現(xiàn)實(shí)的一段。

三家在國內(nèi)的可達(dá)性其實(shí)差不多——OpenAI、Anthropic、Google 的官方端點(diǎn)在國內(nèi)直連都不穩(wěn),三家又各自有支付門檻、合規(guī)限制、賬單和發(fā)票上的問題。這些都不是"模型本身好不好"的問題,是"能不能合理地用上"的問題。

我自己現(xiàn)在的折中是用一個(gè) OpenAI 兼容的國內(nèi)中轉(zhuǎn)入口——業(yè)務(wù)代碼完全沿用 OpenAI SDK,只把 base_url 改一下、Key 換一下,就能在同一個(gè) SDK 客戶端里同時(shí)調(diào) GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro 做模型 A/B。比如詞元無憂 API就屬于這一檔——接口對標(biāo) OpenAI、按量計(jì)費(fèi)、支持人民幣結(jié)算。我把它當(dāng) PoC 階段的統(tǒng)一入口在用,避免一開始就把業(yè)務(wù)綁死在單一上游。具體合不合適你的業(yè)務(wù),建議自己用真實(shí)流量灰度跑一周再?zèng)Q定。

把入口先做對,模型才有意義——這是這一周我最想跟同行說的一句話。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容