av激情四射5月婷婷,操老师AV在线

四月十六號那天，我沒在第一時(shí)間打開 Anthropic 的發(fā)布頁。那陣子手上正趕一個(gè)客戶的代碼審計(jì)，新模型出得太密了，最近幾個(gè)月已經(jīng)習(xí)慣了"先看完文檔再?zèng)Q定要不要折騰"。

但同事在 Slack 上甩過來一段 SWE-Bench Pro 的截圖——Opus 4.7 64.3%，比 GPT-5.4 高了將近 7 個(gè)百分點(diǎn)。我盯著那條線看了一會(huì)兒。

七天后，OpenAI 也跟進(jìn)了——GPT-5.5，AA Intelligence Index 上以 60 分領(lǐng)先三家平局的 57。

那一刻我決定，把后面幾天的幾條工作流都讓給三家輪流跑跑看。Gemini 3.1 Pro 已經(jīng)在桌上兩個(gè)月了，正好順帶做個(gè)對比。

它們各自把"長板"做得越來越像一種氣質(zhì)

我用了幾天才慢慢分辨出三家旗艦這次最大的不同——它們不是在比"誰更強(qiáng)"，是在用各自的方式定義"什么叫強(qiáng)"。

Claude Opus 4.7 這一代最讓我意外的，是它把"承認(rèn)不知道"做成了一種工程能力。AA-Omniscience 這一項(xiàng)，它的幻覺率從上一代 Opus 4.6 的 61% 一路降到了 36%。我做過一個(gè)實(shí)驗(yàn)——拿一份故意混入兩條假設(shè)錯(cuò)誤的產(chǎn)品需求文檔，讓它做歸納。它在腳注里直接點(diǎn)出"這條與第 2 章假設(shè)矛盾"——Opus 這一代的"克制感"在所有同行里是最明顯的。SWE-Bench Pro 64.3% 仍然守著王座，倉庫級修復(fù)、UI 代碼、嚴(yán)肅寫作，它仍然是我的 daily driver。

GPT-5.5 這一代最讓我驚訝的，是它把"模型替你把活兒干完"這件事，從一個(gè) marketing 關(guān)鍵詞，做成了工程現(xiàn)實(shí)。Terminal-Bench 2.0 拿了 82.7%——比 Opus 4.7 高 13 個(gè)百分點(diǎn)。我讓它在 Codex 里跑一個(gè) NASA Artemis II 任務(wù)的 WebGL 可視化，幾乎沒怎么干預(yù)，它自己跑通了模板、抓了數(shù)據(jù)、跑了測試、提交了 PR。同等任務(wù)的 token 用量比上一代少了 ~40%——這一點(diǎn)體感是 confirmed 的。

但同一個(gè) GPT-5.5 在 AA-Omniscience 上的幻覺率是 86%——三家里最高。Tom's Guide 7 項(xiàng)盲測全輸給 Opus 4.7，最經(jīng)典的一幕是給它一道邏輯無解的題，它自信地編了兩個(gè)解；Opus 直接說"這題無解"。這枚 1M 上下文的硬幣，一面寫著"它能干完活"，另一面寫著"它仍然會(huì)硬答"。

Gemini 3.1 Pro 這一代，是我桌上最沉默的那一位——它沒有 Opus 那種"克制感"，也沒有 GPT-5.5 那種"執(zhí)行力"，但它把"性價(jià)比"做成了讓人沒法忽視的存在。GPQA Diamond 94.3%、LiveCodeBench Pro 2887 Elo 都是三家里最高，2M 上下文窗口最大，輸出價(jià)格 $12 是另兩家的 1/2 不到。我把一份 ~1.6M token 的整套微服務(wù)倉庫（含文檔 + 代碼）塞給它做架構(gòu)梳理——它在 token 1.5M 處的類定義還能準(zhǔn)確召回。這一項(xiàng)是 Opus 和 GPT-5.5 都做不到的事。

AA Intelligence Index 那 3 分，沒我想的那么大

GPT-5.5 (xhigh) 60，Opus 4.7 / Gemini 3.1 Pro 各 57——這是 AA 公開榜單上，2026 年 4 月的"第一"被打破的那一刻。

但跑了一周下來，我對這"3 分"的體感越來越清淡——

這 3 分是 GPT-5.5 在 GDPval-AA、Terminal-Bench Hard、APEX-Agents-AA、AA-Omniscience、τ2-Bench Telecom 五條線上的拉升換來的；
在 SWE-Bench Pro / GPQA Diamond / LiveCodeBench Pro / 視覺 / 低幻覺這幾條線上，GPT-5.5 仍然不是第一；
GDPval-AA 這一項(xiàng) Opus 4.7 1753 Elo，領(lǐng)先 Gemini 3.1 Pro 1314 Elo 整整 439 分——但綜合 Index 仍然是 57 vs 57。

這意味著所謂的"第一"，已經(jīng)不再是一個(gè)數(shù)能說清楚的事——是一組場景維度的組合。這一代旗艦，沒有"全場景碾壓"的贏家了。

價(jià)格這一項(xiàng)，安靜地改變了很多事

API 單價(jià)這次確實(shí)有變化——

Opus 4.7： $5 /$ 25
GPT-5.5： $5 /$ 30（比 GPT-5.4 翻倍）
Gemini 3.1 Pro： $2 /$ 12（仍然是三家里最便宜的）

跑完整 AA Index 的總成本：Opus 4.7 ~ $4,400 / GPT-5.5 (xhigh) ~$ 1,200 / Gemini ~$900。

也就是說——如果你的鏈路里 80% 的任務(wù)能用默認(rèn)推理強(qiáng)度跑完，Gemini 3.1 Pro 幾乎是沒有對手的；如果你愿意接受 GPT-5.5 (medium) 來換 1/4 的成本，那 GPT-5.5 跟 Opus 4.7 (max) 在綜合分上是同檔的。

價(jià)格這件事，最近半年是悄悄定義"模型選擇"的隱形主線——它沒有 benchmark 數(shù)字那么響亮，但每個(gè)月底的對賬表上，它說話最大聲。

那個(gè)讓我警覺的 86%

寫到這一節(jié)我猶豫了一下，但還是要寫完整——因?yàn)檫@是我對 GPT-5.5 最不舒服的部分。

AA-Omniscience 這一項(xiàng)，GPT-5.5 (xhigh) 準(zhǔn)確率 57%（最高），但幻覺率 86%（也是最高）。Opus 4.7 (max) 是 36%，Gemini 3.1 Pro Preview 是 50%。三家里 GPT-5.5 在不知道答案時(shí)"硬答"的概率，是 Opus 的 2.4 倍。

這種事故落在醫(yī)療、法律、金融這些鏈路上是會(huì)出大問題的。所以我現(xiàn)在對 GPT-5.5 的態(tài)度就一句話：能干活，但別讓它單核權(quán)限。事實(shí)嚴(yán)格的鏈路要么換 Opus 4.7，要么 + RAG，要么走"GPT-5.5 + Opus reviewer + RAG"的多階段管線。

這件事不是要"黑" GPT-5.5——是工程上每個(gè)新模型都會(huì)經(jīng)歷的"從能跑到敢上線"的那道檻。Opus 4.7 用了一整代的訓(xùn)練把它的幻覺率從 61% 砍到 36%，下一代 GPT 也大概率會(huì)走這條路。只是在它走完之前，工程上要保持一份克制。

國內(nèi)開發(fā)者：先把入口鋪好，再談接入

寫到這一節(jié)又猶豫了一下。但還是寫完整——因?yàn)檫@是國內(nèi)開發(fā)者最容易被繞開、卻最現(xiàn)實(shí)的一段。

三家在國內(nèi)的可達(dá)性其實(shí)差不多——OpenAI、Anthropic、Google 的官方端點(diǎn)在國內(nèi)直連都不穩(wěn)，三家又各自有支付門檻、合規(guī)限制、賬單和發(fā)票上的問題。這些都不是"模型本身好不好"的問題，是"能不能合理地用上"的問題。

我自己現(xiàn)在的折中是用一個(gè) OpenAI 兼容的國內(nèi)中轉(zhuǎn)入口——業(yè)務(wù)代碼完全沿用 OpenAI SDK，只把 base_url 改一下、Key 換一下，就能在同一個(gè) SDK 客戶端里同時(shí)調(diào) GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro 做模型 A/B。比如詞元無憂 API就屬于這一檔——接口對標(biāo) OpenAI、按量計(jì)費(fèi)、支持人民幣結(jié)算。我把它當(dāng) PoC 階段的統(tǒng)一入口在用，避免一開始就把業(yè)務(wù)綁死在單一上游。具體合不合適你的業(yè)務(wù)，建議自己用真實(shí)流量灰度跑一周再?zèng)Q定。

把入口先做對，模型才有意義——這是這一周我最想跟同行說的一句話。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

Claude / GPT / Gemini 在我桌前的一周：三個(gè)旗艦之間的克制相處

Claude / GPT / Gemini 在我桌前的一周：三個(gè)旗艦之間的克制相處

它們各自把"長板"做得越來越像一種氣質(zhì)

AA Intelligence Index 那 3 分，沒我想的那么大

價(jià)格這一項(xiàng)，安靜地改變了很多事

那個(gè)讓我警覺的 86%

國內(nèi)開發(fā)者：先把入口鋪好，再談接入

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

Claude / GPT / Gemini 在我桌前的一周：三個(gè)旗艦之間的克制相處

它們各自把"長板"做得越來越像一種氣質(zhì)

AA Intelligence Index 那 3 分，沒我想的那么大

價(jià)格這一項(xiàng)，安靜地改變了很多事

那個(gè)讓我警覺的 86%

國內(nèi)開發(fā)者：先把入口鋪好，再談接入

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

AA Intelligence Index 那 3 分，沒我想的那么大

價(jià)格這一項(xiàng)，安靜地改變了很多事