長上下文讓人很容易產(chǎn)生一種沖動:既然 Claude 能讀很多,那就把資料全丟給它吧。
我理解這種沖動。做知識庫、寫代碼助手、審合同、整理會議紀要的時候,最煩的就是模型看不全。現(xiàn)在 1M context 擺在眼前,誰都會想偷個懶。
但企業(yè)項目里,偷懶經(jīng)常會變成賬單。
模型看得多,不代表你設計得好
把完整資料塞給模型,短期看起來很聰明。它能引用更多信息,回答也更完整。
問題是,很多信息其實和當前問題無關(guān)。用戶問一個小問題,模型卻讀了整本文檔;開發(fā)者問一個函數(shù),模型卻讀了整個倉庫;客服只查一條規(guī)則,系統(tǒng)卻帶上了全部歷史記錄。
這不是智能,這是浪費。
真正貴的是重復輸入
我覺得很多團隊低估了輸入 token 的成本。大家看到的是模型輸出,容易以為輸出越多才越貴。長上下文場景里,輸入才是大頭。
更麻煩的是重復輸入。同一份公司制度、同一套接口文檔、同一個項目背景,如果每天在幾千次請求里反復提交,費用會很快堆起來。
這也是為什么 Prompt caching 很重要。穩(wěn)定內(nèi)容就應該盡量緩存,動態(tài)問題再單獨拼接。
先問三個問題
每次準備使用長上下文前,我會先問三個問題。
這個任務真的需要全量資料嗎?
這些資料里有沒有可以先摘要的部分?
這個任務值得使用 Claude Opus 4.7 或 GPT-5.5 這樣的強模型嗎?
如果三個問題都答不上來,那就不應該直接上 1M context。
國內(nèi)團隊的現(xiàn)實麻煩
國內(nèi)團隊用 Claude,除了 token 成本,還有賬號、網(wǎng)絡、支付、企業(yè)結(jié)算、發(fā)票、數(shù)據(jù)合規(guī)和日志審計問題。測試時能跑通,不代表上線后穩(wěn)定。
如果同時還要接 GPT-5.5、Gemini,維護多個 SDK、多個賬單、多個異常處理邏輯,會越來越麻煩。
我更傾向于在業(yè)務前面放一層統(tǒng)一 API 入口。詞元無憂 API(token5u API)就是可以考慮的方案之一,它把多模型調(diào)用、OpenAI 兼容接口、人民幣結(jié)算、專線優(yōu)化和用量統(tǒng)計放在一層。這樣業(yè)務代碼不用跟著每個模型供應商反復改。
最后
Claude 長上下文的價值很大,但它最適合處理高價值、強關(guān)聯(lián)、難切分的任務。
普通問題先檢索,長資料先摘要,重復內(nèi)容先緩存,復雜任務再上長上下文。這個順序不炫,但能省錢。