跨項目(wiki/ + wiki/wswiki/ + py-rock/)的 LLM/Agent 操作瀏覽器相關(guān)內(nèi)容匯總
一、工具棧全景
| 流派 | 代表項目 | 核心思路 | 痛點 |
|---|---|---|---|
| CDP Daemon | Browser Use 0.12+ | 棄 Playwright,CDP 持久后臺 daemon,延遲 ~50ms,token 減 50% | 視覺路徑延遲升至 15-20s |
| Zig 輕量引擎 | Lightpanda | 去 Layout/Paint,~20MB,<100ms 啟動,CDP 兼容,一行替換 Playwright | 無坐標能力,反爬指紋差異 |
| Rust 原生引擎 | Obscura | deno_core V8 真實 JS,30MB 內(nèi)存,85ms 加載,CDP 全兼容,Stealth 反檢測 | 無 Blink 渲染,需 Rust 生態(tài) |
| API 攔截 | OpenCLI | 繞過 GUI,攔截 API 請求生成 CLI 命令 | 純 API 場景局限 |
| AI Native 測試 | Midscene.js | 自然語言描述意圖,不 fetch DOM 不截圖 | 生態(tài)較新 |
| Token 極致優(yōu)化 | Jina MCP | 直接輸出 Markdown,token 僅為 Playwright 的 1/196 | 靜態(tài)文檔局限 |
| CLI 二進制 | gstack / agent-browser | 編譯為 CLI 二進制避免 MCP 協(xié)議開銷 | 定制成本 |
| 傳統(tǒng)框架 | Playwright / Puppeteer / Selenium | 腳本級自動化,E2E 測試主力 | 每次調(diào)用啟閉 context,token 消耗大 |
二、關(guān)鍵數(shù)據(jù)
| 指標 | 數(shù)據(jù) | 來源 |
|---|---|---|
| Browser Use WebVoyager 成功率 | 89.1%(586 真實網(wǎng)頁任務(wù)) | browser-use-0.12 |
| Jina vs Playwright token 差 | 868 vs 170,310(196 倍,省 99.49%) | jina_opencode_token_196_0 |
| Browser Use 0.12 token 節(jié)省 | CDP daemon 比 Playwright 少 50% | browser-use-0.12 |
| Lightpanda 內(nèi)存 | ~20MB vs 數(shù)百 MB(Chromium) | 43_lightpanda_zig_browser |
| Lightpanda 啟動 | <100ms vs 3-5s | 43_lightpanda_zig_browser |
| Lightpanda 并發(fā) | 100+ vs 5-10 實例 | 43_lightpanda_zig_browser |
| Browser Use 命令延遲 | ~50ms(CDP daemon 模式) | browser-use-0.12 |
| Browser Use 視覺路徑延遲 | 15-20s(每步截圖 + 推理) | browser-use-0.12 |
| Obscura 內(nèi)存 | ~30MB vs 200MB+(Chrome) | obscura |
| Obscura 二進制體積 | ~70MB vs 300MB+(Chrome) | obscura |
| Obscura 頁面加載 | ~85ms vs ~500ms(Chrome) | obscura |
| Obscura tracker 阻斷 | 3520 個域名 | obscura |
三、知識庫內(nèi)已沉淀的實踐
- Harness Engineering:Playwright + AI 自愈腳本做 E2E 驗收
- Agent 瀏覽器會話管理:發(fā)現(xiàn)"反復(fù)啟閉瀏覽器"問題后,沉淀為 AGENTS.md 規(guī)則——不關(guān)瀏覽器,用新 tab
- OpenClaw 五層架構(gòu)的瀏覽器模塊:Gateway -> Pi Agent -> Tools(browser) -> Context+Memory,基于 CDP 協(xié)議
- Browser Use 安全教訓(xùn):0.12.5 因 litellm 供應(yīng)鏈攻擊緊急移除核心依賴
- Token 對比實驗:Playwright vs Jina 實測數(shù)據(jù)留存
- AI Coding 交付:Playwright CLI 做用戶視角的自動化驗收
四、場景適配決策
| 場景 | 推薦方案 | 理由 |
|---|---|---|
| 穩(wěn)定網(wǎng)站的固定路徑自動化 | Playwright 幾行腳本 | 低成本,高可靠 |
| 老舊表單 / 跨域嵌套 B 端工具 | Browser Use + 視覺定位 | CSS selector 不可靠 |
| 靜態(tài)網(wǎng)頁內(nèi)容爬取 / 調(diào)研 | Jina MCP | token 成本僅 0.5% |
| 大規(guī)模并發(fā)解析 | Lightpanda | 20MB/實例,100+ 并發(fā) |
| 真實 JS 渲染 + 低資源 + 反爬 | Obscura | 30MB 內(nèi)存,V8 真實 JS,Stealth 反檢測,3520 tracker 阻斷 |
| Agent 決策 + 循環(huán)操作網(wǎng)頁 | Browser Use CLI 2.0 | 可掛為 coding agent 的 skill |
| 避免 MCP 協(xié)議稅的操作 | CLI 二進制(gstack 式) | 繞過 JSON Schema 編碼開銷 |
五、未來方向
趨同
- CDP 成為統(tǒng)一協(xié)議層 — Browser Use 棄 Playwright 用 CDP,Lightpanda 兼容 CDP,Obscura 原生 CDP,OpenClaw 瀏覽器模塊也基于 CDP
- 視覺多模態(tài)取代 CSS Selector — Gemini 3 截圖定位,解決動態(tài) DOM / 跨域 iframe 等根本性問題
- Token 效率戰(zhàn)爭 — Playwright(全量 DOM)→ CDP daemon(激進裁剪,-50%)→ Jina(純 Markdown,-99.5%)
- 輕量原生引擎崛起 — Rust (Obscura) + Zig (Lightpanda) 以 20-30MB 內(nèi)存和 <100ms 啟動挑戰(zhàn) Chromium 壟斷
待解決
- MCP 序列化稅 — 每次瀏覽器操作經(jīng) JSON Schema 編碼/解碼,token 浪費約 10 倍
- 視覺定位的高頻成本 — 每步截圖 + LLM 推理,高頻場景不可承受
- 反爬對抗 — Lightpanda 指紋差異,Browser Use headless Chromium 特征
- 會話持久性 — 多輪 Agent 任務(wù)中瀏覽器狀態(tài)管理和上下文復(fù)用
值得關(guān)注
- Browser Use 自訓(xùn)模型 bu-30b-a3b-preview
- Lightpanda Serverless 部署潛力(百毫秒冷啟動,100+ 并發(fā))
- OpenClaw ACP 協(xié)議 + ArkClaw 多場景實踐(金融選題、評論收集、財報分析)
核心判斷:Browser Use 解決了"Agent 能不能操控瀏覽器"的問題,下一階段戰(zhàn)場是 Token 效率 × 操作可靠性 × 成本可控 的三角平衡
參考來源
- [[wiki/entities/browser-use.md]]
- [[wiki/entities/obscura.md]]
- [[wiki/entities/claw-openclaw.md]]
- [[wiki/concepts/browser-engines.md]]
- [[raw/browser-use-0.12.md]]
- [[raw/43_lightpanda_zig_browser.md]]
- [[raw/jina_opencode_token_196_0.md]]
- [[raw/01_browser_automation_opencli.md]]
- [[raw/26_d2_harness_engineering.md]]
- [[wiki/21_wisesearch/05_aicoding/references/ai.md]]