Browser Use 全景分析|20260505

跨項目(wiki/ + wiki/wswiki/ + py-rock/)的 LLM/Agent 操作瀏覽器相關(guān)內(nèi)容匯總

一、工具棧全景

流派 代表項目 核心思路 痛點
CDP Daemon Browser Use 0.12+ 棄 Playwright,CDP 持久后臺 daemon,延遲 ~50ms,token 減 50% 視覺路徑延遲升至 15-20s
Zig 輕量引擎 Lightpanda 去 Layout/Paint,~20MB,<100ms 啟動,CDP 兼容,一行替換 Playwright 無坐標能力,反爬指紋差異
Rust 原生引擎 Obscura deno_core V8 真實 JS,30MB 內(nèi)存,85ms 加載,CDP 全兼容,Stealth 反檢測 無 Blink 渲染,需 Rust 生態(tài)
API 攔截 OpenCLI 繞過 GUI,攔截 API 請求生成 CLI 命令 純 API 場景局限
AI Native 測試 Midscene.js 自然語言描述意圖,不 fetch DOM 不截圖 生態(tài)較新
Token 極致優(yōu)化 Jina MCP 直接輸出 Markdown,token 僅為 Playwright 的 1/196 靜態(tài)文檔局限
CLI 二進制 gstack / agent-browser 編譯為 CLI 二進制避免 MCP 協(xié)議開銷 定制成本
傳統(tǒng)框架 Playwright / Puppeteer / Selenium 腳本級自動化,E2E 測試主力 每次調(diào)用啟閉 context,token 消耗大

二、關(guān)鍵數(shù)據(jù)

指標 數(shù)據(jù) 來源
Browser Use WebVoyager 成功率 89.1%(586 真實網(wǎng)頁任務(wù)) browser-use-0.12
Jina vs Playwright token 差 868 vs 170,310(196 倍,省 99.49%) jina_opencode_token_196_0
Browser Use 0.12 token 節(jié)省 CDP daemon 比 Playwright 少 50% browser-use-0.12
Lightpanda 內(nèi)存 ~20MB vs 數(shù)百 MB(Chromium) 43_lightpanda_zig_browser
Lightpanda 啟動 <100ms vs 3-5s 43_lightpanda_zig_browser
Lightpanda 并發(fā) 100+ vs 5-10 實例 43_lightpanda_zig_browser
Browser Use 命令延遲 ~50ms(CDP daemon 模式) browser-use-0.12
Browser Use 視覺路徑延遲 15-20s(每步截圖 + 推理) browser-use-0.12
Obscura 內(nèi)存 ~30MB vs 200MB+(Chrome) obscura
Obscura 二進制體積 ~70MB vs 300MB+(Chrome) obscura
Obscura 頁面加載 ~85ms vs ~500ms(Chrome) obscura
Obscura tracker 阻斷 3520 個域名 obscura

三、知識庫內(nèi)已沉淀的實踐

  • Harness Engineering:Playwright + AI 自愈腳本做 E2E 驗收
  • Agent 瀏覽器會話管理:發(fā)現(xiàn)"反復(fù)啟閉瀏覽器"問題后,沉淀為 AGENTS.md 規(guī)則——不關(guān)瀏覽器,用新 tab
  • OpenClaw 五層架構(gòu)的瀏覽器模塊:Gateway -> Pi Agent -> Tools(browser) -> Context+Memory,基于 CDP 協(xié)議
  • Browser Use 安全教訓(xùn):0.12.5 因 litellm 供應(yīng)鏈攻擊緊急移除核心依賴
  • Token 對比實驗:Playwright vs Jina 實測數(shù)據(jù)留存
  • AI Coding 交付:Playwright CLI 做用戶視角的自動化驗收

四、場景適配決策

場景 推薦方案 理由
穩(wěn)定網(wǎng)站的固定路徑自動化 Playwright 幾行腳本 低成本,高可靠
老舊表單 / 跨域嵌套 B 端工具 Browser Use + 視覺定位 CSS selector 不可靠
靜態(tài)網(wǎng)頁內(nèi)容爬取 / 調(diào)研 Jina MCP token 成本僅 0.5%
大規(guī)模并發(fā)解析 Lightpanda 20MB/實例,100+ 并發(fā)
真實 JS 渲染 + 低資源 + 反爬 Obscura 30MB 內(nèi)存,V8 真實 JS,Stealth 反檢測,3520 tracker 阻斷
Agent 決策 + 循環(huán)操作網(wǎng)頁 Browser Use CLI 2.0 可掛為 coding agent 的 skill
避免 MCP 協(xié)議稅的操作 CLI 二進制(gstack 式) 繞過 JSON Schema 編碼開銷

五、未來方向

趨同

  1. CDP 成為統(tǒng)一協(xié)議層 — Browser Use 棄 Playwright 用 CDP,Lightpanda 兼容 CDP,Obscura 原生 CDP,OpenClaw 瀏覽器模塊也基于 CDP
  2. 視覺多模態(tài)取代 CSS Selector — Gemini 3 截圖定位,解決動態(tài) DOM / 跨域 iframe 等根本性問題
  3. Token 效率戰(zhàn)爭 — Playwright(全量 DOM)→ CDP daemon(激進裁剪,-50%)→ Jina(純 Markdown,-99.5%)
  4. 輕量原生引擎崛起 — Rust (Obscura) + Zig (Lightpanda) 以 20-30MB 內(nèi)存和 <100ms 啟動挑戰(zhàn) Chromium 壟斷

待解決

  1. MCP 序列化稅 — 每次瀏覽器操作經(jīng) JSON Schema 編碼/解碼,token 浪費約 10 倍
  2. 視覺定位的高頻成本 — 每步截圖 + LLM 推理,高頻場景不可承受
  3. 反爬對抗 — Lightpanda 指紋差異,Browser Use headless Chromium 特征
  4. 會話持久性 — 多輪 Agent 任務(wù)中瀏覽器狀態(tài)管理和上下文復(fù)用

值得關(guān)注

  • Browser Use 自訓(xùn)模型 bu-30b-a3b-preview
  • Lightpanda Serverless 部署潛力(百毫秒冷啟動,100+ 并發(fā))
  • OpenClaw ACP 協(xié)議 + ArkClaw 多場景實踐(金融選題、評論收集、財報分析)

核心判斷:Browser Use 解決了"Agent 能不能操控瀏覽器"的問題,下一階段戰(zhàn)場是 Token 效率 × 操作可靠性 × 成本可控 的三角平衡

參考來源

  • [[wiki/entities/browser-use.md]]
  • [[wiki/entities/obscura.md]]
  • [[wiki/entities/claw-openclaw.md]]
  • [[wiki/concepts/browser-engines.md]]
  • [[raw/browser-use-0.12.md]]
  • [[raw/43_lightpanda_zig_browser.md]]
  • [[raw/jina_opencode_token_196_0.md]]
  • [[raw/01_browser_automation_opencli.md]]
  • [[raw/26_d2_harness_engineering.md]]
  • [[wiki/21_wisesearch/05_aicoding/references/ai.md]]
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容