News Hacker|极客洞察

38 64 天前 github.com
🤖开源面向 AI Agent 的浏览器:挑战 CDP、在 Mind2Web 拿高分并支持暂停降耗
又要重新发明浏览器协议来取代 CDP 吗?

🎯 讨论背景

这是一个 Show HN 帖子,作者展示了一个为 AI agents 定制的开源浏览器实现,声称在 Online Mind2Web 基准上表现优异并提供暂停/冻结执行接口以降低资源占用。评论围绕该项目是否能替代传统的 CDP(Chrome DevTools Protocol)、与 agent-browser(基于 CDP/puppeteer 的 CLI 封装)比较、以及基准可比性和复现性展开。讨论引用了 ABP 配合 Opus 4.6 的 90.5% 分数、Hugging Face leaderboard 的可见性问题和 GitHub 上保存的运行记录,并提到 ArchiveBox(网站归档工具)等项目可能从暂停特性中获益。理解讨论需要掌握 CDP、agent 浏览器协议与基准评测在资源和上下文管理上的权衡。

📌 讨论焦点

替代 CDP 的可能性

部分评论从第一性原理出发认为这个开源浏览器能回答“我们是否还需要 CDP”的问题,理由是它为 agent 场景做了不同的设计取舍。评论指出 CDP(Chrome DevTools Protocol)是为另一类自动化设计的,通用性强但在 agent 专用的上下文管理和执行控制上有限制。有人进一步强调 agent-browser(基于 CDP/puppeteer 的工具)只是对 CDP 的 CLI 封装,会继承 CDP 的优缺点,从而凸显出为 agent 量身定制的浏览器接口的潜在价值。总体论点集中在:agent 导向的浏览器协议可能在执行控制和资源管理上比通用 CDP 更合适。

[来源1] [来源2] [来源3] [来源4]

基准与性能争论(Online Mind2Web)

讨论引用了 ABP 与 Opus 4.6 驱动在 Online Mind2Web 基准上得分 90.5% 作为性能证明,但有人质疑可比性并询问相同模型在“常规”浏览器 harness(如 CDP/puppeteer)下的得分。后续评论给出了更细的统计口径:90% 为 average,hard 组达到 85.51%,并指出 Hugging Face 的 leaderboard 暂时看不到 Opus 4.6 条目,因为评测验证有排队。评论还提供了包含保存运行结果和本地复现说明的 GitHub 仓库链接,方便读者复现评测并做横向比较。

[来源1] [来源2] [来源3] [来源4] [来源5] [来源6] [来源7]

资源管理与对其他项目的适用性

评论指出该浏览器的“暂停/冻结执行”特性在资源消耗上有实际效果:暂停期间 CPU 使用接近零,可以通过 REST/MCP 接口远程触发,从而避免长时间占用浏览器实例。有人把这一点和 ArchiveBox(一个网站归档工具)过去遇到的 Chrome 实例耗尽内存的问题联系起来,认为冻结执行可能缓解这类内存/CPU 吃满的情形。另有用户表示会在自家 homelab 与抓取服务结合试验该功能,以降低渲染阶段的资源开销。

[来源1] [来源2] [来源3]

与 agent-browser(基于 CDP 的工具)的对比需求

有评论请求把该项目与 agent-browser(一个为 agent 提供 CLI 封装、基于 CDP/puppeteer 的工具)加入比较表以便评估差异。作者/回复说明 agent-browser 的主要卖点是对 CDP/puppeteer 做 CLI 封装并管理上下文,因此会继承 CDP 的优缺点,暗示两者在实现层面存在权衡。讨论集中在实现方法不同导致的权衡:CLI+CDP 的通用性与 agent 专用浏览器在执行控制、暂停机制和资源管理上的差异需要通过比较来量化。

[来源1] [来源2] [来源3]

📚 术语解释

CDP (Chrome DevTools Protocol): CDP(Chrome DevTools Protocol):Chrome/Chromium 提供的远程调试与自动化协议,常被 puppeteer 等库用来控制浏览器、执行脚本、获取 DOM 和浏览器状态。

ABP (agent-browser-protocol): ABP(agent-browser-protocol):针对 AI agent 的浏览器协议/驱动实现,评论中作为驱动被用于在 Online Mind2Web 基准上跑分并展示性能。

Online Mind2Web benchmark: Online Mind2Web 基准:衡量将“思维”或任务规划转化为网页操作(Mind2Web)能力的在线评测/排行榜,讨论里引用了 leaderboard、保存的运行结果和复现仓库来验证得分。

agent-browser (agent-browser.dev): agent-browser(agent-browser.dev):一个为 AI agent 提供的浏览器集成工具/CLI,基于 CDP/puppeteer 做上下文管理和封装,目的是简化 agent 与浏览器的交互。