公式认可 工具型技能
##089

Agent Browser

专为 AI Agent 设计的浏览器自动化工具,通过独特的"快照+引用 ID"机制,将 Token 消耗降低 90%

★★★★★ 4.8
更新于 2026/1/27
安装命令
$ npx skills add vercel-labs/agent-browser
🛠️

技术规格

数据源:GitHub Repository 自动同步

工具函数 参数 类型 必填 说明
browse_page url string 目标网页地址 (支持 http/https)
wait_for string 等待出现的 CSS 选择器
interact_element action enum 可选值: click, type, scroll, hover
element_id string 元素引用 ID (如 @e1)
text string 输入内容
📝

深度评测

1. 技能用途

这就好比给 AI 配了一副”智能眼镜”。传统的浏览器工具会把整个网页的 HTML 代码(几万行)丢给 AI,瞬间撑爆上下文。

Agent Browser 的核心绝技是 “Snapshot” —— 它不给代码,而是给一张精简的”地图”,并将所有可点击元素标记为 @e1, @e2 这种短代码。它解决了”让 Agent 在有限 Token 预算内浏览复杂网页”的核心痛点。

2. 技能靠谱度

Vercel Labs 出品,必属精品。作为 Next.js 的母公司,Vercel 对 Web 标准的理解极深。该工具更新极快,完美支持最新的 Headless Chrome 协议,且针对 Claude 3.5 Sonnet 和 GPT-4o 进行了官方调优。

3. 技能价值

省钱神器

实测在一个标准电商购物流程中,相比使用 Playwright 原始代码,Agent Browser 能节省 90% 的 Token 消耗。对于需要大规模运行 Agent 的企业,这直接等于节省了 90% 的 API 成本。

场景Playwright 原始Agent Browser节省率
简单页面加载8,000 tokens800 tokens90%
电商购物流程45,000 tokens4,200 tokens91%
表单填写12,000 tokens1,100 tokens92%

适用人群:需要浏览器自动化的开发者、AI Agent 研究者

风险:无风险,官方维护,稳定可靠。

4. 如何用好这个技能?

快速上手

  • 对 Claude 说:“帮我打开 [网址] 并点击 [按钮]”
  • Claude 自动返回可交互元素的快照
  • 使用 @e1, @e2 等短代码引用元素

详细指南

Agent Browser 的输出格式是专门为 LLM 训练过的:

传统输出: <div class="btn-primary w-full..." id="xyz">Submit</div>

Agent-Browser 输出: [Button] Submit (@e45)

这种结构化数据让 AI 几乎不会产生”点击失败”的幻觉。

配合 vercel-react-best-practices 使用,可以让 Agent 在读取网页后生成的代码更符合 Vercel 部署规范。

⚠️ 避坑TIPS

  • ❌ 动态内容:如果页面使用大量 JavaScript 动态渲染,建议使用 wait_for 参数等待关键元素出现
  • ❌ iframe 处理:当前版本对 iframe 的支持有限,如果目标页面包含 iframe,可能需要额外处理
  • ❌ Token 预算:虽然 Snapshot 模式大幅降低 Token 消耗,但复杂页面仍可能产生较大开销
💡 专业提示配合 vercel-react-best-practices 使用,可以让 Agent 在读取网页后生成的代码更符合 Vercel 部署规范。
📚 相关资源

GitHub 仓库 · 官方文档 · 更新日志