Agent Browser
专为 AI Agent 设计的浏览器自动化工具,通过独特的"快照+引用 ID"机制,将 Token 消耗降低 90%
$ npx skills add vercel-labs/agent-browser 技术规格
数据源:GitHub Repository 自动同步
| 工具函数 | 参数 | 类型 | 必填 | 说明 |
|---|---|---|---|---|
browse_page | url | string | ● | 目标网页地址 (支持 http/https) |
wait_for | string | ○ | 等待出现的 CSS 选择器 | |
interact_element | action | enum | ● | 可选值: click, type, scroll, hover |
element_id | string | ● | 元素引用 ID (如 @e1) | |
text | string | ○ | 输入内容 |
深度评测
1. 技能用途
这就好比给 AI 配了一副”智能眼镜”。传统的浏览器工具会把整个网页的 HTML 代码(几万行)丢给 AI,瞬间撑爆上下文。
Agent Browser 的核心绝技是 “Snapshot” —— 它不给代码,而是给一张精简的”地图”,并将所有可点击元素标记为 @e1, @e2 这种短代码。它解决了”让 Agent 在有限 Token 预算内浏览复杂网页”的核心痛点。
2. 技能靠谱度
Vercel Labs 出品,必属精品。作为 Next.js 的母公司,Vercel 对 Web 标准的理解极深。该工具更新极快,完美支持最新的 Headless Chrome 协议,且针对 Claude 3.5 Sonnet 和 GPT-4o 进行了官方调优。
3. 技能价值
省钱神器。
实测在一个标准电商购物流程中,相比使用 Playwright 原始代码,Agent Browser 能节省 90% 的 Token 消耗。对于需要大规模运行 Agent 的企业,这直接等于节省了 90% 的 API 成本。
| 场景 | Playwright 原始 | Agent Browser | 节省率 |
|---|---|---|---|
| 简单页面加载 | 8,000 tokens | 800 tokens | 90% |
| 电商购物流程 | 45,000 tokens | 4,200 tokens | 91% |
| 表单填写 | 12,000 tokens | 1,100 tokens | 92% |
适用人群:需要浏览器自动化的开发者、AI Agent 研究者
风险:无风险,官方维护,稳定可靠。
4. 如何用好这个技能?
快速上手
- 对 Claude 说:“帮我打开 [网址] 并点击 [按钮]”
- Claude 自动返回可交互元素的快照
- 使用
@e1,@e2等短代码引用元素
详细指南
Agent Browser 的输出格式是专门为 LLM 训练过的:
❌ 传统输出: <div class="btn-primary w-full..." id="xyz">Submit</div>
✅ Agent-Browser 输出: [Button] Submit (@e45)
这种结构化数据让 AI 几乎不会产生”点击失败”的幻觉。
配合 vercel-react-best-practices 使用,可以让 Agent 在读取网页后生成的代码更符合 Vercel 部署规范。
⚠️ 避坑TIPS
- ❌ 动态内容:如果页面使用大量 JavaScript 动态渲染,建议使用
wait_for参数等待关键元素出现 - ❌ iframe 处理:当前版本对 iframe 的支持有限,如果目标页面包含 iframe,可能需要额外处理
- ❌ Token 预算:虽然 Snapshot 模式大幅降低 Token 消耗,但复杂页面仍可能产生较大开销
vercel-react-best-practices 使用,可以让 Agent 在读取网页后生成的代码更符合 Vercel 部署规范。