当 web_fetch 搞不定动态页面时,Browser Automation 就是 Agent 的"眼睛和手"——它能像人一样操作浏览器,点击、输入、截图、提取数据。
Browser Automation 是 OpenClaw 提供的浏览器控制能力,基于 Playwright 实现。Agent 可以通过 browser 工具控制 Chromium 浏览器,执行网页导航、元素交互、截图、数据提取等操作。
| 场景 | web_fetch | browser |
|---|---|---|
| 静态页面内容 | ✅ 快速、轻量 | ⚠️ 杀鸡用牛刀 |
| JavaScript 渲染页面 | ❌ 拿不到内容 | ✅ 完美支持 |
| 需要登录的页面 | ❌ 无法处理 | ✅ 复用登录态 |
| 表单填写/提交 | ❌ 不支持 | ✅ 完整支持 |
| 截图/PDF | ❌ 不支持 | ✅ 支持 |
# 1. 打开页面
browser action=open url="https://example.com"
# 2. 获取页面快照(DOM 结构)
browser action=snapshot
# 3. 点击元素
browser action=act kind=click ref="e12"
# 4. 输入文本
browser action=act kind=fill ref="e15" text="搜索内容"
# 5. 截图
browser action=screenshot
# 6. 执行 JavaScript
browser action=act kind=evaluate fn="document.title"
# 打开竞品网站
browser action=open url="https://competitor.com/pricing"
# 截图存档
browser action=screenshot fullPage=true
# 提取价格信息
browser action=act kind=evaluate fn="document.querySelector('.pricing').innerText"
# 打开表单页面
browser action=open url="https://example.com/form"
# 填写字段
browser action=act kind=fill ref="e10" text="张三"
browser action=act kind=fill ref="e12" text="zhangsan@example.com"
# 提交
browser action=act kind=click ref="e20"