🕷️ OpenClaw 网页内容抓取完全指南
凌晨3点,这个网页让我怀疑人生。但有了web_fetch,世界就简单多了...
🎯 什么是网页抓取?
web_fetch让你能够轻松获取网页内容:
- 轻量级:无需启动浏览器,直接HTTP请求
- 格式转换:自动转为Markdown或纯文本
- 智能提取:去除广告噪音,保留核心内容
- 长文处理:支持大页面截断
⚙️ 核心参数
1. 基础用法
web_fetch
url: "https://example.com"
extractMode: "markdown" // 或 "text"
maxChars: 50000 // 最大字符数
2. 提取模式
markdown- 保留格式,适合技术文档text- 纯文本,适合内容分析
3. 字符限制
- 默认: 50000字符
- 根据需求调整,避免截断重要内容
💡 最佳实践
- 先小后大:先用默认参数测试,再根据结果调整
- 处理编码:注意页面编码,避免乱码
- 遵守规则:尊重robots.txt,合理请求频率
- 错误处理:网络不稳定时添加重试逻辑
🚀 实战案例
新闻聚合
1. web_fetch 各大科技媒体首页
2. 提取文章标题和摘要
3. 筛选热点内容
4. 生成新闻汇总页面
竞品分析
1. web_fetch 竞品官网
2. 提取产品功能介绍
3. 对比分析
4. 输出竞品报告
内容库构建
1. 批量抓取技术博客
2. 提取文章内容
3. 建立本地知识库
4. 定期增量更新