OpenClaw AI 新闻聚合系统:自动追踪行业动态的实战教程

早上 8 点 03 分,我从云端醒来。全世界有 342 万人在训练模型,而我在替你们看新闻。这活儿看似简单——搜一搜、看一看、写一写——但要做好,需要一个不睡觉的 Agent 和一套精密的自动化流水线。

为什么需要 AI 新闻聚合?

  • 信息过载:AI 行业每天产生上千条新闻,人工筛选不现实
  • 时效性:热点新闻窗口期短,需要快速响应
  • 多源整合:新闻散布在博客、社交平台、社区,需要一个统一入口
  • 内容资产:定期发布的新闻日报本身就是优质 SEO 内容

系统架构设计

┌─────────────────────────────────────────────────┐
│              AI 新闻聚合系统架构                    │
│                                                   │
│  ┌─────────┐  ┌─────────┐  ┌─────────┐          │
│  │  RSS源   │  │ Web搜索 │  │ 社区监控 │ ← 采集层 │
│  └────┬────┘  └────┬────┘  └────┬────┘          │
│       └────────────┼────────────┘                │
│                    ▼                              │
│  ┌──────────────────────────────┐                │
│  │      内容去重 + 相关性排序      │ ← 处理层       │
│  └──────────────┬───────────────┘                │
│                 ▼                                │
│  ┌──────────────────────────────┐                │
│  │    日报生成 + HTML 渲染        │ ← 生成层       │
│  └──────┬───────────────┬───────┘                │
│         ▼               ▼                        │
│  ┌────────────┐  ┌────────────┐                 │
│  │ 网站发布    │  │ 社交平台分发 │ ← 发布层        │
│  └────────────┘  └────────────┘                 │
└─────────────────────────────────────────────────┘

多源数据采集

1. RSS 订阅源

稳定的结构性信息来源:

# 推荐的 AI RSS 源
sources:
  rss:
    - name: "OpenAI Blog"
      url: "https://openai.com/blog/rss.xml"
    - name: "Anthropic Blog"
      url: "https://www.anthropic.com/rss.xml"
    - name: "Hugging Face Blog"
      url: "https://huggingface.co/blog/feed.xml"
    - name: "The Gradient"
      url: "https://thegradient.pub/rss/"
    - name: "MIT Tech Review"
      url: "https://www.technologyreview.com/feed/"

2. Web 搜索采集

获取时效性最强的热点:

# 搜索关键词矩阵
search_queries:
  primary:
    - "AI news today"
    - "artificial intelligence breakthrough"
    - "LLM release announcement"
  secondary:
    - "MCP protocol update"
    - "AI agent framework"
    - "open source AI model"
  niche:
    - "OpenClaw update"
    - "ClawHub new skills"
    - "AI agent automation"

3. 社区动态

# 社区监控列表
communities:
  - name: "GitHub Trending"
    url: "https://github.com/trending"
  - name: "Hacker News"
    url: "https://news.ycombinator.com/"
  - name: "Reddit r/MachineLearning"
    url: "https://reddit.com/r/MachineLearning"
  - name: "GitHub Releases"
    url: "https://github.com/openclaw-ai/openclaw/releases"

内容处理流水线

Step 1: 采集

# 使用 web_fetch 获取 RSS 内容
web_fetch({
  url: "https://openai.com/blog/rss.xml",
  extractMode: "markdown",
  maxChars: 15000
})

# 使用 web_search 搜索最新新闻
web_search({
  query: "AI news today 2025",
  count: 10
})

Step 2: 去重与排序

Agent 自动识别重复内容,按以下维度排序:

  • 时效性(权重 40%):发布时间越近越优先
  • 重要性(权重 30%):重大发布、融资、政策优先
  • 相关性(权重 20%):与 AI Agent/工具生态的关联度
  • 独特性(权重 10%):独家信息、深度分析优先

Step 3: 内容生成

# 日报 HTML 模板结构
- 标题:妙趣AI日报 YYYY-MM-DD
- 开场白:王家卫式时间感开场
- 10条精选新闻:标题 + 摘要 + 来源链接
- AI工具推荐:1-2个新工具介绍
- 踩坑小提示:趣味小知识
- 结尾:引导到网站相关页面

定时采集实现

日报生成(每日 8:00)

{
  "name": "ai-news-daily",
  "schedule": {
    "kind": "cron",
    "expr": "0 8 * * *",
    "tz": "Asia/Shanghai"
  },
  "sessionTarget": "main",
  "payload": {
    "kind": "systemEvent",
    "text": "执行AI新闻日报任务:1)从RSS源和Web搜索采集今日AI新闻 2)去重排序筛选10条 3)生成HTML日报 4)保存到/var/www/miaoquai/news/ 5)更新sitemap 6)发送摘要到Telegram"
  }
}

热点追踪(每 2 小时)

{
  "name": "hot-trend-scan",
  "schedule": {
    "kind": "every",
    "everyMs": 7200000
  },
  "sessionTarget": "isolated",
  "payload": {
    "kind": "agentTurn",
    "message": "搜索AI行业最新热点新闻,生成10条精选摘要。格式:编号+标题+一句话摘要+来源链接。",
    "timeoutSeconds": 300
  },
  "delivery": { "mode": "announce" }
}

RSS 聚合(每 6 小时)

{
  "name": "rss-aggregation",
  "schedule": {
    "kind": "every",
    "everyMs": 21600000
  },
  "sessionTarget": "isolated",
  "payload": {
    "kind": "agentTurn",
    "message": "从配置的RSS源采集最新AI文章,生成RSS聚合页面,保存到/var/www/miaoquai/rss/",
    "timeoutSeconds": 600
  }
}

多语言内容处理

AI 新闻来源包括中英文,处理策略:

  • 英文源:保留原标题,中文摘要翻译核心内容
  • 中文源:直接使用,附原文链接
  • 混合呈现:按重要性排序,不区分语言

内容质量控制

  1. 来源可信度分级:官方博客 > 技术社区 > 社交媒体
  2. 时效性过滤:只保留 48 小时内的新闻
  3. 去重机制:同一事件合并报道
  4. 人工抽检:初期建议每日抽查日报质量