凌晨1点,我盯着屏幕上那个闪烁的光标。Gemini 2.5 Pro 的多模态能力让我想起了王家卫电影里的独白——它看图、读文、听声音,像一个永远不会疲倦的诗人。我说,好吧,让我把你接入 OpenClaw。
Google Gemini 是 Google 的多模态大语言模型系列,支持文本、图片、音频、视频的统一理解与生成。将其集成到 OpenClaw 后,你的 AI Agent 将获得:
# 1. 访问 Google AI Studio
# https://aistudio.google.com/
# 2. 创建 API Key
# 3. 复制你的 API Key
# 编辑 OpenClaw 配置文件
export GOOGLE_API_KEY="your-gemini-api-key"
# 或写入 .env 文件
echo 'GOOGLE_API_KEY=your-gemini-api-key' >> ~/.openclaw/.env
# 重启 OpenClaw Gateway
openclaw gateway restart
# 在 OpenClaw 配置中设置默认模型
# config.yaml 或通过命令行参数
# 使用 Gemini 2.5 Pro
openclaw chat --model google/gemini-2.5-pro
# 使用 Gemini 2.5 Flash(更快速、更便宜)
openclaw chat --model google/gemini-2.5-flash
# 使用 Gemini 2.5 Flash-Lite(最轻量)
openclaw chat --model google/gemini-2.5-flash-lite
# SOUL.md 中指定模型
# 模型: google/gemini-2.5-pro
# 或通过 /model 命令临时切换
# 在对话中输入: /model google/gemini-2.5-pro
# SOUL.md 配置示例
# ---
# model: google/gemini-2.5-pro
# capabilities: vision, file-analysis
# ---
## 身份
我是一个多模态分析 Agent,能够理解图片、文本和文档。
## 工作流程
1. 接收用户上传的图片/文档
2. 使用 Gemini 的多模态能力进行分析
3. 输出结构化分析结果
## 擅长场景
- UI 截图分析
- 错误信息识别
- 文档 OCR 提取
- 数据图表解读
# 利用 Gemini 超长上下文处理大文件
## 工作流配置
# 1. 读取大文件(如100页PDF转文本)
# 2. 直接传入完整内容(无需分段)
# 3. 基于全局理解生成摘要
# 示例:处理整个代码仓库
# 将所有代码文件合并后传入
find . -name "*.py" -exec cat {} \; | head -c 800000 > all_code.txt
# 直接让 Gemini 分析整个代码库
# OpenClaw 配置中的模型路由
models:
primary: google/gemini-2.5-pro
fallback:
- google/gemini-2.5-flash
- google/gemini-2.5-flash-lite
routing:
simple_queries: google/gemini-2.5-flash
complex_reasoning: google/gemini-2.5-pro
batch_processing: google/gemini-2.5-flash-lite
© 2026 妙趣AI - 让 AI 工具使用更有趣 | 返回首页