按住说话 → 实时语音识别 → AI 回复 → ElevenLabs 语音合成 → 播放
这一套下来,你就有自己的贾维斯了!
想象一下:早上起床,喊一声 "Hey OpenClaw,今天天气怎么样?"
AI 立刻回答:"北京今天晴,15-28 度,适合穿轻薄外套..."
Talk Mode 是一个连续的语音对话循环,整个过程只需要 4 步:
检测麦克风输入,等待你说话
语音转文字,发送给 AI 模型
AI 处理并生成回复文本
文字转语音,通过扬声器播放
在 ~/.openclaw/openclaw.json 中添加:
{
talk: {
voiceId: "你的 ElevenLabs voice ID",
modelId: "eleven_v3",
apiKey: "你的 ElevenLabs API Key",
silenceTimeoutMs: 1500,
interruptOnSpeech: true
}
}
在 macOS 菜单栏点击 Talk 按钮,或者直接语音唤醒(配合 Voice Wake)
按住说话,说完松开,AI 会立刻回复你!
当 AI 正在说话时,你突然想改问题——直接开口就行!AI 会立刻停下,听你说新的内容。
在 AI 回复的开头加一行 JSON,可以切换声音:
{ "voice": "另一个 voice ID", "once": true }
# 上面这行会被 Strip 掉,不会读出来,但会让 AI 用这个声音说话
"once": true" 表示只换这一次的声音
{ "speed": 120 } # 120 WPM,语速加快
{ "style": 0.8 } # 0-1 之间,越高越有表现力
"Hey OpenClaw,最近的加油站在哪里?" 眼睛不离路,AI 给你指方向
"帮我总结一下今天的科技新闻" AI 朗读要点,不用看手机
"红烧肉怎么做?" 手上有油也能问,AI 念步骤
"明早 7 点叫我起床" 不用摸手机,语音搞定