流式输出(Streaming)

技术特性 | 更新于 2026-06-17 | 妙趣AI术语百科

📖 定义

Streaming(流式输出)是指大语言模型在生成回答时,逐token实时输出结果,而不是等全部生成完毕后一次性返回。这大大提升了用户体验——用户可以看到文字"一个一个蹦出来",而不是等待漫长的空白。

🧠 Streaming 的工作原理

// 传统方式:等待完整响应
请求 → [等待5秒] → 完整回答

// Streaming方式:实时输出
请求 → "你" → "好" → "!" → "我" → "是" → "AI" → ...
// 用户立即看到第一个字,体验更好

技术实现:SSE(Server-Sent Events)

// SSE 数据格式
data: {"id":"chatcmpl-1","choices":[{"delta":{"content":"你"}}]}
data: {"id":"chatcmpl-1","choices":[{"delta":{"content":"好"}}]}
data: {"id":"chatcmpl-1","choices":[{"delta":{"content":"!"}}]}
data: [DONE]

🔧 OpenClaw 的流式处理

OpenClaw 在多个层面使用Streaming:

// OpenClaw Streaming 配置
{
  "streaming": true,
  "chunkSize": 1,        // 每次输出1个token
  "bufferFlushMs": 50    // 50ms刷新一次缓冲区
}
💡 妙趣提示:Streaming就像外卖的"实时追踪"——与其干等不知道什么时候到,不如看着骑手一步步靠近,心理上感觉更快。实际上总时间一样,但体验好太多了。

⚡ Streaming vs 非Streaming

指标Streaming非Streaming
首字延迟~200ms~5s
用户体验实时反馈等待空白
总耗时相同相同
错误处理可中途停止需等待完成

⚠️ 注意事项

注意:
← 返回术语百科首页