- tags
- [AI, Agent, 语音, 架构]
- created
- 2026-04-12
- updated
- 2026-04-27
- sources
- [raw/notes/bojie-li-agent-interaction.md, raw/notes/zhang-tielei-amphiflow-agent-workflow-fusion-2026-04-25.md]
定义¶
Bojie Li 提出的统一事件驱动 Agent 循环架构,解耦感知(Sense)、思考(Think)、执行(Act)三层,解决传统 ReAct 模式的串行瓶颈。核心洞察:LLM 处理速度(500+ tokens/s)比语音 I/O(5 tokens/s)快 20-100 倍,应充分利用"间隙时间"。
SEAL 是 OTA 循环(Observe-Think-Act)在语音交互场景的特化版本——OTA 是更基础的 agent 循环抽象,SEAL 在 OTA 之上加了三件特化:流式感知(语音边界 / 打断意图 / 副语言)+ Think While Listening(边听边想)+ Speak While Thinking(边想边说)。
关键要点¶
- 感知层:流式语音感知模型(Whisper 音频编码器 + Qwen LLM),将连续音频信号转为离散事件流。除文本外还输出声学事件(语音边界、打断意图、情绪标记、副语言信息)
- 思考层(Interactive ReAct):打破传统 ReAct 的"观察→思考→行动"固定循环
- 边听边想(Think While Listening):被打断时保留思考过程,附加新输入继续
- 边想边说(Speak While Thinking):用填充语为深度思考争取时间
- 三阶段:快速响应(0.5s, 50 tokens)→ 深度分析(5s, 500 tokens)→ 持续思考
- 执行层:离散行动命令 → 连续信号输出 + 反馈事件
- 核心交互范式:人→Agent 用实时语音(150 词/分钟,低认知负荷),Agent→人 用 generative-ui(视觉高带宽 ~10 Mbps)
- 扩展:观察空间可扩展到屏幕视觉感知、应用状态;行动空间可扩展到鼠标/键盘操作、UI 生成
相关概念¶
- generative-ui
- voice-presence
- agora-rtc-voice
- ai-intelligent-agent
- observe-think-act-cycle — SEAL 的基础抽象,去掉语音特化后的通用 agent 循环
- amphiflow-pattern — OTA 在 workflow + agent 模式切换维度上的另一条扩展路径