- tags
- [AI, 语音, TTS, 对话]
- created
- 2026-04-12
- updated
- 2026-04-17
- sources
- [raw/notes/sesame-voice-presence.md, raw/notes/bojie-li-agent-interaction.md, raw/notes/agora-conversational-ai-join-api-2026-04-15.md]
定义¶
让语音交互感觉真实、被理解、有意义的能力。Sesame 提出的概念,目标是跨越对话语音的"恐怖谷"——从听起来像机器到听起来像真人。
关键要点¶
- 四个要素:情感智能(解读情感语境)、对话动态(自然的时机/停顿/打断/重音)、情境感知(根据场景调整语调)、一致人格(连贯可靠的存在感)
- Conversational Speech Model (CSM):
- 端到端多模态学习,利用对话历史生成自然语音
- 两阶段架构:Backbone Transformer(处理交错文本/音频 token,预测第 0 层 RVQ codebook,Mimi codec 12.5 Hz)→ Audio Decoder(生成剩余 N-1 层 codebook,低延迟)
- Compute Amortization:Decoder 仅在随机 1/16 帧上训练,质量无感知损失
- 三个规模:Tiny(1B+100M)、Small(3B+250M)、Medium(8B+300M)
- 训练数据:约 100 万小时英语音频
- 评估发现:
- 无上下文时,生成语音与人类语音无明显偏好差异
- 有 90 秒上下文时,听众一致偏好原始录音 → 韵律差距仍存在
- 传统指标(WER、说话人相似度)已饱和,需要新评估维度(同形异音词消歧、发音一致性)
- 与 seal-architecture 的关系:SEAL 的感知层解决了传统 VAD/ASR 的延迟和信息丢失问题(情绪、副语言),与 Voice Presence 的"情感智能"和"对话动态"目标一致
- 局限:主要训练英语,尚不能建模对话结构本身(轮替、节奏),未利用预训练 LM 权重
- 未来:扩展 20+ 语言,全双工模型,计划 Apache 2.0 开源
工程化样本:Agora ConvoAI 的 semantic EoS¶
agora-convoai-join-api v2 join API 把 turn detection 拆分成 SoS(Start of Speech)+ EoS(End of Speech)两个独立子配置,EoS 可以选 type=semantic——用语义模型判断用户是否说完一句完整意图,而不是单纯靠 VAD 静音长度判断。
这是"对话动态"维度(自然的时机/停顿/打断/重音)的工程化具体实现:
- VAD-only EoS 的失败模式:用户说"我想想……"会被静音长度判定为说完,Agent 立刻接话打断思考
- semantic EoS 的修正:语义模型判断"我想想……"是未完成的犹豫不是结束,等待真正完成
旧版 deprecated 的 turn_detection.type=semantic_vad 是上一代尝试,新版 SoS/EoS 拆分让 semantic 判断只用于 EoS 端、SoS 端继续用低延迟 VAD/keywords,是更工程化的设计。
Sentino 当前接入 Agora 时默认仍使用旧版 VAD 字段(参考 agora-convoai-server),迁移到新版 semantic EoS 是 voice presence 工程化的低成本切入点。
MLLM 端到端是另一条 voice presence 路径¶
Agora ConvoAI 的 MLLM 模式(OpenAI Realtime / Gemini Live / VertexAI)绕过 ASR/LLM/TTS 三段拆分,端到端音频模型在副语言(笑声、叹息)/ turn-taking / 音色一致性上理论上比 cascade pipeline 有上限优势。Sentino 当前不走 MLLM,但这是与 CSM 同方向的另一条达成 voice presence 的工程路径。
相关概念¶
- seal-architecture
- generative-ui
- agora-rtc-voice
- agora-convoai-join-api — Agora 把 semantic EoS 内置到 turn_detection 新版配置;MLLM 端到端是另一条 voice presence 工程路径
- sentino-agent
- shannon-entropy — 语音编解码的压缩效率由信源熵决定(Mimi codec 的 RVQ codebook = 多层信源编码)
- deep-learning-history — 深度学习发展史:CSM 的 Transformer 架构源自这条发展线