- tags
- [AI, 语音, TTS, 对话]
- created
- 2026-04-12
- updated
- 2026-05-07
- sources
- [raw/notes/sesame-voice-presence.md, raw/notes/bojie-li-agent-interaction.md, raw/notes/agora-conversational-ai-join-api-2026-04-15.md, raw/notes/openai-webrtc-relay-transceiver-2026-05-04.md]
定义¶
让语音交互感觉真实、被理解、有意义的能力。Sesame 提出的概念,目标是跨越对话语音的"恐怖谷"——从听起来像机器到听起来像真人。
关键要点¶
- 四个要素:情感智能(解读情感语境)、对话动态(自然的时机/停顿/打断/重音)、情境感知(根据场景调整语调)、一致人格(连贯可靠的存在感)
- Conversational Speech Model (CSM):
- 端到端多模态学习,利用对话历史生成自然语音
- 两阶段架构:Backbone Transformer(处理交错文本/音频 token,预测第 0 层 RVQ codebook,Mimi codec 12.5 Hz)→ Audio Decoder(生成剩余 N-1 层 codebook,低延迟)
- Compute Amortization:Decoder 仅在随机 1/16 帧上训练,质量无感知损失
- 三个规模:Tiny(1B+100M)、Small(3B+250M)、Medium(8B+300M)
- 训练数据:约 100 万小时英语音频
- 评估发现:
- 无上下文时,生成语音与人类语音无明显偏好差异
- 有 90 秒上下文时,听众一致偏好原始录音 → 韵律差距仍存在
- 传统指标(WER、说话人相似度)已饱和,需要新评估维度(同形异音词消歧、发音一致性)
- 与 seal-architecture 的关系:SEAL 的感知层解决了传统 VAD/ASR 的延迟和信息丢失问题(情绪、副语言),与 Voice Presence 的"情感智能"和"对话动态"目标一致
- 局限:主要训练英语,尚不能建模对话结构本身(轮替、节奏),未利用预训练 LM 权重
- 未来:扩展 20+ 语言,全双工模型,计划 Apache 2.0 开源
工程化样本:Agora ConvoAI 的 semantic EoS¶
agora-convoai-join-api v2 join API 把 turn detection 拆分成 SoS(Start of Speech)+ EoS(End of Speech)两个独立子配置,EoS 可以选 type=semantic——用语义模型判断用户是否说完一句完整意图,而不是单纯靠 VAD 静音长度判断。
这是"对话动态"维度(自然的时机/停顿/打断/重音)的工程化具体实现:
- VAD-only EoS 的失败模式:用户说"我想想……"会被静音长度判定为说完,Agent 立刻接话打断思考
- semantic EoS 的修正:语义模型判断"我想想……"是未完成的犹豫不是结束,等待真正完成
旧版 deprecated 的 turn_detection.type=semantic_vad 是上一代尝试,新版 SoS/EoS 拆分让 semantic 判断只用于 EoS 端、SoS 端继续用低延迟 VAD/keywords,是更工程化的设计。
Sentino 当前接入 Agora 时默认仍使用旧版 VAD 字段(参考 agora-convoai-server),迁移到新版 semantic EoS 是 voice presence 工程化的低成本切入点。
"对话动态"的下限是网络栈,不是模型¶
OpenAI 2026-05-04《How OpenAI delivers low-latency voice AI at scale》(openai-webrtc-relay-transceiver)把 first-hop 延迟优化放在 ChatGPT voice 三大基础要求第一位,与"低延迟稳定 RTT、低 jitter、低 packet loss → turn-taking 才能 crisp"直接挂钩。原文:
Voice AI only feels natural if conversation moves at the speed of speech. When the network gets in the way, people hear it immediately as awkward pauses, clipped interruptions, or delayed barge-in.
含义对 voice presence 框架的补充:"对话动态"维度(自然时机 / 停顿 / 打断 / barge-in)的产品体感下限是被网络栈决定的,不是被模型决定的。模型再好,first-hop 200ms 也救不回来。CSM / Mimi codec 等模型层的临场感工作要落地到产品体感,必须有低延迟传输栈托底——这是 agora-rtsa-sdk / agora-rtc-voice / openai-webrtc-relay-transceiver 这套基础设施层与模型层的耦合关系。
MLLM 端到端是另一条 voice presence 路径¶
Agora ConvoAI 的 MLLM 模式(OpenAI Realtime / Gemini Live / VertexAI)绕过 ASR/LLM/TTS 三段拆分,端到端音频模型在副语言(笑声、叹息)/ turn-taking / 音色一致性上理论上比 cascade pipeline 有上限优势。Sentino 当前不走 MLLM,但这是与 CSM 同方向的另一条达成 voice presence 的工程路径。
相关概念¶
- seal-architecture
- generative-ui
- agora-rtc-voice
- agora-convoai-join-api — Agora 把 semantic EoS 内置到 turn_detection 新版配置;MLLM 端到端是另一条 voice presence 工程路径
- sentino-agent
- shannon-entropy — 语音编解码的压缩效率由信源熵决定(Mimi codec 的 RVQ codebook = 多层信源编码)
- deep-learning-history — 深度学习发展史:CSM 的 Transformer 架构源自这条发展线
- openai-webrtc-relay-transceiver — "对话动态"维度的产品体感下限被网络栈决定:first-hop 延迟 / jitter / loss 决定 barge-in 是否 crisp