🏠 home › concepts › voice-presence
tags
[AI, 语音, TTS, 对话]
created
2026-04-12
updated
2026-04-17
sources
[raw/notes/sesame-voice-presence.md, raw/notes/bojie-li-agent-interaction.md, raw/notes/agora-conversational-ai-join-api-2026-04-15.md]

定义

让语音交互感觉真实、被理解、有意义的能力。Sesame 提出的概念,目标是跨越对话语音的"恐怖谷"——从听起来像机器到听起来像真人。

关键要点

工程化样本:Agora ConvoAI 的 semantic EoS

agora-convoai-join-api v2 join API 把 turn detection 拆分成 SoS(Start of Speech)+ EoS(End of Speech)两个独立子配置,EoS 可以选 type=semantic——用语义模型判断用户是否说完一句完整意图,而不是单纯靠 VAD 静音长度判断。

这是"对话动态"维度(自然的时机/停顿/打断/重音)的工程化具体实现:

旧版 deprecated 的 turn_detection.type=semantic_vad 是上一代尝试,新版 SoS/EoS 拆分让 semantic 判断只用于 EoS 端、SoS 端继续用低延迟 VAD/keywords,是更工程化的设计。

Sentino 当前接入 Agora 时默认仍使用旧版 VAD 字段(参考 agora-convoai-server),迁移到新版 semantic EoS 是 voice presence 工程化的低成本切入点。

MLLM 端到端是另一条 voice presence 路径

Agora ConvoAI 的 MLLM 模式(OpenAI Realtime / Gemini Live / VertexAI)绕过 ASR/LLM/TTS 三段拆分,端到端音频模型在副语言(笑声、叹息)/ turn-taking / 音色一致性上理论上比 cascade pipeline 有上限优势。Sentino 当前不走 MLLM,但这是与 CSM 同方向的另一条达成 voice presence 的工程路径。

相关概念