语音临场感（Voice Presence）

tags: [AI, 语音, TTS, 对话]
created: 2026-04-12
updated: 2026-04-17
sources: [raw/notes/sesame-voice-presence.md, raw/notes/bojie-li-agent-interaction.md, raw/notes/agora-conversational-ai-join-api-2026-04-15.md]

定义¶

让语音交互感觉真实、被理解、有意义的能力。Sesame 提出的概念，目标是跨越对话语音的"恐怖谷"——从听起来像机器到听起来像真人。

关键要点¶

四个要素：情感智能（解读情感语境）、对话动态（自然的时机/停顿/打断/重音）、情境感知（根据场景调整语调）、一致人格（连贯可靠的存在感）
Conversational Speech Model (CSM)：
端到端多模态学习，利用对话历史生成自然语音
两阶段架构：Backbone Transformer（处理交错文本/音频 token，预测第 0 层 RVQ codebook，Mimi codec 12.5 Hz）→ Audio Decoder（生成剩余 N-1 层 codebook，低延迟）
Compute Amortization：Decoder 仅在随机 1/16 帧上训练，质量无感知损失
三个规模：Tiny（1B+100M）、Small（3B+250M）、Medium（8B+300M）
训练数据：约 100 万小时英语音频
评估发现：
无上下文时，生成语音与人类语音无明显偏好差异
有 90 秒上下文时，听众一致偏好原始录音 → 韵律差距仍存在
传统指标（WER、说话人相似度）已饱和，需要新评估维度（同形异音词消歧、发音一致性）
与 seal-architecture 的关系：SEAL 的感知层解决了传统 VAD/ASR 的延迟和信息丢失问题（情绪、副语言），与 Voice Presence 的"情感智能"和"对话动态"目标一致
局限：主要训练英语，尚不能建模对话结构本身（轮替、节奏），未利用预训练 LM 权重
未来：扩展 20+ 语言，全双工模型，计划 Apache 2.0 开源

工程化样本：Agora ConvoAI 的 semantic EoS¶

agora-convoai-join-api v2 join API 把 turn detection 拆分成 SoS（Start of Speech）+ EoS（End of Speech）两个独立子配置，EoS 可以选 type=semantic——用语义模型判断用户是否说完一句完整意图，而不是单纯靠 VAD 静音长度判断。

这是"对话动态"维度（自然的时机/停顿/打断/重音）的工程化具体实现：

VAD-only EoS 的失败模式：用户说"我想想……"会被静音长度判定为说完，Agent 立刻接话打断思考
semantic EoS 的修正：语义模型判断"我想想……"是未完成的犹豫不是结束，等待真正完成

旧版 deprecated 的 turn_detection.type=semantic_vad 是上一代尝试，新版 SoS/EoS 拆分让 semantic 判断只用于 EoS 端、SoS 端继续用低延迟 VAD/keywords，是更工程化的设计。

Sentino 当前接入 Agora 时默认仍使用旧版 VAD 字段（参考 agora-convoai-server），迁移到新版 semantic EoS 是 voice presence 工程化的低成本切入点。

MLLM 端到端是另一条 voice presence 路径¶

Agora ConvoAI 的 MLLM 模式（OpenAI Realtime / Gemini Live / VertexAI）绕过 ASR/LLM/TTS 三段拆分，端到端音频模型在副语言（笑声、叹息）/ turn-taking / 音色一致性上理论上比 cascade pipeline 有上限优势。Sentino 当前不走 MLLM，但这是与 CSM 同方向的另一条达成 voice presence 的工程路径。

定义¶

关键要点¶

工程化样本：Agora ConvoAI 的 semantic EoS¶

MLLM 端到端是另一条 voice presence 路径¶

相关概念¶