- tags
- [Sentino, WebRTC, RTC, 实时媒体, 基础设施, 供应商, 选型, OpenAI, Agora, LiveKit, Cloudflare]
- created
- 2026-05-07
- updated
- 2026-05-07
- status
- draft
- type
- report
- version
- 1
Executive Summary¶
OpenAI 2026-05-04《How OpenAI delivers low-latency voice AI at scale》文章脚注引了 Discord / LiveKit / Cloudflare Realtime 三家方案。文章的潜台词是:OpenAI 从 LiveKit Cloud 迁出、自建 split relay + transceiver。对 Sentino 视角看,这把"全球低延迟 WebRTC 实时媒体到 AI 后端"这个问题的解法分成 5 档——按"自建度"递减:
- OpenAI 自建栈(split relay + transceiver + Cloudflare geo steering)— 900M+ WAU 才有 ROI;Sentino 短中期不可达
- Discord 自建栈(自家 voice region + 自家 SFU + Elixir/Rust)— 250 万并发语音的规模阈值参照;Sentino 也不可达
- LiveKit(开源 SFU + LiveKit Cloud + Agents 框架,Pion 同栈)— 业界开源 WebRTC SFU 事实标准;ChatGPT Voice 早期跑在它上;对 Sentino 是"少依赖 Agora 单一供应商"的最现实中间选项
- Cloudflare Realtime(前 Calls,330+ 城市 anycast,"无房间"pub/sub)— 与 cloudflare-mesh 同根;对 Sentino 是海外低延迟 + Cloudflare 多产品整合场景的辅助选项
- Agora 多租户 SDN + ConvoAI(Sentino 当前路径)— IoT 嵌入式 SDK 与中国大陆覆盖最强;Sentino 应当继续 baseline,但值得有备选认知
核心判断: - Sentino 当前选 Agora 是正确的——RTSA 嵌入式 SDK 生态、SD-RTN 中国大陆覆盖、ConvoAI 一站式 ASR/TTS 调度,对 IoT 设备路径无可替代 - 但应当补"备选认知":LiveKit 是开源 + Pion 同栈 + 与 OpenAI Realtime API 原生集成的最强中间选项。如果哪天 Agora 商务条款 / 战略路径 / 中国合规出现结构性变化,LiveKit 是第一候选 - 真正的预警信号清单见 openai-webrtc-relay-transceiver "SFU 迁移到 transceiver 模型"段 — 单客户日活 10 万级 + 实时 barge-in / E2E + 服务端 ASR 多场景 / enterprise 数据主权 / Agora 商务恶化 / Agora 战略收缩 IoT - 本报告反建议:Sentino 不要现在就启动迁移评估——5 类预警信号没有一条出现。Watch 而不 Act 是当前正确姿态
缘起¶
2026-05-07 用户在 ingest openai-webrtc-relay-transceiver 后追问"discord livekit 以及 cloudflare 的方案"。本报告的目标:
- 拼合 OpenAI 文章脚注引的三个对照方案的完整档案——文章只引一个 footnote 链接,但 Sentino 视角需要更多上下文(每家做什么、与 OpenAI 自建栈是什么关系、对 Sentino 替代价值多少)
- 把"LiveKit 是 ChatGPT Voice 早期基础设施"这个被文章隐去的关键事实显式记下——OpenAI 文章没明说"我们从 LiveKit 迁出",但架构描述与 LiveKit Cloud 形态完全不兼容,这是有信息量的潜台词
- 给 Sentino 一份可操作的 5 家选型决策树 + 预警清单——不是中立 concept 页(带作者立场:推荐继续用 Agora、LiveKit 是首选备选),所以独立成报告
知识库当下相关页(openai-webrtc-relay-transceiver / agora-rtc-voice / agora-rtsa-sdk / cloudflare-mesh)的对话场景里都已经各自记了对方角度的对照点。本报告把所有零散对照综合成一张图。
关键时点:OpenAI 从 LiveKit 迁出(2023-09 → 2026-05)¶
OpenAI 2026-05-04 文章没明说"我们换栈了",但下面这条时间线把潜台词显式化:
| 时点 | 事件 | 来源 |
|---|---|---|
| 2023-09 | LiveKit + OpenAI 联合发布 ChatGPT Voice Mode;ChatGPT 客户端集成 LiveKit Client SDK;语音流走 LiveKit Cloud | LiveKit 官方博客 |
| 2024-10 | OpenAI + LiveKit 正式 Partnership:把 Advanced Voice 包装为 Realtime API;LiveKit 推出 Multimodal Agent API 完整封装 OpenAI Realtime API | LiveKit / TechCrunch |
| 2025(年内) | LiveKit 服务于 ChatGPT Advanced Voice "millions of voice conversations daily";LiveKit 客户扩到 Spotify / Meta / Microsoft / Character AI / xAI / Salesforce / Tesla / Speak | LiveKit Series B 博客 |
| 2026-01 | LiveKit 估值冲到 $1B(Series B 主要靠 OpenAI 合作的 Voice AI 故事) | TechCrunch |
| 2026-05-04 | OpenAI 工程博客披露 split relay + transceiver 自建栈 + Global Relay + Cloudflare geo steering | OpenAI 官方博客 |
潜台词推论:
- 2023-09 → 2026-05 这段时间 OpenAI 跑在 LiveKit Cloud 上
- 2026-05 文章描述的架构(自家 relay PoP + 自家 transceiver + 自家 Pion fork)与 LiveKit Cloud 的形态完全不兼容——LiveKit Cloud 是托管 SFU + LiveKit 控制平面,OpenAI 的架构是 OpenAI 控制平面 + 自家媒体节点
- 因此 OpenAI 2026-05 公开的 = 从 LiveKit Cloud 迁到 in-house 栈的工程结果
为什么 OpenAI 要迁:900M+ WAU 规模 + 1:1 latency-sensitive workload 占主流 + 想完全控制 K8s 部署 / Cloudflare geo steering / Pion 优化路径——这套规模 + workload 形态下,自建的边际成本曲线变正向。这与 LiveKit 没有关系,LiveKit 仍然是中小规模玩家的首选。
为什么仍保留 LiveKit Realtime API SDK 这一层:开发者用 OpenAI Realtime API 时,LiveKit 仍是一种推荐的"客户端到 Realtime API"中间层(封装 buffered playback / 中断处理 / function calling 调度等)。这一层与"媒体路由"是不同层,OpenAI 自建只动后者。
对 Sentino 的含义:LiveKit 不是"被 OpenAI 抛弃"——它在更广的 voice AI 市场拿到 $1B 估值。OpenAI 自建是规模触发的特殊解,对 Sentino 当下规模不构成"应该跟进"的信号。
5 家详细分析¶
1. OpenAI 自建栈¶
身份:2026-05-04 公开的 split relay + transceiver 架构,驱动 ChatGPT voice / Realtime API 的 WebRTC endpoint / 研究项目。完整分析见 openai-webrtc-relay-transceiver。
核心架构:
- relay(无状态 UDP 转发,全球 PoP,只读 STUN ufrag 决定路由,不解密 / 不跑 ICE / 不参与编解码协商)
- transceiver(有状态 WebRTC 终止:ICE / DTLS / SRTP / session lifecycle 全套)
- ICE ufrag 编路由元数据 → 首包路由不查外部
- Cloudflare 做 signaling 的 geo / proximity steering
- 媒体节点用 Pion + Go + SO_REUSEPORT + runtime.LockOSThread 做调优,不上 kernel bypass
- Redis cache 持久化 relay 路由映射
触发自建的规模阈值:900M+ WAU + 1:1 latency-sensitive workload 占主流 + K8s 自建栈深度需求
对 Sentino 替代价值:0。规模 / 团队 / 工程深度都远不到自建 ROI 正向的阈值。但本案是"为什么 SD-RTN / 多租户基础设施有结构性价值"的反向证据。
2. Discord 自建栈¶
身份:游戏 / 社区聊天平台,250 万并发语音用户。2017 年起持续公开分享 WebRTC 媒体栈细节。文章引《How Discord Handles 2.5 Million Concurrent Voice Users using WebRTC》。
核心架构: - 自建 SFU(多人语音房间是首要场景,与 OpenAI 1:1 形态不同) - 自家全球 voice region(每个节点是完整 SFU + 媒体终止,不是 stateless relay) - 用户进语音房间时根据延迟探测自动选 region - 信令 / 状态机用 Elixir,高性能媒体处理用 Rust - 单 UDP 端口 + 应用层多路复用(解决"端口耗尽"问题,比 OpenAI 早做的方案)
与 OpenAI 自建的对比: - 共同:都自建 + 都做全球 PoP + 都自研媒体栈 - 区别:Discord 边缘节点既路由又终止协议(节点有状态),OpenAI 把"路由"和"终止"切两层(relay 无状态、transceiver 有状态) - 区别:Discord workload 是 N:N 多人房间,OpenAI 是 1:1 用户对 AI——架构选择被业务形态拽着走
对 Sentino 替代价值:0。Sentino 不是多人房间场景。Discord 经验主要价值是"自建路径的规模阈值参照点"——250 万并发语音 + 50+ 人 SRE / 媒体团队规模 = Sentino 的 100 倍以上。
3. LiveKit(开源 + LiveKit Cloud)¶
身份:2021 年开源的 WebRTC 媒体服务器栈,业界最主流的开源 WebRTC SFU 之一。Go 写,底层用 Pion(与 OpenAI transceiver 同栈)。开源 + LiveKit Cloud(托管服务)双轨。ChatGPT Voice 2023-09 至 2026-05 期间的基础设施合作方,2026-01 估值 $1B。
核心架构: - 完整 SFU + 信令 + Agents 框架,开箱即用 - Multimodal Agent API:原生封装 OpenAI Realtime API(buffered playback / 用户中断处理 / function calling 调度 / agent 健康监控 / load balancing) - 单 UDP 端口 + 应用层多路复用 + connection manager 做会话粘性 - 文档明确教 K8s 部署(OpenAI 文章引的"Deploy to Kubernetes"链接就是这一篇) - 客户:Spotify / Meta / Microsoft / Character AI / xAI / Salesforce / Tesla / Speak / 911 紧急服务 / 心理健康服务
与 OpenAI 自建的对比: - LiveKit 是 SFU 模型(多人首选),OpenAI 是 transceiver 模型(1:1 首选) - LiveKit 节点有状态(SFU 持完整 session),OpenAI 把"路由"与"终止"拆分 - AI 接入形态:LiveKit 让 AI 作为参与者加入房间(与 Agora ConvoAI 同源理念),OpenAI 让 AI 看到的是已解码音频 + 事件 - LiveKit 是开源 / 商业双轨,OpenAI 是私有自建
对 Sentino 替代价值:最高。
理由: - 设计理念匹配:Sentino 当前 Agora ConvoAI 模型 ≈ LiveKit Agents 模型("AI 作为参与者加入"),迁移路径心智成本低 - Pion 同栈:如果 OpenAI 反向把 Pion 改进贡献回 upstream,LiveKit 直接受益,Sentino 间接受益 - OpenAI Realtime API 原生集成:Sentino 如果未来要接 OpenAI Realtime(hotmind-client 已经走 OpenAI 兼容 streaming endpoint 路径),LiveKit Multimodal Agent API 是现成的中间层 - 开源 + 商业双轨:可以先用 LiveKit Cloud 验证、随时切自建 LiveKit 不被锁定 - 不锁定中国大陆方案:在国内可以走自部署 LiveKit;海外用 LiveKit Cloud
LiveKit 的劣势: - IoT 嵌入式 C SDK 生态远弱于 agora-rtsa-sdk——Sentino 设备路径(BK7258)不可能换成 LiveKit - 中国大陆 SD-RTN 等价覆盖需要自部署运维 - LiveKit Cloud 没有 ConvoAI 同等的"一站式 ASR + TTS + Agent 调度"封装——需要自己组合
4. Cloudflare Realtime(原 Cloudflare Calls)¶
身份:Cloudflare 自家的 WebRTC 基础设施服务,2022 年发布为 Cloudflare Calls,2025 年改名 Cloudflare Realtime。当前包含三件套: - RealtimeKit(2025 年推出的 beta,all-in-one SDK 含 chat / video / collab 模块) - TURN Server(managed TURN) - Serverless SFU(原 Calls 的核心能力)
核心架构: - 跑在 Cloudflare 全球 330+ 城市边缘网络上 - Anycast WebRTC:BGP 自动决定客户端连接到最近的 data center;每台 Cloudflare 服务器只负责离它最近的客户端的 PeerConnection——与 OpenAI Global Relay + Cloudflare geo steering 是同一思路,但 Cloudflare 把这个能力打包成产品而非内部基础设施 - "No rooms" 设计哲学:不像 LiveKit / Agora 提供"房间"抽象,Cloudflare Realtime 让你直接控制每条 audio / video / data track,自己定义 presence 协议 - HTTPS API for signaling:信令走 HTTP,简化集成 - 单 PeerConnection per client:所有 track 复用一个 PeerConnection,不像传统 SFU 每个 stream 一个连接 - 与 cloudflare-mesh 同根——都是 Cloudflare 边缘网络层产品
与 OpenAI 自建的对比: - 共同:都用 Cloudflare 全球边缘网络做就近接入;都解决 first-hop 延迟 - 区别:Cloudflare Realtime 是把"WebRTC 终止 + SFU 转发" 都放在 Cloudflare 边缘上;OpenAI 只把 signaling 路由放 Cloudflare 上、媒体终止在自家 transceiver - 替代关系:理论上 OpenAI 可以直接用 Cloudflare Realtime SFU 解决 first-hop + 全球分发,但 Cloudflare 是 SFU 模型不是 transceiver 模型,且 OpenAI 想要更深的协议状态控制
对 Sentino 替代价值:中。
适合 Sentino 的场景: - 海外低延迟 + Cloudflare 多产品整合:如果 Sentino 海外客户已经用 Cloudflare(Workers / Mesh / Pages / R2),Realtime SFU 可以无缝整合 - Web 客户端轻量场景:浏览器端音视频应用、不涉及 IoT 设备路径 - 需要"非房间"track-级灵活性的场景:例如 1:N 直播 + 互动连麦 + AI 介入混合场景
不适合 Sentino 的场景: - IoT 嵌入式设备路径:Cloudflare Realtime 没有 RTSA Lite 等价的 C SDK;BK7258 接入是空白 - 中国大陆覆盖:需要走 Cloudflare China Network(与 CFCA 合作),合规复杂度自有 - ASR / TTS 一站式调度:Cloudflare Realtime 是纯媒体层,没有 ConvoAI 等价的 Agent 调度能力——需要自己组合
5. Agora(Sentino 当前路径)¶
身份:声网 Agora(同一家公司,海外品牌 Agora、国内品牌声网)。提供 RTC SDK / RTSA Lite C SDK / Conversational AI Engine 等完整音视频实时通信栈。完整分析见 agora-rtc-voice / agora-rtsa-sdk / agora-convoai-server / agora-convoai-join-api。
核心架构: - SD-RTN(Software Defined Real-time Network):Agora 自家全球软件定义实时网络 - RTC SDK:移动 / Web / Desktop 全平台音视频 - RTSA Lite C SDK:IoT 嵌入式设备的轻量码流加速 SDK(BK7258 等芯片标配) - Conversational AI Engine(ConvoAI):内置 ASR + TTS + Agent 调度的端到端语音 AI 框架 - Agent 作为参与者加入频道模型(与 LiveKit Agents 同源理念)
对 Sentino 不可替代的能力: - IoT 嵌入式 SDK 生态:BK7258 + RTSA Lite + ConvoAI 是 Agora 官方推荐 Convo AI Device Kit R1 标准组合(sentino-iot) - 中国大陆 SD-RTN 覆盖:低延迟 + 合规一站式 - ConvoAI 一站式封装:ASR + TTS + Agent 调度一口气封装,不需要自己组合 Pion + Whisper + ElevenLabs - 官方合作伙伴关系:sentino-iot 已记录"Sentino 是 Agora 合作伙伴 / RTSA / ConvoAI / RTC 等基础设施层的官方推荐解决方案商"——商务关系是结构性资产
Agora 的劣势 / 待观察: - 多租户调度延迟:在极端高并发 + 极端 latency-sensitive workload 下可能成为瓶颈(OpenAI 自建的核心动机),Sentino 当前规模远未触发 - E2E 加密 vs 服务端 ASR 互斥:agora-rtsa-sdk "反直觉副作用"段已记录,对 sentino-tenga 这种隐私敏感场景的硬约束 - 数据治理边界受 Agora 约束:enterprise 客户合规场景的硬约束 - 被 Agora 商务条款 / 战略路径单点锁死:唯一的结构性风险——如果 Agora 商务条款恶化 / 战略收缩 IoT 支持 / 中国合规出现新约束,Sentino 没有现成 fallback
核心维度对比表¶
按 17 个工程 / 商务维度对比 5 家(用 ✓ / ✗ / 部分 / N/A 标记是否满足,加注释解释):
| 维度 | OpenAI 自建 | Discord | LiveKit | Cloudflare Realtime | Agora(Sentino 当前) |
|---|---|---|---|---|---|
| 主要 workload | 1:1 latency-sensitive | N:N 多人房间 | N:N + 1:N + 1:1 | N:N + 1:N + 1:1 | 1:1(设备↔Agent)+ N:N |
| 媒体模型 | transceiver | SFU | SFU | SFU("无房间"track 级) | SFU("AI as participant") |
| 全球 PoP | 自建 + Cloudflare geo | 自家 voice region | LiveKit Cloud(部分) | 330+ 城市 anycast | SD-RTN |
| 部署形态 | 完全自建 | 完全自建 | 开源 + 自家 Cloud 双轨 | 全托管 | 全托管 |
| 开源程度 | 完全私有 | 完全私有 | 开源(Apache 2.0) | 闭源 | 闭源 |
| 底层 WebRTC 栈 | Pion(Go) | 自家 Rust 实现 | Pion(Go) | 自家 | 自家 |
| K8s 友好 | 重新架构后才友好 | 自家方案 | 文档完备 | 不需要(全托管) | 不感知(全托管) |
| 协议状态归属 | 自家 transceiver | 边缘节点 | LiveKit 节点(有状态) | Cloudflare 边缘 | Agora 服务端 |
| 信令 / 媒体路径跳数 | 1(transceiver 终止) | 1(边缘 SFU) | 1(SFU 节点) | 1(Cloudflare 边缘) | 2+(设备 → SD-RTN → SFU → Agent 出口 → ASR/LLM/TTS) |
| AI 接入形态 | 不感知 WebRTC,看已解码音频 + 事件 | N/A | "AI 作为参与者"+ Multimodal Agent API | 自己组合 | "AI 作为参与者"(ConvoAI Agent) |
| OpenAI Realtime API 原生集成 | N/A(自家) | ✗ | ✓(Multimodal Agent API) | ✗ | ✗ |
| ASR / TTS 一站式 | 自家 GPT-realtime | N/A | ✗(自己组合) | ✗(自己组合) | ✓(ConvoAI 封装) |
| IoT 嵌入式 C SDK | ✗ | ✗ | ✗(无 RTSA Lite 等价) | ✗ | ✓(RTSA Lite,BK7258 标配) |
| 中国大陆覆盖 | ✗(受 GFW 影响) | ✗ | 需自部署 | 需走 China Network | ✓(声网本土化) |
| E2E 加密与服务端 ASR | 不互斥(trust 边界自家) | N/A | 自己组合(取决于实现) | 自己组合 | 互斥(agora-rtsa-sdk) |
| 触发自建 / 切换的规模阈值 | 900M+ WAU | 250 万并发语音 | 任何规模可起 | 任何规模可起 | 远未到切换阈值 |
| 商务可锁定风险 | N/A(自家) | N/A(自家) | 低(开源 fallback) | 中(Cloudflare 单一供应商) | 当前唯一结构性风险(Agora 单点) |
Sentino 选型决策树¶
按"触发条件 + 推荐方案"组织:
当前默认(无任何预警信号触发)
└─ 继续 Agora(RTC + RTSA + ConvoAI 完整栈)
理由:IoT SDK + 中国覆盖 + ConvoAI 一站式 + 官方合作伙伴关系
触发 #1: 单客户日活到 10 万级 + 实时 barge-in 重度场景
└─ 第一步:联系 Agora 商务,要求专属 SD-RTN 容量 / 优先调度 SLA
第二步:评估 LiveKit 自部署(Pion 同栈 + AI 参与者模型匹配)
不要直接自建——OpenAI 路径需要 Sentino 100 倍以上的工程团队
触发 #2: 多个客户同时要 E2E 加密 + 服务端 ASR
└─ 第一步:评估"设备端 ASR + Agora E2E 加密"组合([[concepts/agora-rtsa-sdk]] 待办段已记录)
第二步:与 Agora 工程支持沟通"Agent 内部明文 + 设备到 Agent 加密"是否可做
第三步(仍不行):评估 LiveKit 自部署 + 自家 ASR endpoint
触发 #3: enterprise 客户合规要求"音频不经第三方"
└─ 第一步:评估 Agora 私有化部署 / Region 隔离方案(先问商务)
第二步:评估 LiveKit 自部署(开源 + 自家控制全栈)
不要直接自建 RTC 栈
触发 #4: Agora 商务条款 / 价格 / SLA 出现结构性恶化
└─ 第一步:评估声网(中国)vs Agora(海外)分别报价 / 条款
第二步:海外客户线评估 Cloudflare Realtime(Cloudflare 整合优势)
第三步:评估 LiveKit Cloud(托管) / LiveKit 自部署(开源)
IoT 设备路径无 fallback——RTSA Lite 仍要继续用,必要时谈分账模式
触发 #5: Agora 战略路径明确收缩 IoT / AI 语音支持
└─ 第一步:评估其他 IoT RTC C SDK 候选(espressif esp-webrtc / Pion 嵌入式 fork)
第二步:评估 LiveKit / Cloudflare 在嵌入式生态的进展
这是 Sentino 最难的迁移场景——IoT 嵌入式 SDK 没有现成 fallback
触发 #6: Sentino 海外客户线占比超过 50%
└─ 评估"国内 Agora(声网)+ 海外 Cloudflare Realtime / LiveKit Cloud"双栈方案
设备端仍统一用 RTSA Lite 兼容协议
信令层 / Web 端做地理路由
当前 Sentino 状态:6 个触发条件没有任何一条出现——继续 Agora 是正确选择。但应当主动准备触发条件 #1 / #4 / #6 的备选评估材料,避免触发时仓促决策。
论点边界¶
本报告判断的前提¶
- Sentino 当前业务规模与团队规模:销售向 mid-market 客户(IP 公司 / 玩具厂商 / 健康品牌),客户线日活远低于 10 万,工程团队不到 30 人——本判断完全基于这个前提
- Agora 商务关系良好且持续:本判断假设 sentino-iot "Sentino 是 Agora 合作伙伴" 关系不发生结构性变化
- OpenAI 文章描述完全准确:本判断基于文章公开内容,不假设有未公开的额外成本 / 工程债务
- LiveKit 持续运营 + 开源版本不被锁定:本判断假设 LiveKit 不会效仿 HashiCorp / Elastic 改许可证
前提变化时的结论变化¶
- 如果 Sentino 业务规模到日活百万级:决策树触发条件 #1 启动;本报告"继续 Agora 是正确"判断需要重新评估
- 如果 Agora 关系恶化:触发条件 #4 / #5 启动;LiveKit 优先级从"备选"升到"主备"
- 如果 OpenAI 后续披露 transceiver-推理后端协议是开源的(不太可能):可能给 Sentino 减少自建难度——但这是低概率假设
- 如果 LiveKit 改许可证:触发"开源 fallback 风险" 重评估,Cloudflare Realtime 优先级上升
不适用本报告的场景¶
- Sentino 决定做"多人语音房间"产品(如类 Discord 群聊):本报告主要基于 1:1 workload 假设;多人场景下 LiveKit / Discord 的 SFU 架构经验更直接相关
- Sentino 决定全栈做端到端 MLLM(绕过 ASR/LLM/TTS 三段拆分,走 Realtime API 模式):与 LiveKit Multimodal Agent API 天然契合,本报告决策树需要补 #7 触发条件
- Sentino 决定做视频不只是音频:本报告主要分析音频路径;视频场景下带宽 / 编解码 / SFU 复杂度都不同
对知识库的修正记录¶
本报告新建后,对现有 wiki 页面的修正:
wiki/index.md"研究报告" 段加 1 条(按时间倒序,本报告排第一)wiki/journal/2026-05-07.md加"新建报告 RTC 媒体供应商对比" 段- 不修正现有 concept 页正文——本报告综合 5 家对比是 report 形态独有产物,不适合写入任何单一 concept 页(会让概念页失去聚焦)
与现有 wiki 判断的一致性: - 与 openai-webrtc-relay-transceiver "SFU 迁移到 transceiver 模型 Sentino 视角" 段一致——都说 Sentino 短中期不需要迁移 - 与 agora-rtc-voice "同源问题、不同自建/外包姿态:OpenAI Global Relay 对照" 段一致——都说 Agora 屏蔽掉了 Sentino 用不上的工程量 - 与 cloudflare-mesh "OpenAI 也用 Cloudflare:geo / proximity steering 是另一种 default 形态" 段一致——本报告把 Cloudflare 在 RTC 层的能力进一步拆解 - 与 sentino-iot "硬件接入路径"段一致——本报告不挑战 BK7258 + RTSA Lite + ConvoAI 标准组合
新增的判断(本报告独有): - OpenAI 2026-05 文章 = 隐含宣布从 LiveKit Cloud 迁出(之前 wiki 未提) - LiveKit 是 Sentino "少依赖 Agora" 场景的最现实中间选项(之前 wiki 未提) - Sentino 选型决策树 6 个触发条件 + 各自推荐路径(之前 wiki 未提)
待验证 / 后续追踪¶
- OpenAI 是否真完全脱离 LiveKit Cloud — 本报告基于"文章描述的架构与 LiveKit Cloud 不兼容"做的潜台词推论,没有 OpenAI 官方明说。可能:(a)已完全自建(最可能);(b)部分流量仍走 LiveKit Cloud;(c)某些 region / workload 类型仍用 LiveKit。追踪点:LiveKit 后续公告 / OpenAI 后续工程博客 / TechCrunch 等媒体报道
- LiveKit 是否会因失去 OpenAI 这个 anchor customer 而估值回调 — $1B 估值故事中 OpenAI 占多大比重?2026 后续融资 / 客户公告会披露。如果 LiveKit 失去 OpenAI 主要 workload,估值故事重写
- Cloudflare Realtime 在中国大陆的实际可用性 — Cloudflare China Network 与 CFCA 合作模式的 RTC 延迟 / 合规可用性需要 Sentino 中国客户线实测,无法纸面判断
- Discord 是否会做类似 OpenAI 的工程公开 — Discord 工程博客历史更新频率高,如果他们也做了 transceiver 化或 Cloudflare 整合,会是另一个对照点
- Pion upstream 是否吸收 OpenAI 内部修改 — Sean DuBois 在 OpenAI 内部维护 Pion,是否反向贡献到开源 Pion 决定 Sentino / LiveKit 能否搭便车
- gpt-realtime 模型是否对此架构有特定假设 — 文章未提模型层耦合;如果 gpt-realtime 假设了某些 transceiver 行为(如低延迟 streaming 协议),LiveKit Multimodal Agent API 的兼容性需要持续追踪
- Agora 是否会推 ConvoAI 的"transceiver 模式"对应方案 — 如果 Agora 看到 OpenAI 这条路径反向给 ConvoAI 加 1:1 latency-sensitive 优化路径,是 Sentino 直接受益的场景
- Sentino 海外客户线占比变化 — 触发条件 #6 的关键变量;销售侧需主动追踪
- 触发条件 #2(E2E 加密 + 服务端 ASR)是否真出现 — sentino-tenga 提案推进 + yukai-agora-poc 等客户线是否会把这条触发出来
引用源¶
一手文献¶
- OpenAI 工程博客《How OpenAI delivers low-latency voice AI at scale》(原文 2026-05-04,直访 403 经 web.archive.org 抓取)
- LiveKit 官方博客《OpenAI and LiveKit partner to turn Advanced Voice into an API》(原文,2024-10-01)
- LiveKit 官方博客《LiveKit's Series B: Building the all-in-one platform for voice AI agents》(原文,2026-01)
- TechCrunch《Voice AI engine and OpenAI partner LiveKit hits $1B valuation》(原文)
- Cloudflare Realtime 官方文档(Overview / Realtime vs Regular SFUs)
- Cloudflare 工程博客《Cloudflare Calls: millions of cascading trees all the way down》(原文)
- Discord 工程博客《How Discord Handles 2.5 Million Concurrent Voice Users using WebRTC》(OpenAI 文章脚注 1)
- LiveKit 文档《OpenAI integration》(原文)
知识库内部 raw 沉淀¶
raw/notes/openai-webrtc-relay-transceiver-2026-05-04.mdraw/snippets/agora-rtsa/implement-transmission.md/data-stream.md/encryption.mdraw/snippets/iot-docs/architecture-technical.md/architecture-overview.mdraw/notes/agora-conversational-ai-join-api-2026-04-15.md
知识库内部 concept / project 回连¶
- openai-webrtc-relay-transceiver — OpenAI 自建栈 / split relay + transceiver / 17 维度 SFU→transceiver 迁移对比
- agora-rtc-voice — Sentino 当前路径
- agora-rtsa-sdk — IoT 嵌入式 C SDK 生态
- agora-convoai-server — ConvoAI 设备服务端
- agora-convoai-join-api — ConvoAI v2 join API
- cloudflare-mesh — Cloudflare 在 Agent / AI 基础设施的 default 化
- voice-presence — 对话动态下限被网络栈决定
- harness-engineering — Environment 层在 RTC 媒体平面的应用
- sentino-iot — Sentino IoT 平台路径选择
- sentino-agent — Sentino Agent 平台路径选择
- sentino-tenga — E2E 加密 + 服务端 ASR 互斥触发场景的具体客户线
- hotmind-client — OpenAI 兼容 streaming endpoint 路径的具体客户线
- yukai-agora-poc — Agora 白标客户线