🏠 home › projects › yukai-agora-poc
tags
[项目, Sentino, Agent, IoT, 陪伴机器人, YUKAI, 客户合作, PoC]
created
2026-04-17
updated
2026-04-29
status
active
sources
[raw/notes/yukai-agora-poc-prd-2026-04-14.md, raw/notes/agora-conversational-ai-join-api-2026-04-15.md, raw/notes/google-memory-bank-research-2026-04-28.md, raw/notes/kim-graves-plg-sales-coordination-2026-04-29.md]

概述

sentino-agent(PRD 中以"Agora"作为开发方代号)与日本机器人公司 YUKAI Engineering(Qoobo / BOCCO emo / Mirumi 厂商)合作的陪伴机器人 AI Agent 概念验证,目标 2026-06 底交付。

PRD 的本质:把 YUKAI 既有的玩具/陪伴机器人硬件接入由 Sentino Agent 平台驱动的云端 AI Agent,演示日语自然对话 + 三种行为模式切换 + 唱歌 + 操作员后台 + 跨会话记忆,作为后续商业化合作的技术验证。

文档所有者:Donnie (Chen Xiao Chen) 硬件联系人:Xuande 客户:YUKAI Engineering(PRD 标注熊型角色"Kumarabu 类型"——该产品名公开渠道未核实,可能是内部代号或未发布新品)

项目意义

这是 sentino-agent 平台第一次以"Agora"对外名义服务日本端 IP/玩具客户的实战 PoC:

  1. 客户类型扩展:从此前面向开发者/IP 授权(sentino 的 Jisoo Shumon 案)扩展到玩具厂商 OEM/技术合作
  2. 架构验证:验证 Sentino Agent 平台能否承担"客户拿现成硬件、平台出大脑"的纯软件交付模式(不需要客户用 sentino-iot 的设备协议栈)
  3. 赛道交叉证据:YUKAI 是 voice-ai-companion-market 中"日本陪伴机器人"细分赛道(Qoobo/BOCCO 路线)的代表,本 PoC 把"高拟物低 AI"(YUKAI 强项)和"高 AI 弱拟物"(Sentino 强项)拼起来——是这两条赛道首次具体对接

核心需求(9 项验收标准)

ID 功能 关键约束
AC-01 自然对话 Agent 日语,hot-reload 的操作员后台
AC-02 熊音色 / TTS YUKAI 提供参考样本,Sentino 选 TTS
AC-03 3 种运行模式 Normal / Sleep / Lazy 切换
AC-04 唱歌 仅 Normal Mode,TTS 唱 3 首
AC-05 交互日志 可滚动聊天记录 + 单条/会话删除
AC-06 云服务稳定性 演示期间 99% uptime
AC-07 WiFi 配置 配置方法 TBD
AC-08 记忆能力(PRD 写 mem0) PRD 用 mem0 描述能力,Sentino 用 sentino-memex 实际交付
AC-09 UI/UX Fuzozo 适配 / R1 MindChat / 客户自研 三选一

关键决策

1. Memex 第一次对外白标客户战 — PRD 中 mem0 是能力代名词

PRD AC-08 写作"记忆 (mem0)"——这里的 mem0 不是客户技术选型,而是市场上"AI Agent 记忆能力"的通用代名词(mem0 在 2024-2026 年成为该能力的事实参照系)。

Sentino 实际交付:自研 sentino-memex,不是接入 mem0。这是 Memex 首次对外白标客户战——把"我方记忆方案 vs 第三方方案"的销售教育做到客户能接受用 Memex 替代的程度。

销售物料已就绪: - 客户向说明文档 ~/local/claude-code/sentino-memex-positioning.md(中文 + 英文版)正是为本客户准备 - 已 push 到 iot-docs/sentino/memex-positioning.md / memex-positioning-en.md - 文档显式做 mem0 vs Memex 客户视角对照(5 维度);核心产品论证见 sentino-memex 「对外定位锚点」段

销售路径预期: - 第一阶段(PoC 立项):让客户认可"AI Agent 记忆"这个能力本身——PRD 写 mem0 已默认这个共识 - 第二阶段(设计审查 OI-05):把"为什么不用 mem0、用 Memex"讲清楚——这是 sentino-memex-positioning.md 的目标 - 第三阶段(PoC 交付):用 Memex 实际交付能力,让客户感受到差异(生产期长会话/多用户场景下的稳定性)

为什么这不是"客户已选 mem0":客户用 mem0 一词是因为这是行业代名词,不是技术评估结论。如果客户做过技术评估,PRD 不会简单写"AC-08 mem0"而会写出选型理由。Sentino 的销售姿态:主动承担术语切换工作,不让客户做技术选型功课

2026-04-28 销售对照样本扩展google-memory-bank 调研后明确,未来一年内可能出现"客户 PRD 写 Memory Bank"的场景——届时与 mem0 不同,Memory Bank 大概率是客户已选型而不是代名词(Google GCP 全栈客户决定用一等公民方案)。判断依据:mem0 的代名词性来自开源社区生态,Memory Bank 的特殊性来自"GCP 全栈客户的默认选项"。如果客户提 Memory Bank,先扫客户已有 GCP 基础设施深度,再决定是术语切换还是真选型对抗。Memex vs Memory Bank 差异化论证不能用"路线代际"(同方向),必须用"自主可控 + 不绑 Gemini + Reinforce + 4×4 二维 + 数据主权 + 可深度定制"五维论证(详见 sentino-memex "对外定位锚点"段)。

2. 三模式 = Normal / Sleep / Lazy(硬件协同的复杂度集中在 Lazy)

模式 复杂度 谁负责
Normal 低(默认对话能力 + 唱歌入口) Agora 纯软件
Sleep 中(视觉/听觉提示 + 降低响应度,行为对齐现有物理样机) Agora 软件
Lazy 高(软硬件共同设计,硬件接口未定) Xuande × Agora 联合,需对齐会议

核心判断:模式机制是产品形态,不只是 prompt 切换。Lazy 模式特别需要硬件状态机(电机姿态、传感器响应、LED)参与,才能呈现"懒"的物理表现——这印证 agent-runtime-architecture Layer 1(先定义执行边界)的判断:硬件可达的状态空间必须在第一轮推理前定型。

3. TTS 唱歌:未论证但必须验证的可行性

PRD 列为 P0 验收(AC-04),但同时列为 OI-02"待 Agora 评估"。这是商业承诺与技术不确定性并存的一项——签了承诺但还没验证可行性。

风险:通用 TTS(Minimax / ElevenLabs / Qwen3,见 sentino-agent 技术栈)擅长说话不擅长唱歌;专门唱歌模型(Suno / Udio)又难做"指定角色音色"。这是 6 月演示前必须解决或降级的一项。

降级方案候选(PRD 未列,应主动准备): - 用录制好的固定音频代替"唱"——退化为播放器 - 选择"念歌词风格"(rap / chant)规避真唱 - 使用 ElevenLabs sing model 等垂直方案,牺牲与对话音色的统一

4. 管理后台是"产品的真核心"

PRD 反复强调操作员后台(hot-reload prompts、聊天记录回看、单条/会话删除、人设编辑、日语本地化)。这暴露一个事实:演示阶段的"AI Agent"不是端到端自动驾驶,而是有人在后台调 prompt 和审日志的辅助工具

这与 individual-vs-institutional-ai 的 deterministic vs nondeterministic Agent 二分对应——PoC 阶段是"deterministic 演示"(操作员可控可审),不是"nondeterministic 上线"。客户买的是可控性,不是惊喜。

架构归属

PRD 把开发方称为"Agora",对应 sentino-agent 平台 + Agora ConvoAI 的组合架构:

设备/UI → Agora SD-RTN(音频)+ ConvoAI(ASR/Agent 入口)
        ↓ HTTP Callback
        Sentino Agent 平台(workflow-api / engine)
        ├── LLM Provider(多模型适配)
        ├── TTS Provider(含本 PoC 的"熊音色"选型)
        ├── 操作员后台(本 PoC 增量需求:hot-reload / 聊天记录 UI)
        ├── 模式切换(本 PoC 增量需求:Normal/Sleep/Lazy 状态机)
        └── 记忆层(用自研 [[concepts/sentino-memex]] 实际交付;PRD 写 mem0 是能力代名词)

架构含义:本 PoC 走 sentino-agent Web 路径(HTTPS + 浏览器/嵌入式 RTC SDK + HTTP Callback),不走 sentino-iot 的 MQTT 信令路径。

Agora 接入形态:使用 Agora ConvoAI v2 join API 的 半自定义模式(详见 agora-convoai-join-api)——Agora 出 ASR + RTC 传输,LLM 配置为 vendor=custom + style=openai + output_modalities=["text","audio"] + url 指向 Sentino Agent 平台 OpenAI 兼容 endpoint。关键:Sentino LLM 同时返回文本和音频流,Agora 不调 TTS——TTS 在 Sentino 内部完成(Minimax / ElevenLabs / Qwen3 选型)。三模式状态机(Normal/Sleep/Lazy)和 TTS 唱歌可行性评估都在 Sentino endpoint 内部解决(不依赖 Agora tts.vendor 字段)。MLLM 端到端路径(OpenAI Realtime / Gemini Live)当前不走,但作为未来形态切换记录在册——它在副语言/音色一致性上可能有上限优势,与 PoC 的"熊角色音色"目标关联。

不需要 IoT 平台介入意味着: - 设备厂商 YUKAI 自己处理硬件层的 RTC SDK 集成(YUKAI 已有玩具产品的硬件能力) - 双网关架构问题(sentino "双网关")在本 PoC 内不出现——客户只对接 api.sentino.jp 一侧 - 但 WiFi 配置(AC-07)是 IoT 侧的传统强项,本 PoC 走纯软件方案是个收窄

经验教训(待积累)

PoC 尚未完成,下列是基于 PRD 结构可预判的教训:

与 Sentino 战略的关系

战略主线 YUKAI PoC 的定位
sentino 第一战略:IP-to-AI 转化(Jisoo Shumon 路径) 横向客户机会,非主战略
voice-ai-companion-market 设备赛道 首次与日本陪伴机器人厂商对接,验证"OEM 大脑"模式
sentino-agent Standalone Agent + 多客户 SaaS 首次以"Agora"对外名义交付,验证白标/技术 OEM 形态
sentino-memex 推广 Memex 第一次对外白标客户战——以"实际交付能力"代替"mem0 这个代名词",sentino-memex-positioning.md 是配套销售材料

待办事项

相关概念