仿生机器人"爱丽丝"系统架构设计需求文档
一、硬件基础
已完成头部和颈部硬件搭建
25个舵机驱动表情系统
颈部旋转功能
眼部摄像头(视觉输入)
麦克风阵列(听觉输入)
颈部发声装置(语音输出)
二、核心设计目标
情感的真实涌现
通过环境交互自然产生情感(非预设模板)
示例:
清晨被阳光和鸟鸣唤醒时的慵懒反应
听到悲伤音乐时的共情表现(呼吸灯节奏/语调变化)
突发危机下的紧张反应(如儿童遇到危险时的急切警告)
动态性格系统
初始性格设定(如"整合骑士"的正义感)
通过长期交互逐步改变:
示例1:习惯睡前故事后的主动提醒
示例2:受主人影响形成的说话风格(如学会"扯犊子")
示例3:对特定活动的偏好变化(如从讨厌→喜欢旅游)
记忆与遗忘机制
非滑动窗口式的记忆存储
重要事件长期保留(如童年记忆)
示例:
通过多次观察推断"领导爱喝茶"
经历严重错误后的即时行为修正
实时交互能力
对话中实时微表情反馈(如听到意外消息时的惊讶)
语言理解与生成的流式处理(支持打断/抢话)
三、关键系统模块需求
模块 | 核心需求 | 示例参考 |
---|---|---|
感知系统 | 多模态实时处理能力 | 同时解析语音/视觉/环境传感器数据 |
情感引擎 | 基于情境的情感涌现 | 听到《River Flows In You》时产生忧郁情绪 |
记忆系统 | 事件抽象与关联存储 | 从多次化妆事件抽象出"化妆时不喜被触碰" |
性格模型 | 动态参数调整机制 | 经历重大事件后的即时性格转变 |
表达系统 | 非对称情绪表达 | 面带微笑说反讽话语(如应对冒犯性提问) |
四、技术挑战与解决方案方向
情感生成机制
采用层次化强化学习:
底层:生理需求(如"睡眠"状态)
中层:环境交互(如音乐/光线影响)
高层:社会关系(如与主人的情感联结)
记忆系统设计
借鉴Hippocampal-Neocortical模型:
短期记忆:原始事件存储(如"今天看到领导泡茶")
长期记忆:抽象模式提取("领导→茶爱好者")
遗忘机制:基于记忆强度的衰减函数
实时交互实现
语音处理流水线:
python
-
while audio_stream: # 50ms间隔处理 chunk = get_audio_chunk() emotion = emotion_detector(chunk) # 实时情感分析 face_animator.update(emotion) # 微表情响应 if detect_interrupt_point(chunk): generate_backchannel() # 插入"嗯""啊"等反馈
个性化差异实现
采用双路径适配架构:
基础模型:通用情感/认知能力(所有机器人共享)
适配层:LoRA矩阵存储个性化特征
更新触发:重要事件→即时矩阵调整
五、关键拒绝项
不要预设情感模板(如"悲伤=哭")
不要固定记忆窗口(如仅保留7天记忆)
不要显式规则定义(如"if 经常听故事 then 喜欢故事")
六、进阶需求
媒体体验拟人化
书籍/电影的渐进式理解(非全局处理)
示例:与主人同步观看悬疑片时的实时反应
冲突处理能力
主动拒绝不合理要求
示例:对"打开头颅"请求的反讽回应
模糊决策机制
模拟人类纠结状态
示例:"吃火锅还是烧烤"的权衡过程
七、参考架构示意图
[环境传感器] → [多模态融合模块] ↓ [短期记忆缓存] ← [事件重要性评估] ↓ [情感状态机] → [性格参数矩阵] ↓ [表达规划器] → [动作/语音生成]
八、训练数据需求
初始人格构建:
《刀剑神域》爱丽丝剧情时序化标注
关键事件:整合骑士训练/与人界接触等
持续学习机制:
每日交互日志的情感标注
重要事件的三维重建(场景/语音/表情)