具身机器人中情感认知与智能交互研究

情感的感知与自然表达是具身机器人应用的关键步骤

随着人形机器人技术的快速迭代，其应用场景正从特定工业场景向养老陪护、教育辅助、公共服务等多元领域延伸，核心需求从 “功能执行” 转向 “情感共鸣”。本项目围绕具身智能的情感交互技术展开系统研究，旨在为不同领域人群提供自然且多样化的情感交互。研究内容包括三个方面：

一、情感交互多模态数据库：构建了面向多元场景的情感交互多模态数据库，核心含自建的 Robot-Expr（机器人头部 3D 表情数据集）、Hand-Emo（灵巧手情感化动作数据集）、Human-Robot-Int（机器人交互数据集），覆盖养老、教育、公共服务等典型场景，为机器人数据感知、意图理解与自然表达系统研发提供数据支撑。

二、感知与表达模型：针对机器人情感交互中的多模态信息融合、场景适配、交互自然性等关键问题，提出EmInt融合框架（实现面部、手部、肢体动作的情感语义对齐）、场景自适应范式及情感表达生成模型，形成 “模态感知→意图理解→情感表达” 闭环系统，为机器人情感交互提供理论与技术支撑。

三、实际应用：团队在机器人情感交互领域有多项落地成果：与四川具身人形机器人公司合作推进机器人的情绪识别，将相关技术迁移至儿童陪伴机器人研发中，服务于儿童情感陪护等，为具身智能落地提供解决方案。

本研究团队在具身智能与情感计算交叉领域具有深厚积累，负责人任福继教授为全球情感计算领域代表性学者，团队拥有多源情感数据库、智能感知技术与机器人交互平台，并与长虹集团共建联合实验室，推动研究成果在智慧健康与智能陪护中落地。

情感认知与调节数据库

本项目构建了面向驾驶场景的情感认知与调节多模态数据库，核心数据由自主采集的Synthetic, R³-Ftg 与 Be 数据集构成，同步整合主流公开数据库的访问接口，便于研究者对比与扩展。

自建数据库：

Synthetic Dataset: 基于 Stable Diffusion 构建的大规模可控面部表情数据集，涵盖七类基本情绪（快乐、中性、惊讶、伤心、愤怒、恐惧、厌恶），每类40万张，总计280万张图像。通过生成式建模规避遮挡、标签噪声与类别不均衡问题，提供高多样性、高纯净度的标准化训练资源，支撑高鲁棒性模型训练。

R³-Ftg Dataset: 真实驾驶情境下的情绪诱发数据集，记录驾驶员在典型交通冲突中的行为与情绪响应。涵盖九类高风险驾驶干扰事件，包括非法变道、无信号并线、近距离加塞、突然制动、行人突穿等，支持对路怒情绪触发机制的系统性建模。

Be Dataset: 多模态情绪响应数据集，同步采集面部视频、脑电（EEG）信号与每分钟5点李克特量表自我报告，实现主观情绪与生理-行为信号的联合分析，适用于高精度情绪状态识别。

外部资源集成：

为便于研究者开展横向对比与基准测试，本平台提供对以下公开数据库的导航链接及简要介绍：

AffectNet: 大规模自然场景面部表情数据库，含丰富情绪类别标注。

RAF-DB: 真实世界情感面部图像集，支持精细情绪分类研究。

FERPlus: 优化扩展的表情识别基准数据集，适用于模型预训练与评估。

本数据库以真实驾驶场景下的多模态情绪数据为核心，为车内乘员情绪感知与智能干预系统研发提供可靠数据支撑。

识别与调节模型

本研究围绕面部表情识别（FER）中的核心挑战——标签噪声与数据分布不均衡问题，提出了一系列关键技术创新，构建了兼具鲁棒性与泛化能力的智能情感识别框架。

核心技术成果如下：

ReSup：可靠标签噪声抑制框架

针对真实场景下因主观标注导致的标签噪声问题，提出 ReSup 方法。不同于传统直接判断标签是否含噪的方式，ReSup通过建模预测结果与目标标签之间的差异分布，同步学习噪声与干净样本的联合分布，提升噪声判定的可靠性。进一步引入双网络协同决策机制，利用“双网共错概率低”的特性，通过决策交换与一致性增强，有效减少误判带来的训练干扰，显著提升模型在含噪数据下的学习效率与稳定性。

Co-dance with Ambiguity：面向模糊性的鲁棒识别范式

从“与模糊性共舞”的视角出发，系统性地将标签不确定性建模为可优化的学习过程。ReSup方法作为其核心实现，不仅抑制噪声影响，更通过动态调整样本权重，使模型在复杂、模糊的驾驶环境中具备更强的鲁棒性与适应能力。

基础模型构建：合成数据驱动的通用表达识别

针对真实数据集中存在的类别不平衡（如“恐惧”、“厌恶”样本稀少）问题，提出基于人工可控方式生成大规模标准化面部表情数据集的方案。利用此类高质量、无噪声、均衡分布的合成数据进行无监督预训练，构建通用的面部表情基础模型。该模型可通过微调高效适配于智能座舱情绪识别、人机交互情感反馈等下游任务，大幅提升模型的泛化能力与实际落地价值。

本模块研究成果形成了“噪声抑制 → 模型鲁棒 → 基础模型泛化”的技术闭环，为高精度、高可靠性表情识别提供了坚实的理论与技术支撑。

查看模型详情

实际应用

团队在具身机器人领域有多项实际运用：研发仿生机器人头，完成技术迁移与升级，构建“精准感知—智能反馈”交互闭环，支持实时表情感知与表达；同时研发情绪识别系统，支持视觉与文本多模态分析，为相关研究提供高效工具。

查看应用案例