新闻动态

中心三篇论文被IROS(一篇同时RA-L)、MM接收

2021-07-08

北京大学高能效计算与应用中心情感智能机器人实验室撰写的学术论文“Cross-modal Representation Learning For Lightweight and Accurate Facial Action Unit Detection”和“Learning to Navigate in a VUCA Environment: Hierarchical Multi-expert Approach” (本篇为与浙江省北大信息技术高等研究院情感智能机器人实验室合作文章)同时被2021年的IEEE\RSJ智能机器人与系统国际会议IROS (International Conference on Intelligent Robots and Systems)接收,其中 “Cross-modal Representation Learning For Lightweight and Accurate Facial Action Unit Detection”也将在IEEE RA-L(IEEE Robotics and Automation Letters)上发表。

北京大学高能效计算与应用中心情感智能机器人实验室撰写的另一篇学术论文“CaFGraph:Context-aware Facial Multi-graph Representation for Facial Action Unit Recognition”被2021年ACM国际多媒体会议ACM MM(ACM International Conference on Multimedia)接收。

 

 

Cross-modal Representation Learning For Lightweight and Accurate Facial Action Unit Detection

论文作者:陈颖婕*,吴涵*,王韬+,王亦洲,梁云。(*为共同一作,+为通讯作者)

面部动作单元(AU)检测在情感计算,特别是情感人机交互领域中具有不可或缺的作用,受到越来越多的关注。在这篇论文中,我们致力于设计一个轻量级并且精准的面部动作单元(AU)检测方法,这对于大部分人与机器人交互场景中的情感交流至关重要。AU的检测是一项微妙而富有挑战性的任务,因为AU引起的细微而短暂外观变化很难捕捉和表达。因此,现有的方法主要处理静态面部状态或帧级时间关系。面部肌肉运动的动态过程是AU的核心特征,但以往的研究很少关注和利用。在此基础上,我们提出了光流监督模块(FSM),以光流的形式显式捕捉人脸的动态运动,并利用学习到的光流在训练阶段有效地为检测模型提供额外的监督信号。此外,所提出的FSM可以很容易地嵌入到各种基于帧的AU检测网络中,在提高其检测性能的同时不增加额外的计算和存储开销。我们在两个基准数据集DISFA和BP4D上进行了大量实验,实验结果显示了我们使用了FSM的网络,FSNet,获得了state-of-the-art的检测性能和良好的检测速度。

 

Learning to Navigate in a VUCA Environment: Hierarchical Multi-expert Approach

论文作者:张文祺*、赵锴*、李鹏+、朱晓、叶发萍、江微杰、叶发萍、王韬。(*为共同一作,+为通讯作者)

该论文主要针对于解决在不给定先验地图的情况下,机器人如何在一个可能有死胡同或高速移动障碍物的未知复杂环境中,不通过任何外源设备,仅凭借机载测距传感器实现避障导航任务。

导航系统架构

 

该论文设计了一套高效、鲁棒的导航系统,主要采用分层结构,借鉴了中枢神经系统(CNS)的思路,设计了一套上下层双向反馈机制,上层负责定位建图、启发式搜索、路径规划,在结合了目标距离、路径代价与安全系数后,实时向下层传达指令;下层则通过多专家融合的方法,自适应的在静态环境下或高动态环境下灵活的切换导航策略,并实时向上层反馈安全系数。这项研究突破了机器人导航中存在的各项局限性,对于机器人感知、定位、导航等任务过程中实现精准决策具有重要意义。

上下层双向反馈机制示意图

相比基于优化方式和基于学习方式的不同基准方法,该工作在各项指标上都取得了突破性的提升。基于该项工作,研究人员分别在轮式机器人与情感智能机器人实验室自主研发的四足机器狗“萝卜”上进行了应用,结果表明,在各种情况下该方法均具有良好的探索与导航能力。

“萝卜”机器狗

 

CaFGraph: Context-aware Facial Multi-graph Representation for Facial Action Unit Recognition

论文作者:陈颖婕*,陈迪琦,王亦洲,王韬+,梁云。(*为第一作者,+为通讯作者)

面部动作单元(AU)检测在情感计算,特别是情感人机交互领域中具有不可或缺的作用,受到越来越多的关注。AU描述的是细微和瞬时的面部肌肉运动,而在连续帧中捕捉局部人脸区域内细微而模糊的运动是一个挑战。考虑到上下文是人类视觉系统中解决模糊问题的关键,在面部图像中建立上下文模型将有助于更精确的面部动作单元检测。为此,我们提出了CaFGraph,一种新颖的上下文感知人脸多图,它可以同时模拟基于形态学和面部肌肉分布的区域级局部上下文和区域级时间上下文。CaFGraph是第一个为几乎所有细粒度面部行为分析任务(包括但不限于AU识别)构造一个通用的面部多图结构的工作,该图结构独立于任务设置和数据集统计数据。为了充分利用上下文信息,本文提出了一种基于CaFNet的多标签面部动作单元识别网络,该网络通过CaFGraph学习上下文感知的面部图像标准。具体来说,CaFNet首先将每张面部图像从RGB域转换到频域提取全局特征,减少信息损失。接下来,根据预先定义的区域中心自适应地定位局部面部区域,并独立学习作为节点信号的区域特征。为实现节点间的交互,引入时空多图卷积模块,实现基于上下文的多标签AU检测。在两个广泛使用的基准数据集(BP4D和DISFA)上的实验结果表明,我们的CaFNet优于现有的方法。