面部表情分析的挑战与技术趋势-北京津发科技股份有限公司

当前位置：主页 > 技术文章 > 面部表情分析的挑战与技术趋势

面部表情分析的挑战与技术趋势

更新时间：2021-12-27 点击次数：2522

　　最近应邀提交了一个表情分析综述，在这里把核心部分提前放一下，你若细看不信你没有想法。

　　从实际使用精度和学术上非受控环境人脸表情识别精度来看，目前人脸表情识别远没有达到像人脸识别一样的高度。其主要问题在于：可靠的表情数据量少、表情图片存在不确定性问题、非受控环境下人脸遮挡和姿态问题、以及方法的对比公平性和可重复性问题。

　　1 可靠的表情数据规模较小

　　目前，经心理学家验证的数据库，如CK+等，是*的可靠表情数据。但是，这些数据库的规模非常小且是实验室受控环境下的正脸拍摄，在该类型数据库上训练的模型一般现实应用效果比较差。比如使用深度学习方法，模型学习的特征可能是记住特定人的信息以及特定的表情表演方式，泛化能力较差。最近，在非受控环境下采集的网络数据，如FERPlus和RAF-DB之类的数据库，经过多人众包标注可靠性有所增加，但是标注数量也只是在3万左右。利用数据驱动型深度学习方法，在该类数据库上直接训练的精度也不高。AffectNet虽然标注44万基本表情，但标注质量相对差，使得模型难以学习到真正的表情特征。

　　近年来，缓解表情数据库规模问题的流行策略就是将物体识别模型或者人脸识别模型迁移到表情识别任务，即迁移学习方法。（Ding 等，2017）提出一种FaceNet2ExpNet框架。该框架首先在大规模人脸识别数据库上进行训练，然后联合训练人脸表情和人脸识别，最后在人脸表情任务上进行微调以减少模型对人脸身份信息的依赖。在EmotiW2017的音视频情感识别竞赛中，（Knyazev 等，2017）使用超大规模的私有人脸数据库训练的VGGFace网络在比赛中获得了亚军。在EmotiW2018的音视频情感识别比赛中，前五名的方法基本上都使用了人脸识别模型和物体识别模型进行初始化。（Zhou 等，2019）在EmotiW2019的音视频情感识别比赛中对人脸识别模型、人脸识别预训练的数据库等进行了综合评估。另外，除了迁移学习策略，利用半监督方法也是未来可能的发展趋势，其主要原因是1)大规模人脸识别数据库中包含了非常多的表情人脸和2）像AffectNet和EmotioNet等数据库还有很大一部分表情人脸没有进行标注。最近，（Liu 等，2020）建立了一些半监督人脸表情识别基本策略。

　　2 表情的不确定性问题

　　对于基本表情识别而言，模拟两可的表情、低质量表情图片、以及标注者的情感主观性导致表情类别很多时候不是wei一确定的，即表情存在不确定性（Wang和Peng 等，2020）。表情的不确定性问题和噪声标签问题非常类似，它们的差别主要体现在：1）表情是本身也存在模拟两可的不确定性，而一般物体分类的噪声标签是由于没有进行人工标注的原因；2）物体分类的噪声可以用人工标注方式进行有效消除，然而由于标注者的主观性，大规模的表情分类里面的噪声很难用标注的方式进行消除。表情的不确定性问题也导致了很难有较大规模的可靠表情数据库。

　　为了缓解表情的不确定性问题，（Zeng 等，2018）和（Wang和Peng等，2020）分别进行了初步探索。其中，（Zeng 等，2018）利用多数据库上的深度学习模型预测结果辅助训练潜在的正确标签，以提升特征学习的鲁棒性。（Wang和Peng等，2020）在每个Batch使用自注意力机制和重标注方案，抑制表情不确定的部分样本。鉴于基本表情分类不可避免出现的不确定性问题，将大规模表情问题定义成多标签表情分类问题（Li 等，2018）或者符合表情问题EmotioNet（Benitez 等，2016）也是两种可选策略。

　　3 非受控环境的人脸遮挡和姿态问题

　　类似于人脸识别，非受控自然环境下人脸表情识别受人脸的遮挡和姿态影响较大。传统方法研究人脸表情识别的遮挡问题一般是使用人工设定局部黑块方式（Irene等，2008），其不一定适合现实中的遮挡情况，如戴眼镜、带口罩等。最近，（Wang和Peng等，2020）统计了在FERPlus数据库的测试集上的遮挡和大姿态识别情况，结果表明平均精度为86%左右的模型在遮挡和大姿态情况下的精度只有73%-75%。

　　为了缓解遮挡和姿态对人脸表情识别的影响，利用人脸局部信息是比较*的有效策略。（Li 等，2019）和（Wang和Peng等，2020）分别在特征层次和图片层次使用局部块注意力机制，以提升模型对遮挡和姿态的鲁棒性。（Wang 等，2020）使用人脸关键点作为注意图引导深度网络，使得网络集中关注人脸关键区域提高模型的鲁棒性。另一个可能的策略就是利用大规模人脸识别数据，先学习一个对姿态和遮挡鲁棒的人脸识别模型然后再对人脸表情识别进行微调。笔者观察到，（Wang 等，2020）使用VGGFace2数据库进行人脸识别模型预训练，最终得到的人脸表情识别性能比比其他数据库预训练的模型要好2%左右，这充分表明了先学一个对姿态和遮挡鲁棒的人脸识别模型是可行的。

　　4 表情识别方法的对比性不强

　　由于深度学习方法中超参数比较多，最终性能对各个超参数都有一定的影响，且这种影响有时候是新方法的关键因素，这就导致了表情识别方法存在对比性不强以及可重复性不强问题。虽然这个问题是深度学习的一个普遍性问题，但是由于前面三个问题的存在，笔者认为超参数对表情识别性能的影响相对较大。比如其他参数相同情况下，在RAF-DB数据库上使用batchsize为256训练的ResNet18模型（ImageNet预训练）比batchsize为32训练的模型（RAF-DB测试精度约86%）平均精度低5-10个百分点。如此简单的基本方法就能获得86%的平均精度，已经优于最近很多发表方法。

　　为了提高人脸表情识别方法的对比性，笔者认为有必要在对比时候将每种预训练模型和对性能敏感的参数进行讨论评估。为了避免有些方法是在比较低的基线方法才有效，有必要在简单有效的基线方法（比如使用预训练的ImageNet模型、人脸识别模型）基础上进行比较。

　　总结与展望

　　目前，虽然非受控自然环境下的表情分析得到较快发展，但是众多问题和挑战仍然有待解决。人脸表情分析是一个比较实用的任务，未来发展除了要讨论方法的精度也要关注方法的耗时以及存储消耗。在全面深度学习化的时代，人脸AU检测也在飞快发展，人脸表情识别未来可以考虑用非受控环境下高精度的人脸AU检测结果进行表情类别推断。由于人脸表情通常比较复杂多样，单一标签很难进行描述，未来多标签人脸表情问题应该受到更多关注。另外，表情和情感本身是连续性的，未来应该加强对非受控条件人脸的二维V-A情感研究。

上一篇：驾驶模拟器能训练学员的基本驾驶操作技术和处理紧急情况的应变能力

下一篇：虚拟仿真实验室基于怎样的技术又有怎样的教学系统构成

人因工程与工效学: 人机工程、人的失误与系统安全、人机工效学、工作场所与工效学负荷等

安全人机工程: 从安全的角度和着眼点，运用人机工程学的原理和方法去解决人机结合面安全问题

交通安全与驾驶行为: 人-车-路-环境系统的整体研究，有助于改善驾驶系统设计、提高驾驶安全性、改善道路环境等

用户体验与交互设计: ErgoLAB可实现桌面端、移动端以及VR虚拟环境中的眼动、生理、行为等数据的采集，探索产品设计、人机交互对用户体验的影响

建筑与环境行为: 研究如何通过城市规划与建筑设计来满足人的行为心理需求，以创造良好环境，提高工作效率

消费行为与神经营销: 通过ErgoLAB采集和分析消费者的生理、表情、行为等数据，了解消费者的认知加工与决策行为，找到消费者行为动机，从而产生恰当的营销策略使消费者产生留言意向及留言行为