计算机视觉工坊人脸识别技术介绍和表情识别最新研究( 四 )
本文的贡献:(1)提出了一个外生树状深度集成方法 , 该模型使用内生和外生双重网络 。 第一个输出表示用于预测任务 , 而第二个输出的表示通过适应性和联合学习更多相关的弱预测变量 , 以进行深度相关的调整;(2)提出了一种外源消除损失 , 通过内源表示与外源表示之间的正交性 , 从内源表示中消除外源变异;(3)在具有不同外生变量的多个任务上实验性地验证了这种方法 。
文中通过深度神经网络对外生信息建模 , 然后从定义一个简单的基线模型开始 , 然后逐步引入其他的架构 , 从而描述如何明确地合并外生表示和任务预测之间的依赖关系 , 整体架构如下图所示 。
本文插图
如上图所示 , 主要呈现了基线框架 , 简单的深度集成方法框架 , 树状深度集成方法框架 , 外生树状深度集成方法框架 。 从基线框架开始 , 通过自适应加权深层集成的预测并利用外源表示来逐步改进框架的设计方法 。
树状深度集成网络通过参数优化相应的损失 , 然后将与外生变量有关的信息分解为内生表示中的任务 , 并将提取的外生和内生的特征输入网络和进行输出 , 通过超参数进行实验设置 , 从而实现从内在表征中去除外源性信息 。
本文插图
文中通过将模型在合成数据集上进行评估 , 从中可以清楚地识别外生变量 。 紧接着 , 在真实的FER数据集中定性和定量验证模型 , 主要是介绍了用于训练或测试所提出方法的数据集 , 具体的实现细节 。 下图中Table 2为在MNIST-R和dSprites数据集上 , 根据平均准确度比较不同体系结构;Figure 4为MNIST-R以平均准确度表示的消融外源表征消除的消融研究
本文插图
除了在MNIST数据集上之外 , 文中还在RAF-DB , AffectNet和ExpW数据集上进行了实验验证 , Table 3从平均准确率上比较了不同的体系架构 , Figure 5是在数据集RAF-DB上进行消融研究的结果 。
本文插图
最后将THIN与最新的FER方法进行了比较 , 证明了THIN在当今最新的 , 具有挑战性的FER数据库上的性能明显优于最新技术 。
本文插图
本文中所提出的模型具有较多的应用可能性 。 首先 , 理论上可以将THIN直接应用于其他问题 , 例如以姿势或比例作为外生变量的身体姿势估计 , 或具有领域信息的语义分割 。 其次 , 在本文中仅使用一个外生变量来训练THIN 。 但是 , 可以尝试使用多个这样的变量和表示网络以及某种融合方案来应用 。 此外可以尝试使用身份作为外生变量的THIN来预测面部表情 , 然后使用以面部表情作为外生变量的另一个THIN来预测身份 , 依此类推 , 以迭代地完善FER和身份预测 。
备注:在公众号「计算机视觉工坊」后台 , 回复「人脸识别技术」 , 即可获得上述两篇论文 。
参考文献
- 基于深度学习的自然场景下多人脸检测
- Facial Emotion Recognition with Noisy Multi-task Annotations
- THIN: THrowable Information Networks and Application for Facial Expression Recognition in the Wild
推荐阅读
- 汽车|复旦博士、脱口秀演员开发类视网膜传感器 将无人车视觉感光性能提升1万亿倍
- 游戏|《地平线:西部禁域》中文故事预告 新主视觉图公布
- 飞机|两架客机眼看在空中“相撞”却擦身而过 专家:视觉错觉 相距很远
- 一加10|Pixelworks三大视觉技术加持:一加10 Pro显示颜色完美无偏差
- OPPO|专为色觉障碍人士打造!OPPO公开色彩视觉检测技术:辨色正确度提升80%
- 论文|2020中国卓越科技论文近50万篇:计算机等4大领域位列世界第一
- 特斯拉|马斯克在线科普特斯拉为何不用雷达 网友道破真相:纯视觉成本低
- 视觉欺骗|2021年最强视觉欺骗!只有王者级的眼睛才能识破
- IDC|仅剩十年!IDC称经典计算机将面临来自量子计算机的巨大挑战
- 大学生|5名大学生处置实验室漏水获奖12万:避免我国新一代量子计算机研发延误
