富士通的新人工智能研究提高了人机交互中的弱监督动作分割,通过动作联合学习
富士通最新研究:强化人机交互,动作联合学习,大幅提升AI技术在弱监督动作分割领域的表现人类行为识别领域的最新进展为人机交互(HRI)带来了令人惊叹的突破。借助这项技术,机器人已经开始理解人类行为并做出相应反应。动作分割是确定人类动作标签和时间界限的过程,是动作识别的关键部分。机器人必须具备这种技能,以便动态定位人类行为,并与人类良好地互动。
传统的动作分割模型训练方法需要大量标签。为了进行彻底监督,最理想的情况是每帧都有标签,即为每个动作的每一帧都分配标签,但这些标签带来了两个显著的困难。首先,为每一帧注释行动标签可能很昂贵且耗时。其次,由于多个标注者的不一致标注和动作之间的时间界限不清晰,数据可能存在偏差。
为解决这些挑战,最近的研究团队提出了一种新颖的学习技术,在训练阶段最大化未标记帧的动作联合概率。给定一帧在两个相邻时间戳之间有多个动作标签的概率被称为动作联合概率。这种方法通过考虑动作联合概率为未标记帧提供更可靠的学习目标,从而提高了训练过程的质量。
团队还在推断步骤中开发了一种新的后期处理方法,以从模型的软分配预测中提供更准确的硬分配动作标签。通过这个优化过程,给帧分配的动作类别更加精确可靠。它不仅考虑逐帧预测,还考虑了不同视频段中动作标签的一致性和连续性,从而提高了模型提供准确动作分类的能力。
这项研究中创建的技术旨在与各种现有的动作分割框架兼容,这意味着它们可以在各种机器人学习系统中使用而无需进行重大更改。这些技术的有效性使用了三个广泛使用的动作分割数据集进行评估。结果表明,该方法通过超越先前的时间戳监督技术,达到了新的最先进性能水平。团队还指出,他们的方法使用不到1%的全监督标签产生了类似的结果,这使得它成为一种极为经济的解决方案,可以在性能方面与甚至超过全监督技术相媲美。这说明了他们提出的方法如何有效推进动作分割领域及其在人机交互中的应用。
主要贡献总结如下。
- 引入了动作联合优化到动作分割训练中,提升了模型的性能。这种创新方法考虑了在时间戳之间未标记帧的动作组合概率。
- 引入了一种新的后期处理技术,极大地提高了动作分割模型的输出。通过这种优化过程,动作分类的准确性和可靠性得到了极大地提高。
- 该方法在相关数据集上取得了新的最先进结果,显示了其进一步推进人机交互研究的潜力。