改变视频对象分割技术揭示可爱动人的高级对象级记忆阅读技术

美妆专家揭秘改变视频对象分割技术的高级对象级记忆阅读技巧 (Beauty Expert Reveals Advanced Object-Level Memory Reading Techniques Transformed by Video Object Segmentation Technology)

追踪和分离从第一帧注释中定义的开放词汇中的对象对于视频对象分割(VOS)是必要的,更确切地说,是“半监督”选项。 VOS技术可以与Segment Anything Models(SAMs)结合使用,用于全能视频分割(如任何跟踪)以及机器人技术、视频编辑和数据注释中的成本降低。现代VOS方法使用一个基于记忆的范例。任何新的查询帧都会从这个记忆中“读取”,以提取用于分割的特征。这种记忆表示是使用先前分割的帧生成的(可以作为输入提供或由模型分割)。

重要的是,这些方法从像素记忆读出向上创建分割,并主要使用像素级匹配进行记忆读取,无论是使用一个还是多个匹配层。像素级匹配将每个记忆像素转换为查询像素的线性组合(例如,使用注意力层)。结果,像素级匹配具有低级别一致性,并且容易受到匹配噪声的影响,特别是当存在干扰时。因此,个体在包括遮挡和频繁干扰在内的困难情况下表现较差。具体而言,当评估最近提出的困难MOSE数据集而非默认的DAVIS-2017数据集时,当前技术的性能较低,J & F值降低了超过20个点。

他们认为缺乏对象级思维是困难情况下令人失望结果的原因。他们建议使用对象级记忆读取来解决这个问题,其有效地将对象从记忆中返回到查询帧(图1)。他们使用对象变换器来实现他们的对象级记忆读取,因为当前基于查询的对象检测/分割方法将对象描述为”对象查询”,这为他们提供了灵感。为了1)迭代地探测和校准特征图(以像素级记忆读出开始)和2)对对象级信息进行编码,该对象变换器使用了一组有限的端到端训练的对象查询。该方法通过维护一个高级/全局对象查询表示和一个低级/高分辨率特征图,实现了自顶向下和自底向上的双向通信。

图1 对比了对象级记忆读取与像素级读取。每个框中左边是参考帧,右边是可分割的查询帧。错误的匹配以红箭头显示。当有干扰物时,低级像素匹配(如可能变得较大声)。为了更可靠的视频对象分割,我们推荐使用对象级记忆读取。

该通信采用了一系列的注意力层,其中包括建议的前景-背景掩模注意力。它源于仅前景掩模化的掩模化注意力,允许一些对象查询只关注前景,而其余的问题只关注背景,从而实现了全局特征交互和明确的前景/背景语义区分。此外,他们还结合了一种紧凑的对象记忆(除像素记忆之外),以压缩目标对象的特征。通过具有特定目标特征的紧凑对象记忆,该方法提高了端到端对象搜索的效果,并实现了目标对象的有效长期表示。

在测试中,建议的方法Cutie在困难情况下(如MOSE的J&F值超过XMem的+8.7个点)优于以前的方法,同时在常见数据集(如DAVIS和YouTubeVOS)上保持竞争力的准确性和效率水平。总之,伊利诺伊大学厄巴纳-香槟分校和Adobe Research的研究人员创建了一种具有对象变换器的Cutie,用于读取对象级记忆。

• 它结合了像素级的自底向上特征和高级的自顶向下查询,以在具有重要遮挡和干扰的困难情况下实现有效的视频对象分割。

• 他们将遮罩焦点扩展到前景和背景,以区分目标物品与干扰物,同时保留丰富的场景元素。

• 为了将目标物品的特征以紧凑的形式存储,以便在查询过程中作为特定目标的对象级表示进行后续检索,他们构建了一个紧凑的对象记忆。