《斯坦福研究人员介绍RoboFuME:用最小的人类输入改革机器人学习》

《斯坦福研究人员揭秘RoboFuME:改变机器人学习需求,以最小人类干预效果最佳》

在涉及机器学习的许多领域中,学习任务特定模型的一个广泛成功范式是首先从现有的多样化先验数据集中预先训练一种通用模型,然后通过少量任务特定数据对模型进行适应。这种范式对于现实世界中的机器人学习非常有吸引力,因为在机器人上收集数据是昂贵的,而在小规模任务特定数据集上对现有模型进行微调可以大幅提高学习新任务的数据效率。使用离线强化学习预先训练一个策略,然后用在线强化学习对其进行微调是在机器人学中实现这种范式的一种自然方式。然而,在实践中使用此方法时会遇到许多挑战。

首先,与本地机器人平台相比,现成的机器人数据集通常包含不同的物体、固定位置、摄像机视角和光照条件。由于预先训练数据和在线微调数据之间存在非平凡的分布偏移,有效地对机器人策略进行微调变得具有挑战性。大多数之前的研究只强调预先训练和微调范式的优势,在该范式中,机器人在微调和预训练阶段都使用相同的硬件实例。第二,当在实际世界中训练或微调策略时,通常需要大量人工监督。这种监督涉及在试验之间手动重置环境和设计奖励函数。

他们的目标是解决这两个问题,并提供一个可行的框架,以最小的人力和耗时努力实现机器人微调。在过去几年中,已经取得了显著进展,开发出了有效和自主的强化学习算法。然而,只有在存在人类监督和各种演示数据集的情况下,系统才能学习,而不需要人工设计的激励机制和手动环境重置。无重置强化学习(RL)是一种在某些工作中提出的方法,可以减少对手动环境重置的需求。训练过程中,代理人在执行任务策略和重置策略之间交替,并通过在线经验更新两者。

然而,这些努力尚未使用各种商业机器人数据集。尽管这些新技术尚未被纳入在微调阶段尽量减少人类监督的系统中,但离线强化学习算法的最新进展使策略能够利用各种离线数据,并通过在线微调进一步发展。其他论文提出学习奖励预测模型可以取代对人类规定的奖励函数的需求;然而,他们发现许多这些模型在实际的强化学习微调环境中容易出现问题。总之,尽管早期的研究为构建一个有效和无需人工干预的机器人学习功能系统所需的各个组成部分提供了必要的条件,但仍在确定要使用哪些组件以及如何组装它们。

斯坦福大学的研究人员创建了名为ROBOFUME的系统,该系统利用各种离线数据集和在线微调来实现自主和有效的现实世界机器人学习。他们的系统有两个操作阶段。他们假设在预训练阶段,他们可以获得一个多样化的先验数据集,目标任务中的一小部分失败示例收集,一些任务演示以及目标任务的重置演示。他们从这些数据中推导出一种语言条件的离线强化学习多任务策略。他们需要一种算法,既可以在与离线数据集中不同的环境中稳健地微调,又可以高效地处理异构离线数据,以处理离线交互和在线交互之间的分布偏移。

他们发现,校准的离线强化学习技术确保已预训练的策略能够高效处理各种离线数据,并通过纠正学习Q值的比例和低估来自离线数据的学习策略的预测值来持续改进。他们必须通过开发奖励预测器来消除对奖励工程的需求,以确保在线微调阶段需要的人类输入尽可能少。

他们巧妙的方法涉及使用大规模视觉语言模型(VLM)提供可靠的预训练表示,然后通过少量领域内数据进行细化,使其适应奖励分类场景。预先训练的VLM已经使用从互联网中获得的大规模语言和视觉数据进行了训练。与早期工作中使用的模型相比,这使得模型更能够适应光照和摄像机位置的变化。在微调阶段,机器人通过在实际世界中尝试完成任务和恢复环境到初始状态分布之间交替进行,独立调整策略。同时,代理人使用预训练的VLM模型作为替代奖励来更新过程。

为了评估他们的框架,他们在Bridge数据集上进行预训练,并在各种真实世界的下游任务中进行测试,例如折叠和覆盖布料,拿起和放置海绵,盖上锅盖,以及放置锅子到水槽中。他们发现,只需三小时的面对面指导,他们的策略相比仅离线技术具有显著优势。在一个模拟场景中,他们进行了额外的定量试验,以展示他们的策略比模仿学习和离线强化学习方法更好,这些方法要么不在线调整,要么不使用各种先前的数据。

从以前的机器人数据集进行预训练并在未知的下游任务中进行微调的完全自主系统,并且能够进行最小数量的重设和学习奖励标签是他们的主要贡献之一。其次,他们开发了一种用于改进已经训练过的视觉语言模型并利用它们为下游强化学习创建替代奖励的技术。