《下一代神经网络:NVIDIA研究在NeurIPS上宣布一系列人工智能进展》

《重塑未来智能时代:NVIDIA在NeurIPS揭示一系列神经网络的人工智能突破》

英伟达研究人员正在与世界各地的学术中心合作,推进生成型人工智能、机器人技术和自然科学等领域的发展,其中有十几个项目将在全球顶级人工智能会议之一NeurIPS上展示。

NeurIPS定于12月10日至16日在新奥尔良举行,汇集了生成型人工智能、机器学习、计算机视觉等领域的专家。英伟达研究将展示的创新包括将文本转换为图像的新技术、将照片转换为3D化身的技术,以及将专用机器人转变为多技能机器的技术。

“英伟达研究持续推动着领域的进步,其中包括将文本转化为图像或语音的生成型人工智能模型,学习新任务更快的自主人工智能代理,以及计算复杂物理现象的神经网络,”英伟达公司学习和感知研究副总裁Jan Kautz表示,“这些项目通常与学术界的顶级人才合作完成,将帮助加速虚拟世界、模拟和自主机器的开发者。”

画面不错:改进文本到图像扩散模型

扩散模型已经成为最受欢迎的生成型人工智能模型,用于将文本转化为逼真的图像。英伟达研究人员与多所大学合作开展了多个推进扩散模型的项目,这些项目将在NeurIPS上展示。

  • 一篇被接受作为口头报告的论文专注于改进生成型人工智能模型理解文本提示中修饰词和主实体之间关联的能力。现有的文本到图像模型对于展示黄色的西红柿和红色的柠檬,可能会错误地生成黄色的柠檬和红色的西红柿的图像,而新模型分析用户提示的句法,鼓励实体与其修饰词之间的关联,以更忠实地呈现提示的视觉描绘。
  • SceneScape是一个使用扩散模型根据文本提示创建长时间的3D场景视频的新框架,将以海报的形式展示。该项目结合了文本到图像模型和深度预测模型,帮助视频在帧之间维持合理的场景一致性,并生成艺术博物馆、鬼屋和冰雪城堡等视频场景(如上图所示)。
  • 另一篇研究海报描述了如何改进文本到图像模型生成训练数据中很少见概念的能力。通常情况下,生成这种图像的尝试会导致质量低下的视觉效果,与用户的提示不完全匹配。新方法使用一小组示例图像,帮助模型识别好的种子,即随机数序列,指导人工智能从指定的稀有类别生成图像。
  • 第三个海报展示了如何使用文本到图像扩散模型,根据不完整的点云的文本描述生成缺失部分,并创建完整的3D模型。这有助于补充由激光雷达扫描仪和其他深度传感器收集的点云数据,用于机器人和自动驾驶车辆的人工智能应用。由于对象是从特定角度进行扫描的,所以收集到的图像通常是不完整的,例如,安装在车辆上的激光雷达传感器只能从每栋建筑的一侧进行扫描。

角色发展:AI化身的进展

AI化身将多种生成型人工智能模型结合起来,创建和动画虚拟角色,生成文本并将其转换为语音。英伟达在NeurIPS上的两篇海报介绍了使这些任务更加高效的新方法。

  • 一篇海报描述了一种将单一肖像图像转换为3D头像的新方法,同时捕捉发型和配饰等细节。与需要多张图像和耗时的优化过程的现有方法不同,这个模型在推理过程中实现高保真度的3D重建,无需额外的优化。这些化身可以使用混合形状(Blendshapes)进行动画化,混合形状是用于表示不同面部表情的3D网格表示,或者可以使用参考视频剪辑,其中一个人的面部表情和动作应用于角色。
  • 另一篇海报来自英伟达研究人员和大学合作伙伴,推进了零样本文本到语音合成技术,采用了名为P-Flow的生成型人工智能模型,可以在三秒参考提示的基础上迅速合成高质量的个性化语音。与最新的优秀同类产品相比,P-Flow具有更好的发音、更接近人类的外貌和更接近说话者的相似性。该模型可以在一块NVIDIA A100 Tensor Core GPU上几乎即时地将文本转化为语音。

强化学习、机器人技术的研究突破

在强化学习和机器人技术领域,NVIDIA的研究人员将展示两个海报,突出改进AI在不同任务和环境中的泛化能力的创新。

  • 第一个是提出了一个开发强化学习算法的框架,可以适应新任务,同时避免梯度偏差和数据低效率的常见问题。研究人员展示了他们的方法,在多项基准任务上表现良好,该方法采用了新颖的元算法,可以创建任何元强化学习模型的稳健版本。
  • NVIDIA的一位研究人员与大学合作伙伴共同解决了机器人领域中的物体操控问题。之前的人工智能模型可以帮助机器手抓取和与物体交互,但是它们只擅长处理训练数据中出现过的特定形状的物体。研究人员引入了一个新的框架,估计不同类别物体在几何上的相似性,例如抽屉和锅盖具有相似的手柄,从而使模型能够更快地推广到新的形状。

加速科学进程:AI加速物理学、气候学、医疗

在NeurIPS上,NVIDIA的研究人员还将展示涉及自然科学的论文,包括物理模拟、气候模型和医疗领域的AI。

  • 为了加速大规模三维模拟的计算流体动力学,一组NVIDIA的研究人员提出了神经运算符架构,结合准确性和计算效率,估计车辆周围的压力场。这是首个基于深度学习的计算流体动力学方法在行业标准的大规模汽车基准测试上。该方法在单个NVIDIA Tensor Core GPU上的加速比另一个基于GPU的求解器高达100,000倍,并降低了误差率。研究人员可以使用开源的neuraloperator库将该模型融入到他们自己的应用中。

 

  • 一组气候科学家和机器学习研究人员从大学、国家实验室、研究机构、Allen AI和NVIDIA合作,共同创建了一个名为ClimSim的庞大数据集,用于物理学和基于机器学习的气候研究,并将在NeurIPS上进行口头报告。该数据集覆盖了多年来全球范围内的高分辨率数据,利用这些数据构建的机器学习模拟器可以与现有的操作性气候模拟器相结合,提高其保真度、准确性和精度。这有助于科学家更好地预测风暴和其他极端事件。
  • NVIDIA研究实习生将展示一种提供个性化药物剂量影响预测的AI算法。研究人员使用现实世界的数据,测试了该模型对不同剂量治疗的患者血液凝固的预测,并分析了新算法对接受抗生素万古霉素的患者的药物水平预测的准确性,发现与以前的方法相比,预测准确性显著提高。

NVIDIA研究由全球数百名科学家和工程师组成,团队专注于人工智能、计算机图形学、计算机视觉、自动驾驶汽车和机器人等领域。