这篇来自中国的AI研究介绍了4K4D:一种支持硬件光栅化并实现前所未有的渲染速度的4D点云表示法

亮点解读:4K4D,中国AI研究创造了前所未有的4D点云表示法,实现超快渲染速度

动态视图合成是一项计算机视觉和图形任务,旨在从捕获的视频中重建动态3D场景并生成沉浸式虚拟播放。这种技术的实用性依赖于其高保真度实时渲染能力,使其在虚拟现实/增强现实、体育广播和艺术表演捕捉中得以应用。传统方法将动态3D场景表示为纹理网格序列,并使用复杂的硬件进行重建,从而限制了它们在受控环境中的适用性。隐式神经表示最近在通过可微分渲染从RGB视频中重建动态3D场景方面取得了显着成功。最近开发的技术将目标场景建模为动态辐射场,并采用体素渲染合成图像,并将其与输入图像进行优化比较。尽管在动态视图合成方面取得了令人印象深刻的结果,但现有方法通常需要几秒甚至几分钟才能以1080p分辨率渲染一幅图像,这是由于资源密集型的网络评估造成的。

受静态视图合成方法的启发,特定的动态视图合成技术通过减少成本或网络评估次数来提高渲染速度。采用这些策略,被称为MLP Maps的表示在渲染动态前景人物时的渲染速度为41.7帧/秒。但是,渲染速度的挑战仍然存在,因为MLP Maps仅在合成中等分辨率图像(384×512)时实现实时性能。当渲染4K分辨率图像时,其速度下降到1.3帧/秒。

本研究介绍了一种新的神经表示,称为4K4D,用于对动态3D场景进行建模和渲染。4K4D在渲染速度上相比先前的动态视图合成方法取得了显著的改进,同时在渲染质量上保持了竞争力。下面是该系统的概述。

核心创新在于4D点云表示和混合外观模型。具体而言,对于动态场景,使用空间雕刻算法获得粗糙的点云序列,其中每个点的位置被建模为可学习的向量。引入了4D特征网格,将特征向量分配给每个点,然后输入MLP网络来预测点的半径、密度和球面谐波(SH)系数。4D特征网格自然地对点云应用空间正则化,增强了优化的鲁棒性。此外,开发了可微分深度剥离算法,利用硬件光栅化器实现了前所未有的渲染速度。

该研究确定了基于MLP的SH模型在动态场景外观表示方面的挑战。为了解决这个问题,引入了一个图像混合模型来补充SH模型,以表示场景的外观。一个重要的设计选择确保图像混合网络与观察方向无关,可以在训练后进行预计算,以提高渲染速度。然而,这种策略引入了视线方向上的离散行为的挑战,这通过使用连续的SH模型来缓解。与独占使用SH模型的3D高斯喷溅不同,这种混合外观模型充分利用了输入图像捕捉到的信息,有效地提高了渲染质量。

作者介绍的大量实验证明,4K4D在渲染速度上取得了数量级的提升,同时在渲染质量方面明显优于最先进的方法。根据数据,在使用RTX 4090 GPU的情况下,该方法在1080p分辨率下可以达到400帧/秒,在4K分辨率下可以达到80帧/秒。

下面是与最先进技术的视觉对比。

这是对4K4D的概述,它是一种新颖的AI 4D点云表示,支持硬件光栅化,并实现了前所未有的渲染速度。如果您有兴趣并想了解更多信息,请随意参考下面引用的链接。