L4GM：革命性技术实现视频目标对象快速4D高斯模型构建

AI每日新闻1年前 (2024)发布 shen

571 0 0

在人工智能和计算机视觉领域，一项名为L4GM（Large-scale 4D Gaussian Reconstruction Model）的突破性技术近日引起了广泛关注。该技术能够在短短几秒钟内，将视频中的目标对象生成高质量的4D高斯模型，为视频内容生成、修复、插值以及3D资产生成等领域带来了全新的可能性。

L4GM模型的关键在于其创新性的数据集构建和简化的设计思路。据研究团队介绍，他们构建了一个包含多视角视频的数据集，其中包含了来自Objaverse的精心制作和渲染的动画物体。这个数据集包含了4.4万个多样化的物体，涵盖了48个视角下的110,000个动画，总共产生了1.2亿个视频和3亿帧。正是基于这个庞大而丰富的数据集，L4GM能够在已经预训练的3D大规模重建模型LGM的基础上，实现从多视角图像输入中输出3D高斯椭球体的目标。

AI旋风认为，L4GM的核心技术在于其能够在低fps采样的视频帧上生成每帧的3D高斯飞溅表示，并通过上采样技术实现时间上的平滑性。为了帮助模型学习时间上的一致性，研究团队在基础LGM上添加了时间自注意力层，并利用每个时间步的多视角渲染损失来训练模型。这一创新性的设计使得L4GM能够在短短几秒钟内从视频中生成高质量的4D对象。 L4GM：革命性技术实现视频目标对象快速4D高斯模型构建

在实际应用中，L4GM展示了出色的泛化能力。无论是在合成数据上训练后应用于野外视频，还是直接处理单视角视频和单时间步长多视图图像作为输入，L4GM都能够输出一组4D高斯概率分布。这一功能使得L4GM在视频内容生成、视频重建与修复、视频插值以及3D资产生成等领域具有广泛的应用前景。

例如，在视频内容生成方面，L4GM可以从单视图视频输入中生成动画对象的4D模型，为视频特效制作、游戏开发等领域提供了全新的工具。在视频重建与修复方面，L4GM能够重建长时间、高帧率的视频，提高视频质量和清晰度，对于电影修复、视频压缩和视频处理等领域具有重要意义。此外，通过训练的4D插值模型，L4GM还可以增加视频的帧率，使视频更加流畅，为视频编辑、慢动作/快动作效果制作等提供了有力支持。最后，L4GM还能够生成高质量的动画3D资产，为虚拟现实（VR）、增强现实（AR）应用和游戏开发中的3D模型生成提供了新的解决方案。

AI旋风认为，L4GM的推出将极大地推动视频处理和生成技术的发展。它不仅提高了视频处理的效率和质量，还为视频内容的创作和编辑带来了更多的可能性。随着AI技术的不断完善和应用场景的不断拓展，L4GM有望在未来成为视频处理和生成领域的重要工具之一。