Snap Video引领文生视频新纪元：与Sora同架构，开创一致性视频生成先河

AI每日新闻2年前 (2024)发布 shen

1,952 0 0

近日，一款名为Snap Video的创新性文本到视频生成模型横空出世，它不仅继承了Sora架构的精髓，更在视频生成领域实现了前所未有的突破。在这个数字媒体飞速发展的时代，Snap Video以其独特的魅力，让高质量视频的创作门槛大幅降低，仅需简单的文字描述，即可让创意跃然屏上。

随着社交媒体和视频平台的兴起，视频已成为我们日常生活中不可或缺的一部分。然而，高质量视频的制作往往依赖于专业团队和昂贵设备，这无疑限制了广大用户的创作热情。Snap Video的出现，正是为了解决这一难题，它让每个人都能成为视频创作的“导演”，只需动动手指，输入几句描述，就能自动生成精彩纷呈的视频内容。

面对视频内容的高度冗余性和动态变化的复杂性，Snap Video没有选择简单地将图像生成模型直接应用于视频领域。相反，它采用了一种全新的思路，系统性地解决了视频生成中的诸多难题。AI旋风认为，Snap Video的核心竞争力在于其独特的架构设计和技术创新，这些都为其在视频生成领域的领先地位奠定了坚实基础。 Snap Video引领文生视频新纪元：与Sora同架构，开创一致性视频生成先河

技术亮点深度剖析

时空联合建模：Snap Video通过扩展EDM框架，实现了对空间和时间上冗余像素的精准处理，从而保证了视频内容的连贯性和真实性。这一创新使得Snap Video能够合成具有大幅度运动的视频，同时保持高度的语义控制能力，让用户的文字描述得以精准呈现。
高分辨率视频生成：为了进一步提升视频质量，Snap Video采用了两阶段级联模型。这一设计先生成低分辨率的视频框架，再进行高分辨率的上采样，有效避免了时间不一致性的问题，确保了视频的清晰度和流畅度。
基于FIT的架构：Snap Video的另一大亮点是其采用的FIT（Far-reaching Interleaved Transformers）架构。这一架构通过学习压缩的视频表示，实现了高效的时空计算联合建模，极大地提升了模型的训练速度和推理速度，使得Snap Video能够轻松处理数十亿参数的模型，生成质量卓越的视频内容。

在UCF101和MSR-VTT等权威数据集上的评估结果显示，Snap Video在生成动作质量方面展现出了显著的优势。用户研究也进一步证明了其在视频文本对齐、动作数量和质量方面的优越性。这些成果不仅彰显了Snap Video的技术实力，也为其在视频生成领域的广泛应用奠定了坚实的基础。

Snap Video的成功不仅是对现有技术的一次重大突破，更是对未来视频生成领域发展方向的一次有力探索。随着AI技术的不断进步和应用的不断拓展，视频生成将在更多领域展现出其独特的价值。Snap Video的出现，无疑为这一领域注入了新的活力和动力，让我们共同期待更多令人惊叹的创意视频作品的诞生。