国际领先！中国首个Sora级自研视频大模型Vidu震撼发布

AI每日新闻1年前 (2024)发布 shen

642 0 0

近日，在备受瞩目的2024中关村论坛年会未来人工智能先锋论坛上，生数科技携手清华大学，共同发布了中国首个长时长、高一致性、高动态性视频大模型——Vidu。这一里程碑式的成果不仅标志着中国在视频大模型领域的重大突破，更展示了中国人工智能技术的全球领先实力。

Vidu视频大模型自发布以来，便引起了业界的广泛关注。这是继Sora之后，全球范围内率先取得重大突破的视频大模型。其性能全面对标国际顶尖水平，且在不断的迭代提升中展现出更为强大的潜力。这一成就不仅彰显了中国科研团队的创新能力，也为全球视频大模型的发展树立了新的标杆。

据了解，Vidu视频大模型的核心在于其采用的团队原创的Diffusion与Transformer融合的架构——U-ViT。这一架构的提出，标志着生数科技在人工智能领域的一次重大创新。它不仅能够支持一键生成长达16秒、分辨率高达1080P的高清视频内容，更在视频效果方面实现了显著提升。

在视频内容的生成上，Vidu展现出了惊人的能力。它能够生成细节复杂的场景，且这些场景都符合真实的物理规律。无论是光影效果还是人物表情，都呈现出极高的真实感和细腻度。此外，Vidu还能够生成真实世界不存在的虚构画面，创造出具有深度和复杂性的超现实主义内容。这些超现实主义的画面不仅令人叹为观止，也展示了Vidu在创意和想象力方面的卓越表现。国际领先！中国首个Sora级自研视频大模型Vidu震撼发布

更值得一提的是，Vidu在动态镜头的生成上也有着出色的表现。它不再局限于简单的推、拉、移等固定镜头，而是能够围绕统一主体在一段画面里就实现远景、近景、中景、特写等不同镜头的切换。这种复杂的动态镜头切换不仅丰富了视频内容的层次感和视觉效果，也使得Vidu在视频大模型领域中脱颖而出。

在16秒的时长内，Vidu能够保持连贯流畅的视频输出。随着镜头的移动，人物和场景在时间、空间中能够保持一致，呈现出高度的连贯性和动态性。这种连贯性不仅提升了观众的观看体验，也进一步增强了Vidu在视频大模型领域的竞争力。

此外，Vidu还能够生成特有的中国元素，如熊猫、龙等。这些元素的融入不仅使得生成的视频内容更具中国特色，也展示了Vidu在跨文化理解和表达方面的能力。这一特点使得Vidu在国际市场上具有更广泛的应用前景和市场需求。

AI旋风认为，Vidu视频大模型的发布，不仅是中国在人工智能领域的一次重大突破，也是全球视频大模型技术发展的一个重要里程碑。它展示了中国科研团队在人工智能领域的创新能力和技术水平，也为全球视频大模型的发展提供了新的思路和方向。未来，随着Vidu的不断迭代和提升，我们有理由相信，它将在视频内容生成、创意表达以及跨文化交流等方面发挥更加重要的作用，为人类的生活带来更多精彩和可能性。