MIT研究员推出革新性AI图片生成框架DMD，单步生成高质量图像速度提升30倍

AI每日新闻1年前 (2024)发布 shen

688 0 0

在人工智能蓬勃发展的当下，计算机已经能够通过先进的扩散模型生成独具匠心的“艺术作品”。这一过程涉及从嘈杂的初始状态逐步添加结构，最终呈现出清晰、逼真的图像或视频。然而，传统的扩散模型在生成高质量图像时，往往需要经过多次迭代，耗费大量时间。近期，麻省理工学院计算机科学与人工智能实验室（CSAIL）的研究人员取得了一项突破性进展，他们推出了一种全新的AI图片生成框架——DMD（分配匹配蒸馏），将传统扩散模型的多步过程简化为单步，极大地提升了图像生成的效率。

据AI旋风了解，DMD框架的核心在于采用一种教师-学生模型的设计理念。通过教导一个新的计算机模型模仿生成图像的更复杂原始模型的行为，DMD实现了在保证图像质量的同时，显著提升生成速度的目标。这一创新性的方法不仅简化了生成过程，还保留了生成图像的高质量，为人工智能在图像生成领域的应用开辟了新的道路。

DMD框架巧妙地结合了回归损失和分配匹配损失两个组成部分。回归损失通过锚定映射确保对图像空间的粗略组织，使训练过程更加稳定；而分配匹配损失则确保使用学生模型生成给定图像的概率与其在真实世界中出现的频率相对应。这两个损失函数的结合，使得DMD能够在保留图像质量的同时，实现单步生成的高效性。 MIT研究员推出革新性AI图片生成框架DMD，单步生成高质量图像速度提升30倍

此外，DMD框架还通过训练一个新网络来最小化其生成的图像与传统扩散模型使用的训练数据集中的图像之间的分布差异。该团队利用预训练网络来简化新学生模型的过程，通过复制和微调原始模型的参数，实现了新模型的快速训练收敛。这种方法的运用，使得DMD能够在保持相同架构基础的同时，生成出高质量的图像。

在与传统方法的对比测试中，DMD展现出了卓越的性能。在基于ImageNet特定类别生成图像的流行基准测试中，DMD作为首个单步扩散技术，其生成的图像质量与原始、更复杂模型的图像相媲美，具有非常接近的Fréchet inception distance（FID）分数。这一结果令人印象深刻，因为FID是衡量生成图像质量和多样性的重要指标。

不仅如此，DMD在工业规模的文本到图像生成任务中也表现出色，实现了最先进的单步生成性能。尽管在处理更复杂的文本到图像应用时，仍存在一定的质量差距，但这无疑为未来的改进提供了广阔的空间。

AI旋风认为，DMD框架的推出，标志着人工智能在图像生成领域取得了重大突破。它不仅简化了生成过程，提高了生成速度，还保留了高质量的图像输出。随着技术的不断发展，我们有理由相信，未来DMD框架将在更多领域得到应用，为人工智能的发展注入新的活力。同时，我们也期待看到更多创新性的研究成果在人工智能领域涌现，推动科技进步和社会发展。