您的位置:首页 >生活 >

AI 一步生成高质量图像的速度提高了 30 倍

导读 在我们当前的人工智能时代,计算机可以通过扩散模型生成自己的艺术,迭代地向嘈杂的初始状态添加结构,直到出现清晰的图像或视频。扩散模型...

在我们当前的人工智能时代,计算机可以通过扩散模型生成自己的“艺术”,迭代地向嘈杂的初始状态添加结构,直到出现清晰的图像或视频。

扩散模型突然在每个人的餐桌上占据了一席之地:输入几个词,在现实与幻想的交汇处体验瞬间的、令人多巴胺飙升的梦境。在幕后,它涉及一个复杂、耗时的过程,需要算法进行多次迭代才能完善图像。

麻省理工学院计算机科学和人工智能实验室(AIL)的研究人员推出了一种新框架,将传统扩散模型的多步骤过程简化为单个步骤,解决了以前的局限性。这是通过一种师生模型来完成的:教授一个新的计算机模型来模仿生成图像的更复杂的原始模型的行为。

该方法称为分布匹配蒸馏 (DMD),可以保留生成图像的质量并允许更快的生成速度。

麻省理工学院博士 Tianwei Yin 表示:“我们的工作是一种新颖的方法,可以将稳定扩散和 DALLE-3 等现有扩散模型加速 30 倍。” 电气工程和计算机科学专业的学生、AIL 附属机构和 DMD 框架的首席研究员。

“这一进步不仅显着减少了计算时间,而且保留了(如果不是超越的话)生成的视觉内容的质量。理论上,该方法将生成对抗网络(GAN)的原理与扩散模型的原理结合起来,实现了视觉内容的生成“一步——与当前扩散模型所需的数百步迭代细化形成鲜明对比。它可能是一种在速度和质量方面都表现出色的新生成建模方法。”

这种单步扩散模型可以增强设计工具,实现更快的内容创建,并有可能支持药物发现和 3D 建模的进步,其中及时性和有效性是关键。

分销梦想

DMD 巧妙地具有两个组件。首先,它使用回归损失,锚定映射以确保图像空间的粗略组织,从而使训练更加稳定。

接下来,它使用分布匹配损失,确保使用学生模型生成给定图像的概率与其真实世界的出现频率相对应。为此,它利用两个扩散模型作为指导,帮助系统了解真实图像和生成图像之间的差异,并使训练快速的一步生成器成为可能。

该系统通过训练新网络来最小化其生成的图像与传统扩散模型使用的训练数据集中的图像之间的分布差异,从而实现更快的生成。“我们的主要见解是使用两个扩散模型来近似指导新模型的改进,”尹说。

“通过这种方式,我们将原始的、更复杂的模型的知识提炼成更简单、更快的模型,同时绕过了 GAN 中臭名昭著的不稳定和模式崩溃问题。”

Yin 和同事为新的学生模型使用了预先训练的网络,简化了过程。通过复制和微调原始模型的参数,团队实现了新模型的快速训练收敛,能够在相同的架构基础上生成高质量的图像。“这使得能够与基于原始架构的其他系统优化相结合,进一步加速创建过程,”尹补充道。

当使用各种基准测试通常的方法时,DMD 表现出了一致的性能。在 ImageNet 上基于特定类生成图像的流行基准中,DMD 是第一个一步扩散技术,它生成的图像与原始的、更复杂的模型中的图像几乎相当,摇动了超近的 Fréchet 起始距离( FID)得分仅为 0.3,这令人印象深刻,因为 FID 的目的就是判断生成图像的质量和多样性。

此外,DMD 在工业规模的文本到图像生成方面表现出色,并实现了最先进的一步生成性能。在处理更棘手的文本到图像应用程序时,仍然存在轻微的质量差距,这表明还有一些改进的空间。

此外,DMD 生成的图像的性能与蒸馏过程中使用的教师模型的功能有着内在的联系。在当前形式中,使用 Stable Diffusion v1.5 作为教师模型,学生继承了渲染文本和小脸的详细描述等限制,这表明更先进的教师模型可以进一步增强 DMD 生成的图像。

“自扩散模型诞生以来,减少迭代次数一直是扩散模型的圣杯,”麻省理工学院电气工程和计算机科学教授、AIL 首席研究员、该论文的主要作者 Fredo Durand 说道。“我们非常高兴最终能够实现单步图像生成,这将大大降低计算成本并加速这一过程。”

“最后,一篇论文成功地将扩散模型的多功能性和高视觉质量与 GAN 的实时性能结合起来,”加州大学伯克利分校电气工程和计算机科学教授 Alexei Efros 说道,他没有参与其中在这项研究中。“我希望这项工作能够为高质量实时视觉编辑开辟奇妙的可能性。”

免责声明:本文由用户上传,如有侵权请联系删除!