机器之心发布
机器之心编辑部
清华大学计算机系朱军教授带领的TSAIL团队提出DPM-Solver(NeurIPSOral,约前1.7%)和DPM-Solver++,将扩散模型的快速采样算法提升到了极致:无需额外训练,仅需10到25步就可以获得极高质量的采样。
要说AI领域今年影响力最大的进展,爆火的AI作图绝对是其中之一。设计者只需要输入对图片的文字描述,就可以由AI生成一张质量极高的高分辨率图片。目前,使用范围最广的当属StabilityAI的开源模型StableDiffusion,模型一经开源就在社区引起了广泛的讨论。
然而,扩散模型在使用上最大的问题就是其极慢的采样速度。模型采样需要从纯噪声图片出发,一步一步不断地去噪,最终得到清晰的图片。在这个过程中,模型必须串行地计算至少50到步才可以获得较高质量的图片,这导致生成一张图片需要的时间是其它深度生成模型的50到倍,极大地限制了模型的部署和落地。
为了加速扩散模型的采样,许多研究者从硬件优化的角度出发,例如Google使用JAX语言将模型编译运行在TPU上,OneFlow团队[1]使用自研编译器将StableDiffusion做到了“一秒出图”。这些方法都基于50步的采样算法PNDM[2],该算法在步数减少时采样效果会急剧下降。
就在几天前,这一纪录又被刷新了!StableDiffusion的官方Demo[3]更新显示,采样8张图片的时间从原来的8秒钟直接被缩短至了4秒钟!快了整整一倍!
而基于自研深度学习编译器技术的OneFlow团队更是在不降低采样效果的前提下,成功将之前的“一秒出图”缩短到了“半秒出图”!在GPU上仅仅使用不到0.5秒就可以获得一张高清的图片!相关工作已经发布在[1]中。
事实上,这些工作的核心驱动力都来自于清华大学朱军教授带领的TSAIL团队所提出的DPM-Solver,一种针对于扩散模型特殊设计的高效求解器:该算法无需任何额外训练,同时适用于离散时间与连续时间的扩散模型,可以在20到25步内几乎收敛,并且只用10到15步也能获得非常高质量的采样。在StableDiffusion上,25步的DPM-Solver就可以获得优于50步PNDM的采样质量,因此采样速度直接翻倍!
项目链接:
DPM-Solver:AFastODESolverforDiffusionProbabilisticModelSamplinginAround10Steps: