苹果“套娃”式扩散模型,训练步数减少七成!
苹果的一项最新研究,大幅提高了扩散模型在高分辨率图像上性能。
利用这种方法,同样分辨率的图像,训练步数减少了超过七成。
在1024×1024的分辨率下,图片画质直接拉满,细节都清晰可见。
苹果把这项成果命名为MDM,DM就是扩散模型(Diffusion Model)的缩写,而第一个M则代表了套娃(Matryoshka)。
就像真的套娃一样,MDM在高分辨率过程中嵌套了低分辨率过程,而且是多层嵌套。
高低分辨率扩散过程同时进行,极大降低了传统扩散模型在高分辨率过程中的资源消耗。
对于256×256分辨率的图像,在批大小(batch size)为1024的环境下,传统扩散模型需要训练150万步,而MDM仅需39万,减少了超七成。
另外,MDM采用了端到端训练,不依赖特定数据集和预训练模型,在提速的同时依然保证了生成质量,而且使用灵活。
不仅可以画出高分辨率的图像,还能合成16×256²的视频。
有网友评论到,苹果终于把文本连接到图像中了。
那么,MDM的“套娃”技术,具体是怎么做的呢? 网页链接
版权声明: 发表于 2023-10-25 21:12:22。
转载请注明:苹果“套娃”式扩散模型,训练步数减少七成!苹果的一项最新研究,大幅提高了扩散模型在高分辨率图像上性能。利用这种方法,同样分辨率的图像,训练步数减少了超... | AI 時.空 | AiTime.Space
转载请注明:苹果“套娃”式扩散模型,训练步数减少七成!苹果的一项最新研究,大幅提高了扩散模型在高分辨率图像上性能。利用这种方法,同样分辨率的图像,训练步数减少了超... | AI 時.空 | AiTime.Space
暂无评论...