不再依赖高斯噪声 扩散模型家族再添一员 Diffusion Cold 最新

任意图像变换方式都可生成。扩散模型或取代GAN?

最近,Stability.Ai 公开发布了其文本生成图像模型 Stable diffusion 的最新版本,网友们的新一波图像创作热潮又开始了~

扩散模型家族再添一员,最新 Cold Diffusion 不再依赖高斯噪声

前特斯拉 AI 总监 Andrej KarPathy 评论说:这是人类创造力具有历史意义的一天,如此丰富的人类视觉创造力集中体现到了一个人人可触及的产品中。

扩散模型家族再添一员,最新 Cold Diffusion 不再依赖高斯噪声

从生成图像的效果来看,Stable Diffusion 已经是当前最好的模型之一,而它背后的扩散模型(Diffusion Model)最近也备受关注,显示出要取代 GAN 模型的势头。

其实,自从 2015 年扩散模型首次被提出以来,该领域本身已经有非常多的研究,研究人员也提出不少变体。而日前,来自马里兰大学和纽约大学的团队提出了近来最新的一种扩散模型:Cold Diffusion。



Diffusion model 再升华

目前业界出现的扩散模型变体层出不穷,但它们都有一个不变的核心:都是围绕随机噪声去除这个概念建立的。

扩散模型的本质,以及目前我们对扩散模型的理解,都与高斯噪声在训练和生成过程中所起的作用高度相关。我们可以将「扩散」理解为使用 Langevin 动力学围绕图像密度函数的随机移动,扩散的每一步都需要高斯噪声。扩散始于「高温」状态(即噪音很大的状态),然后逐渐降温到几乎没有噪音的「冷」状态。

而在这篇叫做“Cold Diffusion: Inverting Arbitrary Image Transforms Without Noise”的最新论文中,作者提出了一个疑问: 制作扩散模型的变体,是不是非得使用高斯噪声不可?

扩散模型家族再添一员,最新 Cold Diffusion 不再依赖高斯噪声

通过多次尝试,该研究团队得出了答案:并不一定需要。

在这篇论文中,作者不再将扩散模型局限于「依赖高斯噪声而建立」,而是提出了围绕模糊(blurring)、下采样(downsampling)等 任意图像变换方式建立的广义扩散模型。 由于不再有原先的「高温」状态,这种全新广义扩散模型也就被称作为 Cold Diffusion。

过去标准的扩散模型有两步工作流程:首先,用图像退化算子(image degradation operator)使得图像受到高斯噪声的污染,其次用一个训练好的恢复算子(restoration operator)对图像进行去噪,逆转退化,从而得到一张新图像。

扩散模型家族再添一员,最新 Cold Diffusion 不再依赖高斯噪声

图注:传统扩散模型的两步工作流程

Cold Diffusion 继承了这两步工作流程,但又对之进行了升华式的修改。如下图所示,在图像退化再到逆转退化的过程中,Cold Diffusion 研究团队尝试了使用噪声、模糊、变形(Animorph)、遮罩(mask)、像素化(pixelate)、雪花等变换方式,且都得到了不错的效果。

扩散模型家族再添一员,最新 Cold Diffusion 不再依赖高斯噪声

图注:Cold Diffusion 使用不同图像变换方式得到新图像的工作流程

工作原理

对于已知图像 x0,设图像退化算子为D,执行算子的次数为t。

对以往标准的扩散模型来说,其执行图像变换的前向过程,是由图像退化算子 D 来对图像添加高斯噪声。添加0次时,D 应满足:

扩散模型家族再添一员,最新 Cold Diffusion 不再依赖高斯噪声

扩散模型家族再添一员,最新 Cold Diffusion 不再依赖高斯噪声

而在 Cold Diffusion 的模型设计中,D 可以用来执行其他各种图像变换方式,如模糊、变形、像素化、雪花等,其退化程度取决于t ——Cold Diffusion 的「升级」正体现在可以进行包括噪音在内的多种图像变换。

同时我们还需要一个能把xt“变回”图像的恢复算子 R ,应有:

扩散模型家族再添一员,最新 Cold Diffusion 不再依赖高斯噪声

在有了图像退化算子 D 和 恢复算子 R 后,就可以借用扩散模型的标准方法对算子进行串联使用,从而实现退化运算-逆转退化的工作流程。如果退化运算的次数 t 比较小(t ≈ 0),对 R 进行一次应用就可以得到一幅恢复后的新图像。

由于R通常只经过了一个简单的凸损失训练,当执行退化运算的次数 t 很大时,生成的结果会很模糊。对此,作者团队提出一个改进的 Cold Diffusion 采样算法来生成高质量图像。

扩散模型家族再添一员,最新 Cold Diffusion 不再依赖高斯噪声

变化无穷

这篇研究的重点就在于,作者观察到,扩散模型的图像生成并不完全依赖于高斯噪声,我们也可以选择其他图像变换方式来生成新图像。通过改变图像变换方式,甚至可以构建出整个生成模型家族。

以模糊为退化运算方式

基于噪声的扩散模型中的前向扩散过程(即退化运算这一步)的优点是,在最后一步 T 处的退化图像分布只是一个各向同性的高斯分布。因此,我们可以首先从各向同性高斯分布中抽取样本,然后通过反向扩散顺序对其进行去噪来执行(无条件)生成。而选择模糊这种退化运算时,完全退化的图像不能形成我们可以抽样的良好封闭式分布,但是可以形成一个足够简单的分布,可以用简单的方法进行建模。

对于次数足够大的 T,每个图像 x0 都会降级为一个常数 xT(即每个像素都是相同的颜色)。该常数值恰好是 RGB 图像 x0 的通道平均值,可以表示为三维向量,并使用高斯混合模型 (Gaussian mixture model, GMM) 表示。通过对该 GMM 进行采样,可以产生高度模糊图像的随机像素值,然后使用 cold diffusion 就可以进行去模糊化,从而创建新图像。

另外,像素之间的对称性会导致生成的图像缺乏多样性,为了打破同一管道像素的对称性,作者向每个采样的 xT 添加少量高斯噪声,这个简单的技巧极大地 提高了生成图像的丰富性。

扩散模型家族再添一员,最新 Cold Diffusion 不再依赖高斯噪声

图注:对128 × 128 CelebA and AFHQ 数据集使用 cold diffusion 的模糊方式变换生成样本示例

以其他图像变换为退化运算方式

最后团队进一步证明,除了模糊方式以外,cold diffusion 还可以扩展到其他变换,如修复、超分辨率和变形(animorphosis)方式上,且生成的图像效果也都很好:

扩散模型家族再添一员,最新 Cold Diffusion 不再依赖高斯噪声

图注:cold diffusion 的生成图像。第一行使用变形方式变换,第二行使用修复方式变换,第三行使用超分辨率变换方式。

研究团队给出了 CelebA 数据集上的结果,cold diffusion 在修复、超分辨率和变形方面的 FID 得分分别为90.14、92.91和48.51。( FID,即 Rechet Inception Distance score,是用来计算真实图像和生成图像计算的特征向量之间距离的指标。)

在训练和测试期间不需要高斯噪声的 cold diffusion,突破了人们对扩散模型的原有理解,为新型生成模型打开了未来的大门。




Diffusion Model 时代来临

这项研究因为提出了一种不同于传统形式的扩散模型,而在近日登上了许多论文排行榜的热门,同样引起了热议的,还有论文其中一位作者在推特上发起的讨论:为什么扩散模型如此迅速地取代了 GAN?

扩散模型家族再添一员,最新 Cold Diffusion 不再依赖高斯噪声

马里兰大学副教授 Tom Goldstein 解释,扩散模型的优点是它可以最小化凸回归损失,所以 OpenAI 在开发 DALLE 时直接抛弃了 GAN,而使用扩散模型来解决不稳定的鞍点问题(saddle point problem)。

而且,他认为,扩散模型的成功是新数学范式发挥其作用的一个例子,世界上所有的超参数调整都比不过几行深思熟虑的数学公式。

要说今天的文本生成图像领域已经由扩散模型统治或许还不够严谨,但 GAN 的一家独大的确已经成为历史。归根结底,谁的图像生成质量和稳定性更好,谁才在越来越卷的生成模型界成为宠儿。这项工作提出的 Cold Diffusion,或许就会在不久之后为我们带来一个新的、强大的文本生成图像模型。

更多内容,点击下方关注:
扩散模型家族再添一员,最新 Cold Diffusion 不再依赖高斯噪声

扩散模型家族再添一员,最新 Cold Diffusion 不再依赖高斯噪声

版权文章,未经授权禁止转载。详情见 转载须知 。

扩散模型家族再添一员,最新 Cold Diffusion 不再依赖高斯噪声

全局中部横幅
百度热搜

百度热搜以数亿用户海量的真实数据为基础,通过专业的数据挖掘方法,计算关键词的热搜指数,旨在建立权威、全面、热门、时效的各类关键词排行榜,引领热词阅读时代。

宁夏广林子食用油有限公司

宁夏广林子食用油有限公司(原银川原源食用油有限公司)于1998年9月21日组建并注册成立,位于银川经济技术开发区经天东路6号,占地面积55亩,注册资金1170万元,现拥有职工人数130余人、年销售额1.5亿。旗下主打产品“广林子”系列,产品深受广大消费者的信赖,并且已发展成为农业产业化自治区重点龙头企业。

驾驶员考试网

驾驶员考试网提供科目一模拟考试2024和元贝驾考驾驶员考试科目四。驾驶员考试科目一包含2024年最新的驾驶证模拟考试c1、科目四模拟考试2024等;驾校驾考一点通、驾考刷题宝典和驾驶员理论考试均采用驾驶员模拟考试试题。

深圳公司注册

木子财税专注于为创业者及中小微企业分享深圳注册公司、深圳代理记账报税、深圳企业高新认定、财税服务、深圳公司注销经验。

INVT英威腾官网

英威腾(股票代码002334),工控与能效解决方案提供商,产品涵盖工业自动化(变频器/伺服/PLC/HMI等)、新能源汽车(充电桩等)、网络能源(电源UPS)、光伏储能等领域。欢迎来电咨询:400-700-9997。

房屋查验咨询师技能培训证书报考

验房师人才网:专注于房屋查验咨询师职业技能培训及技能证书报考工作,同时收录大量验房师人才及第三方独立验房机构信息,为广大有验房需求的业主提供免费信息咨询服务。

非标自动化设备

产品广泛应用于电子、机械、汽车、医疗器械配件等行业

荆门市中心医院

荆门市中心医院现已发展成为一所集医疗急救、科研教学、预防保健等功能于一体的国家三级甲等综合医院,是全国院务公开示范医院、全国医疗服务满意先进单位、湖北省三级优秀医院。是湖北民族学院附属医院、中国人民解放军总医院远程医学中心站点医院、国家卫生计生委指定的“脑卒中高危人群筛查与干预项目基地医院”、“国家高级卒中中心”,武汉大学研究生培训基地。拥有睡眠呼吸障碍疾病院士专家工作站(韩德民院士工作站)、荆门市肝胆胰外科院士工作站(陈孝平院士工作站),是荆门市区域医疗中心,承担着荆门市及毗邻地区三百万城乡居民的医疗、预防保健任务。   医院占地面积180亩,建筑面积23.52万平方米,设南北两个院区,编制床位2300张,总资产22.24亿元。在职职工2037人,其中卫技人员1822人,高级职称394人,中级职称509人,初级职

优文解说

优文影视解说网专注于分享影视电视剧动漫解说文案、影视电视剧动漫文案解说词,为广大影视剪辑爱好者提供丰富的影视剪辑文案影视剪辑素材,以及分享影视剪辑的技巧和教程,为您的剪辑工作保驾护航。

移动冷库价格

天津大远东制冷设备工程技术有限公司(天津中冷远东)集研发,设计,生产安装为一体.专业设计建造冷藏库,天津大型冷库安装,天津节能冷库,冷藏集装箱机组等工程.并为制冷,物流行业提供整体控制方案.移动冷库价格详情请咨询.

培训管理者

培训管理者网是发布企业培训管理和企业管理培训等内容的门户网站,将为企业培训中心、培训管理部和培训发展部等部门的培训总监、培训经理提供专业的培训管理资讯服务。

工机窝

工机窝,工程机械租赁网,二手工程机械网,工程机械配件网,工程机械展会,工程机械,挖掘机,推土机,平地机,冷再生机,路拌机,压路机,铲车,强夯机,摊铺机,铣刨机,液压夯

全局底部横幅