生成对抗网络的最新研究进展 (生成对抗网络GAN)

文章编号:46030 资讯动态 2024-12-09 GAN研究进展性能提高方法

雷锋网 AI 科技评论按,生成对抗网络是一类功能强大、应用广泛的神经网络。它们基本上是由两个神经网络组成的系统——生成器和判别器,这两个网络相互制约。计算机视觉和人工智能的爱好者 Bharath Raj 近日发布以一篇博文,总结了生成对抗网络的原理、缺点和为了克服这些缺点所做的研究的最新进展。雷锋网 AI 科技评论编译整理如下:

生成对抗网络的最新研究进展

生成对抗网络的工作原理

给定一组目标样本,生成器试图生成一些能够欺骗判别器、使判别器相信它们是真实的样本。判别器试图从假(生成)样本中解析真实(目标)样本。使用这种迭代训练方法,我们最终得到一个真正擅长生成类似于目标样本的样本的生成器。

GAN 有大量的应用程序,因为它们可以学习模拟几乎任何类型的数据分布。一般来说,GAN 可以用于处理超低分辨率的图像以及任何类型的图像翻译等等,如下所示:

生成对抗网络的最新研究进展

然而,由于其变化无常、表现不稳定,很难用它们做一些事情。当然,许多研究人员已经提出了很好的解决方案,以减轻 GAN 网络训练中所涉及到的一些问题。然而,这一领域的研究进展速度如此之快,以至于人们来不及去追踪很多有趣的想法。这个博客列出了一些常用的使 GAN 训练表现稳定的技术。

使用 GAN 的缺点概述

GAN 很难用的原因有很多,本节的下面将列出其中一些原因。

1.模型崩溃(Mode collapse)

自然数据分布是高度复杂和多模态的。也就是说,数据分布有很多「峰值」或「模型」。每种模型代表相似数据样本的浓度,且不同于其他模型。

在模型折叠期间,生成器生成属于一组有限模型的样本。当生成器相信它可以通过锁定到单个模型来骗过判别器时,就会发生这种情况。也就是说,生成器仅从该模型生成样本。

生成对抗网络的最新研究进展

顶部的图像表示没有模型折叠的 GAN 的输出,底部的图像表示模型折叠时的 GAN 输出。

判别器最终发现这个模型的样本是假的。因此,生成器只需锁定到另一个模型。这个循环无限重复,这基本上限制了生成样本的多样性。要获得更详细的解释,您可以查看此日志。

2.收敛

在 GAN 训练中,一个常见的问题是「我们什么时候停止训练它们?」「。由于判别器损耗降低(反之亦然)时,生成器损耗会增加,因此不能根据损耗函数的值判断收敛性。如下图所示:

生成对抗网络的最新研究进展

典型 GAN 损失函数图,请注意为何这张图不能解释收敛性。

3.质量

与前面的问题一样,很难定量地判断生成器何时会生成高质量的样本。在损失函数中加入额外的感知正则化可以在一定程度上缓解这种情况。

4.度量

GAN 的目标函数解释了和其对手相比,它的生成器或者判别器表现如何。然而,它并不代表输出的质量或多样性。因此,我们需要不同的度量标准来度量相同的内容。

术语

在深入研究有助于提高性能的技术之前,让我们回顾一下一些术语。这将有助于理解下一节中所介绍的技术。

1.上确界和下确界

简而言之,下确界是集合的最大下界,上确界是集合的最小上界。它们不同于最小值和最大值,因为上确界和下确界不一定属于集合。

2.散度度量

散度度量表示两个分布之间的距离。传统的 GAN 神经网络基本上最大限度地减少了真实数据分布和生成数据分布之间的 Jensen Shannon 分歧。GAN 损失函数可以修改,以尽量减少其他散度度量,如 Kulback-Leibler 散度或总变化距离。

3.Kantorovich Rubenstein 对偶性

一些散度度量措施难以以其初始形式进行优化。然而,他们的对偶形式(用下确界代替上确界或者用上确界代替下确界)可能易于优化。对偶原则为将一种形式转换为另一种形式奠定了框架。关于这一点的详细解释,你可以查看 这篇博客 。

4.Lipschitz 连续性

一个 Lipschitz 连续函数的变化速度是有限的。对 Lipschitz 连续函数来说,函数曲线上任一点的斜率的绝对值不能超过实值 K。这样的函数也被称为 K-Lipschitz 连续函数。

Lipschitz 连续性对 GAN 网络来说是必须的,因为它们会限制判别器的斜率。另外,Kantorovich-Rubinstein 对偶性要求它是 Wasserstein GAN。

提高性能的技术

有许多技巧和技术可以用来使 GAN 更加稳定和强大。在这篇博客中,为了简洁起见,我只解释了一些相对较新或复杂的技术。在本节末尾,我列出了其他各种方法和技巧。

1.损失函数

关于 GAN 的缺点,最受欢迎的修复方法之一是 Wasserstein GAN。它的基本原理是用地球移动距离(Wasserstein-1 distance 距离或 EM 距离)取代了传统的 GAN 的 Jensen Shannon 发散。EM 距离的原始形式是难以处理的,因此我们使用它的对偶形式(由 Kantorovich-Rubenstein 对偶计算)。这就要求判别器是 1-lipschitz,它通过剪切判别器的权重来保持。

使用移动距离的优点是,它是连续的,即使实际和生成的数据在分布上没有交集。此外,生成的图像质量与损失值(源)之间存在相关性。缺点是,对每个生成器更新,我们都需要根据原始实现来进行判别器更新。此外,作者声称,降低权重是确保 1-lipschitz 约束的一种糟糕方法。

生成对抗网络的最新研究进展

与 Jensen-Shannon 散度(右)不同,地球运动距离(左)是连续的,虽然它的分布不是连续的。有关详细说明,请参阅这篇文章。

另一个有趣的解决方案是使用均方损失而不是对数损失。LSGAN 的作者认为,传统的 GAN 损失函数并没有提供太多的激励来「拉动」生成的数据分布接近真实的数据分布。

原始 GAN 损失函数中的对数损失不影响生成数据与决策边界之间的距离(决策边界将真实和虚假数据分开)。另一方面,LSGAN 对远离决策边界的生成样本进行惩罚,本质上是将生成的数据分布「拉近」实际数据分布。它通过用均方损失代替对数损失来做到这一点。有关这一点的详细解释,请访问此博客。

2.两个时间刻度更新规则(TTUR)

在这种方法中,我们对判别器和生成器使用不同的速率进行学习。通常,生成器使用较慢的更新规则,判别器使用较快的更新规则。使用这种方法,我们可以以 1:1 的比率执行生成器和判别器更新,且只需调整学习速率。值得注意的是,SAGAN 实现使用了此方法。

3.梯度惩罚

本文改进了 WGAN 的训练,作者声称,降低权重(最初在 WGAN 中执行)会导致优化问题。他们声称,权重的降低迫使神经网络学习「更简单的近似」达到最佳的数据分布,导致低质量的结果。他们还声称,如果 WGAN 超参数设置不正确,那么降低权重会导致梯度问题爆发或者消失。作者在损失函数中加入了一个简单的梯度惩罚,从而减轻了上述问题。此外,1-lipschitz 的连续性保持不变,正如最初的 WGAN 实施一样。

生成对抗网络的最新研究进展

DRAGAN 的作者认为,当 GAN 玩的游戏(即判别器和生成器相互对抗)达到「局部平衡状态」时,模式就会崩溃。他们还认为,这些判别器所产生的梯度是「尖锐的」。当然,使用梯度惩罚将有助于我们绕过这些状态,大大提高稳定性,减少模式崩溃。

4.谱归一化

谱归一化是一种权重归一化技术,通常用于判别器以强化训练过程。这基本上确保了判别器是 K-Lipschitz 连续的。

像 SAGAN 这样的一些实现也在生成器上使用了谱归一化。文中还指出,该方法比梯度惩罚法计算效率高。

5.展开和打包

正如这篇优秀的博客所述,防止模式崩溃的一个方法是在更新参数时预测对策。当判别器有机会作出反应(考虑到反作用)后,展开的 GAN 使生成器能够愚弄判别器。

另一种防止模式崩溃的方法是「打包」属于同一类的几个样本,然后将其传递给判别器。这种方法被纳入了 PacGAN 中,在这里有模式崩溃的减少的报道。

6.成堆的 GAN

单个 GAN 可能不够强大,无法有效地处理任务。我们可以使用连续放置的多个 GAN,其中每个 gan 解决问题的一个更简单的版本。例如,FashionGAN 使用两个 GAN 来执行本地化图像翻译。

生成对抗网络的最新研究进展

Fashiongan 使用两个 gan 来执行本地化图像翻译

把这个概念推向极端,我们可以逐渐增加向我们的 GAN 提出的问题的难度。例如,渐进式 GAN(ProGAN)可以生成高质量、高分辨率的图像。

7.Relativistic GANs

传统的 GAS 测量生成数据真实的概率。Relativistic GANs 测量生成的数据比实际数据「更真实」的概率。我们可以使用一个合适的距离来测量这个「相对真实性」,正如「RGAN」论文中所提到的那样。

生成对抗网络的最新研究进展

当使用标准 GAN(图 B)损失的时候,生成器的输出。图 C 是输出曲线的实际样子。图 A 表示 JS 散度的最优解。

作者还提到,当判别器输出达到最佳状态时,它应该收敛到 0.5。然而,传统的 GAN 训练算法强制判别器为任何图像输出「真实」(即 1)。这在某种程度上阻止了判别器达到其最佳值。Relativistic GANs 也解决了这个问题,并且有相当显著的结果,如下所示。

生成对抗网络的最新研究进展

经过 5000 次迭代后的标准 GAN(左)和 Relativistic GAN(右)的输出。

8.自我关注机制

「Self Attention GANs」 的作者声认为,用于生成图像的卷积着眼于局部传播的信息。也就是说,由于接受领域有限,这些卷积错过了全局关系。

生成对抗网络的最新研究进展

将注意力图(在黄色框中计算)添加到标准卷积操作中。

自我关注生成对抗网络允许对图像生成任务进行关注驱动的远程依赖性建模。自我注意机制是对正常卷积运算的补充。全局信息(长距离相关性)有助于生成更高质量的图像。网络可以选择忽略注意机制,或者将其与普通卷积一起考虑。要获得详细的解释,你可以查看 他们的论文 。

生成对抗网络的最新研究进展

以红点标记的位置的注意地图可视化。

其他技术

以下是一些附加技术的列表(并非详尽列表)用于改进 GAN 训练:

你可以在 这篇文章 和 这篇博文 中了解更多关于这些技术的信息。在这个 GitHub 存储库 中列出了更多的技术。

指标

既然我们已经知道了改进训练的方法,那么如何来证明呢?以下指标通常用来衡量 GAN 的性能:

1.初始得分

初始分数衡量生成数据的「真实性」。

生成对抗网络的最新研究进展

方程有两个分量 p(y_x)和 p(y)。这里,x 是由生成器生成的图像,p(y_x)是通过预先训练的初始网络(如在原始实现中对 ImageNet 数据集进行预训练)传递图像 x 时获得的概率分布。另外,p(y)是边缘概率分布,可以通过对生成图像(x)的几个不同样本求 p(y_x)的平均值来计算。这两个术语代表了真实图像所需的两种不同品质:

P(y_x)和 P(y)的理想图。像图中这样的一对会有很大的 kL 发散。

如果一个随机变量是高度可预测的,那么它的熵就很低(即 p(y)必须是一个具有尖峰的分布)。相反,如果它是不可预测的,那么它具有高熵(即 p(y_x)必须是均匀分布)。如果这两个特征都得到满足,我们就会认为 p(y_x)和 p(y)之间的 KL 差异很大。当然,一个大的初始分数(IS)是更好的。为了更深入地分析初始分数,您可以阅读这篇论文。

2.Fréchet 距离(FID)

初始分数的一个缺点是,实际数据的统计数据不会与生成数据的统计数据进行比较。Fréchet 距离通过比较真实图像和生成图像的平均值和协方差来解决这个缺点。Fréchet 初始距离(FID)执行相同的分析,但它通过预先训练的 inception-v3 网络传递真实和生成的图像而生成特征图。方程描述如下:

生成对抗网络的最新研究进展

FID 比较实际和生成的数据分布的平均值和协方差。tr 代表 trace。

较低的 FID 分数更好,因为它表示生成图像的统计数据与真实图像的统计数据非常相似。

结论

为了克服 GAN 训练的不足,学术提出了许多解决方案和方法。然而,由于新研究的数量巨大,很难对所有的新成功进行跟进。由于同样的原因,本博客中分享的细节并不详尽,在不久的将来可能会过时。不过,我希望这篇博客能为人们提供一个指导,帮助他们寻找提高他们的工作表现的方法。

via:

雷锋网编译。

版权文章,未经授权禁止转载。详情见 转载须知 。

生成对抗网络的最新研究进展

全局中部横幅
轻跨境

轻跨境由中国联通授权运营跨境业务,为跨境电商用户提供全球范围内的跨境电商线路服务。

原神地图资源查询器

4399游戏盒-原神地图资源查询器,收录神瞳、宝箱、地灵龛、矿物等游戏全地图资源,可以边玩游戏边查询探索,可以通过点位图片以及视频快速获取资源点位的攻略信息,支持地图资源分类功能方便查找,使用过程中可以进行数据存档以防点位标记丢失,帮助旅行者们快速探索提瓦特,有更好的游戏体验

腾佑科技

腾佑科技致力于服务器系列业务数十年,主营服务器租用,服务器托管,云服务器租用,云主机租用,机柜带宽租用,CDN加速,网络安全等业务,咨询热线:400-996-8756。

青岛影视制作

青岛龙石传媒专注于青岛影视广告,广告拍摄,宣传片制作,微电影创作,建筑动画三维动画制作,tvc广告创意,广告策划等服务领域,为客户创造更多的传播价值

志美发电机厂家提供柴油发电机价格

扬州志美发电机制造有限公司厂家提供100KW|200KW|300KW|400KW|500KW|600KW|700KW|800KW|900KW|1000KW|1200KW|1500KW|2000KW|柴油发电机组价格以及应用方案。

粤湘源茶行

粤湘源分享各类茶叶知识,把握最新茶叶行情,分享一首茶叶资讯。

压片机

上海天九机械制造厂是专营粉末糖果奶片棒棒糖中药压片机的厂家,发货迅速,质量可靠。为新疆、宁夏、山西、重庆、河南、河北等多地制药、食品、日化企业提供压片机生产加工。

建站快车

凡科旗下建站快车是专业提供企业网站建设的自助建站产品,功能强大,设计精美,现招募授权代理商,欢迎加盟!

厦门伯智人力资源管理有限公司

厦门伯智人力资源管理有限公司是一家专业性人力资源管理咨询公司

柠檬的起始页

柠檬的起始页,用惯了各种起始页,满屏幕尽是各种不厌其烦的广告和资讯。

四川省能源投资集团有限责任公司

四川省能源投资集团有限责任公司成立于2011年2月21日,注册资本93.16亿元。公司为四川省人民政府批准,在四川省工商局依法注册登记的国有资本投资公司,是四川推进能源基础设施建设、加快重大能源项目建设的重要主体。

全局底部横幅