关于GAN的灵魂七问

发布时间：2019-04-14 15:47:38 所属栏目：优化来源：机器之心编译

导读：生成对抗网络在过去一年仍是研究重点，我们不仅看到可以生成高分辨率(10241024)图像的模型，还可以看到那些以假乱真的生成图像。此外，我们还很兴奋能看到一些新的生成模型，它们能生成与 GAN 相媲美的图像，其主要代表就是流模型 Glow。从 DeepMind 提出

副标题[/!--empirenews.page--]

生成对抗网络在过去一年仍是研究重点，我们不仅看到可以生成高分辨率(1024×1024)图像的模型，还可以看到那些以假乱真的生成图像。此外，我们还很兴奋能看到一些新的生成模型，它们能生成与 GAN 相媲美的图像，其主要代表就是流模型 Glow。

关于GAN的灵魂七问

从 DeepMind 提出的 BigGAN，到英伟达的 Style-based Generator，它们生成的图像质量都令人惊叹。尽管还有很多问题没有解决，但图像生成已经能骗过一般人类了。不信的话，你可以试试区分生成的图像与真实图像。

https://v.qq.com/x/page/j08127vm36n.html

看了上面 Style-based Generator 的生成效果，很明显感觉生成对抗网络在过去 2 年中已经取得了显著的进展。其实，从 16 年到 18 年图像合成的质量越来越高，看论文的速度都快赶不上 GAN 的发展了：

但是在另一些方面，GAN 的提升并不是那么显著。例如，关于如何评估 GAN 的效果，现在仍有很多分歧。因为目前图像合成基准已经非常多了，所以反思子领域的研究目标显得更有意义。

在这篇文章中，谷歌大脑团队的 Augustus Odena 就针对 GAN 的七大开放性问题作出了介绍。

问题 1：如何在 GAN 和其它生成模型之间进行挑选?
问题 2：GAN 能建模哪些分布?
问题 3：除了图像合成外，GAN 还能用于哪些地方?
问题 4：GAN 的全局收敛性如何?训练动态过程又是怎样的?
问题 5：我们该如何评估 GAN 的好坏，什么时候又该使用 GAN 这种生成模型?
问题 6：如何扩展训练 GAN 的批量大小?
问题 7：GAN 和对抗样本之间有什么关系?

Augustus 对每一个问题都做了很详细的讨论，包括问题背景、问题内容以及如何解决等等。这篇文章发布在 Distill 上，机器之心简要对六大问题做了介绍，更详细的内容与相关引用文献可阅读原文。

谷歌大脑和其他很多研究者都在致力于解决这些 GAN 的开放性研究问题。这篇文章也引用了近来非常多的生成对抗网络研究，因此并不能面面俱到地描述细节，所以读者有一定的基础、对这些问题有一定的直观了解就最好了。

问题1：如何在 GAN 和其它生成模型之间进行挑选？

除了 GAN，另外两种生成模型现在也很流行：流模型和自回归模型。粗略来说，流模型将一堆可逆变换应用于先验样本，以计算观测值的精确对数似然性。另一方面，自回归模型将观测值的分布分解为条件分布，并一次处理观测值的一个组件(对于图像，可能是一次处理一个像素)。最近的研究表明，这些模型具有不同的性能特点和权衡。准确描述这些权衡并确定它们是否为模型的固有特性是一个有趣的开放性问题。

具体来说，我们先暂时把重点放在 GAN 和流模型之间计算成本的差异上，训练 GAN 和流模型的计算成本之间似乎存在巨大差异。GLOW 模型是用 40 个 GPU 花两周训练的，以生成 256x256 的名人面部图像，其使用的参数为 2 亿。相比之下，自回归 GAN 是在相似的面部数据集上用 8 个 GPU 花 4 天训练的，以生成 1024x1024 的图像，它使用了 4600 万参数。流模型大概需要 17 倍多的 GPU 天数和 4 倍多的参数来生成像素少 16 倍的图像。

为什么流模型效率更低?有两个可能的原因：首先，最大似然训练可能比对抗训练的计算难度更大。其次，归一化流可能无法有效代表特定函数。论文《Parallel WaveNet: Fast High-Fidelity Speech Synthesis》第 6.1 节对表达性做了一些小实验，但目前我们还没看到任何对这个问题的深入分析。

前面已经讨论过了 GAN 和流模型之间的权衡，那自回归模型呢?事实证明，自回归模型可以看做不可并行化的流模型(因为它们都可逆)。

因此，GAN 是并行且有效的，但不可逆;流模型是可逆且并行的，但比较低效;自回归模型是可逆且有效的，但不可并行化。

关于GAN的灵魂七问

由此引出第一个开放性问题：

解决这个问题的方法之一是研究更多由多种模型混合而成的模型。这种方法已经用于混合 GAN/流模型研究，但它仍然没有被充分开发。

我们也不确定最大似然训练是否一定比 GAN 训练更难。的确，在 GAN 训练损失下，将 zero mass 置于训练数据点上没有被明确禁止，但面对这种情况，强大的判别器的确会比生成器做得更好。不过，看起来 GAN 确实在实践中学习低支持度的分布。

最终，我们怀疑流模型每个参数的表达不如任意解码器函数，而且这在特定假设下是可以证明的。

GAN 能建模哪些分布?

大多数 GAN 都侧重于图像合成，具体而言，研究者会在一些标准图像数据集上训练 GAN，例如 MNIST、CIFAR-10、STL-10、CelebA 和 Imagenet 等。这些数据集也是有难易之分的，而且生成的效果也有好有坏。经验表明，CelebA 上最先进的图像合成模型生成的图像似乎比 Imagenet 上最先进的图像合成模型生成的图像更有说服力。

与任何科学一样，我们也希望有一个简单的理论来解释实验观察。理想情况下，我们可以查看数据集，并执行一些计算而不实际训练生成模型，然后就可以判断「这个数据集对于 GAN 来说比较容易建模，但是对于 VAE 来说比较难」。这些都是经验理解，不过目前在这个领域上也有一些研究。由此引出下面这个问题：

（编辑：通化站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/5

尾页

SEO小妙招处理网站多	网站被动免费快排的
企业把网站交给seo优化	SEO和PPC哪种推广更有