传统的深度卷积生成对抗网络无法捕获到图像中的长距离依赖。当图像中存在较高的信息变化率时,卷积生成对抗网络通常会错过所有的这种变化,因此不能真实地表征全局关系。自注意力生成对抗网络(Self-Attention Generative Adversarial Networks)使用自注意力范式来捕获图像中存在的长距离空间关系,以更好地合成新的图像。本文梳理了一下这篇文章的概况和它的主要贡献。
原论文地址:https://arxiv.org/pdf/1805.08318.pdf
TDLS 展示地址:https://tdls.a-i.science/events/2018-06-11/
传统生成对抗网络 的挑战
尽管传统的 生成对抗网络 可以生成相当逼真的图像,但是它们无法捕获到图像中的 长距离依赖 。这些传统的 生成对抗网络 在不包含太多的结构和几何信息的图像上效果是不错的(例如海洋、天空和田野)。但是,当图像中存在较高的信息变化率时,传统的 生成对抗网络 往往会错过所有的这种变化,因此就无法真实地表征全局关系。这些非局部依赖始终会出现在某些类别的图像中。例如, 生成对抗网络 可以生成具有逼真皮毛的动物,但是却无法生成独立的足部。
由于卷积算子表征能力的局限性(也就是接受域是局部的),传统的 生成对抗网络 在几个卷积层之后才能捕获到长距离关系。缓解这个问题的一种方法就是增加卷积核的尺寸,但是这在统计和计算上都是不够高效的。各种 注意力和 自注意力 模型早已被用来捕获并使用这种结构化模式和非局部关系。但是,这些模型通常不能有效地平衡计算效率和建模长距离关联二者之间的关系。
用于生成对抗网络 的自注意力
这个功能性差距就是 Zhang 等人(2018)提出这种方法的原因。他们给生成对抗模型配备了一个工具来捕获图像中的长距离、多级关联。这个工具就是 自注意力 机制。 自注意力 机制尝试关联输入特征的不同部分,切合正在进行的任务计算出输入的另一个表征。 自注意力 机制的思想已经被成功地应用在了阅读理解(Cheng 等 2016)、自然语言推理(Parikh 等,2016)以及视频处理(X. Wang 等, 2017)等领域。
将 自注意力 引入到 图像生成 领域受启发于《Non-local neural networks》(非局部 神经网络 )(X. Wang 等,2017),这项工作使用 自注意力 来捕获视频序列中的空间-时间信息。通常而言, 自注意力 机制就是简单地计算某个单独的位置在所有位置的特征加权和中的响应。这个机制允许网络聚焦于那些分散在不同位置但是又有着结构关联的区域。
在 SAGAN 中,注意力模块与 卷积神经网络 协同工作,并且使用了 key-value-query 模型(Vaswani 等,2017)。这个模块以卷积 神经网络 创建的特征图为输入,并且将它们转换成了三个特征空间。这些特征空间(分别是 key f(x)、value h(x) 和 query g(x))通过使用三个 1X1 的卷积图来传递原始特征图而生成。然后 Key f(x) 和 query g(x) 矩阵相乘。接下来,相乘结果的每一行应用 softmax 算子。由 softmax 生成的注意力图代表了图像中的哪些区域应该被关注,如方程(1)所示(Zhang 等,2018):
然后,注意力图与 h(x) 的值相乘来生成 自注意力 特征图,如下所示(Zhang 等,2018):
最后,将原始输入特征图和缩放的 自注意力 图相加来计算输出。缩放 参数