38

一文通俗了解对抗生成网络(GAN)核心思想

 4 years ago
source link: http://mp.weixin.qq.com/s?__biz=MzI5MDUyMDIxNA%3D%3D&%3Bmid=2247493482&%3Bidx=3&%3Bsn=4044b008ad381e2d9ad14a5fbaf67b61
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

加入极市 专业CV交流群,与 6000+来自腾讯,华为,百度,北大,清华,中科院 等名企名校视觉开发者互动交流!更有机会与 李开复老师 等大牛群内互动!

同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流。 关注  极市平台  公众号  , 回复  加群, 立刻申请入群~

引言

GAN已经作为一种思想来渗透在ML的其余领域,做出了很多很Amazing的东西。被Yann LeCun评价为近十年最有趣的idea,所以对于相关研究方向的同学而言,gan成了一个必须要学的思想和方法。

VBJVviI.jpg!web

Basic Idea of GAN (Generator)

GAN中包括两个最基本的组件,其中一个就是Generator,对于Image Generation过程来说,你给它一个向量,它输出一个图片(image)。

input: vector

output: image

如下所示:

6zuYNfb.jpg!web

对于Sentence Generation来说,你给它一个向量,它输出一个句子(sentence)。

input: vector

output: sentence

如下所示:

3UNJjui.jpg!web

其中我们以image generation过程来仔细说明一下其中过程原理!

实际上Generator就是一个NN网络,输入是一个vector,它的输出是一个高维的向量,比如image是16*16,那么它的输出就是256维的向量。

如图所示:

mQjIvur.jpg!web

其中,输入向量的每一个维度都可以代表输出image的某些特征,比如说第一维度的值,代表着image人物的头发长短。

那么我们在调大input vector的第一维的值的时候,我们可以看到生成的image的头发变长,如下图所示:

yumI3qj.jpg!web

比如说,input vector某一个维度的值大小代表生成image的头发颜色蓝色深浅,调大后,生成的image头发变得更蓝一些:

nimiYjU.jpg!web

或者说,input vector某一个维度的值大小代表生成image的口张开的大小,调大后,生成的image人物中口张的更大一些:

2i2AVjm.jpg!web

总而言之,GAN中的Generator就是一个神经网络,丢给它一个输入向量,输出也是一个向量。

在不同的任务中,生成的东西不同,输入向量的每一个维度都代表着输出image的特定特征。

Basic Idea of GAN(Discriminator) 

讲完了Generator之后,我们来看GAN的另一个组件,Discriminator。Discriminator也是一个NN网络,它的输入是Generator的输出或者是真实的image...,输出是一个标量,代表接受的输入的quality有多好,数值越大,代表越好,数值越小,代表越差。

如下图:

MFzUJrM.jpg!web

比如给它输入是真实的image,那么经过Discriminator之后应该是输出的标量值很大,代表送入给它的image的质量很高。

Rruia2b.jpg!web

比如给它输入是差的image,那么经过Discriminator之后应该是输出的标量值很小,代表送入给它的image的质量很低。

AniiYze.jpg!web

Algorithm of GAN

下面我们来介绍一下最基本的gan的训练算法,不够严谨,但是容易接受。

首先,跟任何网络训练一样,我们需要初始化生成器G,和判别器D的参数

yYjee2E.jpg!web

形式化公式就是如下:

1、然后在每一轮中,首先固定住G,训练D,具体怎么训练呢?

我们任意选取一些向量,送给G,同时从database中挑选出一些数据,使得判别器学会从database挑选出真实的图片打分高,任意选取向量从G中生成的图片,打分低。这样就是在训练判别器:

6jEf22j.jpg!web

形式化公式如下:

AvY7Vvu.jpg!web

稍微解释一下图片中的公式,训练判别器就是希望它对于真实的图片打分高,生成的图片打分低。而公式中是最大化那个式子,分解来看完全对应文字的解释:

对应真正的图片打分高,也就是最大化如下公式,公式如下:

iQrUFfr.jpg!web

2、第二步是固定判别器D,训练生成器G,我们还是任意给定一些向量,这些向量送给G,生成一些图片,然后喂进判别器进行判别。

首先我们的目的是使得生成器能够生成非常真实的图片,对于真正真实的图片来说,判别器的打分是高的,那么也就是说,我们需要训练生成器,使得通过生成器生成出来的图片让判别器打分高,尽可能的迷惑判别器,这样通过生成器生成出来的图片就是接近“真实的”,土话说就是跟真的好像啊。

6BjYJzu.jpg!web

形式化公式如下:

Izm6vaj.jpg!web

公式解释为:最大化使得判别器对于生成器生成的图片打分。

这里需要注意的是训练生成器的时候,一定要固定判别器的参数,因为在实际实现中,生成器和判别器会构成一个大网络,如果不固定判别器的参数去训练生成器的话。

因为目标是使得最后的得分高,网络这个时候仅仅更新最后一层的参数就能让最后的输出标量非常大,很显然这不是我们希望的,如果固定了判别器后面几个layer,训练前面生成器的参数就能正常学习。

实例

最后李宏毅老师给出了他自己用gan生成二次元头像的实例,下面分别给出训练了不同轮次的生成结果,给大家一个直观的感觉:

auyQreV.jpg!web

bI7bInv.jpg!web

YFJN7b3.jpg!web

fymEf2I.jpg!web

GAN的魅力

可能不少人会有疑问,就是生成一些牛逼的图像有什么用,模型再厉害,我拿一个照相机照出来的难度会比你差,这里解释一下,如果仅仅只能生成见过的图片,确实没有什么厉害的地方,但是如果可以“合理”的生成没有见过的图像,是不是就很有意思呢?如下图,中间的图片就是训练集中重来没有出现:

beiyMvf.jpg!web

它居然自己学到了,在中间参数的时候,头像的转向等等特质,非常的amazing

视频资料如下:

https://www.bilibili.com/video/av23316535from=search&seid=13825323076277645807

-END-

点击   阅读原文 ,可跳转浏览本文内所有网址链接

*延伸阅读

添加极市小助手微信 (ID : cv-mart) ,备注: 研究方向-姓名-学校/公司-城市 (如:目标检测-小极-北大-深圳),即可申请加入 目标检测、目标跟踪、人脸、工业检测、医学影像、三维&SLAM、图像分割等极市技术交流群 ,更有每月 大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流 一起来让思想之光照的更远吧~

RrYj22I.jpg!web

△长按添加极市小助手

Yjqyyiq.jpg!web

△长按关注极市平台

觉得有用麻烦给个在看啦~    uE7RJjy.gif


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK