39

迁移学习:领域自适应的理论分析

 3 years ago
source link: http://mp.weixin.qq.com/s?__biz=MzI5MDUyMDIxNA%3D%3D&%3Bmid=2247508832&%3Bidx=2&%3Bsn=4c93a159a87e1aada652dda9e9a408b9
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

↑ 点击 蓝字  关注极市平台

NbYzEfi.gif!mobile

作者丨小蚂蚁曹凯@知乎

来源丨https://zhuanlan.zhihu.com/p/50710267

编辑丨极市平台

极市导读

领域自适应是迁移学习中的重要内容,本文整理了相关的理论文章,与大家分享。 > > 加入极市CV技术交流群,走在计算机视觉的最前沿

领域自适应 Domain Adaptation ,是迁移学习中很重要的一部分内容。目的是把分布不同的源域和目标域的数据,映射到一个特征空间中,使其在该空间中的距离尽可能近。于是在特征空间中对source domain训练的目标函数,就可以迁移到target domain上,提高target domain上的准确率。我最近看了一些理论方面的文章,大致整理了一下,交流分享。

背景

想必大家对GAN都不陌生,GAN是基于对抗的生成网络,主要目标是生成与训练集分布一致的数据。而在迁移学习领域,对抗也是一种常用的方式,如Ganin[1]的论文,使用的网络结构如下图, 由三部分组成: 特征映射网络标签分类网络 域判别网络

jAN7juI.jpg!mobile

其中,source domain的数据是有标签的,target domain的数据是无标签的。将source和target domain的数据都映射到一个特征空间上,预测标签y,预测数据来自于target还是source domain。所以流入的是带标签的source数据,流入的是不带标签的source和target的数据。

:将数据映射到feature space,使能分辨出source domain数据的label,分辨不出数据来自source domain还是target domain。

: 对feature space的source domain数据进行分类,尽可能分出正确的label。

:对feature space的数据进行领域分类,尽量分辨出数据来自于哪一个domain。

最终,希望与博弈的结果是source和target domain的数据在feature space上分布已经很一致,无法区分。于是,可以愉快的用来分类target domain的数据啦。

理论分析

首先Domain Adaptation基本思想是既然源域和目标域数据分布不一样,那么就把数据都映射到一个特征空间中,在特征空间中找一个度量准则,使得源域和目标域数据的特征分布尽量接近,于是基于源域数据特征训练的判别器,就可以用到目标域数据上。

  • 问题建立

假设是一个实例集(instance set)。

是一个特征空间(feature space)。

是定义在上的源域数据分布,是定义在上的源域特征分布。

、一样定义目标域数据分布和特征分布。

:是表示函数(representation function)将实例映射到上,即上图的。

:是真实的标签函数,是二值函数。我们并不知道是什么,希望通过训练得到它。

:是我们自己设计的预测函数,,给定一个特征,得到一个其对应的标签,即上图的。

: 二值函数的集合,。

接下来需要定义特征到标签的真实映射函数:

:这边 是随机的是因为,即使 是确定的映射,给定特征 的情况下, 也有可能以不同的概率来自于不同的

那么我们自己设计的预测函数在源域上的错误率:

  • 度量准则

接着就需要设计一个度量准则,度量通过映射到特征空间的特征分布、之间的距离。这个距离必须满足的条件是:能通过有限个样本数据计算。

这边找到距离叫距离,如下:

其中花体是波莱尔集,是其一个子集。意思就是取遍所有的子集,找出在、上的概率差的最大值。

给一个具体的取值,

则此时的距离可记作距离:

给一个简单的例子,如下:

uIFNN3n.jpg!mobile

两个高斯分布分别代表源域和目标域的特征分布。由于要取上确界,所以找到的集合为。

在距离的基础上,再定义距离:

,,XOR operator

简单例子如下:

67zmimA.jpg!mobile

于是,可以用下面的界限定:

其中,函数集合 只要取的比 集合 复杂即可,这个很容易达到,我们只需把神经网络设计的复杂一些就行。

从最后的式子来看,如果我们能一个在复杂度足够(能够实现比异或更复杂的操作)的函数类中,找到一个函数,使得将来自于的特征都判为1,将来自于的特征都判为0的概率最大,那么我们就能得到的上界。

其实这边的就是最开始图中红色的那部分网络啦!

  • 误差界

好了,有了度量准则,那么下面就要介绍最重要的一个定理了。

Theorem: Let R be a fixed representation function fromto,is a binary function class, for every:

where,

这个定理说的是,我们训练得到的分类函数在目标域数据上的错误率,被三个项所限定。第一项是在源域上的错误率。第二项是通过将源域、目标域数据都映射到特征空间后,两者特征分布的距离, 即距离。第三项是一个常数项可以不管。

如果把这些字母都加到开始的图上:

M7bA73.jpg!mobile

可以看出,要降低,表示函数(即)承担两项任务,需要降低在源域上的错误率,还需要减小距离。而(即)承担一项任务目标,就是降低在源域上的错误率。

对于(即),要做的就是尽量能取到中的上确界,让自己尽量能代表这个距离。其实,我个人想法,这边严格来说并不存在对抗,并不是一个坏蛋想要增大我们的错误率,它只是在默默的做自己本职的工作,想取到上确界,让自己能代表这个距离。而也不是去妨碍去取上确界,而且想减小上确界本身。

到此,三个网络为什么这么设计应该就很清楚了叭!(至少我觉得讲清楚了233333,当然,最重要的定理的证明我省略了,有兴趣看下面参考的论文。)

  • 实际计算

如果引入VC维那一套关于泛化误差的理论,可以得到如下结论:

以概率成立

是经验损失,可以通过有限数据计算。

是源域数据个数,是VC维的维数,是自然底数。

以概率成立。

可以通过给定数据计算。表示源域和目标域数据个数。

最终,我们的误差界由下式界定:

  • 定理证明

Theorem: Let R be a fixed representation function fromto,is a binary function class, for every:

where,

proof:

令表示特征空间中被判为类别1的那些特征的集合。

则有:

这里的是亦或,也就是意见不一致的特征组成的集合,即:

所以为什么不等式(1)成立?因为第一项是的错误率,包含意见一致时的判断错误的情况,第二项是意见不一致时的概率,包含意见不一致时判断错误的概率。所以所有判断错误的概率,都包含在后面两项中!

继续往下推:

这一步就没什么好说的了,就是一个数的绝对值大于等于其本身。

不等式(2)的第二项是在源域上,意见不一致的概率。一旦意见不一致,那么必然有一方是错的,所以这项必然小于和的错误率之和:

根据上文

所以不等式(2)的第三项

所以综合不等式(1-4),有:

定理得证。

参考论文

  1. Ben-David, Shai, Blitzer, John, Crammer, Koby, and Pereira, Fernando. Analysis of representations for domain adaptation. In NIPS, pp. 137–144, 2006.

  2. Ben-David, Shai, Blitzer, John, Crammer, Koby, Kulesza, Alex, Pereira, Fernando, and Vaughan, Jennifer Wort-man. A theory of learning from different domains. JMLR, 79, 2010.

  3. Yaroslav Ganin, Evgeniya Ustinova, Hana Ajakan, Pascal Germain, Hugo Larochelle, Fran¸cois Laviolette, Mario Marchand, Victor Lempitsky. Domain-Adversarial Training of Neural Networks. Journal of Machine Learning Research 17 (2016) 1-35

  4. Ganin, Y., Lempitsky, V.: Unsupervised domain adaptation by backpropagation. arXiv preprint arXiv:1409.7495 (2014)

推荐阅读

来测一测你是几级的炼丹师?

VF7Jjee.jpg!mobile

添加极市小助手微信 (ID : cvmart2) ,备注: 姓名-学校/公司-研究方向-城市 (如:小极-北大- 目标检测- 深圳),即可申请加入 极市目标检测/图像分割/工业检测/人脸/医学影像/3D/SLAM/自动驾驶/超分辨率/姿态估计/ReID/GAN/图像增强/OCR/视频理解 等技术交流群: 月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、 与  10000+ 来自 港科大、北大、清华、中科院、CMU、腾讯、百度 等名校名企视觉开发者互动交流 ~

biMRR3i.jpg!mobile

△长按添加极市小助手

EVJvArE.png!mobile

△长按关注极市平台,获取 最新CV干货

觉得有用麻烦给个在看啦~   


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK