13

124页哈佛数学系本科论文,带你了解流形学习的数学基础

 3 years ago
source link: https://www.jiqizhixin.com/articles/2020-11-27
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

流形学习(manifold learning)是机器学习、模式识别中的一种方法,在维数约简方面具有广泛的应用。它的主要思想是将高维的数据映射到低维,使该低维的数据能够反映原高维数据的某些本质结构特征。流形学习的前提是有一种假设,即某些高维数据,实际是一种低维的流形结构嵌入在高维空间中。流形学习的目的是将其映射回低维空间中,揭示其本质。流形学习可以作为一种数据降维的方式。此外,流形能够刻画数据的本质,主要代表方法有等距映射、局部线性嵌入等。

自 2000 年在著名的科学杂志《Science》首次提出以来,流形学习成为机器学习领域中的一个热点。近日,一篇来自哈佛大学数学系的本科毕业论文引起了大家关注。它结合三个看似不太相关的数学领域来介绍流形学习的数学基础,这三个领域分别是: 统计学习、谱图理论和微分几何

riMjMfA.png!mobile

论文链接:https://arxiv.org/pdf/2011.01307.pdf

什么是流形学习?

要想从数据中学习,我们首先要假设数据具备某种内在结构。在一些机器学习方法中,该假设是隐式的。而流形学习领域中该假设是显式的,它假设观察到的数据是嵌入在高维空间中的低维流形。直观来看,这一假设(又叫流形假设)认为数据的形态是相对简单的。

以自然图像的空间为例。图像是以像素形式存储的,因此图像空间在像素空间 R^H×W×3 内。但是,我们希望自然图像空间的维度比像素空间低一些,像素空间某种程度上几乎被看起来像「噪声」的图像塞满了。此外,我们可以看到自然图像空间是非线性的,因为两个自然图像的(像素级)平均并非自然图像。流形假设认为,自然图像空间具备低维流形嵌入在高维像素空间中的微分几何结构。

应当强调的是,流形学习不是监督学习、无监督学习那样的学习类型,这些学习类型指的是学习任务(是否具备标注数据),而流形学习指的是一组基于流形假设的方法。流形学习方法多在半监督和无监督学习设置下使用,不过也可以用在监督学习环境中。

论文内容概览

该论文结合三个数学领域来介绍流形学习:统计学习、谱图理论和微分几何,并在最后一章中介绍了 流形正则化 的思想。流形正则化可以学习与数据流形相关的函数,而不是数据所在的外围空间。

要想了解流形学习和流形正则化,我们首先需要了解 核学习 (kernel learning),以及流形与图之间的关系。

论文第二、三章重点介绍核学习。第二章介绍了监督和半监督学习的基础知识,第三章介绍再生核希尔伯特空间中的监督核学习理论,该理论为大量正则化技术奠定了严谨的数学基础。

第四章通过 拉普拉斯算子 来探索流形与图之间的关系。乍一看,流形与图似乎区别很大,但拉普拉斯算子揭示了二者之间的对应性。

第五章介绍了流形正则化。该研究发现,使用基于数据所生成图的拉普拉斯算子,可以很容易地将流形正则化添加至多种学习算法。本章证明了这一图方法的理论有效性:在无限数据情况下,数据图的拉普拉斯算子能够收敛至数据流形的拉普拉斯算子。

论文目录如下:

vA3QFj7.png!mobile

yMZ7Vrj.png!mobile

作者简介

uQ7biyZ.jpg!mobile

这篇论文的作者 Luke Melas-Kyriazi 今年五月毕业于哈佛大学数学系,现在牛津大学读博。他对机器学习和计算机视觉感兴趣,目前的研究重点是半监督和多模态学习。

个人主页:https://lukemelas.github.io/

GitHub 主页:https://github.com/lukemelas


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK