人工智能领域有哪些精妙的数学原理?
source link: https://www.zhihu.com/question/508649281
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
人工智能领域有哪些精妙的数学原理?
38 个回答
贝叶斯推断和变分推断,能够用简单的 Uniform Distribution、Normal Distribution、Bernoulli Distribution 拟合出几乎所有复杂的、无法直接观测的分布函数。搭在神经网络的结构上组成 Variational Autoencoder (VAE) 模型,(问题问的是人工智能,如果不是一定要和神经网络结合在一起的话,最常用的是贝叶斯推断)可以水很多论文。
从 Input x 开始,进行一些列的计算,算出来对应的 output x',
计算一个形如下面的似然函数(等价于最大化 ELBO,等价于最小化KL散度)
最大化 ELBO 之后,我们就可以用先验的数据分布 x 来拟合后验分布或者是我们无法直接观测到的分布 z
变分推断的精妙地方在于,我们并不能直接对着一个包含了多个可观测变量 x,隐含变量 z, 且它们还相互依赖的似然函数 L(x , z) 直接求偏导数,但我们可以通过构造一个工具分布 q (z | x) 来避免直接计算后验概率 p (z | x)。 在利用平均场理论(mean field thoery),把 q (z | x) 的优化,拆解成为若干个简单的、单一隐含变量或者可观测变量的函数优化。最终就可以做到最优化ELBO的目标了。
一些见过的应用场景:
VAE 用于因果推断:
如果我们要切断 Z 对 X, Y, T 的影响,只需要建立两个network,让最后的推断误差最小即可
Louizos, C., Shalit, U., Mooij, J., Sontag, D., Zemel, R., & Welling, M. (2017). Causal effect inference with deep latent-variable models.arXiv preprint arXiv:1705.08821.
VAE 用于图神经网络(GNN):
先用 encoder 编码 X 和 A来拟合隐式层 Z,接着再用 Z 解码拟合 A 来判断每一个 node上的 message passing
Grover, A., Zweig, A., & Ermon, S. (2019). Graphite: Iterative generative modeling of graphs. InInternational conference on machine learning(pp. 2434-2444). PMLR.
VAE 用于推荐系统:
把用户所在的兴趣组作为隐含层,做完encoder-decoder之后,可以提高对用户购物行为的预测。
Nguyen, M. D., & Cho, Y. S. (2020). A variational autoencoder mixture model for online behavior recommendation.IEEE Access,8, 132736-132747.
VAE 用于自然语言处理:
变分推断的祖传手艺,每一个文本都包含着隐含的话题层 latent topic,用每一个文本的 x 推测隐含 topic z 然后再 decode 重构文本。用来提高文本处理的分类精度。
Zhou, C., Ban, H., Zhang, J., Li, Q., & Zhang, Y. (2020). Gaussian Mixture Variational Autoencoder for Semi-Supervised Topic Modeling.IEEE Access,8, 106843-106854.
Reference
Kingma, D. P., & Welling, M. (2013). Auto-encoding variational bayes.arXiv preprint arXiv:1312.6114.
个人读过/用过的最精妙的一篇是OptNet: Differentiable Optimization as a Layer in Neural Networks ,在之前的回答 就CVPR2020的来看,目前人工智能的研究热点有哪些进展?未来的研究趋势会有什么变化?里提到过。
深度学习时代构建模型最重要的因素就是可导,一旦可导能够解决,模型就有可能被end to end 优化来拟合函数。 OptNet解决的问题是,当一个quadratic/linear program由参数定义的时候,比如constraint,这个求解出来的optimal variable如何相对于问题参数可导。之前我的研究工作DeepEMD尝试把 Earth mover's distance (就是Optimal transport, linear program)植入深度学习框架来做图像之间的度量中遇到了这个问题,Optimal transport可以由各种black-box solver求解出来,但是如何让这些optimal variable相对于网络前面的layer可导一直困扰着我。为此尝试了很多的思路,比如MAML里的二次梯度,或者用网络来approximate一个solver,最后都不work。 后来有幸读到了OptNet这篇工作,巧妙的把隐函数定理作用在了KKT条件的等式上,解决了这个问题。
对偶性 duality|动量 momentum|核技巧 kernel trick
第二次更新
没想到这个回答真获奖了,正好前两周看到这本 MIT+FAIR 出品的未来深度学习理论圣经,还没出印刷版,给喜欢数学的读者放个正版PDF:The Principles of Deep Learning Theory;路过本文的其他读者也不能空手而归:Amazon 出品实践圣经《动手学深度学习》;较传统的就推荐前导师的经典《SVM》和《核方法》
跨年的时候只有几个简短的回答,以为是个没人看的问题,因为确实多数广义 AI 方向很工程,精妙也是主观感受,但我正好有感而答,感谢大家看完 hhh 居然一个月不到就五百多收藏了,字没白码~顺便感谢
的「数学问答集市」和 的提名,准备把这套数学书送给老弟,祝他虎年春节高考成年快乐三连~也祝大家新年暴富、身体健康!
第一次更新
关于人工智能,不少人对 AlphaGo 之父 David Silver 这套「AI = DL + RL」是有信仰的:深度学习明确目标、强化学习提供方法,即可成就通用智能 (AGI)。以上是本回答第一条精妙的数学原理……?我就开个玩笑,这是可能是魔法吧 : ) 各分支精妙原理虽多,本回答还是侧重于总结两个门槛低但天花板高的知识点:机器学习入门一定见过、但最新的DL/RL论文还在花式运用的数学原理。本次更新添加了对偶性,公式较多但不看也能懂,争取雅俗共赏老少咸宜不脱发。
原答案提了一下看图学ML调包的同学容易误解的 kernel trick,讲了 CVPR2020 最佳论文提名 MoCo (FAIR) 和同一时间 MoVI (Google) 对历史知识点 动量 在深度学习和强化学习中的成功应用。MoCo 救活的不只是CV无监督学习,还救了我 : ) 去年在新模型中也采纳了类似策略,跟踪网络 moving average 加一个动量 loss 以保证 embedding space 一致性,效果拔群直接 SotA!
这里再补充一个能同时拿捏深度学习以及强化学习的精妙原理「对偶性 」duality:很基础、很强大,比起之连独立词条都没有的动量,对偶性原理是上了维基百科的经典数学原理。很巧,对偶性也是最优化 (mathematical optimisation) 中诞生的原理,简化问题而不改变解,从经典的机器学习理论到强化学习领域全覆盖:线性规划 (如 MDP planning),二次规划 (SVM),二阶锥规划 (manifold learning)……而好用的 RL 多为动态规划 (DP),近些年 duality 往强化学习上面套,因为 policy optimisation 和 policy evaluation 都是可以用脸线性规划 (LP) 表达的,给优化方向的科研提出新的挑战。谷歌 principled ML 大神 Bo Dai 曾发现利用了数学原理的操作确实比现有方法好,可见数学在 AI 中还有极大空间(不是魔改调包调参?!
简单地理解,对偶性原则即从两种角度看优化问题,对偶问题 (dual problem) 提供初始问题 (primal problem) 的极限,解对偶问题较为容易,找到 dual 的解相当于解决了 primal,看到这里计算机出身的朋友是不是满脑子都是计算理论的「归约」reduction?是有点那个意思。对偶问题在机器学习课本/帖子里学的一般都是讲拉格朗日对偶问题 (the Lagrangian dual problem)。经典算法如 SVM 的理论核心技巧就是利用对偶性将难以处理的不等式限制转化到对偶问题中,而对偶方法之所以能成,是因为对偶变量就是问题最本质的未知量。Mathematically,拉格朗日对偶:
- 将初始问题:
- 通过定义拉格朗日方程:
- 转化为对偶: ,此时
具体比如,在 SVM 的 soft-margin 优化里是从
- 初始问题:
- 变成对偶:
省略符号定义和解释,本文关注数学在 AI 中思想运用的精妙而非推导上的细节。
2020 谷歌的 Fenchel-Rockafellar Duality 一文[1]中也总结了 AlgaeDICE[2]、DualDICE[3]等文,强势运用了对偶性原理,先将强化学习的初始问题变成对偶问题,加入一个凸正则器 (convex regulariser) 后再次利用对偶性原理获得一个无约束优化问题。全过程精彩之处有很多,但对偶性的精妙在于通过找对偶化简了问题本身却没有改变问题的值/解,使 RL 问题能用随机/大型 (stochastic and large-scale) 的优化。将经典的数学更严格地用在强化学习算法中,形式上算法作为数学的延伸更加血统纯正了更加靠谱, principled,实际表现来也确实更强。
图解强化学习新思路:对偶性Mathematically,第一次利用对偶将 Q-value 版的原问题 Q-LP 变成 visitation 版对偶问题,一个 objective 数量上保持一致但 constraints 的数量也都等同于 state x action[2],align
太乱了分行写:
- 初始目标:
- 初始条件:
- 对偶目标:
- 对偶条件:
第二步很关键,两个版本其实都 constraints 太多,所以推导出无约束优化版[3]进行下一步操作,即
这个不是重点。现在利用了 f-divergence 使问题平滑化后,目标又变了条件没变,将约束条件简写为 ,其中 ,,第二次对偶去条件:
- 初始目标: ,即
- 对偶问题:
最终我们就可以对这个无约束版的 进行常规的梯度优化了, stochastic and large-scale,完美。这个非常数学的模型可以直接用 offline data 取得 on-policy policy gradient. 这就是经典数学原理对偶性在强化学习中的精妙应用~
更新完毕!一周前答着题跨年,到今天收获一个专业认可 + 两百赞 + 三百收藏,感动,字没白码!其实我离开 RL 很久而且数学修抽象代数和统计推断比较多所以本更新有些细节可能没有吃透,如果讲的有错或者有更好的理解还请大佬们一定要指正!
Momentum 和 kernel trick
首先不得不提「动量」momentum:1964年曾优化梯度下降,2019年先搞活计算机视觉无监督学习,又在强化学习有了一席之地。硬要分类的话属于应用数学「最优化」分支中的……原理?trick?其实梯度下降、遗传算法、神经网络、SVM 全都属于最优化的算法,但动量只是个通用的方法,在各种算法上都能套:动量原理取梯度均值而非当前梯度,是优化问题中稳定优化方向的常用策略。
人工智能涉及到优化的,就基本是跟着数据不断输入更新权重,但往往会出现权重更新太快反而「学」得很慢或「学」不到的问题,也会出现卡在局部极值的问题。有一个巨直观、巨简单的数学技巧可以解决问题,你说这是原理 principle 也好、策略 strategy 也好,当年老师图解 SGD 的时候甚至都觉得这是物理常识,可以简单理解为给参数赋予了惯性,还能冲破局部最小值,所以又称重球方法 (heavy ball method)。
给大家细讲一下 intuition:1964年就有的动量梯度下降[4]一般来讲比梯度下降好用,因为用近期梯度均值做 (moving average of gradients) 做更新更稳一点,比说风就是雨的梯度下降来得安全。Facebook AI Research (FAIR) 何恺明等五大神把计算机视觉无监督学习搞活了的 CVPR2020 大作 MoCo[5] (Momentum Contrast 动量对比) 也是考虑到编码器更新太快从而搞砸了 representation 的一致性,应用了动量这个原理/策略。像强化学习 RL 领域,Google Research Brain Team 和 CNRS 的大佬也尝试了动量的应用,搞出 MoVI[6] (Momentum Value Iteration 动量价值迭代),把 state-action value 看作梯度,在动态规划中取 q-values 均值实现 RL 的动量,发了 AISTATS2020 但好像关注度不高。
有的人可能觉得看公式好理解一点。Mathematically,动量就是给过去的变化均值一个权重,拿梯度下降的 weight update 极简举例:
- 梯度下降长这样:
- 动量梯度下降:
就是说本来 而且 但现在用动量了所以 , i.e. 以前 ,就这么简单个东西,经久不衰,就是个控制变化速度、保持 consistency 的小诀窍,在不同层次的应用上都很通用。
觉得我没讲清楚的初学者可以看看我找动图时发现的2017年的动态论文 Why Momentum Really Works!我还没看但是这个交互式的论文各种配图真的很有意思!当然做 CV 的朋友 MoCo 肯定是要读三遍的,我发现大神
居然在知乎有个 MoCo 论文逐段精读 视频,感动哭了 世界上还有这种好事,亲导师都不会这样带我品论文,比起读到秃头 听他再讲一遍好爽啊17年 Distill 上论文的交互式配图最后,人工智能太广了,机器人学应该有挺多精妙数学但我相信来这个问题的人应该不是冲着这个来的,logic-based 这种不知道算不算有数学,ML 算法里的精妙数学比如 SVM 里的证明还有 kernel trick 都很精彩,但感觉太经典了大家都学过配个图敷衍一下,就讲到这里吧,
不行还是要提一句精妙之处因为实在是太妙了,注意 kernel trick 的重要性不在于升维之后使线性分割成为可能,而在于我们可以在原特征空间内直接操作,不需要算高维空间的坐标,比如[7]:
Kernel trick假设我们有三维数据,两个点: ,此时想用 升维至九 features,如果要先把 和 都算出再算 计算量就 了,但如果我们这么算: ,这样一来一下子就变成在原三维空间的 计算了。而这个例子中简单地将 kernel 定义为 就完了。
过零点了,元旦快乐!
……
hmmm 最后本来想针对提问者背景再说两句然后发现是搞 CV 的应用数学博士大佬
那……欢迎大佬们补充指正评论,轻喷,感谢支持 T TFacebook AI Research (FAIR) | MoCo 原文
We hypothesize that such failure is caused by the rapidly changing encoder that reduces the key representations' consistency. We propose a momentum update to address this issue. Formally, denoting the parameters of as and those of as , we update by: . —— MoCo
Google Research Brain Team | MoVI 原文
In reinforcement learning, the state-action value function can be seen informally as a kind of gradient, as it gives an improvement direction for the policy. Hence, we propose to bring the concept of momentum to reinforcement learning by basically averaging q-values in a DP scheme. —— MoVI
MoVI 原文中对动量的定义
In optimization, a common strategy to stabilize the descent direction, known as momentum, is to average the successive gradients instead of considering the last one. —— MoVI
- ^Reinforcement Learning via Fenchel-Rockafellar Duality https://arxiv.org/abs/2001.01866
- ^abAlgaeDICE: Policy Gradient from Arbitrary Experience https://arxiv.org/abs/1912.02074
- ^abDualDICE: Behavior-Agnostic Estimation of Discounted Stationary Distribution Corrections https://arxiv.org/abs/1906.04733
- ^SOME METHODS OF SPEEDING UP THE CONVERGENCE OF ITERATION METHODS https://vsokolov.org/courses/750/files/polyak64.pdf
- ^Momentum Contrast for Unsupervised Visual Representation Learning https://arxiv.org/abs/1911.05722
- ^Momentum in Reinforcement Learning https://arxiv.org/abs/1910.09322
- ^What is the kernel trick? Why is it important? https://medium.com/@zxr.nju/what-is-the-kernel-trick-why-is-it-important-98a98db0961d
数学和人工智能在原理层面的联系不少。
比如神经网络的万有逼近定理,说的是足够宽的神经网络可以任意精度逼近连续函数,这就对于仿生的感知机拟合一般学习对象的特性,在数学原理上给了一个解释。
除了数据的连续性假设,在流形学习、压缩感知等低维学习中,还可以对于数据作“有效信息分布在低维”、“数据的结构,如样本点之间的距离,蕴含有效信息”等假设,从而建模利用数学理论进行分析。这些在人工智能领域(如常用的人脸识别算法的设计)有所应用。
其他从数学理论衍生出来、应用于机器学习的工作,还有基于最优输运理论的损失函数(WGAN中的wasserstein distance),基于动力系统的优化算法设计,基于信息论的“information bottleneck”、“maximal coding rate reduction”等,从原理上影响了有关领域。
最大似然估计 (maximum likelihood estimation, MLE)
MLE应该是所有上过入门统计课或者是机器学习课程的同学们都接触过的概念。其核心想法是在估计参数 时,寻找一个 值使我们观测到的数据的“可能性”最大化。对于一个有N个点IID分布的数据集,我们有 。
MLE有趣的地方在于这个看似简单直接的概念在其他的很多地方又以不同的形式反复出现,以下是几个常见的例子,也欢迎大家补充。
MLE与OLS
普通最小二乘法(ordinary least squares,OLS)是参数估计中的一个常用方法(尤其是在各种线性回归当中)。对于线性回归,OLS告诉我们 是最佳线性无偏估计量(the best linear unbiased estimator, BLUE)。我们假设参数 服从一个多元正态分布的时候(即 ), MLE与OLS的估计量(estimator)是相同的[1]。
MLE与贝叶斯推断(Bayesian Inference)
在统计推断当中,通过MLE得出来的估计量往往是被看做频率学派(frequentist)的方法。而当我们引入了先验分布,从贝叶斯的角度来看,在先验分布为均匀分布(uniform distribution)的时候,MLE其实等价于最大后验概率(maximum a posteriori estimation, MAP, 有时也称为most probable Bayesian estimator)。当这个先验分布为拉普拉斯分布的时候,我们便有了L1正则化(L1 regularization,在线性回归以及一些其他的拓展当中也称为Lasso)。当这个先验分布为正态分布的时候,我们便有了L2正则化(L2 regularization,有时也称为Ridge)。
MLE与KL散度
KL散度(Kullback-Leibler divergence, KL Divergence, KLD),也称为相对熵(relative entropy)或者信息增益(information gain),是在比较两个分布的相似性的时候的一个常用方法,也常常在深度学习的应用中作为一个优化的损失函数。对于两个离散分布P和Q,P相对于Q的KL Divergence定义为 。这个形式与对数似然函数值(log likelihood) 看起来非常相似。实际上,我们可以证明在给定数据的情况下估计参数 时,最大化似然函数等价于最小化KL散度[2]。
MLE与AIC和BIC
AIC全称为Akaike Information Criterion,最初是用来估计数据生成过程(data generating process)与拟合模型之间的KL散度的期望值,常常用于模型选择。其定义为 ,其中k是参数的数量,而L则是似然函数。显然,当参数数量k固定时, 可以最大化AIC。实际上,AIC也是基于KL散度的定义推广而来[3][4]。类似的,当我们把 这一项换为 我们便得到了Bayesian Information Criterion, BIC[5]。实际上,当在选择使用MLE估计模型的时候 ,AIC或者BIC都是常见模型选择标准。
顺便夹带私货插播一则关于AIC的小故事:
MLE与费希尔信息以及Cramer-Rao下界
我最初了解到Cramer-Rao下界(Cramer-Rao Lower Bound, CRLB)的时候是在本科的某节数理统计课上。CRLB说明了对于某个未知固定参数的无偏统计量(unbiased estimator),其方差不会小于其费希尔信息(Fisher information)的倒数。利用费希尔信息的定义,我们可以证明当数据趋近于无穷大的时候,MLE是的方差是可以达到这个下界的,并且其渐进采样分布(asymptotic sampling distribution)也是一个多元正态分布,即 。
- ^Hayashi, Fumio (2000). Econometrics. Princeton University Press. p49.
- ^Deep Learning Ch. 5 Machine Learning Basics. p128-129 https://www.deeplearningbook.org/contents/ml.html
- ^M. Mattheakis, P. Protopapas. CS 109A: Advanced Topics in Data Science: Model Selection & Information Criteria: Akaike Information Criterion https://harvard-iacs.github.io/2018-CS109A/a-sections/a-section-2/presentation/a-sec2-MLEtoAIC.pdf
- ^Akaike, H. (1973), "Information theory and an extension of the maximum likelihood principle", in Petrov, B. N.; Csáki, F. (eds.), 2nd International Symposium on Information Theory, Tsahkadsor, Armenia, USSR, September 2-8, 1971, Budapest: Akadémiai Kiadó,
- ^Friedman, Jerome, Trevor Hastie, and Robert Tibshirani. The elements of statistical learning. Springer series in statistics, 2016. p233
Recommend
About Joyk
Aggregate valuable and interesting links.
Joyk means Joy of geeK