

机器学习------令人头疼的正则化项
source link: http://mp.weixin.qq.com/s/RqvDEgLbVjNoEAVRzhIVLw
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

机器学习------令人头疼的正则化项
Original Edison_G 计算机视觉研究院 2017-11-23 09:18 Posted on
监督机器学习问题无非就是在规则化参数的同时最小化误差。最小化误差是为了让模型拟合训练数据,而规则化参数是防止模型过分拟合训练数据,但训练误差小并不是最终目标,最终目标是希望模型的测试误差小,也就是能准确的预测新的样本。所以需要保证模型“简单”的基础上最小化训练误差,这样得到的参数才具有好的泛化性能(也就是测试误差也小),而模型“简单”就是通过规则函数来实现的。
一般来说,监督学习可以看做最小化下面的目标函数:
(正则化代价函数)=(经验代价函数)+(正则化参数)X(正则化项)
第一项是衡量模型预测与实际的误差,因为要拟合训练样本,所以要求这一项最小,也就是要求模型尽量的拟合训练数据。但不仅要保证训练误差最小,更希望模型测试误差小,所以需要加上第二项去约束模型尽量的简单。
机器学习的大部分带参模型都和这个型很相似。其实大部分就是变换这两项。对于第一项Loss函数,如果是Square loss,那就是最小二乘了;如果是Hinge Loss,那就是著名的SVM了;如果是Exp-Loss,那就是 Boosting了;如果是log-Loss,那就是Logistic Regression了,等等。不同的loss函数,具有不同的拟合特性,这个也得就具体问题具体分析的。
L0范数
L0范数是指向量中非0的元素的个数。如果用L0范数来规则化一个参数矩阵W的话,就是希望W的大部分元素都是0,换句话说,让参数W是稀疏的。
但是一般稀疏都会想到L1范数,所以我来讲讲L1范数。
L1范数
L1范数是指向量中各个元素绝对值之和,也叫“稀疏规则算子”(Lasso Regularization)。
L1范数会使权值稀疏?
因为它是L0范数的最优凸近似。实际上,任何的规则化算子,如果它在的地方不可微,并且可以分解为一个“求和”的形式,那么这个规则化算子就可以实现稀疏。这说是这么说,W的L1范数是绝对值,|w|在w=0处是不可微,但这还是不够直观,所以需要和L2范数进行对比分析。
既然L0可以实现稀疏,为什么不用L0,而要用L1呢?
原因:一是因为L0范数很难优化求解(NP难问题),二是L1范数是L0范数的最优凸近似,而且它比L0范数要容易优化求解。
L2范数
L2范数:,在回归里面,它的回归叫“岭回归”(Ridge Regression),也叫它“权值衰减weight decay”。这用的很多,因为它的强大功效是改善机器学习里面一个非常重要的问题:过拟合。至于过拟合是什么,自己查查(O(∩_∩)O~~,很简单的知识点)。通俗的讲就是应试能力很强,实际应用能力很差。例如下图所示(来自Ng的course):
为什么L2范数可以防止过拟合?
L2范数是指向量各元素的平方和然后求平方根。为了让L2范数的规则项最小,可以使得W的每个元素都很小,都接近于0,但与L1范数不同,它不会让它等于0,而是接近于0,这里是有很大的区别。
而越小的参数说明模型越简单,越简单的模型则越不容易产生过拟合现象。为什么越小的参数说明模型越简单?原因:限制参数很小,实际上就限制了多项式某些分量的影响很小,这样就相当于减少参数个数。
总结:
通过L2范数,可以实现了对模型空间的限制,从而在一定程度上避免了过拟合。
Recommend
-
98
Android 开发,你遇上 Emoji 头疼吗? 2017年12月29日 03:16 · 阅读 13418 ...
-
48
Emoji 让你这么头疼,那 EmojiCompat 是如何解决它的? Original...
-
74
头疼链表?搞懂这18个斯坦福大学整理的和链表相关的问题,就再也不怕了 Original...
-
29
问与答 - @jiangwei2222 - 国内的软件环境我真特么服了,在家里每天帮我爸卸载各种流氓软件,卸载完过不了几天,各种电脑管家,各种日历,各种解压,各种 pdf 阅读器,又装上去了。每天屏幕密密麻麻都是弹窗广告。费尽心思,让他们看视频
-
54
版权声明:本文为 DLonng 原创文章,可以随意转载,但必须在明确位置注明出处! 之前学习了线性回归,逻辑回归和梯度下降法,今天学习的这个技术能够帮助我们训练的模型对未知的数据进行更好的预测 - 正则化技术! 快...
-
34
今日锦囊 特征锦囊:今天一起搞懂机器学习里的L1与L2正则化 今天我们来讲讲一个理论知识,也是老生常谈的内容,在模型开发相关岗位中出场率较高的,那就是L1与L2正则化了...
-
2
给令人头疼的内存和崩溃问题一个解决思路 - SwiftCafe 享受代码的乐趣 给令人头疼的内存和崩溃问题一个解决思路swift 发布于 2020年12月18日 内存问题 随着我们工程的体量增长,代码结构变得越来越复...
-
16
🔥关于各种快捷键令人头疼必须特地写篇文章一事 2020-12-25 技术栈 约 206 字...
-
7
machine learning笔记:机器学习中正则化的理解 发表于 2019-09-15 | 更新于: 2020-02-15 | 分类于 人工智能 |
-
9
MLE和MAP的关系之L1与L2正则化项 发表于 ...
About Joyk
Aggregate valuable and interesting links.
Joyk means Joy of geeK