4

防止过拟合的方式

 2 years ago
source link: https://ylhao.github.io/2018/05/21/232/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

防止过拟合的方式

创建时间:2018-05-21 14:01
字数:638 阅读:33

L1 正则项

一个含有 L1 正则项的损失(目标)函数通常为以下形式:
minωJ(ω,b)=12mm∑i=1l(ˆy(i),y(i))+λ2mn∑j=1∥ωj∥1minωJ(ω,b)=12m∑i=1ml(y(i)^,y(i))+λ2m∑j=1n‖ωj‖1

L2 正则项

一个含有 L2 正则项的损失(目标)函数通常为以下形式:
minωJ(ω,b)=12mm∑i=1l(ˆy(i),y(i))+λ2mn∑j=1∥ωj∥22minωJ(ω,b)=12m∑i=1ml(y(i)^,y(i))+λ2m∑j=1n‖ωj‖22

神经网络中的 L2 正则项

神经网络中每一层的参数 ωω 都对应一个矩阵。一个含有 L2 正则项神经网络的损失(目标)函数通常为以下的形式:
minωJ(ω[1],b[1],ω[2],b[2],…,ω[L],b[L])=12mm∑i=1l(ˆy(i),y(i))+λ2mL∑l=1∥ω[l]∥2FminωJ(ω[1],b[1],ω[2],b[2],…,ω[L],b[L])=12m∑i=1ml(y(i)^,y(i))+λ2m∑l=1L‖ω[l]‖F2

其中:
∥ω[l]∥2F=∑i∑j(ω[l]ij)2‖ω[l]‖F2=∑i∑j(ωij[l])2

也就是说 ∥ω[l]∥2F‖ω[l]‖F2 是神经网络中第 ll 层对应的权重矩阵的每个元素的平方和。

对正则项作用的总结

正则项的作用都是让权重趋于 0。所以也有人说这是权重衰减(Weight Deacy)。

Dropout 正则化

Dropout 正则化也叫随机反向失活,这里用一个例子来说明 Dropout 的原理。

假设神经网络的第三层有 5 个神经元,并假设第三层原来的输出为:

假设 keep_prob 为 0.8,我们随机生成一个与第三层输出对应的向量(这里为了表述方便,暂且叫随机失活向量),得到的向量可能为以下形式:

接着我们用这个随机失活向量对第三层原来的输出进行失活处理(两个向量对应位置相乘),第三层的输出变为:

之前的 Dropout 正则化处理到这一步也就结束,但是现在常用的 Dropout 正则化处理一般还都会进行下一步处理,就是用第三层的输出值再都除以 keep_prob 得到最后的输出:

Dropout 正则化的其它注意问题

  1. 测试(验证)阶段不再使用 Dropout
  2. 通常在计算机视觉领域 Dropout 用的比较多
  3. 假设某一层的 keep_prob 为 0.8,代表着这一层的每个神经元有 20% 的概率失活,而不是说这一层一定有 20% 的神经元失活。

其它的防止过拟合的方法

  1. 扩大训练集
  1. 深度学习工程师微专业 —— 吴恩达

转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达,可以在文章下方的评论区进行评论,也可以邮件至 [email protected]

文章标题:防止过拟合的方式

文章字数:638

本文作者:ylhao

发布时间:2018-05-21, 14:01:09

最后更新:2019-06-07, 11:50:53

原始链接:https://ylhao.github.io/2018/05/21/232/

版权声明: "署名-非商用-相同方式共享 4.0" 转载请保留原文链接及作者。

未找到相关的 Issues 进行评论

请联系 @ylhao 初始化创建


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK