防止过拟合的方式

创建时间:2018-05-21 14:01

字数:638 阅读:33

L1 正则项

一个含有 L1 正则项的损失（目标）函数通常为以下形式：
minωJ(ω,b)=12mm∑i=1l(ˆy(i),y(i))+λ2mn∑j=1∥ωj∥1minωJ(ω,b)=12m∑i=1ml(y(i)^,y(i))+λ2m∑j=1n‖ωj‖1

L2 正则项

一个含有 L2 正则项的损失（目标）函数通常为以下形式：
minωJ(ω,b)=12mm∑i=1l(ˆy(i),y(i))+λ2mn∑j=1∥ωj∥22minωJ(ω,b)=12m∑i=1ml(y(i)^,y(i))+λ2m∑j=1n‖ωj‖22

神经网络中的 L2 正则项

神经网络中每一层的参数 ωω 都对应一个矩阵。一个含有 L2 正则项神经网络的损失（目标）函数通常为以下的形式：
minωJ(ω[1],b[1],ω[2],b[2],…,ω[L],b[L])=12mm∑i=1l(ˆy(i),y(i))+λ2mL∑l=1∥ω[l]∥2FminωJ(ω[1],b[1],ω[2],b[2],…,ω[L],b[L])=12m∑i=1ml(y(i)^,y(i))+λ2m∑l=1L‖ω[l]‖F2

其中：
∥ω[l]∥2F=∑i∑j(ω[l]ij)2‖ω[l]‖F2=∑i∑j(ωij[l])2

也就是说 ∥ω[l]∥2F‖ω[l]‖F2 是神经网络中第 ll 层对应的权重矩阵的每个元素的平方和。

对正则项作用的总结

正则项的作用都是让权重趋于 0。所以也有人说这是权重衰减（Weight Deacy）。

Dropout 正则化

Dropout 正则化也叫随机反向失活，这里用一个例子来说明 Dropout 的原理。

假设神经网络的第三层有 5 个神经元，并假设第三层原来的输出为:

假设 keep_prob 为 0.8，我们随机生成一个与第三层输出对应的向量（这里为了表述方便，暂且叫随机失活向量），得到的向量可能为以下形式：

接着我们用这个随机失活向量对第三层原来的输出进行失活处理（两个向量对应位置相乘），第三层的输出变为：

之前的 Dropout 正则化处理到这一步也就结束，但是现在常用的 Dropout 正则化处理一般还都会进行下一步处理，就是用第三层的输出值再都除以 keep_prob 得到最后的输出：

Dropout 正则化的其它注意问题

测试（验证）阶段不再使用 Dropout
通常在计算机视觉领域 Dropout 用的比较多
假设某一层的 keep_prob 为 0.8，代表着这一层的每个神经元有 20% 的概率失活，而不是说这一层一定有 20% 的神经元失活。

其它的防止过拟合的方法

扩大训练集

深度学习工程师微专业 —— 吴恩达

转载请注明来源，欢迎对文章中的引用来源进行考证，欢迎指出任何有错误或不够清晰的表达，可以在文章下方的评论区进行评论，也可以邮件至 [email protected]

赏

文章标题:防止过拟合的方式

文章字数:638

本文作者:ylhao

发布时间:2018-05-21, 14:01:09

最后更新:2019-06-07, 11:50:53

原始链接:https://ylhao.github.io/2018/05/21/232/

未找到相关的 Issues 进行评论

请联系 @ylhao 初始化创建

防止过拟合的方式

防止过拟合的方式

L1 正则项

L2 正则项

神经网络中的 L2 正则项

对正则项作用的总结

Dropout 正则化

Dropout 正则化的其它注意问题

其它的防止过拟合的方法

Recommend

Announcing OpenZeppelin Contracts for Cairo

从 Notion 导出 markdown 到 hugo 项目

Kaldi中的decoder(一）- 基础和viterbi解码

「探秘海螺沟①」何为“四川好水”？来听顶流科考专家的答案

The first “Meta Store” is opening in California in May

D1net阅闻：440亿美元！Twitter董事会接受马斯克收购要约

对常见的激活函数的总结

决策树算法（一）

【链向FM】Moonbirds发布筑巢 v0.5版本，币安现已支持Polygon链上USDC和USDT存取款

Amazon Go: Inside the new cashierless store moving in to the suburbs

About Joyk