1

范数正则化的原理分析(二):参数约束与最大熵原理

 2 years ago
source link: https://allenwind.github.io/blog/7576/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
Mr.Feng Blog

NLP、深度学习、机器学习、Python、Go

范数正则化的原理分析(二):参数约束与最大熵原理

最大熵原理角度看参数约束

统计约束与最大熵分布

概率分布p(x)p(x)若满足如下约束,

E[x]=μE[(x−μ)2]=σ2E⁡[x]=μE⁡[(x−μ)2]=σ2

那么,其最大熵分布为正太分布。通常参数以0为均值中心,因此E[x]=μ=0E⁡[x]=μ=0​。​

概率分布p(x)p(x)若满足如下约束,

E[|x−μ|]=bE⁡[|x−μ|]=b

那么,其最大熵分布为拉普拉斯分布。通常参数以0为均值中心,因此μ=0,E[|x|]=bμ=0,E⁡[|x|]=b。

这方面的详细内容见过去文章最大熵原理、最大熵约束与概率分布

最大熵视角

引入L1L1范数正则化的模型,相当于假设参数的先验分布为拉普拉斯分布,那么从最大熵分布的角度看,相当于要求参数满足约束E[|x|]=bE⁡[|x|]=b下熵最大的模型。

引入L2L2范数正则化的模型,相当于假设参数的先验分布为正态分布,那么从最大熵分布的角度看,相当于要求参数满足约束E[x]=μ,E[(x−μ)2]=σ2E⁡[x]=μ,E⁡[(x−μ)2]=σ2下熵最大的模型。

感觉未完,待续~

转载请包括本文地址:https://allenwind.github.io/blog/7576
更多文章请参考:https://allenwind.github.io/blog/archives/


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK