NLP、深度学习、机器学习、Python、Go

范数正则化的原理分析（二）：参数约束与最大熵原理

最大熵原理角度看参数约束

统计约束与最大熵分布

概率分布p(x)p(x)若满足如下约束，

E[x]=μE[(x−μ)2]=σ2E⁡[x]=μE⁡[(x−μ)2]=σ2

那么，其最大熵分布为正太分布。通常参数以0为均值中心，因此E[x]=μ=0E⁡[x]=μ=0。

概率分布p(x)p(x)若满足如下约束，

E[|x−μ|]=bE⁡[|x−μ|]=b

那么，其最大熵分布为拉普拉斯分布。通常参数以0为均值中心，因此μ=0,E[|x|]=bμ=0,E⁡[|x|]=b。

引入L1L1范数正则化的模型，相当于假设参数的先验分布为拉普拉斯分布，那么从最大熵分布的角度看，相当于要求参数满足约束E[|x|]=bE⁡[|x|]=b下熵最大的模型。

引入L2L2范数正则化的模型，相当于假设参数的先验分布为正态分布，那么从最大熵分布的角度看，相当于要求参数满足约束E[x]=μ,E[(x−μ)2]=σ2E⁡[x]=μ,E⁡[(x−μ)2]=σ2下熵最大的模型。

感觉未完，待续~