8

PCA - 主成分分析法

 3 years ago
source link: https://ai.renyuzhuo.cn/article/2021/01/18/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
PCA - 主成分分析法 - RAIS | Blog

什么叫做主成分分析法,我们先看一张图椭圆的图,如果让你找一条线,使得椭圆上所有点在该线上映射的点最分散,保留下来的信息最多,你会怎么选择这条线?若是下图,会选择水平线,这是用一维的方式去尽可能多的表示二维的数据,那么多维的数据呢,是否可以用较低维的数据尽可能表示。

m17

如何用二维的平面去尽可能表示一个椭球面呢?

m17

主成分分析法是一种统计方式,简化数据的方式,是一种线性变换,把数据变换到新的坐标系中,使得任意投影的第一大方差映射到第一主成分上,第二大方差映射到第二主成分上。如果舍弃高维的主成分,一般可以达到保留对方差贡献最大的特征,在一些方面上,可以保留数据的主要特征,当然,为了数据更好看,我们会把坐标轴的中心移到数据的中心,这可以让数据处理起来更方便。

高斯分布

在数学上,我们用 L2L2 范数的平方(L2L2范数的平方与其本身在相同位置取得最小值,单调递增,性质更好)来计算,x 为输入,c∗c∗ 为最优编码:

c∗=(L2)2=argminc||x−g©||22=(x−g©)T(x−g©)=xTx−2xTg©+g©Tg©=argminc−2xTDc+cTIlc(其中c=f(x),g©=Dc)∴∇c(−2xTDc+cTc)=0c=f(x)=DTxc∗=(L2)2=argminc||x−g©||22=(x−g©)T(x−g©)=xTx−2xTg©+g©Tg©=argminc−2xTDc+cTIlc(其中c=f(x),g©=Dc)∴∇c(−2xTDc+cTc)=0c=f(x)=DTx

由上可知,若要得到c只需要一个矩阵乘法。定义重构操作:

r(x)=g(f(x))=DDTxD∗=argminD∑i,j(x(i)j−r(x(i))j)2−−−−−−−−−−−−−−−√其中DTD=Ilr(x)=g(f(x))=DDTxD∗=argminD∑i,j(xj(i)−r(x(i))j)2其中DTD=Il

经过复杂的 推导,用数学归纳法可以证明,矩阵 D 可以由前 XTXXTX 的前 ll 个最大的特征值对应的特征向量组成。

主成分分析法主要用于数据降维,目标为尽量减少原数据的损失的情况下,尽可能减少数据量。


wechat_ercode.png




About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK