PCA算法原理及实现(Python)
文章目录
- 一、基变换
- 二、数据降维
- 2.1 为什么要进行数据降维?
- 2.2 优化目标
- 三、PCA算法步骤
- 四、求解特征值、特征向量
- 4.1 特征值分解(ED)
- 4.2 奇异值分解(SVD)
- 五、Kernel PCA
- 六、Python代码
- 6.1 读取数据
- 6.2 PCA实现
- 6.3 运行结果
- 七、结论
一、基变换
成为一组基的唯一要求是:线性无关(非正交基也可以,但由于正交基有较好的性质,所以通常使用正交基。)
基变换的矩阵表示: 一般地,如果我们有M个N维向量,想将其变换为由R个N维向量表示的新空间中,那么首先将R个新基按行组成矩阵A,然后将向量按列组成矩阵B,那么两矩阵的乘积AB就是基变换的结果,其中AB的第m列为B中第m列变换后的结果,数学表示为:
( p 1 p 2 . . . p R ) ( a 1 a 2 . . . a M ) = ( p 1 a 1 p 1 a 2 ⋯ p 1 a M p 2 a 1 p 2 a 2 ⋯ p 2 a M ⋮ ⋮ ⋱ ⋮ p N a 1 p N a 2 ⋯ p N a M ) \begin{pmatrix} p_1\\p_2\\.\\.\\.\\p_R \end{pmatrix} \begin{pmatrix} a_1&a_2&...&a_M \end{pmatrix}= \begin{pmatrix} p_1a_1&p_1a_2&\cdots&p_1a_M\\ p_2a_1&p_2a_2&\cdots&p_2a_M\\ \vdots&\vdots&\ddots&\vdots\\ p_Na_1&p_Na_2&\cdots&p_Na_M \end{pmatrix} p1p2...pR (a1a2...aM)= p1a1p2a1⋮pNa1p1a2p2a2⋮pNa2⋯⋯⋱⋯p1aMp2aM⋮pNaM
其中,R决定了基变换后的数据维度,且R可以小于M,当R
