线性代数笔记

导言

线代大学时候就是噩梦，真的是学不明白，不知道行列式和矩阵，向量之间啥关系，感觉是3个独立的，又好像记得有联系。这个噩梦过去很多年后，突然发现，矩阵在机器学习里面很常用，比如PCA分析，黑森矩阵，协方差矩阵，正定啥的，一堆概念还得用线代的概念，不得不重新拾掇起来这些噩梦。

在B站上发现了下面的教程，好是赞噢，哥们讲的真是醍醐灌顶啊，几个小时的讲解完全秒杀几十个学时的大学时候的课程，难怪弹幕上的围观小伙伴纷纷表示，“我好像学了门假的线代”“幸好大学没有好好听线代（错过被老师虐死）”“膝盖都跪碎了”… … 。

把自己的心得写下来，留作自己阅读，看官如果看过这段视频，应该对以下内容很是会心；如果没有，看到也应该可以多少回忆起来一些线代噩梦；如果全无感，没关系，全都是我自己的喃喃自语。

B站线代神教学地址：http://www.bilibili.com/video/av6731067

线性组合和矩阵、线性变换

i,j都是长度为1，成为基向量，俩个不共线的向量通过线性组合可以张成整个空间， “线性相关”就是他可以被别人线性表达出来，一般共线（二维）或者共面（三维）的某个向量可以被其他向量线性表达出来，

向量空间的一组基：就是张成该空间的。

线性变化两个特点：

1、原点不变
2原始网格按比例缩放保持直线不能弯曲。

线性变化本质上就是把基向量i，j变化到到对应的新的点上，对应的整体坐标系发生变换。

a,c就是i(1,0)变换后的坐标，b,d就是j(0,1)变换后的坐标， [x,y]就是原有的向量，[ax+by, cx+dy]就是变换后的向量所以，矩阵本质是对一个变换的描述。

矩阵相乘，本质上就是复合变换，从右往左。

行列式

行列式本质是说，矩阵A表示的变换使得原来$i,j$围成的面积为1，变成了新变换后的基向量围成的面积是他的几倍。

当（二维）行列式为0时候，说明是讲整个平面压缩到了一个直线上，甚至一个点上。

行列式为负的时候，说明变换导致整个平面被反转了。

三维的时候，就是体积的缩放倍数，而正负表示$i,j,k$的顺序关系体现。

逆、秩、核

线性方程可以表示为，$AX=V$,其中$A$为系数，

这个方程的含义就是说，x向量通过$A$变换后，变成了$v$向量。

$A$变化后，在通过$A^{-1}$变换回去，就相当于又把基坐标变回了$i,j$

所以X求解就是$用A逆*V$：$ AX=V ==> A^-1*A*X = A^-1*X ==> I *X = A^-1*V X=A^-1 * V$

当然得看行列式 det(A)：

行列式非零（就是面积不为0），有唯一向量X，通过A变换可以到V。

行列式非零（就是面积为0），2维空间被压缩成线，如果V在这条线上，那有无穷多解，否则无解。

“秩”表示变换后的维度，比如矩阵$A$把2维一不小心变换到了1维，那A的秩就是1，否则就是2。

核：当非满秩情况下，$A$变换压低了空间维度，一定会有一些向量被压缩到原点上，比如2维中的一条直线上的向量，或者3维上的一个平面上的向量，这些向量的总体集合称作这个矩阵A的“零空间”或者 “核”(<==？？？核函数跟这个有关么)

非方阵矩阵

如果一个2维的向量，去乘以一个3行2列的矩阵，是什么含义？就是升维了，把这个2维向量转化到了3维空间，i变成了$（2，-1，2）^T$，就变成了$（0，1，1）^T$，但是，变到了3维，这些向量还是在由i/j变换后的2个基向量$[(2,-1,2),(0,1,1)]$组成的那个平面里。

反过来，1个3维向量乘以一个2行3列的矩阵，如何理解？那就是降维了，从3维变换到了2维空间里。

点乘

点乘（内积），就是一个向量在另外一个向量上的投影长度✖️另一个向量的长度，几何含义。投影到反方向延长线上，内积为负。当然也有0的时候，正交。

点乘看上去是两个向量之间的关系，但是可以换一个思路，就是把左面的向量看成一个变换矩阵了（不再是向量了），而右面的向量，按照变换，从给一个二维的向量，降维到第一个向量[1,-2]的对应的直线上，相当于做了一个降维。而内积就相当于，把[4,3]投影到了那个线段上后的一维向量。

高维的点乘，实际上还是把高维向量变换到一维空间上，比如$[2,3,-1,0] * [1,3,4,2]，[2,3,-1,0]$就是告诉后面4维度的基向量中的4个值分别转化到一维上的值分别是$2，3，-1，0$。

基变换、相似

$A^{-1} * P * A * v = v’$

这个就是基变化的过程，理解为：

v是jeniffer的世界里的向量，
A是把她的坐标变换成我们的世界的坐标，
P是在我们的世界做变换，

$A^{-1}$是把我们的世界变换回Jeniffer的世界，

最终，我们得到在Jeniffer的世界里，变换后的向量坐标。

（这里，把A不看做是一个变换，而是一个另一个变化后的空间的基的坐标，所谓你的世界）

基变换的意义在于你可以在一个你不好玩得开的一个世界的变换，带回到我们熟知的世界里耍，耍好了再变换回去即可。

上面的式子中，设$A^{-1} * P * A = B$，也就是B矩阵就是在另外一个空间的变换，那么这种情况叫做 P ~ B，P相似与B。

特征向量

特征向量就是做了变换后，并没有发生位移，只是在原始的方向上发生了伸缩的那些向量。伸缩的量就是特征值。

所以得出这个式子： $AV=\lambda *V$

$AV=\lambda*V$

$AV-\lambda*V=0$

$(A - \lambda*I) * V = 0$

把$A - \lambda*I$ 记做X的话，就变成 X*V = 0,

就是说V向量经过X变换后，成为了0向量，那么$|X|=0$，行列式为0啊，也就是说，X被变换成0向量了。

这个时候空间压缩会让行列式为0了，这样就导出计算$\lambda$值的方法，就是求行列式为零，

因为包含着$\lambda$为未知数，就得到了方程，解出$\lambda$就得到了特征值。

特征值得到后，带入。

特征向量可能会有多个，比如上面的例子，$\lambda$=2时候，特征向量会有无穷多个。

也可能不存在任何特征向量，比如就是单纯旋转，这个时候，没有哪个向量会呆着他伸缩的轨道上了。

在n维空间中,那单位n个单位向量能构成一个基.但,基不是唯一的,任何个数为n的线性无关向量组都能构成n维空间的一基.基向量不需要正交。

如果特征向量恰好可以作为一个向量空间的基，那么就可以用

上面中间的矩阵是一个变换，两边的矩阵A和A逆是这个夹在中间的这个矩阵的特征向量。

基向量逆 * 变换矩阵 * 基向量（同时也是特征向量） = 特征值的对角矩阵，这就是相似对角化！

矩阵本身的含义就是基向量变换后的坐标，

现在你把特征向量当做基向量，他在原空间（非特征向量为基的原来的那个空间）上的变换，这两个基就是简单地缩放（缩放比例为特征值）。

理解正定！！！！！！

其他资料

下面的内容是其他学习材料中的资料，也保存下来，方便记忆和理解。

矩阵

奇异矩阵：$|A|=0$,A为奇异矩阵

代数余子式：去掉指定元素所在i行,j列后的行列式的值,记做Mij

伴随矩阵：$A^*$，就是每个元素都是去掉这个元素所在i行,j列后的代数余子式：

$A_{ij}=(-1)^(i+j) *Mij$,

得到的这个矩阵还得转置一下，

$AxA*= A*xA=|A|xE$

初等矩阵：E经过1次变化得到的矩阵（三种，交换行；k乘以某行；k乘以某行然后加到另外一行）

$|A|=0$

矩阵行变换后，肯定有全0行，所以$|A|=0$

他作为齐次线性方程组组的系数矩阵的话，可以推出方程有N个非零解

秩$r(A)<n$, 直观上有全零行，非零行就是秩，所以不满秩

$|A|!=0$满秩，$r(A)=n$A可逆叫做非奇异矩阵

A的各行、各列组成的向量组线性无关 $Ax=4$，只有零解？？？？这个需要论证 $Ax=B$，有唯一解 A与E等价

矩阵相似 $P^{-1}AP = B$ ，A和B相似，相似比等价强
矩阵等价 $PAQ=B$ ，P、Q都是可逆的，A、B等价意味着A=>B（A经过初等变化可以得到B）表示成
矩阵正定 $X^T*A*X>0$ ，A为正定阵，>=0, 半正定；正定阵特征值都是正，对称阵是正定阵
矩阵可逆行列式$Det(A)=0$，就是可逆的。
矩阵合同 $P^TAP = B$ P可逆，A和B合同，合同比等价强，合同和相似没有任何关系（除非这个矩阵是正交矩阵），正交合同和
正交矩阵 $PP^T=E$ ，$P^{-1}=P^T$,正交矩阵的逆等于他的转置

逆矩阵

求法：

$A^{-1} = \frac{1}{|A|} x A^*$ 参考伴随矩阵的性质
做初等变化得到 $(A|E)=>(E| A^{-1} ) $, 原因是A可逆，A就是满秩的，满秩的就可以写成一系列初等矩阵的乘积（初等矩阵的性质）

极大线性无关组不唯一,

向量&向量空间

n维向量组成组成m行矩阵,如果矩阵秩$r(A)<m$,向量组线性相关;$r(A)=m$,向量组线性无关.(跟矩阵的线性无关判定一样)
向量组线性无关,向量组每人维度+1,她们之间还是线性无关.
向量组的等价:俩向量组彼此可以线性表示.
极大线性无关组的向量个数叫向量组的秩.
基: 指这样一个向量组,它可以表示向量空间的所有的向量,并且他们之间线性无关.
也就是极大线性无关组,个数就是组成矩阵的秩.
如何求秩\基\极大线性无关组: 是把向量按照”列!”方式码放,然后做行变化,化成梯形阵, 或者按照”行!”方式码放,然后做列变化,化成梯形阵, 向量组的任意两个极大线性无关组包含向量个数相等. 等价向量组的秩相同.

二次型，是由高中的二元二次方程，大学的三元二次方程（曲面），的推广到N元。它可以拆成 X(T)AX的样子 A可以存在多个，但是对称的只有一个，这样二次型的矩阵就是指这个对称矩阵A, 这个矩阵是对称阵, 这个矩阵的秩就被叫做二次型的秩, 正定性: $f(x)=X^t * A * X >0$, 判定:all特征值>0 半正定: $f(x)=X(t) * A * X>=0$,判定:all特征值>=0

对角阵：对角线上元素不全为0，其他位置都是0 标准型：就是左上角是单位阵的矩阵,其余字块都是0的分块矩阵行最简形矩阵:使用行变化化成最最简单的矩阵形式,(参见线性方程组第一讲) 对角化: 把一个矩阵化成一个对角阵,$P^{-1} * A * P= V$(特征值组成的对角阵), 条件是, A有N个特征值,对应特征向量线性无关正交矩阵

特征向量

$AX=lambda*X$

$\lambda$是特征值,$X$是特征向量,

一个矩阵和向量的结果,居然变成了一个常数乘以向量,感觉用一个数表示了A一样,所以$\lambda$是$A$的特征值.

$|A-\lambda*I|=0$,行列式为0,可以求出$\lambda$, 不同特征值对应的特征向量彼此线性无关,也就是彼此无法线性表出求特征值和特征向量的方法:$|A - \lambda * E | = 0$,解出$\lambda$,然后$(A-\lambda E)X=0$,所有的X都是特征向量.

若A 与B 行等价，则A 与B 的行秩相等

实对称阵的一些性质：

1.实对称矩阵A的不同特征值对应的特征向量是正交的。

2.实对称矩阵A的特征值都是实数，特征向量都是实向量。

3.n阶实对称矩阵A必可对角化，且相似对角阵上的元素即为矩阵本身特征值。

矩阵A可逆 ==> 矩阵A的列向量是此空间的一组基，也就是她们之间线性无关

矩阵A是正交矩阵 ==> 矩阵A的列向量是此空间的一组标准正交基（注意是标准正交基，也就是Ri的模为1）。

线性方程组求解:

求法是把矩阵化成最简型,然后确定自由变量,然后分解出通解!

相似对角化

参考1，参考2，参考3

相似对角化，目的是为了把一个矩阵变换成一个对角阵：

$Q^{-1} A Q = \Lambda $ , 其中 $\Lambda是一个对角阵，对角线上是特征是\lambda_i$。

这个Q怎么求呢？实际上，就是每个$\lambda_i$对应的特征向量们，合体成的矩阵Q。

不是所有的A都能这样对角化，得有n个特征值的A，才可以真么玩。

接下来的问题是：干嘛要对角化呢？有啥好处呢？

【实对称阵的相似对角化】

如果是实对称阵，那么，它肯定是正定的，他有个性质：

$Q^{-1} A Q = Q^T A Q = \Lambda$

这个时候，矩阵A与$Q^{-1} A Q$ 的关系，被叫做正交相似。

施密特正交化

说白了就是根据一组线性无关的向量组，如何计算出一组正交的线性无关向量组。玩法如下：

就是先把其中一个向量当做第一个正交向量，

然后第二个正交向量求法是，用第二个向量减去第二个向量在第一个向量（也就是正交向量）的投影向量，即可。

但是求第三个时候，得用第三个向量减去它在前两个求出来的基向量上的投影向量，即可得出。

后面以此类推，每次越减越多，直到最后一个。

这样就得到了一组正交基，如果是标准正交基的话，再对她们进行单位化（分别除以自己的模）。

PCA

PCA干嘛用的呢？

我的理解就是降维，当维度比较高的时候，就通过它把维度降下来。比如一个图像200x200，其实上是40000维度，但是通过PCA得到相关的维度可能只为100维度，大大降低数据维度。

总结一下PCA算法步骤：设有m条n维数据。

1）将原始数据按列组成n行m列矩阵X
2）将X的每一行（代表一个属性字段）进行零均值化，即减去这一行的均值
3）求出协方差矩阵
4）求出协方差矩阵的特征值及对应的特征向量
5）将特征向量按对应特征值大小从上到下按行排列成矩阵，取前k行组成矩阵P
6）Y=PX即为降维到k维后的数据

注意！！！

矩阵P是由C的特征向量组成的，而且是由比较大的特征值对应的向量组成的。
这个特征向量已经是完全和之前的特征值无关的了，之前是40000维度哈，现在呢，只是k了，这k可不是从40000里跳出来的，而是完全没关系的，只是通过特征值分解得到的了。
另外，特征值得出的所依赖的矩阵C，也不是原始的X，是X和他转置相乘的结果，是一个对称阵（对称阵才可以得到正定的特征值），而且X也不是原来的我，而是均值化的了，我早已不是我了
总而言之，整个数学变化，就是为了得到对应的特征向量

参考

http://www.cnblogs.com/zhanjxcom/p/4119509.html

http://blog.codinglabs.org/articles/pca-tutorial.html

涉及到概念：

实对称矩阵的对角化：小象的数学《5.2实对称矩阵的对角化》

SVD分解小象学院的《课时9 视频4 矩阵和线性代数》