基础知识
矩阵Hadamard乘积:元素对应乘积,记为
两个向量点积满足交换律:
列向量线性相关的方阵被称为奇异阵(不可逆阵)
范数
机器学习中,经常使用被称为范数(norm)的函数来衡量向量的大小。形式上范数定义如下:
,其中
范数是将向量映射到非负值的函数,直观上讲,向量的范数衡量原点到点的距离。
范数具有以下性质:
当时,称为欧几里得范数,表示原点到点的欧几里得距离,在机器学习中,范数出现十分频繁,常简化表示为,省略下标2。
平方范数也经常用来衡量向量的大小,可以简单通过点积计算。
平方范数优点:
- 表达和计算更简便
- 对中每个元素的导数只取决于对应元素,而范数对每个元素倒数却于整个向量有关
缺点:在原点附近增长缓慢
在某些机器学习应用中,区分恰好是零和非零但很小是很重要的,这时我们常使用各位置斜率相同,而且简洁的范数。范数也经常作为表示非零元素数目的替代函数。
另外一个经常使用的范数是范数,也称为最大范数,这个范数表示向量中具有最大幅值元素的绝对值:
衡量矩阵大小,常用Frobenius范数:
特殊的矩阵和向量
- 对角矩阵
特点:- 矩阵乘法很方便
- 求逆很方便
- 对称矩阵:
- 单位向量
标准正交:在中,至多有n个范数非零向量正交,如这些向量不仅相互正交而且范数都为1,那么他们标准正交。 - 正交矩阵:
,其中为单位阵
求逆代价小。 正交矩阵的行向量不仅正交,而且标准正交。
特征分解
称为特征值,为对应的特征向量,若是的特征向量,那么任何缩放后的也是的特征向量,此外和有相同的特征值,故通常只考虑单位特征向量,设有个线性无关特征向量,对应特征值为,记,类似地,我们也可以将特征值连接成一个向量
可以分解为:
每个实对称矩阵都可以分解成实特征向量和实特征值。
其中是的特征向量组成的正交矩阵,\Lambda是对角矩阵,因为是正交矩阵,可以将看作沿方向延展倍的空间。
奇异值分解(SVD)
假设是一个mxn阵,是一个mxn阵,是一个nxn阵,其中, 都是正交阵,而是对角阵(不一定是方阵)。
对角阵的对角线上元素被称为矩阵的奇异值,矩阵的列向量被称为左奇异向量,的列向量被称为右奇异向量,事实上的左奇异向量是的特征向量,A的右奇异向量是的特征向量,的非零奇异值是特征值的平方根,同时也是的平方根。
Moore-Penrose伪逆
对非方阵,逆矩阵没有定义。
假设等式两边左乘左逆后,我们得到取决于问题的形式,可能无法设计一个唯一的映射将映射到。
Moore-Penrose伪逆:
矩阵A的伪逆:
实际中用下面公式:
其中矩阵, , 是奇异值分解后的矩阵,对角阵的伪逆是其非零元素取倒数之后再转置得到的。
主成分分析(PCA)
输入:n维样本集,要降维到n维 输出:降维后的样本集
- 对所有样本进行中心化
- 计算样本的协方差矩阵
- 求出协方差矩阵的特征值及对应的特征向量
- 将特征向量按对应特征值大小从上到下按行排列成矩阵,取前行组成矩阵
- 即为降维到k维后的数据