矩阵求导实际是属于微积分里的多元函数求极值的问题;
基本概念
;
注:多元函数的一阶导(对每个变量求偏导形成的向量)称为梯度,二阶导称为Hessian矩阵,二阶导里当函数f足够光滑时,有,此时Hessian矩阵为实对称矩阵,二阶导是指导数的导数;
最速下降法(梯度下降)
;
由来:一元方程中,用计算机求根时,常用于迭代法,对一元函数迭代的方向,只有左和右两个,分别对应于迭代的结果是大于0和小于0,但对多元函数时,对于函数上某点的迭代方向,由于该点的投影是一个平面,迭代的方向有无穷多个,因此需要找出最迭代最快的方向;
;
;
注:∈是迭代的步长,该步长应根据实际问题确定,为行向量和列向量的乘积,该乘积是一个数;
牛顿法(多元函数求极值)
;
多元函数的泰勒展开
;
;
正定(半正定)矩阵
;
;
;
;
注:正定(半正定)的条件是该二次多项式恒大于0,因此λi必须都大于0(当某一个λi小于0时,如果其它λ都等于0,则该多项式小于0);且当全部特征值λi全小于0时,该二次型矩阵为负定矩阵;
;
;
注:计算机中计算行列式比计算特征值要快,判定正定时用定理2优于定理1;
最小二乘法(线性回归)
;
注:算各离散点到线性函数f(x)的距离时,因该距离有正有负,且如果用绝对值的话,有些点可能不可导,计算会变得复杂,因此需要用平方;
;
;
注:上面的公式中应该是粗体,表示向量(如某组数据的某一行,如下图数据中的某一行),
也是粗体,是向量,
这里的w应该是w的转置wT,且该表达示表示
的L2范数的平方(平方的另一个作用:最小二乘算出来的是一个无偏估计);
;
;
;
注:岭回归中的λ不是特征值,只是一个常数,线性回归中的矩阵A如果不可逆时,算出的结果会不稳定,多次结果可能都不相同,此时需要用岭回归,岭回归计算的结果会更稳定,但结果不是无偏的;
无偏估计:无偏估计就是指通过数学模型算出来的预测值y*与真实值y的结果是一样的;
;
;
;