上一次修改时间:2018-07-07 23:41:03

矩阵求导

  1. 矩阵求导实际是属于微积分里的多元函数求极值的问题;

  2. 基本概念

    QQ图片20171120004800.png

    注:多元函数的一阶导(对每个变量求偏导形成的向量)称为梯度,二阶导称为Hessian矩阵,二阶导里当函数f足够光滑时,有image.png,此时Hessian矩阵为实对称矩阵,二阶导是指导数的导数

  3. 最速下降法(梯度下降)

    image.png

    由来:一元方程中,用计算机求根时,常用于迭代法,对一元函数迭代的方向,只有左和右两个,分别对应于迭代的结果是大于0和小于0,但对多元函数时,对于函数上某点的迭代方向,由于该点的投影是一个平面,迭代的方向有无穷多个,因此需要找出最迭代最快的方向;

    image.png

    image.png

    注:∈是迭代的步长,该步长应根据实际问题确定,image.png为行向量和列向量的乘积,该乘积是一个数;

  4. 牛顿法(多元函数求极值)

    QQ图片20171125003309.png

    多元函数的泰勒展开

    image.png

    image.png

    正定(半正定)矩阵

    image.png

    QQ图片20171125003726.png

    image.png

    image.png

    注:正定(半正定)的条件是image.png该二次多项式恒大于0,因此λi必须都大于0(当某一个λi小于0时,如果其它λ都等于0,则该多项式小于0);且当全部特征值λi全小于0时,该二次型矩阵为负定矩阵;

    image.png

    image.png

    image.png

    注:计算机中计算行列式比计算特征值要快,判定正定时用定理2优于定理1;

  5. 最小二乘法(线性回归)

    image.png

    注:算各离散点到线性函数f(x)的距离时,因该距离有正有负,且如果用绝对值的话,有些点可能不可导,计算会变得复杂,因此需要用平方;

    image.png;  

    image.png

    注:上面的公式中image.png应该是粗体,表示向量(如某组数据的某一行,如下图数据中的某一行),image.png也是粗体,是向量,image.png这里的w应该是w的转置wT,且该表达示表示image.png的L2范数的平方(平方的另一个作用:最小二乘算出来的是一个无偏估计);

    image.png

    image.png

    image.png

    注:岭回归中的λ不是特征值,只是一个常数,线性回归中的矩阵A如果不可逆时,算出的结果会不稳定,多次结果可能都不相同,此时需要用岭回归,岭回归计算的结果会更稳定,但结果不是无偏的; 

    无偏估计:无偏估计就是指通过数学模型算出来的预测值y*与真实值y的结果是一样的; 

    image.png

    image.png

    image.png;