上一次修改时间:2018-02-04 14:05:41

极大似然估计

  1. 概率模型和数据

    image.png

  2. IID样本

    image.png

  3. 参数估计

    image.png

  4. Outline

    image.png

  5. 似然函数

    image.png

    注:

    1)上面的IID样本X1,X2....XN为机器学习任务中,1到N的训练样本,xi则为训练样本对应的样本值,即根据样本值预测的目标函数值yi;

    2)极大似然估计是一种粗略的数学期望,如果要知道它的误差大小,就需要做区间估计;

    3)极大似然估计的思想:找到一个参数θ,使得在该参数下,样本值为image.png的概率最大(image.png为机器学习任务中,训练样本Xi的预测值yi);

  6. 极大似然估计

    image.png

  7. 负log似然可作为损失函数

    image.png

  8. 高斯分布的参数估计

    QQ图片20171213024241.png

    image.png

    注:一阶导数等于0的点只能保证该点为极值点,但上面的高斯分布的似然函数可以证明其二阶导是大于0的,是严格的凸函数,因此该一阶导等于0的点即为全局的最大值点;

    image.png

    QQ图片20171213025007.png

    image.png

  9. Bernoulli分布

    QQ图片20171213025718.png

  10. Binomial分布

    QQ图片20171213030401.png

  11. Multinoulli与Moltinomial

    QQ图片20171213030854.png

    image.png

  12. Bag of Words语言模型

    QQ图片20171213031308.png

    注:cat(θ)是分类分布,分类分布是多项分布的试验次数为1时的特殊情形;

    image.png

  13. 机器学习模型的参数估计------回归

    image.png

    注:ε就是噪声量,ε一般情况下会默认为高斯噪声; image.png该公式中,当x确定后,y的分布也为高斯分布,且均值为f(x)+0=f(x),方差则还为σ^2;


  14. 线性回归

    image.png

    注:截距项w0为线性函数中的常数项,通常对数据做了中心化的话,就可以忽略;数据中心化是将原始数据减去平均数,数据中心化可以解决多重共线的问题;

    image.png

    image.png

    image.png

    注:RSS中,image.png是预测值,image.png为实际的真值;image.png为噪声ε;上面的似然函数中,要使image.png最大,抛开固定项,使RSS最小即可(上面的RSS为L2损失,线性回归中L1损失同L2);

    MLE推导注:得到似然函数后,要求image.png的最大值,即求加上负号后的最小值,其中要求的变量为向量x

    image.png

    image.png

    注:image.png求得的w为最小二乘法;image.pngimage.png写成矩阵的形式(设矩阵X为一个m*n的矩阵,则X的平方为X的转置(n*m的矩阵) * X(m*n的矩阵));

    image.png

    注:大矩阵求逆是一个非常消耗计算资源的算法,因此当样本数N较大时,需用随机梯度下降;

    image.png

    image.png

    注:梯度下降是采用的跌代的方式,先给定一个初值,然后沿着负梯度的方向找到最小值;

    image.png

    image.png

    image.png

  15. Logistic回归

    image.png

    注:对Bernoulli分布,极大似然要求的参数只有一个,即均值image.png(和线性回归一样用均值image.png去预测y);

    image.png

    image.png

    注:神经网络中神经元的激活函数用的就是sigmoid函数;image.png为y=1的概率,image.png为y=0的概率;

    image.png

    image.png

    注:同线性回归,要求image.png最小时的w,但此处的w没有解析解,因此不能用最小二乘,只能用梯度下降和牛顿法;

    image.png

    image.png

    注:image.png为梯度的表达式;

    image.png

    注:以下为推导过程;

    image.png

    注:以下为image.png的推导;

    image.png

    注:以下为梯度下降法的总结;

    image.png

    image.png

    注:g(w)为一降导,H(w)为二阶导;

    image.png

    image.png

    image.png

    注:用牛顿法求极值点时,先将w的一阶导g(w)进行泰勒展开到一阶,image.png为f(x),image.png为泰勒展开中的一阶导,image.png为高阶无穷小;

    以下为加权的最小二乘; 

    image.png

    image.png

    image.png

  16. 朴素贝叶斯(Naive Bayes Classifier, NBC)

    image.png

    注:条件独立是指在给定y的情况下,各个x之间相互独立;

    image.png

    注:image.png条件独立是指在给定y(image.png)时,各个x的概率独立;image.png这个类条件分布会跟据分布的不同而不同;向量π是一个C维的向量,是指取某一类的先验概率;

    image.png

    注:似然函数中image.png为条件概率;πc的估计image.png(类先验)是指某c类样本在总样本中的比例,该比例就是π的极大似然估计;

    image.png

    image.png

    image.png

    注:类条件假为二值特征时,类条件就是一个伯努利分布;且对于每个y=c,都需要求一个伯努利分布的概率;

    image.png

    QQ图片20171216222542.png

    image.png;

    注:同二维特征image.png是指在给定c的情况下,取值k的样本的比例;

    image.png

    image.png

    http://scikit-learn.org/stable/modules/naive_bayes.html

    注:sklearn中的三种贝叶斯分布要求各维特征都是同一分布

    image.png

    QQ图片20171216223022.png;

  17. 估计量的评价标准

    image.png

    注:极大似然估计大多数情况下是无偏估计,在极大似然估计里参数θ是一个数值,但image.png是根据数据估计出来的,是随机变量;

  18. 极大似然估计的性质

    image.png

    image.png

    注:点估计是指image.png在极大似然估计中是确定的,比如说image.png给了一个0.3,它的值就确定了,没有不确定性的概念;

    image.png过拟合(过拟合通常是由于训练的样本数不够引起的)

    image.png

    注:过拟合解决方案标例:在统计词频时,如果某一个词一次都没有出现,就可以手动给它一个极小的数值,防止它为0;Titani数据中对于某些只有一个样本的可以和其它特征当成一个特征使用;在决策树中,一般会规定每个叶子节点最少得含有多少个样本,就是为了防止过拟合;

  19. 偏差------方差分解

    image.png

    注:均方误差是平方误差的平均值,MSE=偏差的平方+方差;偏差可以理解为估计的准确性,是指个别测定值与测定的平均值之差;例如有多批数据训练,每一批都会得到一个image.png,用多批的image.png减去其直值得到就是偏差;

    image.pngimage.pngQQ图片20171216235957.png

    注:从image.png可以看出伯努利的极大似然估计是无偏估计;

    image.png

    注:任何分布的极大似然估计,当样本数N趋向于无穷大时,都是渐近正态的,即可以用正态分布近似;

    image.png

    QQ图片20171217000540.png

    注:偏差度量的是函数f的学习能力,是指当样本的数量足够多时,预测与直值之间的差异;方差则是指有多批数据时,每批数据都会学到一个函数f,每个f和f的均值之差的平方,表示的数据的批数不同时,差异的变化程度;噪声描述了数据的纯净程度,当噪声过大时,任何学习算法都不能取得较好的效果;除了上面平方误差损失外,例如分类中的0-1损失,上面的表达式不会严格成立,但趋势是一样的;

    image.png

    image.png

    注:当模型的复杂度增高时,如用多项式来拟合下面的cos曲线,随着多项的阶数增高,曲线将会振荡得越来越厉害,即方差会越来越大(偏差随机模型复杂度的增长会一直减小);泛化误差为偏差+方差,通常会是一条U形曲线,因此取泛化误差曲线的取低点的模型就是最优模型

    image.png

    QQ图片20171217000739.png

    注:上图左边的红色曲线是每次拟合的曲线,右边红色曲线是左边曲线的均值,绿色曲红是真值;λ是正则参数,是模型复杂度的惩罚程度

    image.png

    image.png

    注:当样本数很多的时候,可以考虑适当的增加模型的复杂度(过拟合之前);

    image.png

  20. 极大似然估计的渐近正态性

    image.png

    image.png

    image.png

  21. Bootstrap

    image.png

    注:交叉验证就是Bootstrap的一个近似;

    image.png

    注:Bagging的基本思想是对数据进行Bootstrap采样,每次采样都去训练一个模型,多个模型的平均就是Bagging的结果,可以证明这样做可以减小模型方差,得到性能更好的模型;随机森林是用随机数来Bagging;

    image.png

    image.png

    image.png(代码思想)

    image.png

    image.png

    image.png