上一次修改时间:2017-12-18 03:52:06

贝叶斯估计

  1. 参数估计

    image.png

    注:频率学派中,极大似然估计的参数θ是一个数值,不是随机变量,也没有分布,但θ的预测值image.png是有随机变量,可以讨论其分布,但image.png需要重复多批实验,每一批都会产生一个image.png的具体值;贝叶斯学派中,参数θ也是随机变量,可以讨论其分布;

  2. 大纲

    image.png

  3. 贝叶斯估计

    image.png

    注:在极大似然估计中,求参数的方差(度量估计的不确定性)的三种方式:1)像伯努利分布那样的解析解;2)分析信息去计算;3)像Bootstrap采样那样,通过采样来计算;

    QQ图片20171217034342.png

    image.png

    注:因贝叶斯估计的参数估计是一个分布,有了分布后,可以直接算出期望、方差等信息,因此包含的信息更多,但贝叶斯先得设置一个先验,比如均匀先验,这会增加计算的负担;后验证预测里,用参数后验进行加权平均后,对参数θ积分,将θ直接积掉

  4. 常见分布的贝叶斯估计

    image.png(伯努利分布和二项分布)

    image.png;

    注:为了计算方便,参数θ的先验的形式最好与似然相同,该先验称为共轭先验;

    image.png

    image.png

    QQ图片20171217035821.png

    注:红色的线为先验,黑色的线为似然,蓝色的线为后验;

    image.png

    image.png

    注:MAP为点估计,是将image.png代入众数image.png后得到的结果;

    image.png

    image.png

    image.png

    image.png

    注:当样本数足够多,淹没了先验的时候,贝叶斯估计和极大似然估计相同;

    image.png

    image.png

    注:贝叶斯估计中,有两批数据D1和D2,先训练D1得到一个模型,再在D1训练完后得到的模型的基础上再训练D2得到的模型,该模型和将D1和D2合在一起学习的模型是等价的;

    image.png

    image.png

    image.png(多项分布)

    image.png

    image.png

    image.png

    注:和伯努利分布一样,有了先验和似然后,可以计算后验;

    image.png

    image.png

    image.png

    image.png

    注:上例的lamb词,image.png为词典中词的总数10,N为序列里的单词数17,aj为先验1,Nj为lamb该单词的出现次数4;

    image.png

    image.png

  5. 线性回归

    image.png

  6. 高斯先验

    image.png

  7. 岭回归

    image.png

    image.png

    image.png

    注:上图中,左图为不加正则项的情况,右图为正则项的惩罚过多时的情况,中图为正则项的惩罚适中的情况,中图所示的模型可以由模型评估筛选出来;交叉验证里的超参数λ决定了惩罚的程度,通过交叉验证可以筛选出适中的λ

    image.png

  8. Laplace先验(将线性回归中参数的先验设置为Laplace先验,下图中红色的线)

    image.png

    image.png

    注:Lasso的正则项不是处处可导的,所以优化计算会更复杂;Laplace分布的最高点是不可导的;

  9. 贝叶斯Logistics回归

    image.png

    注:似然的sigm函数前面少了一个伯努利分布;

    image.png

    image.png

  10. 总结

    image.png