参数估计
;
注:频率学派中,极大似然估计的参数θ是一个数值,不是随机变量,也没有分布,但θ的预测值是有随机变量,可以讨论其分布,但
需要重复多批实验,每一批都会产生一个
的具体值;贝叶斯学派中,参数θ也是随机变量,可以讨论其分布;
大纲
;
贝叶斯估计
;
注:在极大似然估计中,求参数的方差(度量估计的不确定性)的三种方式:1)像伯努利分布那样的解析解;2)分析信息去计算;3)像Bootstrap采样那样,通过采样来计算;
;
;
注:因贝叶斯估计的参数估计是一个分布,有了分布后,可以直接算出期望、方差等信息,因此包含的信息更多,但贝叶斯先得设置一个先验,比如均匀先验,这会增加计算的负担;后验证预测里,用参数后验进行加权平均后,对参数θ积分,将θ直接积掉;
常见分布的贝叶斯估计
(伯努利分布和二项分布)
;
注:为了计算方便,参数θ的先验的形式最好与似然相同,该先验称为共轭先验;
;
;
注:红色的线为先验,黑色的线为似然,蓝色的线为后验;
;
注:MAP为点估计,是将代入众数
后得到的结果;
;
;
注:当样本数足够多,淹没了先验的时候,贝叶斯估计和极大似然估计相同;
;
注:贝叶斯估计中,有两批数据D1和D2,先训练D1得到一个模型,再在D1训练完后得到的模型的基础上再训练D2得到的模型,该模型和将D1和D2合在一起学习的模型是等价的;
;
(多项分布)
;
;
注:和伯努利分布一样,有了先验和似然后,可以计算后验;
;
;
注:上例的lamb词,为词典中词的总数10,N为序列里的单词数17,aj为先验1,Nj为lamb该单词的出现次数4;
;
线性回归
;
高斯先验
;
岭回归
;
;
注:上图中,左图为不加正则项的情况,右图为正则项的惩罚过多时的情况,中图为正则项的惩罚适中的情况,中图所示的模型可以由模型评估筛选出来;交叉验证里的超参数λ决定了惩罚的程度,通过交叉验证可以筛选出适中的λ;
;
Laplace先验(将线性回归中参数的先验设置为Laplace先验,下图中红色的线)
;
;
注:Lasso的正则项不是处处可导的,所以优化计算会更复杂;Laplace分布的最高点是不可导的;
贝叶斯Logistics回归
;
注:似然的sigm函数前面少了一个伯努利分布;
;
总结
;