概率模型和数据
;
IID样本
;
参数估计
;
Outline
;
似然函数
;
注:
1)上面的IID样本X1,X2....XN为机器学习任务中,1到N的训练样本,xi则为训练样本对应的样本值,即根据样本值预测的目标函数值yi;
2)极大似然估计是一种粗略的数学期望,如果要知道它的误差大小,就需要做区间估计;
3)极大似然估计的思想:找到一个参数θ,使得在该参数下,样本值为的概率最大(
为机器学习任务中,训练样本Xi的预测值yi);
极大似然估计
;
负log似然可作为损失函数
;
高斯分布的参数估计
;
;
注:一阶导数等于0的点只能保证该点为极值点,但上面的高斯分布的似然函数可以证明其二阶导是大于0的,是严格的凸函数,因此该一阶导等于0的点即为全局的最大值点;
;
Bernoulli分布
;
Binomial分布
;
Multinoulli与Moltinomial
;
;
Bag of Words语言模型
;
注:cat(θ)是分类分布,分类分布是多项分布的试验次数为1时的特殊情形;
;
机器学习模型的参数估计------回归
;
注:ε就是噪声量,ε一般情况下会默认为高斯噪声; 该公式中,当x确定后,y的分布也为高斯分布,且均值为f(x)+0=f(x),方差则还为σ^2;
线性回归
;
注:截距项w0为线性函数中的常数项,通常对数据做了中心化的话,就可以忽略;数据中心化是将原始数据减去平均数,数据中心化可以解决多重共线的问题;
;
;
注:RSS中,是预测值,
为实际的真值;
为噪声ε;上面的似然函数中,要使
最大,抛开固定项,使RSS最小即可(上面的RSS为L2损失,线性回归中L1损失同L2);
MLE推导注:得到似然函数后,要求的最大值,即求加上负号后的最小值,其中要求的变量为向量x;
;
注:求得的w为最小二乘法;
为
写成矩阵的形式(设矩阵X为一个m*n的矩阵,则X的平方为X的转置(n*m的矩阵) * X(m*n的矩阵));
;
注:大矩阵求逆是一个非常消耗计算资源的算法,因此当样本数N较大时,需用随机梯度下降;
;
注:梯度下降是采用的跌代的方式,先给定一个初值,然后沿着负梯度的方向找到最小值;
;
Logistic回归
;
注:对Bernoulli分布,极大似然要求的参数只有一个,即均值(和线性回归一样用均值
去预测y);
;
注:神经网络中神经元的激活函数用的就是sigmoid函数;为y=1的概率,
为y=0的概率;
;
注:同线性回归,要求最小时的w,但此处的w没有解析解,因此不能用最小二乘,只能用梯度下降和牛顿法;
;
注:为梯度的表达式;
;
注:以下为推导过程;
;
注:以下为的推导;
;
注:以下为梯度下降法的总结;
;
注:g(w)为一降导,H(w)为二阶导;
;
;
注:用牛顿法求极值点时,先将w的一阶导g(w)进行泰勒展开到一阶,为f(x),
为泰勒展开中的一阶导,
为高阶无穷小;
以下为加权的最小二乘;
;
;
朴素贝叶斯(Naive Bayes Classifier, NBC)
;
注:条件独立是指在给定y的情况下,各个x之间相互独立;
;
注:条件独立是指在给定y(
)时,各个x的概率独立;
这个类条件分布会跟据分布的不同而不同;向量π是一个C维的向量,是指取某一类的先验概率;
;
注:似然函数中为条件概率;πc的估计
(类先验)是指某c类样本在总样本中的比例,该比例就是π的极大似然估计;
;
注:类条件假为二值特征时,类条件就是一个伯努利分布;且对于每个y=c,都需要求一个伯努利分布的概率;
;
注:同二维特征是指在给定c的情况下,取值k的样本的比例;
http://scikit-learn.org/stable/modules/naive_bayes.html
注:sklearn中的三种贝叶斯分布要求各维特征都是同一分布;
;
估计量的评价标准
;
注:极大似然估计大多数情况下是无偏估计,在极大似然估计里参数θ是一个数值,但是根据数据估计出来的,是随机变量;
极大似然估计的性质
;
;
注:点估计是指在极大似然估计中是确定的,比如说
给了一个0.3,它的值就确定了,没有不确定性的概念;
过拟合(过拟合通常是由于训练的样本数不够引起的)
;
注:过拟合解决方案标例:在统计词频时,如果某一个词一次都没有出现,就可以手动给它一个极小的数值,防止它为0;Titani数据中对于某些只有一个样本的可以和其它特征当成一个特征使用;在决策树中,一般会规定每个叶子节点最少得含有多少个样本,就是为了防止过拟合;
偏差------方差分解
;
注:均方误差是平方误差的平均值,MSE=偏差的平方+方差;偏差可以理解为估计的准确性,是指个别测定值与测定的平均值之差;例如有多批数据训练,每一批都会得到一个,用多批的
减去其直值得到就是偏差;
;
;
注:从可以看出伯努利的极大似然估计是无偏估计;
;
注:任何分布的极大似然估计,当样本数N趋向于无穷大时,都是渐近正态的,即可以用正态分布近似;
;
注:偏差度量的是函数f的学习能力,是指当样本的数量足够多时,预测与直值之间的差异;方差则是指有多批数据时,每批数据都会学到一个函数f,每个f和f的均值之差的平方,表示的数据的批数不同时,差异的变化程度;噪声描述了数据的纯净程度,当噪声过大时,任何学习算法都不能取得较好的效果;除了上面平方误差损失外,例如分类中的0-1损失,上面的表达式不会严格成立,但趋势是一样的;
;
注:当模型的复杂度增高时,如用多项式来拟合下面的cos曲线,随着多项的阶数增高,曲线将会振荡得越来越厉害,即方差会越来越大(偏差随机模型复杂度的增长会一直减小);泛化误差为偏差+方差,通常会是一条U形曲线,因此取泛化误差曲线的取低点的模型就是最优模型;
;
注:上图左边的红色曲线是每次拟合的曲线,右边红色曲线是左边曲线的均值,绿色曲红是真值;λ是正则参数,是模型复杂度的惩罚程度;
;
注:当样本数很多的时候,可以考虑适当的增加模型的复杂度(过拟合之前);
;
极大似然估计的渐近正态性
;
;
Bootstrap
;
注:交叉验证就是Bootstrap的一个近似;
;
注:Bagging的基本思想是对数据进行Bootstrap采样,每次采样都去训练一个模型,多个模型的平均就是Bagging的结果,可以证明这样做可以减小模型方差,得到性能更好的模型;随机森林是用随机数来Bagging;
;
(代码思想)
;
;