上一次修改时间：2018-02-04 14:05:41

极大似然估计

概率模型和数据
；
IID样本
；
参数估计
；
Outline
；
似然函数
；
注：
1）上面的IID样本X1,X2....XN为机器学习任务中，1到N的训练样本，xi则为训练样本对应的样本值，即根据样本值预测的目标函数值yi；
2）极大似然估计是一种粗略的数学期望，如果要知道它的误差大小，就需要做区间估计；
3）极大似然估计的思想：找到一个参数θ，使得在该参数下，样本值为的概率最大(为机器学习任务中，训练样本Xi的预测值yi)；
极大似然估计
；
负log似然可作为损失函数
；
高斯分布的参数估计
；
；
注：一阶导数等于0的点只能保证该点为极值点，但上面的高斯分布的似然函数可以证明其二阶导是大于0的，是严格的凸函数，因此该一阶导等于0的点即为全局的最大值点；
；
Bernoulli分布
；
Binomial分布
；
Multinoulli与Moltinomial
；
；
Bag of Words语言模型
；
注：cat(θ)是分类分布，分类分布是多项分布的试验次数为1时的特殊情形；
；
机器学习模型的参数估计------回归
；
注：ε就是噪声量，ε一般情况下会默认为高斯噪声；该公式中，当x确定后，y的分布也为高斯分布，且均值为f(x)+0=f(x)，方差则还为σ^2；
线性回归
；
注：截距项w0为线性函数中的常数项，通常对数据做了中心化的话，就可以忽略；数据中心化是将原始数据减去平均数，数据中心化可以解决多重共线的问题；
；
；
注：RSS中，是预测值，为实际的真值；为噪声ε；上面的似然函数中，要使最大，抛开固定项，使RSS最小即可(上面的RSS为L2损失，线性回归中L1损失同L2)；
MLE推导注：得到似然函数后，要求的最大值，即求加上负号后的最小值，其中要求的变量为向量x;
；
注：求得的w为最小二乘法；为写成矩阵的形式(设矩阵X为一个m*n的矩阵，则X的平方为X的转置(n*m的矩阵) * X(m*n的矩阵))；
；
注：大矩阵求逆是一个非常消耗计算资源的算法，因此当样本数N较大时，需用随机梯度下降；
；
注：梯度下降是采用的跌代的方式，先给定一个初值，然后沿着负梯度的方向找到最小值；
；
；
Logistic回归
；
注：对Bernoulli分布，极大似然要求的参数只有一个，即均值(和线性回归一样用均值去预测y)；
；
注：神经网络中神经元的激活函数用的就是sigmoid函数；为y=1的概率，为y=0的概率；
；
注：同线性回归，要求最小时的w，但此处的w没有解析解，因此不能用最小二乘，只能用梯度下降和牛顿法；
；
注：为梯度的表达式；
；
注：以下为推导过程；
；
注：以下为的推导；
；
注：以下为梯度下降法的总结；
；
注：g(w)为一降导，H(w)为二阶导；
；
；
注：用牛顿法求极值点时，先将w的一阶导g(w)进行泰勒展开到一阶，为f(x)，为泰勒展开中的一阶导，为高阶无穷小；
以下为加权的最小二乘；
；
；
朴素贝叶斯(Naive Bayes Classifier, NBC)
;
注：条件独立是指在给定y的情况下，各个x之间相互独立；
;
注：条件独立是指在给定y()时，各个x的概率独立；这个类条件分布会跟据分布的不同而不同；向量π是一个C维的向量，是指取某一类的先验概率；
;
注：似然函数中为条件概率；πc的估计(类先验)是指某c类样本在总样本中的比例，该比例就是π的极大似然估计；
;
注：类条件假为二值特征时，类条件就是一个伯努利分布；且对于每个y=c，都需要求一个伯努利分布的概率；
;
注：同二维特征是指在给定c的情况下，取值k的样本的比例；
http://scikit-learn.org/stable/modules/naive_bayes.html
注：sklearn中的三种贝叶斯分布要求各维特征都是同一分布；
;
估计量的评价标准
；
注：极大似然估计大多数情况下是无偏估计，在极大似然估计里参数θ是一个数值，但是根据数据估计出来的，是随机变量；
极大似然估计的性质
；
；
注：点估计是指在极大似然估计中是确定的，比如说给了一个0.3，它的值就确定了，没有不确定性的概念；
过拟合(过拟合通常是由于训练的样本数不够引起的)
；
注：过拟合解决方案标例：在统计词频时，如果某一个词一次都没有出现，就可以手动给它一个极小的数值，防止它为0；Titani数据中对于某些只有一个样本的可以和其它特征当成一个特征使用；在决策树中，一般会规定每个叶子节点最少得含有多少个样本，就是为了防止过拟合；
偏差------方差分解
；
注：均方误差是平方误差的平均值，MSE=偏差的平方+方差；偏差可以理解为估计的准确性，是指个别测定值与测定的平均值之差；例如有多批数据训练，每一批都会得到一个，用多批的减去其直值得到就是偏差；
；；
注：从可以看出伯努利的极大似然估计是无偏估计；
；
注：任何分布的极大似然估计，当样本数N趋向于无穷大时，都是渐近正态的，即可以用正态分布近似；
；
注：偏差度量的是函数f的学习能力，是指当样本的数量足够多时，预测与直值之间的差异；方差则是指有多批数据时，每批数据都会学到一个函数f，每个f和f的均值之差的平方，表示的数据的批数不同时，差异的变化程度；噪声描述了数据的纯净程度，当噪声过大时，任何学习算法都不能取得较好的效果；除了上面平方误差损失外，例如分类中的0-1损失，上面的表达式不会严格成立，但趋势是一样的；
；
注：当模型的复杂度增高时，如用多项式来拟合下面的cos曲线，随着多项的阶数增高，曲线将会振荡得越来越厉害，即方差会越来越大(偏差随机模型复杂度的增长会一直减小)；泛化误差为偏差+方差，通常会是一条U形曲线，因此取泛化误差曲线的取低点的模型就是最优模型；
；
注：上图左边的红色曲线是每次拟合的曲线，右边红色曲线是左边曲线的均值，绿色曲红是真值；λ是正则参数，是模型复杂度的惩罚程度；
；
注：当样本数很多的时候，可以考虑适当的增加模型的复杂度(过拟合之前)；
；
极大似然估计的渐近正态性
；
；
Bootstrap
;
注：交叉验证就是Bootstrap的一个近似；
;
注：Bagging的基本思想是对数据进行Bootstrap采样，每次采样都去训练一个模型，多个模型的平均就是Bagging的结果，可以证明这样做可以减小模型方差，得到性能更好的模型；随机森林是用随机数来Bagging；
;
(代码思想)
;
;