多元随机向量的分布
1)我们可以在多个随机变量组成的向量上定义分布,称之为多元随机向量分布;
2)机器学习中我们的数据集通常由多元随机向量分布的样本组成,每一列为一个随机变量;
联合分布
;
;
注:如X=0的边缘分布就是1/9 + 2/9 = 1/3;
联合分布
;
边缘分布
;
注:对离散型随机变量,边缘分布就是对除掉自身的其它维度求和;另外,特殊情况下,当x1到xd均独立时,边缘分布可以唯一确定联合分布;
条件分布
;
条件分布的链规则
;
贝叶斯规则
;
;
;
注:产生式分类器和差别式分类器的区别为是否需要算后验概率;
独立和条件独立
;
注:独立的条件是多个随机变量的联合概率是否可以写在各自边缘概率的积;
条件独立
;
协方差和相关系数
;
注:随机变量自己的协方差就是自身的方差;
;
;
协方差的性质
;
方差、协方差矩阵
;
信息论和互信息
;
熵
;
注:当随机变量最随机的时候熵最大,也就是均匀分布的时候熵最大;当随机变量最确定的时候,如随机变量X一个取值为1,其它的都只能取0时,熵最小;
Kullback-Leibler divergence (KL divergence)
;
互信息(Mutual information)
;
;
最大信息数
;
注:相关系数是在随机变量连续时比较好计算,互信息则是在离散时比较好计算,y=x^2的例子中,因MIC等于1,因此y可以完全确定x;
;
特征选择:互信息
;
注:离散型可以用互信息,连续型可以用MIC;
;
注:上面的示例中,当需要将文章分类到X windows和MS windows这两类时,需要互信息高的词,即600个词语中和分类(向量(X windows,MS windows)互信息更高的词),如上图最右边的windows开始的那五个词;
多元正态分布( multivariate normal, MVN)
;
注:μ是均值向量,∑是协方差矩阵;
2维正态分布的pdf
;
注:上图等高线中,颜色越红表示该区域的值大,图形越高,中间的图形为协方差等于0的图形,右边的图形则是方差相等时的图形;
协方差的特征值分解
;
注:对协方差矩阵∑进行特征值分解,可以将一般正态分布变为等高级为标准圆的正态分布,即上上图中最右边的那个;
多元正态分布的白化
;
高斯判别分析
;
注:∝表示成正比,有条件概率和先验概率
时,可以算出后验概率
, 将X各个值的后验计算出来后,取后验最大的X;
;
注:计算arg max或arg min时,可以将连乘取对数换成连加以简化计算;
;
决策边界
;
;
注:边界是指边界上的点到两个类别的距离相等,即后验概率相等;
;
注:上图左上为三分类时,协方差相等的边界,下左为一般情况下的边界,下右红绿曲线的协方差相等,边界为直线,红兰和绿兰因协方差不相等,因此为二次曲线;
;
概率图模型
;
有向图
;
无向图
;
;
特殊的概率图模型
;
朴素贝叶斯 (Naive Bayes Classifier, NBC)
;
注:θ为要求的参数;
示例:垃圾邮件分类
在训练模型时,除θ外都为已知量,y=c的分类为y=1(是垃圾邮件),y=0(不是垃圾邮件)两类,向量x则表示某些词(如买买买,免费等,每个词为一维特征,且每个特征之类是条件独立的),公式描述了在条件θ下,某些特定词出现时,该邮件为垃圾的概率;
,该用于预测的公式中,
表示需要预测的邮件中,某些特定词出现,此时,该邮件为垃圾邮件的概率,
为先验概率(程序中的训练集),
为条件概率(邮件分类的示例中,表示垃圾邮件中某个词出现的概率和非垃圾邮件中某个词出现的概率);
;
;
链规则
;
Markov链
;
转移矩阵
;
;
;
;
注:上图中左边为一阶Markov链,右边为二阶Markov链,即转移矩阵;
隐马尔科夫模型(Hidden Markov Model, HMM)
;
;
Markov随机场(MRF)
;
;
;
;
条件随机场(CRF)
;
;
;