机器学习的解释
机器学习是人工智能的一个分支,机器学习的主要任务是构建一个系统,使得该系统可以从数据中学习,找到数据产生的规律,然后通过规律从而对新产生的数据进行预测;
距离的度量
L1距离为绝对值,如|x - u|,L2距离为平方,如(x - u)^2;
概率与统计的关系
概率与统计为互逆关系,给定一个数据的产生过程,推断出数据之间的性质为概率,而根据观测到的数据去反推数据产生的过程是统计;
概率公理
;
常用推论
;
联合概率和条件概率
;
P(A,B)为A和B的联系概率;Ω表示样本空间,也就是所有可能结果组成的集合;
全概率公式与贝叶斯公式
;
全概率公式的意义:在P(B)不易求得的情况下后,可以找到A的一个划分,然后分别求出划分A1,A2....An发生的情况下,B发生的概率并求和,从而得到B的概率;
贝叶斯公式示例:
;
随机变量
;
;
注:随机变量的任何函数也为随机变量,如均值、方差等;
随机变量的定义域与值域
随机变量是表示随机试验各种结果的实值单值函数;定义域为整个样本空间,值域为实数空间;
随机变量示例:设X随机变量,X = 0.5表示该次实验中,样本x通过随机变量函数后,产生的输出值为0.5;
数据与统计量
;
统计量举例:均值,方差;
累积分布函数CDF
;
公式中X为随机变量,x为一个具体的实数值;
概率密度函数pmf
;
公式中p(x)为X=x的概率的一个实值;
示例:
;
概率密度函数(连续型随机变量)
;
示例:连续型随机变量的CDF和pdf
;
CDF当0 <= x <= 1时,因该区间内的概率密度函数中的值为1,积分后得到随机变量落到该区间的概率为x;
分布的概述
;
数学期望
;
注:期望(通常用E(X)表示)是概率的加权平均,积分形式的为连续型随机变量的期望;
期望的性质:
;
最小距离
;
注:红线中E(X - E(X)) = E(X) - E(X) = 0 (期望的线性性质),平方项里第一项与b无关,因此最小距离就为b;
众数
;
中值
;
分位函数
;
;
;
方差
;
;
IQR(Interquartile Range)四分位距
;
贝努利分布(离散型)
;
;
注:贝努力分布是单次试验的结果分布,二项分布为多次贝努利分布;
二项分布(离散型)
;
多项分布(离散型)
;
分类分布(多项分布的试验次数1时的特殊情形,离散型)
;
均匀分布(连续型)
;
正态分布(高斯分布,连续型)
;
;
注:μ的别名为位置参数,即在ρ不变的情况下,μ决定该密度函数的位置;ρ的别名为尺度参数,即在μ不变的情况下,ρ决定了该密度函数图形的高度;
;
标准正态分布
;
退化的高斯分布:
;
经验分布
;
拉普拉斯分布
;
;
注:蓝色.....为正态分布,红色曲线为学生t分布,蓝色------为拉普拉斯分布;
Gamma分布
;
;
;
;
Beta分布
;
;
Dirichlet分布
;
;
分布的混合
;
注:公式中k为组成该混合分布的单位组件的个数,p(c=k)表示取到该组件的概率,p(x|c=k)表示取到某一单位组件c后,该组件中取到x的概率;
混合高斯模型
;
;
各分布之间的关系
独立同分布IID(Independent Identically Distribution)样本
;
抽样分布
;
样本均值与样本方差
;
注:样本方差中除以(N-1)为无偏估计,而除以n是总体方差的极大似然估计量;
样本均值和样本主差是分布F真正期望的方差
;
注:当样本数N越大是,均值越接近期望μ(μ为分布的参数期望);
依概率收敛和依分布收敛
;
弱大数定律(WLLN)
;
中心极限定理(Central Limit Theorem, CLT)
;
各种分布的样本均值分布示例:
;
;
分布估计
已知分布的类型,但参数未知时,参数的估计方法有极大似然估计,贝叶斯估计;
分布类型未知时,非参数估计方法有:
1)直方图、核密度估计(这两种估计只能针对低维向量,对高维向量时,会发生维数灾难,实际使用时,如果向量的维数是一维或二维时可以考虑使用直方图和核密度估计);
2)根据有限个统计量估计分布:极大熵原理(可以处理高维向量);
非参数概率模型------直方图
;
注:Ⅱ(x∈Bb)表示x1,x2......xm,直方图中矩形的高度代表落入该矩形范围内的样本的数量多少;
;
核密度估计
;
;
核函数的例子
;
核密度估计------带宽
;
seaborn中的核密度估计
;
;
极大熵原理
;
;
注:极大熵实质:已知一个未知分布的部分知识,如有一个特殊的骰子(骰子为6个面),随机投掷时该骰子等于6的概率为1/2,得到其它面的概率未知,跟据极大熵原理,该情况下当其它五个面最随机时(即得到其它5个面的概率均为1/10),即熵最大时,该分布是最合理的分布;
充分统计量
;
注:充分统计量的意义是用数据集的特征(统计量)来描述数据集本身,如用期望t1和方差t2,这两个函数来描述数据集本身,当特征的数据N越来越大时(即描述的函数越来越多),得到的描述值(当函数自变量x为某个具体值,且符合所有特征函数)将越来越接近数据集;
概率分布簇
;
注: 表示某个特征(如方差)在数据集中的均值;
表示特征的合集,如特征1为方差,特征2为ln x;
;
注:根据大数定理,随机数据集N的增加时,特征的均值将会越来越接近数据真正的期望; 上面公式中的q(x)为该未知分布的密度函数,公式意义为某一个特征和密度函数的积分等于该特征的期望(实际使用中,该期望用该特征的均值来近似);
;
拉格朗日乘子法
;
注:拉格朗日乘子法中第二项和第三项为约束条件,J(x)的偏导为0后求得是在此约束条件下,q(x)的极值;
解出上式中的q得到指数分布族
;
;
注:高斯分布的示例中,可以将拼成(x-μ) ^2,然后将常数项放到Z里面;