上一次修改时间：2017-11-26 01:56:14

随机变量及其分布

机器学习的解释
机器学习是人工智能的一个分支，机器学习的主要任务是构建一个系统，使得该系统可以从数据中学习，找到数据产生的规律，然后通过规律从而对新产生的数据进行预测；
距离的度量
L1距离为绝对值，如|x - u|，L2距离为平方，如(x - u)^2；
概率与统计的关系
概率与统计为互逆关系，给定一个数据的产生过程，推断出数据之间的性质为概率，而根据观测到的数据去反推数据产生的过程是统计；
概率公理
；
常用推论
；
联合概率和条件概率
；
P(A,B)为A和B的联系概率；Ω表示样本空间,也就是所有可能结果组成的集合；
全概率公式与贝叶斯公式
；
全概率公式的意义：在P(B)不易求得的情况下后，可以找到A的一个划分，然后分别求出划分A1，A2....An发生的情况下，B发生的概率并求和，从而得到B的概率；
贝叶斯公式示例：
；
随机变量
；
；
注：随机变量的任何函数也为随机变量，如均值、方差等；
随机变量的定义域与值域
随机变量是表示随机试验各种结果的实值单值函数；定义域为整个样本空间，值域为实数空间；
随机变量示例:设X随机变量，X = 0.5表示该次实验中，样本x通过随机变量函数后，产生的输出值为0.5；
数据与统计量
；
统计量举例：均值，方差；
累积分布函数CDF
;
公式中X为随机变量，x为一个具体的实数值；
概率密度函数pmf
;
公式中p(x)为X=x的概率的一个实值；
示例：
；
概率密度函数(连续型随机变量)
；
示例：连续型随机变量的CDF和pdf
;
CDF当0 <= x <= 1时，因该区间内的概率密度函数中的值为1，积分后得到随机变量落到该区间的概率为x；
分布的概述
；
数学期望
；
注：期望(通常用E(X)表示)是概率的加权平均，积分形式的为连续型随机变量的期望；
期望的性质：
；
最小距离
；
注：红线中E(X - E(X)) = E(X) - E(X) = 0 (期望的线性性质)，平方项里第一项与b无关，因此最小距离就为b；
众数
；
中值
；
分位函数
；
；
；
方差
；
；
IQR(Interquartile Range)四分位距
;
贝努利分布(离散型)
；
；
注：贝努力分布是单次试验的结果分布，二项分布为多次贝努利分布；
二项分布(离散型)
；
多项分布(离散型)
；
分类分布(多项分布的试验次数1时的特殊情形，离散型)
；
均匀分布(连续型)
；
正态分布(高斯分布，连续型)
；
；
注：μ的别名为位置参数，即在ρ不变的情况下，μ决定该密度函数的位置；ρ的别名为尺度参数，即在μ不变的情况下，ρ决定了该密度函数图形的高度；
；
标准正态分布
；
退化的高斯分布：
；
经验分布
；
拉普拉斯分布
；
;
注：蓝色.....为正态分布，红色曲线为学生t分布，蓝色------为拉普拉斯分布；
Gamma分布
；
；
；
；
Beta分布
；
；
Dirichlet分布
；
；
分布的混合
；
注：公式中k为组成该混合分布的单位组件的个数，p(c=k)表示取到该组件的概率，p(x|c=k)表示取到某一单位组件c后，该组件中取到x的概率；
混合高斯模型
；
；
各分布之间的关系
独立同分布IID(Independent Identically Distribution)样本
；
抽样分布
；
样本均值与样本方差
；
注：样本方差中除以(N-1)为无偏估计，而除以n是总体方差的极大似然估计量；
样本均值和样本主差是分布F真正期望的方差
；
注：当样本数N越大是，均值越接近期望μ(μ为分布的参数期望)；
依概率收敛和依分布收敛
；
弱大数定律(WLLN)
；
中心极限定理(Central Limit Theorem, CLT)
；
各种分布的样本均值分布示例：
；
；
分布估计
已知分布的类型，但参数未知时，参数的估计方法有极大似然估计，贝叶斯估计；
分布类型未知时，非参数估计方法有：
1）直方图、核密度估计(这两种估计只能针对低维向量，对高维向量时，会发生维数灾难，实际使用时，如果向量的维数是一维或二维时可以考虑使用直方图和核密度估计)；
2）根据有限个统计量估计分布：极大熵原理(可以处理高维向量)；
非参数概率模型------直方图
；
注：Ⅱ(x∈B_b)表示x1,x2......xm，直方图中矩形的高度代表落入该矩形范围内的样本的数量多少；
；
核密度估计
；
；
核函数的例子
；
核密度估计------带宽
；
seaborn中的核密度估计
；
；
极大熵原理
；
；
注：极大熵实质：已知一个未知分布的部分知识，如有一个特殊的骰子(骰子为6个面)，随机投掷时该骰子等于6的概率为1/2，得到其它面的概率未知，跟据极大熵原理，该情况下当其它五个面最随机时(即得到其它5个面的概率均为1/10)，即熵最大时，该分布是最合理的分布；
充分统计量
；
注：充分统计量的意义是用数据集的特征(统计量)来描述数据集本身，如用期望t1和方差t2，这两个函数来描述数据集本身，当特征的数据N越来越大时(即描述的函数越来越多)，得到的描述值(当函数自变量x为某个具体值，且符合所有特征函数)将越来越接近数据集；
概率分布簇
；
注：表示某个特征(如方差)在数据集中的均值；表示特征的合集，如特征1为方差，特征2为ln x；
；
注：根据大数定理，随机数据集N的增加时，特征的均值将会越来越接近数据真正的期望；上面公式中的q(x)为该未知分布的密度函数，公式意义为某一个特征和密度函数的积分等于该特征的期望(实际使用中，该期望用该特征的均值来近似)；
；
拉格朗日乘子法
；
注：拉格朗日乘子法中第二项和第三项为约束条件，J(x)的偏导为0后求得是在此约束条件下，q(x)的极值；
解出上式中的q得到指数分布族
；
；
注：高斯分布的示例中，可以将拼成(x-μ) ^2，然后将常数项放到Z里面；