上一次修改时间:2018-05-18 19:38:03

决策树&随机森林

  1. 分类回归树( Classification And Regression Trees ,CART)

    image.png

    1)分类回归树从名字就可以看出,该模型即可用于分类也可以用于回归;

    2)线性回归中,系数矩阵w,因该系数为有限个个数因此称为参数模型,但像分类回归树这种模型,参数是个数是由样本决定的,不是固定的,因此称为非参数模型

    3)决策树的可解释性很强,如上图的示例中,要预测某个家庭成员是否喜欢电脑游戏,首先以age将样本分成两类,再在左边的叶子节点上以性别分成两类,其中,叶子节点上,男生的值为2,女生的值为0.1,年龄大于15的样本为-1(叶子节点上的数值是符合常识的);

    注2:分类回归树中需要通过数据训练得到的参数有两个,一个为树分裂的条件,另一个为分裂的阈值; 

    image.png

    QQ图片20180203013556.png 

    注:线性回归中,在假设残差为正态分布的情况下,所求的image.png就是正态分布的期望,可以证明期望取L2损失时,期望的估计就是使得L2损失最小的那个估计;上图右下下的示例中,分段函数中每段的高度值为该区域内样本的均值; 上图公式中的w为每个区域中的权重,即样本的均值;

    注2:回归树中,如上图示例为例,image.png表示某个分裂的时间点,image.png表示分裂的阈值;

    QQ图片20180203014242.png

    注:树模型中,用于分裂树的特征是可以重复使用的;

    1)提前终止是指,在训练树模型时,分裂到某一个点M1后,在测试集上测试得到评估参数ρ1,然后模型继续分裂到M2,并在测试集上得ρ2,一直重复直到分裂到预定的次数之前,如果ρ(n+1) < ρn,即模型变得更复杂时,性能反而下降了的话就提前结束分裂;

    2)剪树的准则是,剪掉某些节点后,模型的目标函数值不能变大;

    3)Bagging 不会减小模型的复杂度,但也不会增加模型的复杂度,它的作用是减少模型的方差;

    image.png

    image.png

    注:树模型没有专门的正则项来控制模型的复杂度, 剪树可以看成是正则的替代,但剪枝没有一个明确的正则项,只是通过剪枝这种方式来达到一个减小模型复杂度的目的;

    image.png

    image.png

    注:image.png中,j是第j维特征,image.png是第j维特征分裂的阈值;  

    image.png

    QQ图片20180203014817.png

    注:y的均值image.png相当线性回归的预测值image.png,样本的y值纯净度相当于损失函数取L2损失; 树模型中,是使用均值image.png来预测y的;

    image.png

    image.png

    注:sklearn中默认用来度量不纯净度的指标为Gini系数,该系数是从社会学中借鉴过来的,该指标原本是用来度量社会的贫富差距的;该指标可以度量每个叶子节点中,样本的差异;

    注2:分布的估计值公式中,c表示分类的类别数,如二分类问题中,c为2; 

    image.png

    image.png

    注2:cost为成本函数,统计学中该函数通常称为损失函数; 

    image.png

    image.png

    image.png

    image.png

    注:自动进行特征选择是指:数据有100维特征,但建树的时候只用到了80维特征,这就相当于做了特征选择;对特征的单调变换不敏感是指:如对特征进行log变换,该变换对树模型来说是不影响的,但对线性回归中wx来说是有影响的;不要求对特征做预处理是指:但特征之间的取值范围不一样时,不需要做数据的归一化;可处理缺失数据是指:可以给缺失的数据指定一个特定的方向;

    image.png

    image.png

    注:建树过程过于贪心是指:每次分裂时,只会选择一个特征,不会顾及到其它特征;

    image.png

    image.png

    注:L0正则不好优化,通常会用L1正则来近似L0; 

    image.png

    image.png

    image.png

    image.png

    image.png

    image.png

    image.png

    image.png

    image.png

  2. 随机森林

    image.png

    image.png

    image.png

    image.png

    注:Bagging可以在不改变样本均值的情况下降低模型的方差; 方差的减小可以增加模型的稳定性;

    image.png

    image.png

    image.png

    image.png

    image.png

    image.png

    QQ图片20180203020824.png

  3.