CTR大纲
CTR
注:点击率预估的数据通常是正样本远少于负样本,因此性能评估一般使用准确率/召回率或AUC;点击率的场景每天都在变化,因此要求模型更新快,所以模型不能太复杂,实际应用中,logistic回归通常就能满足工业需求;因为模型简单,要想达到较好的效果,需要很强的特征,方案之一就是人工特征,即在该领域有较强专业背景的人来手动做特征,然后将特征给模型训练;
https://blog.csdn.net/a819825294/article/details/51227265
https://blog.csdn.net/mmc2015/article/details/51760681
注:此处的GBDT是用来生成特征的,用GBDT做特征时,不是用训练好的模型来做预测,而是来GBDT产生的中间结果来生成新的特征;
https://cloud.tencent.com/developer/article/1005052
https://zhuanlan.zhihu.com/p/28202287
https://cloud.tencent.com/developer/article/1005051
https://cloud.tencent.com/developer/article/1005052
模型融合
https://www.kaggle.com/arthurtok/introduction-to-ensembling-stacking-in-python