CTR预估中GBDT与LR融合方案
文件大小: 208k
源码售价: 10 个金币 积分规则     积分充值
资源说明:"CTR预估中GBDT与LR融合方案" CTR预估是互联网计算广告中的关键环节,预估准确性直接影响公司广告收入。传统上,CTR预估中使用的最多的模型是LR(Logistic Regression),但LR是一种线性模型,学习能力有限,需要大量特征工程预先分析出有效的特征、特征组合。为弥补LR的不足,Facebook 2014年提出了通过GBDT(Gradient Boost Decision Tree)解决LR的特征组合问题,GBDT可以自动发现有效的特征、特征组合。 GBDT是一种常用的非线性模型,基于集成学习中的boosting思想,每次迭代都在减少残差的梯度方向新建立一颗决策树,迭代多少次就会生成多少颗决策树。GBDT的思想使其具有天然优势可以发现多种有区分性的特征以及特征组合,决策树的路径可以直接作为LR输入特征使用,省去了人工寻找特征、特征组合的步骤。 GBDT与LR的融合方式,Facebook的paper有个例子,通过GBDT模型学出多棵树,x为一条输入样本,遍历多棵树后,x样本分别落到多棵树的叶子节点上,每个叶子节点对应LR一维特征,那么通过遍历树,就得到了该样本对应的所有LR特征。由于树的每条路径,是通过最小化均方差等方法最终分割出来的有区分性路径,根据该路径得到的特征、特征组合都相对有区分性,效果理论上不会亚于人工经验的处理方式。 笔者调研了Facebook、Kaggle竞赛关于GBDT建树的细节,发现两个关键点:采用ensemble决策树而非单颗树;建树采用GBDT而非RF(Random Forests)。ensemble决策树可以表达多个有区分性的特征组合,GBDT每棵树都在学习前面棵树尚存的不足,迭代多少次就会生成多少颗树。RF也是多棵树,但从效果上有实践证明不如GBDT。GBDT前面的树,特征分裂主要体现对多数样本有区分度的特征;后面的树,主要体现的是经过前N颗树,残差仍然较大的少数样本。优先选用在整体上有区分度的特征,再选用针对少数样本有区分度的特征,思路更加合理。 因此,GBDT与LR的融合方案可以自动发现有效的特征、特征组合,弥补LR的不足,提高CTR预估的准确性。
本源码包内暂不包含可直接显示的源代码文件,请下载源码包。