27 | Page | ZQY’s Blog

type

Post

status

Published

date

May 17, 2018

slug

2018.05.17 广告实时反馈CTR特征的使用方法

summary

2018.05.17 广告实时反馈CTR特征的使用方法

1. 为什么有用

广告的实时反馈 CTR 特征的意思就是当前的广告正在投放，已经投放一部分了，这部分的点击率基本可以认为是这个广告的点击率了，也可以认为是这个广告质量的体现，把它作为点击率预估的特征之一相当于把目标y的信息带入了x中，说白了就是合法的作弊了。

2. 特征分段

互联网广告的点击率符合一个长尾分布，叫做对数正态分布，其概率密度是下图（注意这个是假设，不代表真实的数据，从真实的数据观察是符合这么样的一个形状的，雅虎的研究论文 [3] 说它符合beta分布）。

可以看到，大部分广告的点击率都是在某一个不大的区间内的，点击率越高的广告越少，同时这些广告覆盖的流量也少。换句话说，点击率在 0.2% 左右的时候，如果广告 a 的点击率是 0.2%，广告 b 的点击率是 0.25%，广告 b的点击率比广告 a 高 0.05%，其实足以表示广告 b 比广告 a 好不少；但是点击率在 1.0% 左右的的时候，广告 a 点击率是 1.0%，广告 b 的点击率是 1.05%，并不表示广告 b 比广告 a 好很多，因为在这 0.05% 的区间内的广告并不多，两个广告基本可以认为差不多的。

也就是说点击率在不同的区间，应该考虑不同的权重系数，因为广告实时反馈 CTR 特征与用户对广告的点击的概率不是完全的正相关性，有可能值越大特征越重要，也有可能值增长到了一定程度，重要性就下降了。对于这样的问题，有人提出了对连续特征进行离散化。他们认为，特征的连续值在不同的区间的重要性是不一样的，所以希望连续特征在不同的区间有不同的权重，实现的方法就是对特征进行划分区间，每个区间为一个新的特征。具体实现可以使用等频离散化方式或者是决策树的方式。实际的应用表明，离散化的特征能拟合数据中的非线性关系，取得比原有的连续特征更好的效果，而且在线上应用时，无需做乘法运算，也加快了计算 ctr 的速度。

3. 贝叶斯平滑

事实当然没有这么美好，在实际的应用中，如果某个 (或某类，下同) 广告的曝光比较小 (新广告或者小广告)，那么它的实时反馈 CTR 特征是不置信的，而且短时间内会变化较大，比如一个广告曝光了 100 次，有 2 次点击，那么 ctr 就是 2%，但是当这个广告投曝光到了 1000 次的时候，点击只有 10 次，点击率是 1%，这里就相差了一倍了。

对于这种广告，线上预估时的分段和后续特征关联时的分段很容易不一致，因此会导致训练和预测的紊乱，引起线上出现较大的 bias，而线下的离线 bias 又很正常的情况。尤其是当使用在线学习框架的时候，这种情况更为严重。所以我们需要对计算得到的 ctr 进行某种平滑后再使用，平滑方法有很多种，这里介绍下文章 [3] 里的贝叶斯平滑方法。

我们先做如下两点假设：