图1 ⼴告排序两阶段架构
简介
样本优化包括样本增强和样本提纯,是现代⼴告投放平台中⼀个重要但经常被忽视的组成部分。由于⼤量的候选⼴告,⼯业⼴告服务通常利⽤多层漏⽃形结构(如图1所⽰),⾄少涉及两个阶段:候选样本⽣成和重新排序。在候选样本⽣成步骤中,通常根据过去的点击/转换数据训练离线神经⽹络匹配模型,得到⽤户特征向量和⼴告特征向量。然⽽,在⽤户观察到的⼴告和所有可能的⼴告之间存在⼀个协变量转移问题。因此,从点击/转换历史中训练出来的候选⽣成模型不能完全捕捉⽤户的潜在意图,也不能很好地推⼴到⽤户未看到的⼴告中。针对传统召回阶段负样本采样的缺点,百度团队提出⼏点改进策略,并在其⼴告投放平台中进⾏了实际的实验,表明改进的⽅法能够带来离线指标(如召回率)和业务指标(如CPM)的提升。
⼴告系统中的⼀些挑战
对于⼴告排序业务⽽⾔,排序阶段的负样本选择⽐较简单,可以直接选择曝光给⽤户但⽤户没有点击的⼴告作为负样本,但为什么召回阶段就不能选择“曝光⽽未点击”的⼴告作为负样本呢?主要有以下⼏点原因:
1、⼀些模型(如Youtobe的召回⽹络)采⽤ANN(近似K近邻)来快速选择⼀部分相关性较⼤的样本,然后再与其他特征⼀起送⼊到排序模型中。因此,只有少数⼴告幸存下来并展⽰给⽤户。按照上述步骤,最终⽤户观察到的数据(即点击或未点击)与完整的⼴告集有很⼤的不同。因此,排序模型不能完全捕捉⽤户的潜在意图,并不能很好地推⼴到不可见的样本。这个问题也被称为样本选择偏差或协变量转移。2、真实场景下的⼴告曝光数据通常是有长尾分布的。虽然⾼频⼴告只占⼀⼩部分,但它们⽐其他⼴告更重要或出价更⾼。由于⼤多数曝光的⼴告没有被点击,许多⾼频⼴告被认为是负样本。在训练期间,这些⼴告可能会被抑制,导致商业收⼊下降。
3、曝光但未被点击的⼴告并不⼀定是真正的负样本。在⼴告投放服务系统中,⼤多数被曝光的⼴告由于各种原因没有被点击。因此,我们不能认为它们不符合⽤户的利益。这种不确定性对模型训练提出了挑战,因为很难区分哪些样本是真正的负样本。4、由于⼤多数⼴告没有被点击,所以训练数据⾮常稀疏。特别是正样本严重不⾜。
负样本采样优化⽅法
Weighted Random Negative Sampling
假定\\(A=A_{h}\\cup A_{l}\\)是所有的⼴告样本,其中\\(A_{h}=\\left\\{ a:f(a)>\\alpha \\right\\}\\),\\(A_{l}=\\left\\{ a:f(a)\\leq \\alpha \\right\\}\\)。\\(f(a)\\)表⽰⼴告\\(a\\)的曝光频率,\\(\\alpha\\)是预先定义的⼀个阈值。当我们在采样⼀个负样本时,⾸先从分布\\(p\\sim U(0,1)\\)中随机采样⼀个数\\(p\\),如果\\(p< p_{l}\\),则从⼴告集合\\(A_{l}\\)随机均匀采样出⼀个样本,\\(p_{l}=(\\sum_{a_{i}\\in A_{l}}^{}f(a_{i})^{t})/(\\sum_{a_{j}\\in A}^{}f(a_{j})^{t})\\);否则,从⼴告集合\\(A_{h}\\)中采样出⼀个样本,集合中样本被采样到的概率为:\\(P(a_{i})=f(a_{i})^{t}/(\\sum_{a_{j}\\in A_{h}}^{}f(a_{j})^{t})\\)。
Real-Negative Subsampling
在百度⼴告投放平台中,整体CTR只有0.03%左右。由于曝光频率的长尾分布,⼀些头部⼴告占据主导地位,它们可能出现在正样本集中(曝光且点击)和真实的负样本集(曝光但未点击)中。我们不希望出现在负样本集的头部⼴告被过度抑制,因为它们通常有很⾼的商业价值。我们没有使⽤所有的负样本进⾏训练,⽽是执⾏类似于处理word2vec中频繁单词的⼦采样。具体地说,在训练集中每个具有⾼曝光频率的负样本,以⼀定的概率\\(p(i)\\)丢弃,\\(p(i)=1-(\\beta / \\hat f(a_{i}))^{t}\\)
Sample refinement with PU Learning
⼀般⽽⾔,曝光但没有被⽤户点击的⼴告会被视为负样本。然⽽,未被点击的⼴告并不⼀定与⽤户⽆关。因此,百度将历史数据视为正样本(点击)和未标记(可靠的负样本+潜在正样本)的组合,并将负样本集细化为只包括那些可靠的负样本。使⽤的⽅法是“spy technique”。
从正样本集\\(P\\)中随机选取⼀个“spy set” \\(S\\),然后把\\(S\\)添加到未标记的样本集合\\(U\\)中;
正样本集合\\(P\\)剔除\\(S\\)后的样本作为正样本,\\(U \\cup S\\)的样本作为负样本,然后训练⼀个SVM分类模型;⽤训练好的SVM分类器给U中的样本打分,看看这些样本有多⼤的概率是正样本;
利⽤公式\\(\\overline{p}=\\sum_{(u,a)\\in S}^{}p(y=1|u,a)/\\left|S \\right|\\)计算“spy set”的平均概率;将\\(U\\)中点击率⼩于spy set平均点击率的样本的作为真正的负样本\\(RN\\)。最后⽤\\(RN\\)和\\(P\\)来训练召回模型。
Fuzzy Positive Sample Augmentation
为了缓解数据稀缺问题,百度引⼊了模糊逻辑来增加正样本。 在最终⼴告列表中,仅向⽤户显⽰前⼏个⼴告,⽽其余的则可能不会显⽰。尽管这些隐藏的⼴告不能直接⽤作训练样本,但它们已经通过了候选集⽣成和排序阶段,并且更有可能满⾜⽤户的兴趣。
为了增加正样本,我们解析未显⽰的事件⽇志,并在最终列表中收集所有三元组(⽤户,⼴告,CPM),并且CPM⾼于预定义的阈值。 我们将这些三元组(⽤户,⼴告,每千次展⽰费⽤/出价)称为“模糊的正样本”,并将其添加到正样本的训练集中。 值得注意的是,由于模糊正样本的标签不是单击记录,因此其标签⼩于1。
Sampling with Noise Contrastive Estimation (NCE)
NCE是⼀种⽣成模型,能⽣成负样本,百度⽤这种⽅法扩⼤负样本集。
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- igat.cn 版权所有 赣ICP备2024042791号-1
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务