时滞反馈模型的标号校正渐近无偏估计

10 浏览量更新于2023-11-29 收藏 780KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

369时滞反馈模型的标号校正渐近无偏估计Yu Chen< $，Jiaqi Jin< $，Hui ZhaoXiang，Pengjie Wang，Guojun Liu，Jian Xu and Bo ZhengXiang阿里巴巴集团{shuyuan.cy，jinjiaqi.jjq，shuqian.zh，pengjie.wpj，guojun.liugj，xiyu.xj，bozheng}@alibaba-inc.com摘要缓解延迟反馈问题对于在线广告中的转化率（CVR）预测至关先前的延迟反馈建模方法使用观察窗口来平衡等待准确标签和消耗新鲜反馈之间的权衡。此外，为了估计新观察到的但具有假阴性的有偏分布的CVR，重要性抽样被广泛用于减少分布偏差。虽然有效，但我们认为，以前的方法在重要性加权过程中错误地将假阴性样本视为真阴性样本，并且没有充分利用观察到的阳性样本，从而导致次优性能。在这项工作中，我们提出了一种新的方法，DE layed F eedbackmodeling with Unbia S ed E stimation，（DEFUSE），其目的是在更细的粒度上分别校正即时正样本、假负样本、真负样本和延迟正样本的重要性权重。具体来说，我们提出了一个两步优化方法，首先推断假阴性之间观察到的负面应用重要性抽样之前的概率。为了充分利用来自观察到的分布的地面实况即时阳性，我们进一步开发了双分布建模框架，以联合建模无偏即时阳性和有偏延迟转换。在公开数据集和工业数据集上的实验结果验证了DEFUSE 的优越性代码可在 www.example.com 上https://github.com/ychen216/DEFUSE.git。CCS概念• 信息系统→计算广告。关键词延迟反馈、在线广告、CVR预测ACM参考格式：YuChen<$ ， Jiaqi Jin<$ ， Hui ZhaoXiang ， Pengjie Wang ， GuojunLiu，Jian Xu and Bo ZhengXiang. 2022年时滞反馈模型的渐近无偏估计。在ACM Web Conference 2022（WWW '22）的会议记录中，2022年4月25日至29日，虚拟活动，法国里昂。 ACM，美国纽约州纽约市， 11 页。https://doi.org/10.1145/3485447.3511965†共同第一作者。这位作者是在工作中给予很多指导的人*通讯作者。允许免费制作本作品的全部或部分的数字或硬拷贝，以供个人或课堂使用，前提是制作或分发副本的目的不是为了盈利或商业利益，并且副本的第一页上有本声明和完整的引用。版权的组成部分，这项工作所拥有的其他人比ACM必须尊重。允许使用学分进行摘要以其他方式复制、重新发布、在服务器上发布或重新分发到列表，需要事先获得特定许可和/或付费。请求权限请发邮件至permissions@acm.org。WWW©2022计算机协会ACM ISBN 978-1-4503-9096-5/22/04。. . 十五块https://doi.org/10.1145/3485447.3511965积极假阴性实际负单击转换观察窗口归因窗口图1：不同标签类型的图示观察窗口w0表示点击时间和流传输训练时间之间的最小时间间隔;而观察窗口wa确定实际标签。1介绍在线广告已成为智能电子商务的主要商业模式，这有助于广告商瞄准潜在客户[3，4，14]。通常，每次操作成本（CPA）和每次点击成本（CPC）是两种广泛使用的支付选项，其直接影响平台的收入和所有广告主的投资回报率（ROI）。作为这两种价格竞标的基础部分，专注于ROI导向优化的转化率（CVR）预测始终保持着不可替代的组成部分，以确保健康的广告平台[12]。作为一种广泛使用的训练框架，流学习根据实时反馈不断微调模型，在点击率（CTR）预测任务中表现出良好的性能[13，18，21，22]。然而，如表1所示，由于CVR预测的普遍延迟和长尾转换反馈，通过流式学习实现更好的结果并非微不足道。更具体地，如图1所示，在时间t0发生的点击需要等待足够长的时间窗口wa以确定其实际标签-仅在t0+ wa之前转换的样本被标记为正。通常，对于不同的业务场景，wa的设置范围从一天到几周即使对于短至一天的归因窗口，这个问题仍然太长，无法确保样本的新鲜度，这仍然是实现有效流式CVR预测的主要障碍为了解决这一挑战，现有的努力集中于引入短得多的观察窗口W，例如，30分钟，允许具有观察到的标签的点击被收集并在t0+wo之后立即分发到训练管道。优化w〇提供了平衡利用更多新鲜样品和接受不太准确的标记之间的权衡的能力。这极大地提高了样本新鲜度，在观察窗口内具有可接受的转换覆盖率，代价是临时标记反馈，WWWYu Chen，etal.370表1：淘宝和Criteo数据集上的延迟转化分布，其中Inc和Acc分别表示增量和累积比例。数据集淘宝数据集Criteo延迟间期增量（%）加速（%）增量（%）加速（%）<30min6161424230分钟-12小时1374145612小时-1天4785611天-3天78510713天-7天69110817天-30天910019100延迟为假阴性。因此，目前的工作主要集中在新观察到的，但有偏见的分布与假阴性的CVR估计。由于难以通过使用标准的二进制分类损失（例如，交叉熵）来实现无偏估计，因此当前的努力实现了各种辅助任务来对转换延迟进行建模，以便减轻由假阴性引起的偏差早期的方法[2，29]试图通过联合优化CVR预测与延迟模型来解决延迟反馈问题，该延迟模型从假设的延迟分布预测延迟时间d。然而，这些方法直接在有偏的观测分布上训练，并且没有充分利用稀有和稀疏的延迟正反馈。在认识到这些缺点后，最近的研究主要集中在将延迟转换重新用作转换时的正样本。各种样本复制机制已被设计，充分利用每一个转换。例如，FNC/FNW [10]设置wo = 0，并在转换时重新发送所有正样本。ES-DFM [27]仅复制先前被错误标记为假阴性的延迟阳性样本;而DEFER [5]在完成标签归属后重新使用所有具有实际标签的样本，以保持相等的特征分布并利用真正的阴性样本。此外，为了弥合分布偏差，采用重要性抽样[1]来校正地面实况与观察到的但有偏差的分布之间的差异。尽管有效，我们认为，目前的方法仍然有一些局限性。首先，它们主要关注于设计适当的训练管道以减少特征空间中的偏差，并且通过重要性采样仅对观察到的正面和负面的损失进行加权。问题是，观察到的阴性可能潜在地是假阴性，并且这些方法错误地将它们视为真阴性，导致次优性能。其次，观察到的阳性可以进一步分为即时阳性（IP）和延迟阳性（DP），这意味着两个潜在的改进：（1）由于重复，直觉，IP和DP对CVR模型的贡献不同。（2）通过排除DP，可以直接基于与IP的实际分布一致的观测数据集建立IP预测的无偏估计。本文提出了一种基于无偏估计的DE分层反馈模型（DEFUSE）进行流媒体CVR预测，该模型研究了假底片的影响，并充分利用了重要性抽样中的DPs。仅与以前的方法不同通过对观察到的阳性和阴性进行建模，我们将样本正式识别为四种类型，即即时阳性（IP）、假阴性（FN）、真阴性（RN）和延迟阳性（DP）。由于在观察到的阴性中采用了FN，因此我们提出了一种两步优化，该优化首先推断观察到的阴性是假阴性的概率，然后通过对四种类型的样本中的每一种进行重要性采样来执行无偏CVR预测。此外，我们设计了一个双分布框架，以充分利用即时的积极因素。综合实验表明，DEFUSE在公共数据集和工业数据集上都取得了比现有方法更好的性能。我们的主要贡献可归纳如下：我们强调以更细粒度的方式划分观察样本的重要性，这对于准确的重要性抽样建模至关重要。我们提出了一个无偏的重要性抽样方法，DEFUSE，两步优化，以解决延迟反馈的问题。此外，我们实现了一个双分布建模框架，以充分利用流学习过程中的即时积极因素。我们在公共和工业数据集上进行了广泛的实验，以证明我们的DEFUSE的最先进性能。2相关工作2.1延迟反馈模型延迟反馈学习在预测转化率的研究中受到了广泛的关注。 Chapelle[2]假设延迟服从指数分布，提出了两个分别预测CVR和延迟时间的广义线性模型。然而，这样一个强有力的假设可能很难在实践中建模的延迟分布为了解决这个问题，[29]提出了一种用于CVR预测的非参数延迟反馈模型，该模型利用核密度估计并结合多个高斯分布来近似实际延迟分布。此外，最近的一些工作[23，25]离散延迟时间按天槽，以实现细粒度的生存分析延迟反馈问题。然而，上述方法的一个显著缺点是，所有这些方法都只试图优化观察到的转换信息，而不是实际的延迟转换，这不能充分利用稀疏正反馈。2.2无偏CVR估计与以往的方法不同，目前的主流方法采用重要抽样方法来估计真实期望值。R. 另一个观察到的分布[5，10，27，28]。Ktena等人[10]假设所有样本最初都被标记为阴性，然后复制具有阳性标签的样本，并在转换时将其摄取到训练管道中。为了进一步从有偏分布中对CVR预测建模，他们提出了两种利用重要性抽样的假负加权（FNW）和假负校准（FNC）[1]。然而，它只关注样本的及时性，而忽略了标注的准确性为了解决这个问题，ES-DFM[12]引入了一个观察窗口来研究在窗口中等待更准确的标签和在窗口外利用更新鲜的训练数据之间的权衡。Gu等人[五]《中国日报》···时滞反馈模型的标号校正渐近无偏估计WWW371的x（）（）（）{}（）下一页•/∞（）（）（）（）（）θ∫（）下一页∫q（y|（x）.q（y=1 |x）ii·Dq（y |x）p（x，y）<$（x，y; fθ（x））dy（5）∫∫q（y=0 |x）ii表2：论文中使用的主要符号符号解释x，y，d输入要素、标注以及单击时间和支付时间之间的间隔地面实况FNW（FNC）ES-DFM推迟观察样品重复样本正标签负面标签px，y，qx，y 地面实况和观测分布wo，wa观测和属性窗口wi（x，y），z（x）重要性权重和隐变量进一步复制观察窗口中的实阴性和稀疏阳性，以消除由复制延迟的阳性样本引入的特征分布偏差。2.3延迟强盗延迟反馈在Bandit方法中引起了广泛的关注[17，20，20]。以前的方法将延迟反馈建模视为顺序决策问题，并最大化长期回报[6，8，24]。Joulani等人[8]提供了Meta算法，该元算法转换为非延迟的算法，并分析了延迟反馈在流学习问题中的作用。[24]给出了一个随机延迟的bandit模型，并在延迟分布已知的假设[6]试图研究具有连续动作空间的游戏中的强盗流学习，并引入了具有延迟奖励和强盗反馈的无梯度学习策略。3初步在本节中，我们首先用公式表示具有延迟反馈的流式CVR预测的问题。然后，我们给了一个简单的介绍，在以前的方法中使用的标准重要性抽样算法表2总结了本文中使用的符号。3.1问题公式化在标准CVR预测任务中，输入可以正式定义为x，y px，y，其中x表示特征，y 0，1是转换标签。通用CVR预测模型旨在通过优化以下理想损失来学习二元分类器函数f的参数θ [12，14]：IP：立即阳性FN：假阴性RN：真阴性DP：延迟阳性图2：以前在线延迟反馈方法的数据分布假阴性（FN），例如，wodwa.<<假阴性表示由于延迟转换而在训练时被错误地标记为阴性的样本。真阴性（RN），例如，d>wad=. 在等待足够长的归因窗口wa未转换的样本被标记为实阴性。延迟正（DP）。这些样本被复制并在转换时被调查到训练管道中，并具有积极的标签。3.2重要抽样重要性抽样已被广泛研究和应用在许多最近的任务，例如，反事实学习[26]和无偏估计[5，27]。通常，以前的方法使用重要性抽样来估计来自观察到的分布的训练损失的期望，并如下重写理想的CVR损失函数：L=E（x，y）<$p（x，y）<$（y，fθ（x））（2）=E（x，y）<$q（x，y）w（x，y）<$（y，fθ（x）），（3）其中fθ是追求无偏CVR预测的所需CVR模型，px，y和qx，y分别表示地面真值与观测和复制分布的联合密度函数，wx，y是地面真值分布相对于由重要性抽样引入的观测和复制分布的似然比，追求无偏f θ x。目前，通过假设或确保pxqx并仔细设计样品复制机构时，所有公开的方法[5，10，27]都应用了在[10]中首次公开的W（x，y）公式的相同推导，如下所示：L=<$E（x，y）<$q（x<$，y）w（x，y）<$（y，fθ（x））（4）=q（x）dxL理想 =E（x，y）<$p（x，y）<$（y，fθ（x）），（1）其中（x，y）是从地面实况中提取的训练样本=q（x）p（x）dxq（x，y）q（y |x）p（y|x）<$（x，y; fθ（x））dy（6）分布px，y和p x表示分类损失，例如，广泛使用的交叉熵损失。然而，如上所述，由于观察窗口的引入，带有con的点击q（x）q（x）dxq（y|（x）q（y |x）p（y|x）<$（x，y; fθ（x））dy（7）发生在观察窗口之外的版本将首先被视为假底片。因此，观察分布≈（x，y）∈D.yi p（yi = 1 |xi）log fθ（xi）q（x，y）总是偏离地面实况分布p（x，y）。我I.更具体地，如图1所示，存在四种类型的在线广告系统中的示例立即阳性（IP），例如，dwo。<样本在内部观察窗被标记为立即阳性。+（1−yi）p（yi = 0 |xi）log（1−fθ（xi）），（8）其中是观察到的数据集。这些公开的方法之间的差异主要在于：IP FNRNDP··FNFNRNDPDPIPDPRNIPFNRNIPDPRNWWWYu Chen，etal.372（一）|）的方式1|）的方式 |)（）（|）（q（x）∫（（）（））（）i（）下一页（）下一页（）（）（）下一页θ=θ（|）的方式2001年1月，v=0，d> w。q y=0x.qx，vIP FN RN DPobservability真假假真观察标签1 0 0 1属性标签1 1 0 1（十五）表3：四种样本类型的观察分布和归因后的实际分布的标签一致性可观测性是指模型在流训练过程中是否能够(1) 培训管道的不同设计，例如：如图2所示，选择wo和定义重复样本，最终导致q（y）的不同公式|（x）(2) 不同的建模选择p（d> wo |x，y = 1）或p（d>wo |y = 1）p（y = 1 |x）等。如图2所示，FNW/FNC [10]首先设置wo=4方法在本节中，我们详细介绍了我们提出的方法DEFUSE（DelayedFeedbackModeling with Unbiased Estimation）。我们首先介绍了我们的无偏估计的修正，分别加权四种类型的样本的重要性。然后，我们提出了一个两步优化DEFUSE。最后，为了进一步减少所观察到的偏差分布所造成的影响，我们设计了一个双分布建模框架，以充分利用实际分布下的即时转换。请注意，我们的DEFUSE适用于不同的训练管道，但为了便于描述，我们将在ES-DFM中的训练管道设计之上介绍我们的方法。4.1无偏时滞反馈建模正如我们在3.2.1节中所描述的，我们的目标是通过进一步优化假阴性样本的损失来实现无偏从等式（5，12），我们可以得到无偏估计：0，并在点击时将所有点击标记为阴性样本，L=<$q（x）dx<$q（v|x）p（x）p（y（v，d）|x）f（x，y（v，d）;f（x））dv.收集阳性样品，并在转化ub处作为DP重放时间; ES-DFM [27]和DEFER [5]保持合理的观察q（x）q（v|（x）θ（十三）时间w0，因此在t0+w0内发生的具有转换的点击可以被正确地标记为IP。ES-DFM的唯一区别其中，fθ（x，y（v，d）;带标签y（v，d）的问题（x））是观测到的sam的损失函数DEFER是ES-DFM只重放延迟的肯定，而DEFER复制所有点击（包括IP和RN）。 ES-DFM和DEFER都选择整体建模fdp x =pd> wo，y = 1 x = pd>wox，y= 1 py= 1 x。这些方法在样品复制机制上的这种差异最终导致它们的q y x的不同公式，分别如方程（9）、（10）和（11）所示qfnw（y = 0 |x）= 1 + p（y = 1|（十）（9）. 通常，先前的方法消除了p（x）通过假设p（x）<$q（x）[10，27]或设计适当的训练管道以保证相等的特征分布[5]。4.1.1DEFUSE的重要性权重在这项工作中，不同于以往的工作，侧重于复制机制，我们的目标是无偏CVR估计，通过适当地评估的重要性权重的x，y v，d; fθ x。如表3所示，观察到的样品可以正式分为四个部分。直觉，如果我们具有每个部分的所有标号，等式（13）可以重写为：q（y = 0 |x）= p（y = 0 |x）+fdp（x）（十）Lub=q（x）。.q（vi|x）wi（x，y（vi，d））<$（x，y（vi，d）;fθ（x））.dx，欧洲发展基金会1+fdp（x）vi1（十四）qdefer（y = 0 |x）= p（y = 0 |x）+2 fdp（x），（11）3.2.1局限性。尽管他们在减少偏见方面取得了成功，但我们没有-其中wi =p（x，y（vi，d））且i∈ {IP，FN，RN，DP}，服从vi=1，且vi∈ {0， 1}。请注意，目前的作品只是模型，注意到，由于在推导w x，y公式时引入了一个隐藏的缺陷，这些已发表的方法仍然未能实现无偏CVR预测。通常，重要性采样假设在从p x，y到q x，y的过渡期间没有值修改，而在第3.1节中提到的CVR预测中，即使对于相同的点击，来自q x，y的观察标签也可以暂时偏离到来自p x，y的地面真实标签。更具体和严格地说，如果我们将观察到的标签区分为v，并将有偏分布重新表示为q（x，v），我们有：观察到等式（8）中的阳性和阴性，其忽略了假阴性（FN）的影响并导致标签分布的偏差为了求解方程（14），我们首先引入潜变量z，其用于推断所观察到的阴性是否为FN，然后分别对这四种类型的观察样本的重要性权重wi进行建模。因此，等式（14）等价于：最小L ub惠敏 q（x）v（wDPlo <$fθ（x）+II P（wI P−wDP）logfθ（x））2016年1月1日，v=1θ。（十二）y=y（v，d）=∞0，v= 0，d=+∞+（1−v）（wF Nlogfθ（x）z+wRNlog（ 1−fθ（x））（1−z））dx因此，应表示为p（d>wo，y=1 |x）在等式（8）中被错误地视为实负值，导致次优性能和有偏差的CVR预测。S.t.WWWYu Chen，etal.373wIP（x）=wRN（x）=1+fdp（x）wDP（x）+wFN（x）=1+fdp（x），时滞反馈模型的标号校正渐近无偏估计WWW374（）（）（）（）（）∫F（）F（）下一页F（）..（）下一页（）下一页（）下一页•（）−（）z（x）=，（17）F（x）+1−f（x）dp（）下一页（）DP FNRN（）下一页（）下一页（）下一页（）下一页（）（−（））（）下一页等式（15），我们通过引入q（x，vDP）vDPwDP（x）logfDP（x）是相对稀疏的。因此，我们努力构建一个替代的学习框架，可以充分利用样本直接从观察到的分布。回想一下，与以前仅使用观察到的阳性和阴性样本的方法不同，我们将样本分为四种类型。 IP和DP分别表示立即转换和延迟转换。因此，我们采用多任务学习[11，15，19，26]框架来联合优化以下子任务：1）在窗口（Inw）模型：预测IP概率FI P（x）= p（y = 1，d ≤ wo|（x）(a) 模型架构。(b) 标记数据。在观察窗W。2）外窗（Outw）模型：预测DP概率FDP（x）outof w。那么总体图3：双分布模型的图示，其中Exp，Share Exp，Outw Exp分别表示单层in_window，shared和out_window专家网络。其中，wI Px、wDPx、wF Nx、wRNx表示重要性权重; II P是观察到的即时阳性的指示符。因此，我们设置wDPx= 1和wF Nx=fDPx，因为DP可以被观察到。补充材料中给出了详细的证明与标准的交叉熵损失相比，辅助任务fdp（x），用于对每个转换概率可以形式化为：p（y = 1 |x）= FIP（x）+FDP（x）。（十八）值得一提的是对于任务2），DPx模型必须在与F NW[10]相同的有偏观测分布上进行训练，wo′=0。因此，我们实现我们的DEFUSE的DPx模型，以实现无偏估计的重要性抽样。类似于公式（15）的推导，我们有：样本类型，而不是直接使用观察到的标签。4.1.2优化。接下来，剩下的问题是，LI P=p（x，yI P）yI PlogfI P（x）+（1−yI P）log（ 1−fIP（x））dx（十九）优化无偏损失函数。由于z在- 是的′使另一辅助模型zx预测隐藏z，以进一步将观察到的负样本解耦为真负样本和假负样本。+（1−vDP）wF′N（x）z′（x）logfDP（x）阴性样本：Lne <$=z（x）wF Nlogfθ（x）+（ 1−z（x））wRN log（ 1−fθ（x））（16）其中S. t.+（1−vDP）wR′N（x）（1−z′（x））log（1−fDP（x））.dx，（20）wD′P（x）+wF′N（ x）=1+fdp（ x），wR′N（ x）=1+fdp（ x），p（y = 1，d> wo|（x）p（y = 0 |x）+p（y = 1，d> wo|（x）其中zx是假阴性概率，表示观察到的阴性是真实阳性的概率。在实践中，我们实现了两种方法来建模z（x）：z1x=1frnx.这采用二元分类模型frnx来预测观察到的阴性是真阴性的概率[27]。对于frn模型的训练，排除观察到的阳性，然后将阴性标记为1，将延迟的阳性标记为0。• z2（x）=fdp（x）. 这采用CVR模型fθ（x），其中p x、yI P、qx、vDP分别表示子任务的训练数据集的分布，w′x、w′x和w′x是重要性权重，z′x作为隐藏模型以进一步推断假否定。最后，我们设计了多任务学习如图3a所示的架构，以通过联合优化联合损失来学习期望的CVR模型L=LI P+ LDP。（二十一）通过这样做，我们将延迟反馈建模分为无偏的窗口内预测和基于重要性的窗口外预测任务。注意，只有第二部分需要用重要性权重和隐藏变量z进行训练，这意味着由高方差引入的负面影响延迟模型fdpx间接模拟假阴性概率，能力对于fdp x的学习，延迟的正被标记为1，其他被标记为0。4.2双分布建模虽然理论上是无偏的，但我们的DEFUSE的潜在缺点是重要性权重w、隐藏模型z x以及特别是乘法项z x wFN和1 z x wRN的估计可能导致高方差。这通常意味着缓慢的收敛，并导致次优性能，特别是当反馈可以有效地限制推断w和z的5实验在本节中，我们首先描述实验设置，然后在公共和行业广告数据集上进行实验，通过回答以下研究问题来评估我们提出的模型RQ 1与其他最先进的方法相比，DEFUSE如何执行流式CVR预测任务pcvrInw数据输出数据Inw Gate出口门Inw Exp分享经验出口Exp预期/观察到的inw数据FN RN所需输出数据RN DPRN观察到的outw数据共享层IP·LDP=RN FNRNDPWWWYu Chen，etal.375−训练有素--------表4：Criteo和淘宝数据集的统计数据集用户数项目数量#特性转换次数样本数量平均CVR持续时间Criteo-5443173619801158988830.226960天淘宝数据集三亿八千二百万1 060万23208百万五十二亿0.0400521天RQ2DEFUSE在不同的复制机制？• RQ3不同组件（例如，隐变量估计为了证明相对于预训练模型的相对改进遵循以前的工作[5，27]，我们还评估了RI-AUC：AUCDEFUSE−AUC信息，观察窗口大小）和超参数设置影响DEFUSE？RI−AUCDEFUSE=AUCOracle−AUCPre−百分之百。5.1数据集我们在公共和工业数据集上评估了我们的实验。处理后数据集的统计数据见表4。Criteo1是用于延迟反馈建模任务的经过充分研究的公共数据集[2，5，10]。它是从Criteo实时流量数据中收集的，为期60天，有30天的归因窗口。我们使用点击和支付（如果存在）时间戳以及所有散列分类特征和连续特征来训练和评估。特别是，由于30天的归因期对于工业在线广告来说是无法忍受的，我们进一步推导出一天归因版本，即Criteo-1d，它使用在一天内转化的样本作为积极的。淘宝数据集是从淘宝系统的每日点击和转换日志中收集的。工业数据集包含约5.2 近4亿用户和1000万个项目之间的10亿次交互。我们设置wa=1天以等待每个样本的实际标签5.1.1数据流。我们将每个数据集分为两部分来模拟流训练环境。具体地，第一混洗部分用于预训练良好初始化的模型。为了防止标签泄漏，我们参考[5]的实践，如果转换发生在数据的第二部分，则将标签设置为0。对于第二部分，观察到的样本按点击时间排序，除了延迟和重复的样本按转换时间排序。然后，我们将数据按小时划分为了模拟在线流媒体，我们在第t小时的数据上训练模型，并在第t +1小时测试它们。报告的指标是流数据在不同时间的加权平均值5.2实验环境5.2.1评价我们应用三个广泛使用的评估指标来评估流式CVR预测性能：AUC是ROC曲线下面积，其评估转化和非转化样品之间分类结果的成对排序性能。PR-AUC是精确-召回曲线下面积，在CVR预测任务的偏斜数据中比AUC更敏感。NLL最初用于DFM [2]，其对CVR预测的绝对值敏感。在CPA模型中，预测的概率是重要的，因为它们直接用于计算印象的价值。1 https://labs.criteo.com/2013/12/conversion-logs-dataset/这表明DEFUSE的相对改进显然，相对改善越接近100%，该方法执行得越好。5.2.2基线。我们将DEFUSE与以下最先进的方法进行了比较：预训练：该模型由数据的第一部分训练，但不对流数据进行连续训练其余的方法都是在此模型的基础上进行流模拟的。Oracle：使用地面实况标签而不是观察标签进行微调的模型，它表示延迟反馈建模的上限。Vanilla：使用标准交叉熵损失，使用等待窗口但没有任何重复样本的Vanilla-Win：Vanilla-Win在具有等待窗口的流数据上进行训练。 DP样本与实际标签复制，并在转换后重新发送到训练管道。FNW[10]：使用假负加权损失在预训练模型之上进行微调的模型FNC[10]：使用假负校准损失在预训练模型之上进行微调的模型ES-DFM[27]：它在与Vanilla- Win相同的流数据上进行训练，但引入了辅助任务并使用ES-DFM损失。DEFER[5]：该模型在DEFER管道上训练，如图2所示，具有DEFER损失。我们还尝试了DFM [2]，但发现延迟反馈损失难以收敛于我们相当大的工业数据集，因为难以基于强分布假设估计延迟时间。因此，尽管它在Criteo中取得了令人满意的性能，但我们没有选择它进行比较。5.2.3参数设置。我们在张量流中实现了DEFUSE. 为了进行公平的比较，我们调整了每个模型的参数设置所有型号的隐藏单位都是固定的，隐藏大小为256，256，128。Leaky ReLU [16]和BatchNorm层[7]被附加到每个隐藏层。所有方法都是用Adam [9]训练的，以进行优化。对于所有模型的基本参数设置，我们采用网格搜索策略在0。0001，0。0005，0。001，0。01之间搜索学习率。0001，0。0005，0。001，或直接复制原始论文中报告的最佳参数设置[10，27]。此外，我们将等待窗口调整为0。25，0。5， 1小时。使用相同的预训练模型来初始化在线模型。··············时滞反馈模型的标号校正渐近无偏估计WWW376数据集度量Criteo-30 d Criteo-1d淘宝数据集AUC RI-AUC PR-AUC NLL AUC RI-AUC PR-AUC NLL AUC RI-AUC PR-AUCNLL表5：AUC、RI-AUC、PR-AUC和NLL方面的总体性能比较由于篇幅限制和相似趋势，省略了RI-PR-AUC和RI-NLL方面的结果粗体表示性能最好的方法。预训练0.8307 0%的百分比0.62510.40090.82850%的百分比0.52180.30010.80150%的百分比0.60740.1516香草0.8098-108.29%0.59020.54530.838453.38%0.54080.30880.804732.65%0.61680.1504香草温0.837535.23%0.62880.40550.838552.91%0.54080.30880.805944.90%0.61690.1495Oracle0.8500百分百0.64680.38690.8474百分百0.55190.28740.8113百分百0.61970.1470FNCFNWES-DFMDEFER0.83730.83760.83960.838234.20%35.75%46.11%38.86%0.62220.63100.63840.63380.46880.39710.39470.48000.83430.83480.84590.846330.69%33.33%92.06%百分之九十四点一七0.48060.49820.54920.54900.31450.33670.28850.30980.80530.80540.80660.806538.78%39.80%52.04%51.02%0.61500.61480.61550.61530.14950.14970.14940.1529化解Bi-DEFUSE0.84080.837952.33%37.31%0.64000.63010.39460.39630.84650.8467百分之九十五点二四百分之九十六点三0.54900.54990.30860.30920.80690.808055.10%66.33%0.61770.61850.14890.15125.3性能比较（RQ 1）为了展示DEFUSE的整体性能，我们进行了表6：在Criteo中不同复制机制下DEFUSE的性能。在Criteo和淘宝数据集上随机运行5次，并报告所有方法的平均结果见表5。性能最好的方法是粗体。分析这种性能比较，我们有以下观察结果：我们的方法在所有数据集上都得到了显著的改进。特别是，DEFUSE和Bi-DEFUSE在最强基线w上有所改善。R. t. CRiteo-30 d、CRiteo-1d和淘宝数据集中的RI-AUC分别增加6.22% 、2.13% 和15.31%。与以往在重要性抽样过程中只利用观察到的阳性和阴性样本的方法不同，我们将观察到的分布分为四种类型的反馈，并引入一个辅助任务来从观察到的分布中推断假阴性数据集Criteo-30dCriteo-1d底片。此外，在Criteo-1d上，通过比较相对度量RI-AUC，与其他方法相比，我们的方法可以显着缩小延迟反馈间隙。请注意，如[30]中所报告的，离线AUC的小幅改善可导致流式CTR的显著增加。在我们的方案中，CVR预测中即使0.1%的AUC改善也是实质性的，并实现了显著的在线推广。ES-DFM和DEFER通常比FNW和FNC实现更好的性能。这种改进可以归因于具有适当调整的w0的复制机制，其为标签准确性和样品新鲜度之间的权衡提供了良好的平衡。Vanilla-Win和Vanilla之间的比较也表明了复制机制的重要性。与预训练的模型相比，几乎所有的连续学习方法都表现出良好的性能。这证实了利用新鲜样品进行CVR 预测的显著优势。Vanilla在Criteo-30 d上表现不佳，但在Criteo-1d上获得了更好的结果，这可能是由于观察到的分布与具有较长wa的地面真实分布偏离得更多。这也表明了利用所有转换和执行延迟反馈建模的无偏估计的重要性。此外，当与ES-DFM相比时，DEFER也证明了类似的性能。等结果可以归因于由长期归因窗口引起的分布偏差-它将来自30天之前的真实阴性样本摄取到训练管道中5.4不同复制机制下的实验（RQ 2）回想一下，我们的DEFUSE是无偏的，可以应用于不同的复制机制。为了进一步验证性能，我们使用不同的训练管道分别对FNW，ES-DFM和DEFER应用的Criteo数据集进行了实验，并在表6中报告了AUC和RI-AUC结果。一般来说，通过标签校正和加权的四种类型的观察到的样本的重要性，我们的无偏估计表明，在三个重复的管道性能的持续改善。5.5DEFUSE研究（RQ3）对DEFUSE的烧蚀研究也是为了调查一些设计的合理性和有效性-更具体地说(1)隐藏变量z的不同估计如何影响性能，（2）Bi-DEFUSE的每个组件的贡献，以及(3)不同属性窗口长度对系统性能影响。···推迟0.838238.86%0.8463百分之九十四点一七度量AUC RI-AUCAUCRI-AUCFNW0.837635.75% 0.834833.33%FNW+DEFUSE0.839344.60% 0.835134.92%ES-DFM0.839646.11% 0.845992.06%ES-DFM+DEFUSE0.840852.33% 0.8465百分之九十五点二四WWWYu Chen，etal.377（）下一页（）下一页（）下一页--≤（）下一页（）下一页（）下一页（）下一页表7：隐变量推断方式的影响W. R. t. Criteo中的AUC和RI-AUC。0。8450。6000。8401d3D7d14d30d归因窗口0。5501d3D7d14d30d归因窗口0。85000。84500。84000。83500。8300Criteo-30dCriteo-1d0。65000。60000。55000。5000Criteo-1d图5：不同窗口长度对wa的影响。ind一致占优势，表明IP和DP可以有很大的不同，独立的模型有效地避免了使用共享模型预测IP和长DP所引起的冲突。然而，ind在工业场景中是非常不切实际的，因为它使计算和存储消耗加倍。Bi-DEFUSE在Criteo-1d上仍然达到了与ind相当的性能，这可能是因为较小的wa不仅(a) AUC(b) PR-AUC大大提高了IP的比例，使无偏估计更具有决定性;但也有效地限制了差异图4：Bi-DEFUSE的消融研究5.5.1估计z x的影响。由于假底片被错误地标记，因此进一步引入隐藏变量z以推断观察到的底片是否是假底片。因此，我们实现了一个额外的辅助模型-z x，直接预测FN从观察到的负面。如第4.1.2节所介绍的，实验了不同的建模z x选择。此外，为了进一步探索我们的两步优化的上限，我们还研究了DEFUSE的理想性能，在IP和DP之间，允许引入共享网络。5.5.3Bi-DEFUSE w. R. t. 不同的WA。如表5所示，Bi-DEFUSE的性能可能随着长时间的工作而降低。为此，我们深入研究了不同归因窗口的影响由于DEFUSE始终优于基线方法，为了进行明确比较，我们仅在Criteo数据集上评估了wa = 1、3、7、14、30天的DEFUSE和Bi-DEFUSE的性能。图5中报告的结果表明，Bi-DEFUSE以较小的wa实现了更好的性能，zoracle ∈{0， 1}，表示z的地面真实标签。作为例如，在一个实施例中，w在AUC和PR-AUC方面为7，因为较小的w不仅使IP的无偏预测更加重要，而且如表7所示，以下是一些观察结果：DEFUSE+z1始终优于DEFUSE+z2。我们相信这样的改善，以减少高方差的z x。z2x的预测显然涉及两个独立模型之间的划分，这可能导致不稳定的估计和次优性能。DEFUSE+zoracle一致地实现了最佳性能，这表明通过进一步改进z x的预测来优化我们的无偏估计的潜力。我们还注意到，在Criteo-1d上+z1和+

下载后可阅读完整内容，剩余1页未读，立即下载