DCAF-BERT：广告点击率预测的高速缓存自适应因子分解模型

192 浏览量更新于2023-11-29 收藏 816KB PDF 举报

亚马逊广告

点击率预测

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

110→DCAF-BERT：一种改进的广告点击率预测的可缓存自适应因子分解模型Aashiq登录muhaaash@amazon.com亚马逊美国加利福尼亚州帕洛阿尔托ImanKeivanlooimankei@amazon.com亚马逊美国西雅图YiXuyxaamzn@amazon.com亚马逊美国西雅图JaspreetSinghjazsingh@amazon.com亚马逊美国加利福尼亚州帕洛阿尔托Sujan Perera根据esuja@amazon.com亚马逊美国加利福尼亚州帕洛阿尔托崔庆军qingjunc@amazon.com亚马逊美国加利福尼亚州帕洛阿尔托ShuaiZhengshzheng@amazon.com亚马逊网络服务美国加利福尼亚州圣克拉拉jmracek@amazon.com亚马逊美国加利福尼亚州帕洛阿尔托SantoshRajagopalansyrgn@amazon.com亚马逊美国加利福尼亚州帕洛阿尔托摘要zengb@amazon.com亚马逊美国西雅图TrishulChilimbitrishulc@amazon.com亚马逊美国西雅图CCS概念在本文中，我们提出了一个点击率（CTR）预测模型，在亚马逊的产品广告。CTR预测是具有挑战性的，因为模型需要a）从文本和数字特征中学习，b）在推理时保持低延迟，c）适应于时间广告分发转移。我们提出的模型是DCAF-BERT，一种新型的轻量级高速缓存友好的因子分解模型，由双结构的BERT类编码器组成的文本与表格和数字特征的后期融合机制。模型的因子分解允许进行分区再训练，这使得模型能够容易地适应分布变化。双编码器经过精心训练，以利用历史CTR数据，使用大型预训练语言模型和跨架构知识蒸馏（KD）。我们实证地找到了教师和学生的预训练，蒸馏和微调策略的正确组合，这导致了1.7%的ROC-AUC提升，超过了之前离线的最佳模型。在一个在线实验中，我们表明，我们的分区刷新策略在一个月内一致地将DCAF-BERT的CTR平均提高了3.6%本作品采用知识共享署名国际协议（Creative Commons AttributionInternational）授权4.0许可证。WWW©2022版权归所有者/作者所有。ACM ISBN978-1-4503-9130-6/22/04。https://doi.org/10.1145/3487553.3524206• 信息系统赞助搜索广告;在线购物;语言模型;信息检索的新颖性。关键词点击率，语言模型，提炼，赞助搜索ACM参考格式：Aashiq Zahed，Jaspreet Singh，Shuai Zheng，Iman Keivanloo，SujanPerera，James Mracek，Yi Xu，Qingjun Cui，Santosh Rajagopalan，Belinda Zeng，and Trishul Chilimbi. 2022年DCAF-BERT：一种改进广告点击率预测的可缓存自适应因子分解模型。在网络会议2022（WWW '22同伴）的同伴程序，2022年4月25日至29日，虚拟活动，里昂，法国。ACM，美国纽约州纽约市，6页。https://doi.org/10.1145/3487553.35242061介绍在亚马逊，赞助产品的广告是在给定产品的登陆页面上提供的（图1）。①的人。赞助产品的选择取决于正在查看的当前产品，并且顺序由ML模型确定，该ML模型对许多特征进行操作，包括产品标题和描述等文本特征、广告商名称等上下文特征以及总销售额等历史特征。CTR预测是具有挑战性的，这是由于（i）部署约束<-模型必须以高吞吐量和低（5 ms）平均延迟服务每秒数百万个请求，以及（ii）用户偏好，其可能由于特殊事件、新活动、季节性和其他因素（例如，大流行病）。为了适应这种不断变化的分布，模型必须通过每天或每小时的节奏进行重新训练来经常更新。WWWJ.S.，et al.111（一）|）的方式θ表1：产品广告的CTR特征汇总特征组样本特征要素计数分布移位时标文本产品标题、描述4长（101个月）上下文应用程序名称、广告商名称3中（101周）历史总销售额（每件产品）13短（101小时）图1：电子商务网站上显示的示例产品。对于给定的产品（页面产品），广告产品的列表显示在同一网页的底部这意味着CTR模型必须是轻量级的（快速推理），训练/重新训练经济（降低成本），并提高性能（更好的客户体验）。在本文中，我们概述了如何利用大型语言模型（LLM），知识蒸馏和使用DCAF-BERT的分区训练来解决这3个核心租户-DCAF-BERT是一种对文本和表格特征进行因子分解允许离线预先计算基于BERT的文本特征并将其缓存在内存中。因此，推理时的成本仅来自后期融合层该融合层是一个轻量级的多层感知器（MLP），可以满足严格的推理延迟和吞吐量要求。以每小时的节奏刷新或重新训练大型基于BERT的模型是非常昂贵的，并且在没有昂贵的GPU硬件的情况下是不可行的我们观察到，产品标题和描述等文本特征在较长的时间尺度上比过去一天的总销售额等数字特征表现出分布变化利用我们模型的因子分解性质，我们可以以每小时的节奏刷新后期融合层（MLP），并以更长的节奏刷新twin-BERT主干（例如，每月）。为了进一步降低成本，同时保持LLM的优势，我们利用2个关键见解：（i）我们有大量陈旧的历史CTR数据，可用于训练特权但改进的教师模型（ii）我们可以使用跨架构知识蒸馏将模型缩小到可缓存变体。在离线实验中，我们评估教师和学生模型的初始化，蒸馏和微调设计选择。我们表明，初始化起着关键作用-对历史数据进行跨架构蒸馏，然后进行微调，比直接在最近数据上训练一个较小的模型要好1.5%。在同一模型的软标签上进行自我训练或训练，可以进一步提高0.15%的性能。此外，我们在真实用户流量上的经验表明，DCAF-BERT的分区刷新策略在性能（CTR提升比MLP基线模型高3.6%）和成本（比每天刷新BERT塔便宜25倍）方面达到了最佳平衡。2方法问题定义：如果y是表示客户点击的二进制随机变量，则CTR预测任务是估计条件点击概率Pyx，给定输入特征x表示一对页面和广告产品（参见图10）。①的人。表1提供了各种输入特性的高级摘要。对于我们在图中的例子1，“白色产品标题）表示页面产品，其评级值（11.3K）是数字特征，而“电缆类型”是分类特征。这些特征也可以根据它们的分布变化时间尺度进行分类-产品标题等文本特征变化缓慢，通常在一个月以上的时间内保持不变，而销售价值等历史特征随着人们每小时购买产品而迅速变化。2.1DCAF-BERT我们提出了一种知识蒸馏的方法来训练DCAF-BERT。这是因为我们有大量的过去点击数据，可以被大型语言模型利用然后，我们使用跨架构蒸馏将其蒸馏为更小的双编码器，这比从头开始训练更有效[9]。教师模型训练：我们的教师模型是一个单独的大型预训练BERT塔，在MLP层之前有一个额外的层规范。在微调过程中，特征（文本、上下文和历史）被转换为它们的字符串表示，并与它们的特征名称连接在一起。来自Page和已认证产品的令牌与[SEP]令牌分开输入示例如下所示：“[CLS] Page_product_title：title Page_product_num_feat1：num_feat，Page_product_cat_feat1：cat_feat [SEP] Ad_product_title：titleAd_product_num_feat1：num_feat，Ad_product_cat_feat1：cat_feat”。跨领域使用MLM进行培训，可以学习强大的跨特征表示[7] 通过注意力机制。学生模型训练：DCAF-BERT学生模型体系结构专为在线推理场景而设计。它是一个缓存友好的模型，有两个独立的手臂分别用于页面产品对应于每个分支中的[CLS]令牌的文本嵌入（以灰色突出显示）可以为给定电子商务目录中的每个产品预先计算和缓存在推理时，这些表示从缓存中检索，并通过后期融合层与其余特征连接，以进行最终CTR预测。因此，推断时间的成本仅来自后期融合层我们使用跨架构蒸馏或蒸馏来训练学生，从大的交叉注意教师模型到DCAF-BERT学生模型。更具体地说，我们寻找一个BERT-CTR学习者ps，它由 θ参数化，接近老师pt。让DCAF-BERT：一种改进的广告点击率预测的可缓存自适应因子分解模型WWW112（）（/）J由f表示的学生/教师网络的温度软化输出由pfτ=softmaxzfτ给出，其中zf是logits向量，τ是温度。为了学习最佳学生θ θ，我们最小化交叉熵（CE）损失和Kullback Leibler（KL）发散损失与教师的组合[5]。θ=argminθE （ x ，y ）<$P[（ 1−α）LCE（ps（ 1），y）+αLKL（ps（τ），pt（τ））]，3.2模型教师：在我们所有的实验中，我们使用了一个15亿参数的教师模型，该模型使用MLM对亚马逊产品数据进行了预训练，并对过去的数据进行了1个时期的微调。教师使用48层，隐藏大小=1600，25个注意头和中间暗淡=6300。我们使用Adam优化器，lr= 2 e-5，权重衰减= 1 e-2，dropout = 0.1。[10]显示将教师模型大小缩放到1.5θ θLCE（ps（1），y）=j−yjlogps（ 1），10亿个参数，显著提高性能（ROCAUC增加2.59%）超过MLP基线。θs t2tJpt（τ）基线：我们使用3层MLP基线（6500万个参数），ReLU激活经过精心设计，以满足以下延迟：LKL（pθ （τ），p（τ））=τjpj（τ）logJ.ps（τ）CTR任务。MLP类似于DCAF-BERT融合层，使用学习的词嵌入矩阵来代替BERT嵌入。这里的求和j是对类的数量的在使用类似于BERT的预训练LLM进行CTR预测方面存在很少的工作。虽然深度学习模型最近在CTR预测中获得了吸引力[14]，但为了满足延迟要求，根据现代深度学习标准，这些模型仍然相对较浅。例如，DCN-V2 [13]中最大的模型使用了500万个参数。其他方法，如[8] 利用多头自注意层来编码文本和其他特征，但不使用预先训练的模型表示。我们向读者指出[14]对现有方法的概述3实验出于反复微调大型教师模型的成本考虑，我们研究了知识蒸馏和分布转移之间的相互作用，在这种情况下，大型教师模型在分布外的历史数据上训练一次，随后被冻结。给定一个在过去数据上训练的冻结教师，我们提出这样一个问题：在有大量过去标记数据和有限的最近标记数据的情况下，最大化学生最近数据性能的最佳训练策略是什么？3.1数据集过去的数据我们从2020年的在线流量中选择列车测试拆分数据在时间上被划分：在2020年选择一个参考点后，训练集从这个参考点之前的数据中均匀采样，测试/验证集在参考点之后采样。由于点击的比例远小于数据集中的非点击，因此通过对主导（非点击）类进行下采样来在训练集中平衡这两个类。我们不会人为地平衡测试集，它仍然以95：5的比例向非点击倾斜。训练集由10亿个数据点组成，测试和验证集各由约2500万个点组成。最近数据列车测试拆分从2021年在线流量中采样，并以与过去数据相同的方式进行平衡训练集包含2亿个数据点，测试集和验证集各包含2500万个点。预处理所有的文本数据都是使用句子块标记器[6]进行预处理的。一个字节对编码[12]子词汇的32000令牌是从训练语料库构建。测试和评估所有指标都在最近数据的测试集上报告由于任务是二进制分类，我们报告的ROC-AUC，这是经常使用的不平衡分类。对于离线实验，我们对模型进行了2个时期的微调。DCAF-BERT学生：DCAF-BERT是一个7000万参数的学生模型，其中两个BERT塔之间的参数是共享的。DCAF-BERT使用6层，隐藏大小=768，16个注意头和中间dim=3072。我们使用Adam优化器，权重衰减= 1 e-2，dropout = 0.1。在蒸馏过程中，我们使用lr= 1 e-4并训练3个epoch，而在微调过程中，我们使用lr= 1 e-5并训练2个epoch。 DCAF-BERT可以在不到一天的时间内在8个A100 GPU上训练（<1000美元）。3.3培训战略使用2020年的过去数据集和2021年的最近数据集，我们研究了初始化，蒸馏和微调策略的各种组合对学生成绩的影响。首先用选定的初始化策略初始化学生，然后使用指定的蒸馏策略预微调，最后使用微调策略微调。特别是，我们研究了以下顺序应用的策略：(i) 训练策略：这可以是（a）随机初始化之一，其中学生在预训练之前使用与BERT初始化类似的正态分布权重进行初始化[2]（b）Masked Language Modeling（MLM），我们在亚马逊产品数据上使用MLM预训练学生，类似于[11]中的方法。（c）对标记的过去数据的监督学习。(ii) 作为预微调策略的蒸馏：（a）不蒸馏，（b）过去蒸馏，其中我们在过去数据集教师的软标签上训练学生，（c）最近蒸馏，其中我们在最近数据上使用来自过去数据集教师的软标签进行蒸馏，使用最近数据软标签验证损失进行早期停止。我们认为，最近的数据蒸馏可以帮助模型在预微调期间看到最近的数据协变量，以进一步帮助最近数据的下游性能。(iii) 微调战略：（a）对最近的数据进行常规微调（b）自我训练，我们使用微调的最近数据学生来进一步标记过去和最近的数据，然后使用这些标签进行第二轮微调。 [3，15]中的最近工作表明，在低传输数据学习机制中，自训练提供了与监督和自监督预训练正交的增益。3.4结果我们比较了我们的模型的初始化，蒸馏和微调策略的不同组合的性能，WWWJ.S.，et al.113表2：DCAF-BERT学生在各种初始化、蒸馏和微调策略选择下的表现。我们报告了微调后最近数据测试集的ROC-AUC。方法初始化蒸馏微调最近AUC老师随机无KD无微调63.53%MLP基线随机无KD香草75.43%1随机无KD香草75.42%2传销无KD香草75.93%3监督无KD香草75.48%4随机过去KD香草76.73%5传销过去KD香草76.92%6监督过去KD香草76.84%7随机最近KD香草75.60%8传销最近KD香草76.22%9监督最近KD香草75.62%10监督过去KD自我训练77.02%11传销过去KD自我训练77.07%表2. 在过去的数据上训练而没有对最近的数据进行任何微调的教师模型仅实现了63.53%的ROC-AUC。MLP基线和无MLM或蒸馏的DCAF-BERT（方法1）均达到75.42%的相当ROC-AUC。我们最好的DCAF-BERT方法（MLM，Past KD，Self-training）实现了77.7%的ROC-AUC。a) 哪种初始化策略可以获得最佳结果？我们计算了3个初始化策略，对应于一个特定的蒸馏策略。当我们检查无KD的方法1，2，3，Past KD的方法4，5，6和Recent KD的方法7，8，9时，我们看到随机初始化监督学习MLM预训练的下游性能这种趋势适用于所有的蒸馏和微调策略。监督学习和MLM都比随机初始化提高了性能。这种性能提升并不奇怪，因为自我监督预训练和监督训练有助于模型学习推广到分布外数据的特征[1]。我们的研究结果表明，特别是MLM目标是优于监督学习目标，即使有大量的标记过去的数据。b) 哪种蒸馏预微调策略可获得最佳结果？当我们比较方法1，4，7;方法2，5，8和方法3，6，9时，我们看到在不同的初始化策略中，模型的性能通过无KD<最近KD<过去KD进行了预微调。 Past KD和Recent KD都有助于从Past data teacher学习，并提高模型性能。这与文献中的结果一致[4]。为什么最近的KD表现不如过去的KD？我们推测，在低分布的近期数据体系中，为了有效地从过去的数据教师学习，学生需要更大的数据分布支持以进行有效的预微调。c) 自我训练是否提供了额外的动力？我们发现，在香草微调（方法10和11）之后进行自我训练微调，在最近的数据上，比方法5和6提供了额外的性能提升。这表明自训练是从标记的过去数据中学习的另一种有效方法，并且性能增益与初始化和重复训练的增益互补当不可行，以适应教师分布转移，因此，我们建议传销，过去KD，自我培训策略。图2：7天内DCAF-BERT相对于MLP基线的平均CTR（5分钟内平滑）。广告和网页产品指数点击率也显示。垂直虚线表示BERT主干被刷新并且Page和Ad索引被重新生成时的点d) 知识蒸馏是否能提高过去数据集上的超监督学习的性能如果我们必须在初始化和蒸馏预微调之间进行选择，比较方法2（MLM），3（监督学习），4（过去KD），我们发现从过去数据集学习的最佳策略是首先训练一个大的老师（MLM，香草微调），然后将这个老师蒸馏成一个小的学生，这比MLM初始化或单独的监督学习要好得多。在过去的数据上训练一个大型教师可以显着提高最近数据的性能。3.5在线评估我们进行了一个在线实验，在Amazon电子商务详细页面服务中测试了DCAF-BERT。页面产品（前7天）和广告产品（前1天）的嵌入是使用7000万参数DCAF-BERT主干离线准备的，并在分布式数据库中索引以供服务。索引中的嵌入以定期的节奏（每3.5天）重新计算，以使用最新刷新的BERT骨干提供新广告。 DCAF-BERT MLP层和MLP基线每天重新训练，而DCAF-BERT BERT主干每月重新训练。基于命中率标准确定索引再生周期，并且基于CTR提升标准确定模型刷新周期。图2显示了一周内DCAF-BERT相对于MLP的平均CTR，以及页面和广告产品嵌入索引的点击率。垂直虚线表示BERT骨干被重新训练和嵌入索引被重新生成的点。我们观察到，BERT刷新有助于增加DCAF-BERT相对于基线的CTR提升，并且这种提升持续延长的时间段，而无需额外的骨干再训练。在索引重新生成之间，页面和广告命中率下降，这导致DCAF-BERT的CTR提升相对于基线下降。与基线相比，DCAF-BERT平均将CTR提高了3.6%。此外，我们观察到尾部流量的CTR提升率为8+%，这表明DCAF-BERT比基线更好地推广。4结论在本文中，我们解决了将大型语言模型应用于CTR预测的一些重大挑战。我们提出了一种新的，轻量级的因式分解DCAF-BERT模型，满足在线延迟要求，同时价格低廉，以适应CTRDCAF-BERT：一种改进的广告点击率预测的可缓存自适应因子分解模型WWW114分布偏移通过使用陈旧的预训练LLM教师的标签进行广泛的实证研究，我们表明，学生MLM预训练，蒸馏预微调和自我训练可以帮助学习表示，最大限度地提高性能时，受分布变化。致谢我们要感谢RJ George、Sandy Cheng和Anthony Ko在培训基础设施和数据管道方面提供的帮助WWWJ.S.，et al.115引用[1] Tom B Brown ， Benjamin Mann ， Nick Ryder ， Melanie Subbiah ， JaredKaplan，Prafulla Dhariwal，Arvind Neelakantan，Pranav Shyam，GirishSastry，AmandaAskell，et al. 2020.语言模型是少数成功的学习者。arXiv预印本arXiv：2005.14165（2020）。[2] JacobDevlin ， Ming-WeiChang ， WendonLee ， andKristinaToutanova.2018年Bert：深度双向转换器的预训练，用于语言理解。 arXiv预印本arXiv：1810.04805（2018）。[3] Jingfei Du，Edouard Grave，Beliz Gunel，Vishrav Chaudhary，Onur Celebi，Michael Auli，Ves Stoyanov，and Alexis Conneau.2020年。自我训练改进了自然语言理解的预训练。arXiv预印本arXiv：2010.02194（2020）。[4] 米切尔·A·戈登和凯文·杜。2020年。Distill，adapt，distill：训练用于神经机器翻译的小型域内模型。arXiv预印本arXiv：2003.02877（2020）。[5] 杰弗里·辛顿，奥里尔·维尼亚，杰夫·迪恩.2015年。在神经网络中提取知识。arXiv预印本arXiv：1503.02531（2015）。[6] 工藤拓和约翰·理查森。2018年Sentencepiece：一个简单的、独立于语言的子词分词器和去分词器，用于神经文本处理。 arXiv预印本arXiv：1808.06226（2018）。[7] 纪尧姆·兰普尔和亚历克西斯·康诺。2019.跨语言语言模型预训练。arXiv预印本arXiv：1901.07291（2019）。[8] 李泽宇，卫诚，杨晨，陈海峰，王伟。2020年。通过层次注意预测可解释的点击率。第13届Web搜索和数据挖掘国际会议论文集。313-321[9] 卢文豪，焦健，张若飞。2020. Twinbert：将知识提取到双结构的bert模型中，以实现高效检索。arXiv预印本arXiv：2002.06275（2020）。[10] AashiqZeded ， Iman Keivanloo ， Sujan Perera ， James Mracek ， Yi Xu ，QingjunCui，Santosh Rajagopalan，Belinda Zeng，and Trishul Chilimbi. 2021.CTR-BERT：十亿参数教师模型的成本效益知识蒸馏。 NeurIPS高效自然语言和语音处理研讨会。[11] Iulia Turc，Ming-Wei Chang，Wendon Lee，and Kristina Toutanova.2019年。读得好的学生学得更好：关于预训练紧凑模型的重要性。 arXiv 预印本arXiv：1908.08962（2019）。[12] Changhan Wang，Kyunhyun Cho，and Jiatao Gu. 2020. 具有字节级子字的神经机器翻译。在AAAI人工智能会议论文集，第34卷。9154-9160。[13] Ruoxi Wang，Rakesh Shivanna，Derek Cheng，Sagar Jain，Dong Lin，LichanHong，and Ed Chi.2021年DCN V2：改进的深度交叉网络和网络规模学习排名系统的实践课程在2021年的网络会议上。1785-1797年。[14] Weinan Zhang，Jiarui Qin，Wei Guo，Ruiming Tang，and Xiuqiang He.2021年深度学习用于点击率估计。arXiv预印本arXiv：2104.10584（2021）。[15] Barret Zoph，Golnaz Ghiasi，Tsung-Yi Lin，Yin Cui，Hanxiao Liu，EkinD Cubuk，and Quoc V Le.2020年。重新思考预训练和自我训练。 arXiv预印本arXiv：2006.06882（2020）。

下载后可阅读完整内容，剩余1页未读，立即下载