CrossDQN：交叉深度Q网络在广告分配中的应用

11 浏览量更新于2023-11-29 收藏 895KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

401→Cross DQN：用于Feed中广告分配的Cross Deep Q网络廖国刚1 <$，王泽1 <$，吴晓旭1，石晓文1，张楚恒2，王永康1，王星星1，王东11中国北京美团2中国北京清华大学国际信息学院{liao guogang，wangze 18，wuxiaoxu04，shixiaowen03}@meituan.com，zhangchuheng123@live.com，{wangyongkang03,wangxingxing04,wangdong07}@meituan.com摘要电子商务平台通常在Feed中显示广告和有机项目的混合列表一个关键的问题是如何分配feed中有限的位置，以最大限度地提高整体收入并改善用户体验，这需要一个好的用户偏好模型。代替对单个项目对用户的影响进行建模，布置信号对项目的布置的影响进行建模，并且可以导致更好的分配策略。然而，大多数以前的策略未能模拟这样的信号，因此导致次优性能。此外，广告曝光率（PAE）是广告分配的重要指标过高的PAE会损害用户体验，而过低的PAE会降低平台收入。因此，如何将PAE约束在一定范围内，同时保持个性化推荐在PAE约束下是一个挑战。本文提出了交叉深度Q网络（Cross Deep Q Network ，CrossDQN），通过交叉不同项目的嵌入，并对交叉序列进行多通道注意建模，提取关键排列信号。此外，我们提出了一个辅助损失的批量级约束PAE，以解决上述挑战。我们的模型比离线实验中最先进的基线带来更高的收入和更好的用户体验。此外，我们的模型在在线A/B测试中表现出了显著的改进，并已在美团饲料上全面部署，为超过3亿客户提供服务。CCS概念• 信息系统计算广告;在线广告;广告分配。关键词广告分配，深度强化学习，排列信号，自适应广告曝光ACM参考格式：廖国刚1 <$，王泽1 <$，吴晓旭1，石晓文1，张楚恒2，王永康1，王星星1，王东1. 2022年Cross DQN：February 2009Deep Q Network用于Feed中的广告分配在ACM Web Conference 2022（WWW '22）的会议记录中，2022年4月25日至29日，虚拟活动，法国里昂。ACM，NewYork，NY，USA，9页。https://doi.org/10.1145/3485447.35121091引言饲料，混合有机产品和广告，是当今许多电子商务平台上的热门产品[7]。平台通过feed服务用户并获得收入一般来说，平台获取收入的途径有两种. 首先，一旦用户消费有机商品或广告，电商平台将根据订单获得平台服务费（以下简称费用）。其次，当用户点击广告时，平台将向相应的广告商收取费用为了平台的利益，显示更多的广告有利于广告收入，但对费用有害，因为广告不太可能比有机项目更吸引人[23]。通常，广告的数量是有限的，以确保良好的用户体验和参与。因此，如何合理有效地分配有限的时隙，以最大限度地提高整体收益，已成为一个非常有意义和具有挑战性的问题[11，16，22]。行业广告分配系统的结构如图1所示。混合服务器将广告序列和有机物品序列作为输入，并输出两者的混合序列。对于Blending Server，有两种常用的策略：固定时隙策略和动态时隙策略.大多数平台只是将广告分配到预先确定的位置[10，13]。这种策略可能导致次优的整体性能。动态广告位策略根据用户的兴趣调整广告的数量和广告位例如，如果用户有更高的消费商业广告的倾向，平台将在显眼的位置分配更多的广告，以最大限度地提高可能的利益。除了个性化之外，动态广告位策略具有较低的广告盲目性[21]和更好的适应性，显著优于固定广告位策略，并逐渐成为当今早期的动态插槽策略使用一些排名广告[2]廖国刚和王泽为通讯作者。这份工作是张楚航在美团实习时做的。允许制作本作品全部或部分的数字或硬拷贝，...排名有机项目oi1请求结果共混服务器用户教室使用是免费的，前提是复制品不是为了盈利或商业利益而制作或分发的，复制品的第一页上有这个通知和完整的版权的组成部分，这项工作所拥有的其他人比ACM必须尊重。允许使用学分进行摘要以其他方式复制、重新发布、在服务器上发布或重新分发到列表，需要事先获得特定许可和/或付费。请求权限请发邮件至permissions@acm.org。WWW有机项目有机排名oi2...日志©2022计算机协会ACM ISBN 978-1-4503-9096-5/22/04。. . 十五块https://doi.org/10.1145/3485447.3512109图1：广告分配系统的结构广告分配的过程发生在混合服务器中。广告Ad排名...广告2ad1oi1学习者广告2模型ad1WWW廖国刚和王泽，等。402S AC•S∈S•A∈A请求插入广告2请求2相关作品传统的Feed广告分配策略是在固定的位置显示广告。近年来，动态广告分配策略受到越来越多的关注. 根据是否使用RL，现有的动态广告分配策略可以大致分为两类：非RL型和RL型。非基于 RL 的方法通常使用经典算法来分配广告时隙。Koutsopoulos[9]将广告分配定义为加权有向无环图上的最短路径问题，其中节点表示广告或插槽，边表示预期收入。通过运行Bellman-Ford算法可以找到最短路径。Fur-11，Yan等人，[21]第21话时间的影响图2：在饲料中插入广告2时，有机项目的CTR增加，而广告1的CTR下降。经典算法（例如，贝尔曼福特，统一排名得分），以allo- cate广告插槽。由于提要是按顺序呈现给用户的，因此最近的动态广告分配策略通常将问题建模为马尔可夫决策过程[14]，并使用强化学习（RL）[4，22，25]解决它。然而，现有的基于RL的动态槽策略遇到了几个主要的限制：i）大多数方法忽略了关键的安排信号，这是显示项目的安排对用户行为的影响。例如，如图2所示，一旦广告被插入到提要中，周围的有机项目和广告的点击率（CTR）就会波动。这个信号最近在重新排名的情况下受到关注[2，5，6，19]，但在广告分配中很大程度上被忽视。ii）大多数现有方法在不同请求的个性化和对时段内广告暴露百分比（PAE）的约束之间缺乏有效的平衡。 PAE是广告分配中最重要的约束，它平衡了用户体验和平台收入。以前的方法将所有请求或请求限制在具有相同目标PAE的相同小时内[17]，导致在不同请求之间的广告分配中缺乏个性化和差异化。为了解决现有方法的局限性，我们提出了一种基于深度强化学习的新框架，称为Cross Deep Q Network（Cross DQN）。具体来说，我们设计了两个新的单元，称为状态和动作交叉单元（SACU）和多通道注意单元（MCAU）显式提取的安排信号。广告纳入考虑，并重新排名广告和有机项目共同通过一个统一的排名公式。基于RL的方法将广告分配问题建模为MDP，并使用不同的RL技术解决它Zhao等人[25]提出了一个两级RL框架，以联合优化推荐和广告策略。Zhao等人[24]提出了一种DQN架构来联合确定最佳广告和广告位置。Xie等人[20]提出了一种基于分层RL的框架，首先决定通道，然后确定每个插槽的特定项目与以前的工作相比，我们将安排信号到一个基于RL的动态广告分配模型，以提高性能。3 问题公式化在我们的场景中，我们在一个屏幕中显示K个插槽，并在请求提要中顺序处理每个屏幕的分配。广告分配问题被公式化为约束马尔可夫决策过程（CMDP）[1]（，，r，P，γ，），其元素定义如下：状态空间。状态s包括候选项的信息（即，在当前步骤t上可用的广告序列和有机项目序列），用户（例如，年龄、性别和历史行为），以及上下文（例如，订购时间）。行动空间。动作a是决定是否在当前屏幕上的每个槽上显示广告，其公式化如下：a=（x1，x2，. . . ，xK），（1）此外，我们还提出了一种辅助损失的批量级约束，以平衡不同请求的个性化和约束哪里 Xk=1在第k个槽中显示广告，0否则∈[K]中。在在一段时间内，我们的工作贡献概述如下：卓越的广告分配策略。本文提出了一种基于RL的动态调整Feed中广告数量和广告位的框架Cross DQN 1，该框架能够有效地提取排列信号，合理地平衡不同请求的个性化和PAE约束。详细的工业和实践经验。我们在美团Feed上成功全面部署Cross DQN，并获得了显著的收益。在我们的场景中，我们不改变广告序列和有机项目序列在混合服务器中的顺序劳德河在系统在一个状态下采取动作之后，用户浏览混合列表并给出反馈。奖励是根据反馈计算的，包括广告收入、费用和用户体验：r（s，a）=rad+rfee+ηrex，平台收入和用户体验都无法改善1代码和数据示例可在https://github.com/weberrr/CrossDQN上公开访问。其中rex2点击订购= 1 点击离开。0没有点击和离开（二更）...oi2CTR = 0.10广告2CTR =广告1CTR =0.04oi1CTR = 0.13......oi2CTR = 0.07ad1CTR = 0.06oi1CTR = 0.12ad有机项目.···克Cross DQN：用于Feed中广告分配的Cross Deep Q网络WWW403•（|）•C•∈[]S →AΣ||我..i=1我 i=1我i=1JJ我i=1eoi ← MLP eoi||eu||ec，nj ∈[Noi];12.野井关于我们JJ转移概率P。P st+1st，at定义为采取动作at后从st到st+1的状态转移概率，其中t是屏幕/时间步长的索引在状态中采取的操作会影响用户行为。当用户向下拉时，状态st转换到下一屏幕st+1的状态。由t选择呈现的项目将从下一步骤st+1的状态中移除。如果用户不再向下拉，则过渡终止。贴现因子γ。贴现因子γ0， 1平衡短期和长期的回报。约束。平台级约束是时段中的总PAE与目标值δ之间的绝对差应小于阈值ε以确保稳定的广告收入。PAE的公式如下：.1≤i≤N阶设计了多通道注意单元（MCAU），有效地从不同的通道组合中提取排列信号具体来说，我们在图4中显示了CrossDQN的详细结构。该模型采用状态（包括有机项目/广告序列、上下文信息等）。并将相应的候选动作作为输入。然后，项目表示模块（ ItemRepresentation Module，简写为REQ）生成表示（特别是广告和有机项目的表示）。其次，序贯决策模块（SDM）生成Q值的不同行动的帮助下，SACU，MCAU和辅助损失的批次级约束。在SACU中，状态嵌入根据动作的不同而不同，形成统一的矩阵表示。在MCAU中，将SACU生成的交叉矩阵分解到不同的通道中，计算多通道注意力权重。最后，SDM选择具有最大Q值的动作我们将在下文中详细介绍它们PAE =.我阿德奥伊、（3）分节。1≤i≤N（i+i）其中，N是一段时间内的请求数，大伊4.2项目表示模块项目表示模块（Item Representation Module，简称REQ）生成状态嵌入第i个请求中的广告和有机项目的数量在这个工作中，我们选择一周作为周期。因此，平台级约束可以用公式表示如下所示|ε。|<ε.（四）给定如上所述制定的CMDP，目标是找到广告分配策略π：在平台级约束下最大化总回报4方法4.1体系结构概述流行的RL模型Dueling DQN [18]的结构如图3（a）所示，它只接收状态作为输入。这样的结构不能提取动作和状态之间的交叉信息，使得难以对混合列表的排列信号进行建模。一个常见的解决方案是将状态和操作from the raw原始state状态. 为了有效地处理来自不同来源的信息，ESPRIT生成两个混合嵌入序列：一个用于广告，一个用于有机项目。每个项目的嵌入不仅对项目本身的信息进行编码，而且还对用户简档、上下文以及与历史用户行为的交互的信息进行编码。首先，我们使用嵌入层从原始输入中提取嵌入。我们将用于广告、有机项目、用户的历史行为、用户简档、上下文的嵌入分别表示为{ead}Nad、eoi Noi、eb Nb、eu和ec，其中下标i表示序列内的索引，并且Nad、Noi和Nb是广告、有机项目和历史行为的数量。然后，我们使用目标注意力单元[15]来编码用户的历史行为与相应项目之间的交互，这与Zhou等人类似。【26】：←属性.ead，{eb}Nb，j ∈ [Nad];JJ我但该模型仍然难以提取信息为此，我们提出了一种新的结构Cross DQN（cf.图3（b）。i=1eoi←Atteoi，{eb}Nb（五）状态和动作交叉单元（SACU）旨在交叉由动作指定的混合列表中的项目嵌入。的然后，我们附加用户配置文件的嵌入，每个项目嵌入的上下文ead ← MLP.埃阿德||eu||ec ∈ [Nad];JJ.中国（6）其中表示级联。请注意，在我们的场景中，广告和自然项目有一些强大的功能（例如，折扣、交付费用、交付时间），这些信息与每个项目的嵌入相连接并输入到SDM中。为了便于标记，我们也可以将广告和有机物品的嵌入写成矩阵形式，每行表示序列中的一个项目，即，状态状态候选动作... ..不12不(a) 决斗DQN(b) 交叉DQNEad= ead. ead. ... . 因此，...Nad（七）图3：Dueling DQN和Cross DQN的架构Eoi=爱。爱。... . 爱。......NNS......MCAU...MCAU...SACUNNS...，n∈ [Noi].在由动作指定的混合列表中的项目到WWW廖国刚和王泽，等。404...int{}联系我们∈我我辅助损失交叉矩阵SDM...SACU批内平均PAEV网络广告矩阵0有机项目矩阵软-argmax0...0...IRM自我-...自我-自我注意自我注意矩阵乘法矩阵乘法注意注意......信道. . . ...这是什么？通道通道遮罩通道遮罩偏移量=0000... 0 01000 000 0......SACU...SACU偏移量=1 00 00100 00 00 0100... 0 00000 00100 0001... 0 0000... 0 0......嵌入层生成行动补偿矩阵生成状态交叉矩阵例如（0，1，例如（1，0，............位否定~......上下文用户资料用户行为广告序列特征特征序列有机项目序列候选动作的多热表示候选操作设置在状态嵌入广告和原始项目产生的广告ConcatConcatMCAUMCAU网络（参数共享）..................00关注组关注组关注组关注组MLP（参数共享）图4：Cross DQN的网络架构项目表示模块（Item Representation Module，简称RST）根据原始状态生成状态嵌入序贯决策模块（SDM）通过状态和动作交叉单元（SACU）、多通道注意单元（MCAU）和辅助损失来生成不同动作的Q值，用于批量约束。由于涉及多个关注单位，部署后可能会很费时。然而，在CrossDQN中，RISK是一个独立的模块，因此我们可以在Cross DQN之前的其他模块中并行调用RISK。更多详情见第4.8节。4.3国家和行动交叉股为了计算某个状态-动作对的Q值，我们需要一个由相应动作指定的混合列表的有效表示。状态和动作交叉单元（SACU）帮助我们从状态嵌入中构造出与混合列表相对应的嵌入序列。首先，给定一个动作，我们为广告和有机物品生成相应的动作偏移矩阵：Mad0， 1K×Nad和Moi0， 1K×Noi，其中第i，j个元素表示第j个广告/有机物品是否出现在第i个插槽上。回想一下，K是一个屏幕中插槽的数量。例如，给定动作a =（0，1，0，0，1），K = 5，动作偏移矩阵M_ad为2000年0。. .0 04.4多通道注意单元用户可以关注一个或多个方面（例如，折扣、配送费、配送时间）的混合序列。相应地，我们提出了MCAU同时建模用户的注意力的不同方面的由SACU生成的交叉矩阵McrossRK×Ne包含N个不同的频道。每个通道表示潜在空间中的信息维度，并且可以用于对混合序列的一个方面进行同时，用户可以同时关注混合序列的多于一个方面因此，需要将两个或多个通道的序列信息结合起来进行建模。接下来，我们将详细介绍如何将多个通道的序列信息进行组合和建模。对于Ne个通道，我们将通道组合的数量化为Nc，其计算如下：Nc= 2 Ne− 1。（十）我们将第i个组合的掩码矩阵形式化为M掩码.例如，用于第一信道的组合的掩码矩阵Mad=∈RK×Nad.（八）最后一个频道是掩模10。. . 0110。. . 0110。. . 01K×Ne然后，我们可以计算交叉矩阵Mcross，这是使用动作偏移矩阵嵌入与给定动作对应的混合列表M cross =M ad E ad + M oi E oi。（九）使用SACU，我们生成混合列表的嵌入，这使得我们能够有效地提取下一个模块中的排列信号。Mi=10。. . 01∈R.（十一）10。. . 0 1接下来，通过交叉矩阵和掩码矩阵计算的信号矩阵被输入到相应的自注意力网络[15]中，以对K个项目的注意力建模并生成一个潜在向量，如下所示：M信号=M交叉M掩码，Mi ∈ [Nc]。（十二）1 0. . .0 00 0. . .0 00 0. . .0 00 1. . .0 0Cross DQN：用于Feed中广告分配的Cross Deep Q网络WWW405{}i=1.Σ我（）下一页（）下一页（）下一页（）下一页.Σ我（）∈A我j=1A（s，ai）−NaA（s，aj）.（十七）探索性政策πb）2：初始化具有随机权重的值函数Q.ΣNaj=1e信号=flatte.SelfAtt（i）. M个信号<$ i，<$i∈[Nc].（13）当Z=.Na exp[βQ（s，aj）]是归一化因子，β是将不同自注意网络输出的潜在向量连接在一起，以表示从不同通道提取的排列信号，如下：e信号||e信号||... ||e signal.（十四）温度系数。与以前限制每个请求的PAE的请求级或小时级约束不同，我们只限制使用随机抽样批次估计的平均PAE。这种较弱的约束形式1 2Nc4.5顺序决策模块在SACU和MCAU的帮助下，序列决策模块（SDM）将嵌入和候选行为产生的嵌入作为输入，输出不同嵌入行为对应的Q值。鼓励模型选择具有偏离δ但可能更好地适应当前上下文的PAE的动作4.7线下培训我们在算法1中展示了离线训练的过程。我们基于在线生成的离线数据集D训练CrossDQN。行动Naexploratory policyπb.对于每次迭代，我们采样一批给定一组N个候选动作a，SACU为每个动作生成交叉矩阵M_cross，MCAU为每个动作生成相应的排列信号表示。Subse-因此，V网络和A网络的输出[18]可以计算如下：V（s）=MLPflatten（p〇ol（Ea d）||pool(Eo i))). （十五）A（s，ai）=MLPe信号，（16）从离线数据集转换B，并使用梯度反向传播w.r.t. 损失：L（B）=LDQN（B）+αLPAE（B），（20）其中LDQN是与DQN [12]中的损失相同的损失函数，LPAE是约束的辅助损失，α是平衡两种损失的系数具体地说，LDQN（B）=1 。.r+ γ max Q（s ′，a′）− Q（s，a）<$2. （二十一）其中池表示不同行上的平均池化（即，广告/有机项目序列中的不同项目）。|（s，a，r，s ′）∈B|(s, a,r,s′)∈Ba′∈A最后，SDM输出对应于下式的Q值Q（s，ai）算法1交叉DQN的离线训练.1.一、Na1：离线数据D={（s，a，r，s′）}（由在线前处理器生成）4.6批量级约束的辅助损失回想一下，我们的目标是在平均广告曝光率的约束下最大化累积奖励。成功的关键策略是在满足约束的同时为不同的用户/场景保持不同的推荐。例如，如果用户容易被广告惹恼，我们应该向用户展示更少的广告，反之亦然。不同的辅助损失来限制广告曝光率（PAE）会导致不同程度的差异。一种常见的解决方案是使用请求级约束，即，将每个请求的PAE约束为接近PAE目标δ。这样的解决方案可能导致差的区分，因为每个请求的PAE被约束到相同的目标δ，而不管上下文如何。为了允许分化，Wang et al.[17]建议3：重复4：从D取样一批B的s、a、r、s′5：通过最小化（20）中的LB来更新网络参数6：直到收敛4.8在线服务我们展示了算法2中的在线服务过程。在在线服务系统中，CrossDQN基于当前状态选择具有最高奖励的动作，并将该动作转换为用于输出的广告时隙集。当用户向下拉时，模型接收下一个屏幕的状态，然后基于下一个屏幕上的信息做出决定。要使用小时级约束，允许使用不同的PAE，不同时间的目标然而，分化水平在一小时内仍然有限为此，我们提出了一个批处理级别的约束来约束一批请求的平均PAE，而不是约束每个请求的PAE。我们将与动作a相关联的PAE表示为PAEa。例如，a = 0，1，0，0，1的PAE为0。4. 给定一批转换B，我们的批级约束可以写为：LPAE（B）= δ −1。2.函数A（arg max Q（s））（十八）算法2交叉DQN的在线推理1：初始状态% s% 02：重复3：生成att=arg maxaQ st，a4：分配广告插槽后，一个T恤5：用户下拉至下一屏幕t+16：观察下一个状态st+17：直到用户离开|B|s Ba∈A然而，argmax函数是不可微的。因此，我们使用argmax的软版本，即，我们使用PAE（arg max Q（s，a）） 1次实验.PAE（19）βQ（s，ai）（ai），在我们的场景中，当前状态将转换到下一个状态或终止，这取决于用户是否下拉。然而，如果交互没有终止，则对应于给定动作的下一个可能状态是确定性的。根据这一观察，Q（s，ai）=V（s）+Cross DQN：用于Feed中广告分配的Cross Deep Q网络WWW406a∈Ai=1Z我们可以缓存多个屏幕的决策，WWW廖国刚和王泽，等。407...（）下一页（）下一页···（× ×）（）速率计算为rcxr=CTR× CVR是指排名广告广告广告排名请求结果用户排名有机项目SDMoi1有机项目有机排名oi2...IRM日志学习者CrossDQN...广告2ad1oi1...广告2ad1图5：在线服务的模型分解以减少服务器和客户端之间通信的时间成本模型分解交叉DQN将被称为T次，包含几个过渡。广告/有机项目的特征包括身份、类别、评论分数等。用户简档的特征包括身份、性别等。5.1.2评价我们用收益指标和经验指标对模型进行了评价。在收入指标上，我们用一段时间内的广告收入和服务费来衡量平台收入。具体来说，广告收入是从广告商那里获得的，使用通用第二价格（GSP）[3]计算，并按点击收费。总广告收入计算为Rad = R ad。服务费按一定比例从商户订单中收取并且总服务费计算为R费= r费。在我们的平台中，用户体验是通过用户需求（例如，找到满意的产品）。在体验指标方面，我们使用平均转化率和平均体验得分来衡量用户体验。转换等待时间是一个主要问题。幸运的是，在一个缓存中，可以在Cross DQN的不同调用中重用MySQL的输出，这节省了大约80%的计算时间。由于项目表示的生成不依赖于前面的模块（如排名和广告竞价），我们与前面的模块并行计算项目的表示，这进一步减少了延迟。如图5所示，Cross DQN被分解为部署的SDM和SDM。这两个部分是端到端训练的，但部署在不同的服务上进行实时预测。广告排名的计算与广告排名和有机排名系统并行。因此，对于SDM的实时推理来说，它是无延迟的参数共享。SDM和SDM都使用参数共享（参见图4）在不同的广告/有机项目。在语义表示方面，通过参数共享和并行计算，我们可以同时计算所有召回项的表示，而无需排序信息。同时，在SDM中，我们使用参数共享在不同的行动，以保证一致性的奖励评估的行动，并确保批级约束是有效的。此外，参数共享可以减少参数的规模，加速模型训练并减少内存使用。5实验在本节中，我们将通过离线和在线实验来评估Cross DQN模型。在离线实验中，我们将比较Cross DQN与现有基线，并分析不同设计在Cross DQN中的作用。在在线实验中，我们将使用在线A/B测试将Cross DQN与之前在美团平台上部署的策略进行5.1实验设置5.1.1数据集。我们于2021年3月期间在美团平台上运行探索性策略来收集数据集。我们在表1中提供了数据集的详细统计数据。请注意，每个请求表1：数据集的统计数据#请求#用户#广告#项目12，729，5092，000，420 385，383 726，587用户的订单数量与他/她的请求数量第3节中定义的体验得分rex反映了用户需求的满足程度。5.1.3超参数我们用张量流实现了交叉DQN，并对超参数进行了网格搜索. 隐藏层的大小是128、64、32、8、2，而SDM的隐藏层大小是16、8、1。学习率是10−3，优化器是Adam [8]，批量大小是8，192。5.2离线实验在本节中，我们使用离线数据训练Cross DQN，并使用离线估计器评估性能。通过扩展工程，离线估计器对用户偏好进行建模，并与在线服务保持良好我们进行实验来回答以下两个问题：i）与其他基线相比，Cross DQN的表现如何ii）不同的设计（例如，SACU、MCAU）和超参数设置（例如， α，β）对CrossDQN的性能有影响吗？5.2.1基线。我们将Cross DQN与以下五种代表性方法进行比较：固定. 此方法在固定的位置显示广告，例如索引为3、6、 9、.的位置。GEA[21]. GEA是一种非基于RL的动态广告位策略。它考虑了广告时段的影响，并将广告和有机项目联合排名，排名得分RS= CTRcharge+ GMVtakerate expβ′d，其中charge是广告主支付的费用，takerate是接受率(i.e.、平台对每次交易收取的费用），d是两个广告之间的间隔CTLRL[17]. 约束两级强化学习（CTLRL）使用两级强化学习结构来分配广告。上层RL模型将平台级约束分解为小时级约束，下层RL模型将小时级约束设置为请求级约束。[20]第二十话 HRL-Rec是一种基于RL的动态广告位策略。该方法将集成推荐分为两个层次的任务，并使用分层强化学习来解决。具体来说，模型首先决定渠道····一个缓存，这对于工业场景来说是耗时的，Cross DQN：用于Feed中广告分配的Cross Deep Q网络WWW408表2：收入指标和经验指标的结果。每个实验以平均值标准偏差的形式呈现。改进意味着Cross DQN在最佳基线上的改进模型收入Rad指标R费经验Rcxr指标Rex固定GEACTLRLHRL-Rec亲爱0.2211（±0.00252）0.2372（±0.00035）0.2286（±0.00101）0.2380（±0.00287）0.2391（±0.00244）0.2476（±0.00686）0.2564（±0.00096）0.2536（±0.00860）0.2660（±0.00132）0.2687（±0.00116）0.2148（±0.00342）0.2457（±0.00061）0.2250（±0.00213）0.2530（±0.00021）0.2530（±0.00044）0.8823（±0.00730）0.9493（±0.00012）0.9078（±0.00384）0.9526（±0.00123）0.9552（±0.00407）交叉DQN- 辅助-aux-mcau-aux-mcau-sacu0.2465（±0.00058）0.2446（±0.00079）0.2418（±0.00120）0.2370（±0.00217）0.2742（±0.00135）0.2737（±0.00231）0.2728（±0.00102）0.2722（±0.00286）0.2551（±0.00081）0.2537（±0.00034）0.2534（±0.00045）0.2508（±0.00065）0.9703（±0.00085）0.9671（±0.00118）0.9661（±0.00092）0.9629（±0.00201）改进3.09%百分之二点零五0.83%1.58%0.9760.9450.9400.9740.9720.9700.2440.2430.2420.2410.2400.9400.9350.9300.9250.9350.9300.9250.9200.9680.2390.2380.9200.9150.9150.9100.9660.05 0.080.10 1 3 5100.9050.1 1 5 10 50(a) η的回报曲线。(b) α的误差线。(c) β的误差线。图6：η、α和β灵敏度的实验结果。（即，选择有机项目或广告），然后确定每个时隙的特定项目。亲爱的[24]。 DEAR也是一个基于RL的动态广告位策略。它设计了一个深度Q网络架构，以联合确定三个相关任务，即，i）是否将广告插入到推荐列表，以及如果是，ii）最佳广告和iii）插入的最佳位置5.2.2性能比较。我们在表2中呈现了相同PAE水平下的实验结果，并且具有以下观察结果：i）与所有这些基线相比，Cross DQN在收入相关指标和体验相关指标上都实现了强有力的竞争性能。具体而言，Cross DQN在最佳基线上改进了相对于Rad、Rfee、Rcxr和Rex分别下降3.09%、2.05%、0.83%和1.58%。ii）划掉DQN-执行固定时隙策略。一个合理的解释是，CrossDQN计算的广告位置更加个性化，这导致了收入的增加以及用户体验的改善。iii）Cross DQN优于GEA，这表明基于RL的方法可能比基于规则的方法执行得更好。iv）交叉DQN也可能比CTLRL表现得更好由于同一小时内CrossDQN的不同请求的PAE更加个性化。v）与现有技术的基于RL的方法相比，即， HRL-Rec和DEAR，CrossDQN的优越性能证明了排列信号的显式建模。5.2.3消融研究。为了验证不同设计（SACU，MCAU，批次级约束）的影响，我们研究了SDM中具有不同组件的Cross DQN的三种烧蚀变体。CrossDQN（-aux）不使用CrossDQN的辅助损耗。请注意，在没有辅助损失的帮助下，我们可以调整奖励函数中的系数，以实现与其他基线的PAE相同的PAE。Cross DQN（-aux-mcau）额外阻断了MCAU，并在先前消融版本的基础上使用了一个自我注意单元Cross DQN（-aux-mcau-sacu）直接连接操作和状态的嵌入，而不使用SACU。表2中所示的结果揭示了以下发现：i）Cross DQN（-aux-mcau-sacu）和RadRexRexRadRR±····WWW廖国刚和王泽，等。409交叉DQN（-aux-mcau）表示SACU的有效性SACU通过显式交叉状态和动作的嵌入，可以有效地生成交叉矩阵表示，用于排列信号的子序列提取，从而提高整体度量。ii）MCAU是交叉后的附加过程，以加强相互作用。Cross DQN（-aux）算法的性能优于Cross DQN（-aux-mcau）算法，验证了该算法提取不同信道组合排列信号的有效性。iii）Cross DQN优于Cross DQN（-aux），这是由于批次级约束带来了一定的收入增加，并使PAE在一段时间内更加稳定。5.2.4超参数分析我们分析了这三个超参数的敏感性：η，α和β。 η是奖励函数中的用户体验的权重（参见当量（2））。β是控制方程中近似程度的温度参数。（19）. α是平衡主损失和辅助损失的超参数（参见等式（20））。超参数η不同η值的实验结果如图6a所示。当η增加时，Rex增加，但Rad减少。一个合理的解释是，当η变大时，动态广告分配系统倾向于插入更少的广告，这对用户体验和费用有有利的影响。超参数α。如图6b所示，我们发现批次级约束的辅助损耗对折返有更大的影响。当α增加时，奖励的标准差减小。这一现象表明，PAE和收益更稳定的批量级约束下。值得注意的是，当α从0变到1时，奖励的平均值会增加一种可能的解释是，在PAE的一定批量级约束下，广告分配将更加合理，这保证了显示结果的质量，提高了收入和用户体验。但是，如果α太大，就会偏离学习目标，导致奖励下降。超参数β。图6中的右曲线显示，在一定范围内，随着β的增加，奖励的平均值增加，奖励的标准差减少。这一现象表明，准确计算PAE会导致稳定和高回报。相反，当β超过某个阈值时，奖励可能会减少，这表明在实践中有必要仔细调整这个参数。5.3在线结果我们将Cross DQN与固定广告位进行了比较，并通过在线A/B测试将两种策略部署在美团平台上。我们保持所有方法的总PAE相同，以便进行公平比较。结果，我们发现Rad、Rfee和Rex分别增长了12.9%、10.2%和9.1%，这表明我们的Cross DQN不仅显著增加了平台收入，而且改善了用户体验。值得注意的是，在离线实验中，这一增加值分别为11.5%、10.7%和10.0%。造成这种绝对值差异的一个可能原因是数据分布的差异。6结论和今后的工作在本文中，我们提出了交叉DQN优化广告分配的饲料。在交叉DQN中，我们设计了状态和动作交叉单元，多通道注意力单元，明确地提取排列信号，即混合列表中项目的排列对用户行为的影响。此外，我们引入了一个辅助损失的批量级约束，以实现个性化的不同的请求以及平台级的约束。实际应用中，离线实验和在线A/B测试都证明了我们的解决方案的优越性能和效率。在我们的场景中，用户体验也是平台长期增长的重要目标，因为用户体验的改善直接提高了留存率，提升了平台的口碑。未来，优化更多的用户体验指标，更加关注长期效益的建模，是有益的。此外，值得注意的是，我们的方法遵循离线强化学习范式。与在线强化学习相比，离线强化学习面临着额外的挑战（如分布偏移问题）。这些挑战对广告分配问题的影响也是未来一个潜在的研究方向。引用[1] 艾坦·阿尔特曼一九九九年。约束马尔可夫决策过程。卷第七章Press.[2] CarlosCarrion ， Zenan Wang ， Harikesh Nair ， Xianghong Luo ， YulinLei，Xiliang Lin，Wenlong Chen，Qiyu Hu，Changping Peng，YongjunBao，and Weipeng P.Yan. 2021年在电子商务中混合广告与有机内容：虚拟出价优化方法。ArXivabs/2105.13556（2021）。[3] Benjamin Edelman，Michael Ostrovsky，and Michael Schwarz. 2007.互联网广告和广义第二价格拍卖：出售价值数十亿美元的关键字。美国经济评论97，1（2007），242[4] 冯军、 H.Li， Minlie Huang ， Shichen Liu ， Wenwu Ou ， ZhirongWang，and Xiaoyan Zhu. 2018年学习协作：通过多Agent强化学习进行多场景排名2018年世界互联网大会论文集（2018）。[5] 冯宇飞、龚宇、孙飞、刘晴雯、欧文武。2021年基于置换观点的重访推荐系统。ArXiv abs/2102.12057（2021）。[6] Yufei Feng，Binbin Hu，Yu Gong，Fei Sun，Qingwen Liu，and WenwuOu.2021年GRN：用于上下文推荐的生成重排序网络 ArXiv abs/2104.00860（2021）。[7] A. 高斯和沙洋。2009年搜索引擎广告的实证分析：电子市场中的赞助搜索。经理。Sci. 55（2009），1605-1622。[8] Diederik P Kingma和Jimmy Ba。2014年。Adam ：一种随机优化方法。arXiv预印本arXiv：1412.6980（2014）。[9] 约尔丹尼斯·库特索普洛斯2016年。在线社交媒体

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

Cross DQN：交叉深度Q网络在广告分配中的应用

最新资源

Cross DQN：交叉深度Q网络在广告分配中的应用

Dueling DQN 是对偶深度Q网络嘛

DQN的改进算法有哪些

使用dqn完成交叉路口信号灯控制

matlab dqn q网络怎么设置

DQN + C51 代码地址在哪？

题目要求: 编程实现 dqn 算法在机器人自动走迷宫中的应用 输入: 由 maze 类实例化

dqn系列梳理_强化学习：DQN与Double DQN讨论

DQN算法是强化学习还是深度强化学习

深度强化学习（Deep Reinforcement Learning）：深度强化学习将深度神经网络与强化学习相结合。它通常使用深度神经网络来近似值函数或策略函数。深度强化学习在处理高维状态空间和动作空间的任务时表现出色。

DQN和DDQN原理、实现及应用

什么是double dqn

如何将噪声网络加入DQN中

Deep Q-Network (DQN)算法应用场景

深度q网络对八分类数据进行强化学习

dqn中两个网络的目的

深度Q神经网络结构图

AC网络与DQN网络的区别

深度学习python实战项目

最新资源

题目要求: 编程实现 dqn 算法在机器人自动走迷宫中的应用输入: 由 maze 类实例化