全局与局部：构建个性化点击模型

73 浏览量更新于2023-11-29 收藏 1.79MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

213全局还是局部：构建Web搜索的个性化点击模型张俊奇1，刘益群1，毛佳欣2，谢晓辉1，张敏1，马少平1，田琦31人工智能研究所计算机科学与技术系清华大学北京国家信息科学技术研究中心，北京100084 2中国人民大学高陵人工智能学院大数据管理与分析方法北京市重点实验室，北京1008723华为Cloud AI，中国yiqunliu@tsinghua.edu.cn摘要点击模型被广泛应用于Web搜索中的用户模拟、相关性推理和评价现有的点击模型大多隐含地假设用户的相关性判断和行为模式是同质的。然而，以前的研究表明，不同的用户以不同的方式与搜索引擎互动因此，一个统一的点击模型很难捕捉到用户点击行为的异质性为了阐明这个研究问题，我们提出了一个点击模型个性化框架（CMP），自适应地选择从全球和本地模型为个人用户。不同的自适应策略被设计成仅针对特定用户和查询个性化点击行为建模。我们还发现，在构建个性化的点击模型中，捕获个性化的行为模式比建模个性化的相关性评估更重要。为了评估CMP框架的性能，我们建立了一个大规模的实用个性化Web搜索（PWS）数据集，其中包括1，249个用户从商业搜索引擎超过六个月的搜索日志。实验结果表明，提出的CMP框架实现了显着的点击预测性能比非个性化的点击模型。CCS概念• 信息系统→个性化。关键词点击模型，个性化，Web搜索ACM参考格式：张俊奇1人，刘益群1人，毛嘉欣2人，谢晓辉1人，张敏1人，马少平1人，田琦3人. 2022年全球或本地：为Web搜索构建个性化点击模型。在ACM WebConference 2022（WWW '22）的会议记录中，2022年4月25日至29日，虚拟活动，法国里昂。 ACM ，美国纽约州纽约市， 11 页。https://doi.org/10.1145/3485447.3511950*Correspondent author.允许免费制作本作品的全部或部分的数字或硬拷贝，以供个人或课堂使用，前提是制作或分发副本的目的不是为了盈利或商业利益，并且副本的第一页上有本声明和完整的引用。版权的组成部分，这项工作所拥有的其他人比ACM必须尊重。允许使用学分进行摘要以其他方式复制、重新发布、在服务器上发布或重新分发到列表，需要事先获得特定许可和/或付费。请求权限请发邮件至permissions@acm.org。WWW©2022计算机协会ACM ISBN 978-1-4503-9096-5/22/04。. . 十五块https://doi.org/10.1145/3485447.3511950全局日志记全球点击模型数据共享个性化策略克本地日志文件本地点击模型自适应SERP战略查询点击预测UserZhao图1：点击模型个性化框架（CMP）。α和β分别指点击模型的相关性相关参数和行为相关参数。采用个性化策略和自适应策略对全局和局部点击模型进行聚合，对每个用户的点击行为进行个性化建模。1介绍搜索日志是推断用户对搜索结果的关注度和搜索引擎结果页面（SERP）上的行为模式的宝贵资源。已经提出了许多点击模型，以利用搜索日志进行广泛的搜索相关应用，例如用户模拟，相关性推理和Web搜索中的评估[6]。更好的点击模型不仅可以提高搜索性能和用户体验，而且可以为搜索相关的用户行为研究带来新的见解。然而，大多数现有的点击模型隐含地假设搜索用户是同质的。所有用户都应该对不同的查询结果对具有相同的相关性评估。同时，他们也应该有相同的概率检查搜索结果或放弃搜索会话。这些强假设已被证明是站不住脚的实际搜索场景的许多现有的作品，如[9，21，22]。对所有用户不加区别地使用统一的点击模型在很大程度上忽略了搜索用户的异质性随着个性化在检索和推荐任务中的广泛应用，我们有必要重新考虑构建个性化点击模型的问题，以预测用户的个性化行为。虽然个性化点击模型将促进用户行为建模的研究，这是一个不平凡的任务，由于几个主要的挑战。214WWW首先，在现有的点击模型中，哪些行为假设应该被个性化，这一点仍然没有得到充分研究点击模型主要基于概率图模型（PGM）框架和搜索行为假设.例如，位置偏差假设[8]、级联浏览假设[8]和满意度假设[4]都是精心设计的，用于预测点击行为。个性化不同的假设导致不同的点击行为建模的影响。不同的个性化策略的有效性仍然没有得到充分的研究。其次，根据个性化搜索的现有工作[9，21，22，30]，个性化对不同的用户并不一致，以前的工作表明，经常使用搜索引擎的用户可能有更多不同的信息需求[9]，这使得更难建立一致的用户配置文件进行个性化。因此，是否对点击模型进行个性化，应该根据用户和查询的特征来决定.第三，个性化现有的精心设计的点击模型需要很多努力。广泛采用的点击模型，如PBM [8]，UBM [10]，DCM [11]和DBN [4]，都是基于精心设计的用户行为假设。为了使这些模型个性化，需要修改假设以考虑用户因素。一些先前的工作已经尝试将用户相关的独立变量添加到基本点击模型中，以修改原始检查和相关概率[25]。然而，这种个性化需要为不同类型的点击模型重建贝叶斯网络，有时是不现实的。由于上述挑战，我们大致将点击模型参数分为行为相关（检查或继续）和相关性相关（相关性评估）然后设计了不同的个性化策略来研究哪些点击模型参数应该被个性化：1）仅个性化关系参数，2）仅个性化行为参数，3）仅个性化行为参数。3）个性化所有模型参数。从大规模实际搜索日志数据集上的实验结果来看，行为相关参数对个性化有较大的影响，与非个性化模型相比，可以带来很好的性能增益同时，个性化相关参数有时可能会损害性能。当对所有参数进行个性化时，性能增益在很大程度上取决于不同用户在相关性评估中是否具有不同的偏好我们还设计了不同的自适应策略来决定是否在不同的场景中使用个性化的点击模型第一种策略是贪婪的方法。对于用户和提交的查询，我们将采用个性化的点击模型进行行为预测，只要用户之前搜索过该查询。第二个策略是审慎的做法。只有当个性化点击模型在历史搜索中对用户和查询的表现优于非个性化点击模型时，才会应用个性化。通过这两种自适应策略，可以在点击模型中实现细粒度的个性化。为了深入分析，我们还比较了个性化点击模型在不同用户群体上的性能我们观察到，个性化是更有效的用户相对稳定的查询主题。为了在不对现有点击模型的行为假设进行额外修改的情况下对现有点击模型进行个性化，我们提出了一个点击模型个性化框架（CMP）。对于每个用户，点击模型是用他/她的私人搜索日志构造的每个本地点击模型都是孤立的，只能访问其所有者的搜索历史。它具有很强的个性化，不受他人的影响，但它忽略了搜索用户的共性为了挖掘出共同的行为模式并充分利用海量的搜索日志，我们可以共享一组用户的搜索日志，并使用增强的数据来学习更有信息量和可靠的点击模型。由于有许多替代方案来整合一组用户进行数据共享和模型共享，在这项工作中，我们将所有用户的搜索日志共享到一个“全局”点击模型。全局点击模型可以访问每个用户的搜索日志，并且可以被所有用户采用，如图1所示。通过自适应策略将局部点击模型和全局点击模型相结合，构建个性化框架。为了训练和评估个性化点击模型，我们还构建了一个大规模实用的个性化Web搜索（PWS）数据集（细节将在第3节中介绍）。具体而言，本文的贡献有四个方面：三种不同的个性化策略的个性化点击模型进行了实验结果表明，行为相关参数比关联参数在个性化这一观察可能会为其他与搜索相关的个性化工作带来见解。提出了两种不同的自适应策略，仅针对特定用户和查询应用个性化。进一步的分析还表明，个性化对不同的用户群体有不同的影响。提出了一个点击模型个性化框架（CMP），用于个性化不同的“本地“点击模型的构建，以捕捉每个搜索用户的行为模式和相关性判断偏好的独特性。“全局“点击模型捕捉了整个用户组的共性。大量的实验表明，全局和局部点击模型可以协同工作，以达到最佳的性能。利用商业搜索引擎上1249个用户6个月的搜索日志构建了一个名为个性化Web搜索（PWS）的基准数据集2相关工作2.1点击模型点击模型考虑用户点击）作为隐含的相关性反馈，并将用户行为表示为一系列可观察和隐藏的事件。基于位置的点击模型假设用户查看搜索结果的概率随着排名位置的增加而衰减，这也称为位置偏差。这种点击模型包括基于位置的模型（PBM）[8]和用户浏览模型（UBM）[10]，而UBM也有一些级联点击模型的元素。级联点击模型假设用户从上到下扫描SERP上的搜索结果，直到他们找到相关结果，例如级联模型（CM ）[8]，依赖点击模型（DCM）[11]和动态贝叶斯网络模型（DBN）[4]。此外，一些高级点击模型也被设计用于聚合搜索，如VCM [24]，FCM [5]，UBM布局[7]和MCM [17]。····215（···）（··· ）（···）____________________Global or Local：Constructing Personalized Click Models for Web Search WWW点击模型被广泛用于用户模拟、相关性推理和Web搜索中的评估[6]。当我们无法访问实际用户时，用户模拟是非常必要的，例如A/B测试[12]，交织[2]和强化学习排名模型的训练。此外，点击模型用于相关性评估。这对于大规模数据集非常有用，因为相关性注释成本非常高。此外，点击模型还用于构建用户行为感知评估指标，例如预期倒数排名（ERR）[3]和预期浏览器效用（EBU）[28]。对于点击模型的所有上述应用，个性化将非常有用，可以捕获用户多样性，以便进行细粒度处理。2.2个性化搜索为了更好地满足用户多样化的搜索意图，个性化搜索得到了广泛的研究一个家庭是基于配置文件的个性化模型。其基本思想是建立一个用户配置文件来推断用户的兴趣，并根据创建的用户配置文件和候选结果之间的匹配分数对结果进行重新排名。例如，从长期和短期搜索历史[19]或基于ODP的主题类别[13]构建用户配置文件。最近，许多工作尝试使用深度学习方法构建用户配置文件，例如基于transformer的模型[1]，知识图增强模型[14]和基于强化学习的模型[27]。除了基于配置文件的个性化搜索方法之外，还有另一种协作方法。个性化联邦学习就是这样一种方法，它为多个客户端训练机器学习模型，每个客户端都有自己的数据分布，以保护用户隐私。同时，它用所有用户的分散数据训练共享的个性化排名模型[ 18，26 ]。此外，协作学习也被广泛用于基于群体的个性化[19，20]。元学习也引起了许多人对个性化搜索的兴趣[16，29]。也有一些个性化的点击模型，如PBM-user，UBM-user和[25]中提出的广告点击模型这些模型可以被视为基于配置文件的方法，因为它们将用户随机变量引入到基本点击模型中。不同于以往的个性化点击模式-4用户在一天内提交的查询少于100个。从搜索日志中，我们发现，一个用户在一天内搜索超过100次，更有可能是一个爬虫。我们将每个用户的搜索日志按照时间顺序以3：1的比例划分为训练集和测试集用户测试集中未出现在任何用户训练集中的错误将被过滤掉。这是因为大多数点击模型只能处理重复的查询结果对。它们将对看不见的查询-结果对使用默认参数，这对于计算来说是没有意义的。我们确保每个用户的测试集中至少有100个会话，以进行可靠的评估。最后，有1249名用户满足所有约束条件。我们保留他们的搜索日志来构建数据集。搜索日志中的每个查询会话由匿名用户ID、提交的查询文本、返回的搜索结果的URL（我们只保留前10个结果）、每个URL的点击或跳过操作组成在训练集和测试集中分别有1，312，714和340，362个查询数据集的详细统计数据载于附录A。4单击模型个性化框架我们首先介绍了一些共同的假设，广泛使用的点击模型。当用户搜索查询q时，搜索引擎将返回包含N个排名的搜索结果d1，d2，.，dN的SERP其中di表示排名在位置i的搜索结果。我们使用N个二进制随机变量C1，C2，，CN来指示用户是点击di（Ci = 1）还是跳过di（Ci = 0）。点击模型通常是概率生成模型，其对联合分布PC1，C2，…，CN进行建模。大多数点击模型遵循检查假设，即当且仅当搜索结果被检查（Ei=1）和相关（Ri=1）时，搜索结果被点击（Ci=随机变量Ei和Ri通常被认为是独立的。形式上，检验假设可以定义如下。Ci=1Ei=1Ri=1（1）els，我们提出了一个协作个性化框架，P（Ci=1）=Px（Eiz=1s）×Px（Riz=1s）（2）行为相关相关性3PWS数据集我们构建了一个新的数据集，称为个性化Web搜索（PWS）的个性化点击模型的训练和评估PWS由来自商业搜索引擎的1249个用户的搜索日志组成这些检索日志收集时间为2020年3月20日至2020年9月20日。我们遵循几个规则来选择用户：对于每个用户uk，对应的搜索日志被表示为Sk，其由Mk个查询会话组成数据集中共有K个用户，所有用户的整个搜索日志表示为S ={Sk |k = 1，2，. . . ，K}。4.1局部和全局点击模型要构建个性化的点击模型，1 用户有持续3个月以上的搜索记录我们主要关注搜索引擎的长期用户，因为他们为点击模型训练提供了足够的数据。2 用户两次搜索的时间间隔小于30天。可能因意外而使用搜索引擎且长时间不使用的用户被过滤掉。3 用户在6个月内有100多个查询会话。在搜索引擎上几乎没有搜索历史的用户提供的个性化信息不足。点击模型与用户如图1所示，对于每个用户uk，我们学习具有搜索日志Sk的“本地“点击模型Lk。由于本地点击模型仅从单个用户的搜索日志中学习，因此它是完全个性化的，并且可以利用用户独特的点击行为模式。但是，它忽略了用户的共性。首先，不同的用户可能有相似的搜索习惯。通过利用其他人的搜索日志，可以通过捕获不同用户组的共性来增强点击其次，单个用户的搜索日志是有限的。也是可以应用于广泛的现有点击模型。○○○○216||||−−L=ν（G，L）νRBAkKKKKK（）下一页（）下一页我我我WWW表1：单击模型参数。N是SERP上搜索结果的数量。Q和D分别表示数据集中的查询和搜索结果的数量，而q和di分别表示位置i处的查询和搜索结果。模型相关性参数行为参数定义符号尺寸定义符号尺寸PBMUBMDCMDBN查询结果相关性查询结果相关性感知/实际查询结果相关性αq ，diαq，diαq，diiαq，di/σq，di|Q| ×| D||Q| ×| D||Q||Q| ×| D||D|×| D| +| Q| ×检验概率检验概率βiβijβiN（N+1）×N/2N1重要的是通过共享不同用户的搜索日志来增加数据，因此，除了局部点击模型，我们还学习了适用于所有用户的“全局”点击模型全局模型G是从整个搜索日志S中学习的，其对于各种用户来说更具代表性和可靠性全局模型捕获整个用户组的共性，并由所有用户共享以进行评估和预测。局部和全局模型可以基于任何现有的点击模型来构建。在这项工作中，我们采用了四种重要且广泛使用的点击模型作为基础模型，包括PBM [8]，UBM [10] DCM [11]和DBN [4]。附录B介绍了四种点击模型的定义。我们采用PyClick 1中的点击模型实现。基本点击模型的学习算法表示为k。如表1所示，点击模型的参数可以分为两部分：相关性和行为相关性。通过对局部数据Sk和全局数据S的学习，分别得到局部模型Lk和全局模型G的关联参数αLk/αG和行为参数β Lk/βG. 为简单起见，α包括αq，diDBN的σq，di。和DCM是基于SERP内容评估的查询q和第i个搜索结果di的感知相关性DBN还引入了另一个实际的查询结果相关性参数σq，di，其基于着陆页的内容来评估与相关性相关的参数占点击量的大部分模型参数PBM的行为相关参数βi是指在排序位置i处的检查概率。UBM的行为参数βi，j比PBM描述了更多的信息，其中i是指搜索结果的排名位置，而j是指与上一次点击的距离。对于DCM，行为参数βi表示用户在位置i1处点击之后继续查看位置i处的搜索结果的概率。对于DBN，只有一个行为参数，它表示概率用户在检查了位置i1处的搜索结果之后继续浏览第i个结果我们设计了三种不同的个性化策略ν，通过ν将局部模型和全局模型的参数进行聚合，其中可以是““，““，““表示“相关性”，“Bkeeper or“和“All”都是特别的。I. 个性化相关性参数：要个性化相关性参数，Lk（αLk，βLk）=Sk（3）在保持行为参数共享的同时，由所有用户，估计的行为参数βLk被替换G（αG，βG）=S（4）然而，有两个问题需要解决之前，我们构建个性化的点击模型。首先，我们可以直接使用本地点击模型来建模个性化的用户行为吗？个性化的相关性和行为参数会对点击模型的行为假设产生不同的影响用户是否具有更多的行为模式或相关性评估偏好，目前还没有得到充分的研究。其次，个性化对于不同的用户和查询并不总是有效的。对于每个用户和查询，是否使用非个性化的全局模型或个性化的局部模型需要仔细决定。为了解决这两个问题，我们设计了不同的个性化策略来聚合局部和全局参数。此外，我们还设计了不同的自适应策略，从局部模型和全局模型中进行选择，对每个用户和查询进行点击预测。4.2个性化策略在本节中，我们将介绍三种不同的策略来个性化点击模型中的相关性和行为参数。与全局模型βG的结果一致。同时，相关参数αLk保持不变.L R的参数表示如下，其中eθ（θ）表示模型的参数：Θ（LR（αR，βR））={αLk，βG}（5）II. 个性化行为参数：将搜索日志Sk中每个查询-结果对的估计相关性α Lk替换为全局模型αG的估计相关性αLk。同时，行为参数β Lk保持不变。LB的参数表示为：Θ（LB（αB，βB））={αG，βLk}（6）III. 个性化所有模型参数：为了个性化行为和相关性参数，保持本地模型Lk不变，其表示为LA：Θ（LA（αA，βA））={αLk，βLk}（7）然后，可以分别基于行为参数β和相关性参数α来重写等式2中的检查概率P E i = 1和相关概率P R i = 1。如表1所示，相关性参数αq d关于PBM、UBM吕吕νLνν，iP（Cik = 1 |q，di）= P（Eik = 1 |β）P（Rik = 1 |α）（8）1https://github.com/markovi/PyClickP（CG = 1 |q，di）= P（EG = 1 |βG）P（RG = 1 |αG）（9）217我MN∗p1（|）−（）下一页（）下一页ωK在训练集中的mk电图谨慎策略更稳定，因为它只在非常自信的情况下为用户个性化特定查询Perp=1Ni=12Mj=1纪纪纪纪P Ci=q，d，i，else困惑pa除以pb计算为：纪pb−pa.的提高b−KGlobal or Local：Constructing Personalized Click Models for Web Search WWW4.3适应策略在本节中，我们引入不同的自适应策略ω来决定是使用个性化局部模型Lν（LR，LB，或LA）还是每个用户和每个查询的全局模型G。KKK5实验设置5.1基线提出的CMP框架与非个性化点击模型NOP和个性化点击模型X-user和X-user进行比较4.3.1贪婪的策略第一种策略是贪婪的方法，它将个性化应用于尽可能多的用户和查询。其基本思想是，如果用户有搜索历史的查询，我们将采用个性化的点击模型进行预测时，用户再次提交相同的查询。具体来说，对于用户uk提交的查询q，在测试集中，如果用户已经搜索了该查询，在Sk的训练集中，采用个性化点击模型Lν进行预测。否则，如果用户提出新的查询，将采用全局模型G预测的点击概率贪婪策略ω=Gr定义为：.吕其修改了现有的非个性化点击模型的行为假设。NOP：非个性化点击模型（表示为NOP）包括PBM [8]，UBM [10]，DCM [11]和DBN [4]。所有模型都是在所有用户的整个搜索日志上训练的。[25]是一个逻辑个性化点击模型，它通过逻辑函数计算检查和相关概率。用户偏好被并入具有附加用户参数的逻辑函数中，附加用户参数可以被视为用户简档。X-user：X-user [25]是一个个性化点击模型家族由Xinget al. . 两个新变量被添加到P（Ci =1个|q，di，uk）=P（Cik = 1 |q，di），若q ∈ Sk的训练集P（CG = 1 |q，di），else基本点击模型“X”，以修改原始检查和相关概率。基本模型包括PBM和UBM。为了公平起见，我们比较了X-user和CMP4.3.2谨慎的战略。贪婪策略会首先选择如果可能的话，个性化的点击模型进行预测然而，并不是所有的查询和用户都适合个性化。当我们决定是否个性化点击建模时，最好第二个策略“谨慎”，将本地模型和全球模型的历史表现作为模型选择的证据。只有当且仅当本地模型分别基于PBM和UBM。5.2评估指标点击模型的整体性能根据困惑度和对数似然度进行评估[6]。较低的困惑度和较高的对数似然比表明，点击模型可以更准确地预测用户的点击。这两个指标的定义如下：根据评估，用户uk的Lν在查询q上优于G.N-1。M（clogp+（1−c）log（1−p））关于模型使用贪婪策略ω = Pr的预测点击概率定义为：LL= 1。M.N（clogp+（1−c）log（1−p））（12）叽叽叽叽Lνi=1i= 1其中，cji和pji指的是二进制点击概率和预测点击概率。P（Cik=1|q，di），如果q∈ S k的训练集，第i个结果在第j个查询会话中的能力。NP（Ci = 1 |q，di，uk）=（G1）|（Lν |q，di）> q（G|q，di））是SERP上的结果数M是查询的数量数据集中的会话[17]第23话：改善其中，dq，d是指示性能的评估度量模型对训练集中的查询Q和搜索结果D的管理它可以是负的困惑或对数似然。对数Liklla除以llb的计算公式为：e N ×（lla −llb）1。为了评估不同模型对个人用户的性能，我们比较了个性化点击模型A与非个性化点击模型B的胜率（WRT）[ 31 ]，其定义为：4.4个性化框架基于学习的局部模型和全局模型，WRT系列为赢（A）+0。5 ×扎带（A、B）赢（A）+赢（B）+平局（A，B）（十三）不同的个性化策略和自适应策略，我们可以定义点击模型个性化框架（CMP）如下。CMP的基本点击模型可以是PBM、UBM、DCM或DBN。CMP的总体算法总结见附录C算法1。其中，获胜A计算模型A优于模型B的用户数量，而平局A，B意味着A和B是相同的。可以是Perplexity或LogLik6实验CMPν = ω（G，{Lν = ν（G，Lk））|1 ≤ i ≤ K}）（10）建议的CMP框架旨在通过与本地和全球的协作方法来个性化现有的点击模型其中ν是个性化策略，其可以是R、B、A，分别表示个性化相关性、行为和所有参数。 ω是自适应策略，可以是Gr，Pr，分别表示贪婪策略和谨慎策略。模型为了证明CMP的有效性，我们进行了一系列实验来回答以下研究问题：在点击模式，哪些参数应该个性化？····（十一）218WWW表2：CMP在困惑度（Perp）和对数似然度（LL）方面的总体性能将具有不同个性化策略（“A”用于所有参数，“R”用于相关性参数，“B”用于行为参数）和不同自适应策略（“Gready”、“Prudent”和“Oracle”）的CMP与非个性化点击模型NOP进行比较CMP和NOP的基本点击模型是PBM、UBM、DCM和DBN。 P表示与p值为<0的NOP相比的显著改善。01.PBM UBM DCM DBNNOP-0.16151.1847-0.15401.1834-0.20971.1983-0.20431.2039CMPR贪婪谨慎的先知-0.1650-0.1610-0。1579∗1.18901.18401 .一、1796∗-0.1565-0.1533-0。1503∗1.18721.18261 .一、1783∗-0.2220-0.2181-0。2064∗1.20061.19931 .一、1923∗-0.2170-0.2132-0。2006∗1.20831.20651 .一、1973∗CMPA贪婪谨慎的先知-0。1543∗-0.1534-0。1489∗1 .一、1754∗1.1745米1 .一、1687∗-0。1466∗-0.1458-0。1416∗1 .一、1746∗1.1736米1 .一、1678∗-0.2189-0.2148-0。2028∗1.19661.19471 .一、1873∗-0.2160-0.2124-0。1999∗1.20821.20641 .一、1972∗CMPB贪婪谨慎的先知-0。1561∗-0.1549-0。1511∗1 .一、1779∗1.1765米1 .一、1717∗-0。1481∗-0.1471-0。1436∗1 .一、1765∗1.1752米1 .一、1705∗-0。2068∗-0.2065-0。2054∗1 .一、1947∗1.1936年1 .一、1926∗-0.2035-0.2037-0.20351.20381.20381.2038表3：CMP与非个性化点击模型NOP相比在个人用户上的胜率WRTLL和WRTPerp分别表示通过度量LogLiksity和Perplexity比较的胜率模型UBMDCMDBNWRTLLWRTPerpWRTLLWRTPerpWRTLLWRTPerpWRTLLWRTPerpCMPR贪婪0.30060.31670.33670.34390.24260.43470.24660.3755审慎0.53240.53440.54880.54560.38950.52680.39390.4972Oracle0.92190.89510.93880.90790.86910.86990.93150.8931CMPA贪婪0.66810.66330.65530.63210.39670.53680.35910.4207审慎0.75020.73460.72220.71900.52160.63130.49640.5380Oracle0.98080.97440.97760.96280.96280.95760.97600.9496CMPB贪婪0.69300.68410.68010.66730.63490.62330.98520.9251谨慎的先知0.77980.98000.77140.97520.74740.97720.75500.96760.74300.97200.74820.95760.97920.99760.95360.9964RQ2：如何更好地将个性化点击模型应用于特定用户和查询？点击模型个性化框架能提高现有点击模型的性能RQ4：个性化框架最适合什么样的用户群？RQ5：个性化点击模型能否推断用户6.1个性化策略（RQ1）为了回答RQ 1，我们将首先研究4.2节中讨论的不同个性化策略的性能。当仅个性化行为相关参数时，如表2中所示，对于PBM、UBM、DCM和DBN，具有不同自适应策略的CMPB在总体困惑度和LogLikestry方面优于非个性化点击模型NOP。CMP B与NOP相比，胜率均大于0。5如表3所示。这表明行为参数对于建模用户点击至关重要。用户的浏览习惯差异很大，NOP估计的行为参数并不适合特定的用户。在表2中，当仅个性化相关性参数时，对于PBM和UBM，CMPR可以优于NOP，“谨慎”适应性策略存在绩效下降，而“贪婪”策略存在绩效对于DCM和DBN，CMPR的性能比NOP差从表3中的个人用户的胜率结果，可以看到类似的观察结果结果表明，只有个性化的相关性参数有时会损害性能。这可能是因为相关性判断在不同用户上更一致。NOP估计的相关性比个性化的更具有代表性和信息量。因此，个性化相关性参数将不总是实现性能增益。当个性化所有模型参数时，对于PBM和UBM，CMPA在表2中的总体性能上优于NOP，而对于DCM和DBN，其比NOP差表3中的胜率还显示，对于PBM和UBM，CMP A在超过50%的用户上优于NOP。而对于DCM和DBN，CMPA的缠绕比小于0。5在大多数时候结果表明，在某些情况下，个性化点击模型的所有参数是有问题的。回答RQ1：个性化的点击模型中的行为参数总是可以实现高性能增益的整体性能和胜利率对个人用户。然而，个性化的相关性参数有时可能会损害性能。这表明，在点击模型中，行为相关假设比相关假设更适合个性化。···模型会Perp会Perp会Perp会Perp·219KKGlobal or Local：Constructing Personalized Click Models for Web Search WWW6.2自适应策略（RQ2）为了回答RQ2，我们将进一步研究不同自适应策略的有效性首先，对于“贪婪”自适应策略，如表2所示，CMP B在困惑度和对数似然方面实现了比非个性化点击模型NOP更好的性能。CMPB的赢比也高于0. 如表3所示，不同的点击模式。与其他个性化策略（如CMP A和CMP R）相比，“贪婪”策略并不总是优于NOP模型。这表明“贪婪”策略在大多数情况下都能使适当的用户和查询然而，当局部模型没有很好地个性化时（例如CMP A和CMP R），“贪婪”策略有时会失败。其次，当我们进一步采取的历史表现，在考虑全局和局部模型的情况下，“谨慎”自适应策略相对于“贪婪”策略取得了一致的改进。这表明，个性化点击模型的历史表现为未来的模型表现提供了可信的证据。曼斯。原因可能是每个用户的点击行为在他/她的搜索时间内相对稳定。我们可以通过分析哪个模型在历史搜索中表现更好来决定何时使用局部模型或全局模型。此外，我们还设计了“甲骨文”战略，图2：不同模型在复杂度、对数似然和单个用户的胜率此外，在图2中，我们还显示了与CMPB相比，X-user和X-user的性能。对于X用户，因为它只个性化PBM，适应性战略。具体地，对于每个用户u，k和查询q，PrB我们将评估全球模型G和对应于uk的局部模型Lν。在G和UBM算法，并分别与基于PBM和UBM的CMPPr算法进行了比较.从图2中最上面的两个图中，我们可以看到，Lv将被选择用于对u和q的预测。从结果来看，（LL=-0。2087，Perp=1。第2548章在大多数情况下，都比你强X用户（对于PBM，LL=−0。1603，Perp=1。1835;对于UBM，LL=-0。1518,从表2和表3可以看出，“贪婪”的性能Perp=1。1821）只能稍微改善非而“谨慎”适应策略与“甲骨文”接近，这表明个性化PBM和UBM。CMPB始终优于所提出的自适应策略在个性化不同的点击模型中是有效的。回答RQ2：“贪婪”策略倾向于个性化尽可能多的用户和查询，而不仔细区分。通过利用该模型X-用户和不同循环k个P模型的用户名。下图显示了个性化点击模型与NOP相比的胜率。对于X用户，PBM的性能为WRT LL = 0。4772和WRT Perp = 0。4812，而WRT LL = 0。4932和WRT Perp= 0。4748对于UBM，它们都低于0。5. 我们可以看到CMPB策略可以从全局和局部中做出更可靠的选择大大提高了双绞线和X用户的绕线率PR模型与“甲骨文”战略相比仍有提升空间。设计更复杂的适应性策略是未来的工作。6.3CMP框架的有效性（RQ3）为了回答RQ3，我们将CMP与非个性化和个性化点击模型基线。我们主要研究CMPB，它只对参数进行预处理，并采用prPur-回答RQ3：CMP框架可以有效提高现有非个性化点击模型的整体点击预测性能。它还可以优于依赖于行为假设修改的个性化基线。此外，CMP是有效的和强大的个人用户比所有的基线。6.4用户适用性（RQ4）由于以前的工作已经表明，个性化对不同的用户并不一致有效，为了回答RQ4，我们还分析了削弱自适应策略。如表2和3所示，CMPB实现了CMP在不同用户组上的性能对于每个用户，与非PeP r r sonalized e d click模型相比，Pe P r r sonalized edclick模型具有显著的性能改善。PBM、UBM、DCM和DBN的改善为+6。82%，+7。百分之十四，+3。百分之二十五，+0。6%的对数似然和+4。百分之四十四+4。47%，+2。37%，+0。05%的困惑。同时，我们按照公式14计算查询熵。然后根据用户的查询熵将用户分为三组，每组包含相同数量的用户。查询三组的熵区间均为0。0- 2 48，2。四十八比四51,CMP B与NOP相比的胜率为0。7798，0。7474，0。7430,四、51比7 96，表示低、中、高查询熵，0 。 9792 ，其中LogLikeIPihrd 作为评估度量，并且0. 7714 ，0。7550，0。7482，0。9536与困惑分别。需要注意的是，DBN的行为参数仅包括1-维连续概率个性化一个参数-- 是的具有较低查询熵的用户可以重复搜索同一组查询。相比之下，具有较高查询熵的用户搜索多样化的查询，他们的信息需求是广泛的。ter不能实现显著的整体改进，查询熵=−。.q∈S KN（q）×log。N（q）（十四）对每个用户都有轻微的改善因此，个性化DBN的成功率非常高（超过95%）。Kq∈SkN（q）q∈SkN（q）220N（）–WWW图3：CMP和NOP在不同查询熵的用户组上的性能差异分布（以Perplexity和LogLikestryX轴指示查询熵桶。星号表示平均值。其中q表示用户uk提交查询q的次数。我们计算困惑/对数可能性的差异-(a) （b）DCM图4：行为参数的聚类。‘‘对于DCM，十维行为参数指示在点击之后在每个位置继续浏览的概率。全局模型g在每个位置具有几乎均匀连续的概率一些用户如c1、c2和c3倾向于查看更多的结果，而另一些用户如c9和c10则倾向于尽快放弃会话此外，属于c2的用户倾向于在顶部位置检查结果，而属于c5的用户则相反。当c5的用户浏览过最上面的搜索结果时，他们会在最下面的位置停留更长的时间其他像c1和c4CMPB和NOP之间的切换。对于困惑，较低的差异-中间位置连续概率高。对LogLikeli-hood而言，则相反根据图3所示的差值分布回答RQ5：通过分析个性化点击模型的参数，我们可以观察到用户有不同的行为模式我们可以发现，首先，CMPB可以实现比这可能与全球模式不同因此必须所有三个用户组上的NOP。该差异对于困惑度大多为负，而对于对数似然度大多为正。其次，具有较低查询熵的用户比其他用户获得更多的性能增益用户组的性能随着查询熵从4. 517. 96比2 48 4.51比0 02. 48. 回答RQ4：个性化点击模型更适合查询主题稳定的用户。在这种情况下，用户行为随着时间的推移更加一致，并且该行为可能与其他行为不同。因此，个性化的点击模型可以更好地适应这类用户。6.5 用户行为分析（RQ5）点击模型的一个重要应用是从模型参数中了解用户行为模式为了回答RQ5，在本节中，我们可视化一个基于位置的模型PBM和一个级联模型DCM的行为相关参数，以显示用户之间的不同行为模式。使用K-Means [15]算法将1，249个用户对应的每个局部模型的行为参数聚类到10个中心。PBM和DCM的中心向量分别如图4（a）和图4（b）所示对于PBM，10维行为参数表示每个位置的检查概率全局模型g的检查概率具有较强的位置偏差，而大多数用户的检查概率在更高的级别上也是递减的一些用户，如c1，倾向于检查更多的结果，这些结果在每个位置都有更高的概率其他的，比如c9，可能只查看第一个结果，然后放弃查询会话。然而，像c3这样的一些用户可能不会严格遵守位置偏差。他们更喜欢在中间位置检查搜索结果，如p3，p4和p5。Web搜索中个性化用户行为建模7结论用户在搜索过程中的行为有一个明显的差异，因为用户有不同的搜索习惯。为了个性化的点击行为建模，我们提出了点击模型个性化框架（CMP），它可以应用于广泛的点击模型，而无需修改他们的行为假设。

下载后可阅读完整内容，剩余1页未读，立即下载