没有合适的资源?快使用搜索试试~ 我知道了~
基于会话的多查询搜索会话用于人才搜索的比较推荐方法
CEUR诉讼http://ceur-ws.org比较推荐与多查询搜索会话用于人才搜索MesutKaya1,ToineBogers11丹麦奥尔堡大学传播心理学系Meyers Vænge 15,2450丹麦哥本哈根摘要查询级评价指标,如nDCG,起源于信息检索(IR)领域,已被广泛采用的推荐系统(RS)社区比较质量的不同排名的建议与不同级别的相关性,以用户。然而,传统的(离线)RS评估范例通常限于评估单个结果列表。相比之下,IR研究人员在过去十年中也开发了基于会话的更复杂的搜索任务的评估指标。在这里,会话由多个查询和多轮搜索交互组成,并且度量从整体上评估会话的质量。尽管更传统的单列表评估范式很受欢迎,但RS也可以用于帮助用户完成复杂的信息访问任务。在本文中,我们探讨了会话级评估指标的有用性,用于评估和比较推荐系统和搜索引擎的性能。我们表明,尽管可能存在误解,比较这两种情况类似于比较苹果和橙子,它确实是可以比较推荐结果从一个单一的排名列表的结果,从整个搜索会话。在这样做的时候,我们解决了以下问题:(1)我们如何公平和现实地比较单个推荐项目列表的质量和整个人工搜索会话的质量;(2)我们如何衡量RS对整个搜索会话的贡献我们通过关注一个特定的复杂搜索场景来分析我们的主张:人才搜索问题。作为专业搜索的一个示例,人才搜索涉及招聘人员在搜索会话过程中通过发出多个查询来搜索给定特定职位公告的相关候选人。 我们表明,这是可能的搜索行为和成功的招聘人员的匹配推荐系统,生成一个单一的排名列表的相关候选人为一个给定的职位发布。特别是,我们采用了基于会话的度量IR和激励它可以用来执行有效的和现实的比较推荐列表多查询搜索会话。关键词评价,基于会话的推荐,招聘,职位推荐,搜索1. 介绍可以说,推荐系统的最常见的应用场景是向用户呈现针对他们的品味和兴趣个性化的推荐项目的单个列表,之后他们参与这些项目中的一些(或不参与),从而提供Perspectives on the Evaluation of Recommender Systems Workshop(PERSPECTIVES 2022),2022年9月22日,与第16届ACM推荐系统会议在美国华盛顿州西雅图举行mkaya@ikp.aau.dk(M. Kaya);toine@ikp.aau.dk(T.Bogers)https://mesutkaya.github.io/(M.Kaya);https:http://toinebogers.com/(T.Bogers)©2022本文版权归作者所有。使用许可根据知识共享许可署名4.0国际(CC BY 4.0).讲习班ISSN1613-0073CEUR研讨会论文集(CEUR-WS.org)对建议质量的反馈因此,这种情况也是离线评估中最常模拟的情况,有许多标准化的评估指标,如RMSE,命中率和nDCG [1]。然而,还有许多其他非标准的应用场景不适合这种模式,并且评估起来更具挑战性,例如在会话中通过多次交互而不是单个列表[2]与推荐系统进行交互,或者为一组用户而不是单个用户提供推荐[3]。另一个研究较少的场景是人类增强,而不是主要角色,推荐系统可以发挥支持作用,帮助用户满足他们的信息需求[4]。这种通过预测系统进行的人类增强是Raisamoet al.[4]这就是所谓的增强认知。在某些情况下,这一点尤其有价值,因为部分决策过程可以自动化,但最终决定推荐哪些项目仍然需要或受益于人工监督。这种情况的一个例子是人才搜索(或工作配对),招聘人员试图为一个开放的职位招聘确定相关的候选人,并通过评估他们的资格,如他们的知识,技能,能力,工作经验,教育水平和兴趣[5]。人才搜索是复杂的专业信息访问任务的典型示例通常情况下,招聘人员首先分析当前职位发布的相关职位要求,然后使用多个查询和查询重构来搜索候选人CV的数据库,近年来,已经提出了各种使用人工智能技术来帮助招聘人员进行匹配的方法,例如从招聘信息中自动提取相关技能[ 6 ]或为相关求职者生成推荐[7]。然而,与其用自动推荐取代人工招聘人员,更好的方法往往是通过使用工作推荐系统来增强招聘人员的任务,以增强他们的如果没有人力监督的好处和招聘人员带来的经验,人力资源行业目前使用的职位推荐技术已经被证明过于限制,并且有可能产生不公平的候选人简历排名[8]。通过在招聘人员正常搜索过程开始时或同时向他们提供候选人推荐,可以减少每个职位发布所需的工作量,包括提交和重新制定的查询、花费的总时间,甚至增加联系的相关候选人的数量然而,乍一看,在这种情况下评估遥感的有效性似乎像是把苹果和橘子进行比较。我们如何公平而现实地比较单个推荐项目列表的质量和整个手动搜索会话(RQ 1)的质量?我们如何衡量RS对整个搜索会话(RQ 2)的贡献在本文中,我们介绍了一种比较和评估推荐和搜索的可能方法,该方法试图通过采用和调整来自IR领域的会话级评估指标来回答这些研究问题[9,10,11,12]。我们认为,这允许单个推荐列表和整个搜索会话之间的现实比较,并且它支持离线评估。在本文的其余部分,我们首先简要概述了评估单列表推荐和会话级搜索的相关工作。然后,我们通过在第3节中介绍一个以人才搜索为中心的激励性示例来介绍我们的工作,并展示我们如何采用和调整IR领域的会话级评估指标来回答我们的研究问题。我们将在第4节进行讨论并得出结论。2. 相关工作虽然在线A/B测试实验通常被认为是为推荐系统提供最真实的评估条件,但通常首先运行离线评估实验以缩小有希望的候选算法的空间。由于缺乏真实的用户交互,离线测试允许以低得多的成本对各种候选算法进行快速原型设计和比较[13,1]。离线测试的一个重要元素是使用有效的和已建立的评估指标,使离线评估尽可能真实。虽然对单个列表推荐的评估似乎是一个解决的问题,但是对于评估整个推荐会话、对于将使用搜索和推荐获得的结果彼此进行比较、或者对于评估推荐系统在支持能力方面的贡献,这远不那么清楚。2.1. 单列评价最常见的评估设置之一涉及向用户呈现推荐项目的单个列表并请求对推荐的反馈在离线测试中,这个参考排名然后与一个或多个算法产生的推荐进行比较[13,1]。 这种设置受到了可以追溯到20世纪60年代的Cranfield范式的启发[14],该范式规定了如何离线评估检索算法[9,13]。因此,RS社区已经从IR中采用了几个标准化的评估指标,其中DCG是最受欢迎的指标之一[1]。贴现累积增益(DCG)是排名质量的度量,其考虑了不同项目通过增益值的分配对于用户可能具有用户从与特定项目的交互中获得了多少好处包含更高相关性的项目并且返回更接近排名顶部的高相关性项目的结果列表表示更有效的结果列表。形式上,单个结果列表的有效性,表示为k(Q),可以通过获取增益的内积来计算矢量分析和讨论矢量分析[12]:���(Q)=������������∑=1其中,查询Q返回第二个结果,第二个(Q)是用户从第 二个结果中获得的增益,并且是第 1 个结果的折扣因子在信息检索中,关联度(Q)通常被称为一种分级的相关性判断,等级在RS研究中很常见贴现 因子通常被估计为贴现率将与第 二个结果相互作用的概率,确保在列表中排名靠后的高度相关的项目受到更多的惩罚由于推荐列表的大小可能不同,因此直接比较折扣增益向量是有问题的。 为了解决这个问题,Järvelin和Kekäläinen [15]提出将折扣增益向量与理想增益向量进行归一化,以在每个位置产生一个单数字归一化DCG(nDCG)分数 。2.2. 基于会话的评估信息搜索通常采取多阶段过程的形式,其中包含几轮查询制定和与搜索结果的交互[16],特别是在复杂的专业搜索场景中,例如人才搜索。由于单列表评估指标(如nDCG)旨在衡量单个查询或建议列表的有效性,因此多年来已提出了几个会话级评估指标[9,10,11,12]。所有这些会话级度量都概括为以下等式:一曰:���������������������������(=1其中,搜索引擎是搜索会话,其中,搜索引擎分别针对第n个查询返回的第n个结果提交具有增益因子的���第n���个查询,以及折扣因子的第n个查询。������������Eq的一个实例。1是会话贴现累积增益(或sDCG),这是Järvelin等人提出的nDCG对整个搜索会话[10 ]第10段。就sDCG而言,贴现因子 ,的公式如下:������,(1+)(1+Q)(三)此折扣因子有两个不同的折扣分量:排名折扣的Rank 折扣(也是nDCG的一部分)和查询折扣的RankQ(在会话接近结束时对交互的结果进行更多惩罚)。这两个组件可以通过改变它们的对数底值来控制,其中较大的值可以用于对花费更多时间、提交更多查询和评估更多搜索结果的用户进行对于由单个查询组成的Eq的不同实例之间的主要区别。1是在使用不同的折扣因子,如sRBP度量Lipani等人提出的[11 ]第10段。RS社区也开展了基于会议的建议和评价方面的相关工作在基于会话的RS中,目标是基于按时间排序的交互序列为正在进行的会话生成建议,这些交互序列以会话的形式组织[2]。基于会话的RS的离线评估与单列表评估没有太大区别:交互数据被分成训练和测试部分,之后训练数据用于学习推荐模型,以预测测试集中的偏好。据我们所知,没有人提出使用会话级指标来评估整个RS交互会话的成功2.3. 结合搜索和推荐正如我们在第1节中所讨论的,RS也可以与其他信息访问方法结合使用,例如在人才搜索的情况下,搜索引擎贾布拉和图日林[17]研究了如何最好地组合搜索和推荐结果的问题,因为他们将纯推荐和纯搜索的性能分别与搜索和推荐结果列表的交错组合的性能进行了比较。他们在回忆相关项目时评估了这三个条件,发现组合的结果优于单独的结果列表。然而,没有一个单独的组件代表整个交互会话,这与我们的重点相反另一种考虑搜索和推荐交叉的方法是Bogers和Koolen提出的叙事驱动推荐场景[18]。他们将叙事驱动推荐定义为一种推荐场景,其中推荐过程由用户过去交互的日志以及他们当前兴趣的叙事描述驱动这与RS支持的人才搜索的情况有许多相似之处:过去的搜索行为和求职者与职位发布之间的过去交互构成了交互数据,职位发布可以被视为招聘人员当前信息需求的表示。作者用图书推荐说明了他们的RS场景,但他们只使用nDCG评估了单个列表,从未考虑过搜索会话。据我们所知,没有其他的例子,直接比较搜索和推荐或评估的贡献RS的支持作用。在下一节中,我们将介绍我们的用例,并讨论基于会话的评估指标(如sDCG)在评估此类人类增强场景中的价值。3. 使用案例:JobIndex为了将我们对IR基于会话的评估指标的倡导结合起来,以帮助在人工增强场景中离线评估推荐系统我们首先更详细地解释他们的招聘过程和增强场景,然后是符号定义和对我们数据集的描述。然后,我们提出我们的结果,以帮助回答我们的研究问题。3.1. 在Jobindex图1a是Jobindex招聘流程的可视化。 为每个打开招聘人员从招聘信息中提取最重要的职位要求,然后在Jobindex的简历数据库中搜索相关候选人。当招聘人员通过选择一个空缺职位来开始一个新工作时 ,搜索引擎使用职位发布的位置和行业作为初始查询(Q 0),实际上执行Allan等人的方法。[19]指的是零射击检索。这个初始查询的结果往往是不精确的,但第1https://www.jobindex.dk招聘人员Q0<空>招聘广告所在地+行业年q1活动过滤器Q2活动过滤器QM<…招聘人员招聘广告Q0推荐器年q1活动过滤器Q2活动过滤器QM<…1.CV12.CV2+1.CV6o1.CV7-2.CV7-2CV6o1. CV42. CV51.CV52.CV7-1.CV6o1.CV7-2.CV7-2CV6o1. CV42. CV53.CV33.CV83.CV2+...3.CV13.CV6o3.CV83.CV2+...3.CV14.CV44.CV2+4。CV84.CV9+4.CV2+4.CV2+4。CV84.CV9+5.CV55.CV35.CV9+5.CV2+5.CV9+5. CV35.CV9+5.CV2+(a) (b)推荐增强搜索会议图1:Jobindex招聘人员搜索行为的可视化及其认知增强的潜力图(a)显示了Jobindex招聘人员的原始搜索行为 他们在多个阶段(Q 0到Q )中搜索职位发布的相关候选人,并评估返回的简历的子集。所有彩色简历都被招聘人员认为是相关的,并被列入联系人的候选名单;所有白色简历都被认为是不相关的。已联系的候选人可以做出积极回应(绿色)、消极回应(红色)或根本不回应(灰色)。图(b)显示了使用推荐系统增强人才搜索过程的场景。 为了避免降低招聘人员的自主性,Q0的初始结果列表被职位RS生成的推荐所取代。高回忆,给招聘人员一个任务难度的指示。招聘人员可以检查结果列表Q0以查看其是否包含相关候选人(例如,候选CV2+)。在此初始结果列表之后,招聘人员通过制定搜索查询和(取消)选择过滤器,以Q1在发出一个新的查询后,招聘人员会看到与所涉及的查询相对应的另一个结果列表在每次查询之后,他们可以识别更相关的候选者(例如,CV 6。和CV 7-(对于Q1)和CV 9+(对于Q2)。相同的CV被返回不同的查询(例如,CV2+)。招聘人员需要根据他们的历史回复率确定至少20个相关候选人,因此他们将继续评估结果列表,筛选候选人并重新制定他们的查询,直到他们在查询Q 中达到这个数字。接下来,招聘人员向入围的候选人发送一条消息,他们可以积极回应(图1a中的绿色),消极回应(红色)或根本不回应(灰色)。图1a中的白色简历不被招聘人员视为相关候选人。Jobindex的人才搜索过程是专业搜索的一个明显例子,介于纯查找搜索和纯探索性搜索之间。通常情况下,招聘人员事先不知道他们在寻找谁,并会重新制定他们的查询,并根据他们的中间发现调整他们的策略,如探索性搜索。然而,招聘人员心中有一个明确的目标,通常是他们目标领域的专家,并且知道如何实现他们的目标-所有这些对于探索性搜索来说都是罕见的。3.2. 增加招聘人员图1b显示了RS如何帮助招聘人员进行搜索。推荐算法的理想结果是返回一个排名列表,其中(1)包含……………………=1招聘人员在搜索会话过程中发出多个查询之后将找到的所有CV;(2)将最相关的候选人排名在顶部附近(即,在示例中也积极响应的入围候选人,例如CV 2+和CV 9+));以及(3)如果招聘人员花费更多努力来寻找相关候选人,则将相关候选人排名更高通过这种方式,RS可以帮助招聘人员减少查询数量,花费更少的时间和精力。原则上,招聘人员不必仅限于搜索过程的开始,就可以看到自动推荐可以在每个搜索步骤自动地或通过给予招聘人员对组合过程的完全控制而与其手动搜索结果组合或交织这种增强的认知场景与交互式推荐有几个相似之处[21],尽管它们远非相同。估计招聘人员根据Vakkari [16]这就是为什么,在这项工作中,我们假设在搜索会话的后期阶段找到的相关候选人是招聘人员花费更多精力的候选人。我们可以使用此信息来使推荐系统的贡献的离线评估例如,我们期望一个完美的推荐算法将CV9+排在CV2+之前,因为招聘人员可以说花费更多的精力来寻找CV9+,并且CV9+的收益将大于CV2+。当然,在我们的示例中,推荐列表中的相关候选的排序取决于推荐器的目标,即,协助招聘人员,使他们提交更少的查询,花费更少的时间等。如果我们只通过观察联系的候选人的反应类型来衡量有效性,我们可以认为CV2+和CV9+的顺序并不重要,因为两者都是积极的反应。3.3. 符号对于一个职位公告,招聘人员执行人才搜索任务,并 在会话过程中发出招聘查询,招聘查询= {Q1,Q2,���对于每个提交的查询Q∈���,返回包含多个CV的排名结果列表������={1,2,������������������会话可以表示为���= {���1,���2,������.,}。对于 ,招聘人员从简历中选择���相关候选人简历���������,向他们发送关于会话会话的联系消息,其中会话的相关候选者的集合可以被称为会话={会话会话1,���rsp1,会话1,...,会话会话1,rsp 1���������会话1},其中rsp 1是由联系的CV会话1给出的响应类型(肯定、否定或无响应),并且会话会话1是CV会话1的第一次响应������������������������������在审查过程中向征聘人员出示了 证据,即,例如,在第 二次查询如前所述,使用RS增强招聘人员与招聘广告有关我们可以计算并表示为招聘广告生成的推荐列表R={1,2,������.,},它包含一组按相关性排序的CV,这些CV是由某些推荐算法计算的在我们的用例中,对于Jobindex提供的数据集中可用的所有职位发布,我们通过使用基于内容的推荐器计算推荐列表,该推荐器使用基于职位名称的职位发布和简历嵌入来推荐每个工作的相关候选人[23]。值得注意的是,本文的重点不是开发一个新的推荐算法或声称我们的示例算法是最佳选择。相反,我们使用这个简单的基线算法来说明评估方法。虽然这是一个非个性化的运行,其中招聘广告被用作查询,但人们可以使用求职者和简历之间的交互数据来整合项目到项目的推荐,甚至根据招聘人员过去对过滤器的选择来个性化每个招聘人员的结果。可以使用最近提出的不同推荐算法来代替我们用于推荐工作相关候选人的基于内容的推荐器[24,25]。3.4. 数据集我们使用Jobindex提供的搜索日志数据,其中包括Jobindex这些搜索任务中的每一个都对应于由单个招聘人员处理的单个职位发布。对于每个已完成的任务,Jobindex记录以下数据,我们可以将其用作用例评估的一部分检索到的CV对于会话中的每个已提交查询,基于已提交查询显示的CV ID列表,其中包括CV在该查询结果列表中的排名。所有CV ID都是匿名的,数据集中没有个人信息响应数据对于每个已完成的会话,可获得关于联系的候选人集合的响应数据,其中包括联系的候选人3.5. 结果3.5.1. 将搜索会话与推荐列表进行对于一个给定的会话 ,我们可以考虑招聘人员评估为相关的简历,将简历作为测试集,并使用nDCG等评估指标来估计和比较不同推荐列表的有效性然而,单列表评估指标,如nDCG不适合比较单个列表的有效性,整个搜索会话,因为他们会错过了搜索引擎首先,对于每个会话 ,我们根据联系的CV的响应类型分配相关性权重。分配这些相关性权重有一些限制在Jobindex用例中。首先,我们认为,所有联系过的候选人都已经入围,招聘人员联系过的候选人应该被视为相关的,即使他们的反应是负面的。考虑到工作是一个很好的反馈,但不想换工作的时刻也涵盖了负面的反应,所以这些负面的反应可能代表一个相关的候选人。此外,不同响应的相关性权重-积极、消极和无响应(=“nr”)-应该遵循“无响应”>“无响应”>“无响应”���������������������������������虽然这些相关性权重取决于上下文,但我们将其设置为������������= 10,对于我们的用例,我们可以使用= 2和= 1来优化更多的积极因素。答复2.为了显示如何计算sDCG指标,我们包括表1,其对应于图1a中所示的玩具示例。它示出了表示每个查询结果列表的向量,每个查询结果列表包含初始结果列表Q0的增益(G)、折扣增益(sDG)、折扣累积增益(sDCG)和归一化sDCG(nsDCG)值,这三个查询由招聘者Q1-Q3发出我们还包括图1b中的人工前5名推荐列表,它取代了图1a中的初始结果列表。由于sDCG默认为单查询会话的nDCG,因此我们可以使用相同的指标将单个推荐列表与完整搜索会话进行比较,并计算其G,sDG,sDCG和nsDCG值,从而使我们能够比较看似不同的信息访问伪影。请注意,对于会话中的不同查询,可能会多次返回某些CV为了计算增益向量,我们必须决定是仅在第一次返回CV时考虑增益,还是每次系统返回CV在我们的数据集中,我们没有关于招聘人员在哪一点(第二次查询)将候选人CV评估为相关的信息,因此我们在每次向招聘人员显示时都包含CV增益值为了计算nsDCG值,我们需要为每个查询构造理想的增益向量。在理想的情况下,招聘人员将仅需要发出单个查询Q来在为招聘返回的结果列表中找到要联系的所有相关候选人C。Q. 在计算整个搜索会话的理想增益向量时,我们遵循Järvelin等人[10]并为会话中的每个查询串联这个理想增益向量三次,因为每个提交的查询可以被认为是找到理想结果列表的另一次尝试。为了产生类似于nDCG的汇总统计量,我们计算不同等级(RQ 1)的平均sDCG这允许我们比较在查询的哪个等级处������搜索会话的sDCG超过推荐算法的sDCG。换句话说,在招聘人员的经验接管之前,推荐系统可以完成招聘人员的多少工作。我们还绘制了包含sDCG值的增益向量,以直观地显示该交点,如图2a和2b所示。图2a和2b显示了我们的Jobindex数据集中7,425个唯一搜索会话的平均sDCG和nsDCG值对于每个会话,我们计算了前10个查询及其前20个结果的sDCG和nsDCG值。此外,垂直线表示我们的基于基线嵌入的平均sDCG和nsDCG分数。2我们注意到,我们有关于候选人是否积极回应工作建议的数据,我们没有关于他们是否实际申请该职位或是否被雇用的任何信息。这意味着,如果可用,则可以为申请或被雇用信息分配更大的相关性权重。表1示例搜索会话增益(G)、会话折扣增益(sDG)、会话折扣累积增益(sDCG)和基于图1的归一化sDCG(nsDCG)。 对于公式3中的折扣,我们使用=2,=4。 对于基于等式2的该搜索会话的sDCG值,其中查询数量M=4并且搜索结果数量N=5。我们还包括图中的推荐列表 1b作为建议及其相应的G、sDG、sDCG和nsDCG值。查询ID增益向量Q0G:10,10,0,0,0 HzsDG:≤ 0.0、5.0、0.0、0.0、0.0 HzsDCG:≤ 0.0、5.0、5.0、5.0、5.0 mmnsDCG:0.0、0.33、0.32、0.31、0.31 mAQ1G:102,1,0,10,0 HzsDG:≤ 1.33、0.33、0.0、2.22、0.0 mVsDCG:≤ 6.33、6.67、6.67、8.89、8.89 mmHgnsDCG:≤ 0.28、0.25、0.25、0.33、0.33 kHzQ2G:10、11、12、10、13、14、15、16、17、18、19、sDG:≤ 0.56、0.56、2.16、0.0、1.68 mmHgsDCG:≤ 9.45、10.01、12.16、12.16、13.84mmHgnsDCG:≤ 0.29、0.28、0.34、0.34、0.39 mmHgQ3G:100、0、0、10、10 kHzsDG:≤ 0.0、0.0、0.0、1.67、1.51 mmHgsDCG:≤ 13.84、13.84、13.84、15.51、17.01 mmHgnsDCG:≤ 0.34、0.32、0.32、0.35、0.39 kHz建议G:100、1、2、10、10千克DG:10.0、0.5、0.77、3.33、3.01千克sDCG:≤ 0.0、0.5、1.27、4.61、7.62 mmHgnsDCG:0.0、0.03、0.08、0.29、0.47 mA(a)sDCG,rec vs search(b)nsDCG,rec vs search图2:sDCG(a)、nsDCG(b)推荐与整个检索会话的比较推荐算法后面的分数表示为一条水平线,以显示招聘人员的经验最终击败推荐系统的会话查询位置这个交点越靠右,推荐系统就越接近整个搜索会话。 如果推荐列表对应于理想结果列表,则水平线将始终在表示搜索会话的曲线上方。图2a和图2b还具有示出由推荐算法计算的推荐列表的sDCG和nsDCG值的水平线对于图2a和2b,我们可以看到在多查询搜索会话过程中,推荐列表的有效性超过推荐列表的有效性的点(在图中用红色标记)。这可以通过查看水平线(推荐算法的sDCG)和线图(搜索会话的sDCG值)的交点来完成。例如,如果我们查看图2b,我们可以看到多查询搜索会话的nsDCG值在第三个查询的开始处就超过了推荐算法的nsDCG值。理想情况下,生成的推荐列表越好,交点就越靠右。这表明,通过使用SDCG,我们可以有效地比较推荐系统提供初始零查询搜索结果的招聘人员我们还可以使用sDCG来衡量RS集成到Jobindex系统后对招聘人员搜索过程(RQ 2)的实际贡献在这样的在线评估场景中,我们可以设置一个A/B测试,在这个测试中,我们将他们的原始搜索过程测试为简化增强过程。一旦联系的候选人有机会回复招聘人员发送的联系信息,我们就可以再次计算两种变体的sDCG并进行比较。例如,在图1b和表1中的玩具示例中,推荐列表的sDCG@5分数将是7.62,这将允许人们估计推荐列表对整个搜索会话的潜在贡献。4. 讨论结论在本文中,我们研究了会话级的评价指标可以用来评估和比较推荐系统和搜索引擎。通过我们的用例Jobindex,我们表明,它是可能的,从一个单一的排名列表,从整个搜索会话发出多个查询虽然我们在本文中使用人才搜索作为用例,但我们提出的评估方案可用于任何专业的,复杂的信息访问任务,其中RS可用于增强信息专业人员的认知能力,例如专利搜索,搜索法律文件。我们认为,这是一个调查不足的问题,值得更多的关注。4.1. 限制我们注意到,这是一个初步的研究,探讨如何比较推荐系统和搜索引擎使用会话级的评价指标。有一些我们目前工作的局限性。在本文中,我们不做一个原则性的分析的鲁棒性和区分力的会话级评价指标的离线评价推荐系统。4.2. 今后工作搜索者的努力可以被合并到基于会话的评估中,并且可以用于使用/适配像sDCG这样的度量来比较由不同推荐算法例如,对于图1a中所示的玩具示例,正如我们之前所讨论的,对于CV9+,推荐可以为招聘人员节省的工作量大于CV2+,那么我们应该在比较不同的推荐列表时纳入招聘人员例如,在该示例中,该因子将给予CV 9+比CV 2+更高的增益实现此目的的一种方法是结合动态值调整,以便对不同的推荐列表进行更现实的评估和比较考虑等式中的增益系数1、最小值(Q),这是对结果的相关判断对于已完成的搜索会话,我们知道招聘人员评估的返回搜索结果集,也知道联系的求职者给出的响应类型。我们可以将相关性权重乘以一个类似于张等人提出的新近效应的因子[12]他们认为后来提交的查询更重要。对我们来说,在后来提交的查询中首先找到的相关结果更重要,因为可以说,通过在推荐列表中显示它,我们可以帮助招聘人员提交更少的查询,花更少的时间找到该结果。我们可以通过将增益因子乘以−���(−)���[12]来调整增益因子,(R),其中是反映努力速率的参数���������������=0意味着>0为在会话的稍后阶段找到的结果赋予更大的权重。 是在我们使用RS辅助的搜索会话中提交的查询的总数,并且 表示RS中的第 -个文档(如果它是相关文档)在搜索会话中首次返回。这样,我们通过考虑招聘人员在寻找相关文档上花费的可能努力来动态调整增益值。我们将此以及如何设计更好的函数以基于例如搜索者所花费的时间和精力的历史分析来动态地调整增益值的讨论留给未来的工作。我们还计划在招聘人员的搜索过程中获得他们对推荐有用性的反馈,并将用户研究结果与建议的评估方法的结果进行比较。致谢这项研究得到了丹麦创新基金的支持,资助号为。0175-000005B。引用[1] A. Gunawardana , G. Shani , Evaluating recommender systems , in :Recommender systems handbook,Springer,2015,pp. 265-308[2] D. Jannach,M. Quadrana,P. Cremonesi,基于会话的推荐系统,推荐系统手册(2022)301。[3] J.Masthoff,Group recommender systems:Combining individual models,in:Recommender systems handbook,Springer,2011,pp. 677-702[4] R.赖萨莫岛Rakkolainen,P. Majaranta,K. Salminen,J.Rantala,A. Farooq,Human Augmentation : Past , Present and Future , International Journal ofHuman-Computer Studies 131(2019)131[5] J.A. Breaugh , Employee Recruitment : Current Knowledge and ImportantAreas for Future Research,Human Resource Management Review 18(2008)103[6] M. 刘,J. Wang,K. Abdelfatah,M.Korayem,Tripartite vector representationsfor better job recommendation,arXiv预印本arXiv:1907.12379(2019)。[7] P. Montuschi,V. Gatteschi,F. Lamberti,A.桑纳角Demartini,招聘和求职过程:技术如何帮助,IT专业16(2013)41[8] J. B. Fuller,M.Raman,E.Sage-Gavin,K.海因斯,隐藏的工人:未开发的人才,哈佛商学院,9月(2021年)。[9] M. Liu,J.Mao,Y. Liu,M. Zhang,S. Ma,调查会话级搜索用户满意度的认知效应,在:第25届acm sigkdd知识发现数据挖掘国际会议论文集,2019年923-931[10] K. Järvelin , S. L. 普 赖 斯 湖 M. L. Delcambre , M. L. Nielsen , Discountedcumulated gain based evaluation of multiple-query IR sessions , in :Proceedings of the IR research , 30th European conference on Advances ininformation retrieval,ECIR四比十五[11] A.利帕尼湾 Carterette,E. Yilmaz,从查询会话的用户模型到会话排名偏置精度(sRBP),在:2019年ACM SIGIR信息检索理论国际会议论文集,ICTIR '19,计算 机 械 协 会 , 纽 约 , 纽 约 , 美 国 , 2019 年 , pp. 109-116. 网 址 :https://doi.org/10.1145/3341981.3344216。doi:10.1145/3341981.3344216。[12] F. 张 建 茂 , Y. Liu , W. 妈 , M 。 Zhang , S. Ma , Cascade or Recency :Constructing BetterEvaluation Classification forSession Search , in :Proceedings of the 43rd International ACM SIGIR Conference on Research andDevelopment in Information Retrieval,Association for Computing Machinery,NewYork,NY,USA,2020,pp.389-398.网址:https://doi.org/10.1145/3397271.3401163。[13] D. Valcarce,A.Bellogín,J.帕拉帕尔山口Castells,评估top-n推荐中的排名指标doi:10.1007/s10791-020-09377-x。[14] E. M. Voorhees,克兰菲尔德的演变,在:信息检索评估在不断变化的世界,施普林格,2019年,pp。45比69[15] K. Järvelin,J. 张文,基于累积增益的红外技术评估,ACM信息系统学报(TOIS)20(2002)422-446。[16] P. Vakkari,搜索作为学习:基于文献的系统化,信息科学42(2016)7[17] D. Dzyabura , A.Tuzhilin , Not by search alone : How recommendationscomplement search results , in : Proceedings of the 7th ACM Conference onRecommender Systems , RecSys '13 , Association for Computing Machinery ,NewYork,NY,USA,2013,p.371374.网址:https://doi.org/10.1145/2507157.2507231。doi:10.1145/2507157.2507231。[18] T. Bogers,M.Koolen,定义和支持叙事驱动的推荐,在:RecSys238-242。[19] J. 艾 伦 湾 Croft , A.Moffat , M.Sanderson , Frontiers , Challenges , andOpportunities for Information Retrieval : Report from swirl 2012 the secondstrategic workshop on information retrieval in lorne,in:ACM sigir forum,volume 46,ACM New York,NY,USA,2012,pp.2-32[20] R. W. 怀 特 河 , 巴 西 - 地 A. Roth , Exploratory Search : Beyond the Query-Response Paradigm,Synthesis Lectures on Information Concepts,Retrieval,and Services 1(2009)1[21] C. He,D. Parra,K. Verbert,交互式推荐系统:对最新技术和未来研究挑战和机遇的调查,专家系统与应用56(2016)9[22] M.卡亚T. Bogers,Under Review(匿名)。[23] M. 卡亚T.Bogers,基于职位的嵌入对简历到工作广告推荐的有效性35-41.[24] E. Lacic,M.Reiter-Haas,T.杜里契奇河谷Slawicek,E.莱克斯,我们要嵌入吗?一项关于利用嵌入进行实时工作推荐的在线性能的研究,载于:第13届ACM推荐系统会议论文集,2019年,第13页。496-500.[25] D. Lavi,学习使用多语言双向编码器bert匹配求职者,在:第十五届ACM推荐系统会议,2021年,第15页。565-566。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功