搜索成功与用户满意度的关系及预测方法

157 浏览量更新于2023-10-15 收藏 16.06MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

15330"失败的满意"或"不满意的成功": 探究搜索成功与用户满意之间的关系0刘梦阳，刘奕群 � 毛佳鑫，罗程，张敏，马少平清华大学计算机科学与技术系，中国北京yiqunliu@tsinghua.edu.cn0摘要0用户满意度在最近的网络搜索评估研究中受到了广泛关注。尽管满意度通常被认为是搜索成功的重要标志，但在许多情况下并不能保证成功，特别是对于复杂的搜索任务场景。在本研究中，我们调查了用户满意度和搜索成功之间的差异，并试图采用这些发现来预测复杂搜索任务中的搜索成功。为了实现这些研究目标，我们进行了一项实验室研究，其中搜索成功和用户满意度分别由领域专家评估员和搜索用户进行注释。我们发现在这些搜索任务中，既有"失败的满意"案例，也有"不满意的成功"案例，两者共占所有搜索会话的40.3%。我们还调查了导致搜索成功和用户满意度不一致的因素（例如文档可读性和可信度），并采用这些因素来预测一个搜索任务是否成功。实验结果表明，我们提出的预测方法在预测搜索成功方面是有效的。0关键词0搜索成功；用户满意度；搜索评估01 引言0搜索评估是信息检索（IR）研究中的一个核心关注点之一。除了传统的系统导向评估方法，即Cranfield范式，还引起了对用户导向评估方法的广泛关注。研究人员试图用各种文档特征（相关性、有用性等）[12 , 23 ]或用户的隐式反馈信号（点击、悬停、滚动等）[ 5 , 7 , 8]来建模用户的主观感受。在这一研究领域中，许多现有研究关注两个重要变量的估计：用户满意度和搜索成功。用户满意度衡量用户与系统交互的主观感受。它可以定义为对特定信息需求的满足程度[ 16]。搜索成功衡量搜索过程的客观结果[ 1 , 25]。与用户满意度不同，搜索成功通常通过预定义的标准[ 10]或由领域专家评估[ 19 ]来衡量。搜索成功和用户满意度0*通讯作者0本文发表在知识共享署名4.0国际（CC BY4.0）许可下。作者保留在个人和公司网站上传播作品的权利，并附上适当的归属。WWW2018，2018年4月23日至27日，法国里昂 © 2018IW3C2（国际万维网会议委员会），根据知识共享CC BY 4.0许可发布。ACM ISBN978-1-4503-5639-8/18/04。https://doi.org/10.1145/3178876.31860650表1:一个用户感到满意但未能成功找到正确信息的示例会话。对于每个文档，我们呈现用户的有用性反馈和潜在信息收益的评估（更多细节请参见第3节）0搜索任务：美国利益集团通常采取哪些策略来实现自己的利益？用户满意度：0.7（高）搜索成功：0.2（低）0点击记录: 查询 #1 美国利益集团和策略0点击 #1 www.3edu.net/lw/gjzz/lw_97095.html 有用性3（高）潜在收益: 0.1（低）0点击 #2 lw.3edu.net/sjs/lw_186933.html 有用性 1 (低)潜在收益: 0.6 (高)0点击 #3 www.66test.com/Content/4778772_2.html有用性 4（高）潜在收益: 0.1（低）0搜索成功和用户满意度是两个既与搜索性能相关又具有不同角度的变量。对于信息需求简单明确的搜索任务，搜索成功通常与用户满意度一致。也就是说，当用户对获得的足够有用的信息（他/她认为）感到满意时，搜索过程通常可以视为成功的搜索。然而，对于具有复杂信息需求的搜索任务，例如探索性搜索，用户有时很难确定他们是否获得了足够可信的信息来满足他们的信息需求。在这些情况下，用户满意度可能与搜索成功不同。表1展示了我们实验研究的一个例子（更多细节请参见第3.1节）。用户发出一个查询并依次查看三个落地页。在手动检查点击的文档后，我们发现第一个和第三个页面包含有限的有用信息。然而，用户认为这两个结果是有用的，因为它们包含了一些不可靠的内容（一些过时的个人观点），似乎能够回答问题。与此同时，用户认为实际上包含有用信息的文档（第二个点击的文档）是无用的，因为有用内容离网页开头有些远。从搜索者的角度来看，他/她感到满意，因为他/她认为已经找到了足够有用的信息。然而，他/她实际上得到了非常有偏见的信息，从领域专家的角度来看，这个任务并不成功。在这个例子中，我们可以看到由于内容可信度或文档可读性，用户满意度可能与搜索成功不同。0Track: Web Search and Mining WWW 2018, 2018年4月23日至27日，法国里昂15340用户满意度和搜索成功之间的差异可能导致两种情况：“满意的失败”和“不满意的成功”。“不满意的成功”情况只会伤害用户的主观感受，而“满意的失败”情况对用户可能真正有害。在最近的研究中，Frances等人[26]描述了一起事故，一名中国学生不幸因为满意于搜索结果中包含恶意信息而在搜索医疗信息时死亡。因此，除了给用户带来满意度外，帮助他们进行成功的搜索，即通过搜索获得足够的正确信息，也非常重要。为了实现这个目标，第一步也是必要的步骤应该是调查用户满意度和搜索成功之间的关系。在这项研究中，我们试图通过回答以下研究问题来迈出第一步：0• RQ1在复杂搜索任务中，特别是探索性搜索中，搜索成功和用户满意度在多大程度上不一致？ • RQ2导致这些“满意的失败”或“不满意的成功”情况的因素是什么？ • RQ3我们能否通过不同特征的组合来预测复杂搜索会话中的搜索成功？0为了解这些研究问题，我们进行了一项实验室用户研究，收集了主观用户反馈和领域专家的客观判断。通过这个构建的数据集，我们研究了搜索成功与用户满意度之间的关系。特别是，我们试图找出这两个重要变量不一致的原因。据我们所知，我们是首次进行这种调查的。本研究的主要贡献有三个方面：0•我们展示了用户满意度和搜索成功之间的差异。具体而言，不一致的情况占我们用户研究中收集到的所有会话的40.3％，而满意但不成功的会话占不一致情况的70.2％。 •我们发现差异主要来自用户感知的有用性和点击文档的潜在收益之间的不一致。我们发现一些因素将显著影响用户对有用性的感知。例如，具有更高可读性的文档即使文档提供的潜在收益不高，用户也会认为它们更有用。 •我们提出了一个新的度量标准来估计搜索成功，并建立了一个回归模型来预测搜索成功。我们发现与搜索满意度相关的特征在估计搜索成功方面并不那么有效，这进一步表明用户满意度和搜索成功是由不同机制决定的。0本文的剩余部分组织如下。第2节回顾了与本研究相关的现有研究。第3节描述了实验用户研究和相应的注释过程。在第4节中，我们提供了数据分析来回答RQ1和RQ2。为了回答RQ3，我们提出了以成功为导向的评估指标。0此数据集将在双盲审查过程后向公众开放0在第5节中介绍了搜索成功预测的方法和模型。最后，在第7节中给出了我们的结论和未来的工作。02 相关工作 2.1用户满意度0用户满意度衡量了用户对系统交互的主观感受，它可以理解为满足特定信息需求的程度[16]。已经注意到，通过实际用户的明确判断，可以更真实地评估系统的性能[3]。许多研究调查了用户满意度与搜索系统结果之间的关系。Huffman和Hochster[12]发现会话级满意度与一些简单的相关性指标之间存在强相关性。Maskari等人[2]发现用户满意度与一些评估指标（如CG和DCG）之间存在强相关性。Jiang等人[14]提出了分级搜索满意度的概念，并观察到满意度与每次努力的平均搜索结果之间存在强相关性。用户满意度与用户行为之间的关系也得到了广泛的研究。Wang等人[28]发现动作级满意度对整体搜索满意度有贡献。Kim等人[17]发现可以通过点击停留时间来预测点击级满意度。Liu等人[22]提取了用户在搜索结果页面上的鼠标移动信息，并提出了一种有效的方法来预测用户满意度。02.2 搜索成功0Ageev等人提出了一个信息搜索成功的概念模型，称为QRAV[1]。该模型包括四个阶段：查询构建、结果识别、答案提取和答案验证。一些研究[10,27]要求用户填写预定义的问卷，以估计他们的搜索成功程度。李等人[19]收集了用户对搜索任务的明确答案，并将正确性视为搜索成功。在这项研究中，我们遵循李等人的方法，重点关注用户通过与检索系统的交互获得了什么。现有研究提出了不同的方法来预测搜索成功。Hassan等人[4]提出了可以准确预测会话级搜索成功的模型。Ageev等人探索了成功搜索者的策略和行为，并提出了一个类似游戏的框架来建模不同类型的网络搜索成功[1]。Odijk等人研究了挣扎和搜索成功之间的关系[25]。基于他们的分析，他们建立了一个系统，帮助搜索者减少挣扎，取得更多成功。02.3 探索性搜索0White和Roth[30]指出，探索性搜索可以被定义为一个信息寻求问题，它是开放性的，具有持久性、机会性、迭代性和多方面的过程，更注重学习而不是回答特定的问题。与普通的搜索任务相比，探索性搜索通常伴随着认知、学习和信息收集过程，由于用户的知识有限，他们可能会有不同的行为[11, 24, 29]。刘等人[20,21]表明任务的难度和领域知识将影响用户的搜索行为。Eileen等人[31]进行了探索性搜索的研究。0Track: Web Search and Mining WWW 2018, April 23-27, 2018, Lyon, France�mi=1 ei ∗ дim дi(1)Track: Web Search and MiningWWW 2018, April 23-27, 2018, Lyon, France15350领域知识和搜索专业知识对搜索效果的影响。由于探索性搜索的复杂性，用户有时很难确定他们是否获得了足够可靠的信息来满足他们的信息需求。因此，用户满意度可能并不总是与他们的搜索结果一致。在这项研究中，我们试图对搜索成功和用户满意度之间的关系进行深入调查。03 数据收集0为了调查用户满意度与搜索成功之间的关系，我们进行了一项实验研究，包括两个步骤（见图1）：I. 用户研究和II.数据注释。这两个步骤中收集了以下四种类型的数据：（1）我们收集用户在搜索过程中的交互，包括查询、点击、对结果的检查等。（2）在进行搜索任务之前，要求参与者报告他们对该主题的感知难度、先前知识和兴趣。任务完成后，我们明确要求他们报告每个任务的满意度和每个结果的感知有用性。（3）用户通过回答任务问题在进行搜索任务之前和之后总结他们的搜索结果，这可以用来推断他们在多大程度上取得了成功。（4）我们从四个方面（相关性、可读性、可信度、可找到性）收集外部评估者的判断。03.1 用户研究0在实验室用户研究中，每个参与者需要完成来自环境、医学和政治三个领域的6个任务。所有任务都是由相应部门的高年级研究生（后文称为“专家”）设计的。任务描述如表2所示。所有任务都是基于几个标准进行设计的。首先，任务应该明确陈述，以便所有参与者能够以相同的方式解释描述。其次，我们确保任务不是一个琐碎的任务，参与者几乎无法只通过几次简单的搜索交互来完成，因为在这项研究中，我们主要关注复杂的搜索场景。此外，我们要求专家提供回答某个任务问题的关键点列表。关键点的创建灵感来自Clarke等人使用的“信息金块”概念。但它与“信息金块”不同，因为每个关键点都分配了一个重要性分数，因为找到关键点更为重要。关键点用于评估用户答案的质量以及结果文档的潜在收益。例如，表2中的第一个任务有八个关键点，包括：（a1）平均年污染浓度较高（分数=5）；（a2）污染浓度具有较强的区域特性（分数=4）；...；（a8）污染浓度近年来显著下降（分数=3）。潜在收益被定义为文档中包含的关键点覆盖用户信息需求的百分比，即[д1, д2, ...,дm]。дi的值是每个关键点的重要性分数。通过我们在第3.2节中的数据注释，我们可以知道每个关键点是否存在于文档中。因此，文档可以表示为[e1, e2, ..., em]，ei = 1 / 0表示关键点是否存在。0表2：用户研究中的搜索任务。0领域任务描述0环境0中国的污染颗粒物有哪些特点？你的回答应涵盖其组成、时间变化模式和地理特征。紫外线消毒为什么不能完全取代氯消毒来消毒饮用水？它们各自的优缺点是什么？0医学0临床上最常用的癌症治疗方法有哪些？3D打印在“精准医学”中有哪些潜在应用？0政治0政治学家们指出，在美国总统选举期间，政治两极分化的趋势日益明显。背后的原因是什么？为了实现自己的利益，美国利益集团通常采取什么样的策略？0点是否存在于文档中，潜在收益可以根据公式1计算。0潜在收益 =0为了进行用户研究，我们开发了一个实验性的搜索引擎系统。当用户向该系统提交查询时，它会从一个主要的商业搜索引擎中爬取相应的结果并显示给用户。在向用户提供的结果中，所有的查询建议、广告和赞助商搜索结果都被删除，以减少对用户行为的潜在影响。在执行任务时，参与者可以在搜索过程中自由地制定查询。这些交互由一个注入的Javascript插件记录，包括查询制定、点击、滚动、鼠标移动、分页等。我们通过电子邮件和校园海报招募了30名本科生参加用户研究，其中22名参与者为女性，8名为男性。参与者的年龄在19到22岁之间。所有参与者都熟悉基本的网络搜索引擎的使用方法，其中大多数人每天都使用网络搜索引擎。在删除了具有日志错误的数据后，数据集中剩下166个搜索会话。在进行了一个实验前的培训阶段后，每个参与者被要求以随机顺序完成六个任务。每个任务没有时间限制，参与者在完成任务后感到疲劳时可以休息。如图1（I）所示，实验过程包括：（I-1）在第一阶段，参与者应该在一个初始页面上阅读并记住任务描述，并被要求在不查看的情况下重复任务描述，以确保她已经记住了它。（I-2）接下来，参与者需要完成一个包括：她的领域知识水平、预测的难度水平和兴趣水平的任务前问卷。她通过一个5级Likert量表（1：一点也不，2：稍微，3：有点，4：适度，5：非常）给出反馈。然后，她需要在她认为自己对任务有所了解时给出一个任务前答案。（I-3）之后，参与者可以像通常使用商业搜索引擎一样进行搜索。她被要求在登陆页面的右键弹出菜单中标记结果对她是否有用（1：一点也不，2：有点，3：相当，4：非常）。她可以在认为已经找到足够的信息时结束搜索，或者她找不到更多有用的信息。（I-4）最后，她需要给出一个搜索后答案和一个关于任务搜索体验的整体5级满意度反馈。.........Annotation Instruction15360I.0 实验前培训0I.1 任务描述阅读和重复0I.2 任务前问卷0I.3使用实验搜索引擎完成任务0I.4 问题回答和满意度反馈030名参与者0领域专家0搜索任务0问卷0数据0行为0日志0问题答案0设计评估0I. 用户研究 II. 数据标注030名评估员0II.1关键点的可找性标注0II.2相关性和可信度和可读性标注0图1：数据收集过程。0水平，以及任务的兴趣水平。她通过一个5级Likert量表（1：一点也不，2：稍微，3：有点，4：适度，5：非常）给出反馈。然后，她需要在她认为自己对任务有所了解时给出一个任务前答案。（I-3）之后，参与者可以像通常使用商业搜索引擎一样进行搜索。她被要求在登陆页面的右键弹出菜单中标记结果对她是否有用（1：一点也不，2：有点，3：相当，4：非常）。她可以在认为已经找到足够的信息时结束搜索，或者她找不到更多有用的信息。（I-4）最后，她需要给出一个搜索后答案和一个关于任务搜索体验的整体5级满意度反馈。03.2 数据标注0数据标注包括两个部分。在第一部分中，我们请专家标注用户任务前后答案中包含的关键点数量。之后，我们在校园招募了30名评估员来标注被点击的文档。评估员是研究生或本科生。在标注之前，他们需要阅读一份说明：您将花费大约两个小时完成60个标注任务。对于每个标注任务，您将获得一个任务描述和一个您应该仔细阅读的文档。然后，您需要标记文档的相关性、可信度、可读性以及包含的关键点数量。...每个任务没有时间限制，整体上也没有最低时间限制。完成一个任务后，您可以继续下一个任务，或者在感到疲劳时休息。图1（II）显示了标注的界面。对于每个标注任务，我们展示了任务描述和一个指向文档的超链接。具体而言，评估员需要提供以下信息：（1）可找性；（2）相关性；（3）0根据以下标准标记左侧标签：可找到性：（在着陆页上找到答案有多容易，如果找不到当前答案，请跳到下一个）0注释指导0相关性：（着陆页上的信息与搜索任务的主题相关程度）01星：非常难以找到；2星：稍微难以找到；3星：相当容易找到；4星：非常容易找到。0可信度：（着陆页上的信息有多可信）01星：完全不相关；2星：有些相关；3星：相当相关；4星：非常相关。0可读性：（着陆页上的内容有多容易阅读）01星：一点也不可信；2星：有些可信；3星：相当可信；4星：非常可信。0图2：显示给评估者的注释指导。01星：几乎无法阅读；2星：稍微难以阅读；3星：相当容易阅读；4星：非常容易阅读。0Track: Web Search and Mining WWW 2018, April 23-27, 2018, Lyon, France�ki=1 aimi=1 дi(2)Track: Web Search and MiningWWW 2018, April 23-27, 2018, Lyon, France15370相关性；（4）可读性。所有测量值都用4级分级标注。图2显示了带有详细注释指导的增强搜索日志的注释页面。我们采用了许多先前研究中的类似注释标准[15，23]。评估者在做出决策之前需要检查文档。首先，他们需要根据指示确定某个关键点是否可以在文档中轻松找到。然后，根据指示，他们需要对相关性、可信度和可读性进行判断。每个文档由三个不同的评估者进行标注，以减少个体的潜在偏见。0测量值 1 2 3 4 4级 κ 2级 κ0表3：用户（用于有用性）和评估者（用于相关性、可信度和可读性）的文档标签分布。0相关性 356 390 308 140 0.326 0.4280有用性 734 179 161 120 - -0可读性 222 410 421 141 0.173 0.3190可信度 292 320 487 95 0.249 0.39703.3 统计学0通过进行用户研究和数据标注，我们收集了参与者的反馈和评估者的判断。收集到的数据分布如表3所示。为了后续分析，每个测量值可以分为两个级别（低/高），划分原则是确保两部分具有相似的刻度：有用性（1/234），相关性（12/34），可信度（12/34），可读性（12/34）。我们应用Fleiss的κ（4级和2级）来评估评估者之间的一致性。根据Landis等人的研究[18]，评估者之间的公平一致性被观察到，这表明标注数据具有合理的质量。考虑到我们使用的测量值（可找到性、可读性等）受到评估者的主观因素的自然影响，例如认知能力，我们实验中观察到的不一致是可以接受的。04 数据分析0为了研究搜索成功，我们首先需要对其进行量化。除了Li等人的方法[19]之外，我们提出了一种新的方法来衡量搜索成功。该方法可以考虑用户对任务的先前知识，并因此适应用户的个性化信息需求。我们根据用户满意度和搜索成功的测量值将所有会话分为四个象限。为了分析搜索成功和用户满意度之间的差异，我们进行了一系列的单因素方差分析，发现不同因素对用户满意度和搜索成功有不同的影响。对数据的彻底检查表明，会话级别上用户满意度和搜索成功之间的差异是由于文档级别上的有用性和潜在收益之间的不一致造成的。此外，使用双因素方差分析，我们发现用户的有用性判断可能会受到一些主观和客观因素的影响。04.1 测量搜索成功和满意度0在这项研究中，搜索成功被定义为用户在搜索会话中获得的正确信息的百分比。用户满意度是用户对其搜索过程的主观感受。我们使用不同的方法来衡量搜索成功和满意度。如第3节所述，每个搜索任务可以由领域专家给出的一组关键点完全回答。每个关键点都有一个5级重要性得分дi（一个整数范围在1到5之间）。0图3：用户满意度和搜索成功的分布。两条蓝线表示用户满意度或搜索成功的值等于0.5。0从1到5）。我们还收集了用户在每个任务中的预搜索答案和后搜索答案。因此，用户对搜索任务的个性化信息需求可以表示为一组关键点，这些关键点在预搜索答案中没有涵盖，并且在搜索过程中发现的先前未知关键点的信息增益可以通过后搜索答案中发现的先前未知关键点的数量来衡量。我们将先前未知关键点的重要性得分表示为[д1，д2，...，дm]，将后搜索答案涵盖的关键点的重要性得分表示为[a1，a2，...，ak]。然后，搜索成功可以通过公式2来衡量。0成功 =0例如，一个搜索任务有六个关键点，其重要性得分为[д1，д2，д3，д4，д5，д6]。用户的预搜索答案包含关键点2和关键点3（[д2，д3]）。因此，他的潜在信息需求是其他关键点（[д1，д4，д5，д6]）。如果他的后答案包含三个关键点（[д1，д5，д6]），那么他的搜索成功可以计算为（д1 + д5 + д6）/（д1 + д4 + д5 +д6）。如第3节所述，我们收集了用户对所有会话的5级满意度反馈。收集到的用户满意度标签是一个范围在1到5之间的整数，因此我们进一步使用以下操作将其映射到（0，1）：（1）执行z分数转换以进行标准化；（2）通过sigmoid函数f（z）= 1 /（1 +exp（-z））将z分数映射到0-1。04.2 用户满意度和搜索成功的比较0我们在图3中展示了用户满意度和搜索成功的分布情况。所有会话根据搜索成功和满意度被分为四个象限（Q1-Q4）。每个象限中的会话的标准和分布如表4所示。我们可以看到，在Q1中的会话比Q2中的会话更多（47比20），这表明当用户感到不满意时，他在搜索任务中的成功可能性较低。另一方面，当用户感到满意时，他在搜索任务中成功的可能性几乎有一半（47/99=46.5%）。p-value15380表4：不同象限之间不同测量指标的单因素方差分析结果（*/**表示在p <0.05/0.01水平上具有统计学意义）。0满意度低低高高0成功低高低高0#会话 47 20 47 520会话比例28.3% 12.0% 28.3% 31.3%0#查询 4.74 4.20 4.06 2.96 �0#点击次数7.94 8.05 6.85 6.50 −0预先难度 2.98 2.80 2.66 2.50 −0预先兴趣2.96 3.15 3.43 3.67 ��0预先知识 1.74 1.70 2.09 2.12 −0相关性最大值2.62 2.93 2.68 3.05 ��0可信度最大值2.78 2.78 2.84 2.71 −0可读性最大值2.77 2.96 3.01 2.93 −0并不总是成功。这表明搜索成功并不总是与用户满意度一致。此外，我们在表4中展示了不同测量指标的单因素方差分析结果，包括（1）发出查询和点击文档的数量，作为用户努力的表示；（2）用户对搜索任务的兴趣、知识和感知难度水平的主观反馈；（3）评估员注释的点击文档的客观相关性、可信度和可读性。从四个象限中发出的查询数量和用户兴趣水平的变化中，我们可以观察到当用户花费更多努力或对任务的兴趣较低时，用户满意度显著降低。另一方面，当用户在会话中点击更多相关文档时，搜索成功显著增加。这些结果进一步说明了搜索成功和用户满意度之间的差异。04.3 探究搜索成功与用户满意度之间的不一致性0在表1中，我们展示了一个用户感到满意但未成功的示例会话。表中显示了用户对被点击文档的有用性反馈和潜在收益注释。从用户的角度来看，会话期间找到了一些有用的文档，所以他感到满意。这个结果与之前的研究一致（例如[23]）。一些具有高潜在收益的文档已被点击，因此使用现有的评估方法[13]，这个搜索会话将被认为是成功的。然而，从用户的答案中，我们知道这次搜索并不成功。这个例子揭示了客观潜在收益和用户感知的被点击文档的有用性对于整体搜索成功都不足够。搜索成功可能取决于客观潜在收益和主观用户感知的被点击文档之间的相互作用。图4（a）显示有用性和潜在收益之间只有弱相关性（r =0.29）。相比之下，图4（b）显示相关性和潜在收益之间有很强的相关性（r =0.74）。考虑到有用性和潜在收益之间的差异，有三种不同的情况需要注意：0(a) 有用性-潜在收益0(b) 相关性-潜在收益0图4：有用性和相关性与潜在收益的分布。0(a) 可读性0(b) 可信度0图5：客观因素对用户有用性判断的双向方差分析结果。0如果用户认为一个文档是无用的，那么会忽略文档中包含的信息，因此该文档既不会对满意度产生贡献，也不会对搜索成功产生贡献。如果用户认为一个与主题无关的文档是有用的，并错误地认为自己得到了正确答案，那么该文档将对满意度产生贡献，但对搜索成功没有贡献。如果用户认为一个与主题相关的文档是有用的，并获得了正确的信息。在这种情况下，该文档将对满意度和搜索成功都产生贡献。因此，用户的有用性判断与被点击文档的潜在收益之间的不一致可能导致用户满意度和搜索成功之间的差异。具体而言，如果用户做出与潜在收益不一致的错误有用性判断，那么令人满意的搜索会话可能会失败。基于这一发现，我们在第5节提出了一种估计搜索成功的度量标准。04.4 影响有用性判断的因素0正如我们在第4.3节中所示，对于一个被点击的文档，用户的有用性判断并不总是与潜在收益一致。由于潜在收益是文档的固有属性，可能存在一些影响用户有用性判断的因素。我们进一步使用双向方差分析来探究这些因素对有用性判断的影响。04.4.1客观因素。每个文档的可读性和可信度通过4级评注进行测量。我们将1-2级视为低水平，将3-4级视为高水平。0论文集：Web搜索与挖掘WWW 2018，2018年4月23日至27日，法国里昂(4)Track: Web Search and MiningWWW 2018, April 23-27, 2018, Lyon, France15390(a) 先验难度0(b) 先验兴趣0(c) 先验知识0图6：主观因素对用户有用性判断的双向方差分析结果。0可读性潜在收益的主效应（F（1,1190）= 55.01，p <0.001）和可读性的主效应（F（1,1190）= 50.99，p <0.001）是显著的。在图5（a）中，我们展示了不同条件下文档的平均有用性。我们可以看到，较高的可读性与较高的有用性相关联。这可以解释为高可读性的文档将吸引更多用户阅读。因此，用户更有可能感知信息，无论正确与否，并认为文档是有用的。可信度只有潜在收益的主效应（F（1,1190）= 84.25，p <0.001）是显著的。在图5（b）中，无论潜在收益是低还是高，文档被认为是有用的概率几乎相同。在我们的研究中，文档的可信度似乎对用户的有用性判断影响不大。04.4.2主观因素。我们对每个任务收集了用户的兴趣、先前知识和难度反馈，采用了5级分级标准。我们将1-2级视为低级别，将3级视为中级别，将4-5级视为高级别。我们只考虑高级别和低级别进行双向方差分析。难度用户感知难度的主效应（F（1,828）= 4.85，p =0.028）和潜在收益的主效应（F（1,828）= 57.72，p <0.001）是显著的，交互作用效应（F（1,828）= 4.44，p =0.035）也是显著的。图6（a）显示了不同条件下的平均有用性。当潜在收益较低时，任务难度对有用性判断的影响有限。但是当潜在收益较高时，用户认为任务越困难，越不可能认为文档有用。这表明在面对困难的搜索任务时，用户更有可能将相关文档视为无用。兴趣潜在收益的主效应（F（1,876）= 68.04，p <0.001）和交互作用效应（F（1,876）= 4.34，p =0.038）是显著的，用户兴趣的主效应（F（1,876）= 3.77，p =0.052）几乎显著。从图6（b）可以看出，当潜在收益较低时，被认为有用的文档的概率非常小。另一方面，当潜在收益较高时，如果用户对搜索任务更感兴趣，他认为文档有用的概率将更大。这可能是因为用户对自己感兴趣的任务更有耐心，因此可以注意到更多有用的信息。知识用户知识的主效应（F（1,936）=11.76，p < 0.001）和潜在收益的主效应（F（1,936）= 67.20，p <0.001）是显著的。尽管交互作用效应（F（1,936）= 2.85，p =0.092）不显著，但我们仍然可以从图6（c）中找到一些趋势。当潜在收益较高时，平均有用性几乎相同。但是当潜在收益较低时，具有丰富知识的用户可以准确判断文档是否无用。这表明用户的知识可以帮助他避免错误信息的影响，并做出更准确的有用性判断。0根据这四个标准，我们设计了一个成功导向的指标，成功p。为了计算它，我们使用搜索者的有用性反馈和外部注释者的潜在收益注释。根据点击顺序，我们使用方程（3）计算每个关键点的加权和。U j可以计算为方程（4），usefulnessj是用户对第j个点击文档的有用性反馈。Eij是一个二进制值，当第i个关键点存在于第j个文档中时，E ij =1，否则E ij = 0。д i表示第i个关键点的权重。05基于成功的评估指标0在第4节中，我们展示了只有具有高潜在收益且被认为有用的文档才能促成搜索成功。而传统的评估指标并不是为了评估客观的搜索成功而设计的，我们提出了新的指标来估计用户的搜索成功。基于第4节的分析，我们假设成功导向的指标应满足以下四个标准（以下简称C1-C4）：0• C1 低潜在收益的文档不应该被指标奖励。• C2高潜在收益但被认为无用的文档不应该被奖励。• C3高潜在收益且被认为有用的文档应该被奖励。• C4用户已经知道的信息不应该被奖励。0根据这四个标准，我们设计了一个成功导向的指标，成功p。为了计算它，我们使用搜索者的有用性反馈和外部注释者的潜在收益注释。根据点击顺序，我们使用方程（3）计算每个关键点的加权和。U j可以计算为方程（4），usefulnessj是用户对第j个点击文档的有用性反馈。Eij是一个二进制值，当第i个关键点存在于第j个文档中时，E ij =1，否则E ij = 0。д i表示第i个关键点的权重。0成功 p =0i = 1 max (U j * E ij) * д i (3)0U j = usefulness j - 10表5显示了不同指标如何满足三个标准，并与搜索成功的相关性。(sCG / # queries)U是基于有用性的每个查询的平均搜索结果，(sCG / # queries)R是基于相关性的每个查询的平均搜索结果，先前的研究表明它们与满意度有很强的相关性[14, 23]。(sCG / # queries) U不满足(sCG/ queries)U⊗⊗.∗∗(sCG/#queries)R√⊗√⊗0.29∗∗√⊗√√0.38∗∗√√√√0.51∗∗m�i=1max(Eij ) ∗ дi(5)15400表5：不同指标与用户搜索成功的相关性。Ci是我们提出的标准，√ / � 表示指标满足/不满足当前标准。0指标 C1 C2 C3 C4 皮尔逊相关系数0成功度 m0成功度 p0C1，因为具有低潜在收益和高实用性的文档将增加该指标。( sCG /# queries ) R不满足C2，因为具有高潜在收益的文档应该是相关的，因此无论其是否被认为有用，它都会增加该指标。 ( sCG / # queries ) U 和 ( sCG/ # queries ) R都不满足C4，因为用户已经知道的正确信息仍然会增加这两个指标。成功度 p满足所有四个标准。为了比较，我们提出了只考虑潜在收益而不考虑有用反馈的成功度 m，可以使用方程（5）计算。它表示从点击的文档中可以获得的最大可实现的搜索成功度，如果我们让 U j =1，则可以从方程（3）中获得。成功度 m 不满足C2，原因与 ( sCG/ # queries ) R 相同。结果显示，搜索成功度与 ( sCG / # queries )U ( r = 0.26) 和 ( sCG / # queries ) R ( r = 0.29)之间存在弱正相关性。搜索成功度与成功度 m ( r = 0.38)之间也存在弱相关性。相比之下，搜索成功度与成功度 p ( r = 0.51)之间存在中等相关性。0成功度 m =0总之，用户的搜索成功度与提出的指标（成功度 p 和成功度 m）的相关性更高，而与旨在估计用户满意度的指标（ ( sCG / #queries ) u 和 ( sCG / # queries ) r）的相关性较低。这表明用户满意度和搜索成功度存在差异，因为它们可以通过不同的指标来反映。成功度 p与搜索成功度的相关性最高，不仅显示了其在估计搜索成功度方面的有效性，还支持我们的假设，即成功导向的指标应满足所有四个标准（C1-C4）。也就是说，在估计搜索成功度时，必须同时考虑有用反馈和潜在收益。这进一步证实了我们在第4节中的发现，只有具有高潜在收益且被认为有用的文档才会对搜索成功度做出贡献。06 搜索成功预测0在本节中，我们使用不同类别的特征来预测搜索成功度以回答RQ3。我们将搜索成功度预测视为回归问题，并通过模型预测与参与者答案中的搜索成功度之间的相关性来评估回归模型的有效性。0表6：用于搜索成功预测的特征0组特征 PCC0行为特征0点击停留时间最小值 0.23 ��0点击停留时间最大值 0.050点击停留时间总和 0.060点击停留时间平均值 0.150查询停留时间最小值 0.090查询停留时间最大值 0.090查询停留时间总和 -0.060查询停留时间平均值 0.110查询长度最小值 -0.020查询长度最大值 -0.200查询长度总和 -0.26 ��0查询长度平均值 -0.130# 查询 -0.24 **0# Sat点击 T > 30 0.090Sat点击比例 T > 30 0.16 *0# Dsat点击 T < 10 -0.090Dsat点击比例 T < 10 -0.17 *0注释特征0相关性最大值 0.32 **0相关性 avд 0.22 **0可信度最大值 0.030可信度 avд 0.030可读性最大值 0.100可读性 avд 0.040(sCG/#查询) R 0.29 **0(sDCG/#查询) R 0.27 **0组合特征0# 有用 > 1 & 增益 > 0.2 0.37 **0成功 m 0.38 **0成功 p 0.51 **06.1 特征0所有特征列在表6中，分为三组：行为特征、注释特征和组合特征。之前的研究[14]表明，一组用户行为特征可以有效预测主观搜索满意度，因此我们将这些特征作为行为特征，并测试它们在预测客观搜索成功方面是否也有效。在第4节中，我们展示了文档的可信度和可读性可以影响用户的有用性判断，从而影响搜索成功，因此我们将它们包含在注释特征中。我们还将第5节提出的以成功为导向的度量指标作为组合特征，因为它们与搜索成功有很强的相关性。行为特征可以从搜索行为日志中提取，并捕捉用户与搜索引擎的交互方式。我们采用了之前研究[14]中的一些特征。ClickDwell和Query-Dwell是文档级别和查询级别的点击停留时间。我们的研究中还采用了查询长度和Sat/Dsat点击。我们将这些度量指标在一个会话中的最小值、最大值、平均值和总和作为特征。从表6中我们可以发现，最小停留时间与搜索成功呈正相关。搜索成功与最大查询长度、总查询长度和发出的查询数量呈负相关。这些特征可能反映了用户在完成搜索任务时的困难。0Track: Web Search and Mining WWW 2018, April 23-27, 2018, Lyon, France15410表7：搜索成功预测结果（*/*表示在p<0.05/0.01水平上具有统计学意义）。0特征 PCC MSE0行为 0.26 ** 0.0460注释 0.28 ** 0.0460行为 + 注释 0.32 ** 0.0450组合 0.49 ** 0.0380行为 + 注释 + 组合 0.51 ** 0.0370完成搜索任务，因此

下载后可阅读完整内容，剩余1页未读，立即下载