鼠标跟踪：焦虑和信息寻求中的行为模式

131 浏览量更新于2023-10-15 收藏 769KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

首页>外文书>人文>心理励志> User Modeling，WWW 2018，2018年4月23日至27日，法753焦虑和信息寻求：大规模鼠标跟踪的证据摘要以色列赫兹利亚微软研究院t-bryoun@microsoft.com关键词Elad Yom-TovMicrosoftResearch以色列赫兹利亚eladyt@microsoft.com人们通过搜索引擎寻找信息的行为被认为是相似的，无论他们搜索的主题是什么。在这里，我们使用鼠标跟踪，这是与凝视，显示的信息寻求模式的人显着不同，这取决于他们的焦虑程度在搜索时。我们调查了人们在搜索医学症状期间的行为，从良性迹象（用户通常不焦虑）到可能预示危及生命的情况（预期极度焦虑）我们发现，对于后者，90%的人从来没有看到超过前67%的屏幕，相比之下，超过95%的人扫描寻求良性症状的信息，即使相关的文件同样分布在结果页面中，这些查询。基于此观察，我们开发了一个模型，该模型可以预测用户所经历的焦虑水平，使用来自鼠标跟踪数据和其他用户交互的属性该模型实现了0.48的Kendall我们使用的信息的重要性，用户我们的研究结果证明，忽略这些信息可能会导致显着高估的性能。此外，我们在三个特殊情况下显示了该模型的实用性：其中同时搜索多个症状;查询人有潜在的健康状况;以及当用户寻求关于自杀方式的信息时。在后者中，我们的结果证明了帮助热线通知的重要性，并强调需要measure- sure用户看到的结果的有效数量。我们的研究结果表明，使用焦虑信息的相关性的措施，可以导致更准确地了解搜索结果的质量，特别是当提供潜在的救命信息给用户。CCS概念• 信息系统;搜索接口;相关性评估; ·应用计算;允许制作部分或全部本作品的数字或硬拷贝供个人或课堂使用，不收取任何费用，前提是不得以营利或商业利益为目的制作或分发副本，并且副本必须在第一页上注明本通知和完整必须尊重本作品的第三方组件的版权对于所有其他用途，请联系所有者/作者。WWW 2018，2018年4月23日© 2018版权归所有者/作者所有。ACMISBN 978-1-4503-5639-8/18/04..https://doi.org/10.1145/3178876.3186156鼠标跟踪，相关性，健康，医学ACM参考格式：布里特·杨曼和埃拉德·扬托夫。2018年。焦虑和信息寻求：来自大规模鼠标跟踪的证据。在WWW 2018：2018年网络会议，2018年4月23日至27日，里昂，法国。 ACM， New York ， NY ， USA ， 10 页。https://doi.org/10.1145/3178876.31861561引言Web搜索引擎允许用户从数十亿个Web页面中搜索和检索相关信息通常，用户发出搜索查询，并且引擎返回根据文档的相关性排名的结果列表结果的相关性是从许多因素推断出来的[20]，包括：（i）文档与用户的查询的匹配程度;（ii）文档的信誉，以及（iii）从用户对该查询的行为推断的隐式反馈。后者的记录包括由用户进行的点击，并且更近地，关于用户在搜索引擎结果页面（SERP）上的鼠标位置的移动的数据，其为结果的相关性提供隐含信号[23]。鼠标（或光标）跟踪[24]是使用软件来收集用户的鼠标光标在计算机或浏览器页面上的位置收集这些数据是为了获得关于用户与计算机或网站之间交互的更丰富的信息，通常是为了改进界面的设计[33]，以衡量相关性[20]或者，最近，估计搜索满意度，注意力和兴趣[5，26，29]。眼睛注视，即用户正在看的东西，已经被证明与光标的位置相关[14]。因此，鼠标跟踪已经在用于测量网络搜索中的用户注意力的大规模实验中用作眼睛跟踪的代理，通常用于在用户不明确地点击网页而是仅执行指向动作时收集信息[22]。在搜索引擎设计和人机界面之外，眼动追踪已被用作实验心理学中的强大工具，因为它提供了反映个体认知和心理状态的数据[14]。大多数人会时不时地感到焦虑。Barlow [9]将焦虑定义为“状态焦虑是对紧张情况的广泛反应[39]，并且可以被定义为恐惧，紧张，不适，以及由被认为是危险的情况暂时引起的自主神经系统的唤醒，即，一个人在感受到威胁时的感受[38]。状态焦虑常损害身体和心理功能。状态焦虑的常见症状表现在视觉上，包括隧道视觉、视力模糊和复视[10]。在本文中，术语焦虑和状态焦虑是首页>外文书>人文>心理励志> User Modeling，WWW 2018，2018年4月23日至27日，法754这两个词可以互换使用，尽管在所有情况下我们都指的是状态焦虑。我们注意到，焦虑不应与焦虑症混淆，焦虑症是一种以显著的焦虑感为特征的精神障碍，我们在本文中没有调查。在这里，我们使用鼠标跟踪数据，以了解人们我们的假设是，用户越焦虑，因为她正在经历紧张的情况，如当她患有严重的胸痛时，她越如果是真的，这对搜索相关性有重要的影响，正如我们在下面的实验中所展示的那样。考虑以下说明性示例。图1（a）和(b)显示热图[20]，分别描述了441名询问胸痛和472名询问便秘的人的鼠标运动（数据收集的详细信息见第3节）。在这些热图中，根据鼠标跟踪，红色区域对应于用户花费更多时间查看的区域。可以看出，询问关于更有压力的症状（胸痛）的问题的用户倾向于只看排名靠前的答案，而完全忽略所有其他结果。相比之下，询问压力较小的情况（便秘）的用户倾向于探索更多显示给他们的结果。我们专注于医学症状搜索，因为先前的工作表明，一个人经历的医学症状越严重，她就越焦虑[11，32]。我们表明，用户的焦虑程度可以推断出他们的查询（即，症状提到）的主题，用户与SERP的互动可以预测的焦虑程度。我们研究的重要性，使用信息的用户的焦虑程度时，测量搜索引擎的常用的信息检索评价指标忽略了这样的信息，并因此可能导致不正确的结论的有效性的搜索结果。此外，我们还演示了该模型在三个特殊情况下的使用：同时搜索多个症状;查询人有潜在的健康状况;以及当用户寻求自杀方法的信息时。在后者中，我们的研究结果显示的重要性，帮助线通知，并强调测量的用户看到的结果的有效数量的至关重要性就我们所知，我们是第一个使用鼠标跟踪数据来识别用户在搜索操作之前的潜在情绪状态（特别是焦虑），并且独立于所呈现的内容，并且相信我们所建议的方法为关于用户与搜索系统的交互的心理方面的广泛研究开辟了机会。2相关工作2.1医学症状搜索Web是绝大多数经历医学症状并寻求相关信息的互联网用户的第一站[43，45]。事实上，80%的美国成年人在网上搜索过医疗信息[18]。从医学搜索中获得的信息可以影响用户从事医生，他们的整体方法，他们的健康状况[42，44，45]。White和Horvitz [42]探讨了所搜索的医学症状类型与就诊时间之间的关系一个医疗机构他们的结果表明，用户查询医疗症状的时间与她第一次到达医疗机构治疗她查询的症状的时间之间存在很强的依赖性。与便秘或恶心等更良性的症状相比，可能更令用户担忧的症状（如胸痛）的这些时间差显著较低因此，与网络上的信息的交互反映了用户的焦虑程度，并建议自己作为一种方法来推断它。2.2用户行为分析了解用户如何与SERP交互是信息检索中的一个基本问题，关系到相关性评估，搜索质量和界面设计[3，24，29]。结果点击统计和点击结果的停留时间对于推断搜索结果的相关性具有重要价值[20]。然而，对于不同的搜索查询和用户，这样的信号的解释可以实质上变化，并且其提供关于用户检查了SERP的哪些部分的很少信息。先前的工作已经建议使用光标移动来理解用户行为（例如，[3，7，17]），作为眼动跟踪的廉价替代方案。深入研究了光标和凝视之间的关系[34]，当用户在搜索环境中执行点击或指向动作因此，这些数据已被成功地用于衡量网络搜索中的用户注意力[22]。具体地，使用鼠标跟踪数据来推断内容显著性（例如，[29]），通过估计结果的相关性来改进排名（例如，[20，24]），并且动态地估计搜索者接下来将请求的结果（例如，[16]）。相反，在光标不活动期间，眼睛和光标移动的协调性较差[14]。这限制了这种数据作为内容阅读任务中的注意力测量工具的效用（例如，新闻阅读）。这些作品，虽然类似于我们试图使用鼠标跟踪信号来了解用户行为，不同之处在于，在我们的工作中，我们试图量化用户此外，他们的文档相关性的估计在我们的工作中，这些查询提供了关于用户情绪状态的重要信息当用户在网络上寻找信息时，激发他们的感受具有很高的价值，因为它可以改善搜索和用户体验[6]。以前的工作建议分析光标移动来估计搜索满意度[15，26]，推断用户对在线内容的兴趣[5，6，30]，或推断搜索者的注意力[29]。不同的相关性，兴趣或满意度预测的研究，其中用户的行为和情绪状态，在响应所呈现的内容被推断和她的潜在的情绪状态之前的搜索不被考虑，在这项工作中，我们的目标是推断这种情绪状态如何影响她的行为。我们在这里采取的初始步骤，以更好地了解用户首页>外文书>人文>心理励志> User Modeling，WWW 2018，2018年4月23日至27日，法755(a) 关于胸痛的疑问。（b）关于便秘的询问。(c)导航查询。（d）信息查询。图1：鼠标光标移动的显著性图更红的阴影对应于光标的更长停留时间，指示用户的更高兴趣。[Best颜色查看]2.3查询分类广泛使用的网络搜索分类[12]区分了三种主要类型的用户查询：（i）导航查询，其中用户的目标是到达她心目中的特定站点，（ii）信息查询，其中用户的目标是找到假定在网络上可用的信息，以及（iii）交易查询，其中意图是执行一些网络中介活动。Guo和Agichtein [19]表明，用户Cartright等人[13]区分两种类型的探索性健康搜索查询：（i）假设导向的查询，其中用户的目标是找到关于一种或多种疾病的内容，包括风险因素、治疗和疗法，以及（ii）证据导向的查询，其中意图是理解一组观察到的症状的相关性。这两种类型的健康搜索查询的不同之处在于，在后一种情况下，用户不知道她的潜在健康状况，因此在互联网上搜索信息。3实验方法我们的目标是根据用户与SERP的参与来预测用户的焦虑或压力水平为此，我们接下来简要介绍我们的实验中使用的方法。我们首先解释如何提取和使用鼠标跟踪数据最后，我们解释了我们的实验中使用的模型和方法。3.1数据我们提取了2016年12月1日至2017年5月31日期间美国对Bing搜索引擎的查询我们已经收集了超过22K个用户查询，询问不同的医学症状（见表2）。根据用户的唯一标识符，查询由大约21K个不同的用户提出。在我们的实验中考虑的医学症状包括[42]中使用的症状，并且根据维基百科[2]是常见的医学症状。我们排除了少于150个查询的症状，因此保留了对23个医学症状的查询，其中每个症状有150个或更多查询。对于每个用户查询，我们提取显示和点击结果的列表为了确保询问查询的用户是具有医学症状的用户，然后过滤查询以包括其文本包含使用三个短语“我有”、“我正在有”或“我正在有”中的一个的此外，为了忽略可能影响结果的极端情况，除非另有说明，否则我们删除了包含一种以上医学症状的所有查询（例如，“例如，孕妇询问头痛可能会经历与怀孕有关的焦虑，以及与症状相关的焦虑[21]。重要的是，本研究中进行的所有程序均获得机构审查委员会的批准。将观察到一些症状比其他症状更频繁地出现在用户搜索查询中（例如，咳嗽是比胸痛更常见的症状）。然而，为了我们所采用的学习排名任务，对首页>外文书>人文>心理励志> User Modeling，WWW 2018，2018年4月23日至27日，法756每个症状都是不相关的，因为我们在训练过程中考虑了所有成对的如今，搜索引擎通常在SERP内提供附加文本框，其包含汇总信息（称为快速回答）和/或查询建议列表。这些框的大小可以大于单个有机搜索结果。我们的研究结果表明，有没有相关性的症状查询和概率，这样一个盒子会被提出。因此，我们忽略快速答案大小与有机结果的快速答案大小相比的差异，并注意到排名1的结果实际上可能是快速答案框。本研究中提取的质询均为循证质询[13]。因此，我们假设在发出查询时，用户不知道她的潜在医学状况（并且因此可能经历状态焦虑或压力），导致我们将相同的排名分配给提及相同症状的所有查询另一个潜在的假设是，询问查询的用户自己正在经历症状以前的工作表明，这是绝大多数医学症状搜索查询的情况[46]。我们注意到，分析中的潜在错误包括：（i）用户实际上没有经历所提到的症状，例如，我们进一步执行了显式过滤，以减少数据中出现这些错误的可能性，删除所有包含字符串“3.2鼠标跟踪鼠标跟踪数据由在搜索查询之后的用户我们通过提取屏幕上的最小或最大点等总结特征来表示这些数据表1提供了所有提取特征的完整列表，包括从显示和点击结果中提取的特征选择这些特征以便量化用户与SERP交互的量以及用户与之交互的SERP的程度。例如，我们通过计算页面上局部垂直（y）最小值的数量来计算总结特征的另一个示例是显示结果的数量中的点击结果的数量。此功能提供有关用户查看了多少结果（并发现相关）的信息。然而，由于该特征忽略了点击结果的位置，因此我们还统计了低于某个索引的点击结果的数量第1、第3或第5索引）。根据经验发现，在其他位置下方添加点击是多余的。考虑了其他特征，例如鼠标运动的速度、加速度和加加速度，但发现其不能增加信息，因此在以下分析中被排除。3.3估计症状的医学严重程度等级我们对症状的分析是针对其严重程度的测量进行的，我们将其称为症状的医学严重程度等级MSR水平由医学专家确定并且如下所示，与先前提出的症状严重程度的测量以及与非专家提供的等级高度相关。我们从网站oDesk.com招募了3名医学专业人员（两名医生和一名注册护士）来对该组症状进行排名。专业人员被要求假设某人正在经历每种症状（分别），并将其按1至10的Likert量表对该人应该寻求医疗护理的紧急请注意，专家仅收到症状集，而不是用户查询。取3个评分的平均值，这是用于每种症状的评分。专业人士之间的平均斯皮尔曼ρ相关性为0。60（P <0. 05），这表明在症状的严重程度水平上的强烈一致性几种症状的平均评分值相似。假设相似的分数表示相同的严重程度（即，rank），我们将得分接近0的症状分组在一起。33彼此这导致了七个不同的等级1，其中7被给予最不严重的医疗状况，而1被给予最严重的医疗状况。高度严重的医学状况，如表2所示。与医学专业人员相反，外行人（他们是在线搜索者的大多数）可能不理解他们症状的严重性因此，为了估计MSR如何与外行人对症状严重程度的理解相关参与者被要求假设他们正在经历每种症状（分别），并在1至10的Likert量表上对他们寻求医疗护理的紧急程度进行评级（这里再次，1表示他们将立即前往最近的医院或呼叫救护车，10表示他们将忽视症状）。此外，他们被要求在1到10的Likert量表上估计他们认为在每种情况下他们会感到多么焦虑。参与者之间的平均斯皮尔曼ρ相关性为0。58和0。55，紧迫性和焦虑性等级分别为（外文书>人文>心理励志> User Modeling，WWW 2018，2018年4月23日至27日，法757症状MSR查询次数便秘、鼻塞71031关节痛、咳嗽、咽喉痛、疲劳63612头痛、耳痛、腹泻，髋关节疼痛、膝关节疼痛、颈部疼痛57425发热、背痛、恶心、皮疹脚肿47704头晕、眩晕31342心悸、吞咽困难2504胸痛、呼吸1908表 1：来自用户与SERP的交互的特征表2：症状、医学症状排名（MSR）和数据集中包含的每个MSR处的查询数量通过鼠标移动和点击。x和y分别是光标的水平和垂直屏幕坐标。假设这些分数没有经历过他们自己的大部分症状我们选择使用本文中由医学专业人员给出的MSR，并且注意到它与外行人的分数之间的高度相关性。然而，与用户实际焦虑的相关性可能介于外行和专业人士之间。以前的研究表明，医学症状越严重，用户的压力和焦虑就越大[11，32]，无论他们是在寻找自己（大多数情况下[46]）还是亲密的家庭成员。我们将症状的MSR与White和Horvitz [42]给出的结果相关联，他们测量了用户发出症状搜索查询到医疗保健利用（EHU）证据存在之间的时间。该研究中的EHU在他们的工作中，作者只考虑了本研究中考虑的一部分症状（这里检查的23种症状中的13种症状MSR和EHU之间的斯皮尔曼ρ为0。51（P <0. 05），表明MSRs和EHU在症状严重程度的测量方面相似，但不完全相同有趣的是，排除头痛作为症状之一，斯皮尔曼ρ为0。65（P <0. 05），根据医学专家的说法，头痛的MSR为5，而其EHU为2。也就是说，医学专家并不认为头痛是一种严重的医学症状，而证据表明，头痛的人这可能是因为人们只有在经历了严重的症状表现时才会询问头痛，因此可能会寻求医疗，而专家通常会考虑头痛除了头痛，MSR和EHU在低等级症状上具有非常高的一致性医学专家评定为MSR为4或更低的症状：这里斯皮尔曼的ρ是0。89（P <0. 05）。因此，当症状通常令人担忧时，其严重程度和寻求治疗的时间高度相关。3.4症状排名计算了23种症状的MSR。然而，症状的范围要大得多因此，为了能够估计23个症状列表之外的症状的MSR，我们训练了一个排名器来根据用户与SERP的交互来预测MSR。排名器在学习排名（LTR）框架中训练。LTR解决项目列表上的排名问题LTR的目的是学习这些项目的最佳排序，同时最小化排名中的反转数量。因此，LTR关注的是项目的相对分数，而不是它们的绝对分数。在我们的环境中，我们不关心焦虑的确切数量，因为我们的目标是了解什么样的行为意味着比其他人更紧张的情况。在我们的实验中，我们使用了SVM秩[27]，这是一种高效的LTR模型基于具有秩2的多项式核的SVM模型。我们注意到，用于根据部分和有偏信息反馈（例如，最近提出[28]。然而，该实现仅支持训练数据上的二进制标签（即，将文档标记为相关或不相关），因此，它不适合我们的设置。如上所述，排名器使用的示例的属性仅基于用户与SERP的交互SVM秩模型的输入是对应的特征向量。响应每个用户查询，其输出是[-1，1]中的实数根据这些分数，可以通过排序来恢复排名。在我们的情况下，由于我们希望关注MSR的7个离散水平，因此我们进一步使用对排名器的输出值的k均值聚类将排名器的输出聚类成7个聚类聚类根据每个聚类中的示例的排名器输出的平均值进行为了保持聚类中的样本数量平衡，我们从每个MSR值中随机选择3.5搜索引擎性能不同的评估措施已被建议，以评估搜索引擎结果的质量[35]。可以说，最常见的是精度，它计算响应查询返回的相关文档的数量。精度通常是针对检索到的前k个文档进行评估的，此时称为在k处的精度（P@k）。精度不考虑相关文档在前k个结果中的位置。为了克服这一点，建议使用归一化贴现累积增益（NDCG）[25]NDCG根据文件在结果列表中的位置来衡量文件的有用性，每个结果的收益在较低的排名中被特征最大x，y点平均x，y点最小x，y点x，y的方差局部y最小值的数量会期鼠标总距离最深点击结果显示结果中被点击第1、第3或第5个索引所见屏幕的百分比（宽度或高度）首页>外文书>人文>心理励志> User Modeling，WWW 2018，2018年4月23日至27日，法758为了在我们的实验研究中评估Bing的性能，我们随机选取了65个症状查询的样本。我们通过要求来自CrowdFlower网站（www.crowdflower.com）的5个众包工作者对响应Bing的 65个查询而显示的前10个页面中的每一个的相关性进行排名，来标记返回的文档的相关性用户被要求在3分制上对页面帮助理解问题性质或解决方案的程度进行评分我们使用每个页面的平均得分来计算NDCG，并且在计算精度时假设如果其平均得分等于2，则页面是相关4结果在本节中，我们提供了我们的努力，以验证所提出的模型的有效性的结果。然后，我们显示的重要性，估计用户看到的屏幕的分数时，评估搜索引擎的性能。最后，我们应用该模型来学习与三个特定场景相关的焦虑水平（使用3.4节中描述的技术）。4.1从用户交互预测焦虑首先，我们评估学习排名模型如何能够捕获症状的严重程度（因此，可能的焦虑水平用户）从他们与SERP的交互。我们使用Kendall使用10倍交叉验证来评估模型的性能，其中每个样本表示特征向量，该特征向量进而表示单个用户会话（注意，特征向量不包含查询的文本我们报告所有运行的平均得分。使用经过训练的模型，我们根据用户交互对查询进行我们发现平均Kendall τ为0。48，平均斯皮尔曼ρ= 0。40（p <0.05在所有情况下）。有趣的是，当考虑等级相距很远的示例时，即，在具有大于2的间隙的等级中，平均值为τ = 0。55且ρ = 0。53.因此，根据查询的文本，用户与SERP的交互可以解释人们将预测用户正在经历的焦虑水平的大部分。该实验提供了经验证据，即与SERP的交互受到用户的情绪状态的影响观察到的相关性可能是搜索引擎对不同查询的响应的结果即，高焦虑用户与排名靠前的结果交互更多，因为它们更相关，而不太焦虑的用户接收具有不太相关的结果的SERP为了反驳这一点，我们计算了采样查询的NDCG及其人群标记的显示结果（如3.5节所述）。NDCG评分与MSRs之间的Pearson相关性为r2= 0。03（p> 0 . 05）。2）的情况。因此，SERP内相关结果的分布不能解释从小鼠运动预测MSR的能力。此外，正如我们下面所讨论的，这些动作表明焦虑用户甚至看不到低排名结果，因此不能确定低排名结果是否与他们的需要相关为了证明用户的行为和相关的MSR排名他们的查询之间的关联，我们专注于从用户的记录会话中提取的图2显示了模型中使用的两个属性的依赖关系：（1）突出屏幕的百分比（即，基于鼠标跟踪数据，用户与之交互的屏幕部分）和（2）在症状等级上最深点击结果的位置（其中位置1是SERP顶部的结果），如医学注释器给出的。水平轴表示症状的MSR（其用作基础事实），并且垂直轴表示对于给定等级中的所有样品获得的第90百分位值。例如，图2（a）示出了询问与最高严重性相关联的查询的用户中的90%仅看到SERP的67%或更少，相比之下，询问与最低严重性（等级7）相关联的查询的用户看到这些图示出了在较低排名的查询中，即，在那些焦虑水平较高的情况下，用户关注于SERP的较小部分并且倾向于点击较高排名的结果。然而，这两个属性与查询文本所暗示的焦虑水平之间的相关性并不完美：仅使用这两个特征训练的模型提供较差的结果，平均肯德尔τ为0。35和平均斯皮尔曼ρ = 0。28（p <0. 05）。表3描绘了使用单个特征实现的平均肯德尔例如，第一行示出了仅使用垂直突出屏幕的部分产生0的肯德尔τ。18. 如表所示，最重要的特征是显著屏幕的百分比和最深点击的密切相关位置。导航和信息查询。上述分析表明，用户询问的症状越严重，她与SERP交互的越少我们期望用户与SERP的交互中的差异的另一个区域在第一种情况下，我们希望用户与SERP的大部分交互（如在不太严重的症状中），而在后者中，我们希望用户与屏幕的一小部分交互（通常是第一个结果）。因此，在这里我们考虑1000个导航查询和2000个信息查询，并将上面构建的模型应用于它们。通过提取最流行的互联网网站的列表来识别所包括的导航查询，如在相关的维基百科页面（en.wikipedia.org/wiki/List_of_most_popular_websites）中列出的，并且提取提及这些网站之一的查询搜索查询“Google”）。对于信息查询，我们提取了关于包含文本“How do I”或“Howto”但不包含上述任何症状的查询的数据图1（c）和（d）分别示出了描述来自导航查询和信息查询的鼠标移动的热图将这些图与图1（a）和图1（b）进行比较，我们观察到针对严重症状（胸痛）的查询与导航查询非常相似，而针对良性症状（便秘）的查询更类似于信息查询。首页>外文书>人文>心理励志> User Modeling，WWW 2018，2018年4月23日至27日，法759最深点击结果1100.9590.90.8580.870.750.760.650.6 1 2 3 4 5 6 7MSR五一二三四五六七MSR(a)作为MSR的函数的垂直突出屏幕的分数。（b）作为MSR的函数的最深点击结果的位置。图2：使用的两个功能与MSR之间的连接我们将该模型应用于交互数据。如预期的，92%的导航查询被预测为等级1，其余查询被预测为等级2。相反，78%的信息查询被预测为排名7，16%的排名6和6%的排名5。关于信息查询的不确定性源于不同信息查询之间的大变化，即，每个查询询问不同的主题。在这里，我们再次考虑了这种影响的可能性，因为搜索引擎类似地响应导航和更严重的症状相关的查询。我们认为情况并非如此，原因如下：首先，如所展示的，搜索引擎用类似的NDCG对所有症状相关查询进行响应。因此，高度相关的结果不太可能仅对更焦虑的用户排名靠前。第二，在导航查询中，基本假设是只有一个正确答案并且用户搜索它。然而，在诸如医学症状搜索一的信息查询中，没有理由相信用户期望仅看到一个结果。因此，在严重症状查询中观察到的行为与另一个因素有关我们的假设是用户的精神状态在不偏离我们主要关注点太远的情况下，也许可以观察到，对于导航查询，情况有点不同。尽管根据排名器，绝大多数示例与最低排名1相关联，但计算出的分数通常低于与该排名相关联的基线示例得分大多数低于聚类中心的得分（73%的例子都是这种情况4.2搜索引擎评价的含义如前所述，我们的结果表明，焦虑水平越高，用户探索低排名结果的概率越低。例如，如图2（b）所示，对于与高焦虑水平相关联的因此，在本节中，我们提出了必要的改进，以2个常见的评估措施，搜索引擎。P@k的使用隐含地假设用户对前k个文档感兴趣（或将向下阅读到前k个文档的排名）NDCG隐含地假设用户将（可能地）读取排名结果的无限深度[31]）。P@k的缺点之一是我们隐含地假设显示的结果的数量等于看到的结果的数量。因此，对于所有查询使用具有恒定k值的该度量可能导致对搜索引擎的过高估计性能如下所示，重要的是使用不同的k值，使得k对应于所看到的结果的数量类似的逻辑适用于NDCG计算的截止点，其中不应考虑低于某个k的然而，这样的策略的实现可能导致在时间和存储器复杂性方面的大开销，因为它需要对每个用户-查询对进行为了克服这一点，我们建议使用训练模型来估计每个查询的k为了证明在评估搜索引擎的质量时使用每个查询值k的重要性，我们计算了65个症状查询的随机样本的P @ k和NDCG得分（如3.5节所述）。我们为显示结果的列表和看到的结果的部分列表计算了这些分数。部分列表的长度根据查询中提到的症状和看到的结果的数量来设置，如使用屏幕大小和最大y坐标计算的NDCG在完整列表中的平均得分为0。94,而部分列表上的平均 NDCG 得分为 0 。 89 （符号检验，P<10−10）。完整列表的平均P @ k为0。70和0。56对于部分列表（signtest，P<10−10）。在实践中，虽然“完整”NDCG分数和“部分”NDCG分数之间的相关性良好（Pearson r = 0. 9，P= 0。03），它并不完美。因此，对于许多查询，特别是那些暗示高度焦虑的用户的查询，我们会高估性能。例如，对于查询“如果我呼吸短促意味着什么”，完整NDCG评分为0。86，而部分NDCG得分仅为0。66. 更明确地，该查询的SERP将等于0的高NDCG。86，但由于90%的询问呼吸短促的类似查询的用户仅看到前6个结果，因此实际NDCG为0。66.这项研究表明，使用信息的重要性，对用户这些结果表明，一个天真的测量相关性可能会导致高估的搜索结果的质量。因此，我们的研究结果表明，相关性的措施，考虑焦虑的信息，以及，可以导致更准确地了解搜索结果的质量，特别是在可能提供救生信息给用户的情况下。4.3特殊情况我们在三种特殊情况下介绍了前面几节中介绍的模型的应用：第一种是当用户搜索多种症状时。最后两个是已知焦虑对行为有强烈影响的特殊情况[4，21]，即，屏幕的百分比首页>外文书>人文>心理励志> User Modeling，WWW 2018，2018年4月23日至27日，法760不超过特征肯德尔显屏百分比（高度）0.18最深点击结果0.18局部y最小值的数量0.17鼠标总距离0.17平均y点0.16最大y点0.16方差y点0.14第三索引0.10会期0.09显示结果中被点击0.09表3：仅使用一个特征时的平均Kendall孕妇的焦虑水平和询问自杀相关问题的人的焦虑水平。多种症状。在本节中，我们分析包含两种医学症状的组合的搜索查询。我们的目标是推断用户提出这样的查询的焦虑程度这样的查询的示例是当用户询问胸痛和头痛两者时。直观地，我们预期经历两种症状的用户的焦虑水平分别与具有胸痛或头痛的用户的焦虑量成比例，但可能分别大于每种症状。我们收集了其他查询，这次确保查询包含所考虑的两种医学症状。我们收集了832个询问，询问了38种常见的症状组合（对于每种组合，我们收集了至少10个询问）。然后，我们根据用户与SERP的交互来分析预测的排名图4描绘了此处应用的线性模型的参数，其中自变量x1和x2分别是最小和最大秩，并且因变量是预测秩。有趣的是，我们的实验表明，更严重的症状对测量的等级具有更大的影响（即，系数X1大于系数X2）。即，与头痛的用户相比，头痛和胸痛的用户的焦虑水平与胸痛的用户的焦虑水平然而，测量的等级高于更严重症状同时患有头痛和胸痛的用户比仅患有胸痛的用户更不焦虑（根据我们的发现），但比仅患有头痛的用户更焦虑如上所述，互联网的发展使得公众能够更容易地获得关于医学症状的信息可用的网站包括那些提供特定医疗状况的可能诊断的网站，以及那些然后帮助人们决定是自我治疗还是咨询医生的网站[40]。然而，在这种情况下，健康护理评估基于对体征、症状和用户的病史的有限知识。对搜索和浏览医疗保健信息的研究表明，审查Web内容可能会导致从关注常见的、典型的良性症状升级到搜索罕见和可怕的疾病[42]。这项工作的一个有趣的应用是检查用户行为之间的相关性他们测量的情绪状态，和实际水平出现上述医学症状的风险。可变斜率（S.E.） p值更严重症状的等级0.624（0.088）<10-3表4：用于预测关于医学症状的常见组合的查询的焦虑水平的模型系数。模型拟合为R2= 0。七三一87654321001 2 3 4 5 6 7 8MSR图3：怀孕对其他健康状况的影响圆圈的大小与具有给定MSR和测量秩的示例的分数成比例怀孕期间的症状搜索。与其他人群相比，孕妇的焦虑程度更高[21]。在这里，我们验证了该模型能够捕捉到孕妇的额外焦虑。我们收集了333个额外的症状搜索，其中询问查询的用户除了医学症状之外还包括术语“怀孕”或“怀孕”，确保没有使用否定术语（“未怀孕”）。然后，使用训练的模型和推理程序，我们检查了孕妇查询医疗症状的焦虑水平。图3显示，我们的研究结果支持怀孕与更高水平的焦虑相关的假设：在所有情况下，孕妇询问的平均排名低于或等于非怀孕用户评定的症状的平均排名。例如，虽然与发烧有关的查询的排名是4，但孕妇中的此类查询的平均排名是3。然而，模型拟合是中等的（R2= 0. 53）。我们注意到，对于一些症状，所测量的焦虑水平对于怀孕或非怀孕用户几乎相等，而对于其他症状，所测量的焦虑水平之间存在显著差异，即孕妇更焦虑（根据模型）。因此，我们将症状分为两类，根据它们是否是典型的妊娠，如下所示。我们将一类症状定义为妊娠期间常见的身体症状，包括恶心、疲劳、背痛、便秘和脚肿（根据https://en.wikipedia.org/wiki/Pregnancy），另一类描述与妊娠无关的症状对于第一类，我们发现症状的预测等级与非妊娠人群的预测等级相同（等级之间的差异为1）。在后一组症状中，与其余人群相比，预测怀孕人群的焦虑水平更高，所有症状的等级差异为2或更多。我们使用线性回归模型对这一观察结果进行量化，模型中有两个解释变量：症状的等级，如规定的y = 0.8x -0.18R² = 0.53测量秩首页>外文书>人文>心理励志> User Modeling，WWW 2018，2018年4月23日至27日，法761可变斜率（S.E.）p值症状等级0.739（0.053）10−3<罕见妊娠症状-1.072（0.131）<10 −3表5：使用妊娠期间症状患病率的额外信息预测焦虑水平的模型系数。模型拟合为R2= 0。七六五由医学标签人员确定，以及关于症状在怀孕期间是否常见（=0）或不常见（=1）的指示变量。该模型的参数描绘于表5中，显示关于孕妇中症状的流行率的信息显著增加模型的拟合（即， R2= 0。77），虽然孕妇一般更焦虑（斜率为0.739），但经历不常见的症状会增加焦虑。与自杀有关的查询。自杀是一个可预防的公共卫生问题，也是美国和许多其他国家的主要死亡原因[1]。互联网为有自杀意图的人提供了丰富的信息，从支持团体和危机干预网站，劝阻个人自杀，到支持自杀的团体和指导，否则将不容易获得[36]。焦虑一直与自杀行为的增加有关[4，37]。在本节中，我们的目的是阐明更多的互动与SERP的个人要求的实用信息，如何自杀。我们的目标是了解在线寻求自杀相关信息的个人的情绪状态和行为，并更好地了解当前的干预措施是否有用。我们收集了1375个用户询问如何自杀的查询具体来说，我们收集了数据期间包含文本“commit suicide”或“kill myself”的然后，我们使用训练好的模型对这些查询进行排名，以预测提出这些查询的用户的焦虑程度。我们的研究结果表明，在50%的情况下，估计的焦虑水平为2，在33%的估计等级为3（15%的估计等级为1，所有其他人的等级为4）。这些结果表明，用户在互联网上问自杀相关的查询是高度焦虑，往往表现出类似的用户问导航查询，这意味着他们很少探索低排名的搜索结果。图4显示了在这些查询期间鼠标移动的热图。根据我们的数据，在超过80%的查询中，所有结果排名在索引4以下（即，排名第五或更低的结果）从未被这些用户看到。也就是说，任何结果，包括不鼓励个人自杀的网站，在搜索算法中排名靠后的都被完全忽略。我们注意到，在我们收集的超过85%的自杀相关查询中，向用户呈现了具有当地危机中心电话号码的帮助热线窗口（即，在美国，国家自杀预防生命线（National SuicidePrevention Lifeline）这样的窗口（例如，快速回答框）仅在40%的医学症状查询中示出。因此，在实践中，大多数用户实际上看到的结果少于3这些数据揭示了自杀者的情绪状态和行为。对于搜索引擎运营商，这些结果突出了关键需要提供支持性的信息，在最高排名结果，因为这些用户很少看到排名较低的结果。最后，搜索引擎可以帮助挽救全球生命的利用-采取整体性的自杀预防方法，包括在页面的上半部分介绍自杀预防结果图4：自杀相关查询的显着性图。红色阴影对应于较长的停留时间。特别搜索。目前，具有有害特征的资源通常比具有保护特征的资源排名更高[41]，而与自杀相关的有用网站的质量取决于所使用的搜索词[8]。努力提高预防性网络内容的排名似乎是必要的，特别是当考虑到自杀者倾向于探索的屏幕部分时

下载后可阅读完整内容，剩余1页未读，立即下载