电子邮件重要性评估：基于用户行为的代理方法研究

150 浏览量更新于2023-11-30 收藏 1.5MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

26评估用户行为作为电子邮件重要性的代理TarfahAlrashed美国麻省理工学院tarfah@mit.eduChristopher Lin美国微软christol@microsoft.com摘要Chia-JungLeeMicrosoft，USAcjlee@microsoft.comMiladShokouhiMicrosoft，美国milads@microsoft.comACM参考格式：PeterBaileyMicrosoft，澳大利亚pbailey@microsoft.comSusan Dumais微软，美国sdumais@microsoft.com电子邮件仍然是个人和工作帐户中交流信息的重要渠道。人们每天收到的电子邮件数量可能是压倒性的，这反过来又为有效的信息管理和消费带来了挑战。对电子邮件的重要性进行良好的估计是许多下游任务（例如电子邮件优先级）的基础;但是确定大规模的重要性是昂贵且具有挑战性的。在这项工作中，我们假设，任何个人电子邮件上的累积动作集可以被认为是该电子邮件的感知意义的代理我们提出了两种方法来总结，rize观察到的电子邮件，然后我们对感知的重要性进行评估的行动。第一种方法是一个固定形式的效用函数参数化的一组权重，我们研究了不同的权重分配策略的影响。在第二种方法中，我们建立机器学习模型，直接根据观察到的行为来捕获用户的重要性。为了进行评估，我们收集了人们对个人和工作电子邮件重要性的判断。我们的分析表明，有一个积极的行动和电子邮件的意义之间的相关性和个人和工作电子邮件上执行的行动是不同的。我们还发现，相关程度因人而异，这可能反映了电子邮件活动模式或意义的个性化本质。随后，我们开发了一个实时电子邮件重要性预测的例子，通过使用行动摘要作为规模上的隐式反馈。评价结果表明，所得到的显著性预测与人类评估具有积极的一致性，尽管在统计学上不是很强。我们推测，我们可能需要个性化的显著性预测，以提高一致性水平。CCS概念• 信息系统→电子邮件;聚类和分类;任务模型;·以人为中心的计算→用户模型。关键词电子邮件通信重要性;日志数据;用户活动建模本文在知识共享署名4.0国际（CC-BY 4.0）许可下发布。作者保留在其个人和公司网站上以适当的署名传播作品的权利。WWW©2019 IW 3C 2（国际万维网大会委员会），在知识共享CC-BY 4.0许可下发布。ACM ISBN 978-1-4503-6674-8/19/05。https://doi.org/10.1145/3308558.3313624Tarfah Alrashed，Chia-Jung Lee，Peter Bailey，Christopher Lin，MiladShok-ouhi，and Susan Dumais. 2019.评估用户行为作为电子邮件重要性的代理。在2019年万维网会议（WWW '19）的会议记录中，2019年5月13日至17日，美国加利福尼亚州旧金山。美国纽约州纽约市ACM，第4条，11页。https://doi.org/10.1145/3308558.33136241介绍众所周知，电子邮件仍然是最重要的在线交流方式之一。虽然个人电子邮件数量差异很大，但我们观察到，工作电子邮件帐户平均每天收到100多封电子邮件，而个人电子邮件帐户平均每天收到的电子邮件数量要少一个数量级，这是基于Microsoft Outlook中一周的邮箱样本1为了帮助人们处理如此数量的传入电子邮件，以前的工作构建了预测模型，以将注意力引导到潜在的更高重要性或紧急性的电子邮件（例如[1，8，10，32]）。这些模型倾向于预测是否会发生一些强操作虽然这样的预测器已经证明了价值，但像回复这样的强动作只包括人们可以在电子邮件应用程序中采取的可能动作集合的一小部分[8]。这可能会造成识别重要电子邮件的差距，因为强动作不是指示重要性的唯一动作（例如，多次阅读电子邮件可以表示高重要性）。在这项工作中，我们着手了解人们对电子邮件进行的操作与他们对这些电子邮件的重要性的看法之间存在什么重要性，我们指的是一个人在电子邮件中值得关注的品质。重要或紧急的电子邮件，或两者兼而有之，可能是重要的。其他因素也可能起作用，比如邮件的发件人或邮件的主题我们基于第3节中的大型电子邮件日志样本进行的初步分析表明，人们对被识别为重要和不重要的电子邮件所执行的操作是不同的。我们从网络搜索社区对用户操作和推断文档相关性的研究中汲取灵感，从简单的点击[16]，到点击和停留时间[12]，再到一整套用户操作[2]。我们推测，重要性是一种存在于连续光谱上的品质我们还假设，行动进行不同的语义，并有助于在不同程度上的意义，因此，不同的行动时，应考虑建立其与意义的关系。两种方法进行调查，总结观察到的行动1这些统计数据与Radicati的市场分析报告一致[22]。27图1：（A）我们的框架评估行动作为电子邮件的重要性代理，基于行动日志和人类的一个符号数据。(B)实时电子邮件重要性预测模型从动作摘要功能输出（§ 7）训练。以这样的方式，概要然后可以近似于电子邮件的意义。第一种方法提出了加权动作效用（WAU）的概念，这是一个基于规则的固定形式的效用函数，它使用一组特定于动作的权重参数化第二种方法试图直接使用机器学习（ML）技术来建模重要性。为了评估这些方法，我们创建了一个人类智力任务（HIT）调查，以收集人们的重要性判断，包括个人和工作账户。我们的研究结果表明，与仅回复基线相比，WAU更好地总结了电子邮件的重要性，这在文献中被广泛采用为近似电子邮件重要性的标准概念[32正如预期的那样，使用ML技术更有效地对动作进行推断并预测电子邮件的重要性。我们的后续分析表明，使用动作的重要性预测因用户而异，这可能反映了电子邮件活动模式和重要性的总的来说，我们的评估结果表明，用户的行动，无论是基于规则的或机器学习，可以作为一个代理用户的感知意义超过自己的这一发现为电子邮件优先级排序等下游任务奠定了重要基础。使用ML构建有效的电子邮件优先级预测器通常需要大量的训练数据，特别是考虑到过去的研究（例如[7，31]）表明电子邮件处理是高度个性化的。因此，具有大规模创建非监督或半监督训练标签的手段比针对大量手动注释数据或明确的用户反馈更易于处理且实际可行。在建立了动作和重要性之间的关系之后，我们可以通过利用动作摘要作为训练标签来训练这样的预测器，这可以通过挖掘动作日志以低成本获得。事实上，在网络搜索的背景下，利用用户隐式反馈的类似想法[2、12、14、16]）。具体地说，用户的文档相关性，在此基础上，标准的学习排名技术，然后适用。为了演示此用例，我们展示了如何通过使用动作摘要函数的输出作为标签和电子邮件属性作为特征，在大规模电子邮件动作样本上创建实时电子邮件重要性预测器的示例我们的研究结果表明，电子邮件的重要性预测有积极的协议与人类的评估，虽然不是在统计上强大的水平。为了总结我们的主要贡献，我们首先评估并表明，用户的行为可以作为电子邮件的意义代理。我们认为，并进行广泛的实验，基于规则的和机器学习的技术，以总结用户的行动。结果表明，这两种方法都表现出与显著性更高的相关性，图1(A)描述了该过程的高级概述此外，我们确定了在网络搜索中使用不仅仅是点击作为相关性标签的隐式反馈和使用动作摘要作为电子邮件处理中的重要性的代理之间的类比特别是，我们演示了如何利用动作摘要作为监督来训练大规模电子邮件重要性预测器的示例，如图1（B）所预测器可以实时执行，因为它依赖于可以在电子邮件到达时提取的一组电子邮件属性特征2相关工作随着电子邮件数量的增长以及对人类注意力的需求相应增加，与电子邮件管理和检索相关的挑战也在增加[10]。以前的研究调查了人们在工作和个人环境中使用和管理电子邮件的不同方式[6，11，31]。随着电子邮件流的增加，管理电子邮件流是文献中已经解决的另一个挑战[15，28]。以前的工作表明，随着电子邮件的流入，人们会选择先访问一些电子邮件，然后再访问其他电子邮件，并花时间选择首先检查哪些邮件[3，28，29]。一项研究表明，人们在选择要阅读的消息之前，平均会扫描收件箱几次。Venolia等人[29]描述了电子邮件工作流程的五个阶段：电子邮件流，分类，任务管理，存档和检索。Siu等人[28]扩展了[29]的工作，他们的结果表明人们交错流动，分类和任务管理，处理收到的电子邮件涉及三个步骤：浏览，扫描和延迟。人们通常会浏览收件箱几次，直到收到一些新邮件或他们期待的消息。然后，他们会扫描新电子邮件的标题，以决定哪些电子邮件需要阅读或采取行动。然后，他们将开始对其中一些电子邮件消息采取行动，并/或推迟其他人稍后返回。虽然Siu等人[28]描述了人们处理和管理电子邮件流的总体步骤，但它没有解决人们在选择消息过程中使用的功能，也没有描述为什么人们对某些电子邮件消息的关注度更高。通过用户调查和日志分析，Sarrafzadeh等人[25]调查了人们如何选择推迟电子邮件的处理，以及是否可以预测推迟的决定。以前关于电子邮件优先级的工作试图通过在消息中包括优先级字段来促进消息选择过程28帮助人们轻松地关注重要的电子邮件[21]。其他工作集中在允许发送者通过向某些消息而不是其他消息添加“pric e“来为消息分配优先级[ 1 9，23 ]。然而，这种方法并没有被广泛采用，而且以前的方法-字段通常被用户忽略。为了更好地支持此类系统的开发，需要分析人们为什么会关注某些电子邮件。Wainer等人的研究[30]试图确定为什么人们会关注一些电子邮件，而不是其他基于收件箱级别的信息内容线索的电子邮件。在他们的有声思维研究中，他们发现，个体会根据顶级线索对信息内容进行推断，推断出的效用和好奇心似乎会促使人们注意信息。在他们进行的一项受控实验室实验中，他们调查了信息差距，效用和需求之间的关系，他们发现好奇心驱动注意力在低需求的条件下发送电子邮件，并且独立于消息的显著重要性。Wainer等人的工作是一个了解当电子邮件到达时是什么吸引了people的注意力的重要资源;然而，需要更多的另一方面，行动已被用作一个指标，在以前的几个作品。Yang等人描述了用于预测消息需要响应的可能性的机器学习算法。[32]。也就是说，Dabbish等人的工作[8]发现，响应的需要只是一部分，定义电子邮件信息的重要性，以及人们对信息请求或社交信息的回应，即使这些信息对工作并不重要。其他电子邮件优先级排序工作侧重于对电子邮件的重要性标签进行个性化预测[33，34]。阿伯丁等人[1]使用线性逻辑回归模型对Gmail邮件服务中的邮件进行排名，根据用户在没有明确标记的情况下对电子邮件采取行动的可能性在该模型中，他们使用了四类特征：社交、内容、线程和标签特征。Neustaedter等人[21]描述了一个原型电子邮件客户端，它聚集了关于电子邮件通信者的社会元数据，以支持电子邮件分类。它们定义了基于收件人信息和电子邮件活动等元素来衡量用户我们在这里介绍的工作与这一系列研究相似然而，在我们的工作中，我们只关注人们对电子邮件采取的行动是否与他们如何感知重要性有关，而不是试图直接引入优先级电子邮件系统。我们的工作遵循类似的方法，最近的工作，电子邮件搜索金等人。[18]，他们将电子邮件搜索成功和努力的显式原位判断映射到人们对电子邮件执行的隐式操作;相反，我们将用户的判断映射到电子邮件的重要性它也类似于以前的网络搜索工作，其中Huang等人[14]检查了搜索引擎结果页面上的鼠标光标行为（点击，光标移动和悬停在不同的页面区域），作为相关性的代理;我们使用电子邮件交互，特别是对电子邮件执行的操作，作为电子邮件重要性的代理。3行动和隐含意义为了帮助用户更高效地使用他们的电子邮件，流行的电子邮件服务已经引入了许多用户体验控件来指示各个电子邮件的重要性。例如，Gmail这些经验往往可以提供有趣的见解，用户的看法电子邮件的意义，因为他们允许用户明确地移动电子邮件从一个组到另一个。在Outlook中，用户可以在“焦点”和“其他”选项卡之间移动电子邮件。当用户将电子邮件移动到“焦点”选项卡时，这种显式交互可以说明用户的意图反向操作（即，将电子邮件移动到“其它”标签）可以隐含地暗示用户认为该电子邮件不太重要。我们使用这些明确的互动与电子邮件进行定量研究，调查行动分布相似或不同的两类电子邮件，我们称之为隐式显着和隐式不显着。这有助于测试动作是否可以很好地代表重要性。虽然我们理解电子邮件分组基于这些显式交互可能不一定对应于用户为了比较操作分布，我们分析了Outlook提供的两个随机的匿名操作日志样本，一个用于个人，另一个用于工作电子邮件活动。在个人电子邮件样本中，我们有大约5亿用户和170亿条消息，而对于工作电子邮件，我们有1.7亿用户和80亿条消息。电子邮件服务可以从许多客户端访问，包括桌面和移动端的本地应用程序以及基于浏览器的界面。日志不提供对电子邮件消息、电子邮件标题或电子邮件搜索查询的日志确实包含对电子邮件执行的操作的记录，以及相应的时间戳和其他元数据，例如作为客户端接口类型。基于这两个样本，我们分析了这两个类别的操作分布，其中我们考虑了不同的操作，包括但不限于阅读、回复、转发、打开附件、单击链接（在电子邮件中）、删除等。图2比较了结果。该图表明，隐式显着和隐式不显着的电子邮件的动作分布是明显不同的。这意味着人们与不同属性的电子邮件进行非常不同的交互，正如相应的动作所反映的那样特定的动作，例如回复工作电子邮件或打开个人电子邮件中的附件，可能是该电子邮件重要性的良好指标相反，诸如删除电子邮件之类的操作可能表明它的重要性较低这一观察结果在某种程度上为我们的假设提供了支持性证据，即使用行为作为重要性代理是明智的。4作为重要性代理的行动接下来，我们将介绍基于规则的函数和机器学习预测器来总结电子邮件重要性的方法。29.我图2：按隐含不重要性（Imp. Insig.）和隐式显着（Imp.（签名）电子邮件从个人和工作邮箱的样本。4.1加权操作实用程序为了总结从一个人对一封电子邮件的注意力中获得的效用我们所说的效用是指注意力是有用的或有益的（但不一定是重要的）。一种简单的方法是计算所有的动作，并为每个动作提供相等的效用。先前的研究（例如[8]）表明，不同的行动（例如，回复邮件与删除邮件）有不同程度的实用性。此外，我们可以考虑某些复合操作（例如，Read后跟Reply）可能表明Read操作比单独的Read操作更有价值。因此，我们还需要给每种类型的动作（或复合动作）赋予一个权重。我们提出了加权动作效用（WAU），这是一种基于规则的固定形式效用函数，它使用一组特定于动作的权重参数化的线性组合来总结观察到的动作集，其定义为：nWAU（e）= WAi. Ai（1）i=0其中e是电子邮件，{A1，A2，...，An}是执行我们给行动分配权重是通过确定某些行动与其他行动相比有多重要和有价值例如，我们认为Reply和Reply-all动作是重要的动作，因此我们为它们分配了比Delete动作更高的权重，而Delete动作我们认为不应该被分配更高的值。4.1.2众包估计。人们可能会有非常不同的观点，从我们的角度来看，他们如何将效用赋予他们的行动。为了对这些效用权重进行更广泛、更有代表性的估计，我们要求来自私人众包服务的40人为电子邮件中常见的不同类型的行为分配权重然后我们取这些权重的平均值并将其应用于WAU。通过将这些权重与作者我们的结果和发现在第6节中讨论。4.2使用ML另一种完全避开WAU的方法是从人类直接创建的动作到重要性注释来学习模型。这里的一个挑战是，我们是否可以获得足够的注释数据来学习一个模型，该模型不会过度拟合现有的注释，因为电子邮件的重要性具有深刻的个人性质。我们将在第5节中详细描述我们比较了许多ML预测技术，包括平均感知器[24]，梯度提升树[13]和逻辑回归。为了为模型训练任务形成一组有用的信号，我们专注于对电子邮件执行的操作进行特征化，包括：动作单字母表-动作孤立出现。动作二元图-针对电子邮件观察到的成对动作的出现。虽然一元语法反映了每种类型的动作的发生，但二元语法可以捕获特定的动作序列，这些动作序列可以指示电子邮件的更高重要性（例如，国旗后接回答）。时间信息功能包括：阅读总时间、回复时间、阅读时间和转发时间关于e和wA 是与动作Ai相关联的权重。有• 动作的总数许多方法来确定与每个相类型的行动;在这里，我们提出了两个重量配置：4.1.1作者用户可以通过多种方式从电子邮件中受益，例如通过获取信息或组织他们的想法，并且这种实用程序通过他们在电子邮件客户端中的交互（例如，读邮件、写邮件、钉邮件）。因此，我们对效用的定义首先简单地将效用分数分配给一组用户操作，并将这些分数与用户在其电子邮件客户端中所采取的每个操作相加。然而，请注意，有些行为本身并不赋予效用，而是与所作用的任何项目例如，阅读一封能教会用户一些东西的电子邮件具有很高的实用性，而阅读一封电子邮件以确定它是垃圾邮件则没有实用性。因此，我们扩展了我们的效用的定义，通过分配分数的行动，表明积极的效用，如果他们之前的阅读。换句话说，尽管通常像Pin这样的动作具有零效用，但如果它前面有一个Read，那么我们会为其分配一些正效用。的方式我们注意到，我们只使用与动作相关的特征来近似电子邮件在本节中的意义如第1节所讨论的，拥有一个纯粹从用户操作派生的操作摘要函数可以使大型生产邮件系统的可伸缩性因此，发送者和接收者之间的历史交互等功能或需要内容分析的功能，尽管它们可能非常有用，但应该单独调查这两种方法，WAU和ML，是互补的，并提供了一个更好的理解如何行动可以表明意义。使用ML推断重要性绕过了设计摘要函数的需要，并且当操作之间的交互被隐藏时，可能会导致更好的预测。然而，重要的是生产系统能够访问无监督或半监督的基于规则的“标签器”，以额外地为下游任务创建训练标签，这就是WAU可以发挥作用的地方。最终，监督式ML预测器的性能将由可用于训练的数据规模决定，对于人工注释的电子邮件，···30小规模且昂贵。虽然WAU仍然提出了几个参数，公式的简单性使得很容易在其他地方确定权重，也提供了很高的可解释性。关于WAU和ML方法的最后一点说明是，它们不能在发送电子邮件时应用它类似于web搜索，因为推断用户的文档相关性只能在他们停留和点击之后发生。我们将在第7节中演示如何在在线预测任务中应用动作摘要。5人虽然日志数据提供了注意力利用率的隐含特征，但people此外，由于我们认为重要性在连续谱中得到更好的研究，当前主要的电子邮件客户端由于二进制UI控件而仅支持粗略的二分法的事实是次优的。我们开发了一项人类智力任务（HIT）调查来解决这些限制。从HIT得到的数据可以用作评估行动总结的参考。在ML动作摘要的情况下，判断也可以用作训练阶段的标签。5.1电子邮件重要性HIT调查电子邮件重要性HIT调查是一项用户电子邮件调查，让人们识别或标记个别电子邮件的绝对重要性。每个HIT从最近两个月内发送到用户邮箱的最近200封电子邮件中随机选择一封电子邮件，并向他们显示电子邮件的发件人、主题和正文内容。它要求参与者在第一次阅读邮件时根据邮件对他们的重要性进行评分，同时，它要求他们选择一个或多个理由来解释他们的决定。多达100封电子邮件可以每个人都要注意。虽然我们认为显著性是一个连续值的属性，但为了便于注释，我们使用了单极5点Likert量表设计。显著性标签的范围为“不显著”至“非常显著”。当用户看到他们自己的电子邮件时，我们没有记录电子邮件的任何内容。我们只收集了它们的重要性标签、原因和足够的识别元数据，以便我们将标记的电子邮件与其操作日志记录进行匹配。此外，我们为HIT调查的用户提供了跳过任何他们觉得不舒服的电子邮件的能力。虽然我们理解这可能会对特定电子邮件产生选择偏见，但用户评分的电子邮件数量可以减少这种偏见。我们的任务指南强调，评级的重要性是由参与者个人决定的。我们提供了如何区分不同评级的建议，如下所示，尽管并非所有条件都可以选择评级。一封“非常重要”的一封一个重要”电子邮件是一个人在收到该电子邮件后的一周内想要关注的电子邮件，可能阅读或浏览该电子邮件一次，但不太可能再次访问它。“无关紧要”的在HIT调查中，我们要求人们提供他们给出评级的原因我们向HIT调查参与者提供的原因列表包括：电子邮件来自一个重要的人;一个重要的话题;我开始的对话的一部分;向我索取信息;我需要采取行动的信息;感兴趣但没有立即采取行动;来自一个我经常阅读的组织;我没有时间关注它;关于我不感兴趣的事情;我通常忽略这个发件人;以及其他。我们为Other提供了一个人们可以选择他们喜欢的任何理由5.2行动和感知的意义我们将调查分发给工作和个人电子邮件参与者。对于个人电子邮件，我们有118名参与者或“法官”和5774次点击或“判断”。选择法官的过程是以最大限度地减少偏见的方式进行管理的，尽管不可避免地需要Outlook用户开始。图3示出了动作的分布（即，总数的百分比电子邮件的行动被评为“无关紧要”到“极其重要”）。在所有重要性类别中，对个人电子邮件执行的最常见操作是：阅读（长和短）和打开附件。短读是指2秒或更短的读，考虑到当一个人快速点击电子邮件列表但没有停下来阅读电子邮件时发生的阅读动作，帐篷深入。长读取是所有比短读取更长的读取。区分短读和长读只是试图解决阅读行为复杂性的一种方法，这在本质上受到不同上下文线索（如电子邮件长度）的影响。在不同的显著性水平下，短读和长读的比率相似。然而，随着重要性的增加，打开附件的行为也有所增加，删除操作的增加与重要性的降低。我们注意到的一个有趣的事情是，回复和回复对电子邮件的重要性影响有限。这一结果证实了Dabbish等人[8]的研究结果，他们发现，作出反应的必要性只是确定以下方面重要性的一部分：一封电子邮件，人们对信息请求作出回应或者社交信息，尽管这些信息与工作相关的信息相比并不重要。对于工作邮件，我们有24个法官和560个点击。图4显示了这些电子邮件的操作分布与图3所示的个人电子邮件中的分布以及这些操作与电子邮件重要性之间的关系非常不同。与个人电子邮件不同，回复和全部回复是工作电子邮件的重要操作随着电子邮件的重要性的增加，我们看到这些行动的增加6结果和讨论对于WAU和ML预测器，我们以两种方式进行预测第一种方法将重要性预测视为二元分类问题，其结果直接将电子邮件分类为31图3：个人电子邮件的操作在用户重要性上的分布图4：工作邮件的操作在用户重要性上的分布积极和消极的重要性。此任务模仿了当今流行的电子邮件服务提供的当前解决方案第二个考虑预测从HIT调查数据中获得的分级显著性水平，基于该分级显著性水平，可以形成对电子邮件的6.1二元分类我们以两种不同的方式组织五个重要性标签进行二进制分类：二元分类低（BC-低）：阳性标签包括所有显著标签，否定类只包括这种划分解决了错过任何稍微重要的电子邮件可能导致高额罚款的情况二元分类高（BC-高）：阳性类别包括这种划分解决了只有最重要的电子邮件应该引起用户对于我们的基线分析，我们将我们的电子邮件分为至少有一个回复或回复所有的电子邮件为积极的电子邮件和不为消极的电子邮件。我们选择这个只回复基线，因为它表1：使用BC-低和BC-高进行个人工作BC类型PRAUCPRAUCBC-低0.8950.0230.5091.0000.0970.548BC-高0.4160.0270.5070.6250.2710.619被广泛采用作为近似电子邮件重要性的标准概念[32]。表1示出了用于以下的精确度、召回率和AUC：我们对工作和个人电子邮件的基线分析。总体而言，两种电子邮件类型的AUC都在0.5左右，这远非理想。对于使用BC-高（0.619）的工作电子邮件有一个例外，这表明在某些情况下，这种仅回复的预测器可以很好地工作，这与以前的研究结果一致。 AUC在BC-高中比在BC-低中高的原因是，如图4所示，评级为“非常”和“极其”重要的电子邮件然而，这个简单的预测器的一个缺点是，它不能解释30%的法官对他们判断的电子邮件根本没有回复操作，即使这些电子邮件实际上被分配了不同的重要性标签。6.1.1使用基于规则的WAU。我们计算WAU值和用户重要性标签之间的关系。我们考虑两种类型的WAU计算使用作者的和众包的权重。我们使用广义逻辑函数对WAU值进行归一化。我们选择不同的阈值（0.1，0.2，...，0.9）除以WAU值，其中超过阈值的所有内容都被预测为正值，低于阈值的所有内容都被预测为负值。我们没有进行训练-测试分割以获得最佳切割，因为了解不同阈值的影响对我们很重要。表2和表3分别示出了任务BC-低和BC-高的预测结果。在这两张表中，我们只显示了0.4、0.5和0.6的阈值，这是由于空间限制，以及极端阈值往往会导致更偏斜的性能（例如，高精度，低召回率）。一般而言，与BC-高相比，BC-低似乎是一项更容易的任务（更高的精度和AUC值）。在我们测试的所有阈值中，我们得到的个人和工作电子邮件的AUC最高，阈值为0.6。使用BC-低，使用作者的权重计算的WAU值这一发现表明，同一组权重可能不适合应用于这两种类型的电子邮件，因为个人和工作电子邮件往往有非常不同的动作分布。6.1.2使用机器学习模型。我们形成的训练和测试集分裂使用5折交叉验证个人和工作电子邮件分别使用McNemar的测试分类器之间的显着性评估。以前的工作[33，34]表明，个性化是提高一般学习模型性能的关键因素为了研究人与人之间差异的影响，在形成训练集和测试集时，我们通过电子邮件或法官来分割数据在这两种情况下，分裂之间没有重叠的情况，我们假设法官的分裂是一个更好的选择。··32−表2：作者（A）和众包（CS）WAU权重（W）的精确度（P）、召回率（R）和AUC，使用BC-低，阈值为0.4、0.5和0.6（Th）个人工作W日PRAUCPRAUC一0.40.7720.9910.5100.7350.9950.5100.7800.9140.5300.7330.9040.5020.50.9050.4930.6610.8630.3240.5920.6CS0.40.6211.0000.5000.7311.0000.5000.6211.0000.5000.7311.0000.5000.50.8510.2820.6010.7930.7230.6100.6表3：作者（A）和众包（CS）WAU权重（W）的精确度（P）、召回率（R）和AUC，使用具有0.4、0.5和0.6阈值（Th）的个人工作W日PRAUCPRAUC一0.40.1231.0000.5080.1651.0000.5100.1310.9720.5410.1710.9450.5300.50.2120.7290.6770.2400.4020.5800.6CS0.40.2481.0000.5000.1641.0000.5000.2481.0000.5000.1641.0000.5000.50.4100.3400.5900.1820.73910.5430.6由于不同的个人行为而具有挑战性的任务。我们使用线性和树学习器进行了实验，包括使用现成的ML库进行二进制分类的平均感知器[24]，提升树[13]和LightGBM[17]。在下面的分析中，由于空间限制，我们仅使用提升树来呈现结果。表4和表5显示了任务BC-低和BC-高的预测结果。与表2相比，在p值为0的AUC方面，增强树的性能通常优于固定截止WAU<的性能。01，尤其是工作邮件。这突出表明，虽然WAU描述了一个很好的动作分布摘要，但结合动作元数据的不同维度（如动作序列和阅读时间）的灵活性可以进一步帮助重要性预测。同样的观察可以通过比较表3和表5，在任务BC-高中发现。正如预期的那样，通过法官进行分割的交叉验证往往是一个更难的问题，其中AUC在3%-15%之间下降，与通过电子邮件进行分割这一观察结果提出了一个有趣的研究问题，即我们如何使用个性化策略将行为和意义联系起来，这超出了本文的范围，留待将来研究。6.2多级预测接下来，我们提出了我们的研究结果的预测任务，其中多级显著性标签被认为是。我们研究了两种预测策略。首先，我们使用连续WAU对电子邮件进行排名，并将其与基于从HIT调查中收集的五类重要性的排名列表进行比较。第二种策略将预测问题转换为多类分类表4：基于提升树的精确度（P）、召回率（R）和AUC对于BC-低，报告平均结果，并通过电子邮件或法官进行5倍交叉个人工作拆分依据PRAUCPRAUC电子邮件法官0.6220.6110.9940.9830.6430.6380.7930.6960.9110.9000.6980.666表5：基于提升树的精确度（P）、召回率（R）和AUC对于BC-高，报告平均结果，并通过电子邮件或法官进行5倍交叉个人工作任务，其结果旨在将电子邮件区分为五个重要类别。6.2.1使用基于规则的WAU。我们首先使用WAU值对带注释的电子邮件集进行排序。然后，我们计算斯皮尔曼的Rho等级相关系数（修正领带）之间的排序形成的WAU和排序形成的五类用户的重要性。作者和众包的权重都被考虑在内。多级预测是具有挑战性的，因此，正如我们所预期的那样，我们得到了低相关性。对于个人和工作电子邮件，我们使用两种不同的权重得到了范围从0.250到0.273的相关性。通过表2和表3中的二进制分类结果，与使用5类标签相比，我们得到了更好的预测和与用户重要性的相关性。然而，计算每个法官的相关性（在第6.3.2节中详细讨论），我们观察到一些法官具有高相关性，而另一些法官具有低相关性，支持我们的观点，即重要性的感知可能是高度个人化的。6.2.2使用机器学习模型。与第6.1.2节类似，我们进行5重交叉验证，并通过电子邮件或法官分割数据。对于学习器，我们再次考虑线性（多类逻辑回归）和树（LightGBM）学习器。微观准确率和宏观准确率是评价多类分类有效性的两个标准指标。微准确度被定义为正确预测的实例数与实例总数的比率Macro-accuracy首先计算每个类别的准确度，并报告每个类别准确度的平均值。对于我们的任务，我们首先检查每个折叠的微观精度和宏观精度，取5个折叠的平均值，并在表6中报告结果。Spear-man表6显示，预测分级显著性对于个人电子邮件比工作电子邮件更容易。这可能是因为，如图3和图4所示，在个人数据中，动作分布在不同的显著性类别中比在工作数据中更容易区分。与第6.2.1节中给出的结果相比，我们看到使用ML模型拆分依据PRAUCPRAUC电子邮件法官0.6030.4680.1570.1570.6430.6260.5170.3000.2120.2030.6900.600332秒=1-我知道表6：基于多类逻辑回归的微观平均值和宏观平均值准确度以及Spearman个人工作拆分依据微宏观Rho微宏观Rho电子邮件法官0.4130.3910.2750.2450.3150.2650.3690.3080.2790.2410.2950.177导致与通过电子邮件进行的数据分割的基本事实排名的更高相关性，即，Rho =0.315和Rho=0.295分别为个人和工作。然而，当消除个人互动时（即，由法官分裂），相关性要么与使用WAU相同，要么这一结果可能表明，一个评价指标，侧重于排名，即。Rho受个人方差的影响更大6.3讨论虽然我们已经展示了基于WAU和ML来总结操作以预测电子邮件重要性的潜力，但我们观察到下面讨论的一些挑战6.3.1区分感知的重要性。区分感知的重要性通常具有挑战性。如第5.1节所述，我们要求我们的参与者不仅要判断和排列他们的电子邮件的重要性，而且要给我们反馈他们判断的原因。虽然“不重要”和“非常重要”之间通常有明确的区别征求参与者的反馈是让我们更清楚区分的一种方法。图5显示了我们的参与者给出的反馈的分布，与他们的工作电子邮件重要性排名进行了比较（个人电子邮件具有类似的分布）。在这两种类型的电子邮件中，参与者对他们评为“非常”的电子邮件给出的原因对于这种相似性可以帮助解释为什么我们使用二元分类方法获得更好的相关性。在某种程度上，这也可以解释为什么第6.2节中基于使用多级标签的相关性给出的相关性结果比第6.1节中的二进制标签更差。即使对同一封电子邮件的同一位法官来说，识别相同程度的感知重要性也是一件困难的事情在HIT调查中，一部分电子邮件被个人评委反复评判共有998封独特的电子邮件被101名评委多次评判，每封电子邮件平均显示4次。请注意，对于第6节中给出的所有结果，我们删除了重复的结果，只对那些只有一个判断的结果进行实验图5：HIT调查参与者对五个电子邮件重要性标签的排名H（x）=5 P（xs）lo <$2P（xs），其中s表示电子邮件的重要性水平。如果结果是确定的（即没有不一致），我们将期望熵为0。实际上，我们看到平均熵是0.35，甚至更高，即，0.41，当重复次数大于或等于5时。这表明，电子邮件所有者可能很难给出一致的判断。Scholer等人。[27]还发现，在一系列TREC测试集合中，法官内搜索相关性判断不一致的比例很高，在15%到24%6.3.2电子邮件的重要性是高度个人化的。我们面临的另一个挑战是，电子邮件的重要性因用户而异。为了更好地理解我们的WAU显著性值和判断的显著性之间的相关性，我们计算每个人的相关性图6显示了我们的样本数据中每个个人电子邮件用户与点击数的相关性我们观察到，人们判断的电子邮件数量有些人的相关性很高，有些人的相关性很低一半以上的人有正相关，但也有部分人没有或负相关。大量的零相关性分数是由于领带调整的Rho计算。6.3.3行动限制。查看我们的数据，包括日志数据和HIT调查标签，我们观察到两个局限性。对电子邮件执行的同一组操作（例如，具有长读和移动的电子邮件）可以由HIT调查参与者以不同级别的电子邮件重要性进行评级。这是一个重大挑战，因为我们依赖于动作作为特征来预测电子邮件的重要性。这些一系列具有不同重要性的行动，其发生的次数和法官赋予它们的不同标签都各不相同。我们计算熵是为了更好地理解我们拥有的每个动作集的方差，评委们的标签我们注意到，一些具有共同操作集（例如长读，短读）的电子邮件已被不同的用户标记为然而，具有一组独特操作的电子邮件仅使用一个标签进行判断为了量化不一致的程度，我们计算熵对于每个唯一的电子邮件，基于每个重要性分布，使用20 lo <$0在信息论中被定义为0。34------图6：每个个人电子邮件用户的斯皮尔曼7实时显著性预测上面，我们研究了如何以及在多大程度上可以利用用户对电子邮件的操作作为电子邮件重要性的代理我们证明了不同的动作总结功能在不同程度上与显著性相关，总体上相关性是正的。为了将我们的学习应用于实际场景，我们基于大规模数据训练了一个机器学习模型，用于实时显著性预测，如图1的部分（B）所示。具体来说，回归模型被训练以拟合来自动作摘要函数的输出，该动作摘要函数被有效地用作训练标签。然后，我们提取了一组非动作的功能，可以在电子邮件到达邮箱时获得以这种方式，所得到的预测模型可以实时预测电子邮件的重要性（即，电子邮件到达时间），因为只有离线训练才需要动作7.1预测模型我们的目标是拥有一个能够实时预测电子邮件重要性的预测器在理想情况下，如果可以以低成本大规模获得人类显著性标签，则可以训练监督预测器然而，获得大量的人类评估在实践中是不切实际的;相反，利用来自用户的隐式反馈作为代理通常是优选的、可扩展的方式。在搜索世界中，最成功的例子之一是将用户的动作（包括响应于用户查询的文档上的点击和停留时间）对于邮件重要性预测，我们建议使用动作摘要函数的输出作为隐式重要性反馈。在本节中，我们选择使用基于规则的摘要器WAU作为训练标签进行实验，因为我们已经证明WAU优于仅回复的基线。虽然机器学习的摘要函数可能与显著性更相关，但人类注释训练数据的数量在很大程度上决定了结果的性能为了专注于呈现构建实时预测器的可行性，基于规则的摘要器是优选的，因为它提供了高度的简单性，这反过来又有利于生产系统。7.1.1模特训练我们重用第3节中描述的大规模日志样本来分别为个人和工作帐户训练

下载后可阅读完整内容，剩余1页未读，立即下载