没有合适的资源?快使用搜索试试~ 我知道了~
0500100015002000250017630了解用户对尖峰事件的搜索行为0Behrooz Mansouri0伊朗信息技术学院Web Azma实验室0电信研究中0伊朗德黑兰0b.mansouri@itrc.ir0Mohammad Sadegh Zahedi0伊朗信息技术学院Web Azma实验室0电信研究中0伊朗德黑兰0s.zahedi@itrc.ir0Ricardo Campos0Tomar理工学院智慧城市研究中心0LIAAD - INESC TEC0葡萄牙0ricardo.campos@ipt.pt0Mojgan Farhoodi0伊朗信息技术学院Web Azma实验室0伊朗科技学院0电信研究中心0伊朗德黑兰0farhoodi@itrc.ir0Maseud Rahgozar0数据库研究小组,控制与智能处理卓越中心,电气学0德黑兰大学计算机工程系0伊朗德黑兰0rahgozar@ut.ac.ir0摘要0每天都有用户进行百万次的网络搜索。其中许多网络搜索与事件有关,即吸引社会关注的社交场合。事件可能会多次发生,具有周期性或非周期性。这些被称为尖峰事件。当这些事件发生时,可以观察到查询日志中的多个峰值,这是由于用户行为的变化和用户查询频率的增加所触发的。在本文中,我们旨在了解用户对这类事件的搜索行为。为此,我们提出了一种新的尖峰事件分类法,将查询分为两组:周期性(正在进行中、历史性、传统性)和非周期性(可预测和不可预测),并研究与查询和点击的网页相关的各种特征,描述用户在事件之前、期间和之后的行为。为了进行这项研究,我们考虑了100个尖峰事件,并依靠为期两年的波斯搜索引擎查询日志来分析它们的相关查询和相关信息。所得到的结果表明,用户在查询频率、长度和时间性方面对尖峰事件的类别有不同的行为,并且在事件之前、期间和之后,查询的形式和点击的页面也各不相同。了解这些用户行为及其与不同类别的关系可能对任何寻求为用户提供更好服务的搜索引擎起到重要作用。01 引言0在过去的几年里,用户数量、查询量以及使用不同设备搜索信息的数量以惊人的速度增加。随着网络上潜在的“客户”如此之多,企业、媒体机构和内容提供商开始在网络上发布越来越多的信息,以满足用户的需求,用户不断寻求有关事件的信息。谈到事件,这意味着用户将查询最新新闻、正在进行的讨论、过去或即将发生的事件。这些事件可能涉及不同的主题,从政治(例如选举)到体育(例如奥运会),节日(例如圣诞节)或自然灾害(例如地震),引起用户的注意并最终导致相关查询频率的快速增加。一个例子是“美国总统选举”,在2016年11月期间引起了很多关注。这可以在图1中很容易地观察到,图1描绘了2016年至2017年期间与此事件相关的Parsijoo1波斯搜索引擎上发出的查询的峰值。通过观察图表,人们可以很容易地得出结论,关于这个话题的大量兴趣在所指的时间段内出现,这是由用户发出的查询数量增加所导致的结果。0图1:从2016年3月到2017年3月,关于“美国总统选举”的查询频率模式,来自Parsijoo搜索引擎。0在事件期间,还可以观察到用户行为的其他变化,包括查询形式的变化、时间表达式的使用或最常点击的网页。0会议:第8届时间网络分析研讨会WWW 2018,2018年4月23日至27日,法国里昂 17640例如,在美国总统选举周期间,与此事件相关的查询比前一周长2.5倍。此外,与此事件相关的查询中有12.5%包含时间表达式,如“2016”,这表明用户正在寻找与此事件相关的信息。此外,在选举周期间,大多数点击的页面也与2016年选举有关。然而,在事件发生的一年前,大多数点击的页面是像维基百科这样只提供有关事件的一般信息的静态页面。用户行为的这种变化可能会影响搜索引擎检索到的网页类型(从静态页面到最新页面)。显然,理解用户意图和他们的时间查询动态是开发和拥有更有效的网络搜索引擎的关键步骤,例如查询自动完成、相关文档排序和相关查询建议。理解用户对查询的时间方面的行为并不是一个新问题,在过去几年的文献中已经广泛研究。特别是,Subasic等人研究了查询突发对网络搜索的影响,并研究了查询突发期间搜索引擎用户的行为与此期间之前和之后的行为的比较。而Kulkarni等人则分析了查询的时间动态,旨在理解查询、相关文档和查询意图变化之间的关系。他们使用查询日志数据、每日网络爬行和定期人工相关性判断,探索了查询、相关文档和查询意图在10周的过程中如何变化。与这些研究不同的另一类研究旨在提出与查询的时间方面相关的新算法。例如,Zhang等人专注于检测以可预测间隔发生的事件的循环查询。Shokouhi提出了类似的研究工作,他使用查询量时间序列的季节性来检测季节性查询。Gupta和Berberich的工作描述了不同粒度的时间类别的分类法。Radinsky等人则开发了一个从信号处理和物理学中改编的时间建模框架,用于预测搜索行为中的时间模式。最后,Karmaker等人研究了现实世界事件对用户查询的影响。给定一个事件的描述,他们从搜索日志中识别出一些查询,并描述了由相同事件对用户查询产生的影响的时间趋势。关于时间信息检索应用的详细描述可以在Campos等人的调查中找到。0在本文中,我们通过分析用户对尖峰事件的行为,根据我们认为更好地描述这类事件的新分类法,进一步推进了这类研究。与以前的研究类似[7,10,17,22],我们首先将尖峰事件分为两大类:周期性和非周期性。周期性事件(也称为季节性查询[17])的特点是查询量会周期性地出现尖峰,并且定期发生,例如每年一次。相反,非周期性事件(也称为非周期性)的特点是在不确定的时间发生。与相关工作不同,我们将每个类别进一步细分为其他子类别,我们认为用户的搜索行为在这些子类别中是不同的。更具体地说,周期性事件被分为三个不同的季节性子类别:(1)持续事件,涉及每一集都发生新故事的事件,与以前的故事不同(例如“美国总统选举” - 我们将其称为“POngoing”);(2)历史事件。0由于发生了一次旧事件,每一集用户都会提出关于该事件的查询(例如“九一一袭击”-我们将其称为“P纪念”),以及(3)与特殊日子和传统有关的特殊日子和传统(例如“圣诞节”-我们将其称为“P特殊日子”)。而非周期性事件则分为两个不同的子类:(1)那些预计会发生的事件,如“月食”-我们将其称为“A可预测”;(2)那些无法预测的事件,如“地震”-我们将其称为“A不可预测”。图2显示了这些不同类别中的每一个。0图2:尖峰事件类别方案。0为了研究这些事件,我们利用查询日志,这为我们理解用户如何对事件做出反应提供了丰富的资源。对于每个选择的事件,我们研究与查询形式和点击的网页相关的一组特征。我们的贡献可以总结如下:(i)我们研究了不同用户对尖峰事件的行为,包括点击页面的内容,这是以前从未研究过的;(ii)我们研究了这些行为在尖峰期和正常时间的情况下;(iii)基于我们的研究,我们证明了我们对尖峰事件分类的新分类法的有效性。本文的其余部分结构如下。第2节提供了实验设置的信息。第3节通过检查查询和点击页面的几个特征,描述了用户在事件时间之前、期间和之后在不同方面的行为差异。第4节在我们总结论文并指出第5节中的一些未来工作之前,提供了一些讨论。2实验设置0为了进行分析,我们使用了一个波斯语搜索引擎查询日志,其中包含2700万个查询和相应用户与搜索引擎的交互。波斯语是印欧语系中的一种语言,是中东地区的主要语言之一,被伊朗、塔吉克斯坦和阿富汗等多个国家使用。许多自然语言处理和信息检索的研究都涉及这种语言[1, 20,21]。在这项研究中,我们选择了100个在我们拥有日志的两年期间发生的著名事件中的尖峰事件。具体而言,我们为每个子类选择了20个事件,从而选择了60个周期性事件和40个非周期性事件。这些事件涵盖了各种主题,包括“奥运会”等体育赛事、“美国总统选举”等政治事件、“圣诞节”等特殊日子或“地震”等自然灾害。其中许多事件发生在一天内,而有些事件发生在多天内。为了提取每个事件的查询,我们采用了与Beitzel等人[2]相同的方法。在这项工作中,编辑被要求为每个主题手动构建一个短语列表,其中一个主题是从娱乐和购物到体育和健康的一组预定义类别。相反,在我们的研究中,我们要求7名研究生生成一个他们将用于搜索100个事件的关键词列表。每个学生可以提及最多5个关键词,他/她可能用来搜索特定事件。然后,将这7个列表进行交集运算,以避免重叠,从而得到每个事件的唯一关键词列表。表1显示了“金球奖”、“情人节”和“9月11日”事件的一些关键词示例(这些术语已从波斯语翻译成英语)。每个关键词都被视为一个查询,并与日志中注册的任何可能的相等查询进行匹配,以提取相关信息,如用户的查询和点击的网页,这将用于我们的分析。总体而言,我们有100个事件(每个子类考虑20个),63841个查询和23617个点击页面,将在我们的研究中进行调查。0会议: 2018年4月23日至27日,法国里昂举办的第8届时间网页分析研讨会 17650图1:尖峰事件类别方案。0表1:突发事件关键词列表示例。0事件名称 关键词0金球奖 金球奖,FIFA年度最佳球员0情人节 情人节,瓦伦蒂诺,爱的日子09/11 9/11,阿尔卡伊达对美国的袭击03 实验结果0在本节中,我们将介绍我们的实验结果。首先,我们将介绍有关查询量频率变化(第3.1节)、查询长度(第3.2节)和时间表达的使用(第3.3节)的结果。接下来,我们将通过考虑点击页面的多样性(第3.5节)和页面内容(第3.6节)来调查每个突发事件的用户点击如何变化。03.1 查询频率0我们的第一项分析是关于查询量变化的。我们的目标是了解与突发事件相关的查询在事件之前、期间和之后的频率如何变化。此外,我们还希望了解在事件时间之前、期间和之后发出的查询数量是否有任何实质性的差异。这对于旨在提供更好的查询建议和自动完成的搜索引擎非常有用。为了跟踪查询量的变化,我们定义了四个不同的时间段。事件时间(EF)是事件发生的时间。对于一些事件,如“奥斯卡”,我们将一天视为事件时间,而对于其他事件,如“奥运会”,我们将其事件时间定义为2016年8月5日至8月21日。活动前阶段(preEF)简单地定义为事件时间(EF)之前的整个一周,而活动后阶段(EFpost)是事件时间(EF)之后的整个一周。最后,事件窗口(EW)是这三个时间段的总持续时间。其他时间被视为正常窗口(NW)。由于我们正在调查两年的查询日志,我们考虑了查询的平均数量,因为像“情人节”和“奥斯卡”这样的事件可能在这两个时间段内发生多次。表2显示了提交给搜索引擎的查询的平均百分比,针对5个类别和20个突发事件。总体而言,超过57.9%的查询(平均62.07%)在事件窗口(EW)期间提交给搜索引擎,适用于所有类型的突发事件。如果只考虑周期性事件,可以观察到在观察活动后阶段时,与POngoing相关的查询(23.16%)、PComemorative(10.11%)和P Specialdays(5.31%)之间存在明显差异。主要原因是POngoing事件通常会导致一些未来的后果,最终使用户获取有关它们的信息。例如,在“美国总统选举”之后,有许多查询提交给搜索引擎,以获取关于选举获胜者以及人们如何在不同州投票给候选人的信息。0搜索引擎获取关于选举获胜者以及人们如何在不同州投票给候选人的信息。0表2:每个时间段内与每个类别的突发事件相关的查询的平均百分比。事件类型pre EF EF EF post EW NW0周期性0进行中的7.56% 32.51% 23.16% 63.23% 36.77%0特殊日38.14% 26.77% 5.31% 70.22% 29.78%0纪念活动30.64% 17.47% 10.11% 58.23% 41.77%0非周期性0可预测的8.64% 15.32% 33.94% 57.90% 42.10%0不可预测的1.29% 13.90% 45.58% 60.77% 39.23%0相比之下,特殊日和纪念活动主要在活动前阶段(preEF)提交,分别占比38.14%和30.64%。而在活动期间(EF)有所下降,但在活动后(EFpost)变得更加明显。另一个有趣的事情是,纪念活动在活动后阶段(EFpost)提交的查询占比(10.11%)大约是特殊日(5.31%)的两倍。这可能是由于纪念活动的历史渊源以及这类活动通常由知名人士正式庆祝,从而引发了大量用户主要寻找有关其喜爱的名人的新闻的搜索。至于非周期性事件,可以注意到它们在活动后阶段(EFpost)的频率明显高于周期性事件。例如,对于不可预测的查询,用户不知道事件可能正在发生。在活动前阶段(preEF)记录的查询占比(1.29%)涉及到一些已经发生的事件(例如,“巴姆地震”),人们在其周年纪念日上搜索。对于可预测的查询,用户倾向于更多地了解即将发生的事件,因此在活动前阶段(preEF)提出更多的查询,而在活动后阶段(EFpost)发出大部分查询。还需要注意的是,尽管大多数非周期性事件发生在一天内,但仍有一些用户在接下来的几天继续寻找与事件相关的信息。这在“巴黎恐怖袭击”事件中可以很容易地观察到,该事件在活动后阶段(EFpost)的查询数量大幅增加,许多用户寻找与这一悲剧事件相关的信息,例如死亡或受伤的人数,谁对袭击负责,恐怖分子发生了什么,法国政党如何对此次袭击做出反应。03.2 查询长度0在检查查询频率之后,我们现在来看一下查询长度。我们的目标是研究每种类型的尖峰事件的查询长度分布,因为几个实验证明,现有的检索方法在长查询方面的表现通常比短查询差。此外,我们还旨在提供关于查询长度分布的信息,以及与其他类型的查询(不特定于尖峰事件的查询,如“计算机科学”,“天气状况”或“电子书”)相关的查询长度分布。我们的目标是研究尖峰事件查询如何0研讨会:第8届时间Web分析研讨会WWW 2018,2018年4月23日至27日,法国里昂 17660在查询长度方面,它们与其他查询不同。为此,我们在6个月的时间段内随机选择了500,000个查询,超出了所有其他周期性和非周期性事件的范围。图3显示了每个尖峰事件类别的查询分布的箱线图。其他查询标记为其他。0图3. 每个尖峰事件类别的查询长度分布箱线图。0从这个图中可以看出,所有类别的查询长度分布几乎相同,大多数频繁查询的长度在4到6个术语之间,因此表明呈右偏分布,有很多查询只有几个术语,只有很少的查询有很多术语。然而需要注意的是,POngoing事件的查询长度比其他查询类别要长,平均每个查询有6.1个术语。这可以理解为每个事件都有自己的几个有趣的发生。例如,对于“奥运会”等事件,人们在事件期间往往倾向于发出更长的查询,以获取他们正在寻找的确切新闻。从图3中我们还可以观察到,尖峰事件查询的频率从6个术语开始逐渐下降,长度超过13的查询变得很少。然而,与其他类型的查询相比,这个斜率较慢。另一个重要的结果是,尖峰事件的平均查询长度为每个查询5.7个术语,比Jansen等人报告的一般网络查询的平均术语数高出3.5个术语,后者为2.2个术语。进行的实验还表明,与其他类型的波斯语查询相比,与尖峰事件相关的查询平均包含2.2个术语更多,这表明总体上,波斯语查询比英语查询更长,而与尖峰事件相关的查询甚至更长。03.3查询中的时间表达式的使用尖峰事件的一个特点是它们是与时间有关的。通常,用户通过明确或隐含地使用时间信息来表达这一点,他们发出具有不同时间表达式的查询。隐含和显式时间表达式的使用是文献中研究的一个问题。在这项研究中,我们旨在了解时间对不同类型的尖峰事件(例如,2003年的巴姆地震)的影响。为此,我们使用了我们最近开发的波斯语时间标记工具ParsTime,并发现尖峰事件查询中有23.7%的总查询包含时间表达式(仅考虑不同查询时为21.5%(考虑查询而不是频率)),这明显高于Nunes等人给出的一般查询的1.5%。这证实了与尖峰事件相关的查询无疑是与时间有关的。总的来说,我们0发现与非周期性事件相比,关于周期性事件的查询包含更多的时间表达式。例如,POngoing查询中包含最多的时间表达式,每个事件平均有39.5%的查询。主要原因是POngoing事件有一个独特的名称,导致用户每次事件发生时都会提到它。例如,“Fifa世界杯”的不同赛事被称为“Fifa世界杯2018年”,“Fifa世界杯2014年”或“Fifa世界杯2010年”。我们还可以确认,与PComemorative事件相关的查询中有24.8%使用了时间表达式,但考虑到不同的查询,只有8.87%的查询包含时间表达式。回想一下,这种尖峰事件类型指的是在一个唯一的时间发生的历史实现,用户主要使用与该唯一时间相关的时间表达式。相比之下,非周期性事件的查询中时间表达式最少,分别为A Predictable和AUnpredictable事件的10.3%和13.5%。这可能的一个解释是用户倾向于只提到事件的名称或事件发生的地点。图4提供了考虑到每个事件类别的总查询和不同查询的时间表达式百分比的信息。0图4:包含时间表达式的尖峰事件的总查询和不同查询的百分比。0为了进一步了解这些结果,我们将每个具有时间表达式的查询分发到第3.1节介绍的每个时间框架中。最终结果在表3中呈现。0表3:根据定义的时间框架分布具有时间表达式的查询。事件类型pre EF EF post EW NW0周期性0P 进行中 7.5% 10.4% 21.7% 39.6% 60.4%0P 特殊日子 35.9% 23.4% 10.7% 70.0% 30.0%0P 纪念 5.4% 4.8% 9.8% 20.0% 80.0%0非周期性0A 可预测 13.2% 2.6% 30.0% 45.8% 54.2%0A 不可预测 0.0% 0.0% 24.5% 24.5% 75.5%0从这个表中可以看出,查询中使用的时间表达式在不同类别之间存在很大差异。对于进行中的事件,平均有60.4%的查询在正常窗口(NW)期间发出。在事件时间(EF)期间,用户倾向于简单地询问事件,并期望搜索引擎返回相关结果。相反,在正常窗口(NW)期间,他们更喜欢指定他们所指的事件的哪一集。例如,关于“奥斯卡”事件的带有时间表达式的查询中,71.3%包含了指定“奥斯卡”的年份的表达式。另一个有趣的结果是,对于P特殊日子事件,70%的带有时间表达式的查询是在事件窗口(EW)期间提出的,主要涉及当前事件,并寻求有关如何庆祝和纪念特殊日子的信息。例如,关于“情人节”事件的带有时间表达式的查询中,时间表达式1394和1395(表示波斯年份,即2015年和2016年)占据了带有时间表达式的查询的78.2%。另一个重要的结果是,对于纪念性事件,80%的时间表达式是在正常窗口(NW)期间使用的,这表明在事件窗口(EW)期间使用的时间表达式较少。对于非周期性事件,对于A不可预测类别,在事件窗口(EW)期间带有时间表达式的查询主要涉及最近的事件。然而,对于A不可预测和A可预测类别,事件窗口(EW)期间使用的一些时间表达式是关于过去的事件。也就是说,用户也倾向于获取有关以前的事件的信息。例如,在“巴黎恐怖袭击”事件之后,用户还搜索其他恐怖袭击事件,如“2005年伦敦爆炸”或“2004年马德里火车爆炸”。在正常窗口(NW)期间,用于这两种类型事件的时间表达式涉及事件的不同集数。此外,用户更多地提到了发生影响和后果更大的事件的年份。例如,带有关于“地震”事件的时间表达式的查询中,有58.9%提到了2003年,当时班城发生了近年来最具破坏性的地震。0会议名称:第8届时间性网络分析研讨会 WWW 2018,2018年4月23日至27日,法国里昂 expressions that specified which episode of “Oscar”, users are referring to. Another interesting result is that 70% of the queries with temporal expressions for PSpecial days events were posed to the search engine during the Event window (EW) mostly concerning the current events and seeking information about how to celebrate and commemorate the special day. For example, temporal expressions 1394 and 1395 (which indicates the Persian years for which, the query log is available, i.e., 2015 and 2016 respectively) constitute 78.2% of the queries with temporal expressions regarding the event “Valentine”. Another important result is that for PComemorative events, 80% of the temporal expressions were used during the Normal window (NW) which indicates that during the event window (EW) less temporal expressions are used. Considering Aperiodic events, for AUnpredictable category, queries with temporal expressions during Event window (EW) mostly concerned the recent event. However, for both AUnpredictable and APredictable categories, some of the temporal expressions used during the Event window (EW) were posed regarding the past episodes. That is, users tend to also gain information about the previous events. For example, after the “Paris terrorist attack” event, users also search for other terrorist attacks like “London bombing 2005” or “2004 Madrid train bombing”. Temporal expressions used for these two types of events during Normal window (NW) concerned different episodes of the event. Moreover, the years in which events with higher impacts and consequences took place were more mentioned by users. For example, 58.9% of the queries with temporal expressions that concerned the event “Earthquake” were mentioning the year 2003 when the most destructive earthquake of recent years took place in Bam city. 3.4 Diversity of Clicked Web Pages 17670在本节中,我们旨在研究点击页面的变异性,以了解由于不同类型的尖峰查询而产生的不同效果。为此,我们采用点击熵。低点击熵表示用户偏好于事件相关的少数唯一URL,而较高的点击熵则显示用户针对多个URL进行了广泛的点击。查询流行度与点击熵之间的关系在[10]中进行了研究。他们报告说,具有多个尖峰的查询与仅有一个尖峰的查询相比,具有更高的点击熵,并认为这是由于同一查询的每个尖峰都产生了一个新的查询意图。在这项研究中,我们计算了每种类型的尖峰事件的点击熵,并比较了事件窗口和正常窗口的点击熵。事件的点击熵计算如下:0����� �������(�) = − ∑ (�(�|�))0��� �0 × (log 2 �(�|�)) (1)0其中�(�|�)是当用户搜索有关事件E时URLu被点击的概率。根据这个方程,我们计算了尖峰事件的平均点击熵。所得结果表明,尖峰事件的平均点击熵为6.21,表明点击的网页之间存在较高的多样性。最高的点击熵属于P特殊日类别,为7.17,而A不可预测事件的点击熵最低,为5.21。为了更好地了解随时间推移点击的网页的多样性,我们还测量了事件窗口(EW)和正常窗口(NW)的点击熵。我们的目的是研究事件总持续时间所涉及的时间与其余时间之间是否存在实质性的不同行为。所得结果如图5所示。0图5:事件窗口和正常窗口期间尖峰事件类别的平均点击熵。从图中可以看出,对于P特殊日事件,与正常窗口(NW)相比,点击熵在事件窗口(EW)期间明显更高。实际上,这是唯一一种在事件窗口(EW)期间点击熵更高的类型。事实上,对于任何其他类型,点击熵在正常窗口(NW)期间始终更高。对其余类型的详细分析表明,P持续事件和P纪念事件的点击熵大致相同,而A可预测事件和A不可预测事件的点击熵在事件窗口(EW)期间较低。在事件窗口(EW)期间,对于两种类型的非周期性事件,点击熵较正常窗口(NW)期间较低,因为用户更喜欢最新页面。根据这些结果,我们可以得出结论,无论周期性事件的类型如何,用户倾向于在事件窗口(EW)期间点击更多页面,而不是非周期性事件。然而,仍然需要进一步探索其他特征,如网页内容,以便对用户在事件窗口(EW)和正常窗口期间偏好的页面类型得出更有效的结论。我们将在下一节中研究这个问题。点击的网页内容。0在最后一节中,我们分析了点击的网页内容。了解用户偏好的页面类型可能在定义更精细的排名策略方面起到重要作用。为了进行这个实验,我们将调查点击率最高的网页的内容。对于被认为是100个事件的每个事件,我们考虑了用户更频繁点击的前200个页面(事件窗口的100个页面和正常窗口的100个页面),总共有20,000个网页。然后,我们请三名学生查看每个网页的内容,并根据最新性、旧度和类似维基百科的页面(通常用于事件检索的一种导航页面)对其进行手动分类。每个网页被分为:(1)最新页面,提供有关事件最新情节的信息,(2)类似维基百科的页面,提供有关事件的一般信息,和(3)旧页面,涉及事件的旧情节。我们在查询日志上的实验表明,每个事件类别的事件窗口和正常窗口检索到的结果不同。表4总结了我们研究的结果,显示了每个事件类别在高峰和非高峰时间段内每个页面类别的点击百分比。0Track: 2018年第8届时间Web分析研讨会,2018年4月23日至27日,法国里昂 17680表4:考虑事件类型的情况下,每个内容类别中点击页面的平均百分比,包括事件期间和正常期间。0事件类型 最新页面 类似维基百科页面 旧页面0EW NW EW NW EW NW0周期性0P OnGoing 94.3% 4.9% 4.1% 91.3% 1.6% 3.8%0P SpecialDays 54.7% 7.3% 44.9% 90.6% 0.4% 2.1%0P Commemorative 92.1% 51.4% 2.5% 7.1% 5.4% 41.5%0非周期性0A Predictable 83.8% 14.9% 12.6% 77.3% 3.6% 7.8%0A UnPredictable 94.2% 34.8% 4.2% 35.4% 1.6% 29.8%0观察 P Ongoing事件的结果,可以得出结论,在事件窗口(EW)期间,用户大多数喜欢最新的网页,因此检索更多新鲜的文档似乎是最好的选择。这与正常窗口(NW)形成了对比,正常窗口(NW)建议使用时间多样性。同样,对于 P Commemorative事件的事件窗口(EW),用户主要对最近的纪念和纪念集会感兴趣。然而,与 P Ongoing事件相比,相当多的用户也对类似维基百科的页面感兴趣。在正常窗口(NW)上,类似维基百科的页面也是点击量最多的,而其他类型的网页相对较少。P Special days事件在事件窗口(EW)期间主要受到最新页面的青睐,而在正常窗口(NW)上则更喜欢类似维基百科的页面。最后,对于两种类型的 Aperiodic事件,在事件窗口(EW)期间,用户主要选择最新的页面。然而,在正常窗口(NW)期间可以观察到不同的行为。对于 A Predictable事件,通常选择类似维基百科的页面,但对于 AUnpredictable0尖峰事件是多次发生并在其发生期间触发用户需求转变的事件。在本文中,我们从不同的角度研究了用户对尖峰事件的行为,包括查询和点击的页面。我们已经表明,用户对定义的5类尖峰事件的行为不同:正在进行的事件(例如,“奥运会”),历史事件(例如,“9.11恐怖袭击”),特殊日事件(例如,“情人节”),非周期性预期事件(例如,“月食”)和意外事件(例如,“地震”)。0为了了解用户行为在事件发生时间方面的变化,我们定义了5个时间段:事件之前、事件期间和事件之后,所有三个时间段的持续时间为事件窗口,而正常窗口则指的是不在事件窗口内的剩余时间。我们通过探索查询量、查询长度和使用时间表达式的变化来开始我们的分析。总的来说,我们可以注意到每个事件类别的用户行为出现了特定的模式。这可以被搜索引擎利用来提供更好的服务,包括查询建议、查询自动完成和结果排名。接下来,我们研究了每个事件的点击网页的多样性。我们得出结论,与非尖峰事件相比,所有类型的尖峰事件的多样性更高(我们将其标记为其他),并且除了 PSpecial 之外的所有类别的点击网页的种类也是如此。0天数,在事件期间与其他时间相比较低。0事件发生的次数。然后,我们将用户点击的与尖峰事件相关的页面内容分析为三类:提供有关事件的一般信息的页面(被视为类似维基百科的页面),涉及最近事件的页面和提供有关事件过去事件的信息的页面。这使我们能够得出结论,不同类别的尖峰事件的经常点击的网页是不同的,在事件窗口和正常窗口期间,因此建议针对查询问题时间的不同类型的事件采用不同的排名方法。总的来说,我们已经证明了当用户的信息需求涉及尖峰事件时,可以识别出特定的行为模式。如果搜索引擎利用他们对用户对尖峰事件的行为的了解,典型的搜索服务,如查询建议、查询自动完成和结果排名,最终可以更高效并提高用户满意度。5 结论0在本文中,我们研究了用户对尖峰事件的行为。为了进行这项研究,我们利用波斯语搜索引擎的两年查询日志,研究了100个尖峰事件(总共1344700条日志记录),并研究了这些事件发生时查询和点击页面的变化。我们得出结论,每种类型的尖峰事件都需要自己的搜索服务。在未来的工作中,我们将尝试为每种类型的尖峰事件提出高效的搜索服务。首先,需要一种方法来检测与不同类型的尖峰事件相关的查询。我们的论文[13,14]是这方面的首次尝试。然后,针对每种单独的事件类型,可以提出特定的检索和排序方法,查询自动完成0这项研究得到了伊朗电信研究中心(ITRC)波斯语本地搜索引擎计划的支持。它还部分由欧洲区域发展基金通过COMPETE2020计划资助,项目编号为POCI-01-0145-FEDER-006961,并由国家基金通过FCT资助,作为项目UID/EEA/50014/2013的一部分。0参考文献0[1]AleAhmad,A.,Zahedi,M.,Rahgozar,M.和Moshiri,B.(2016)。irBlogs:用于研究波斯博客作者的标准集合。人类行为中的计算机,57,195-207。0[2]Beitzel,S.M.,Jensen,E.C.,Chowdhury,A.,Frieder,O.和Grossman,D.(2007)。一个大型主题分类的网络查询日志的时间分析。美国信息科0[3]Bendersky,M.和Croft,W.B.(2008)。发现冗长查询中的关键概念。在第31届年度国际ACM SIGIR会议上的研究与发展中心,ACM'08,491-498。0[4]Broder,A.Z.,Carmel,D.,Herscovici,M.,Soffer,A.和Zien,J.(2003)。使用两级检索过程进行高效的查询评估。在第十二届国际信息和知识管0[5]Campos,R.,Dias,G.,Jorge,A.M.和Jatowt,A.(2014)。时间信息检0[6]Downey,D.,Dumais,S.,Liebling,D.和Horvitz,E.(2008)。理解搜索者的查询和信息目标之间的关系。在第17届ACM信息和知识管理会议上的0[7] Gupta,D.和Berberich,K.(2015)。不同粒度的时间查询分类。在国际字符串研讨会上0赛道:第8届时间Web分析研讨会WWW 2018,2018年4月23日至27日,法国里昂 17690处理和信息检索,Springer,Cham,156-164。0[8]Jansen,B.J.和Spink,A.(2006)。我们如何搜索万维网?九个搜索引擎事0[9] KarmakerSantu,S.K.,Li,L.,Park,D.H.,Chang,Y.和Zhai,C.(2017)。建模热门趋势事件对用户搜索行为的影响。在第26届国际万维网会议附属会议上,国际万维网会议指导委员会,535-544。0[10] Kulkarni,A.,Teevan,J.,Svore,K.M.和Dumais,S.T.(2011)。0理解时间查询动态。在第四届ACM国际网络搜索和数据挖掘会议上,ACM'11,167-176。0[11] Kumaran,G.和Allan,J.(2007)。短查询的案例,以及0帮助用户创建它们。在HLT-NAACL,220-227。0[12] Mansouri,B.,Zahedi,M.S.,Campos,R.,Farhoodi,M.和0Rahgozar,M.(2018)。ParsTime:基于规则的波斯语时间表达式提取和0归一化。在ECIR'18中。0[13] Mansouri,B.,Zahedi,M.S.,Rahgozar,M.,和 Campos,R.(2017)。0使用时间序列和内容特征检测季节性查询。在ICTIR'17中,1-4。0[14] Mansouri,B.,Zahedi,M.S.,Rahgozar,M.,Oroumchian,F.,Campos,0R.(2017)。学习网络搜索查询中的时间歧义。在CIKM'17中,6-10。0[15] Nunes,S.,Ribeiro,C.,& David,G.(2008)。使用时间0在网络搜索中使用时间表达式。在欧洲信息检索会议上,Springer,580-584。0[16] Radinsky,K.,Svore,K.M.,Dumais,S.T.,Shokouhi,M.,Teevan,J.,0Bocharov,A.,&Horvitz,E.(2013)。网络行为动态:学习,建模和预测。ACM信息0[17] Shokouhi,M.(2011)。通过时间序列检测季节性查询0分析。在第34届国际ACMSIGIR研究与开发会议上的论文集中,ACM'1
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功