没有合适的资源?快使用搜索试试~ 我知道了~
跟踪:PROFILES数据搜索:在网络上分析和搜索数据WWW 2018,2018年4月23日至27日,法国里昂1485表征数据集搜索查询艾米莉亚·卡普尔扎克英国南安普敦大学开放数据研究所emilia. theodi.org珍妮·坦尼森英国伦敦开放数据研究所jeni@theodi.org摘要在Web上生成和发布的数据量正在迅速增加,但在Web上搜索结构化数据仍然存在挑战。在本文中,我们探索数据集搜索分析查询专门为这项工作产生的通过众包-ING实验,并比较它们的搜索日志分析查询的数据门户网站。搜索环境的变化以及我们给人们的任务改变了生成的查询。 我们发现,在我们的实验中发出的查询比数据门户上的数据集的搜索查询要长得多。 它们还包含了七倍以上的地理空间和时间信息的提及,并且更有可能被结构化为问题。这些见解可用于根据数据集搜索的特定信息需求和特征关键词数据集搜索,搜索日志分析,查询生成ACM参考格式:Emilia Kacprzak 、 Laura Koesten 、 Jeni Tennison 和 Elena Simperl 。2018年。表征数据集搜索查询。 在WWW '18伴侣:2018年网络会议伴侣,2018年4月23日至27日,法国里昂。 ACM, New York , NY , USA , 4 页 。https://doi.org/10.1145/3184558.31915971引言越来越多的个人、行业和政府产生的数据可以在线访问。在网络上搜索结构化数据正成为人们工作活动的一部分然而,数据搜索仍然对许多使用数据进行工作任务的人提出了挑战[11]。我们所说的数据是指以结构化形式呈现的事实或数据集。 这些通常被分组为数据集,其中许多数据集被发布在网络上,例如在网络上可用的数据目录中。这项工作关注的是人们如何在线搜索数据集。这通常通过数据门户或经由传统的web搜索引擎来 后者对于数据搜索并不理想,因为它们主要是为文档而不是数据设计的[4]。虽然我们知道很多关于本文在知识共享署名4.0国际(CC BY 4.0)许可下发布。作者保留在其个人和公司网站上以适当的归属方式传播作品的权利WWW©2018 IW3C2(国际万维网会议委员会),在知识共享CC BY 4.0许可下发布。ACM ISBN 978-1-4503-5640-4/18/04。https://doi.org/10.1145/3184558.3191597劳拉·柯斯滕英国南安普敦大学开放数据研究所laura. theodi.orgElena Simperl南安普敦大学英国南安普敦e.simperl@soton.ac.uk从文献中的一般网络搜索我们仍然对人们如何在线搜索数据集知之甚少。 在之前对开放数据门户的搜索日志分析中,我们发现了针对文档的搜索查询与针对数据集的搜索查询的差异[9]。然而,我们假设所分析的查询不一定反映人们将如何在理想的搜索系统中搜索数据。人们通常不期望他们的数据搜索活动成功,因为他们意识到数据搜索功能的性能有限[11]。 我们进一步认为,在网络上搜索文档的用户体验以及界面(例如,搜索框的大小和设计)影响人们搜索数据的方式。 这项工作的目的是更好地了解数据集搜索场景的具体特征,为未来针对结构化数据量身定制的搜索功能的设计提供信息。我们分析了一组查询的数据(人群查询),这是使用人类计算产生的。 我们要求群组工作人员根据自由格式文本数据请求的样本生成查询。我们将这些查询与用于搜索数据端口的查询进行比较[ 9 ],以了解搜索环境的变化是否会导致查询的不同特征我们研究了以下问题:(1)数据门户中的数据搜索查询与约束较少的环境中的数据搜索查询有何不同?(2)如何对在约束较少的环境中发布的数据进行搜索查询?我们发现,在约束较少的环境中生成的查询要长得多,并且包含的时间和地理空间信息是向数据门户发出的查询的七倍[9]。这表明这些信息类型是数据集搜索中特别感兴趣的我们进一步发现查询中表示的文件类型,数据集类型和数字的流行程度更高 我们相信,需要更好地理解数据集搜索查询的样子,以告知数据集搜索的独特特征的接口和搜索功能。这包括索引时间或地理空间信息或针对数据集搜索定制的搜索结果的特定呈现模式的重要性。2相关工作数据搜索即使对于数据专业人员来说,搜索数据仍然是一个挑战,并且远远不能提供我们在Web搜索中习惯的相同用户体验[10,11]。在一般网络搜索中使用的现有技术不能直接应用于搜索数据[4]。在先前的一项研究中,分析了四个跟踪:PROFILES数据搜索:在网络上分析和搜索数据WWW 2018,2018年4月23日至27日,法国里昂1486政府开放数据门户[9],我们讨论了数据集查询的具体特征,并与一般的Web搜索查询进行了比较。一般web搜索查询随着时间的推移与搜索功能的进步并行地发展 数据搜索在其特征上与大约15年前的网络搜索相似[9,16](例如:随着时间的推移,查询的长度一直在稳步增长[17])。我们假设不同的信息类型构成了不同的搜索环境,并影响人们查询的方式网络上的数据集检索仍然是一个相对不成熟的研究领域。本研究的重点是结构化数据集的查询公式的特点结构化数据是指明确组织的数据-例如电子表格,Web表格,数据库或地图。垂直搜索是针对在线内容的特定子集的搜索(可以根据其主题、数据类型或上下文而不同)。相关资源的有限范围允许更高的精度、更复杂的模式或本体来匹配特定的搜索场景;并且因此倾向于支持更复杂的用户任务[13]。 垂直搜索包括例如人物搜索[18]、电子邮件搜索[1]、研究出版物搜索[13]或数字图书馆[8]。每个垂直领域都与其他垂直领域和一般的网络搜索有明显的区别。例如,电子邮件搜索就是一个例子,[1]注意到在搜索时,用户知道他们正在寻找的资源的精确属性 与一般网络搜索的关键区别在于,电子邮件集合是每个用户唯一的个人集合,并且存在附加的元数据(例如,电子邮件)。发件人地址、主题或时间戳),这可以帮助组织和搜索结果。在搜索研究出版物[13]中,认为可以通过使用每个出版物所附的时间信息来改进网络搜索例如,像PageRank和HITS这样的算法计算每个资源的相关性,并在排名中优先考虑较旧的资源。 在文献检索中,除了内容相关性外,资源的声誉、引用次数以及作者和期刊的声誉更有影响力。由于信息源的特定特征,数据集搜索可以被视为一个单独的垂直领域。 Kunze等人最近引入了数据集检索的概念,作为应用于数据而不是文档的信息检索的分支,其集中于根据用户查询确定最相关的数据集[12]。他们关注的是一种特定的数据类型--RDF数据集--然而,我们相信这适用于结构化数据,而与其格式无关。查询分析第一次对网络上的查询日志进行分析是为了Altavista搜索引擎[15],并且该技术已被用于研究网络搜索的几个方面(参见[7]的调查)。Broder等人在基于用户需求的Web搜索查询分类中报告查询类型的分类[3]。这包括信息查询、导航查询和事务查询。在数据集搜索中,信息需求是“查找数据”,因此可以被视为主要的信息。在一般网络搜索领域开发了用于分析查询的各种度量,其中一些可以应用于数据搜索。查询长度&分布是最常见的统计数据,也是我们研究中分析的一部分。查询结构描述了例如问题、运算符以及查询是复合还是非复合[2],这主要与长查询有关问题查询通过启动表示疑问的词。运算符是布尔运算符:AND、OR和NOT或特殊的网络搜索运算符,例如。URL、站点或文件类型。如[6]所示,他们报告了九个搜索引擎的交易日志分析,不同搜索日志分析的结果不能直接比较。这意味着,即使在网络搜索中,比较不同搜索日志分析的度量也是有问题的,我们假设在不同信息源(例如:文本文档与结构化数据集)可能更是如此。3实验数据我们分析了在这项工作中生成的一组搜索查询(人群查询),并将它们与数据集搜索日志分析[ 9 ]中的查询进行了比较,该数据集搜索日志分析[9]分析了来自四个开放数据门户的查询,称为门户查询。 基于对英国政府开放数据门户1的数据请求,在众包实验中生成众包查询,并且众包查询在Github存储库2中可用。这些是用户在平台上无法找到的数据的正式自然语言请求,通过半结构化的联系表单提交,并作为开放数据3提供。数据请求的摘录的示例是“请求关于&&以下两个北约克郡教区从1986年到最新可用日期的绵羊、羔羊和小牛总数的年度回报数据:Malham Moor教区和Buckden教区”。我们随机选择了所有公开发布的数据请求中的10%(50个请求),并手动检查它们在语言和具体术语方面的可理解性-然后我们排除了可能难以理解的请求,并将其替换为其他随机选择的请求。在我们的实验中,我们使用了请求的标题和描述。对于每个数据请求,我们通过人工计算生成10个查询在排除了垃圾答案(所有查询中的51个是手动检测到的)之后,集合总共包含449个查询。结果查询的示例是“雇用超过1000名工人的约克郡的企业”。设计我们进行了一个众包实验,以产生人群查询。参与者是众包平台CrowdFlower的用户。 由于数据请求是非结构化的英语文本,对于英语语言技能较低的人来说可能难以理解,因此我们将实验限制在母语为英语的国家的工作人员;并且我们将工作者池限制为平台上更有经验、更高准确度的贡献者的较小群组。我们包括5个简短的资格问题,评估基本的阅读,推理和数据素养技能。工人工资为0元。15来生成他们认为适合于单个数据请求的每个搜索查询我们的开放式文本创建任务被制定为:我们要求您编写一个搜索查询,您认为该查询将从数据搜索引擎返回所请求的。向工作人员展示了任务的概述、分步说明以及带有相应查询示例的示例数据请求。输出是一个长度限制在1到20个单词之间的搜索查询为了最大限度地减少“垃圾邮件”的答案,我们阻止了内容的粘贴,并根据英语验证了查询中的每个单词1data.gov.uk2 https://github.com/chabrowa/data-requests-query-dataset3 https://data.gov.uk/dataset/data-requests-at-data-gov-uk跟踪:PROFILES数据搜索:在网络上分析和搜索数据WWW 2018,2018年4月23日至27日,法国里昂1487语言字典,要求80%的匹配阈值才能接受查询 我们还拒绝了包含相同单词三次或更多次的答案。参与者没有被指示以特定的结构生成他们的查询;然而,他们被展示了五个例子,其中包含各种关键字组合和一个问题。允许生成单个查询的最短时间为1分钟,以便有时间详细阅读数据请求。没有收集个人数据尽管工作人员缺乏对数据请求中所表示的信息需求的深入理解,但我们相信,由此产生的查询为我们提供了对数据查询的必要复杂性和特征的有价值的4结果分析所分析的查询的统计数据包括:查询长度,包括两组查询的平均查询长度和分布;查询特征:包含描述以下内容的关键字的查询:位置;时间范围;文件和数据集类型;数字;注释(在表1中详细描述);以及问题查询:为了识别问题查询,我们对包含以下词语的查询进行计数:who,whether,when,wh 在本节中,我们展示了我们对本研究中创建的人群查询的分析结果,并将其与[9]中展示的门户查询进行了比较。大多数门户网站的查询长度在1到3个单词之间,平均为2个单词。03字每查询。 我们发现人群查询要比门户网站查询显着更长,平均为9。每个查询16个字不指定特定位置,因此从地理空间的角度来看,限制较少参与者可以通过指定位置关键字来补偿这一点。然而,大量的位置绑定关键字(36. 1%)可能只是强调了位置在数据搜索中的重要性在人群查询49中,时间信息的受欢迎程度是其他信息的7倍。2%,与门户查询报告的结果(7. 29%)和32倍,比一般的网络搜索(1。5%[14])。用户表示对时间信息的不同方面感兴趣:数据创建日期、数据发布频率、数据中描述的更新和时间 文件和数据集类型(例如包含csv或json等的查询,如表1所示)在人群查询中更受欢迎(49%),相比之下,门户查询报告的文件类型为6。25%的查询。这可能是由于在记录门户查询的数据门户上对文件类型的过滤选项造成的。群组工作者在创建查询时可能会进一步有偏见,认为他们需要将单词data添加到数据查询中(如一般web搜索的情况从该分析中排除单词数据,我们发现26个。95%的查询包括常见的文件类型,如表1所示。包含数字的查询的百分比,这不是时间信息,是5.57%,没有查询只包含数字。这些结果与门户网站查询报告的结果相似(5.23%)[9]。查询中的数字主要表示样本大小或对数据的期望约束,例如:警察支出超过500英镑的本地数据。 我们进一步报告了包括缩写在内的查询的百分比。我们找到了2。23%的人群查询包括缩写;相比之下,5。11%报告了门户查询。缩略语主要用于查询所基于的数据请求中。指标-定义%门户%人群图1:根据其中的单词数量的查询百分比地理空间- 城市或地理区域的名称(城镇、城市、县、地区或国家)时间- 年(1000年至2017年)、月份名称、一周中的天数以及单词周(ly)、年(ly)、月(ly)、日(ly)、日期、时间和十年文件和数据集类型- 文件类型:csv,pdf,xls,json,wfs,zip,html,api和表示数据集类型的关键字:数据,数据集,平均值,索引,图形,表格,数据库,索引,速率,统计Numbers- 查询的数量,包括数字,不包括表示时间范围百分之五点四百分之一49 .第四十九章百分之二6.3%百分之五点二 。占6%图1显示了[9]中报告的人群和门户查询的查询百分比(按每个查询的单词数)我们可以看到,单个单词查询几乎占门户查询整个语料库的一半,而群体查询最少有2个单词,大多数查询在7到11个单词之间。 我们认为,查询长度的这种差异表明门户查询可能不代表现实的搜索策略,而是暴露了当前数据集搜索的局限性。用户在搜索数据时不期望搜索功能满足其信息需求,这可能导致未指定的查询[11]。 查询类型-在这项工作中,我们分析了与[9]中相同的指标,其中包括地理空间,时间,数字信息或查询中的文件类型和首字母缩略词的外观。表1总结了每个度量的查询百分比地理空间信息在人群查询中更为普遍:36。其中1%包含位置,而只有5。4%的门户查询和12. 01%在一般网络搜索[5]。 与在数据门户上进行搜索不同,数据门户通常与特定的位置相关联,或者可能与国家边界相关联,我们的实验做到了这一点仅数字- 仅包含数字的查询0.4%0%表1:查询表征度量的定义。[9]中报告的门户查询和本研究由于语音识别和会话搜索界面的进步,将查询公式化为问题在网络搜索中越来越常见[19]。2009年,7. 49%的查询是一般网络搜索研究中的问题[2]。不到1%的门户查询是以问题的形式结构化的[9]。数据集搜索中的问题查询数量较少可能是由于数据集搜索功能缺乏问答功能。我们找到了9个。35%的人群查询是问题。这可能是由于我们的实验中使用了更大的搜索框;或者由于与文档相反的数据的不同概念化。5讨论和限制我们发现,对数据的查询在数据门户上发布的查询和在约束较少的环境中创建的查询之间存在差异本研究中生成的查询更长,并且包括大约7倍的时间和地理空间信息。跟踪:PROFILES数据搜索:在网络上分析和搜索数据WWW 2018,2018年4月23日至27日,法国里昂1488文献[10,12]中已认识到这些信息类型的重要性更高在结构上,我们发现人群查询包括更高比例的问题,并且4倍的查询包括特定的文件类型或格式。这些查询的长度表明数据请求中表达的信息需求是复杂的;根据文献,我们认为这是以数据为中心的信息需求的典型特征[11]。相比之下,门户网站的查询简短且不明确。 虽然在这两个查询集中,人们都在寻找数据,但我们认为,这两个集合都不一定代表人们希望如何搜索数据。这些发现强调了数据搜索环境的大设计空间;一个可能的方向是鼓励用户发出更长的查询,例如通过提供更大的搜索框或建议额外的关键字。搜索日志分析可以说明搜索,考虑到搜索会话和查询细化以及定性组件,以更好地了解用户需求。这可以使我们能够开发针对用户需求以及数据集搜索的特定特征的数据的搜索功能致谢本项目得到欧盟H2020计划的支持:玛丽·斯克沃多夫斯卡-居里资助协议编号:642795引用[1] 艾庆耀,Susan T.放大图片作者:Daniel J.亲爱的2017年。Charac-terizing电子邮件搜索使用大规模行为日志和调查。第26届国际万维网会议论文集。1511 -1520年。https://doi.org/10.1145/3038912.3052615[2] Michael Bendersky和W.布鲁斯·克罗夫特。2009年大规模搜索日志中长查询的分析2009年网络搜索研讨会论文集给定搜索垂直的特定特征我们知道门户网站上的查询是未充分指定的,但是这项工作表明数据ACM,8https://doi.org/10.1145/1507509.1507511[3] 安德烈·布罗德2002. Web搜索的分类。SIGIR论坛https://doi.org/10.1145/792550.79255236,2(2002),3当被要求在搜索环境之外进行搜索时,人们发出与对数据的复杂信息需求相对应的长得多的查询。人群查询中地理空间或时间信息的高流行度应当通知数据集搜索系统的设计,例如通过允许用户通过特定位置或时间帧进行搜索这可能进一步表明需要扩展现有的元数据标准,以包括这两种类型的信息,然后可以通过搜索功能来利用。我们认为,需要新的数据集搜索检索模型,考虑到这种信息源的独特特征,使网络上的数据更容易被发现。与任何使用人类计算的实验一样,指令和实验设计会影响结果。我们试图考虑到员工可能不知道数据是什么,并在说明中使用了电子表格和产品搜索类比。我们无法控制工人先前的经验和他们对数据的概念模型然而,这是此类实验的自然限制虽然我们承认人群查询是在人工环境中创建的,没有工人自己的自然信息需求,但我们相信它们为我们提供了有关未来数据查询可能如何的相关见解。 我们承认,无论是查询集可以是一个代表性的反映,人们将如何搜索数据在一个“理想”的系统。 然而,这项工作的结果可以被视为一个近似值,可以为进一步的研究提供信息。6结论今后的工作在这项工作中,我们提出了一个搜索日志分析的查询,通过众包使用请求的数据从一个开放的数据门户网站来描述的信息需求。 我们将我们的结果与[9]进行比较,在[ 9 ]中,我们分析了显式发出的查询以查找数据。我们的研究结果表明,数据集搜索日志并不能完全代表用户搜索数据的行为,而是揭示了当前搜索功能的局限性 两组查询的差异表明需要进一步的研究,以加深我们对人们如何搜索数据的理解。 这可能包括对数据专业人员生成的查询进行额外分析,以了解具有不同数据先验知识的人发出的查询的差异和共性。未来的研究可能包括对数据集中用户行为的更深入分析[4] Michael J.Cafarella,Alon Halevy,and Jayant Madhavan.2011年。结构化数据在网络上Commun. ACM 54,2(2011),72-79.https://doi.org/10.1145/1897816。1897839[5] 甘青青,Josh Attenberg,Alexander Markowetz和Torsten Suel。2008年搜索引擎日志中的地理查询分析第一届国际位置与网络研讨会论文集。ACM,49网址://doi. 电话:+86-021 - 8888888传真:+86-021 - 88888888[6] 伯纳德·J詹森和阿曼达·斯宾克2006年我们如何搜索万维网?:九个搜索引擎事务 日 志 的 比 较 Information Processing and Management42 , 1 ( 2006 ) ,248https://doi.org/10.1016/j.ipm的网站。2004.10.007[7] 姜大新,裴健,李航2013年。Web搜索中的搜索和浏览日志挖掘:综述。ACM Transactions on Intelligent Systems and Technology 4 , 4 , Article 57(2013),37 pages. https://doi.org/10.1145/2508037.2508038[8] 史蒂夫·琼斯,莎莉·乔·坎宁安,罗杰·麦克纳布,和斯特凡·博迪。两千数字图书 馆 的 事 务 日 志 分 析 。 International Journal on Digital Libraries3 , 2(2000),152https://doi.org/10.1007/s007999900022[9] 放大图片作者:Emilia Kacprzak,Laura M.Koesten,Luis-Daniel Ibáñez,Elena Simperl , and Jeni Tennison.2017. 数 据 集 检 索 的 查 询 日 志 分 析 。SpringerInternationalPublishing,Cham,429-436.https://doi.org/10.1007/978-3-319-60131-1_29[10] Dagmar Kern和Brigitte Mathiak2015年。与已知文献检索相比,数据集检索是 否 存 在任 何 差 异 第19 届 数字图书馆理论与实践国际会议。197-208.https://doi.org/10.1007/978-3-319-24592-8_15[11] Laura M.放大图片创作者:Jenifer F.A. Tennison和Elena Simperl。2017. 使用结构化数据的考验和磨难-信息寻求行为的研究计算机系统中的人为因素会议论文集(CHIACM,New York,NY,USA,1277https://doi.org/10.1145/3025453.3025838[12] 斯文河Kunze和Soren Auer。2013年。数据集检索。2013年IEEE第七届语义计算国际会议。https://doi.org/10.1109/ICSC的网站。2013年12月[13] Xin Li,Bing Liu,and Philip S.Yu. 2010年。 应用于出版物搜索的时间敏感排 名 。 Springer , New York , 187https://doi.org/10.1007/978-1-4419-6515-8_7[14] Sérgio Nunes、Cristina Ribeiro和Gabriel David。2008年在网络搜索中使用时间表达式。欧洲信息检索会议。斯普林格580-584[15] Craig Silverstein,Hannes Marais ,Monika Henzinger ,and Michael Moricz.1999. 分析一个非常大的网络搜索引擎查询日志。ACM SIGIR Forum33,1(1999),6[16] Amanda Spink , Dietmar Wolfram , Major BJ Jansen , and TefkoSaracevic.2001年搜索网络:公众和他们的查询。 美国信息科学与技术学会杂志52,3(2001),226-234。[17] Mona Taghavi 、 Ahmed Patel、 Nikita Schmidt、 Christopher Wills 和YiqiTew。2012. 以查询分布模式分析搜寻引擎之网路代理记录。ComputerStandards Interfaces34,1(2012),162[18] WouterWeerkamp , Richard Berendsen , Bogomil Kovachev , Edgar Meij ,KrisztianBalog,and Maarten de Rijke. 2011年。 人搜索人:分析一个人搜索引擎日志。第34届ACM SIGIR信息检索研究与开发国际会议论文集。[19] 瑞恩·WWhite,Matthew Richardson,and Wen-Tau Yih.2015年。信息搜索任务中的问题与查询第24届万维网国际会议论文集(WWWACM,New York,NY,USA,135https://doi.org/10.1145/2740908.2742769
下载后可阅读完整内容,剩余1页未读,立即下载











安全验证
文档复制为VIP权益,开通VIP直接复制
