微博检索的黄金标准：IRMiDis2017中的完整性挑战

38 浏览量更新于2023-10-16 收藏 12.52MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2https://en.wikipedia.org/wiki/April_2015_Nepal_earthquake16390微博检索的黄金标准创建：IRMiDis2017中的完整性挑战0Rihav Soni �0印度理工学院（班纳拉斯印度大学），瓦拉纳西，印度ribhav.soni.cse13@iitbhu.ac.in0印度理工学院（班纳拉斯印度大学），瓦拉纳西，印度spal.cse@iitbhu.ac.in0摘要0像Twitter、Facebook等微博网站是灾难情况下第一手信息的重要来源，并且有可能在很大程度上帮助灾难救助工作。FIRE2017年的IRMiDis赛道专注于开发和比较IR方法，以自动识别和匹配指示资源需求或可用性的推文，从而为未来改进此任务的基准数据集的创建做出贡献。然而，根据我们的实验，我们认为赛道中获得的黄金标准数据相当不完整。我们还讨论了可能导致数据不完整的一些原因，并提出了一些建议，以在此类任务中创建更健壮的基准数据。0CCS概念0• 信息系统 → 信息检索；信息系统应用；万维网；0关键词0危机信息学，灾难，微博检索，社交媒体，黄金标准，语言模型，词嵌入，word2vec，GloVe，WordNet，查询扩展，相关反馈0ACM参考格式：Rihav Soni和SukomalPal。2018年。微博检索的黄金标准创建：IRMiDis2017中的完整性挑战。在WWW '18Companion：2018年网络会议伴侣，2018年4月23日至27日，法国里昂。ACM，纽约，纽约，美国，4页。https://doi.org/10.1145/3184558.319162201 引言0在灾难时期，用户在微博网站（如Twitter、Facebook等）上发布了大量与灾难相关的信息，其中包括第一手的情况描述，这些信息在了解实地情况以及援助灾难救助工作方面非常有帮助。FIRE2017中的微博信息检索（IR-MiDis）赛道[1]特别关注开发和比较自动化IR方法，以识别和匹配信息。0� 这是对应的作者 1http://fire.irsi.res.in/fire/2017/home0本文发表在知识共享署名4.0国际许可证（CC BY4.0）下。作者保留在个人和公司网站上传播作品的权利，并附上适当的归属。WWW '18Companion，2018年4月23日至27日，法国里昂，© 2018IW3C2（国际万维网会议委员会），根据知识共享CC BY 4.0许可证发布。ACM ISBN978-1-4503-5640-4/18/04。https://doi.org/10.1145/3184558.31916220在2015年尼泊尔地震期间的大约46,000条推文中，我们在其中定义了“需求推文”和“可用性推文”：0•需求推文：指示某些特定资源（如食物、水、医疗援助、住所等）的稀缺性或需求的推文。 •可用性推文：指示某些特定资源的未来或实际可用性的推文。0该赛道包含两个子任务，子任务1专注于从给定的集合中单独识别需求推文和可用性推文。子任务2是将需求推文与至少满足需求推文中提到的一个资源的相应可用性推文进行匹配。该赛道为研究在灾难情况下识别和匹配需求和可用性推文的IR方法提供了一个基准数据集。然而，根据我们的实验，我们认为子任务2（即由人工标注者确定的需求-可用性推文正确配对的列表，其中需求推文中提到的至少一个资源由可用性推文满足）的黄金标准创建相当不完整。本文的其余部分组织如下。我们在第2节中描述了IRMiDis赛道中使用的数据集，第3节中介绍了黄金标准创建方法，第4节中介绍了我们的实验和观察结果，第5节中进行了一些讨论，并在第6节中进行了结论，以及一些未来工作的方向。02 推文数据集0组织者收集了大约66k条在2015年尼泊尔地震期间发布的推文，其中包括英语、尼泊尔语、印地语等推文，以及混合语言推文（即一条推文包含两种或多种语言或脚本）。其中20k条推文作为训练数据提供，剩下的46k条推文作为该赛道的测试数据。在训练推文中，也提供了金标准数据（即子任务1的所有需要推文和可用性推文列表，以及子任务2的所有匹配的需要-可用性推文对列表）给参与者。03 IRMIDIS 2017中采用的金标准创建过程0赛道组织者雇佣了三名标注员来创建金标准。0赛道：利用社交媒体进行紧急救援和准备 WWW 2018年4月23日至27日，法国里昂16400子任务1的金标准创建包括以下三个阶段。0（1）首先，每个标注员独立使用手动运行搜索相关的需要或可用性推文，推文被索引后。（2）然后，标注员相互讨论和确定了第一阶段中至少有一个标注员找到的推文的相关性。（3）最后，从每个提交运行的前100个结果中进行汇总，并由标注员进行评判。0对于子任务2（即匹配在子任务1的金标准中分别列出的需要推文和可用性推文），标注员被要求手动将每个需要推文与能满足至少一个在需要推文中提到的资源需求的可用性推文进行匹配。此外，对提交的运行结果进行汇总，以判断标注员可能错过的匹配对。根据任务说明，每个运行结果只能输出每个需要推文的前5个匹配的可用性推文，每个运行结果的所有输出都被纳入标注员进行手动评估的池中。子任务2只有10个运行结果提交，其中只包括4种不同类型的模型（其他只有模型参数不同）。04 实验和观察0作为子任务1的金标准，标注员在20k条推文的训练数据中确定了211个需要推文和718个可用性推文。在约46k条推文的测试数据中，确定了427个需要推文和980个可用性推文。对于子任务2，标注员从训练推文中共确定了3091个需要-可用性推文对，其中有200个需要推文，即每个需要推文平均确定了15.46个可用性推文。对于测试数据，他们找到了4117个需要-可用性推文对，其中有427个需要推文，即每个需要推文平均只有9.64个可用性推文。虽然在子任务2的训练数据中没有需要推文找不到匹配的可用性推文，但在测试数据中的427个需要推文中有126个推文找不到匹配的可用性推文。经过手动检查，我们很容易发现至少有10个匹配的可用性推文与这126个推文中的至少10个推文相匹配。此外，即使对于许多其他需要推文，标注员确定了一些可用性推文，我们仍然可以很容易地找到至少10个被标注员忽略的匹配的可用性推文。表1展示了一些需要推文，标注员未能找到任何可用性推文的例子，以及应该找到的一些可用性推文。04.1 从i个运行中发现相关的推文对0我们从金标准中随机选择了20个需要推文作为子任务1测试数据。0我们还应用了总共8种IR方法：（1）Lucene3默认模型（使用Tf-idf的变体进行评分），（2）使用GoogleNews数据集预训练的Word2vec[4]向量，（3）在Twitter数据集上训练的GloVe[6]向量，（4）在Wikipedia数据集上训练的GloVe向量，（5）一元语言模型，（6）二元语言模型，（7）使用WordNet[5]进行查询扩展后使用Lucene进行搜索，（8）使用手动相关反馈后使用Lucene进行搜索。对于这8个模型中的每一个，对于随机选择的20个需求推文中的每一个，我们输出了在金标准中的子任务1的可用性推文中识别出的可用性推文中的前五个匹配的可用性推文。我们手动检查了这800对推文中的每一对的相关性，并发现327个需求-可用性推文对是相关的（即，根据我们的判断，可用性推文提到了至少一个在相应需求推文中提到的缺乏的资源的可用性），其中只有49个（即，仅约15％）存在于子任务2的金标准中（由任务的注释者确定）。这8种方法找到的相关对的数量以及其中有多少存在于金标准中的情况如表2所示。为了分析随着参与系统数量的增加，发现的相关需求-可用性推文对的数量如何增加，我们进行了实验，通过选择这8种方法的所有组合，首先是一次选择一种方法，然后是两次选择，依此类推。当一次选择i，1≤i≤8个方法时，方法发现的不同对的平均值、最小值和最大值如表3所示，并绘制在图1中。由于图表对于8个运行尚未饱和，我们可以预计，如果将更多运行添加到池中，将会发现更多相关对。05 讨论0赛道中获得的子任务2的最终金标准似乎对于除了贡献到池中的系统之外的系统的可靠排名来说并不完整。汇集方法未能找到许多相关的需求-可用性推文对。发生这种情况的一些原因可能是：0•对于子任务2，只提交了10个运行，只应用了4种不同的模型（其他模型只是在模型参数方面有所不同）。显然，由这样的集合构成的池既不多样化也不足够大，无法包含大多数相关的需求-可用性推文对。这个问题在去年的相应赛道中也发生过[1]，如[8]所报道。•组织者为每个运行提交的需求推文设置了输出5个匹配的可用性推文的限制。在TREC的微博赛道中，曾经有超过100个运行提交，通常将池深度设置为100[2,7]。在这里仅设置池深度为5，只有10个运行提交，导致池不可靠。实际上，在子任务1的金标准中，包含关键字“的可用性推文中有超过100条推文03 https://lucene.apache.org/ 4http://trec.nist.gov/data/microblog.html0追踪：利用社交媒体进行紧急救援和准备 WWW 2018，2018年4月23日至27日，法国里昂1841177322876461133561077714047013499164556158126183628180157199781991922148121621621616410表1：需求推文的示例，注释者未找到匹配的可用性推文，以及应该找到的一些可用性推文（在需要时已翻译为英文）0需要推文匹配可用推文0尼泊尔需要40万顶帐篷，350万人的食物。http://hindi.news-roompost.com/45248/nepal-needs-more-help/ âĂę（id：594732773539237888）0@RaviNepal做得好，已经整理了加德满都的食物，水和住所的地点列表。http://www.bit.ly/nepalrelief15#地震（id：592751043164938240）0尼泊尔地震后：现在需要帐篷，食物和药物。（id：593199294527643648）0今天我们的志愿者在Raxaul的#ArtofLiving中心向1500多名地震受灾人员分发了食物#尼泊尔地震救援（id：592757889535737860）0在未来的日子里，尼泊尔人民需要基本的生活必需品，如食物，清洁水和住所。#地震（id：596366795931406336）0在巴拉特普尔医院...真的所有地震受害者都得到了食物，衣服，垫子，药物等待遇 #地震#尼泊尔地震（id：593783416333717504）0表2：每种方法找到的相关推文对的数量0序号方法发现的相关对数（共100个）0对数也在GS中的百分比01 Lucene默认模型 49 10 20.41％02 Word2vec在Google新闻数据上 41 7 17.07％03 GloVe在Twitter数据上 39 3 7.69％04 GloVe在维基百科数据上 44 4 9.09％05 Unigram LM 29 6 20.69％06 Bigram LM 16 1 6.25％07 Lucene，使用WordNet进行QE 36 5 13.89％08 Lucene，使用相关反馈进行QE 73 13 17.81％0表3：由i个系统发现的相关推文对的数量，1≤i≤80方法数量找到的相关推文对数量0一次组合的平均最小最大数量0"食物"，表明可能有大约100个或更多的可用性推文与提到需要食物的需求推文相匹配。此外，即使是最好的提交的P@5值也接近0.2，这意味着平均每个需求推文只能检索到1个匹配的可用性推文。通过只有10个提交，我们只能期望从这种汇集方法中获得10个匹配的可用性推文，这远远不足以满足潜在匹配的数量。因此，对于每个运行中需求推文的匹配可用性推文数量的允许应该更加宽松，可能高达100条推文。0这样的黄金标准无法可靠地评估新系统的性能，因为新系统可能使用与组成池的参与系统不同的模型，正如我们的方法的结果所示，我们的方法中只有约15％（327个中的49个）的正确需求-可用性推文对出现在黄金标准中。即使参与的系统数量较少，使池更加稳健的一种方法是组织者自己实施大约10-15种不同的方法，并将其结果添加到池中。另一种选择是采用连续评估[9]，而不是使用静态的相关性判断集合。这样，一个能够输出许多不在黄金标准中的相关推文对的新系统将不会被不公平地排名低。0Track：利用社交媒体进行紧急救援和准备工作 WWW 2018年4月23日至27日，法国里昂25507510012515017520022516420图1：考虑不同数量的系统时发现的相关推文对数的变化01 2 3 4 5 6 7 8 一次考虑的运行数量0发现的相关推文对数0考虑一次运行的相关推文对的平均值，最小值和最大值06 结论和未来工作0FIRE2017年的IRMiDis赛道涉及开发和比较许多IR方法，用于在灾难情况下识别和匹配需求和可用性推文。然而，根据我们的实验，我们发现该任务中获得的黄金标准数据存在严重不完整的问题。我们讨论了一些原因，以及在将来为类似任务制定更健壮的黄金标准的一些方法。未来的工作方向包括探索不同的汇集方法（如[3]）的可行性，以便为该领域未来的任务制定更健壮的黄金标准。0参考文献0[1] Ghosh, S. 和 Ghosh, K. (2016). fire 2016微博赛道概述:从灾难期间发布的微博中提取信息. 在FIRE(工作笔记)中,0第56-61页。[2] Lin, J., Efron, M., Wang, Y., 和 Sherman, G. (2014).trec-2014微博赛道概述. 技术报告, MARYLAND UNIV COLLEGE PARK. [3] Losada, D. E.,Parapar, J., 和 Barreiro, A. (2017). 基于池化评估的信息检索系统中的多臂赌博机.信息处理与管理, 53(5):1005-1025. [4] Mikolov, T., Chen, K., Corrado, G., 和 Dean, J.(2013). 向量空间中词表示的高效估计. arXiv预印本 arXiv:1301.3781. [5] Miller, G. A.(1995). Wordnet: 英语的词汇数据库. 通信ACM, 38(11):39-41. [6] Pennington, J.,Socher, R., 和 Manning, C. D. (2014). Glove: 用于词表示的全局向量.在自然语言处理中的经验方法(EMNLP)中, 页1532-1543. [7] Soboroff, I., Ounis, I.,Macdonald, C., 和 Lin, J. J. (2012). trec-2012微博赛道概述. 在TREC中, 卷2012, 页20. [8]Soni, R. 和 Pal, S. (2017). 灾难救援中的微博检索: 如何创建地面真相? 在SMERP@ECIR中,页42-51. [9] Tonon, A., Demartini, G., 和 Cudré-Mauroux, P. (2015).基于池化的信息检索系统的连续评估. 信息检索杂志, 18(5):445-472.0赛道: 利用社交媒体进行紧急救援和准备 WWW 2018, 2018年4月23日-27日, 法国里昂

下载后可阅读完整内容，剩余1页未读，立即下载