没有合适的资源?快使用搜索试试~ 我知道了~
8730VizByWiki:从网络中挖掘数据可视化以丰富新闻文章 Allen Yilun Lin 1,Joshua Ford 2,Eytan Adar3和Brent Hecht 1 1西北大学;2苹果公司(在明尼苏达大学完成的工作);3密歇根大学0allen.lin@eecs.northwestern.edu,ford0420@umn.edu,eadar@umich.edu,bhecht@northwestern.edu0与仅使用文本或可视化相比,记忆力更好[5,8,15](符合认知科学中已建立的双重编码理论[31])。虽然新闻数据可视化非常有益且需求量很大,但创建它们需要时间、金钱和专业知识。这意味着地方新闻机构通常无法负担得起制作数据可视化,即使是大型国家新闻机构也只能为少数文章创建数据可视化。信息可视化和数据驱动新闻学[2]的研究人员开发了许多工具来帮助自动化这个过程。然而,正如我们下面所讨论的,这些系统要么仍然需要大量人工干预(例如[23, 30, 31,41]),要么只适用于非常特定的主题领域(例如财务报告[11])或可视化类型(例如地图[8])。在本文中,我们提出了一种替代且可行的方法,即在没有人工干预的情况下自动添加与上下文相关的数据可视化到新闻文章中。此外,与现有技术不同,我们的方法在主题领域或可视化类型方面几乎没有限制。我们的方法基于一个新颖的洞察力:通常无需从头开始创建可视化,因为维基共享资源中已经存在大量的数据可视化。维基共享资源或“共享资源”[40]是维基百科编辑使用的媒体存储库,拥有超过4100万张图片,其中相当一部分是为支持维基百科文章而创建的数据可视化。此外,共享资源中的可视化具有可重新分发的许可证,使其成为新闻出版商特别吸引人的资源。据我们所知,本文是第一个认识到并利用共享资源中丰富的数据可视化语料库的论文。正如我们下面所讨论的,我们希望我们的研究能够支持对这个重要资源的价值进行进一步的探究,无论是在新闻可视化的背景中还是其他领域。更正式和一般地说,本文定义了一个新的问题,我们称之为新闻数据可视化检索问题。给定一篇任意的新闻文章,新闻数据可视化检索问题的目标是从给定的存储库(在我们的案例中是共享资源)自动检索相关的、已存在的数据可视化来支持文章。本文根据创作共享署名4.0国际(CC-BY 4.0)许可证发布。作者保留在其个人和公司网站上传播作品的权利,并附上适当的归属。0Track: Web and Society WWW 2018, 2018年4月23日至27日,法国里昂 8740我们通过一个名为VizByWiki的新的端到端系统展示了新闻数据可视化检索问题是可行的。例如,考虑图1,它显示了一篇关于油价下跌的文章,其中包括记者创建的折线图(图1a)。对于这篇文章,VizByWiki在Commons中挖掘并检索了一条折线图和一张地图,并根据它们对这篇文章的有用性进行了排序(图1b)。与原始文章中的数据可视化相比,折线图呈现了相同的变量(布伦特原油价格随时间变化,尽管时间范围更长)。此外,研究参与者认为这个主题地图对文章有用,但新闻出版商没有包含它。为了正式评估VizByWiki并了解预测有用数据可视化的因素,我们设计了一个众包任务,收集了对VizByWiki检索到的可视化的有用性评分(导致图1中地图的有用性分数)。我们展示了VizByWiki可以为大约50%的热门在线新闻文章提供至少一个有些有用的数据可视化。此外,使用这个基准数据集,我们对决定新闻文章有用数据可视化的因素有了初步的了解,并训练了VizByWiki根据这个理解对可视化进行排序。正如下面所示,VizByWiki的排序准确性很高,nDCG@5为0.82。总的来说,本文既提出了一个新的问题(新闻数据可视化检索问题),又证明了这个问题可以通过一个端到端的系统(VizByWiki)来解决。我们还提出了两个其他的贡献,其影响可能超出新闻可视化领域。首先,本文有助于展示维基共享资源的巨大潜力,这是一个与其姐妹项目维基百科不同,但在计算研究社区中仍然很少被利用的资源。其次,VizByWiki的一个关键组成部分是自动区分可视化和非可视化,这是一个新的挑战,可能与其他领域(例如图像分类)相关。在本文中,我们展示了通过简单使用预训练的卷积神经网络(CNN)可以解决这个挑战,F1分数为0.91。本文的结构遵循系统研究流派的最佳实践(例如,[8, 11, 14,32]),首先概述了系统的组成部分,然后概述了每个组成部分面临的新挑战,并描述了如何解决这些挑战。然而,在此之前,我们将在下面重点介绍相关工作。01链接到系统演示和源代码存储库:http://www.psagroup.org/projects/vizbywiki。0本节中,我们回顾了直接推动这项工作的三个研究领域:1)自动文本插图,2)其他生成新闻数据可视化的系统,以及3)数据可视化分类方法。02 相关工作0文献中提供了这项工作的关键动机的一个领域是文本插图。文本插图是一个受限的图像检索问题,重点是检索插图02.1 自动化文本插图0Web and Society WWW2018,2018年4月23日至27日,法国里昂0图1:(a)BBC一篇关于生产者未能就产量冻结达成一致的油价下跌的文章和(b)VizByWiki检索到的数据可视化。在(b)中,检索到的数据可视化按照读者的感知有用性降序排列。0Web and Society WWW 2018,2018年4月23日至27日,法国里昂 8750长文本的图像。其中一些工作专注于使用多媒体文件为新闻文章提供插图。例如,Li和Hai[17]使用来自Flickr的图像为新闻文章提供插图。NewsMap[19]通过融合来自新闻文章生成的多个短查询的图像搜索结果。类似地,Delgado和Joao的系统[5]通过找到图像序列构建新闻文章的视觉故事。BreakingNews[28]利用CNN来学习匹配原始图像和新闻文章的文本。一些文本插图系统也使用维基百科上的图像,但专注于这些图像的小规模自我策划样本(例如,[37])。唯一考虑所有维基百科图像的工作是由Agrawal等人[1]完成的,他们设计了一个用于丰富发展中国家教科书的图书插图系统。他们的方法基本上根据文本的关键词和图像的描述之间的标记重叠计算得分来对维基百科图像进行排序。由于它与我们的问题相似(使用维基百科图像进行长文本),我们实现了他们的算法,并将其用作评估部分的比较基准,结果显示我们在这个方法上取得了很大的优势。然而,新闻数据可视化检索问题与文本插图问题也有根本的不同。例如,考虑一篇关于北京空气污染的新闻文章。在文本插图问题中,理想的解决方案将是一张描绘北京雾霾的照片。然而,在新闻数据可视化场景中,一个合适的图像将是一张显示每个月PM2.5读数超过安全水平的天数的条形图。更一般地说,新闻可视化检索问题的目标是添加新的信息来为故事提供背景,而不是找到一张完全描绘文本内容的照片。同样,视觉特征在数据可视化问题中起着非常不同的作用;相同类型的数据可视化可能具有非常相似的视觉特征,但涵盖的主题和数据可能有很大的不同。我们的方法选择反映了我们对这些重要差异的考虑,这也是我们的方法在文本插图方面优于基线方法的原因之一。02.2 为新闻生成数据可视化0信息可视化和数据驱动新闻领域的几个研究项目试图自动化地生成新闻数据可视化。然而,这些系统要么(1)仍然需要大量的人工工作,要么(2)只关注新闻文章中的一个狭窄领域。前者的例子是MuckRaker系统[23],它提供了一个用户界面,帮助找到并可视化与给定新闻文章相关的数据库中的结构化数据。自动创建特定类别新闻可视化的研究系统包括Contextifier[11],它为金融新闻文章生成带注释的股票可视化。然而,该系统仅限于金融新闻,并且只生成折线图。NewsViews[8]是专门用于通过识别地名和主题、查找相关表格数据集并创建主题地图来自动生成新闻文章的地理可视化的管道。与Contextifier类似,0NewsViews仅关注特定类型的数据可视化(主题地图)和特定类型的文章(具有强烈地理元素的文章)。NewsViews还受到从系统生成地图的小型手动策划的结构化数据集的限制。相比之下,VizByWiki不需要人工干预,并且在数据可视化类型、新闻文章类型和策划数据集的多样性方面没有限制。02.3 数据可视化分类0如下所述,VizByWiki中一个必要的步骤是区分数据可视化(例如条形图和饼图)和其他图像(例如照片、工程图)。这个问题与识别不同可视化标记类型的问题相关,例如将条形图与饼图分开。这是几篇论文中试图恢复统计图表背后数据的任务。例如,ReVision[32]使用OCR的文本特征和捕捉图像中突出模式的低级视觉特征组合来分类可视化类型。最近,深度学习在这个问题领域中得到了应用。例如,ChartSense[14]包括一个使用GoogLeNet架构从头开始训练的标记类型分类器。类似地,Heer等人[27]通过微调预训练的CNN构建了一个可视化类型分类器,并使用相同的微调技术,FigureSeer[35]成功训练了一个分类器来区分研究论文中不同类型的结果图。虽然VizByWiki面临的问题与上述研究不同(即确定图像是否是数据可视化而不是区分不同类型的可视化),但先前的工作使用预训练的CNN取得了成功,为我们的方法提供了关键的方法指导。03 系统概述0在本节中,我们首先概述VizByWiki的高级用户体验。然后,我们描述VizByWiki的幕后系统架构。最后,我们讨论用于构建VizByWiki的不同类型的数据集。03.1 用户体验0VizByWiki的主要受众是数百万在线阅读新闻的人们。针对这个受众,我们构建了一个工作的浏览器插件(在第2页的URL上演示为Web应用程序),该插件处理新闻文章中的非结构化文本,并在新闻文章旁边以有用性排序的方式呈现给用户数据可视化(如图1b所示)。VizByWiki的潜在次要受众是数据驱动新闻界的人员[26]。对于这个受众,VizByWiki可以用作探索性工具,以便设计定制的数据可视化(以及在新闻发现过程中可能使用)。0Track: Web and Society WWW 2018, 2018年4月23日至27日,法国里昂 87603.2 系统架构0在本节中,我们提供了VizByWiki系统架构的高级概述。如图2所示,VizByWiki由三个阶段的流水线组成:1)主题过滤,2)数据可视化识别和3)数据可视化排序。在第一阶段,VizByWiki使用与新闻文章相关的维基百科文章,并将维基共享资源图像作为代理来过滤掉与主题无关的图像。为了找到相关的维基百科文章,VizByWiki首先应用实体链接技术来识别新闻文章文本中提到的维基百科概念/文章。然后,使用语义相关性(SR)度量找到与之最相关的维基百科文章,扩展得到的维基百科文章集。然后提取扩展的维基百科文章中的所有图像,并将其传递到第二阶段。在第二阶段,从提取的图像中过滤出数据可视化和非数据可视化。VizByWiki采用两步过滤方法,包括直观的启发式方法和基于CNN的迁移学习技术。第二阶段的输出是一组与主题相关的顶级数据可视化,然后由第三阶段的数据可视化排序器进行处理。排序器使用我们收集的新的基准数据集进行训练。该数据集包含了描述哪些数据可视化对哪些新闻文章有用的人工判断。03.3 数据集03.3.1 维基共享资源和英文维基百科VizByWiki通过维基共享资源增加了新闻文章的数据可视化。维基共享资源是所有维基百科语言版本的中央媒体文件存储库,也是世界上最大的自由许可教育内容存储库[40]。我们选择维基共享资源而不是其他流行的媒体存储库(如Flickr),是因为它包含大量的数据可视化,因为它的重点是百科全书。使用作为VizByWiki的一部分开发的高度准确的数据可视化分类器(见下文),我们估计维基共享资源大约包含三百万个数据可视化。我们还被维基共享资源的许可制度所吸引,因为这可以减轻VizByWiki的任何商业使用的实际法律障碍。正如下文所讨论的,维基共享资源被证明是一个强大的数据可视化存储库,我们相信可以在这个项目之外的环境中利用。直接利用维基共享资源的一个障碍是其元数据质量较差。维基共享资源社区本身已经表示,图像仅通过随意的注释进行描述,这使得完全探索和使用这一非凡资源变得困难,甚至这种“随意的注释”并不存在于所有图像中[40]。此外,尽管维基共享资源在2017年开始了一个长期的元数据标准化项目,但这个过程还远未完成[40]。为了解决这个障碍,我们使用英文维基百科来增加我们对共享资源图像的了解。维基共享资源是大多数维基媒体项目(包括维基百科)的主要图像存储库[42]。因此,英文维基百科文章以及出现在这些文章中的共享资源图像周围的文本可以为共享资源图像提供自然的语义嵌入。我们注意到,这可能是一个有用的方法,可以在完整的维基共享资源中启动元数据标准化过程。然而,这种方法的一个副作用是它将我们的潜在数据可视化池限制在至少出现在一个英文维基百科文章中的数据可视化上。为了处理完整的英文维基百科,我们利用了WikiBrain[34],这是一个处理维基百科XML转储并提供对一系列基于维基百科的算法(包括我们使用的语义相关性算法)的软件框架。对于我们的研究,我们使用了2017年6月23日的英文维基百科转储。03.3.2新闻文章数据集为了在VizByWiki上进行真实的实验,我们从主要新闻媒体的流行在线新闻文章中抽样了两个数据集。第一个新闻文章数据集(我们称之为即席数据集)最初是在2016年4月(为了一个早期项目)收集的,其中包括了从各大新闻媒体的主页任意抽样的40篇流行在线新闻文章,包括CNN、福克斯新闻、BBC和纽约时报。其中一些新闻文章附带有专家设计的数据可视化。我们主要用这个数据集进行早期可行性测试。我们的核心数据集(称为统一数据集)是在2017年7月收集的,其中包括了从流行新闻媒体提供的不同主题的60篇文章。这些文章是通过福克斯新闻和CNN的RSS订阅源进行抽样的,这两个订阅源都按照“世界”、“美国”、“商业”、“政治”、“技术”、“健康”、“娱乐”和“旅行”等主题进行组织。我们从每个类别中随机抽样了相同数量的文章。与之前的数据集不同,这些流行的在线文章是在不考虑它们是否已经包含可视化的情况下选择的。这个数据集的目的是以生态有效的方式评估系统的通用效用,即它在任意新闻内容中能够如何检索数据可视化。在某些评估中,我们还将这两个数据集合并成一个包含100篇文章的数据集。我们称这个数据集为合并数据集。0研讨会:Web和社会WWW 2018年4月23日至27日,法国里昂 The entities that are output from the SR filter are used as “seed queries” for retrieving Wikimedia Commons images. How-ever, query expansion is also necessary due to Wikipedia’s or-ganization and its relationship to the articles on which data vis-ualizations about specific topics appear. For instance, content 8770VizByWiki流水线的第一阶段是为输入的新闻文章识别与主题相关的维基共享资源图片。在这里,我们使用包含维基共享资源图片的维基百科文章作为图片主题的代理。VizByWiki采用了一个两步过程,利用维基化[4, 24]和查询扩展技术来识别适当的维基百科文章。04 阶段1:主题过滤0维基化涉及将非结构化文本中的命名实体消歧义为维基百科文章[24]。例如,系统可以识别出最近新闻文章中的“旅行禁令”指的是“行政命令13769”(并链接到相关的维基百科页面),而不是两个单独的词(“旅行”和“禁令”)。我们使用了Noraset等人开发的一种技术[25],该技术使用混合基于规则的命名实体识别来发现术语,并使用学习模型来消歧义它们对应的维基百科实体。维基化过程的输出包含许多与文章主题无关的实体(例如,在新闻文章中提到的国家,但未包含在被禁国家列表中)。为了过滤掉这些实体,我们计算了这些“维基化”实体与新闻文章内容之间的语义相关性(SR),并只保留与文章内容高度相关的实体。具体而言,我们利用了WikiBrain对显式语义分析语义相关性算法(ESA)的实现[7],该算法将单词映射到基于维基百科概念的嵌入,并将语义相关性计算为嵌入的余弦相似度。我们只保留具有ESASR大于0.8(满分为1)的维基化实体。在WikiBrain中,SR分数为0.8实际上意味着该分数处于所有SR分数的80th百分位数[39]。04.1 维基化0从SR过滤器输出的实体被用作检索维基共享资源图片的“种子查询”。然而,由于维基百科的组织方式及其与包含特定主题数据可视化的文章的关系,查询扩展也是必要的。例如,内容04.2 查询扩展0关于一个概念的信息通常不仅包含在关于该概念的“主文章”中(例如,“美国”文章),还包含在“子文章”中(例如,“美国历史”,“美国地理”,“美国文学”等文章)[21]。这个问题对我们的问题有重要的影响。再考虑一下一篇新闻文章,它涵盖了特朗普政府对美国旅行政策的改变。文章中的“移民政策”一词可能被正确地消歧义为维基百科文章“移民政策”。然而,这个链接将错过维基百科文章“唐纳德∙特朗普的移民政策”,这是“移民政策”的子文章,其中包含与美国劳动力中外出生工人相关的有用的统计图表。为了解决这个问题,VizByWiki通过ESA将查询扩展到与维基化实体高度语义相关的文章。与上述标准类似,为了确保这些扩展实体高度相关,我们只包括那些与新闻文章的SR>0.8的实体。最后,第一阶段的输出包括从上述两个步骤中识别出的维基共享资源图像。04.3 评估0我们使用合并的数据集验证了我们的主题过滤方法的可行性。表1报告了我们的方法平均每篇新闻文章可以“维基化”6.3个维基百科实体(经过SR过滤后)。表1还显示,语义相关性的查询扩展成功地将这个数字增加到了10.3。从这些维基百科文章中,第一阶段平均提取了每篇新闻文章的69.6个唯一图像候选(合并数据集总共6473个唯一图像)。表1的结果表明,我们的主题过滤方法是一个可行的方法,可以为系统的后续阶段检索到许多图像候选(尽管它不能保证这是最好的方法,我们将在讨论中回到这个话题)。05 第二阶段:识别0第二阶段的目标是从第一阶段的各种各样的图像中识别出可视化的“针”05.1 问题定义0之前的文献[11]已经确定了常见的新闻数据可视化类型,包括地图、折线图、柱状图、气泡图、散点图、树状图和饼图。较少见的形式,如面积图和维恩图也被广泛视为数据可视化[27,32]。在VizByWiki中,我们0表1 第一阶段的性能:主题过滤0平均维基数量0每篇新闻文章的文章数量0平均图片数量0每篇新闻文章提取的数量0维基化 6.3 56.00查询扩展后 10.3 69.60会议:Web和社会WWW 2018,2018年4月23日至27日,法国里昂 8780假设数据可视化的定义包括上述所有类型。如上所述,信息可视化研究人员已经研究了区分不同类型的数据可视化的问题。然而,我们在这里面临的问题-将数据可视化与非数据可视化分开-存在两个主要挑战,使其与以前的工作有所不同。首先,与我们的问题不同,可视化类型分类的研究通常从只包含数据可视化的语料库开始[14, 27, 32,35]。相比之下,维基共享资源包含更多类型的图像,包括许多与数据可视化具有视觉相似性的非数据可视化图像(例如,工程图、纸质地图的照片、标志)。其次,由于维基共享资源的众包性质,即使是相同类型的可视化也可能在视觉上存在异质性,这增加了分类的难度。类型分类问题中使用的数据集不包含这种程度的异质性;它们通常由研究人员手动策划[32],以相同的方式从同一工具中设计[27],或者由专业人员按照特定标准精心生成[35]。为了解决这两个挑战,VizByWiki包含一个两步的数据可视化识别器,利用文本和视觉特征。我们将每个步骤详细解释如下。05.1 关键词过滤0在我们的数据可视化识别过程的第一步中,一个简单的关键词过滤器使用基于规则的启发式方法消除明显的非数据可视化。过滤器使用来自维基百科和维基共享资源的文本元数据。考虑的元数据包括来自维基百科的图像标题,来自维基共享资源的文件描述和类别标签,以及机器生成的EXIF元数据。为了开发我们的启发式方法,一个研究人员通过一系列示例图像,确定了指示明显的非可视化的关键词。这些关键词包括“照片”,“图片”,“图像”,“特色”,“照片”,“肖像”,“路标”和“纹章”。我们还排除了包含相机EXIF信息(例如相机制造/型号)的图像,这些信息明确表示来自数码相机而不是数据可视化。在合并的数据集上,关键词过滤器将5718个图像识别为明显的非数据可视化,而来自第一阶段输出的6473个图像中剩下755个候选图像可能是数据可视化。05.2 图像分类器0在我们的数据可视化识别过程的第二步中,我们使用视觉特征训练了一个图像分类器。虽然关键词过滤器有效地筛选出许多明显的非数据可视化,但关键词过滤器的输出仍然包含许多不是数据可视化的图像。这主要是由于三个问题导致的:(1)稀疏性:维基共享资源上的许多图像具有有限的元数据,(2)错误:可用的元数据可能不准确,(3)覆盖范围:开发一个完整的过滤关键词集是不可行的。0为了提高准确性,我们使用了一个预训练的卷积神经网络(CNN)来设计一个图像分类器,用于区分数据可视化和其他图像。CNN在数据可视化分类任务中已被证明是有效的(例如[14, 27,35]),但是它们也需要大量的真实图像进行训练。解决这个问题的一种方法是利用预训练的CNN的迁移学习的能力,我们在VizByWiki中采用了这种方法。具体而言,我们使用了一个预训练的CNN作为特征提取器:我们利用了倒数第二层CNN的输出作为每个图像的向量表示,并将这些表示输入到传统的分类器中。这种方法已成功应用于各种图像识别任务[29]。在我们的实现中,我们使用了在ImageNet上预训练的InceptionV3 CNN[36]和支持向量机(SVM)分类器。由于预训练CNN的倒数第二层的特征是稀疏和高维的(1024维),在我们相对较小的真实数据集上进行训练之前需要进行特征工程(详见下文)。我们应用了主成分分析,并使用前20个主成分作为特征(约占51%的变异)。这20个特征被归一化以帮助训练过程。为了获得准确代表该问题的基础数据分布的真实数据集,我们标记了从关键词过滤步骤输出的所有755个图像。由于在具体定义的新闻数据可视化开始列举的条件下,手动区分数据可视化和其他图像是一个相对明确的任务,因此一个研究人员手动将我们的图像分为数据可视化类(455个图像)和非数据可视化类(300个图像)。然后将该数据集分为开发集(50%),用于训练和调整SVM的超参数,以及评估集(50%),用于评估分类器的性能。我们使用网格搜索来调整各种超参数。我们发现,最佳性能的SVM分类器采用径向基函数(RBF)核,其中γ = 0.01和C =100。表2显示了该分类器在我们的测试数据集上的结果。我们能够实现平均F1得分为0.91,并且非数据可视化类(0.89)和数据可视化类(0.91)的F1得分几乎相同。这些结果有两个重要意义。首先,它们代表了我们的VizByWiki原型的超过足够的整体准确性,使我们能够继续进行第三阶段的排名任务。其次,它们表明用于检测自然场景图像中的对象的视觉特征(这是ImageNet的主要任务之一)对于识别数据可视化(主要是计算机生成的)是有用的。0表2. 图像分类器的性能0类别 准确率 召回率 F1得分0non-dataviz 0.89 0.88 0.890dataviz 0.93 0.91 0.910平均 0.91 0.91 0.910Track: Web and Society WWW 2018, 2018年4月23日至27日,法国里昂 8790生成的可视化具有非常不同的视觉特征),这个发现值得进一步探索。06 阶段3:排序0在第1阶段,VizByWiki从维基共享资源中提取与输入新闻文章相关的图像,在第2阶段,VizByWiki过滤掉非数据可视化的图像。第3阶段的目标是根据对读者的有用性对从第2阶段输出的数据可视化进行排序(如图1b所示)。在本节中,我们首先讨论了如何将第3阶段问题形式化为“学习排序”问题。然后,我们记录了如何通过众包收集新颖的可视化有用性地面真实数据集。最后,我们使用这个数据集进行了两个重要的评估:一个是对整个系统的一般可行性的评估,另一个是对排序器性能的具体评估。06.1 问题表述0我们将第3阶段形式化为一个学习排序问题,类似于搜索引擎中典型的问题:给定一篇新闻文章,我们的目标是根据对新闻文章的有用性对一组数据可视化进行排序。由于这个问题的新颖性,我们不得不构建自己的地面真实数据集。为了构建这个数据集,我们使用了第2阶段输出的数据可视化,并将它们与相应的新闻文章配对。我们手动纠正了所有分类错误,以确保一个仅包含数据可视化的数据集,使我们能够纯粹地专注于排序任务。该数据集包含572个{新闻文章,候选数据可视化}对(注意一个数据可视化可以与多篇文章配对)。对于每个配对,我们生成了文本和视觉特征。具体来说,文本特征如下:0�content-caption:新闻文章内容与维基百科文章编辑撰写的可视化标题之间的语义相关性得分(通过显式语义分析计算)。注意,尽管图像的元数据稀缺且可能不准确,但几乎所有图像在被包含在维基百科中时都有标题。 �content-WPtitle:新闻文章内容与包含候选图像的维基百科文章标题之间的语义相关性得分。 �title-caption:新闻文章标题与可视化标题之间的语义相关性得分。视觉特征要简单得多:0�CNNembed:这些特征与第2阶段训练图像分类器使用的特征相同。它们是从预训练的CNN中提取的1024维特征的前20个主成分。0对于我们的排序算法,我们使用了流行的RankSVM[13],它采用了一种成对方法,通过训练来最小化逆序的数量。我们使用Python的scikit-learn包将RankSVM实现为线性核SVM。06.2 收集地面真实评分0对于每个{新闻文章,候选数据可视化}对,我们使用众包方法收集了地面真实有用性评分。这个数据集使我们能够评估新闻数据可视化检索问题的可行性(第6.3节)并学习为每篇新闻文章对数据可视化进行排序(第6.4节)。2.2.1任务界面。我们使用的众包平台是亚马逊的MechanicalTurk(MTurk)。图3显示了任务的界面(为了清晰起见进行了重新缩放)。在接受我们的任务后,众包工作者(“Turker”)会看到一个任务教程和一个示例。然后,Turker会被随机分配到100篇新闻文章中的一篇。阅读完文章后,Turker会看到由Viz-ByWiki为文章提取的所有候选数据可视化(第2阶段的输出),并被要求根据数据可视化的有用程度在0-3的范围内对每个可视化进行评分。每个数据可视化都附有其原始的维基百科文章标题,并且可以点击放大以便Turker查看其详细信息。有用性评估采用四级评分:0 =“不有用”;1=“有些有用”;2 =“有用”;3=“非常有用”。有用的可视化被定义为“有助于解释或提供上下文”的可视化。我们考虑从可视化领域评估检索到的可视化的各种低级特征,例如表达力[22]和趣味性[8],而不是有用性。然而,我们确定在探索新闻数据可视化问题的这个阶段,上述定义的有用性更直接地捕捉到了整体用户体验。2.2.1提高众包数据质量。众包数据往往存在质量问题,例如垃圾数据、错误和偏见[12]。例如,除非采取预防措施,否则一些众包工作者会填写随机答案而不阅读问题,以便在短时间内赚取尽可能多的钱。因此,我们在任务中实施了以下策略来改善数据质量。0图3.用于收集有用性评分的MTurk任务用户界面。由于长度原因,新闻文章被削弱。0Track: Web and Society WWW 2018, 2018年4月23日至27日,法国里昂 8800提高众包质量的方法:01)遵循Chang等人的方法[3],我们确保在最终数据集中,没有一个工作者完成了超过5%的所有任务。这种简单的技术有效地消除了大规模的垃圾信息。2)为了最小化个人偏见和无意识错误的影响,我们依赖于冗余[12]。对于每对{新闻文章,候选数据可视化},我们收集了4个评分,并使用中位数评分作为最终评分。3)我们根据Kittur等人的建议[16]添加了验证问题。在工作者阅读新闻文章并开始评价数据可视化之前,要求工作者回答一道关于文章中一个明显事实的多项选择题。0总共,对于572对{新闻文章,候选数据可视化},我们收集了2288个评分(4*572)。为了进一步推动新闻数据可视化检索问题的发展,我们发布了我们的基准数据(请参见上面的系统URL)。06.3评估1:新闻数据可视化检索问题的一般可行性0有了基准数据,即使在训练排序器之前,一个重要的问题是关于更广泛的新闻数据可视化检索问题的可行性。换句话说,维基共享资源是否能为大量热门新闻文章提供有用的可视化呢?为了回答这个问题,我们使用了两个指标:1)对于给定的新闻文章,VizByWiki能够检索到多少个“好”的数据可视化;2)至少可以通过一个“好”的数据可视化来增强多少篇新闻文章。我们对“好”的数据可视化使用了两个定义:1)Turkers的中位数排名大于等于1(即有一定用处);2)Turkers的中位数排名大于等于2(即有用)。表3报告了VizByWiki的可行性评估。最重要的是,对于我们的核心新闻数据集uniform,VizByWiki可以为48.3%的文章检索到至少一个有一定用处的数据可视化,并且可以为21.7%的文章检索到至少一个有用的数据可视化。回顾一下,我们的uniform数据集包含了从不同主题中随机均匀抽样的热门在线新闻文章。因此,我们的结果表明,我们的新闻可视化检索方法以及特别使用VizByWiki系统,可以使至少五分之一到一半的热门在线新闻文章通过至少一个数据可视化得到增强。我们注意到,我们对adhoc数据集观察到了大致相同的结果。为了了解VizByWiki没有检索到至少一个有一定用处的数据可视化的文章,一个研究人员仔细阅读了20多篇这样的文章。我们发现,1)大多数这些文章在文本中没有明确引用任何结构化数据;2)其中一些文章涵盖了非常近期的突发新闻,其中数据可能需要快速收集或更新(例如地震、选举)。我们将在下面讨论这两点。通过观察为每篇文章检索到的数据可视化数量,VizByWiki能够检索到一个平均值0对于我们的核心数据集,即使包括所有无法检索到可视化的文章的零值,4.6岁时的可视化有一定的用处,3.5岁时的可视化有用。类似的趋势也可以在临时数据集中观察到。然而,实际上好的数据可视化数量在不同文章之间存在显著差异。因此,可以合理地得出结论,虽然我们的方法可能适用于大规模的可视化增强,但对于某些文章而言,我们的方法的性能比其他文章更好。这些结果还表明,对于VizByWiki能够生成有用可视化的文章,排名是重要的,因为每篇文章通常都有一定数量的可视化。我们将在下一小节中解决这个排名问题。06.4 评估2: 排名器的性能0在我们的排名实验中,我们使用了合并的数据集。我们将数据集的50%用作开发集(训练和超参数调整),并保留了50%进行评估。我们使用传统的搜索引擎评估方法来评估我们的数据可视化排序器,其中涉及到nDCG@k指标。为了将我们的排序器的性能放入背景中,我们还实现了Agrawal等人的一种排名算法[1],该算法涉及将维基百科的图像按照其与教科书中特定部分的相关性进行排序。这种方法基本上依赖于文本的关键词与图像描述之间的标记重叠。Agrawal等人的方法为我们理解我们的排序器的性能提供了一个有用的基准。表4显示了我们的排序器在不同特征集上训练的性能,并与Agrawal等人的基准方法进行了比较。我们计算了nDCG@k(其中k = 3,5和7)对每篇新闻文章进行评估,并在表4中显示了nDCG@k的均值和标准差。第2行的结果显示,我们仅使用文本特征训练的排序器的性能优于先前工作的基准。为了进一步了解背景,我们还看到这个版本的排序器的性能(例如,nDCG@5 =0.82)与在Web搜索领域的过去研究相当,这些研究也涉及到定义新问题(例如[6,38])。第3行的结果也非常有信息量。它们表明添加视觉特征会降低排序质量。我们的假设是,与许多其他图像检索问题不同,我们的图像在视觉上可能相似,但在语义上却有很大不同。也就是说,相同类型的数据可视化(例如条形图)看起来差不多,但几乎总是涵盖完全不同的主题。我们进一步研究了我们的文本特征的不同排列方式。组合0表3. VizByWiki的可行性评估.0度量 统一 临时0有 � 1个有些有用的数据可视化的文章的百分比 48.3% 52.5%0有 � 1个有用的数据可视化的文章的百分比 21.7% 27.5%0每篇文章平均有4.6(5.3)个有些有用的数据可视化 4.2(3.9)0每篇文章平均有3.5(4.0)个有用的数据可视化 2.7(1.7)0注意: 相关的标准差用括号表示.0会议: Web and Society WWW 2018, 2018年4月23日至27日, 法国里昂 8810内容-WPtitle(新闻内容和维基百科文章之间的语义相关性)和内容-标题(新闻内容和图像标题之间的语义相关性)的组合效果最好。使用这两个特征训练的排序器达到了0.82的nDCG@5,与使用所有文本特征训练的排序器的性能相似。然而,标题-标题特征(标题和标题之间的SR)似乎不太有效。因此,出于性能和简洁性的原因,我们在最终的VizByWiki系统中使用了仅使用内容-WPtitle和内容-标题的模型。例如,使用这个模型,系统能够为图3中的文章推荐一个高排名的可视化(如图3中的分数所示)。06 讨论0上述评估结果表明,VizByWiki能够为大约一半的不同类型的热门在线新闻文章检索到有用的可视化,并能够以合理的质量对它们进行排序。然而,需要指出的是,该系统有几个显著的局限性。首先,VizByWiki受到维基共享资源中数据质量的限制。尽管是同类中最大的存储库,但维基共享资源也存在着所有点对点生产系统常见的元数据标准化问题[9]。幸运的是,随着最近宣布的旨在标准化维基共享资源数据的多年项目[40],元数据质量有望得到改善,使VizByWiki在未来更加有效。其次,VizByWiki有时会推荐使用较旧数据的可视化。相关的是,它有时也无法为最近发生的新闻检索到数据可视化。这里有两个潜在的原因。首先,VizByWiki使用的是维基共享资源图像的静态快照,这可能导致我们提供的可视化版本比维基共享资源中当前存在的版本要旧。通过使用实时的维基共享资源和维基百科数据进行更大规模的部署,可以解决这个问题。其次,可能是事件发生和维基百科编辑更新他们的可视化以包含新数据之间存在滞后。未来的工作应该研究可视化滞后时间。0可视化生成的研究已经针对文本进行了,发现滞后时间相对较小[15]。第三,我们观察到VizByWiki在某些文章上的效果比其他文章好。未来的工作应该探索回答以下问题:什么特征使得新闻文章适合进行数据可视化?维基共享资源和更广泛的网络上有不同类型和不同主题的数据可视化的可用性如何?最后,众包可视化可能不符合出版商的特定审美要求。然而,将VizByWiki与其他逆向工程数据可视化的流水线(例如[14, 27,35])相结合,支持完整的数据可视化查找、数据提取和图形重新设计过程,是一个有希望的机会。07 结论0为了解决自动生成新闻文章大量数据可视化的挑战,本文定义了新闻数据可视化检索问题,即从网络中挖掘数据可视化以增强新闻文章
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功