没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2277获取更多论文Chart-to-Text:一个大规模的图表摘要ShankarKantharaj,RixieTiKoLeong,XiangLin,AhmedMasry,MeghThakkar,EnamulHoque,ShafiqJoty加拿大约克大学、新加坡南洋理工大学SalesforceResearch Asia,新加坡{shankark,masry20,enamulh}@yorku.ca{rleong007,linx0057,srjoty}@ntu.edu.sgmegmail.com摘要图表通常用于探索数据和传达见解。从图表中生成自然语言摘要可以非常有助于人们推断关键观点,否则需要大量的认知和感知努力。我们介绍了Chart-to-text,这是一个大规模的基准测试,包含两个数据集和总共44,096个图表,涵盖了广泛的主题和图表类型。我们解释了数据集的构建过程并分析了数据集。我们还介绍了一些最先进的神经模型作为基线,利用图像字幕和数据到文本生成技术来解决两个问题:一个假设图表的底层数据表是可用的,而另一个需要从图表图像中提取数据。我们对自动和人工评估的分析表明,虽然我们的最佳模型通常生成流畅的摘要并产生合理的BLEU分数,但它们也存在幻觉和事实错误,并且难以正确解释图表中的复杂模式和趋势。1介绍数据可视化,如条形图,折线图和饼图是非常流行的定量数据。人们通常使用这些图表从数据中获得重要的见解并做出明智的决策。然而,众所周知,从图表中推断关键见解可能是相当麻烦和耗时的,因为它可能需要大量的认知和感知努力(Pérez-Echeverríaet al. ,2018;Whitaker and Jacobbe,2017).自动图表摘要是一项任务,其目标是解释图表并以自然语言总结其中的关键内容。图表求和有几个关键的好处和潜力平等贡献。列表顺序是基于作者姓氏的字母表顺序。黄金:2019年,新加坡进口了价值约2368亿新元的机械和设备,成为该国其次是矿物燃料和润滑油的进口,价值1027亿新元。TAB-T5:机械和设备是2019年新加坡最有价值的商品,进口额为2368亿新元。矿物燃料和润滑油是新加坡第二大最有价值的商品,进口额为1027亿新元。图1:来自我们的基准测试的示例图表摘要对和来自最佳模型之一的输出(TAB-T5)。应用.首先,图表摘要可以帮助人们从图表中识别出他们可能错过的关键见解。 在一项关于 图 表 语 料 库 的 研 究 中 , Carberry et al.(2006)发现图表作者往往未能在相应的文本标题中传达图表的关键见解。因此,自动摘要可以帮助作者通过建议解释性文本来撰写关于数据事实的有效报告和文章同样,读者也可以从这些摘要中受益,因为研究发现,标题可以通过解释图表中视觉上突出的特征来帮助读者找到要点(Kimet al. ,2021年)。图表摘要提供了另一个重要的好处,使图表更容易为视力受损的人所用,因为他们可以使用屏幕阅读器来 理 解 图表中显示的 内 容 ( Ferres et al. ,2013)。最后,生成的摘要可用于索引包含图表的文档,以改进信息检索算法(Li et al. ,2013)。尽管它有许多好处和应用,但图表摘要问题在NLP社区中并没有得到太多的关注。早期的方法依赖于基于模板的文本生成方法,该方法结合了统计技术和基于规划的架构(Reiter,2007),以生成arXiv:2203.06486v1 [cs.CL] 2022年3月+v:mala2277获取更多论文从条形图和折线图中提取标题(Fasciano和Lapalme,1996; Mittal et al. ,1998; Green etal. ,2004; Demir et al. ,2012)。最近,研究人员考虑了用于描述表格数据的数据驱动神经模型(Mei et al. ,2016; Gong等人,2019)。然而,与表格相比,图表服务于不同的沟通目标,图表到文本的问题也是如此 与简单列出原始数据的表格不同,图表创建了数据的视觉表示,可以吸引读者注意各种突出的特征,如趋势和异常值(Kim et al. ,2021年)。例如,折线图可以描绘重要的趋势,而散点图可以直观地传达相关性和异常值。现有的表格到文本方法并不是为了在摘要中解释这种视觉上突出的图表特征而设计的。有两个主要的障碍来解决图表摘要任务。首先,缺乏大规模数据集使得使用数据驱动的神经模型难以解决任务。其次,没有强有力的基线来利用神经文本生成任务的最新进展。Obeid和Hoque(2020)首次尝试使用数据集和 利用Transformer 的 模 型 来解决这个问题(Vaswani et al. ,2017)架构。然而,他们的数据集是通过从单一来源收集一小部分图表(8,305)来构建的,仅涵盖两种类型的图表(条形图和折线图)。据我们所知,目前还没有一个大规模的基准测试,其主题来自多个来源,涵盖了许多不同的图表类型。在这项工作中,我们提出了一个大规模的图表到文本的基准测试,两个数据集由44,096个图表组成,涵盖了广泛的主题和各种图表类型。我们介绍两个变量的问题。第一种变体假设图表的底层数据表可用,而另一种变体通过假设图表是图像格式并且底层表不可用来引入更具挑战性和现实性的这两个问题场景促使我们采用各种最先进的模型,将计算机视觉和自然语言生成技术结合起来作为强基线;请参见图1的示例模型输出。我们的主要贡献是:(i)一个新的大规模基准,涵盖广泛的主题和图表类型;(ii)一套最先进的神经模型,可以作为其他研究人员扩展和改进的起点;以及(iii)一系列自动和人工评估,以及深入的定性分析,以确定进一步的挑战。我 们 的 代 码 和 基 准 数 据 集 可 在https://github.com/vis-nlp/Chart-to-text上公开获取。2相关工作早期工作(Mittal etal. ,1998; Ferres et al. ,2013)遵循基于规划的架构(Reiter,2007)并使用模板来生成文本。这些系统只描述如何阅读图表,而不是解释图表传达的关键见解最近,商业系统如Quill和Wordsmith 1以及研究原型,例如,(Cui etal. ,2019)和(Srinivasan et al. ,2018)计算的统计(例如,极值、离群值)来呈现来自数据集的事实。Demir等人(2012)还计算统计数据,以自下而上的方式生成条形图摘要最近,Chen等人(2019)使用ResNet(He etal. ,2016)来对图表图像进行编码,并使用LSTM解码器来创建标题。上述工作主体的一个关键限制是使用预定义模板生成句子,与数据驱动模型相比,预定义模板除了基于模板的摘要之外,Obeid和Hoque(2020)在8,305个图表的数据集上采用了基于transformer的模型,而Spreafico和Carenini(2020)在306个图表摘要的数据集上应用了基于LSTM的编码器-解码器模型这两项研究都使用了更小的数据集,并且没有考虑问题的计算机视觉方面。Hsu等人(2021)最近使用基于CNN+LSTM的图像字幕模型进行科学图形字幕。相比之下,我们专注于一般的图表到文本的问题,并训练几个神经模型,计算机视觉和数据文本生成。Data2text生成Data2text模型为记录表生成描述性摘要。它们已被用于各种特定领域的任务 ,如 总结 体育 数据 ( Barzilay和Lapata ,2005年; Wiseman et al. ,2017)、天气预报数据(Reiter et al. ,2005)、配方生成(Yang etal. , 2017 ) 和 生 物 生 成 ( Lebret et al. ,2016)以及开放域任务(Parikh et al. ,2020;Chen等人,2020a)。再-1叙事科学羽毛笔;自动化的见解+v:mala2277获取更多论文许多方法主要使用基于LSTM的编码器-解码器架构(Mei et al. ,2016; Le-bret et al. ,2016;Wiseman et al. , 2017 年 ) 。龚等 人(2019)发现变压器(Vaswani et al. ,2017年)与LSTM同行相比,产生了更流畅和连贯的输出。其他人则专注于使用规划方法控制摘要的结构(Su et al. ,2021)以及通过在给定表上执行逻辑推理来生成事实(Chen et al. ,2020a,b)。图像字幕在很大程度上由于大规模数据集的可用性而在图像字幕方面取得了迅速的进展(Agrawal et al. ,2019; Chen et al. ,2015)。Zhang等人 (2021)开发了一种对象检测模型来 总 结 图 像 中 的 对 象 , 而 Sidorov 等 人(2020)利用OCR从图像中提取的文本来生成字幕。与具有真实世界对象和场景的图像不同,图表具有标记(例如,条、线),其映射定量数据。 这使得图表到文本的问题不同于图像字幕。3图表转文本数据集在搜索了包括新闻网站、教科书和包含数据事实的网站在内的各种来源后,我们发现了两个合适的来源,它们具有足够大的数量和各种图表以及文本描述,如下所述。3.1数据收集• StatistaStatista(statista.com)是一个在线平台,定期发布包括经济学,市场和舆论研究在内的广泛主题的图表我们于2020年12月抓取了34,810个可公开访问的网页,共产生34,811个图表。对于每个图表,我们都截取了图表图像的屏幕截图,下载了数据表,标题,轴标签和关于图表的人类书面我们根据基础数据表中的列数将图表分为两组:简单图表的数据表只有两列,而复杂图表至少包含三列(例如,堆叠或分组条形图、具有多条线的折线图)。• PewThe Pew Research(pewresearch.org)发布有关社会问题、公众意见和人口趋势的数据驱动型文章这些文章往往伴随着多个图表,以及由专业人士撰写的高质量描述sional editors.我们于2021年1月搜集了3,999个可供公众查阅的页面,合共提供9,285个图表。与Statista不同的是,皮尤的报告没有提供大多数图表的基础数据表。在9,285个图表中,只有143个图表有基础数据表。对于每个图表,我们下载图表图像、周围的段落和与图像相关的替代文本(使用alt属性)(如果可用)。与标题一样,alt文本通常给出非常简短的图表描述。最后,由于基础数据表不可用,我们手动将图表分为简单和复杂3.2数据注释下面我们描述每个图表的数据标注过程的两个主要步骤:(i)识别相关摘要,以及(ii)提取数据。这些步骤的其他详细信息见附录A.1。• 我们选择文本的第一部分(从图表图标到下一个标题)作为图表摘要。 这是基于这样的观察,即第一部分提供了图表的简洁摘要,而其余部分通常包含背景信息(例如,公司的历史从Statista图表中提取数据相对简单,因为基础数据表可用。然而,大多数图表(34,811个中的32,660个)没有提供x轴标签。 为了给它们分配代表性的标签,我们首先对这样一个列的单元格值使用正则表达式,看看它是否代表共同的实体(例如,年份、地点)。但仍有7,170个标签缺失。然后,我们应用Wikidata知识库(Wik,2021)根据x轴上绘制的数据值自动导出实体类型标签。然而,有时产生的标签过于通用(例如,人、商业)。因此,我们通过接受实体类型标签(如果它准确地表示x轴)或输入更具体的名称来手动注释每个标签• PewPew的注释更有挑战性,因为网页通常包含许多图表,而段落并没有明确提到它们的相关图表。此外,大多数图表没有潜在的数据表.为了应对这些挑战,我们分三个阶段构建数据集(图1)。 2)。(i) 从图表图像中提取数据:我们首先使用CRAFT(Baeket al. ,2019a,b),最先进的OCR模型。我们+v:mala2277获取更多论文LL图2:Pew数据集构建过程的各个阶段。然后提取检测到的文本的边界框以提取几何特征(例如,文本的标准化宽度和高度),并使用它们来训练梯度提升分类器,该分类器将识别的文本分类为以下类别之一:标题、轴标签、图例和数据标签。由于图表类型的视觉风格和结构各不相同,我们为每种图表类型训练了一个单独的分类器我们手动标记了319个示例 ( 171 个 条 形 图 、 68 个 折 线 图 和 80 个 饼图),并将它们分别以8:1:1的比例拆分为训练、验证和测试。我们的模型在我们的测试集上实现了95.0%的整体精度和97.6%的标题分类然后,我们使用我们的模型来预测Pew数据集中剩余图表的文本角色。如果图表图像没有相关的alt文本,我们将提取的标题用作最终的图表如果alt文本可用,我们通过将其与提取的标题进行比较来获取较长的文本(ii) 候选段落的识别:我们观察到,相关段落往往出现在给定图表的附近,并与图表共享一些内容(例如, 轴标签、数据值)。我们首先使用这个接近度标准来形成候选段落c的列表。具体来说,对于每个图表,我们选择了与图表相邻的段落以及它之前和之后的五个段落作为候选段落(总共最多11个)。接下来,我们使用了一种基于语法的方法来自动选择相关段落LrLc. 我们估计了将Lc中的每个段落与其对应的图表关联为rel=content×proximity,其中content取匹配在段落和OCR提取的文本之间(数字标记被赋予比词汇标记更高的权重,因为它们是关系的更好指标皮尤统计局类型简单复杂简单复杂酒吧24,5915,6168075,497线2,6469023252,129区域0029105散射00068馅饼40903250表22342400总27,8696,9421,4867,799表1:图表类型分布。皮尤统计局统计简单复杂简单复杂#词汇。39,19118,6219,90518,067Avg. 字符295334571635Avg. 令牌5461110124Avg. 句话2.562.623.844.27表2:图表到文本数据集统计。在段落和图表之间匹配阈值和某个最小数量的词汇和数字标记,我们认为这样的段落与图表相关。我们根据经验设置了这个阈值,并将其选择得非常高,以优先考虑准确率而不是召回率。我们评估了我们的方法对一组随 机 抽 样 的 95 个 图 表 和 769 个 周 围 的paragraphs的有效性,发现召回率为21.1%,精度为100%。 考虑到完美的精确度得分,我们认为r中的段落是相关的,为了确认其余段落的相关性,我们进行了人体研究。(iii) 相关段落的选择:我们要求亚马逊机械土耳其人上的众包工作者对每个段落与其图表的相关性进行标注。共注释了5,478幅图表和13,237段文字。每个图表都有两个工人的两个注释。如果两个工人都将paragraph标记为完全无关或相关(部分/完全),我们使用他们同意的标签作为最终标签。2对于其余的2,888段,工人们不同意,我们通过内部注释解决了它们。3.3数据集分析我们的图表到文本数据集包含各种图表类型(表1)。条形图在Statista(87.9%)和Pew(67.9%)中占大多数,无论是简单条形图还是堆叠条形图和组条形图。其次是折线图(Statista为10.2%,Pew为26.4%)。为了分析主题分布,我们提取了evance),而接近度是基于距离的在图表和段落之间 如果rel超过2,人群工作者的总体一致率为78.2%。+v:mala2277获取更多论文()下一页()()内容层面Statista皮尤视觉编码32.03%0.98%统计和比较50.00%54.63%知觉和认知8.98%30.49%上下文和特定领域10.94% 12.93%表3:不同类型语义内容的分布。每个图表的主题使用其网页的Meta数据(例如,面包屑、元标签)。我们的数据集涵盖广泛的主题,包括政治、社会和健康(见附录A.3中的图9)。Statista的主题分布比Pew的主题更均匀,Pew的主题主要是美国政治政策(45.4%)。表2列出了数据集的基本语言统计数据。在平均字符、标记和句子数量方面,Pew的摘要大约是Statista的两倍令人惊讶的是,复杂的图表通常比简单的图表有更长的总结。我们使用来自每个数据集的100个随机抽样的图表-摘要对进一步分析了摘要表3显示了句子在四种主要语义内容类型中的分布。3我们注意到,统计和比较信息(例如,最小值、最大值、平均值)是两个数据集中最常见的内容类型。皮尤的总结往往报告更多的见解,需要更多的感知和认知努力(例如, 趋势和因果关系),与简单的统计数据相比,这可能更具挑战性。这两个数据集包含的句子比例相当,涵盖了上下文和特定领域的信息。与Statista不同,Pew摘要很少解释图表类型和编码(例如,x轴和y轴代表什么)。我们随机选择了70%、15%和15%的数据集来创建相应的训练、测试和验证拆分。4图表到文本基线模型问题定义我们考虑图表到文本问题的两种变化。在第一个变体中,我们假设底层数据表的图表,其中数据集可以表示为一组4元素元组D=数据表T,我们有以下信息:(i)字符串值,(ii)行和列位置-以及(iii)它是否是标头单元格。元数据M=Ctitle,Ctype,Clabels包括标题,类型(例如,条、线)和轴标签。在第二种变化中,我们假设数据表不可用,这使得问题更具挑战性和现实性,因为大多数网上统计图是图像格式,并没有基本的数据表。对于给定的输入X=C,T,M或C,M,我们的目标是生成一个实际的描述S,它是对根据一组评估措施的图表我们考虑三类模型来解决这个问题。第一类是图像字幕模型,其中的任务被制定为生成给定图表图像的文本描述第二类是数据到文本模型,它依赖于图表的底层数据表来生成相应的描述。最后,我们考虑视觉和文本模型的组合,其中模型首先使用CRAFT OCR模型提取文本(Baek et al. ,2019b),然后用数据到文本设置进行训练。我们在下面介绍了三类模型(所有模型的超参数设置见附录A.3)。4.1图像字幕模型我们开发了显示,参加,并告诉(SAT)模型(徐等人。,2015年),以探索这类模型对我们任务的有效性。继Xu等人(2015)之后,我们使用ResNet50(He et al. ,2016年)作为图 像 编 码 器 , 单 向 LSTM ( Hochreiter 和Schmidhuber,1997年)作为文本解码器 由于预训练的ResNet50模型在ImageNet上的对象检测任务上进行了训练(Deng et al. ,2009),直接将其应用于图表图像在我们的实验中得到了较差的结果此外,我们没有任何图表图像的对象标签来训练编码器。因此,我们采用了最近提出的自我监督策略,称为巴洛双胞胎(Zbontar et al. ,2021),其试图使图像样本的失真版本的嵌入向量相似,同时最小化{(C,T,M,S)n}|nD=|1 C、T、M和S代表这些组件之间的冗余向量。它实现了最先进的结果,为图像-分别发送图表图像、数据表、元数据和文本摘要中每个像元[3]我们对内容的分类受到最近一项研究的启发(Lundgard and Satyanarayan,2022)。geNet 分 类 与 监 督 模 型 的 准 确 率 差 距 仅 为3.3%。我们为每个数据集预训练了一个单独的ResNet50,并将其用作模型中的编码器+v:mala2277获取更多论文细胞嵌入Transformer#1Q3'20电话号码 :+86 -10 - 2740������0/10/10/1预测层如何许多 用户替代变量有多少个templateLabel[1][2]如何许多 用户变压器编码器季度|2020年第三季度|X|折线图SoftmaxTransformer解码器行列索引名称季度用户数(百万)BART:T5:(a) Chart2text模型(b) 场注入模型(c) BART/T5微调图3:不同的chart2text模型架构。 图 3c示出了训练的微调阶段(不是无监督的预训练)4.2数据到文本模型• Chart2text(Obeid and Hoque,2020)是一种基于Gong等人(2019)的数据到文本模型的图表到文本的适配Transformer模型。它将一系列数据记录作为输入,其中每个记录是一组元组(例如,列标题,单元格值,列索引),并将它们嵌入到具有位置编码的特征向量中,以区分顺序(图2)。 3a)。该模型包括编码器上的辅助训练目标(指示输出序列中记录的存在的二进制标签)以最大化内容选择分数。它还实现了目标文本与数据变量的模板化策略(例如,细胞,轴标签),以减轻幻觉问题。由于Pew数据表不可用,我们使用OCR生成的文本作为输入,这些文本被线性化并嵌入特征向量。每个图表的OCR生成数据的边界框信息也被嵌入并连接到表向量,以向模型提供位置信息。• 场注入模型(Chen et al. ,2020a)的灵感来自 概 念 到 文 本 的 工 作 ( Lebret et al. ,2016)。单元格中的值首先用LSTM编码,然后用行索引和列标题的嵌入连接这些表格表示(图中的h,h) 3b)然后喂食输入到编码器(图3c)。在没有数据表的情况下,我们将所有OCR文本以从上到下的顺序连接起来,并将其作为输入输入提供给模型• T5(Raffel et al. ,2020)是一个统一的seq2seq trans-former模型,可以将各种NLP任务转换为text 2 text生成格式。它首先使用“填空”去噪目标进行预训练连续丢弃的令牌的跨度被sentinel令牌替换。然后,解码器必须预测所有被丢弃的标记跨度,由输入中使用的相同标记分 隔 。 这 与 BART 的 预 训 练 目 标 不 同 , 在BART中,解码器预测整个原始序列(而不仅仅是丢弃的跨度)。T5是用几个有监督的多任务训练目标(例如,机器翻译、文本摘要)。我们以与BART模型相同的方式格式化输入。具体来说,我们将“translate Chart to Text:“添加到输入的前缀中,以模仿预训练过程(见图2)。 3c)。对于基于OCR的输入,我们用两个T5模型变体进行了实验。在第一种变体中,我们以从上到下的顺序从图表图像中连接所有OCR提取的句子,并将其作为输入馈送给模型在第二种情况下,我们修改输入,以适应空间信息的de-12个受保护的文本。受Tan和Bansal(2019)的启发,我们转换成3层Transformer编码器-解码器模型以生成目标摘要。此外,对于Pew,我们嵌入了图表OCR文本的边界框信息,并将其连接到基于LSTM的字段表示中,作为模型的辅助位置信息。• BART(Lewis et al. ,2020)采用具有去噪预训练目标的seq2seq Transformer架构。它是特别预先训练,以有效的文本生成任务。对于我们的图表到文本任务,我们逐行展开数据表,并将标题与表内容连接起来,将每个检测到的文本标记的边界框坐标馈送到线性层中,以产生位置嵌入,然后将位置嵌入添加到OCR标记的其相应嵌入中作为输入。5评价5.1自动评估为了自动评估摘要质量,我们采用了五种措施 。 BLEU ( Post , 2018 ) 和 CIDER(Vedantam et al. ,2015)测量模型生成之间的n-gram重叠,目标:如何许多用户双向编码器自回归解码器不季度利润…:分隔符T:图表P:P不四分之+v:mala2277获取更多论文模型蓝色↑CS↑蓝色↑CIDEr↑PPL↓Statista图片说明15.9425.70%-0.760.9510.53TAB-Chart2text21.1056.10%0.062.6128.79TAB-场-输注12.0942.07%-0.321.7817.01塔巴36.3677.14%0.124.4012.55TAB-T537.0175.72%0.154.6810.00OCR-T535.2973.77%0.104.438.66公司简介34.55百分之七十三点五五0.094.378.59TAB_OCR-Chart2text7.6447.58%-0.441.0954.98TAB_OCR-场注入7.0337.63%-0.491.1814.76TAB_OCR-BART35.8372.15%0.093.9713.99TAB_OCR-T536.7472.22%0.134.3310.20皮尤图片说明4.092.14%-0.960.3816.43OCR-Chart2TextOCR-场注入7.200.1924.49%百分之十点一二-0.56-1.010.650.2612.119.57OCR-BART9.09百分之三十九点九九-0.381.9711.04OCR-T510.4940.87%-0.352.2010.11公司简介10.4240.31%-0.422.138.65表4:不同模型在Statista和Pew测试集上的评估结果。↑:越高越好,↓:越低越好。“TAB-“模型可以访问底层数据表,“OCR-“模型使用OCR提取的数据。带有上标的OCR变体使用边界框信息。“TAB文本和参考文本。CIDEr计算TF-IDF加权的n-gram重叠。 BLEURT(Sel-lam et al. ,2020)是基于模型的评估度量,其指示候选在多大程度上符合语法并且传达引用的含义。我们使用BLEURT-base-128。 内容选择(CS)度量衡量生成的摘要在选择要生成的记录方面与黄金摘 要 的 匹 配 程 度 ( Wiseman et al. , 2017年)。由于BLEURT和CS都是在重复级别计算的,因此我们将这些分数在整个测试集上平均。最后,为了可读性和流畅性,我们使用预先 训 练 的 GPT-2 Medium ( Radford et al. ,2019)。一般来说,从表4的结果中,我们注意到大规模无监督预训练(即,“-就模型变体而言,图像字幕模型未能从图表中捕获相关信息(CS得分低),即使它生成 流畅的文本(PPL低)。在Statista上,当数据表可用时,Chart 2 text和Field-Infuse模型能够从数据表中提取信息,但它们很难产生高质量的文本。这可能是因为这些模型没有使用任何大规模的预训练。另一方面,TAB-BART和TAB-T5能够生成结构良好且相关的摘要。基于OCR的模型通常可以生成流畅的摘要,但在提取相关信息方面效果稍差。由于OCR过程在输入数据中引入了一些噪声,因此我们还对自动提取的表进行了实验,以了解模型在没有黄金数据表的情况下的表现 为此 , 我 们 扩 展 了Char- tOCR ( Luo et al. ,2021),其预测图表元素的原始数据值,以提取完全结构化的数据表。自动数据提取的准确率为77.31%(详见附录A.5)。我们发现,类似于基于OCR的模型,基于TAB_OCR的模型往往是不太有效的提取相关信息相比,基于TAB的同行使用地面实况数据表。另一方面,Pew的挑战性很大,因为它包含许多结构不明确的图表,并且无法获得基础数据表。不出所料,与Statista相比,所有模型的性能都大幅下降。尽管如此,我们可以看到,在没有底层数据表的情况下,vision+text(基于OCR)模型比vision only模型带来了基于图表 类 型 的 模 型 性 能 的 进 一 步 细 分 见 附 录A.4.2。我们还评估了模型和数据集的可移植性,首先在源数据集上预训练模型,然后在目标数据集上对其进行除了我们的两个数据集(Statista或Pew)之外 ,我们还用ToTTo (Parikh etal. ,2020)作为另一个源数据集,其是大规模开放域英语表格到文本数据集。我们的结果表明,在其他数据集上进行预训练该实验的详细信息见附录A.4.1。5.2人工评价为了进一步评估摘要质量,我们对来自Statista数据集的150个随机抽样图表进行了人工评估对于每张图表,注释者对TAB-T5、OCR-T5和原始gold总结(作为对照)的输出进行了成对比 较 , 共 进 行 了 450 次 成 对 比 较 ( 附 录A.4.3)。他们根据三个标准比较了这些摘要:(一)事实正确性:哪一个摘要在事实上更正确(即,(图中所述的事实)?(二)连贯性:哪一个摘要更连贯(即,句子连接良好)。和+v:mala2277获取更多论文TAB-T5(1)与OCR-T5(2)Gold(1)与TAB-T5(2)Gold(1)vs. OCR-T5(2)总结事实一致性流利事实一致性流利事实一致性流利总结1胜利百分之五十五点三百分之二十三点三20.0%30.0%百分之三十六点七22.0%百分之五十九点三43.3%百分之二十八点七总结2胜利12.0%百分之十一点三百分之十一点三百分之十三点三百分之十六点七14.0%7.33%百分之十五点三百分之十七点三铁32.7%百分之六十五点三百分之六十八点七百分之五十六点七46.7%64.0%33.3%41.3%54.0%p值(符号检验)1.86e-118.77e-30.03951.31e-35.26e-40.06681.27e-164.25e-60.0266表5:TAB-T5、OCR-T5和gold总结输出之间比较的人体评价结果金牌:足球运动员克里斯蒂亚诺·罗纳尔多(Cristiano Ronaldo)在截至2020年12月的最受欢迎Instagram账户排名中名列前茅。他是照片分享应用平台上关注人数 最 多 的 人 , 拥 有 近 2.44 亿 粉 丝 。InstagramTAB-T5截至2020年12月,全球拥有最多粉丝的In-stagram账户是克里斯蒂亚诺·罗纳尔多的账户,拥有2. 4395亿粉丝。该社交网络最受欢迎的账户是Instagram,拥有3.8009亿粉丝。OCR-T5:截至2020年12月,克里斯蒂亚诺·罗纳尔多是全球粉丝最多的Instagram账户,380.09万粉丝。这位巴西歌手在照片分享应用程序上拥有2.4395亿粉丝。黄金:在调查中,德国人给美国的评价最差。只有26%的人对美国持积极看法,而只有10%的人对特朗普处理世界事务有信心。这些观点与巴拉克·奥巴马(Barack Obama)布什大约十分之九(88%)的德国人对美国表示满意,这比2016年的73%大幅上升,但这也是皮尤研究中心自2000年开始在德国进行调查以来的最高自乔治·W·布什时代结束以来,德国人布什时代。OCR-T5德国是一个近年来,美国的形象急剧下降. 例如,在2008年,在新型冠状病毒疫情开始蔓延之前,大约三分之一的德国人对奥巴马总统在世界事务中做正确的到2014年,对奥巴马的信心下降到约三分之一,但到2019年,信心几乎翻了一番,达到约四分之一。戈尔德:一般来说,互联网接入在较富裕的国家被证明是更高的,这也意味着使用互联网获取新闻的可能性更大。例如,在澳大利亚,61%的人在人均GDP为2,421美元的塞内加尔,只有20%的人做同样的事情。OCR-BART富裕国家的人比贫穷国家的人更有可能至少在网上获得一次新闻一天委内瑞拉的情况尤其如此,大约十分之七的人(71%)每天都会收到新闻OCR-T5然而,数字新闻消费与个人收入之间的相关性并不是那么强。研究发现,在较富裕的国家,人们比贫穷国家的人更有可能每天使用互联网获取新闻。研究发现,富裕国家的人们往往比贫穷国家的人们更经常这样做,以便在网上获取新闻。图4:Statista(第一列)和Pew数据集(最后两列)的样本输出。红色表示幻觉错误,蓝色表示模型输出中导致实际错误的标记。(三)流畅性:哪一个总结更流畅,语法更正确?对于每一个标准,注释者选择更好的一个(赢)或同样好的(平局)。除了前150个比较外,每个比较都由一个注释者进行,我们有两个注释者来测量一致性。这150次比较的一致率为74.3%(排除了关系,因为它们不影响总结的总体排名表5显示,基于所有三个标准,TAB-T5的性能显著优于OCR-T5,尤其是在事实正确性方面。这可能是因为,在没有数据表作为输入的情况下,OCR-T5模型通常无法从OCR文本生成真实正确的我们还观察到,虽然模型输出的流畅性与黄金摘要相当,但它们的事实正确性和连贯性明显较差,特别是OCR-T5型号。5.3错误分析和挑战我们手动分析了来自Statista和Pew的200个随机 样 本 。 我 们 选 择 TAB-T5 和 OCR-T5 用 于Statista,OCR-BART和OCR-T5 mod-Pew的。这种分析有助于我们理解模型错误,并确定现有模型面临的关键挑战,如下所述。感知和推理方面如第1节所述,图表通常描述复杂的模式和趋势,这些模式和趋势可以很容易地被人类感知,但不一定容易通过分析原始数据表得出 图在图4 b中,OCR-T5模型设法在第一句中正确地描述了趋势,但在最后一句中错误地描述了趋势。这些例子说明了现有模型的缺点。为了有效地解释感知和推理方面,我们需要更复杂的模型,以更好地捕捉图表中突出的视觉关系特别是,我们的目标是开发更好的表示,包括语义图表示的图表,编码图表对象之间的数字和逻辑关系。幻觉有时候,模型会输出与图表无关的幻觉.例如,虽然图中的模型输出。 4 a,b是相当流利的,他们包含幻觉的错误。这个问题+v:mala2277获取更多论文在其他数据到文本的工作中也经常观察到( Wiseman et al. , 2017; Parikh et al. ,2020)。事实错误事实上不正确的陈述在基于OCR的模型中更常见(例如, 在图4a-b)中,由于它们不将数据表作为输入,因此不能正确地关联数据值。相比之下,利用数据表作为输入的TAB-T5倾向于产生较少的事实错误。这证实了在数据表不可用时汇总图表通常更具挑战性。计算机视觉挑战事实错误说明了一些独特的计算机视觉挑战。首先,图表并不总是将数据值显示为文本标签,因此OCR模型无法访问这些值。即使数据值被标记,数据值之间的关联的缺乏(例如,Instagram与图4a)中的380.09M相关导致事实错误。如果模型可以从图表图像中提取数据表,这个问题可能会得到缓解。虽然在这个方向上有一些初步的尝试( 例 如 , Luo 等 人 ( 2021 ) ; Choi 等 人(2019)),需要从图表中提取更准确的数据。我们的基准测试中的图表涵盖了几种不同的图表类型和各种各样的主题(图1)。 9)。特别是Pew中的图表在颜色、布局和排版方面具有各种各样的视觉风格,因为它们是由不同的作者在几年内创建的(参见图1中的示例)。然而,找到更多的图表摘要对更多样化的视觉风格是一个开放的挑战.在未来,我们的目标是找到更多不同来源的图表摘要,并在这些不同的来源进行跨域实验,以评估模型的泛化能力6结论我们已经提出了两个大规模的图表摘要数据集。我们还提供了一些最先进的基线和措施。我们的评估强调了这些基线的承诺,也揭示了图表摘要任务的几个独特挑战。我们希望Chart-to- text将成为模型和度量发展的有用研究基准,并激励其他研究人员探索这个相对较新的领域。确认作者要感谢匿名审稿人提供的有用意见。本研究得 到 了 加 拿 大 自 然 科 学 工 程 研 究 委 员 会(NSERC)的支持伦理考虑在数据集收集和注释过程中,我们需要考虑许多伦理问题。为尊重图表出版商的知识产权,我们仅使用来自提供学术下载内容出版权的资源的公开可用图表根据Statista的使用条款和授权,4名用户仅被授予Statista免费研究的发布权,因此我们仅使用免费公开的网页。根据皮尤的条款和条件,5用户被允许使用的内容,只要他们归因于该中心或不归因于不同的一方。为了公平地补偿土耳其机器人注释员,我们根据当时美国的最低工资因此,这些注释者收到0.10 - 0.15美元的每张图表,取决于候选段落的数量与它相关联。此外,为了保护这些注释者的隐私,他们所有的注释都是匿名的。为了确保实验结果的可重复性,我们在附录A.3中提供了超参数设置和估计的训练时间。我们预见到我们的模型可能会被滥用,那就是传播错误信息。目前,我们的模
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功