从科学折线图中提取数据的LINEEX系统

90 浏览量更新于2023-10-16 收藏 922KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6213LINE EX：从科学折线图中提取数据Shivasankaran V P*，Muhammad Yusuf Hassan*，MayankSingh IIT Gandhinagar，古吉拉特邦，印度vp. iitgn.ac.in，md. iitgn.ac.in，singh. iitgn.ac.in摘要在本文中，我们介绍了从科学折线图中提取数据的L INE EX。我们适应现有的视觉变换器和姿态检测方法，并展示了比现有SOTA基线显著的性能增益。我们还提出了一个新的损失函数，并提出其有效性对现有的损失函数。此外，我们综合创建了包含430K图像的最大折线图数据集。该代码可从https：//github.com/Shiva-sankaran/LineEX网站。1. 介绍现代世界每天都会产生大量数据，但由于处理、表示和存储方面的挑战，其中大部分数据都无法使用。科学论文也包含很大比例的非文本内容，如图表和图像，这些内容除了视觉化之外没有更多的用途[15]。这种非文本内容，如果成功处理，可以用于设计高质量的学术搜索引擎[21]，机器生成的特定任务排行榜[20]，以及为受损人群提供的学术助手[22]。随着深度学习架构的出现和大量学术数据集的可用性，我们目睹了最近从科学图表中提取数据的努力激增。然而，这些作品中的大多数都面临着与ML相关的普遍挑战，例如可复制性和不可访问性（更多详细信息请参见表1）。为此，我们的目标是开发一个图表信息提取系统，该系统是完全可复制的，公开的，并产生高质量的输出。与现有的从所有可能类型的图表中提取信息的图表提取系统相比，当前的工作集中在折线图上。我们提出了一个系统，以下简称LINE EX，它利用强大的Transformer架构[23]从折线图中提取信息。该系统的灵感来自视觉转换器[8]，最近已经超过了所有现有的最先进的* 同等贡献系统. LINE EX包括三个模块（i）关键点提取，（ii）图表元素检测和文本提取，以及(iii) 关键点分组、图例映射和数据缩放。我们稳健地评估每个模块，并将其与最先进的ChartOCR系统进行比较[15]。除了建议的系统，我们创建了最大的合成数据集的折线图信息提取。概括而言，我们工作的主要贡献如下：• 构建最大的折线图数据集，包括430K图像，其中包含线条数量、字体大小、图形大小、图例框放置、线条颜色和标记样式、背景和网格线的多样性。• 使视觉Transformer体系结构适应于折线图信息提取任务。• 展示了现有损失函数的局限性，并提出了一个新的损失函数，以解决这些挑战。• 通过基于图像相似性将线块与图例标记进行匹配来实现图例到线的映射2. 科学折线图折线图是科学文献中最常见的图表形式。折线图用于直观地表示一系列数据点或数学函数。折线图的主要组成部分包括（i）轴，（ii）线，（iii）图例框和（iv）图表标题。可选地，主要组件可以进一步细分为子组件。例如，图例框包括视觉标记（通常称为图例标记）和相关联的标签（通常称为图例文本），这是将每行映射到其对应的文本标记对所需的类似地，轴包括标题和刻度。图1显示了一个简单的变化形式的折线图，包括上述组件。例如，图表区域内包含一个图例框，其中包含两个或多个列，用于列出文本标记对、对数缩放轴或倾斜轴刻度。其次，我们发现图表变体包括不同的风格特征，例如不同厚度的线、虚线或连续线、或有或没有标记的线。最后，不同-6214系统名称轴线传说标题缩放图例线映射代码库可用性标题蜱关键点厚度潇洒标记文本[19]第十九话✓✗✓✓✓✓✓✗✓✓✓ChartOCR [15]✓✗✓✓✓✗✗✓✓✗✓线性规划[14]✓✓✓✗✓✓✓✓✓✓✗LineEX（我们的）✓✓✓✓✓✓✓✓✓✓✓表1：不同折线图组成部分的现有海图数据提取方法的比较图1：折线图的不同组成部分。电子绘图软件可以用相同的底层输入生成不同由于海图数据的高度复杂性和多样性，海图数据提取领域大多数现有的图表数据集（参见表2了解更多详细信息）都是合成的，例如Adobe合成图表数据集[6]和SYN数据集[14]。一些真实的数据集来自网络，如FigureSeer [19] ， ExcelChart 400 k [15] 和 ICPR-2020[7]。由于与注释所有组件所需的人工工作相关的问题，真实图表数据集相对难以管理。另一方面，使用包括合成数据值的绘图软件自动这些数据集通常比真实数据集在多样性上更有限，但可以用最少的人力来构建大量数据。考虑到大量的手工工作在cu- rating真实数据集的要求它名称类型实例系统公共充分线[19]第十九话房60k60k[19][15][14]第19话只有1KAdobe合成[6]合成198k个4.2k-✓ICPR-2020 [7]房23k10k-✓[15]第十五话房400k122k[15][14]✓[第14话]合成64k64k[14个]✗我们的数据集合成430k430kLineEX✓表2：不同图表数据提取数据集的比较。包含从Python的流行Matplotlib库1生成的430k折线图我们的数据集包括包含2到6条线的图表。它还包含所有可能的图表组件的边界框的注释。生成过程中的多样性包括随机的行数、字体和图形大小。我们还在图例框的位置实现多样性。线条在颜色和标记样式（点、破折号和形状）上有变化。我们用27种不同的绘图风格生成绘图，这些风格带来了线条标记、背景和网格线的多样性。图表文本（图表标题、轴标签、图例标签）是从字母数字字符串随机生成的此外，我们将数据集分割为400，000张图像用于训练，10，000张图像用于验证，20，000张图像用于测试。表2将我们的数据集与现有数据集进行了比较。它是现有折线图数据集中最大的，比ExcelChart400k大4倍 [15] 。与现有的合成折线图数据集（如 AdobeSynthetic Chart Dataset [6]和SYN数据集[14]）相比，我们的数据集还包含绘图样式的变化，图表的背景从较暗到较亮，绘图区域和图例区域周围的边界框此外，Adobe合成图表数据集不会将端点标记和文本对映射到相应的线。与现有最大的真实数据集ExcelChart400k[15]相比，我们的数据集还包含图例标记、腿端文本、刻度文本及其相应框的注释。图2显示了我们数据集中的两个代表性折线图，它们具有不同的背景、刻度和图例放置样式。3. 相关工作大多数早期的图表数据提取方法使用启发式和基于规则的技术来根据不同的图表类型提取数据。[18]和[10]的作品首先使用支持向量机对图表类型进行分类，然后使用基于启发式的数据提取方法。这种基于规则的方法已经变得不那么突出，因为缺乏对真实世界数据的概括性，并且需要手工设计功能。为了改善结果，一些混合方法（如ChartSense [13]）还在数据提取过程中引入了一些人工反馈。这些混合方法给出了更好的结果，但是它们也使用人类的时间和劳动，因此不能被实施为1https://matplotlib.org6215(a) 白色背景，六行（b）深色背景，五行图2：来自我们数据集的具有不同绘制风格的代表性折线图。这两个图表具有不同的图例放置坐标。自动化的流水线。最近，在基于深度学习的模型方面的努力已被证明在图表数据提取方面提供了更好的结果。这些方法通常建立在对象检测模型的基础上，并根据图表类型调整处理。ChartText [4]使用卷积神经网络对图表类型进行然后，进行特定类型的图像处理以提取数据。ChartOCR [15]也使用CNN对图表类型进行分类，然后是关键点检测模型，以基于图表类型提取某些基于检测到的图表类型进行后处理，以使用识别的关键点提取图表数据。这些方法比基于规则的方法执行得更好，但它们仍然在现实世界的数据上给出有问题的结果。此外，ChartOCR模型不允许图例映射，即标识哪一行对应于哪一图例标记或标签。最近，ChartOCR分数优于基于线性然而，源代码和训练模型并不公开。4. LineEX系统LineEX系统由高度模块化的管道组成。它由三个主要模块组成：（i）关键点提取，（ii）图表元素检测和文本提取，以及(iii)关键点分组、图例映射和数据缩放。4.1. 关键点提取此模块提取按顺序连接的关键点以创建线。对于关键点提取，我们采用PE-former [17]架构。PE-former是一种端到端的编码器-解码器Transformer架构，用于人体姿态估计。性能最好的PE- former变体包括交叉协方差图像变换器（XCiT）[3]作为编码器和基于DETR[5]Transformer解码器。图3描述了关键点提取模块的架构。4.1.1体系结构与COCO数据集的17种关节类型不同因此，我们不将来自解码器的输出令牌通过基于前馈神经网络（FFN）的分类头。然而，我们利用FFN将每个输出回归到- ken到[0，1]范围内的两个标量值（x，y）。请注意，图表中的地面实况关键点的数量根据图表中线条的数量和线条的复杂性而变化很大。具有简单单线的图表通常具有6我们将解码器输入固定为M个关键点查询，其中M = 64个关键点。由于图表的多样性，批次大小的一致性是不可能的，我们将多个可疑的关键点作为（0，0）添加到地面真实关键点，以便每个图表都有64个关键点。在某些情况下，地面实况关键点的数量超过64个。在这些情况下，我们只将前64个关键点作为我们的基本事实。在这两种情况下，我们都适当地对其进行了掩码，1表示真实的地面实况关键点，0表示可疑的关键点。该掩码稍后在损失计算期间使用4.1.2损失函数与2D姿态估计问题不同，关键点检测的精度是至关重要的，因为预测的关键点应该位于正确的线上而不是在附近区域中。基于距离的损失函数（如L1或L2）无法捕捉这种直觉。问题如图4所示。预测关键点（红色）比其他预测关键点更接近地面实况关键点（绿色）6216位置嵌入更新权重地面实况关键点掩蔽M损失隐藏的关键点地面实况关键点M预测关键点M个数据点查询LLLL图3：关键点检测架构。点（蓝色）。然而，由于蓝色的关键点位于线上，因此它是比红色的关键点更理想的候选。为了捕捉这种直觉，我们提出了一个新的损失函数，并将其称为角相似性误差（A）函数。在正式定义A之前，我们先定义锚点。训练折线图中的每个关键点都有一个关联的锚点。锚点通过在地面实况关键点周围的邻域像素搜索来具体而言，在我们的实现中，我们将锚点定义为与地面实况关键点位于同一条线上并且距离地面实况关键点在5个像素所有锚点都被计算并存储在训练数据中。然后使用锚点估计的一阶导数来计算预测的关键点与地面实况关键点之间的角度间隔。我们现在将A定义为连接预测的关键点和地面实况的向量与地面实况关键点处的线的一阶导数的角偏差。图4：预测关键点之间的比较。地面实况关键点用绿色表示。预测的关键点由红色和蓝色表示。点使用牛顿差商方法计算地面真实关键点处的一阶导数。锚点用于计算地面实况关键点处直线的一阶导数。图5直观地说明了这个想法。 ”““事实上，预测和预测是正确的。ChorpointasY，Y，andA，respect iv el y.A正式定义为：LA=1−cos（Y−A，Y−Y）（1）我们将LA与标准L1损失（LD）结合起来，将总损失（L）定义为：L=αLD+（1−α）LA（2）其中，α是超参数。我们提出了我们的关键点提取模块的两种变体，一种α=1（以下称为L INE EX D），另一种α=0。99（以下称为线EXD+A）。 L INE EXD是一个纯粹的基于L1损失的模块，而L INE EXD+A将L1损失与建议的角相似性误差2相结合。4.2. 图表元素检测和文本提取第二个模块识别轴、图例框、图表标题及其子组件（在第2节中描述）。具体来说，它会在图表标题、轴标签、绘图区域、轴刻度、图例标记和文本周围创建一个边界框。从这个模块中提取的信息有助于几个下游任务，例如将提取的关键点从像素坐标缩放到原始坐标和图例映射。本模块分为两个子模块：2我们进行二分搜索以确定最佳α值。掩模位置FFNM个数据点预测Transformer解码器标记特征Transformer编码器图像令牌6217××××Concat相似性分数图5：计算角度相似性误差：锚点、地面实况关键点和预测关键点分别用黄色、绿色和红色表示。绿色箭头是连接锚点和地面实况关键点的向量。蓝色箭头是连接地面实况关键点和预测关键点的向量。这些矢量之间的夹角用θ表示.• 检测：我们利用原始的检测 TRans- former（DETR）[5]实现来预测图表组件周围的边界框。DETR是近年来发展起来的一种将变换器编解码器结构应用于目标检测的方法据我们所知，这是第一次采用Transformer架构来解决图表数据提取问题。我们使用原始的DETR Transformer架构而不对其进行任何更改，除了将其最后一层调整为以下十个类：（i）图表标题，（ii）X轴标题，（iii）Y轴标题，（iv）刻度，（v）绘图区域，（vi）内部绘图区域，（vii）图例框，（viii）图例标记，（ix）图例标签和（x）图例元素。我们使用预训练的DETR模型并对其进行微调。• 文本提取：该子模块生成图表标题、轴标签和图例文本。我们通过EasyOCR [12]工具传递输入的图表来读取和定位文本。EasyOCR输出检测到的文本及其相应的边界框，而DETR模型输出每个元素类的边界框。我们通过查找这些边界框之间如果EasyOCR无法检测到DETR检测到的文本框的文本，我们将报告该框，但不报告任何附带文本。4.3. 关键点缩放、图例映射和数据点缩放此模块执行三个后处理任务，关键点分组，图例映射和数据缩放.我们执行关键点分组和图例映射联合。• 关键点分组和图例映射：我们采用图像相似性的概念来分组关键点，并将它们映射到图例标记。我们通过构建密钥的三元组来训练Deeprank模型[24]图6：关键点分组和图例映射模块。点面片及其相应的正图例标记和负图例标记。Deepranking模型将铰链损失最小化，以将属于同一图例标记的关键点面片分组我们将最后一个线性层接下来，我们训练一个简单的MLP模型来预测关键点补丁和图例标记的嵌入之间的相似性得分图6描述了关键点分组和图例映射模块。在测试阶段，我们有关键点坐标和图例标记边界框我们采样- ple 20 - 40像素补丁围绕每个检测到的关键点，也调整图例标记边界框为20 - 40像素。设N为检测到的腿端标记的数量，M为检测到的关键点的数量。我们通过上述MLP模型发送关键点补丁和图例标记补丁的每个组合，并获得相似性得分。这样，我们就有了关键点补丁和图例标记之间的相似性得分的N M矩阵。基于该NM标记，我们将每个关键点映射到唯一的图例标记。两条线相交的点将任意映射到其中一条相交线。属于图例标记的每个关键点都被分组为检测到的线，并且隐含地，图例映射也被完成。• 数据点缩放：在第4.1节中提取的关键点以像素坐标存在。为了将像素坐标转换为相应的原始数据点，我们执行数据缩放的最后一步，该步骤使用第4.2节中获得算法1接受预测的关键点、提取的刻度值及其文本，并输出缩放的数据点值。请注意，X轴刻度和Y轴刻度需要通过算法单独运行，因为它们可能具有不同的缩放。θ图例标记数据点补丁数据点嵌入图例嵌入深度恶作剧深度恶作剧MLP6218←- --我我×算法1数据点缩放给定：列表T（提取的刻度值），列表C（提取的刻度坐标），列表dps（未缩放的数据点）r list[]表示与不同报价对对应的比率列表foriinrange（len（C））do对于range（len（T））中的j，r list.append（abs（（T[j]T[i]）/（C[j]C[i]）端端从坐标中找到中位数比率（rmed）及其相应的指数（medidxscaled←（dps−C[medidx]）rmed+T[medidx]5. 实验5.1. 基线我们在表 1 中列出了现有的系统我们只使用ChartOCR进行实验[15]。ChartOCR是一个结合了深度框架和基于规则的方法的最先进的系统，用于图表识别和数据提取。我们使用该项目的Github存储库3中提供的训练模型另一个更接近的工作，标题为线性规划[14]，由于源代码不可用，无法进行比较4。5.2. 数据集我们在表2中列出了图表信息提取数据集。由于与几个数据集相关的基础事实信息不可用或不完整，我们只在四个数据集上进行了实验。1. Adobe Synthetic[6]：Adobe Synthetic lines测试集用于评估关键点提取和图表元素检测模块。测试拆分包含200个实例。2. ExcelChart400k[15]：ExcelChart400k训练集用于训练和评估关键点检测模块。训练、验证和测试拆分包括116745、3074和3072个实例，重新排序。3. FigureSeer[19]：FigureSeer测试集用于评估图表元素检测模块。测试集包含1000个实例。4. 我们的数据集：我们的合成数据集用于训练和评估关键点提取和图表元素检测模块。训练、验证和测试分别包括400000、10000和20000个实例。3https://github.com/soap117/DeepRule4我们要求作者，但由于保密条款，模型和源代码不能公开。5.3. 评估指标关键点提取：我们通过将预测关键点与地面真实关键点进行匹配来评估关键点提取模块。在这里，我们实验了两种相似性度量的变体，都基于对象关键点相似性得分（OKS）[1]。设P=[p1，p2，p3，...，pM]是M个预测关键点，并且令G=[g1，g2，g3，.，gm]是m个地面实况关键点。对于每个预测的关键点p，i，我们找到最接近的地面实况关键点g，j和相应的欧几里得距离d，i。设图表对角线的长度为s。然后，预测关键点P1的OKS被正式定义为：D2OKS（p）= exp（）（3）2s2k2其中k是要被分类为地面实况关键点的预测点的呼吸区[1]。我们可以赋予k个这样的值，可以强制执行更严格的界限。第一相似性度量变体比第二相似性度量变体更严格。我们在下面描述两种变体：• simstr：由于预测关键点的总数为显著高于地面实况关键点的数量;我们仅将一个预测关键点与一个地面实况关键点匹配。对于严格边界，我们使用k=0。025[1]。我们将γ定义为计算预测关键点的OKS值的阈值。我们设置γ=0。五、如果OKS（pi）>γ并且最近的地面关键点尚未被分配给某个其他预测的关键点，则我们将真正标签分配给p i。如果分配成功，则相应的地面关键点将标记为已签名• 模拟相对值：预测的关键点被赋予第二个有机会被标记为真正的积极放松的版本。在这里，我们在将假阳性5标签分配给预测的设gk是g j所在直线上的下一个点。我们定义一个额外的阈值β。如果从pi到连接g j和g k的线段的垂直距离小于β，则在第一OKS阈值失败之后，将预测的关键点分配为真阳性标签。保持β=0。007s在当前设置中给出了最佳结果。我们计算召回率，精度，和F1得分为每个图像在数据集中使用严格和宽松的版本。最终的度量分数是测试数据集中所有图像的平均值。我们的模型变体的一个主要缺点是预测64个关键点，而不管图表图像中存在的线条数量这可能导致低精度分数。为了提高检测精度，我们采用了背景检测算法.算法检测预测的5我们认为所有预测的关键点都是积极的。它们对地面实况关键点的分配可以被视为True或False。6219×算法2背景检测SecHists=CalculateColourHistogram（切片）阈值= 0.98forhist1inSecHistsdoforhist2 inSecHistsdoval ←CompareHist（hist1，hist2）如果赋值阈值，则返回False<结束if结束for端返回T rue关键点位于图表中的任何线上或靠近任何线。设pi为预测的关键点，h和w是图像的高度和宽度。我们取一个以pi为中心的正方形贴片P，长度max（h，w）0。05.我们进一步将P分为九个相等的较小的正方形部分。我们使用OpenCV的compareHist函数[2]和相关方法比较贴片九个部分的图像直方图如果所有九个部分的图像直方图极其相似，则预测的关键点可能不在线上或接近线。算法2详细描述了背景检测。图表元素检测在这里，我们测量我们的第二个模块的性能（见第4.2节的更多细节）。我们使用标准的平均精度（mAP）度量来测量和比较不同系统的性能mAP得分定义为数据集中每个对象类的平均精度的平均值类的平均精度是在每个置信度阈值处检测边界框的精度值我们使用公共实现[16]来评估图表元素检测模块。在这里，我们评估我们的第三个模块（更多细节请参见第4.3节），该模块将检测到的关键点分组到线条中。我们使用修改后的F1分数定义[15]来衡量关键点分组。图例映射最后，我们评估管道的最后一个模块（更多细节请参见第4.3节），该模块将每个检测到的图例标记映射到上一步中分组的线。我们使用标准的F1分数，由每个图表中的行数加权。6. 结果和讨论关键点提取表3给出了关键点提取的性能分数。在三种系统中， L INE EXD+A 表现最好。 ChartOCR 在ExcelChart 400 k数据集上优于LI-NE然而，它在其他数据集上表现不佳。我们把这种行为归因于它的泛化能力很差（ChartOCR是使用ExcelChart400k数据集训练的）。简单的折线图，例如图7中第一行中的图表，具有较少数量的地面实况关键点，导致L1-NEEX的精度较低。然而，包含大量关键点的复杂折线图（例如正弦或余弦图（参见图7中的第二行））会产生LI-NEEX的高精度分数。根据经验，我们还发现ChartOCR在平滑线条上表现不佳。我们通过在3000个图表图像数据集上进行实验来验证这一发现[9]。每个图表包括使用B样条和三次样条插值曲线形成的多条平滑线。表3中的最后三列验证了我们的经验发现。图表元素检测表4比较了图表元素检测的性能分数。LINE EX在Adobe Synthetic数据集和我们的数据集上的表现优于ChartOCR这两个系统都对FigureSeer数据集进行了重新排序。与ChartOCR相比，LINE EX支持检测刻度和图例映射元素（标记和相应的文本）。我们注意到，由于在单个图表中存在大量的标记、图例标记和图例文本等元素，因此很难获得较高的mAP分数。表5比较了关键点分组性能。两个系统的性能相似Adobe数据集性能不佳的原因之一是图例标记中存在不太常用的符号，如十字标记、星号、加号和垂直线。由于图例标记注释不可用，我们不对ExcelChart400K数据集进行评估。将预测品系映射到图例标记的F1得分为0.79。烧蚀实验我们进行了两个烧蚀实验。我们用Resnet50编码器[11]替换了第一个实验中的关键点提取Transformer编码器。与Resnet50 编码器相比，基于Transformer编码器的LINE EX变体性能更好4倍（见补充）。在第二个实验中，我们将分组的预测关键点替换为用于图例映射的分组的地面实况关键点。我们的F1得分为0.87.这表明，在关键点提取和分组阶段引入的错误可能导致低映射分数。7. 结论在本文中，我们提出了LINE EX提取数据的科学线图使用视觉变换器。在未来，拟议的工作可以扩展到两个可能的方向：（i）扩展到其他图表类型和（ii）提供下游用例。下游用例需要更精确的提取模型，这可能是一个有趣的研究方向。6220ExcelChart400K Adobe合成我们的光滑召回PrecF1召回PrecF1召回PrecF1召回PrecF1ChartOCR0.850.980.900.760.720.710.710.900.780.360.740.46simstrLINE EXD0.820.690.700.910.540.640.830.750.760.700.490.56线EXD+A0.840.800.780.940.670.740.860.840.830.720.520.59ChartOCR0.850.980.900.780.800.760.740.970.830.380.780.49simrelLINE EXD0.830.870.830.930.760.810.850.920.870.750.580.64线EXD+A0.850.900.850.930.810.840.870.940.890.770.610.67表3：我们提出的方法和ChartOCR之间的关键点提取性能比较数据集模型图例框Y轴标题图表标题X轴标题绘图区内部绘图区蜱图例标记图例标签图例元素我们的数据集ChartOCRLINE EX89.0799.9799.5283.8496.03100.085.81100.099.69100.097.8599.97-85.55-82.39-82.71-83.74Adobe SyntheticChartOCR线前--100.0100.081.0099.659.50100.0--100.0100.0-57.52-74.04-88.94--FigureSeerChartOCR LINE EX--97.6670.79--80.9696.28--99.1396.38---54.26-63.96--表4：我们提出的模型和ChartOCR之间的mAP评分比较。由于并非所有模型都检测到所有图表组件，并且并非每个数据集都包含所有这些图表组件，因此我们将这些单元格表示为图7：色谱柱1：L INE EX输出，色谱柱2：ChartOCR输出。Adobe Synthetic我们的数据集ChartOCR0.540.93线EXD+A0.540.93表5：关键点分组任务的F1得分。引用[1] 对象关键点相似性。https：//cocosdataset.org/#keypoints-eval.访问时间：2022-07-13。[2] 图像直方图比较的Opencv方法。https://docs.opencv.org/3.4/d8/dc8/tutorial_histogram_comparison.html。Ac-2022-07-04.6221[3] Alaaeldin Ali ， Hugo Touvron ， Mathilde Caron ， PiotrBo- janowski ， Matthijs Douze ， Armand Joulin ， IvanLaptev，Na- talia Neverova，Gabriel Synnaeve，JakobVerbeek，et al.Xcit：交叉协方差图像变换器。神经信息处理系统的进展，34，2021。[4] Abhijit Balaji，Thuvaarakkesh Ramanathan和Venkatesh-warlu Sonathi。Chart-text：一个完全自动化的图表图像描述符。arXiv预印本arXiv：1812.10636，2018。[5] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测。在欧洲计算机视觉会议上，第213-229页[6] 肯尼·达维拉关于收获原始表格的竞争（图表）2019-pubmedcentral，2019。ICDAR-CHART-2019-PMChttps://tc11.cvc.uab.es/datasets/ICDAR-CHART-2019-PMC_1.[7] 肯尼·达维拉ICPR 2020收获比赛原始表，2020年。 ICPR2020-CHART-Infohttps://tc11.cvc.uab.es/datasets/ICPR2020-CHART-Info_1.[8] AlexeyDosovitskiy、LucasBeyer、AlexanderKolesnikov、Dirk Weissenborn、Xiaohua Zhai、ThomasUnterthiner 、 Mostafa Dehghani 、 Matthias Minderer 、Georg Heigold、Syl-vain Gelly、Jakob Uszkoreit和NeilHoulsby。一张图片相当于16x16个单词：用于大规模图像识别的变压器在学习代表国际会议上，2021年。[9] AalokGangopadhyay，PrajwalSingh，andShanmuganathan Raman. Apex-net：自动绘图提取器网络，2021年。[10] Jinglun Gao，Yin Zhou，and Kenneth E. Barner视图：可视化信息提取小部件，用于提高图表图像的可访问性.第19届IEEE图像处理国际会议，第2865-2868页[11] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[12] 斋殆Easyocr，2022年。版本1.4.2github.com/JaidedAI/EasyOCR。[13] Daekyoung Jung，Wonjae Kim，Hyunjoo Song，Jeong-in Hwang，Bongshin Lee，Bohyoung Kim，and JinwookSeo. Chartsense：从图表图像中提取交互式数据在2017年CHI计算机系统人为因素会议上，2017年。[14] Hajime Kato，Mitsuru Nakazawa，Hsuan-Kung Yang，Mark Chen，andBjoérnStenge r. 用线性规划绘制折线图2022年IEEE/CVF冬季会议计算机视觉应用（WACV），第2553- 2562页，2022年。[15] Junyu Luo ，Zekun Li ，Jinpeng Wang ，and Chin-YewLin. Chartocr：通过深度混合框架从图表图像中提取数据. 2021年IEEE计算机视觉应用冬季会议（WACV）。计算机视觉基金会，2021年1月。[16] 放大图片作者：Rafael Padilla萨德乌？帕索斯B.迪亚斯爵士。Netto和Eduardo A. B.达席尔瓦。对象检测度量与配套开源工具包的比较分析。电子学，10（3），2021年。[17] 帕斯卡利斯·潘特莱里斯和安东尼斯·阿吉罗斯。Pe-former：姿态估计Transformer 。arXiv预印本arXiv：2112.04981，2021。[18] Manolis Savva，Nicholas Kong，Arti Chhajta，Li Fei-Fei，Maneesh Agrawala，and Jeffrey Heer.修订：图表图像的自动分类、分析和重新设计。在2011年第24届ACM用户界面软件和技术研讨会上，第393-402页[19] Noah Siegel ， Zachary Horvitz ， Roie Levin ， SantoshDivvala，and Ali Farhadi.Figureser：解析研究论文中的结果图。ECCV，第664-680页[20] Mayank Singh、Rajdeep Sarkar、Atharva Vyas、PawanGoyal、Animesh Mukherjee和Soumen Chakrabarti。从比较表自动生成早期排行榜。在欧洲信息检索会议上，第244-257页。Springer，2019年。[21] Sanjay Subramanian ， Lucy Lu Wang ， Ben Bogin ，Sachin Mehta ， Madeleine van Zuylen ， SravanthiParasa ， Sameer Singh ， Matt Gardner ， and HannanehHajishirzi. Medicat：医学图像、标题和文本参考的数据集。在计算语言学协会的调查结果中：EMNLP 2020，第2112-2120页，2020年。[22] Kirill Sviatov，Nadezhda Yarushkina和Sergey Sukhov。基于混合深度学习模型的图表数据提取。在计算科学及其应用国际会议上，第382-393页。斯普林格，2021年。[23] Ashish Vaswani， Noam Shazeer ， Niki Parmar ， JakobUszko-reit ， Llion Jones ， Aidan N Gomez ， ukaszKaiser，and Illia Polosukhin.注意力是你所需要的。神经信息处理系统的进展，30，2017。[24] Jiang Wang ， Yang Song ， Thomas Leung ， ChuckRosenberg，Jingbin Wang，James Philbin，Bo Chen，and Ying Wu.通过深度排名学习细粒度图像相似性。在IEEE计算机视觉和模式识别会议的论文集，第1386-1393页

下载后可阅读完整内容，剩余1页未读，立即下载