基于聚类方法的文档布局对齐算法及其在信息提取中的应用

29 浏览量更新于2023-12-09 收藏 1.43MB PDF 举报

信息检索

OCR

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

埃及信息学杂志22（2021）329用聚类方法S. Tomovica，1，K.J.，K.Pavlovica，2，M.巴伊切塔ba黑山大学数学和自然科学系，Cetinjska bb，81000 Podgorica，黑山bDatum Solutions，81000 Podogrica，黑山阿提奇莱因福奥文章历史记录：收到2020年2020年10月20日修订2020年12月11日接受2020年12月30日在线提供关键词：文档布局文档索引信息检索聚类OCRA B S T R A C T版面分析是从扫描文档图像中提取信息的重要步骤。在本文中，我们提出了一个算法，对齐不同的OCR引擎生成的布局。主要要求是，无论用于图像处理的OCR引擎如何，始终为给定的文档图像生成相同的以这种方式，从扫描文档中提取信息，这在很大程度上取决于文档中的字段位置，不依赖于特定的OCR引擎。换句话说，维护通用提取器知识就足够了，而不需要用在特定OCR引擎上处理的该算法可以处理具有复杂布局的行政©2021 THE COUNTORS.由Elsevier BV代表计算机和人工智能学院发布开罗大学法律系这是一篇CC BY-NC-ND许可证下的开放获取文章（http：//creative-commons.org/licenses/by-nc-nd/4.0/）上提供。1. 介绍本文提出的布局对齐算法LAA的主要目的是在不同OCR引擎处理的半结构化和非结构化文档中统一确定文本行。LAA创建独特的文档布局表示，从中学习信息提取软件以识别文档上的目标字段。提取器是基于机器学习的解决方案，它是在训练数据集的可用布局上训练的。学习过程在很大程度上依赖于包含目标字段在文档中的位置的本研究的主题是实现一个文档理解系统，该系统必须能够从不同OCR引擎处理过的文档图像中提取目标字段不同的OCR引擎为同一文档图像生成不同的布局。布局以可搜索的PDF格式存储此外，我们没有任何信息的OCR引擎是用来生成erate可搜索的PDF这是输入到提取模块。*通讯作者。电子邮件地址：savot@ucg.ac.me（S. Tomovic），kosta@ucg.ac.me（K.巴夫洛维奇），milija. datum.solutions.net（M. Bajceta）。第1www.ucg.ac.me/savot2www.ucg.ac.me/kosta开罗大学计算机和信息系负责同行审查。因此，LAA的主要任务是提供唯一的文档布局表示，而不管使用的OCR引擎。相应地，提取器将不依赖于OCR引擎的特性，并且仅维护可以处理来自任何OCR引擎的可搜索PDF的通用提取器知识将是足够的。没有LAA模块，我们必须为每个OCR引擎训练和维护特定的提取器。虽然这种解决方案是不是有效的，它是不可能实现它的情况下，我们不能知道哪一个引擎是用来生成特定的可搜索的PDF。因此，我们必须有LAA模块，将任何布局表示转换为提取器可以识别目标字段的唯一形式。LAA甚至可以应用于仅使用一个OCR引擎的情况在这种情况下，提取器模块仅用于学习如何从文档中提取信息，并且它不需要预处理文档布局的过程（过滤，规范化，OCR错误校正等）。现在是LAA模块的一部分。通过这样的设计，文档理解系统变得更加灵活，因为可以支持提取器学习算法和预处理方法的不同组合LAA可以作为一般文档理解系统的预处理步骤来实现，该系统需要处理密集的文档流。文档理解系统可以被定义为软件解决方案，它可以自动化管理文档的即时处理，最大限度地减少人为干预[21]。这些系统接收文档图像作为输入。文件在结构上可能有很大的不同，https://doi.org/10.1016/j.eij.2020.12.0041110-8665/©2021 THE COMEORS.由Elsevier BV代表开罗大学计算机和人工智能学院出版。这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表埃及信息学杂志杂志主页：www.sciencedirect.comS. Tomovic，K.Pavlovic和M.巴伊切塔埃及信息学杂志22（2021）329330包括发票、表格、合同、请求、信件等。任务是从这些文档中查找和提取相关信息例如，系统可以从电费发票中提取日期、总金额和客户名称等信息并保存在数据库中之后，这些数据可以用于更快的文档搜索或作为决策支持系统的输入。在图1中，呈现了从发票文档中提取的值文档理解系统中的基本用例如下[2]。文件正从数据流中传来。该系统采用当前文档并运行特定的OCR引擎，将文档图像转换为可搜索的PDF文件。生成的文件发送到信息提取模块，信息提取模块负责提取目标信息。但是输入流可以包含可搜索的PDF而不是图像。这是不可能知道可搜索的PDF文件的来源。例如，系统不知道哪个OCR引擎用于生成PDF，或者PDF是数字化的。在可搜索的PDF文件从流到达的情况下，它被直接发送到信息提取模块。根据前文，信息提取模块的输入始终是可搜索PDF格式的文档。PDF文档存储为一组非常复杂的指令，这些指令决定了元素在文档中的位置。这种表示不包含复杂的结构元素，如句子或段落。有几个用于解析 PDF 文档的库。在这项研究中，我们使用PDFMiner。文档布局表示文档几何图形。布局中包含的主要信息是文本字段的位置和大小。许多信息提取方法依赖于文档布局，因为它们的训练包括学习字段之间的空间关系[12]。在图2中，我们说明了使用LAA过程的文档理解系统中的基本用例的扩展。LAA步骤的目的是使信息提取模块独立于特定的OCR引擎。通过这种方式，我们可以使用通用模型进行信息提取，并处理不同OCR引擎用于模型训练和文档流处理的情况。在所提出的流程（图2）中，LAA模块将处理文档图像的可搜索PDF表示并生成相应的布局。使用LAA生成的文档布局由按适当顺序排序的文本行组成，以供进一步处理。行提取对于许多信息提取系统（如SROIE系统（扫描收据OCR和信息提取））的整体准确性至关重要[16，15，10，14]。例如，在处理图1中的单据时，字段“总计”和相应的金额必须放在同一行中。同样，BILL TO必须放置在Mercure HotelDort- mund Center的正上方，以便提取器能够找到正确的客户发票文件中的名称。此外，LAA负责实现信息提取模块的鲁棒性：无论文档来源如何，都应生成相同的布局。我们希望消除对OCR引擎的任何依赖，最终可搜索的PDF可以数字化创建。此外，LAA应能够处理与文件几何结构有关的可能异常。例如，当生成和/或扫描文档时，某些字段可能会以意想不到的方式旋转或平移。LAA必须使这种不期望的转换变平和平滑，并创建尽可能接近理想情况的布局。本文的结构如下。下一节介绍相关工作。第三部分讨论了该方法的动机、新颖性和贡献第四部分介绍了LAA版图对齐算法。随着主要思想的几个修改被认为是。第五部分是Fig. 1. 日期、客户名称和总金额位于发票单据上。图二.使用LAA步骤的文档理解系统。LAA步骤负责生成唯一的文档布局，而不考虑使用的OCR引擎。信息提取模块与这样的布局，它是不依赖于OCR引擎。专门讨论实验协议、性能指标和注册结果。最后，最后一节包含结论和可能的扩展和改进的建议。2. 相关工作在文献中已知的最相似的问题，在这项研究中暴露的问题是文档图像的文档布局分析。文档布局分析是inten的领域，S. Tomovic，K.Pavlovic和M.巴伊切塔埃及信息学杂志22（2021）329331的研究。简单地说，它包括文档分割，将文档图像分割成段。此外，识别的段可以被分类为标志、字形、单词、线、段落、块等。一般来说，文档分析的算法结合了几个过程，例如二值化、噪声去除、倾斜校正、页面分割、段分类、阅读顺序确定[8]。算法随着这些过程如何执行而变化。页面分割是版面分析中最重要的一步页面分割算法将文档图像划分为均匀的段。每一段都是物理布局结构的一部分，可以表示文本、打印文本、图形、图表、徽标等。行分割算法检测每个文本行的开始、结束、顶部和底部。正如在介绍部分中提到的，在这项研究中，我们集中在线检测。因此，物理文档布局可以表示为一组识别的文本行。除了物理布局，在文献中提出的算法，逻辑布局提取。逻辑布局决定了图像中每个区域的语义，如标题、主体、脚注等。2008年之前的代表性页面分割算法的回顾可以在[23]中找到。首先，作者将算法分为两类，即基于区域的算法和基于线的算法。基于区域的算法从文档图像中提取文本块。块被进一步分解成文本行。这类算法包括X-Y切割[17]，空白分析[3]，Docstrum[20]和Voronoi[18]。基于行的算法从输入文档图像中提取文本行。这种算法的例子是约束文本行提取[19]和游程长度涂抹（RLSA）[25]。在[8]中，作者提供了自2008年以来的页面分割算法的综述研究中包含的算法提供了物理布局分析，它们适用于文档图像。该研究对该领域进行了非常详细的概述，并全面讨论了算法此外，作者提出了非常清晰的分类页面分割算法，允许识别算法中根据他们的研究成果，物理布局标注的分割算法主要有此外，每种方法都分为自上而下或自下而上。同意.这样，最终的输出可以比单独的结果更好。在[6]中提出了类似的想法，其中作者提出了通过包括几个OCR引擎和执行特定的投票模式来提高OCR准确性的方法。3. 我们的贡献根据前面的讨论，很明显，页面分割算法有很大的不同。因此，很自然地期望不同的算法对同一文档生成（显著）不同的分割。另一方面，信息提取算法严重依赖于文档的几何形状和位置信息。他们中的许多人提取目标信息的基础上，其位置的文件和空间关系与其他元素[9，1，22，11]。此外，他们的训练包括学习场之间的空间关系[12]。这项研究的主要主题来自于一个文档理解系统的设计和实现中的挑战，该系统必须能够从不同OCR引擎处理的文档图像中提取目标字段。换句话说，目标是使不同的页面分割算法和OCR引擎在某种意义上兼容，对于相同的文档图像，它们将产生相同的物理布局。通过这种方法，文档理解系统变得独立于预处理步骤，这取决于所使用的页面分割算法和OCR引擎。一个明显的解决方案是为每个OCR引擎维护不同的提取器。这将只有当它是已知的OCR引擎是用于处理文档图像和生成相应的可搜索PDF。下面给出了这种解决方案的伪代码{d = current_searchable_PDF开关d.sourceCase FineReader：call InformationExtractionForFineReader（d）案例Tesseract：调用InformationExtractionForTesseract（d）默认值：调用DefaultInformationExtraction（d）}起来自上而下的方法从文档开始生成布局，水平。自底向上方法从像素级别创建布局。第一组的算法必须提前知道层-他们提取的类型。例如，一些算法只能识别曼哈顿布局。另一种布局类型可以用一组规则或语法来描述。这些算法可以在没有训练步骤。第二组算法被设计成在文档布局的变化方面更鲁棒。换句话说，可以使用单个算法来提取不同类型的布局。一般来说，这些算法的灵活性是通过引入几个参数来实现的。在算法训练期间调整参数。通常需要大量的数据。第三组的算法出现在最后。它们背后的主要方法是在一个复杂的过程中结合其他几种算法。另一方面，这组算法中的一些算法是基于人工智能领域的方法（例如神经网络）来学习重要参数并为布局提取建立适当的模型。在第三组方法[24，4，5]可以分类。作者提出的方法，结合互补的技术，并应用一些投票模式，以确定在所有的技术前面的实现意味着必须花费大量的成本来维护每个OCR引擎的提取器模型例如，提取器模型的大小可以是数百MB。此外，它通常是强制性的，以实现主动学习范式，这意味着每个提取器模型必须定期重新训练与文档处理到目前为止。这将增加模型的大小，并花费大量的处理器时间。在这项研究中，我们介绍了经典的文档理解用例的新步骤。图2示出了具有LAA过程的文档理解系统中的经典场景的扩展。LAA步骤的目的是使信息提取模块独立于特定的OCR引擎。通过这种方式，我们可以只使用和维护一个通用模型来进行信息提取，并处理不同OCR引擎用于模型训练和文档流处理的情况。更确切地说，我们在本文中定义的问题是，以一种方式，如果任何其他OCR引擎被用来处理给定的文档图像，则所述方式对给定的可搜索PDF格式中包含的物理布局进行修整，所述修整后的布局将始终相同。该算法的输入是使用不同OCR引擎生成的可搜索PDF表示（每个引擎都实现特定的页面段）。S. Tomovic，K.Pavlovic和M.巴伊切塔埃及信息学杂志22（2021）329332¼¼[1/2]算法）。该算法没有任何信息的OCR引擎是用来生成可搜索的PDF文件，其输入。据我们所知，这是第一个研究讨论这样的问题。LAA基于KMeans聚类算法，具有用于归一化和初始质心生成的特定程序。在本研究中，我们集中在行政文件。我们的方法不对文档布局做任何假设，并且是无参数的。LAA可以提醒在相关工作板块。这些方法试图通过在几种互补方法得到的布局之间进行投票来找到正确的布局。这是因为它们都处理原始文档图像，并且可以涉及和组合多个外部系统的结果。相反，本研究提出的方法不能访问每个可能的OCR引擎的原始文档图像或布局表示以在它们之间投票。它只提供一个布局，由未知的OCR引擎从原始图像生成，并编码为可搜索的PDF格式。LAA方法处理给定可搜索PDF中的可用元素，并确保无论使用哪个OCR引擎，否则，必须从提取器知识和模型中消除关于元素位置和大小的所有这将不可避免地降低其能力和可用性（因为缺乏模型训练的最重要属性）。在最好的情况下，LAA方法的精密度达到98%以上，这与文献中已知的类似问题的结果（94：62%至97： 72%）不可能进行精确的比较，因为这个问题尚未得到解决，而且缺乏通用的测试数据集。为了证明LAA方法的实用性，我们进行了以下案例研究。我们用LAA模块扩展了一个商业文档理解系统，如图2所示。从一家医疗保健公司获得了文件。提取器在用一个商业引擎处理的样本上进行训练，并用来自相同布局类但用其他引擎（免费和商业）处理的样本进行测试。要提取的字段定义如下：提供商名称、提供商编号、提供商地址、联系人姓名、电话号码和传真号码。当LAA用作预处理步骤时，每个靶野的提取器准确度提高了10%。4. 基于聚类的文本行对齐方法在本节的开头，我们扩展了LAA的动机我们使用Tesseract和FineReader处理了图1中的文档图像，并获得了相应的可搜索PDF文件。之后，我们使用PdfMiner库来解析PDF文件，并创建从图像中提取的元素的XML树表示。文本框元素边界框属性包含相应文本框左下角的位置、宽度和高度。我们显示了每个文本框。结果如图所示。 3.不同的OCR引擎生成同一文档的不同物理段此外，我们可以注意到，两个引擎实现了不同的测量尺度。例如，FineReader将页面区域设置为宽度为<$594：950、高度为<$841：900的虚拟边界框。但是Tesseract定义了明显不同的页面区域，宽度为929： 250，高度为1314： 750。此外，识别的文本框及其位置也存在显著差异。可以注意到，Tesseract跳过了几个图三. FineReader（左）和Tesseract（右）识别的文本框。每个文本框都用bbox属性表示，该属性包含左下角的位置、宽度和高度。使用FineReader识别的文本框。我们想强调的是，在这项研究中提出的方法不能recon- struct的OCR引擎没有发现的元素。LAA方法处理可用的文本框，并确保无论使用哪个OCR引擎，它们都将被唯一地放置。首先，我们必须定义唯一的度量尺度来转换包围盒属性。该测量尺度确定虚拟文档页面的大小，并用于在虚拟页面上定位这样的页面由线条组成。线在页面上的y位置是唯一标识的。每个文本框只能分配给一行。此外，我们需要一种方法来分配给定的文本框到适当的行。该方法以行为词簇。通常，集群被定义为彼此非常接近并且同时与属于另一集群的元素非常远离的元素的组。因此，line是一组文本框或单词，它们在页面上的y位置彼此非常接近。文本框的聚类最终产生线，使得线ly占据最靠近位置y的所有文本框。考虑bbox属性的其他部分，即单词表示中的x、width和height，可能会降低文本行的预期水平整体性，因为来自不同行的单词可能会分配到同一个聚类。LAA算法的主要步骤如算法1所示该算法是在Python3中实现的，因此清单中的伪代码可以提醒我们。算法1 LAA算法需要文档的d确保L对于% d//1.使用PDFMiner API words_xml_tree =PDFMiner解析页面。位置（页）//2.规范化words_list =[]对于words_xml_tree中的所有单词，word_norm ={}word_norm[X] = minmaxnorm（word.X）word_norm[Y] = minmaxnorm（word.Y）word_norm[Width] = minmaxnorm（word.Width）word_norm[Height] =minmaxnorm（word.身高）words_list.append（word_norm）端//3.为聚类方法准备数据集dataset =[]S. Tomovic，K.Pavlovic和M.巴伊切塔埃及信息学杂志22（2021）329333ðÞðÞ¼半]¼¼RAA-A最大值最小值¼ð Þv-minfor all word inwords_listdataset.append（[word[“Y”]]）端//4.运行聚类算法，聚类表示线model = KMeans（dataset，init = initial_cetroids（dataset））//5.将单词分配给行L =[]对于模型中的所有聚类.clusters current_line_indexes= model.labels ==聚类current_line_elements =dataset[current_line_in指数]L.append（current_line_elements）首尾相接在本节的其余部分中，我们将公开所提出的算法的一个迭代。在单次迭代期间，处理文档的一页第一步是从当前的PDF Miner库的可搜索PDF文件页面。结果以XML树的形式表示。对树进行遍历，生成与单词对应的文本框列表除了文本内容之外，每个单词都使用其边界框属性bbox进行扩展。正如我们前面所解释的，边界框是一个虚拟的矩形，它与单词区域接壤。它用左下角顶点的位置X;Y以及它的宽度和高度来表示页面左下角为0; 0。我们强调，PDFMiner的位置，宽度和高度相关的值在很大程度上取决于特定的OCR引擎，生成可搜索的PDF文件。除其他因素外，这是由于使用的测量尺度。信息抽取系统在很大程度上依赖于文档的几何形状和位置信息。他们中的许多人提取目标信息的基础上，其位置的文件和空间关系与其他元素[9，1，22，11]。为了实现所需的信息提取独立的文件源，它是必要的，以引入独特的测量尺度和单位。否则，必须从提取器知识和模型中消除与文本框位置和大小有关的所有信息。不可避免地，这将降低其能力和可用性（因为缺乏模型构建的最重要属性）。在LAA位置信息的第二步中，标准化。这意味着将值转换为更小或更合适的范围的一部分。换句话说，标准化步骤是将坐标X和Y;每个单词的宽度和高度转换为目标间隔[newmin，newmax]。我们用几种标准化方法测试了LAA。最在标准化步骤中。假设Amin和Amax是属性A的最小值和最大值。Min–max到v0在区间1/2Anewmin;Anewmax]通过计算以下公式[15]：一v0¼×Anewmax-AnewminAnewmin：1Min–max normalizationretains the relationsbetween thesource data values 请注意，在我们的上下文中，它永远不会遇到“越界”错误。如果将来的标准化输入案例超出了A的原始数据范围，则让我们简单地解释一下。在这一步中，正如前面所述，我们必须规范化坐标X和Y，每个单词的宽度和高度。对于所有四个属性，默认目标间隔设置为0; 100。在这种情况下，虚拟页面宽度和页面高度都是100对于所有属性，Amin0保持不变。对于坐标X，我们设置X最大页面宽度。源页面宽度的值从第一步就知道了（PDFMiner关联此值）。对于坐标Y，我们设置Ymax pageheight。源页面高度的值从第一步就知道了对于字宽，WIDTHmax=页宽。对于单词高度，HEIGHTmax=页面高度。代替Z得分归一化基于属性A的均值A和标准差rA。对于A的值v，归一化值v0由以下公式给出：v0¼v-A：120通过十进制缩放的归一化基于A的最大绝对值。十进制缩放归一化映射值通过计算A的v到v0v0v;310J其中j是最小整数，使得以下表达式成立最大jvjj1：44<最后，规范化步骤的结果是JSON对象的列表。每个单词都被表示为列表中的一个对象。除了从XML树（通过PDFMiner接口创建）读取的属性之外，每个单词都使用表示规范化边界框区域的值进行扩展。属性 nbbox 的形式如下： nbbox = x_norm ， y_norm ， width_norm ，height_norm。在第三步中，我们实现了将单词信息从JSON转换为sklearn库中提供的聚类算法和接口可接受的形式的过程通过聚类，我们希望将列表中的单词以一种方式排列，即所有属于同一行的单词将形成一个聚类。当然，与此同时，来自不同行的单词将被分配到不同的集群。使用归一化值每个单词都用来自标准化边界框属性的Y分量表示直观上，这是因为文本行主要由其在Y轴上的位置决定。Y分量表示左下顶点的归一化位置最好的实验结果是用这种方法实现的也被实现和测试的替代方案表示具有对应边界区域的任何其他顶点或质心的单词。在第四步中，运行聚类方法以生成聚类。一个簇表示文档中的一行。我们用几种聚类方法测试了LAA。当KMeans方法被调用。但初始质心必须仔细计算。我们提出两个程序。第一个过程基于平均单词高度- awh生成初始聚类质心，即它们的Y坐标值awh从第一步中已知，并在第三步中归一化。初始集群的创建如下。第一簇用质心表示，其中Y 1/40。它代表-S. Tomovic，K.Pavlovic和M.巴伊切塔埃及信息学杂志22（2021）329334¼¼¼¼见图4。集群：FineReader（左），Tesseract（右）。聚类是使用LAA算法的默认实现基于awh参数生成初始聚类中心的KMeans聚类彼得。属于同一聚类的单词用相同的颜色表示图五、复杂形式的例子（左）。应用一个OCR引擎时的结果（右）。在文档中发送最后一行下一个集群是代表-怨恨与质心在哪里Y啊。类似地，对于第i个聚类，对应的质心是Y¼i-1×awh;16i6 100：5最后一个簇表示文档中最上面的一行。它将具有Y坐标的最高值的质心，另外Y100和Yawh>100保持不变。<因此，KMeans将从k100=awh质心开始。初始质心生成的替代程序将计算K100质心。对于第一个质心，Y坐标为0。它表示文档中最底层的一行的聚类。最后一个质心表示文档中最上面一行的聚类。因此，在这种情况下，Y99。显然，对于第i个聚类，对应的质心是Y¼i-1; 16i6 100：160图4示出了利用LAA算法的默认实现生成的来自图1的属于同一聚类的单词用相同的颜色表示。我们想强调的是，乍一看，使用以下简单的线扫描算法可以实现相同的结果，避免聚类：将页面划分为表示行的K个高度根据Y坐标将单词分配给最近的单元格但是之前的方法需要后期处理。大量实验表明，在一般情况下，同一行的相邻字可以分配到不同高度的单元格与前面的简单算法。更准确地说，让单词w1;w2;. ;wm最初属于同一行。由于OCR缺陷和错误，预计对应的边界框在Y坐标上可能会有显著差异。例如，某些OCR引擎会夸大文本大小和/或文本周围的空白这可能导致一个situation，其中单词w1;w2;. ;wm分配给几个consecu-动态高度单元格heightcelli;heightcelli= 1，.. . ，heightcelli.在后处理中，这些单元格通常是交叉的，应该合并成一行，包含所有的单词w1; w2;. ;w m.见图6。复杂表单的聚类结果、OCR结果（左）、LAA聚类（右）。左图中的文本框输入到创建线的LAA。属于同一行的单词用相同的颜色表示见图7。复杂形式的聚类结果，简单算法（左），LAA（右）。简单算法生成相交线，而LAA生成正确的聚类（线）。见图8。数据集A. LAA-KMeans方法的最高精度为96.30%，而Line Scan方法的最高精度为79.02%。S. Tomovic，K.Pavlovic和M.巴伊切塔埃及信息学杂志22（2021）329335见图9。数据集B. LAA-KMeans方法的最高精度为98.59%，Line Scan方法的最高精度为94.03%。见图10。数据集A + B。LAA-KMeans方法的最高精度为97.17%，而Line Scan方法的最高精度为84.53%。见图11。文本行：FineReader（左），Tesseract（右）。实验表明，LAA平等地对齐FineReader和Tesseract识别的所有文本框有必要使用附加参数来确定合并条件。更准确地说，如果成立，则具有Y坐标heightcelliY和heightcelli1Y的高度像元heightcelli和heightcelli1将被合并到单行l中j高度单元iY -高度单元i1Y j6s：7不可能假定s具有普适值，特别是对于不堪重负的表单和OCR结果质量较低的这种形式和OCR结果的例子如图所示。五、左图中的文本框输入到创建线的LAA属于同一行的单词用相同的颜色表示这种情况如图所示。第六章最后图7表明，使用简单的行扫描算法不可能将文本框正确分布到行，而LAA生成正确的聚类（行）。除了前面的讨论，在图。8，Fig. 9和图10我们给出了实验结果，其中我们比较了LAA算法和线扫描算法的精度。从实验结果可以看出，LAA算法在总体图12个。LAA算法应用于可搜索PDF中封装的布局如果对应的边界框重叠在给定阈值Ta以上，则在LAA变换之后两个文本行被认为是相等的。测试案例特别是在更困难的数据集数据集A和数据集A + B上注意到显著差异。方法LAA-KMeans在数据集A上实现了96.30%的最大精度，而线扫描的最大精度为79.02%（图8）。方法LAA-KMeans在数据集A + B上实现了97.17%的最大精度，而线扫描的最大精度为84.53%（图10）。实验方案和所用数据集的详细描述是实验方案和结果部分的一部分。LAA算法循环的最后一步生成检测线一条线用一个簇表示。现在我们知道每个单词属于哪个聚类。该信息包含在生成的聚类模型中。简单地说，每个单词都标有它被分配到的集群的标识符。为例如，第i个聚类包含具有标签i的所有单词。粗略地说，这一步骤是作为一个过程来实现的，该过程在原始单词列表上迭代，检查用聚类模型分配的标签，并将标记相同的单词分配到同一行。图11 显示了 LAA 平等地对齐了两个OCR 引擎（FineReader 和Tesseract）识别的所有文本框，因为它仍然可以从找到的聚类中推测出来（图11）。 4）。5. 实验方案和结果在本节中，我们解释了用于测试LAA模块的实验方案。我们对56个非常低质量的文档图像集和30个较高质量但仍小于100 μ m的文档图像集进行了一系列实验。在本节的其余部分中，这些数据集分别被称为数据集A和数据集B。使用FineReader，我们从数据集A提取了1298行文本，从数据集B提取了1150行文本共2448条文本。Tesseract从数据集A识别出1165行文本，从数据集B识别出1106行文本。总共2271行文字。样本是来自几个不同类别的真实客户端文档：表单、发票、机票、合同等。对于COM，在几个非常流行的页面分割算法竞赛中使用的数据集大小在720和4034文本行之间[7]。S. Tomovic，K.Pavlovic和M.巴伊切塔埃及信息学杂志22（2021）329336ðÞ图十三.方法LAA-KMeans达到了95：31以上的精度，但对于Ta为98%。最大精密度为98：59%。图16. F对于阈值T . LAA性能更好，1a图14.方法LAA-KMeans-aws达到97：14以上的精度，但对于Ta为98%。最大精密度为98：57%。图15.在sklearn中实现的用于初始化KMeans算法的默认方法（由kmeans++表示）与方法LAA-KMeans-awh和LAA-KMeans进行了比较。在所有测试用例中，LAA-KMeans-awh和LAA-KMeans方法更好。每个图像都使用三个OCR引擎进行处理，即Tesseract，ABBYYFineReader和ABBYY Numbers Capture。LAA算法的性能基于通常由FM表示并在[7]中引入的线路精度测量来测量。FM度量（可以被认为是F1分数）被广泛用于估计线分割算法。它结合了检测率（可以被认为是召回率）和识别准确率（可以被认为是精度）。实验方案如图所示。 12个。我们将LAA算法应用于由封装在可搜索PDF中的文本行组成的布局，并为每对可用的OCR引擎生成。如果对应的边界框重叠在给定阈值Ta以上，则在LAA变换之后两个文本行被认为是相等的。在文献[7]中，作者提出90%，6Ta695%.阈值的值，因为较小的Ta值将产生更多的真阳性线-TP。图十七岁唯一可以与 KMeans 比较的聚类方法是 DBSCAN 。我们还测试了Agglomerative和OPTICS方法，用于将文本框聚类到行中。让我们解释一下实验中使用的性能指标。据我们所知，文献中已知的最相似的问题是线段分割，因此FM度量为我们服务作为基础。考虑使用两个不同的OCR引擎从单个文档图像生成的两个可搜索PDF。它们包含两种布局，可能不同。对于这个实验协议，我们可以假设每个布局都用一组文本行表示布局中的每一行都用周围的边界框表示，即左下角X的位置;Y，边界框的宽度和高度。我们需要估计左心耳转化图18.实验显示了比较不同归一化过程的结果。在所有测试用例中，最高的F1值都是通过十进制缩放实现的。S. Tomovic，K.Pavlovic和M.巴伊切塔埃及信息学杂志22（2021）329337DDNMDD1个2个MDD1个2个DNDDDDD1¼ðÞ两个给定的布局。在最好的情况下，LAA转换将生成相同的文本行集（即相同的布局）。通常，LAA变换可以输出不同的布局。考虑文档图像d和两个OCR引擎Ei，j，j。引擎Ei处理文档图像d并生成具有相应布局的可搜索PDF文件FEiL Ei表示为文本行集合L Ei;nl Ei; l Ei;. ; l Ei O. 同样地，DBSCAN聚类算法是基于密度的。这意味着集群被检测为与稀疏区域分离的高密度区域密度表示为给定区域中的数据点数量该算法需要两个参数min points和eps，因此定义了三种类型的数据点：核心，边界和离群点。核心点是样本，使得在其eps邻域内存在至少min个样本博尔-der点不是核心，但它们属于发动机E j 处理文档图像D并生成searchable PDF file F Ej 具有相应的布局L Ej 表示为文本行的集合LEj;nI Ej;I Ej;. ;I Ejo.一些核心问题。聚类由eps邻域内的核心点（连接点）加上它们的边界点组成。离群点是既不是核心点，边境在我们的上下文中，点是文本框或单词。连接布局L Ei 和L EJ 输入LAA算法。在最好的情况下单词和它们的边界单词表示一个文本行。离群值则是D dLAA将使两个给定的布局相等，即左心耳L EiLA.LEj，其中LAAL表示在不存在，因为即使在文档的孤立角落中的每个单词也必须被提取为文本行本身。因为如此我们必须设置最小值1/4。此外，它是具有挑战性的定义appro-LAA算法应用于给定的布局L。两种布局相同如果它们包含相同的文本行。如果相应的边界框重叠在阈值Ta以上，则两个文本行相等。一般来说，查全率、查准率和F1得分计算如下：召回¼TP2008年精密度¼TP 9mmF2×召回率×精度10召回和精确度其中TP是来自两个布局的一致对齐（真正）文本行的数量。注意，TP1/4 jLAA。L EI\LAA.L Ejj.易办事的独特价值。结果总结在图17中。Ta的值绘制在X轴上。Y轴给出了F1度量。使用数据集A最后，我们提出的实验结果，我们比较不同的程序规范化。在所有测试用例中，最高的F1值（Y轴）是通过十进制缩放实现的，如图18所示。我们在这个实验中使用了两个数据集的联合。正如我们在前几节中强调的，信息提取器严重依赖于布局信息。例如，无论文档源是什么，提取器都必须在确定的位置为了评估LAA方法是否可以提高提取器的准确性，我们进行了以下实验。样本来自一家医疗保健公司。提取者接受过样本训练用一台商用发动机加工并用样品测试当聚类算法是KMeans并且初始质心用（5）和（6）中给出的表达式计算我们分别用LAA-KMeans和LAA-KMeans-awh表示这些实现。在图13和图14中，我们呈现了一系列实验的结果，其中我们想要评估所呈现的方法是否可以与文献中已知的最佳解决方案竞争文献中已知的最相似的问题与文档图像中的文本行检测有关[7]。作者报告了94： 62至97： 72之间的精密度测量结果。方法LAA-KMeans的精度在93： 88和98： 59之间（图13）。方法LAA-KMeans-awh在95：05和98：57之间实现了精确度（图1）。 14）。我们将Ta从90%改为百分之九十九点五在本节的其余部分中，我们将介绍实验结果，其中我们估计LAA方法中特定步骤和过程的不同实现的性能。当聚类方法是KMeans时，LAA中初始质心的生成方法显着影响性能。其在图15上示出。用于初始化sklearn中实现的KMeans算法的默认方法（由kmeans++表示）与方法LAA-KMeans-awh和LAA-KMeans相似。在所有测试用例中，LAA-KMeans-awh和LAA-KMeans方法更好。我们将T设为¼95%。在这个实验中，我们使用了两个数据集的并集。参数Ta的值也影响LAA性能。如前所述，如果两个文本行的边界框重叠在阈值Ta以上，则两个文本行相等。在下面的实验中，我们将Ta从95%改变到99.5%。结果示于图16。Ta的值绘制在X轴上。Y轴给出了F1度量。正如预期的那样，算法的性能更好的阈值较小的值。作者在[7]中还报告，当阈值Ta降低时，FM测量增加的在该实验中使用两个数据集的并集LAA算法与不同的聚类方法进行了测试。唯一可以与KMeans比较的聚类方法是DBSCAN。来自相同的布局类，但使用其他引擎（免费和商业）处理要提取的字段定义如下：提供商名称、提供商编号、提供商地址、联系人姓名、电话号码和传真号码。当LAA被用作预处理步骤时，提取器的准确度提高了10%，如图1的介绍部分所建议的。二、6. 结论在本文中，我们制定的问题，以产生平等的物理布局相同的文档图像，而不管使用的OCR引擎。文档布局显示为一组文本行。此外，我们提出了LAA方法作为解决问题。LAA方法基于聚类方法。其主要思想是引入独特的测量尺度，并将单词分组为集群，即文本行。该算法的输入是由未知OCR引擎生成的可搜索PDF文件。LAA对齐给定的物理布局，如果使用任何其他OCR引擎来处理相同的文档图像，则所得到的布局总是相同的当应用以下参数

下载后可阅读完整内容，剩余1页未读，立即下载