行级关键词识别的深度特征方法

69 浏览量更新于2023-10-19 收藏 629KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12658一种行级关键词识别的深度特征方法George Retsinas1，2，Georgios Louloudis1，Nikolaos Stamatopoulos1，Giorgos Sfikas1，3，BasilisGatos11信息学和电信研究所，NCSR2希腊雅典国立技术大学电气与计算机工程学院3希腊约阿尼纳大学计算机科学与工程系{georgeretsi，louloud，noughty，sfikas，bgat}@ iit.demokritos.gr摘要关键词定位（KWS）被定义为检测给定词的所有实例的问题，所述给定词由用户在数字化文档主体中作为查询词图像（按实例查询，QbE）或查询词串（按串查询，QbS）提供。关键字检测通常在预处理步骤之前进行，其中文本被分割成文本行（行级KWS）。遵循这种范式的方法被基于测试时间计算昂贵的手写文本识别（HTR）的方法所垄断;此外，它们通常不能处理图像查询（QE）。在这项工作中，我们提出了一个时间和存储效率，基于深度特征的方法，使图像和文本搜索选项。三个不同的组件，所有建模为神经网络，结合：归一化，特征提取和表示的图像和文本输入到一个共同的空间。这些组件，即使在字级图像表示设计，合作，以实现一个有效的行级关键字定位系统。实验结果表明，该系统是等同于国家的最先进的KWS方法。1. 导言和相关工作当今世界存在大量的数字化手写文档，并且数量不断增加，这迫切需要高效和自动的关键字定位（KWS）是指自动检索文档图像中给定关键字查询的实例的任务。在识别被认为非常困难或预期结果不佳的情况下，KWS已被提议作为全文识别的替代方案[5]。根据用户指定查询词的方式，使用示例词图像或仅使用文本字符串，我们可以区分查询的例子（QbE）查询的字符串（QbS）关键字发现方法，分别。KWS系统的不同分类与文档集合的分割的存在相关，从而导致基于分割的系统和无分割的系统的区别无分割方法的目标是在整个文档上定位查询实例，而不涉及任何分割过程，而基于分割的方法假设已经进行了进入行（基于行）或词（基于词）级别的分割步骤。所提出的方法被认为是基于分割的（更具体地，基于线的），因为假设提供了分割的线。引入的主要创新是，第一次，在同一KWS系统下允许在线路级别上的QbE和QbS搜索选项。所提出的系统依赖于字符金字塔直方图（PHOC）嵌入的成功[1]，基于三个组件的组合，即字符宽度归一化、特征提取和公共空间编码器。应该注意的是，每个子任务的主要组成部分是一个神经网络。在著名的数据集IAM [9]上进行的实验证明了所提出的系统的有效性。关于基于单词的KWS方法，Alma za′ n等人的开创性工作。[1]引入了PHOC表示，影响了许多最近提出的方法。简而言之，PHOC表示对特定字符是否出现在文本字符串的特定空间区域进行编码。该方法的主要思想在于能够将文字图像和文本串嵌入到一个公共的矢量子空间中。对词图像和文本串两者的共同表示的使用使得使用词图像（QbE）或词串（QbS）的搜索可行。上述PHOC表示是使用支持向量机（SVM）学习的，而核公共子空间回归（KCSR）是为了找到最大的投影12659将图像空间和文本空间的相关性最小化在一个共同的潜在子空间中。最近的一些方法受到了 Alma za'n 等人的启发，[11][12][7][8][16]进一步扩展或调整所有这些基于单词的关键词识别方法都使用卷积神经网络（CNN）代替SVM和KCSR进行属性和公共子空间学习。Sudholt和Fink [11，12]是第一个使用CNN来学习PHOC表示的人，给出了原始单词图像内容。该方法在QbE和QbS两种情况下都能够优于Almaza′ n的在Krishnan et al.[7]中，首先使用CNN学习单词图像表示，随后使用KCSR学习公共子空间，如[1]中所述。最后，在Wilkinson etal.[16]采用三元组CNN，接受成对的正字匹配与负字匹配。此外，提出了一种新的词嵌入，称为DCT的字（DCTofW）。分类为基于行的方法的方法通常订阅QbS范例。基于行的关键字定位首先由Fischer等人引入。[3]的文件。是一种基于特征隐马尔可夫模型（HHRM）的有监督方法。所提出的方法的主要优点是它能够在线图像上工作，从而不需要分词步骤。此外，该系统使用的字符模型，可以很容易地训练，因为行级转录和分割的文件图像可以很容易地产生，同时启用零拍摄学习在同一时间。作者在[2]中扩展了这项工作，他们在解码步骤中结合了字符语言模型（一元语法和二元语法），与他们以前的方法相比，性能更好。Fischer等人提出的方法的主要缺点是关键字特定的HMMViterbi解码过程的大计算成本是获得每个待识别单词的置信度分数所需的Toselli和Vidal [14]提出了一种计算置信度分数的新方法，直接从仅使用填充器模型的单个Viterbi解码过程中产生的字符网格中计算。实验表明，使用所提出的方法获得相同的定位结果，而需要一个和两个数量级的查询计算时间少。Frinken等人报告了基于行的关键字定位的最佳方法[4]的文件。在这项工作中，作者使用了一个递归神经网络（BLSTM网络），使用了以前用于手写文本识别（HTR）的CTC令牌传递算法的修改在IAM数据集上进行的实验表明，该方法优于经典的HMM方法。最后，Toselli et al.[15]提出了一种基于帧级词后验概率的基于行的关键词定位方法。KWS置信度得分为通过由成熟的统计HTR系统产生的单词图获得，基于随机光学字符模型以及概率词典和语言模型。与Frinken等人的系统相比，他们的系统实现了非常有希望的结果这仍然是性能最好的。本文的其余部分组织如下。我们在第2节中概述了拟议的系统并概述了其主要贡献。第3、4和5节详细描述了拟议系统的主要组成部分，即字符宽度规范化、特征提取和公共空间编码器。在第6节中，提出了拟议的线匹配程序，而KWS试验的实验结果在第7节中报告，突出了拟议系统的有效性最后，在第8节中得出结论。2. 系统概述和贡献在这项工作中，我们提出了一种新的关键字定位方法，是基于深度特征提取和快速查询文本行匹配。所提出的方法的关键思想是从PHOC估计网络的卷积输出中提取的特征，在输入是线条图像甚至是文档图像的情况下，在单词图像上训练，应该是相似的。我们应该强调的是，卷积层不受输入图像大小的限制。结果，关键字搜索过程可以被处理为特征匹配过程，当输入是线图像时进行1-d搜索，或者当输入是文档图像时进行2-d搜索（无分割方法）。基于线分割方法的成功[6]，我们假设线图像作为输入，因为匹配过程显著简化（1-D搜索）。我们的处理管道由三个组件组成，全部建模为神经网络：（a）字符宽度规范化。使用此组件，我们可以规范化输入，使深度特征的水平区域相互消耗，并实现快速查询匹配，因为同一单词的实例在规范化的线图像上具有相似的宽度。(b)特征提取。该组件负责为查询以及文档集合的文本行生成有区别的特征。深度特征被定义为中间层的激活，在将图像馈送到网络时产生。这些功能已被证明是强大的训练测试内容的差异;例如，它们已经成功地应用于跨语言KWS任务，而不需要模型细化[10]。(c)通用空间编码器该组件启用QbS选项，即使用字符串作为查询而不是单词图像。在处理了查询和文本行之后，可以使用快速匹配来动态地将查询与文本行集合进行比较，该步骤是离线执行的12660QbE特征提取QbS特征提取估计字符宽度宽度估计卷积最大池完全连接Layers层PHOC估算预定义字符宽度三维特征图：线特征提取线下线要素表示：QbE：（，）匹配QbS：秘密行分图1.建议的KWS系统概述。单词图像和字符串属性输入被编码到公共空间中，该公共空间适合于对表示线图像的卷积特征序列执行有效的线匹配方法。xq是最终特征向量，nq是从查询中提取的线段的数量。procedure.由于两个因素，可以非常有效地完成特定查询与单个文本行的匹配(a)通过在一定数量的水平区域上进行最大池化来提取匹配的特征。（b）由于字符宽度规范化组件，池化过滤器的大小在给定查询的单词长度的情况下是固定的。匹配到- kens的文件将被分类并返回给用户。所提出的模型处理管道以及查询到文本行匹配可以在图中查看。1.一、这项工作的一个有趣的方面是，所有上述组件都专注于最简单的单词级图像表示，并进行协作，以便有效地解决行级KWS的复杂问题。3. 字符宽度规格化不同的书写风格和不同的尺度导致了图像宽度的巨大差异，即使是同一个词。这种变化与规模密切相关，使行匹配过程变得复杂，因为我们无法预先定义特定单词（查询单词）所占用的空间。因此，为了建立一个有效的KWS系统，我们提出了一个图像规范化方案，其中同一个词的不同实例具有相同的宽度。实现这种标准化的关键步骤是估计平均字符宽度，这是由卷积神经网络执行的，因为它可以很容易地与视觉特征（例如，笔划的曲率）。标准化步骤应该能够估计字符宽度，而不管输入图像（单词或行）的大小。一种简单而有效的执行方式对字和行这两个类别的宽度估计是从图像中提取一组固定大小的块。补丁是从图像中随机采样的，而它们的数量与输入图像的大小成比例。宽度估计网络 fw（）期望固定大小的图像块作为输入，并为特定块提供字符宽度的估计。由于手头的任务是回归问题，因此使用均方误差（MSE）损失函数来训练网络fw尽管问题已经明确说明，但训练CNN所需的标签，即对应于图像块的字符宽度事先是未知的。我们遵循一个简单的过程，将平均字符宽度（标签）分配给定一个单词图像及其转录，由该单词图像生成的每个补丁的预期平均字符宽度（标签）是值w/nc，其中w是图像宽度，nc是单词转录的字符数尽管生成的回归标签不准确，但它们足以完成此回归任务，因为几个像素的差异不会影响最终结果。事实上，经过训练的网络在测试集上提供了3个像素的平均损失，这对于标准化任务来说是可以接受的。给定图像I，一组块Pi，i=1，.，np并且每个片具有其自己的宽度估计wi=fw（Pi）。系统可能会产生错误的字符宽度估计，特别是对于不包含代表性信息（例如，主要包含空白空间的补丁）。这个问题可以通过分配中值来解决12661完全连接部件ROI池ROIROI卷积部分wc=median（{wi}）（更可能对应于平均字符宽度）作为对整个图像的估计。在估计平均字符宽度之后，我们将初始图像标准化为固定的平均字符宽度wref（由用户定义）。这种归一化对应于简单的图像宽度，其宽度被因子wref/wc重新缩放。归一化过程如图1所示。4. 特征提取经过训练以学习语义预测任务的神经网络可以用于轻松提取所谓的深度特征[17]。我们使用深度特征来描述文本行和查询，因为已知这些特征在各种视觉任务上优于传统的特征提取方法。这些特征被提取为具有前馈架构的神经网络的激活，调谐到语义属性预测任务。特别地，该任务是预测对应于单词的特定部分处的单字或二元组的存在或不存在的单词级属性。为此，我们采用了受VGG架构启发的PHOCNet架构[11，12]。输入是一个任意大小的单词图像每个sig-moid输出预测一个单词的语义属性，例如：字母“b”是否所提出的 PHOC 估计器网络具有两个不同点w.r.t.PHOCNet架构。第一个新颖点是在特定的感兴趣区域（ROI）上应用自适应池化，其对应于初始输入图像的一部分。我们使用包含相邻单词信息的单词图像进行训练，即而不是像分词基础事实所指示的那样对单词图像进行严格裁剪（参见图2）。这种训练策略以这样的方式调整神经网络，即它可以有效地推广到对应于整个线条图像的输入。此外，它可以创建更强大的过滤器，不受相邻图像元素的影响。为此，如图2所示，还为池化操作定义了具有感兴趣区域的边界框。因此，训练输入由成对的图像和边界框组成。第二个新颖点与用于创建具有完全连接的头部的固定大小的桥的池化方案有关。我们采用了一个水平分区为基础的计划，划分文本行或文字输入到固定大小的水平段。该方案遵循已广泛用于关键字定位的分区技术的基本原理[5]。也避免了金字塔池化的使用，与[11，12]相反。我们通过完全忽略卷积图上的分割方案来进一步简化上述池化方案，而是在整个图上应用最大池化这个过程将导致创建一个特征向量，其大小将等于最后一个卷积层的深度。此外，在整个卷积映射上应用最大池化操作大大减少了生成的特征向量的大小在所提出的系统的上下文中，这种观察的意义在于，每个单词使用不同滤波器响应的集合来表示，而不是特征向量的序列（分区）或序列的集合（金字塔）。创建一个单一的特征向量简化了即将到来的匹配过程，可以使用最近邻算法完成。因此，建议的池化策略的结果创建一个简化和紧凑的特征描述符，适合于快速匹配。图2. PHOC估计CNN由三个不同的部分组成：1）卷积2）ROI池化和3）完全连接。在包含单词实例以及单词的ROI边界框的扩展图像上执行训练。假定fc是由卷积层组成的函数，fp是ROI上的池化操作，ffc是导致PHOC 描述的全连接部分，PHOC估计过程可以公式化如下：x=fp（fc（I），b），其中I是输入图像，b是ROI边界框，x∈Rnd是提取的深度特征向量，y∈Rnphoc是估计的PHOC。注意，nd是一个重要的超-参数，因为它定义了提取的深度特征的维度。5. 公共空间编码器PHOC估计网络在丢弃完全连接的层后，提供了区分特征，非常适合基于线的方法。然而，丢弃的层创建了卷积特征与PHOC表示之间的连接，这对于PHOC表示是强制性的。输入图像卷积特征金字塔合并固定尺寸特征向量12662QbS方案。因此，QbS场景需要反函数，即接受PHOC嵌入（输入）并产生与PHOC的估计卷积部分（输出）生成的特征向量相似的特征向量的函数。该函数可能出现的一个问题与以下事实有关：每个输入（PHOC表示）对应于各种输出（由不同作者书写的相同单词的单词图像），因此该问题是不适定的，因为该函数必须描述一对多关系。这个问题可以通过选择将PHOC嵌入y以及卷积特征向量x编码到固定维度ne的公共空间中来有效地解决。编码过程由两个独立的编码函数执行，即ep（编码PHOC嵌入）和ef（编码卷积特征），它们由由全约束神经网络组成的神经网络建模。结层因此，给定一对（x∈Rnd，y∈Rnphoc），所得的ep（y）∈Rnee和ef（x）∈Rnee在编码空间中一定是恒等的关于编码函数的训练的一个关键方面是创建适当的损失函数。明显的目标是使ep（y）和ef（x）之间的距离最小化，但是这样的方法可能导致三解（例如，投影到原点）。为了解决这个问题，训练是使用不同的单词对来执行的，即。（x1，y1）和（x2，y2），并且目标是在保持不同单词之间的适当距离的同时最小化同一单词内的编码距离。如果距离d（·，·），则内部距离i和交叉距离c被定义为：i1=d（ef（x1），ep（y1）），i2=d（ef（x2），ep（y2））c1=d（ef（x1），ef（x2）），c2=d（ef（x1），ep（y2））c3=d（ep（y1），ef（x2）），c4=d（ep（y1），ep（y2））i=（i1+i2）/2（2）c=（c1+c2+c3+c4）/4（3）显而易见的选择是最小化内部距离，同时最大化交叉距离，即损失为L=i-c。然而，我们的目标是保护至少与参考距离一样大的交叉距离m=d（y1，y2），以便保持初始PHOC表示的相关性。我们把这个参考距离称为裕度m。保证金期限至关重要，因为数据在新空间上的数据分布（借助于裕度项）预期类似于PHOC空间上的数据分布。事实上，交叉距离应始终比内部距离大上述余量（c > i+m），以确保可分离的类话因此，损失函数被公式化为：L=i+max（0，i-c+m）（4）实现细节：1）ep由具有ReLU非线性的4个完全连接的层组成，而ef是线性变换。2)编码空间的维度被设置为ne=128。3)选择余弦距离作为距离函数d。4)选择对（x，y），使得它们的PHOC表示相距不远，即，d（y1，y2）小于阈值t。后者有助于收敛，因为对的无约束选择可能会产生容易分离的dissim- ilar对。6. 直线图像特征与匹配在子系统及其相应网络的定义之后，本节详细描述了上述系统如何协作以执行基于线路的KWS。我们可以区分两个主要步骤：1）从线图像中提取紧凑特征并存储它们。此步骤在KWS应用程序中离线2）给定一个查询（无论是图像还是字符串），提取适当的特征并计算特定关键字和线条之间的匹配分数（见图11）①的人。6.1. 线特征提取线特征的提取包括图1中所示的三个步骤，作为整个系统的一部分：1. 使用字符宽度规格化组件（参见第3节），相对于预定义的平均字符宽度 wref 调整输入行图像（hi×wi调整后的图像大小为h×w。2. 将PHOC估计器网络的卷积部分（fc，见第4节）应用于步骤1中产生的调整大小的图像。输出对应于3-D特征图，其高度和宽度是适当的。根据调整大小的线图像的高度和宽度（h/4×w/4-将图像下采样4的内核和步幅2的两个最大池化层），而其深度对应于最终卷积层的滤波器的数量（nd=512）。3. 将上述视觉特征的三维图（h/4×w/4×nd）组织成一系列特征向量（nl×nd）。三维地图的组织成一系列的特征向量，使有效的，查询词和行图像之间的历史匹配该算法利用局部最大池化对大小为h/4×wstep的非重叠段进行处理，其中wstep=wref/4nquant.结果，每个线图像由短的12663H/4Maxj次映射QQ特征向量序列，减少了存储成本以及匹配时间。该步骤如图3所示。W/41……图3.从三维卷积特征图中提取线特征每条线由大小为nd的n-l个特征向量的序列表示。每个特征向量在输入线图像中占据wref/nquant6.2. QbE特征提取1. 计算线段数nq，方法是将查询字符数2. 计算查询字符串sq的PHOC嵌入。3. 使用相应的神经网络ep对PHOC嵌入到公共编码空间中进行编码（参见第5节）。-最终特征向量xq被生成为：ep（PHOC（sq））.6.4. 线匹配假设线特征表示为一系列向量{xi}， xi∈Rnd，i=1，. . .，nl. 查询（图像或字符串）表示为单个特征向量xq∈ Rne。为了执行匹配，应该预先知道的必要参数是对应于查询宽度的线段数量nq，即，有多少条线段构成查询。在查询特征提取步骤期间计算数量nq（参见第6.2和6.3节）。对于每条线，使用余弦距离计算一组分数。更详细地，使用查询特征向量与使用最大池化过程在连续的nq个线特征上创建的特征向量之间的余弦距离来执行评分，即：给定查询图像Iq，我们应用以下步骤：x<$i[k]= maxj=0，…nq−1xi+j[k]，k=1，. . . ，nd−nq+1（5）1. 估计图像的平均字符宽度，使用它来相应地调整图像的大小（调整大小的IM-d[i]=1-cos（ef（x<$i），xq），x<$i∈Rnd，xq∈Rne（6）年龄记为I′，其大小为hq× wq）。连续nq的归并线特征到单个FEA中，2. 计算线段的数量nq，通过除以调整大小的图像3. 应用PHOC估计器的卷积部分真实向量，使用max opera的滑动窗口方法在图4中可视化。由于可以从线图像中提取一组特征向量xi（总数等于nl-nq+1），因此最终得分是使用该组特征向量xi计算的所有得分中的最小值：网络（fc，见第4节）。这导致了一个三维特征图的大小是h/4×w/4×n。行评分=最小值i=1，…nl−nq+1d[i]（7）q q d最后，通过对每个通道执行最大池化来提取单个特征向量（即，取hq/4×wq/4值上的最大值）。应该注意的是，在此步骤期间，没有定义ROI。4. 使用编码函数e f将生成的特征向量投影到公共编码空间中（参见第5节）。-最终特征向量xq被生成为：ef（fp（fc（I′）6.3. QbS特征提取给定一个查询字符串sq，我们应用以下步骤：对于匹配步骤，必须将两个特征vector向量to have the same相同dimensions尺寸. 为此，每个特征向量xi使用网络e f被投影到公共编码空间。在特征提取步骤期间，已经针对查询特征向量xq执行了该任务。上述匹配过程的简单性是所提出的方法的相当大的优点，因为它减少了检索时间。7. 实验结果7.1. 实验装置在著名的IAM数据集1上对所提出的系统的性能进行了评估。共1539人，...12664��简体中文方法QbE-PHOCQbE-cfeatQbS-PHOCTPP83.9882.1593.01分区83.6682.2492.47整个83.2781.7391.11表1. MAP（%）在词分段IAM数据集上对不同池化策略的性能评估。因此，对于我们的实验，我们采用相同的字符集（68个唯一字符），并使用尽可能多的unigrams（1020维向量）创建5级PHOC嵌入。KWS方法的性能记录在平均平均精度（MAP）方面，因为它是一个检索问题。检索列表由测试集中的行组成，这些行根据它们与查询的匹配分数进行排序包含请求的查询的行被视为命中。图4. 根据查询大小nq进行线特征变换。这一步是必不可少的，以便有可比的查询和行功能。由657位不同作家所写的现代英语书面文档图像，它被划分为与作者无关的训练集（6161行）、验证集（920行）和测试集（929行）。为了与参考文献中报告的结果进行比较，我们遵循了IAM数据集的两个最广泛使用的设置。IAMDB 1：选择了882个查询，如[3]使用所有至少出现一次的非停止词训练集和测试集。IAMDB2：在训练集中出现的4000个最频繁的单词中，所有不停止的单词都被选为查询，如[4]所示，总共产生3421个查询此外，为了测量所提出的系统的性能，我们考虑了两种可能的场景，如[3]中所示。在第一种情况下（本地），本地阈值分别用于每个关键字。关于第二种情况（全局），使用独立于关键字的全局阈值。对于常见关键词的词汇表，可以在训练阶段优化局部阈值。另一方面，对于任意的词汇表外关键字，必须应用全局阈值。KWS技术的另一个关键方面是字符集的定义。基于单词的方法只假设字符和数字字符[1]。相反，基于行的方法[4]假设了更广泛的可能字符，包括大写字母以及一些特殊字符（例如，“/”，“-"等。这一品种也是前-1http://www.fki.inf.unibe.ch/databases/iam手写数据库7.2. PHOC估计的池化策略所提出的系统相对于PHOCNet的一个主要区别是在卷积部分和完全连接部分之间的自适应池化层处使用仅具有一个段的PHOC估计网络。我们通过在自适应池化层评估三种不同的策略来实验池化操作对系统性能的影响：1）时间金字塔池化- TPP（初始PHOCNet架构[12]）2）分区为5段（没有金字塔方案）3）在整个卷积输出上使用最大池化（1段）。这些策略在[12]中的分段词上进行评估，并且查询列表的提取类似于[1]。应该强调的是，由于本工作中使用的字符集显著不同（见第7.1节），因此结果不能直接与最先进的单词级KWS技术进行比较。结果呈现在表1中，其中我们区分了PHOC级（QbE-PHOC）和深特征级（QbE-cfeat）上的QbE场景以及PHOC级（QbS-PHOC）上的QbS场景。实验结果表明，池化策略并没有起到显著的作用，因为无论池化方案或特征级别如何，系统的性能都是相似的。因此，在整个卷积输出上使用最大池化简化了随后的匹配过程，同时几乎不影响整个系统的性能7.3. 编码器性能这项工作的一个主要贡献是，它使用编码神经网络将卷积特征和PHOC嵌入投影到一个共同的编码中，从而在深层特征级别上实现了Max∙∙∙∙∙∙12665方法当地全球带ROI的88.7383.15无ROI的87.1379.14QbE与ROI84.2573.16QbE无ROI83.0171.58表 2. ROI 变化对 KWS 系统性能的影响。在生产线水平IAMDB 1设置下报告MAP（%）结果（nquant= 3）。空间因此，我们可以在新的编码空间上评估QbE和QbS在这个实验中，我们在整个卷积映射上使用了池化策略。具有编码器组件的字级KWS结果为：QbE和QbS的MAP分别为81.36%和89.43%。这些结果类似于没有编码器的KWS场景，即使特征维度被压缩（从PHOC的1020和卷积特征的512到编码特征的128），同时启用基于特征的QbS。7.4. 线路级KWS在确认了系统组件的有效性之后，我们继续使用IAMDB1和IAMDB2设置对整个拟议的KWS系统进行评估值得注意的是，即使QbE场景没有被现有方法在线路级别上考虑，我们也使用IAMDB 1设置的查询列表对其进行了评估，如果查询字符串有多个实例，则随机选择查询图像（报告的QbE结果是10次运行的平均MAP）。但是，IAMDB2设置不能用于这种情况，因为查询字符串不一定存在于训练集中。首先，我们使用IAMDB 1设置评估特征提取网络的ROI变化的影响，如表2所示。结果表明，使用扩展单词图像的训练方案，如在ROI变化中所做的那样，有助于网络生成与提取的线特征更相似的特征。所提出的方法以及几种最先进的方法的实验结果，对于IAMDB1和IAMDB2设置，在表3中报告。关于QbS场景，所提出的系统显著优于文献中报道的大多数基于线路的KWS方法，并且与最佳系统相比，其性能相当[4]。同时，实验结果表明了该方法的有效性和实用性，它支持QbS和QbE两种场景，因为QbE场景获得了与QbS场景相当的结果（特别是对于局部评估场景）.QbS和QbE情况之间的性能差距可以归因于QbEap-IAMDB1 IAMDB2方法当地全球全球Fisher等人[3]第一章68.9247.75-Fisher等人[二]《中国日报》-55.0536.00Toselli等人[13个国家]--61.03Toselli等人[第十五条]--72.00Frinken等人[4]美国--76.00建议的QbS88.7383.1575.31拟议QbE84.2573.16-表 3. 行级 IAMDB 1 和 IAMDB 2 设置的 MAP （ % ）评价（nquant= 3）。与每个单词唯一的并且默认地在单词聚类的中心的QbS特征相比，Proach可以生成位于单词聚类（由同一单词的所有实例的特征向量另一个重要的观察是，即使我们不能直接评估字符宽度归一化组件，因为我们没有准确的标签，我们可以得出结论，它执行得足够好，因为完整的管道提供了值得注意的结果。最后，我们应该强调的是，所提出的方法可以用于实时应用程序，由于其存储和时间效率。为了清楚起见，我们报告了IAM数据集的一些指示性存储和时间要求：离线计算的线图像特征需要260KB存储（没有任何量化），而将查询与线进行比较需要大约0.28毫秒。8. 结论在这项工作中，我们提出了一个关键字定位系统，能够执行QbE和QbS KWS下，一个统一的框架。该系统建立在三个不同的神经网络的协同作用上，分别训练标准化，将图像内容编码为特征，并构建一个通用的文本和图像空间。尽管训练是在单词级别上进行的，但比较实验结果表明，所提出的系统与最先进的基于HTR的QbS KWS方法相当，同时它也成功地实现了QbE替代方案。作为未来的工作，我们设想的推广所提出的框架的分割自由的情况下，即。不依赖于在任何级别上存在文档图像分割，而是将该方法应用于整个（未分割的）文档图像。致谢：这项工作得到了欧盟项目READ（地平线-2020计划，资助参考）的支持。674943）。12666引用[1] J. Alma za′ n，A. Gordo，A. F或ne's和E。 Valv e ny. 具有嵌入属性的单词定位和识别。IEEE Transactions onPattern Analysis and Machine Intelligence，36（12）：2552-2566，2014. 一、二、七[2] A.作者：H. Bunke，和C.孙用字符语言模型改进基于hmmm的关键字识别。第12届国际文件分析和识别会议（ICDAR），第506-510页，2013年。二、八[3] A. Fischer、A. Keller，V. Frinken，and H.邦克无词典手写单词识别使用字符 history 。 Pat-tern RecognitionLetters，33（7）：934-942，2012. 二七八[4] 诉Frinken，A.费希尔河Manmatha和H.邦克一种基于递归神经网络的词识别方法。IEEE transactions on patternanalysis and machine intelligence，34（2）：211-224，2012. 二七八[5] Angelos P. Giotis，Giorgos Sfikas，Basilis Gatos，andChristophoros Nikou.文档图像词识别技术综述。PatternRecognition，68：310- 332，2017. 1、4[6] T. 格鲁宁湾Leifert，T.Strauss和R.拉班一种鲁棒的、无二值化的历史文档文本行检测方法。2017年第14届IAPR国际文档分析与识别会议（ICDAR），第01卷，第236-241页，2017年11月。2[7] P. Krishnan，K. Dutta和C.贾瓦哈尔用于手写文本精确识别和检索的深度特征嵌入第15届手写识别前沿国际会议，第289-294页IEEE，2016. 2[8] Praveen Krishnan和C.贾瓦哈尔Hwnet v2：一种用于手写文档的高效单词图像表示。CoRR，abs/1802.06194，2018。2[9] U.- V. Marti和H.邦克IAM数据库：一个用于脱机手写识别的英文句子数据库。国际文献分析与识别，5（1）：39-46，2002年11月. 1[10] George Retsinas，Giorgos Sfikas，and Basilis Gatos.可转换的关键字识别深度功能。在Multidisci-plinary DigitalPublishing Institute Proceedings，第2卷，第89页，2018年。2[11] S. Sudholt和G. A.芬克Phocnet：一个深度卷积神经网络，用于手写文档中的单词识别。第15届手写识别前沿国际会议（ICFHR），第277-282页。IEEE，2016. 二、四[12] S. Sudholt和G. A.芬克基于cnn的单词识别中单词串嵌入和损失函数的第14届国际文献分析与识别会议，第493-498页IEEE，2017年。二四七[13] 阿雷·安德罗·H·E'ctor·托塞利，琼·普伊格瑟·V·R，恩里克·V·i-dal.提高手写文本中无词典词识别置信度的两种方法。在第15届国际手写识别前沿会议（ICFHR）中，第349-354页。IEEE，2016. 8[14] A. H. Toselli和E.维达尔用于手写文档中关键词识别的快速hmm填充方法。在第12届国际文件分析和识别会议中，第501-505页。IEEE，2013。2[15] A. H. Toselli，E. Vidal，V. Romero，and V.弗林肯基于字图的手写文档图像关键词识别Information Sciences，370：497-518，2016. 二、八[16] T. Wilkinson和A.布兰使用深度神经网络进行语义和逐字单词在第15届手写识别前沿国际会议（ICFHR）中，第307-312页。IEEE，2016. 2[17] Richard Zhang 、 Phillip Isola 、 Alexei A Efros 、 EliShechtman和Oliver Wang。深度特征作为感知度量的不合理有效性。arXiv预印本，2018年。4

下载后可阅读完整内容，剩余1页未读，立即下载