面向手写数学表达式的语法感知网络

190 浏览量更新于2023-10-25 收藏 13.13MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

145530面向手写数学表达式识别的语法感知网络0袁晔1�，刘晓1�，Wondimu Dikubab2，刘辉1，季志龙1，吴中勤1，白翔2†01 Tomorrow Advancing Life 2 Huazhong University of Science and Technology0{yuanye8, jizhilong}@tal.com, {ender.liux, wondiyeaby, ryuki122382}@gmail.com030388514@qq.com,xbai@hust.edu.cn0摘要0手写数学表达式识别（HMER）是一项具有许多潜在应用的挑战性任务。最近的HMER方法采用编码器-解码器架构取得了出色的性能。然而，这些方法坚持“从一个字符到另一个字符”的预测范式，由于数学表达式的复杂结构或潦草的手写，这不可避免地会产生预测错误。在本文中，我们提出了一种简单高效的HMER方法，这是第一个将语法信息纳入编码器-解码器网络的方法。具体而言，我们提出了一组语法规则，将每个表达式的LaTeX标记序列转换为解析树；然后，我们使用深度神经网络将标记序列预测建模为树遍历过程。通过这种方式，所提出的方法可以有效地描述表达式的语法上下文，减轻HMER的结构预测错误。在三个基准数据集上的实验证明，我们的方法比之前的方法具有更好的识别性能。为了进一步验证我们方法的有效性，我们创建了一个包含来自一万名作者的10万个手写数学表达式图像的大规模数据集。本文的源代码、新数据集†和预训练模型将公开提供。01. 引言0随着深度学习方法的发展，现有的文本识别方法擅长以图像到序列的方式处理文本行[24-26,35]。然而，它们可能无法处理复杂的结构，如数学表达式（ME）。本文研究了离线手写数学表达式识别（HMER），这是许多0* 作者贡献相等。†https://ai.100tal.com/dataset ‡ 通讯作者0应用程序，如办公自动化、答题卡纠错以及帮助视觉障碍人士理解数学。HMER非常具有挑战性，因为二维结构关系对于理解数学表达式至关重要，而这在以前的基于深度学习的方法中很少考虑。此外，手写输入带来的歧义进一步增加了HMER的难度。早期的研究已经对ME的语法结构进行了深入研究，并为HMER定义了适当的语法[1, 6, 14,34]。这些语法仅用于将识别出的符号分组成结构化输出，严重依赖于符号识别的性能。此外，由于这些方法主要设计有手工特征，它们的性能远远不符合实际应用的要求。由于深度神经网络的最新进展，一些最新研究[8, 39,43]将HMER作为一个图像到序列预测过程来处理，使用编码器-解码器架构，实现了显著的性能改进。然而，这些方法或多或少地忽视了ME中包含的语法信息。为了清楚地说明这个限制，我们以图1中的两个最近的网络架构为例。张等人[43]提出了一种名为Watch，Attend andParse（WAP）的方法，该方法采用完全卷积网络对手写图像进行编码，并使用递归神经网络作为字符串解码器生成序列输出（图1（a））。[42]（DWAP-TD）试图通过将目标句法结构树分解为一系列子树来考虑语法信息，其中每个子树由父节点和子节点组成（图1（b））。尽管DWAP-TD可以生成树结构的输出，但它仍然遵循“从一个字符到另一个字符”的范式，即下一个符号的预测主要基于当前符号。我们认为，这种方法在学习过程中并没有明确考虑ME的句法关系，缺乏生成合理树预测的语法约束。为了解决结构预测错误并改进复杂的语法树理解，我们提出了一种精心设计的\frac<-5}{...15<+-\frac......15<+-𝑬eos(a) WAP(b) DWAP-TD(c) SAN3eos1eos𝒅𝒚𝒅𝒙 = 𝟏𝒅𝒙𝒅𝒚𝒅𝒚𝒅𝒙 = 𝟏𝒅𝒙𝒅𝒚𝒃𝟐𝒙𝒃𝒚𝒃𝟐𝒙𝒃𝒚HMER is a critical branches of document analysis andrecognition that can be applied to recognize answer sheetsof mathematics and digitize numerous kinds of scientiﬁcliterature.Compared with conventional handwriting textrecognition, HMER is a more challenging task due to ambi-guities coming from handwriting style, the two-dimensionalstructures complexity, and irregular scales of handwrittenmathematics symbols. Therefore, HMER can be dividedinto three major challenging tasks [5, 22, 36]: groupingstrokes of the same symbol by segmentation, recognizingthe symbols, and grammar-guided symbols structural re-lationship analysis to generate a mathematical expression.Traditional HMER methods tried to solve these challengessequentially and globally.The sequential methods [1,4,5,10,12,13,28,30,37] ﬁrstsegment input expression into mathematical symbols, clas-sify each symbol separately, and then the structural relation-ship analysis recognize the mathematical expression. Thesemethods employed classiﬁcation techniques such as HMM[1,10,13,30], Elastic Matching [4,28], Support Vector Ma-chines [12], and tree transformations [37]. On the otherhand, the global approaches [2,3,17] apply a comprehensivestrategy to learn mathematical symbols and their structuralrelationship analysis, while segmenting the symbols implic-itly. These methods handle HMER as a global optimizationof mathematical expression segmentation, symbol recogni-tion, and structure of the expression identiﬁcation based onthe symbol recognition results.Recent deep learning-based HMER methods can beroughly classiﬁed into the sequence-to-sequence approachand the tree-structure approach. Most HMER methods ex-tensively adopt the sequence-to-sequence approach.Theauthors in [8, 15, 16, 23, 27, 29, 39, 40, 40, 43, 46] proposedan attention-based sequence-to-sequence model to convertthe handwritten mathematical expression images into rep-245540上面组件下面组件右边组件0右边0下面0右边右边0父节点子节点0当前字符下一个字符0上面0图1. 不同架构的比较：(a) 编码器-解码器框架WAP (b)树解码器DWAP-TD (c) 我们的模型语法感知网络(SAN)0语法，可以自然地将语法树划分为不同的组件，并有效地减少树结构的歧义性。然后，我们建立了一个名为语法感知网络(SAN)的编码器-解码器网络，它将语法约束和特征学习融合在一个统一的框架中。我们的直觉是，理想的HMER模型应该根据句法关系解析手写数学表达式图像，同时有效地减轻复杂结构和潦草书写导致的预测错误。如图1(c)所示，SAN的预测过程遵循语法树的遍历过程，其子树是数学表达式的一个重要组件。通过这种方式，相邻组件的句法关系可以被编码在提出的SAN模型中。因此，在解析过程中，SAN的预测是从一个组件到另一个组件的。为了评估提出的SAN，我们在三个流行的数据集CROHME 2014 [20]、CROHME2016 [21]和CROHME 2019[19]上进行了实验。为了进一步确认SAN的有效性，我们收集并注释了一个大规模的用于评估的数据集，称为HME100K。HME100K包含来自一万名作者的10万个手写数学表达式图像，主要由相机拍摄。与CHROME数据集[19-21]相比，HME100K的数据规模增加了十倍。在CHROME2014、CHROME 2016、CHROME2019和HME100K上的结果表明，我们的方法始终在识别率上超过了最先进的方法，证明了嵌入句法线索对HMER的优势。本文的主要贡献是提出了语法感知网络，它在深度神经网络中首次有效地嵌入了句法信息。本文的另一个贡献是提出了大规模多样化的数据集HME100K。与现有的基准数据集相比，我们的数据集包括了具有更长长度和更复杂结构的HME，这对于推动面向实际应用的更鲁棒的算法非常有用。0SAN DWAP-TD0SAN热图0图2.SAN和DWAP-TD的样本识别结果。SAN的热图表示模型关注不同的组件。红色字符表示预测过程中丢失的组件。0更长的长度和更复杂的结构，使其对于促进面向实际应用的更鲁棒的算法非常有用。02. 相关工作345550（b）0i n ∑（下方）（上）（右方）a0S0σ0E0γ S γ S γ S0σ σ σ0S0S0�0S0� �0S0上方S下方S右方S0∑ S0∑ S0E0n0�0�0i S0�0�0�0i �0a0�0i �0a �0S0通过规则S→�S0通过规则S→E通过规则E→（上方）S（下方）S（右方）S通过规则S→nS通过规则S→�通过规则S→iS0通过规则S→�通过规则S→aS通过规则S→�0S0S0（a）0图3.（a）n的一种可能的解析过程0i a和（b）解析树。在图中，蓝色字符串表示非终结符。0红色表示终结符，黄色表示关系，灰色表示空。0LaTeX表示标记语言。最近，Wu等人[31]设计了一个图到图（G2G）模型，探索了输入公式和输出标记的HME结构关系，从而显著提高了性能。序列到序列方法改进了HMER的性能。然而，由于其继承的1D性质，它缺乏句法关系意识，这在处理2DHME时会导致不可避免的预测错误。树结构方法采用树结构解码器来明确建模数学表达式树的父子关系。为了识别在线HME，Zhang等人[44]提出了基于BLSTM的树结构，而Zhang等人[41]提出了基于顺序关系解码器（SRD）的树结构。另一方面，为了识别离线HEMs，Zhang等人[42]提出了一种树结构解码器，试图通过将目标句法结构树分解为子树序列来考虑语法信息，其中每个子树都有一个父子关系。通常，与字符串解码器相比，树结构解码器表现出更好的鲁棒性。然而，现有的树结构解码器存在两个限制。1）在深度网络特征学习中缺乏语法信息的整体表示。2）这些方法在理论上试图考虑句法信息；然而，在实践中，它们无法摆脱序列到序列字符串解码方案的恶性循环。HMER的困难主要在于考虑句法关系复杂性而不是符号识别。因此，我们提出了一种新颖的神经网络架构，配备了语法规则，可以有效地将语法树分成不同的组件，以减轻由于树结构的歧义性而引起的错误。所提出的方法基于语法规则学习结构之间的语法关系，并根据结构关系导航语法树来创建组件。我们的工作与现有的树结构方法的关键区别在于（1）SAN将语法约束表示集成到深度神经网络中0特征学习。（2）我们的方法是一种整体的语法感知方法，可以准确地识别和定位具有复杂结构关系的ME组件。如图2所示，SAN正确地定位和识别给定的ME，而DWAP-TD则错过了ME的一个组件。（3）SAN通过将一个组件解析为另一个组件而不是单个的父节点和子节点来最小化高计算成本。03. 语法感知网络0形式上，SAN可以定义为一个7元组G = (N, Σ, R, S, Γ, C,D)，由非终结符号的有限集合N、终结符号的有限集合Σ、产生规则的有限集合R、起始符号S、关系的有限集合Γ、编码器C和解码器D组成。我们设计的语法规则具有两个约束条件：1）遵循标准的阅读顺序：从左到右，从上到下。2）使用相邻符号之间的空间关系。对于HME的一对相邻符号，总共有九种可能的关系（左、右、上、下、左下、右下、左上、右上、内部）。由于约束条件1），我们已经删除了“左”和“左下”，并保留了其余7个关系以处理我们实现中所有ME的情况。即使一个ME可能对应不同的LaTeX序列，由于这两个约束条件，我们的语法规则生成的语法树是相同的。SAN将图像转换为解析树，其中叶节点是终结符号或关系，其他节点是非终结符号。有两个非终结符号S和E，其中S是起始符号，作为树的根。终结符号集Σ包含可能在LaTeX表达式序列中使用的所有符号。产生规则可以用于构建解析树。产生规则的形式为α → β，其中α ∈ N，β ∈ (Γ ∪ N∪Σ)*，星号表示Kleene星操作。因此，父节点（α）可以分割为包含终结符号、非终结符号和关系的子节点（β）列表。GRU-βGRU-α+SoftmaxSigmoid𝑬 𝑿𝒄𝒉"𝒂𝒕𝒕"(𝐗)Ω𝒄𝒑"𝒄𝒐"𝒄%"445560R有两个产生规则。第一个规则是S产生1）一个任意的终结符号后跟右侧的S，2）一个E，或者3）一个由ϵ表示的空字符串：0S → σS | E | ϵ, (1)0其中σ ∈Σ是任意的终结符号，“|”分隔不同的选择。第二个规则是E为每种类型的关系生成一个字符串，然后将它们连接起来。字符串可以是关系后跟S，或者是一个空字符串：E →[((γ1)S | ϵ), ..., ((γ7)S | ϵ)], (2)0其中γi ∈Γ是Γ中第i个关系类型，[∙]是连接运算符。图3说明了具有产生规则的表达式的可能解析过程。为了直观地理解这些规则，将S视为表达式，E视为可扩展结构。假设一个表达式可以包含多个可扩展结构，而每个可扩展结构可以扩展为具有空间关系的多个表达式。此外，产生规则与输入图像和父节点的上下文状态有关的概率相关联。具体而言，条件概率定义为0p(α → β | c(α), X) = Dα→β(c(α), E(X)), (3)0其中 X 是输入图像，E(X) 是编码器的输出，c(α)是α的上下文状态（将在第3.2节详细介绍），Dα→β(∙)是对应于产生规则的解码器的输出。如算法1所示，给定SAN参数和输入图像，使用堆栈实现树遍历。具体而言，实现的堆栈可以根据语法树上的遍历顺序保证训练过程。类似地，预测过程也是逐步堆叠实现的。编码器接受输入图像并对其进行下采样。然后根据语法规则，识别表达式及其可扩展结构；同时，解码器计算并选择具有最高概率的产生规则。因此，生成具有可扩展结构的新表达式，并更新LaTeX序列中图像的解析树。一旦找到解析树，可以通过按先序遍历树来获取识别结果。本节的其余部分将重点介绍编码器、解码器、注意机制和参数学习。03.1. 编码器0我们使用密集连接卷积网络（DenseNet）[11]作为编码器。DenseNet是一种全卷积网络，以前馈方式将所有网络连接在一起，并通过保证网络中各层之间的最大信息流来增强特征传播和重用。因此，全卷积网络可以处理任意大小的图像。0算法1. SAN的推理过程输入：SAN参数；输入图像输出：图像的解析树对图像进行编码将S及其上下文状态推入栈顶0当栈不为空时，执行以下操作：1.从栈顶弹出一个非终结符号或关系以及其上下文状态。2.使用解码器计算产生规则的条件概率。3.选择具有最高条件概率的产生规则。4.将规则中每个新产生的非终结符号或关系与上下文状态一起推入栈顶。5.使用选定的产生规则更新解析树。结束时返回解析树。0这使得它适用于HMER，因为手写图像的大小通常是随机的。因此，编码器接收一个灰度图像X，大小为1×H×W，其中H和W分别为高度和宽度，并返回一个C×H/ζ×W/ζ矩阵，其中C是通道数，ζ是下采样因子。然后，编码表示为E(X)=[e1,...,eL]，其中L=H/ζ×W/ζ，ei∈RC。E(X)的每个元素与图像的一个局部区域相关联。在我们的实现中，C设置为684，ζ设置为16。0语法感知0注意力模块0线性0线性0线性0线性0线性0图4. 语法感知解码器：由GRU-α、GRU-β和语法感知注意力模块组成。03.2. 语法感知解码器0如图4所示，解码器主要由两个门控循环单元（GRU）单元[7]（由GRU-α、GRU-β表示）和一个语法感知注意力模块组成。给定非终结符号α的上下文状态和编码向量E(X)，解码器返回以α开头的每个产生规则的概率。我们使用历史状态和伙伴状态来描述当前解析非终结符号的上下文状态。历史状态cαh用于跟踪非终结符号α的生成信息。此外，最新生成的终结符号或关系的词嵌入用作非终结符号的伙伴状态cαp，以捕捉短期的上下文信息。第一个GRU-α以cαp作为输入向量，cαh作为隐藏向量，输出一个新的隐藏向量。cαβ = GRU(Ω, cαo ).(6)psymbol(α → β|c(α), X) =softmax(Ws(Wpcαp + Wgcαβ + WtΩ))(7)prelation(α → β|c(α), X) =sigmoid(Wr(Wpcαp + Wgcαβ + WtΩ))(8)ξα = softmax(Ww(tanh(Wocαo +Wαattα(X) + WeE(x)))),(9)Att(E(X), cαo , attα(X)) = E(X)ξα(10)attα(X) =�iξi,i ∈ pathα.(11)Lreg = −�βˆξη logˆξηξα.(12)545570密集向量 c α o :0cαo = GRU(cαp, cαh) . (4)0然后，注意力模块计算紧凑的视觉特征 Ω = Att( E ( X ) , cα o , att α ( X )) , (5)0其中Att(∙)是注意力函数，attα(X)是详细说明在第3.3节的语法感知注意力向量。第二个GRU-β以Ω作为输入向量，cαo作为隐藏向量，输出一个新的隐藏向量cαβ：0然后，我们聚合cαp、cαβ和Ω来预测两个分支的概率：0其中 W s ， W p ， W g ， W t 和 W r 是可学习参数。psymbol ( α → β | c ( α ) , X ) 是一个具有 | Σ | +2维的概率向量。注意，有三种情况：1）预测终结符的 | Σ |维，2）预测 E的一维，3）预测空字符串的一维。对于第一种情况，如果终结符（ σ ）的预测概率最高，则应用规则 S → σS来更新解析树，使用 σ 的词嵌入作为新生成的 S的伴随状态，并使用 c α β作为其历史状态。对于第二种情况，如果 E的预测概率最高，则应用 p relation ( α → β | c ( α ) , X )来预测每个关系的概率。概率大于0.5的关系被保留，其他关系被丢弃。对于每个剩余的关系，我们使用关系的嵌入作为下一个 S 的伴随状态，并使用 c α β作为历史状态。此外，无需考虑解析 E，因为它已经从关系分支中获取。对于第三种情况，如果空字符串的概率最高，则使用规则 S → ϵ 来更新解析树。03.3. 句法感知注意力模块0注意力模块不使用整个图像特征进行解码，而是使用注意力机制计算紧凑的视觉特征。首先，我们为图像的每个局部区域计算一个归一化权重，然后使用加权平均值聚合局部特征。我们使用图像编码 E ( X ) ，隐藏状态 c α o和句法感知的注意力向量 att α ( X )来计算归一化权重向量：0其中 W w ， W o ， W α 和 W e 是可学习参数，ξ α是长度为 L 的向量。紧凑的视觉特征0通过矩阵乘积计算。与基于所有过去注意力概率之和的覆盖向量[ 42 , 43]不同，SAN不会跟踪所有过去的注意力概率。注意力漂移问题发生的原因是分子的注意力概率对于解析分母没有信息，只是噪声。相反，我们将从解析树的根到当前解析节点的路径上的过去注意力概率相加，而不是所有过去的注意力概率。因此，我们计算句法感知的注意力向量如下：0句法感知的注意力向量可以通过将其作为中间信息与堆栈一起存储来有效地跟踪。使用注意力自我正则化策略来修正注意力。我们使用一个额外的反向解码器来预测每个给定子节点的父节点。反向解码器与原始解码器具有相同的结构，但对数据进行反向操作。因此，我们有两个用于预测每个非终结符节点 β 的归一化权重向量，即前向 ξ α 和反向 ˆ ξ η，其中 α 是 β 的父节点，β 是 η的父节点。我们使用Kullback-Leibler（KL）散度对它们进行正则化。0反向解码器与SAN一起进行联合训练，但在推理过程中被省略以跳过额外的推理时间。03.4. 参数学习0SAN在多任务设置下进行端到端训练，旨在最小化符号损失（ L symbol ）、关系损失（ L relation）、反向符号损失（ L rev symbol）和注意力自我正则化损失（ L reg）的总和。我们使用教师强制策略加速收敛。通过使用深度优先搜索算法对LaTeX序列进行解析，可以获得每个训练图像的真实解析树。因此，从解析树中获取一系列的父子样本。然后，根据树的前序顺序依次处理每个样本，直到整个树被处理完。同样，我们使用反向解码器来预测每个给定子节点的父节点。然后使用真实标签，计算符号、反向符号和关系损失。注意力自我正则化损失可以通过以下方式计算：645580表1. HME100K和CROHME2019数据集的统计比较。“最大长度”和“平均长度”表示数学表达式的最大长度和平均长度。0数据集训练集大小测试集大小符号类别数最大长度平均长度笔迹作者数0HME100K 74,502 24,607 245 184 17.62 � 10K0CROHME2019 8,836 1,199 101 96 15.79 � 1000（12）。因此，我们可以通过最小化以下目标函数来优化参数，并进行反向传播。0L = L symbol + L relation + L rev symbol + L reg. (13)04. HME100K数据集0本节介绍了新的数据集HME100K，包括74,502个用于训练的图像和24,607个用于测试的图像，共245个符号类别，如表1所示。与CRHOME 2019[19]数据集相比，数据规模增加了十倍。这些数据是从成千上万的写作者手写的数学表达式中收集而来，并上传到一个互联网应用程序。由于成千上万的写作者参与了数学表达式的书写，写作风格的多样性为我们的数学表达式数据集创造了独特的特征。因此，我们的数据集HME100K更加真实和逼真，具有颜色变化、模糊、复杂背景、扭曲、光照不良、长度较长和结构复杂等特点。数据集中的样本图像如图5（b-h）所示。此外，HME100K的最大字符长度为184，几乎是CROHME的两倍长。HME100K的平均序列长度也比CROHME长。有关HME100K数据集的其他信息，请参阅补充材料。0（a）CROHME0（c）模糊0（f）光照不良0（b）颜色0（e）扭曲0（d）复杂背景0（g）长度较长（h）结构复杂0图5.来自（a）CROHME数据集和（b-h）HME100K数据集的样本图像。05. 实验0我们在两个CROHME基准数据集和提出的HME100K上评估我们的方法性能，并与最先进的方法进行比较。05.1. 数据集0我们使用在线手写数学表达式识别竞赛（CROHME）基准数据集。0目前是最广泛使用的用于训练和验证HMER模型的手写数学表达式的公共数据集。我们将InkML文件中的手写笔画轨迹信息转换为图像格式，用于训练和测试集。CROHME图像的示例显示在（图5（a））中。CROHME训练集包括8,836个表达式，包括101个数学符号类别，而测试集中的表达式数量根据它们发布的年份而不同。我们在CROHME2014测试集[20]、CROHME 2016测试集[21]和CROHME2019测试集[19]上评估我们的模型，分别包含986、1147和1199个表达式。05.2. 实现细节0提出的模型SAN是在PyTorch中实现的。所有实验都在一台配备32GB RAM的Nvidia TeslaV100上进行，批量大小设置为8。两个GRU的隐藏状态大小设置为256。词嵌入和关系嵌入的维度设置为256。训练过程中使用Adadelta优化器[38]，其中ρ设置为0.95，ϵ设置为10-6。学习率从0开始，在第一个时期结束时单调增加到1。之后，学习率按照余弦调度[45]衰减为0。为了公平比较，与大多数先前的工作一样，在训练过程中不应用数据增强。05.3. 评估协议0识别协议。表达式识别率（Ex-pRate）是数学表达式识别的广泛使用的识别协议，定义为预测的数学表达式与实际结果准确匹配的百分比。ExpRate ≤ 1和≤2表示表达式识别率在最多一个或两个符号级错误的情况下是可容忍的。结构识别协议。表达式结构预测率（ESPR）用作结构识别协议。ESPR通过正确识别结构的数学表达式的百分比来计算，而不考虑符号标签。05.4. 与最先进方法的比较0在本小节中，我们在CROHME 2014、CROHME 2016和CROHME2019数据集上对我们提出的方法进行了评估，并与其他最先进的方法进行了比较。745590表2. 我们的模型和CROHME 2014、CROHME2016上其他最先进方法的表达式识别率（ExpRate）和表达式结构预测率（ESPR）性能。所有结果均以百分比（%）报告。我们的模型在所有公共数据集上都取得了最佳性能。�表示在训练过程中使用了数据增强的方法。0方法 CROHME 2014 CROHME 2016 CROHME 2019 ExpRate ≤ 1 ≤ 2 ExpRate ≤ 1 ≤ 20WYGIWYS [8] 36.4 - - - - - - - - WAP [43] 40.4 56.1 59.9 44.6 57.1 61.6 - - - PAL [32] 39.7 56.865.1 - - - - - - PAL-v2 [33] 48.9 64.5 69.8 49.6 64.1 70.3 - - - PGS [16] 48.8 66.1 73.9 36.3 - - - -- TAP [40] 48.5 63.3 67.3 44.8 59.7 62.8 - - - DLA [15] 49.9 - - 47.3 - - - - - DWAP [39] 50.1 - -47.5 - - - - - DWAP-MSA [39] 52.8 68.1 72.0 50.1 63.8 67.4 47.7 59.5 63.3 DWAP-TD [42] 49.164.2 67.8 48.5 62.3 65.3 51.4 66.1 69.1 WS-WAP [27] 53.7 - - 52.0 64.3 70.1 - - - MAN [29]54.1 68.8 72.2 50.6 64.8 67.1 - - - RBR [27] 53.4 65.2 70.3 52.1 63.2 69.4 53.1 63.9 68.5 DWAP+ CTC [23] 51.0 - - 50.0 - - - - - BTTR [46] 54.0 66.0 70.3 52.3 63.9 68.6 53.0 66.0 69.1 Li et al.[18] � 56.6 69.1 75.3 54.6 69.3 73.8 - - - Ding et al. [9] � 58.7 - - 57.7 70.0 76.4 61.4 75.2 80.2SAN 56.2 72.6 79.2 53.6 69.6 76.8 53.5 69.3 70.1 SAN � 63.1 75.8 82.0 61.5 73.3 81.4 62.1 74.581.00现有方法中，大多数方法不使用数据增强，因此我们主要关注没有使用数据增强产生的结果。请注意，我们的方法没有使用波束搜索过程来获得额外的性能改进。在CROHME数据集上的评估如表2所示，我们的方法在所有CROHME数据集上都取得了最先进的性能。SAN在CRHOME2014、2016和2019上分别比MAN [29]高3.1％，BTTR[46]高1.3％和BTTR[46]高0.5％。除了ExpRate之外，SAN在ESPR方面的优势超过了其他最先进的方法。因此，SAN的成就证明了将语法信息纳入HMER神经网络是有效和高效的。0表3.我们的模型与DWAP、DWAP-TD和BTTR在Easy（E.）、Moderate（M.）和Hard（H.）HME100K测试子集上的性能。推理速度以FPS（每秒帧数）表示。最后一列显示了每个模型的参数数量。粗体数字对应最佳性能，下划线表示次佳结果。我们的模型在HME100K数据集上取得了最佳性能。0HME100K E. M. H. 总计 FPS P.N.0图像尺寸 7721 10450 6436 24607 - -0DWAP [39] 75.1 62.2 45.4 61.9 23.3 4.8M DWAP-TD [42]76.2 63.2 45.4 62.6 6.9 8.0M BTTR [46] 77.6 65.3 46.064.1 3.9 6.5M SAN 79.2 67.6 51.5 67.1 23.9 8.9M05.5. 在HME100K上的评估0数据集划分。对于数学表达式，结构复杂度（S.C.）[44]和字符长度（C.L.）显著影响模型性能。考虑到这一点，0我们仔细将测试数据集按难度分成三个子集。分配标准如下：� � �0Easy，S.C. ∈ [0, 1] & C.L. ∈ [1, 10) Moderate，S.C. ∈[0, 1] & C.L. ∈ [10, 20) Hard，其他比较与以前的方法。在本小节中，我们将我们提出的方法与HME100K数据集上的DWAP [39]、DWAP-TD [42]和BTTR[46]进行比较。为了与报告的推理过程保持一致，DWAP-TD [42]和BTTR [46]使用波束搜索，而DWAP[39]则不使用。具体来说，如表3所示，我们的方法在易子集上的表现优于BTTR [46]1.6％。然而，随着测试子集的难度增加，我们的方法的领先优势在困难子集上增加到5.5％。在不同测试子集上的性能测量证明了我们的方法的卓越鲁棒性和结构感知能力。除了识别准确性之外，我们还评估了我们的模型与DWAP[39]和DWAP-TD[42]在推理速度上的对比，如表3所示。我们使用NvidiaTeslaV100在HME100K测试集上以每秒帧数（FPS）测量推理速度。令人印象深刻的是，SAN的速度比DWAP-TD[42]快3.5倍，比DWAP[39]快2.6％，这表明我们的方法在减少计算成本方面的效率。05.6. 消融研究0在本小节中，我们进行了消融研究，分析了语法规则和语法感知注意力模块的影响。我们从头开始训练了所有模型，并在三个数据集上评估了它们的性能。SAN是默认模型，而SAN-GS具有语法感知解码器，但是12y _ { i + 1 } = y _ { i } + \int _ { x _ { i } } ^ { x _ { i + 1 } } f d x\lim _ { x \rightarrow \infty } \frac { 4 2 n ^ { 2 } + 3 n + 1 } { 3 } \frac { 2 n ^ { 2 } + 3 n + 1 } { n ^ { 2 } }f ^ { \prime } ( x ) = 2 a + \frac { b } { x ^ { 2 } } + \frac { 1 } { x }\frac { 4 \times 1 2 + ( 8 - 4 ) \times 3 } { 4 8 } + \frac { ( 8 - 4 ) \times 3 } { 4 } \times 3 = 6 0845600表4.CROHME数据集和HME100K数据集上的消融研究。基本参数设置（语法规则和语法感知注意力）对识别性能的影响。(�)表示模块存在，(�)表示模块不存在。0模型 G.S. SA. Attention ExpRate 数据集0基线模型 � � 49.1 CROHME 2014 SAN GS � � 55.3 SAN � 56.20基线模型 � � 48.5 CROHME 2016 SAN GS � � 52.8 SAN � 53.60基线模型 � � 51.4 CROHME 2019 SAN GS � � 53.0 SAN � 53.50基线模型 � � 62.6 HME100K SAN GS � � 66.5 SAN � � 67.0在注意力模块中采用覆盖注意力而不是语法感知注意力。结果总结如表4所示。语法规则的影响。表4显示，将语法规则与基线模型相结合，相对于基线模型，在CROHME2014上提高了6.2%的识别性能，在CROHME2016上提高了4.3%，在CROHME2019上提高了1.6%，在HME100K上提高了3.9%。因此，将语法约束集成到基线模型中在所有数据集上都取得了改进，这证明了将语法规则集成到解码器中的重要性。0a0�0a0(b) 语法感知注意力 (a) 覆盖注意力0�0输出：输出：0图6. (a) 覆盖注意力和 (b)语法感知注意力的示例。每个图像下方打印了当前识别的符号。“E”表示非终结符号（公式（1））。0语法感知注意力的影响。如表4所示，将语法感知注意力与语法规则相结合，相对于基线模型，在CROHME2014上提高了7.1%的识别性能，CROHME2016上提高了5.1%，CROHME2019上提高了2.1%，HME100K上提高了4.5%。此外，如图6所示，我们通过一个定性示例比较了覆盖注意力和语法感知注意力。从覆盖注意力和语法感知注意力的预测步骤中提取的图像0模型的示例说明了每个模型在每个步骤上如何关注目标。如图6（a）所示，覆盖注意力模型错误地关注了符号“1”的区域，预测了一个在预测位置上不存在的多余子树。相比之下，语法感知注意力模型预测了一个与人类直觉相符的适当位置（图6（b））。06. 限制0如图7所示，ME的扭曲和粘连组件可能导致SAN预测失败，从而导致欠翻译或过翻译。图7给出了CROHME（a和b）和HME100K（c和d）数据集上的四个典型示例。0(a) CROHME (b) CROHME0(c) HME100K (d) HME100K0图7.SAN的限制样本示例，包括真实值和识别结果。红色字符表示错误预测。07. 结论0

下载后可阅读完整内容，剩余1页未读，立即下载