没有合适的资源?快使用搜索试试~ 我知道了~
基于transformer的手写数学模型的覆盖率和表情识别
+v:mala2255获取更多论文CoMER:基于transformer的手写数学模型覆盖率表情识别赵文琪和高良才王璇北京大学计算机技术研究所网址:wenqizhao@stu.pku.edu.cn,gaoliangcai@pku.edu.cn抽象的。基于transformer的编码器-解码器体系结构最近在识别手写体字母表达式方面取得了重大进展。然而,Transformer模型仍然存在覆盖率不足的覆盖信息记录了过去步骤的对齐信息,已被证明在RNN模型中是有效的。在本文中,我们提出了CoMER,一个模型,采用覆盖信息的Transformer解码器。具体来说,我们提出了一种新的注意力细化模块(ARM),以改善过去的对齐信息的注意力权重,而不损害其并行性。此外,我们通过提出自覆盖和交叉覆盖将覆盖信息发挥到极致,这些覆盖利用了当前层和先前层的过去对齐信息。实验表明,CoMER相比当前最先 进 的 模 型 , ExpRate 提 高 了 0.61%/2.09%/1.59% , 在 CROHME2014/2016/2019测试集上达到59.33%/59.81%/62.97%。1关键词:手写数学表达式识别·变换器·覆盖率·对齐·编码器-解码器模型1介绍手写数学表达式识别(HMER)的目的是从手写数学表达式图像中生成相应的LATEX序列手写数学表达式的识别已经导致了许多下游应用,例如在线教育、自动评分和公式图像搜索。在COVID-19疫情期间,越来越多的教育机构选择使用在线平台进行教学和考试。手写数学表达式的识别率至关重要提高在线教育场景中的学习效率和教学质量。手写数学表达式识别是一个图像到文本的任务,比传统的文本识别更具挑战性。除了各种文字1源代码可在https://github.com/Green-Wood/CoMER上获得arXiv:2207.04410v2 [cs.CV] 2022年7+v:mala2255获取更多论文--2W. Zhao等人除了样式之外,我们还需要对符号和上下文之间的关系进行建模[2]。例如,在LATEX中,模型需要生成“符号“、“”、“”和““来描述符号在二维图像中的位置和层次关系。研究人员在HMER任务中广泛使用编码器-解码器架构[9,15,26,29,32- 35 ],因为其在编码器部分中的特征提取和在解码器部分中的语言建模。Transformer [28]是一种完全基于注意力机制的神经网络架构,已逐渐取代RNN成为自然语言处理(NLP)[8]中的首选模型。通过Transformer中的自注意机制,相同序列中的令牌建立直接的一对一连接。这样的架构允许Transformer更好地对令牌之间的长期依赖性进行建模。目前,Transformer在计算机视觉[10]和多模态[7,17,23]社区中引起了越来越多的关注尽管Transformer已经成为NLP中的标准事实,但与RNN对应部分相比,它在HMER任务中的表现并不令人满意[9,35]。我们观察到,使用Transformer解码器的现有模型仍然存在覆盖不足的问题[27,34]。 这个问题表现在两个方面:过度解析意味着图像的某些部分被不必要地多次传递,而解析不足意味着某些区域仍然没有解析。RNN解码器使用协方差属性[9,15,26,29,32然而,当前的Transformer解码器使用香草点积注意力而没有覆盖机制,这是限制其的关键因素。性能Transformer中每个步骤的计算都是相互独立的,这与RNN不同,RNN中当前步骤的计算取决于前一步虽然这种性质提高了Transformer中的并行性,但它使直接在Transformer解码器中使用来自先前作品的覆盖机制变得困难。为了解决上述问题,我们提出了一种新的模型,用于利用在transforMER解码器,命名为CoMER中的Co_(?)受RNN中覆盖机制的启发,我们希望Transformer将更多注意力分配给尚未解析的区域。具体来说,我们提出了一种新的和通用的注意力细化模块(ARM),动态细化的注意力权重与过去的对齐信息,而不损害其并行性。为了充分利用从不同层生成的过去对齐信息,我们提出了自覆盖和交叉覆盖,分别利用我们进一步表明,在HMER任务中,CoMER的性能优于香草Transformer解码器和RNN解码器。我们工作的主要贡献概述如下:– 我们提出了一种新颖的通用注意力细化模块(ARM)来细化Transformer解码器中的注意力权重,在不影响其并行性的前提下有效地解决了覆盖不足问题。– 我们提出了自覆盖,交叉覆盖和融合覆盖,以充分利用过去的对齐信息产生的堆栈Transformer解码器中的不同层。+v:mala2255获取更多论文CoMER:基于transformer的HMER 3– 实验表明,CoMER优于现有的最先进的方法,并在CROHME 2014[21]/2016 [22]/2019 [20]数据集上实现了59.33%/ 59.81%/ 62.97%的表情识别率(ExpRate)。2相关工作2.1HMER方法传统的方法通常将HMER任务分为两个子任务:符号识别和结构分析[5]。研究人员通过不同的预定义语法表示公式的结构信息,例如图语法[14],上下文无关语法[1]和关系语法[19]。这些方法要求研究者开发出手工设计的语法规则,而其推广性在很大程度上取决于这些语法规则的完善程度。近年来,编码器-解码器架构在各种图像到文本任务中表现出了良好的性能,例如场景文本识别[6]和图像字幕[30]。在[34]中,提出了一种称为WAP的模型,首次使用编码器-解码器神经网络来解决HMER任务,并在CROHME 2014竞赛中优于基于语法的方法[21]。WAP模型使用卷积神经网络(CNN)编码器、门控递归单元(GRU)解码器和覆盖关注来形成编码器-解码器架构。在模型架构改进方面,Zhang等人。 [32]提出了DenseWAP,它使用多尺度DenseNet [12]编码器来提高处理多尺度符号的能力。Ding等人。 [9]然后借用Transformer的架构设计,通过多头注意力和堆叠解码器来提高基于RNN的模型性能。在数据增强方面,Li et al. [15]提出了尺度增强,在保持纵横比的同时随机缩放图像,这提高了多尺度图像的泛化能力。PAL-v2 [29]然后使用打印的数学表达式作为额外的数据来帮助训练模型。在训练策略方面,Truong et al. [26]通过向编码器引入关于符号的存在或不存在的弱监督信息提出了WS-WAP。此外,BTTR [35]提出首先使用Transformer解码器来解决HMER任务,并使用单个解码器执行双向语言建模。2.2覆盖机制覆盖机制首先被提出[27],以解决机器翻译任务中的过度翻译和翻译不足问题。HMER[9,15,26,27,29,32- 34 ]中的所有先前工作都使用了RNN中的coverage attention,其中引入了覆盖向量来指示图像特征向量是否已被解析,导致模型将更多注意力放在未解析区域上。这是一个逐步细化,其中解码器+v:mala2255获取更多论文4瓦。 Zhao等人需要为每个步骤收集过去的对齐信息。对于RNN模型,解码器可以自然 地 在 每 一 步 中 累 积 注 意 力 权 重 , 但 是 对 于 执 行 并 行 解 码 的Transformer解码器来说,这是困难的。有一项工作[25]试图在transformer解码器中引入覆盖机制它们直接将RNN中的覆盖机制用于转换器,这极大地损害了其并行性和训练效率。另一方面,我们的输出Linear SoftmaxFFNMatMulSoftmax臂-N×N-Softmax图像位置编码DenseNet编码器刻度点积自我关注词位置编码输入图像输出(右移)Fig. 1. 我们提出的CoMER模型的概述架构。由关键字和查询生成的注意力权重被送入一个新的注意力细化模块(ARM)。ARM通过自覆盖和交叉覆盖,利用不同层产生的过去对齐信息。3方法在本节中,我们将首先回顾RNN中的覆盖注意力和多头注意力,然后详细描述CoMER的架构设计。如示于图1、该模型由四个主要模块组成:1)CNN Encoder,从2D公式图像中提取特征2)位置编码,+v:mala2255获取更多论文L·×∈CoMER:基于Transformer的HMER 5寻址Transformer解码器的位置信息。3)注意力细化模块(ARM)用于利用过去的对齐信息来细化注意力权重。4)自覆盖和交叉覆盖利用来自当前层和先前层的过去3.1背景RNN中的CoverageAttention Coverage attention已广泛用于基于RNN的HMER模型[9,15,26,27,29,32- 34 ]。注意力向量向注意力模型提供设编码 器产生序 列长度 为L=ho×wo 的平坦化 输出图像 特征Xf∈RL×d模型。在每个步骤t,先前的注意力权重ak被累积为向量ct,然后被变换为覆盖矩阵Ft。t−1ct=ak∈R(1)k=1Ft= cov(ct)∈RL×dattn(2)这里,cover()表示1111卷积层和线性层复合函数。在注意机制中,我们为索引i[0,L)处的每个图像特征计算相似性得分et ,i通过利用现代深度学习框架(如PyTorch [24])中的广播操作,我们可以通过将RNN隐藏状态ht∈Rd模型广播到Ht∈RL×d模型来并行计算相似向量et。当前步骤t的注意力权重at如下获得t= tanh(HtWh+XfWx+Ft)va(3)at= softmax(et)∈RL(4)其中Wh∈Rdmodel×dattn,Wx∈Rdmodel×dattn是可训练参数矩阵,va∈Rdattn是可训练参数向量.多头注意力多头注意力是Transformer模型中最关键的组成部分[28]。通过模型维数d 模 型、查询序列长度T和关键字序列长度L,我们将头部Headi的多头注意力计算分为四个部分:1)将查询Q、关键字K和值V投影到一个子空间中; 2)计算缩放点积Ei∈RT ×L; 3)通过softmax函数计算注意力权重Ai∈RT ×L; 4)将注意力权重Ai与值Vi相乘得到头部Headi。Qi,Ki,Vi=QWQ,KWK,VWV(五)我QiK我我我T×LEi= 克赖斯特彻奇∈R(六)+v:mala2255获取更多论文∈×·p,dp,dp,d我我我6瓦。 Zhao等人Ai= softmax(Ei)∈RT×L(7)Headi=AiVi∈RT×dv(8)其中WQ∈Rd模型×dk,WK∈Rd模型×dk,WV∈Rd模型×dv表示列车-能够投影的参数矩阵。然后所有的h头都连接起来,亲,使用可训练投影矩阵WORhdv×d模型进行投影,以获得最终输出:MultiHead(Q,K,V)=[Head1;. . . ;首长h] WO(9)我们在CoMER中遵循这一设置,并在Sect中使用注意力优化模块(ARM)3.4以细化等式3.4中的标度点积矩阵Ei(六)、3.2CNN编码器在编码器部分,我们使用DenseNet [12]来提取2D公式图像中的特征,遵循与BTTR [35]相同的设置。DenseNet的核心思想是通过在特征维中的级联操作来增强层之间的信息流具体地,在DenseNet块b中,第l层的输出特征可以通过输出特征X0,X1,. . . ,Xl−1∈Rhb×wb×db,从前一个第0层到第(l− 1)层:X= H([X0; X1;. . . ; X<$−1])∈ Rhb ×wb ×db(10)其中[X0; X1;. . . ; X<$−1] ∈ Rhb ×wb ×(ldb)表示特征维度上的级联操作,db表示DenseNet块的特征维度大小,H<$()函数由以下部分实现:批量归一化[13]层,ReLU [11]激活函数和3 3卷积层。为了使DenseNet输出特征与模型维数大小d模型对齐,我们在编码器的末尾添加了1×1卷积层,以获得输出图像特征Xo∈Rho×wo×d模型。3.3位置编码与固有地考虑单词标记的顺序的RNN解码器不同,由于Transformer解码器的置换不变属性,额外的位置信息对于其是必要的。在CoMER中,我们与BTTR [35]一致,采用图像位置编码和单词位置编码。对于单词位置编码,我们使用vanilla Transformer [28]中引入的1D位置编码。给定编码维大小d、位置p和特征维的索引i,单词位置编码向量pW∈Rd可以表示为:pW[2i] = sin(p/100002i/d)pW[2i + 1]= cos(p/100002i/d)(十一)+v:mala2255获取更多论文x,y,d·∈·∈·CoMER:基于Transformer的HMER 7对于图像位置编码,使用与[4,35]相同的2D归一化位置编码由于重要的不是绝对位置而是相对位置,因此应首先对位置坐标进行归一化。给定2D坐标元组(x,y)和编码维度大小d,图像p0。位置编码pI∈Rd是通过级联1D位置编码来计算的。二维编码(11Xx<$=,hoyy<$=wo(十二)我x,y,dWx'd/2W年,d/2](十三)其中ho和wo表示输出图像特征Xo∈Rho×wo×d模型的形状。3.4注意力优化模块尽 管 覆 盖 关 注 度 已 经 被 广 泛 地 用 于 RNN 解 码 器 中 , 但 是 由 于Transformer的par-chromosome解码,难以将其直接用于Transformer解码器中无法直接在Transformer中对覆盖信息进行建模导致其在HMER任务中的性能不令人满意。我们将首先介绍在Transformer中使用覆盖信息的困难,然后提出一种新的注意力细化模块(ARM)来解决这个问题。一个简单的解决方案是使用等式中的多头注意力权重A(7),将其累加为C,然后使用等式(7)中的cov()函数将其变换为覆盖矩阵F(二)、然而,考虑到空间复杂性,这种天真的解决方案是不可接受的。假设多头注意力权重为ART ×L×h,则在每个时间步和每个图像特征位置应用cov()函数,生成空间复杂度为O(TLhd)的覆盖矩阵FRT ×L×h×dattn。我们可以看到瓶颈来自等式中的tanh()函数。(3)覆盖矩阵需要先与其他特征向量求和,再乘以向量va∈Rdattn。如果我们可以先将覆盖矩阵与va相乘,然后将LuongAttention [18]的结果相加,空间复杂度将大大降低到O(TLh)。因此,我们修改Eq。(3)如下:e′t= tanh(HtWh+XfWx)va+Ftva= tanh(HtWh+XfWx)va+rt(14)阿提翁·阿提翁xrefi'nemxent其中相似向量e′t可分为注意项和精化项rt∈RL项。请注意,在等式中给定的累积向量ct。(1)细化项Rt可以由覆盖建模函数直接产生,避免了使用维度数据Attn的中间表示。我们在Eq中命名该过程。(14)注意力优化框架。为了在Transformer中使用这个框架,我们提出了一个注意力细化模块(ARM),如图所示二、标度点积矩阵p=[p;p+v:mala2255获取更多论文∈Lhcumsum重塑Conv一公司简公司简规范���×ℎo ×���o×ℎReLU&线性���×ℎo ×���o ×ℎ���×ℎo ×���o ×���c���×ℎo ×���o×ℎR公司简功能说明⊖E公司简注意力优化模块(ARM)8瓦。 Zhao等人图二. 注意力优化模块(ARM)给定一般注意力权重A,我们首先使用函数f(·)计算细化项R。然后,我们通过减去细化项R来细化注意力项E。ERT ×L×h(方程式)(6)可以用作关注项,并且需要从关注权重A计算精细化项矩阵R。请注意,我们在这里使用通用的注意力权重A来提供过去的对齐信息,具体的选择将在第二节中讨论。三点五我们定义了一个函数→RT× L ×h,它以注意力权重A∈RT×L × h为输入,输出精化矩阵R∈RT×L×h。利用核大小kc、中间维度dch×dattn以及输出图像特征形状L=ho×wo,函数f(·)被定义为:R= π(A)= nπ。最大0,K<$C<$+bc<$Wc<$(15)C=reshape(C)∈RT×ho×wo×h(16)t−1ct=ak∈R×(17)k=1其中at是步骤t∈ [0,T)的注意力权重,K∈Rkc×kc×h×dc 表示卷积核,表示在整形后的accu上的卷积运算模拟矩阵C∈RT×ho×wo×h,bc∈Rdc是一个偏置项,Wc∈Rdc×h是线性投影矩阵。注意,Eq。(17)可以通过现代深度学习框架中的cumsum(·)函数有效地计算[24]。我们认为,函数的功能,可以提取局部覆盖特征,检测边缘的解析区域和识别传入的未解析区域。最后我们+v:mala2255获取更多论文∈CoMER:基于Transformer的HMER 9通过减去细化项R来细化注意力项E。ARM(E,A)=E-R=E−E(A)(十八)3.5覆盖在本节中,我们将讨论等式中一般注意力权重A的具体选择。(15)我们提出了自覆盖和交叉覆盖来利用来自不同阶段的对齐信息,将不同的过去对齐信息引入模型。Self-coverageSelf-coverage是指使用当前图层生成的对齐信息作为注意力优化模块的输入。 对于当前层j,我们首先计算注意力权重A(j),并对其进行优化。A(j)= softmax(E(j))∈RT×L×h(19)E(j)=ARM(E(j),A(j))(20)其中, E(j)表示细化的尺度dot-pr od uct,并且A(j)表示层j处的细化的注意力权重。交叉覆盖我们提出了一种新的交叉覆盖,利用堆叠解码器的性质,在Transformer。交叉覆盖使用来自前一层的对齐信息作为当前层的ARM的输入。对于当前层j,我们使用来自前一(j-1)层的细化的注意力项,并细化当前层的注意力项。E(j)=ARM(E(j),A(j−1))(22)注意,如果前一个变量不使用ARM,则A_ (j-1)=A(j-1)成立。融合覆盖结合自覆盖和交叉覆盖,提出了一种新的融合覆盖方法,充分利用了不同层产生的过去对齐信息。E(j)=ARM(E(j),[A(j);A(j−1)])(24)A (j)=softmax(E (j))( 25)其中[A(j);A (j−1)]RT×L×2h表示来自当前层的注意力权重和来自前一层的细化注意力权重的连接。+v:mala2255获取更多论文≤ ≤≤10瓦。 Zhao等人4实验4.1实现细节在编码器部分,我们使用相同的DenseNet从公式图像中提取特征编码器中使用三个密集网块,每个密集网块包含D= 16个瓶颈层。 在每两个密集网块之间插入一个过渡层,以将特征图的空间和通道大小减小θ = 0。5. 将增长率设置为k= 24,将辍学率设置为0.2。在解码器部分,对于Transformer解码器中的超参数,我们将模型维度 设 置 为 dmodel=256 , 头 数 设 置 为 h=8 , 前 馈 层 维 度 大 小 设 置 为dff=1024。我们使用三个堆叠的解码器层和0.3的丢失率。对于我们提出的注意力细化模块,我们将内核大小设置为kc=5,中间维度设置为dc=32。我们在ARM中采用的归一化方法是批量归一化[13]。我们从第二层开始使用ARM,并在层之间共享相同的ARM。我们使用与BTTR [35]相同的双向训练策略来使用PyTorch [24]框架训练 我们使用SGD,权重衰减为10 −4,动量为0。9.学习率为0。08.我们使用具有均匀采样缩放因子s ∈ [0]的尺度增强[ 15 ]来增强输入图像。七,一。4]。所有的实验都是在四个NVIDIA 2080Ti GPU上进行的,具有4× 11 GB内存。在推理阶段,我们执行BTTR[35]中使用的近似联合搜索[16],而4.2数据集和数据库我们使用在线手写数学表达式识别竞赛(CROHME)数据集[20训练集包含共8836个训练样本,而CROHME 2014/2016/2019测试集包含986/1147/1199个测试样本。CROHME 2014测试集[21]用作验证集,以在训练过程中选择性能最佳的模型。我们使用CROHME 2019官方提供的评估工具[20]将预测的 LATEX序列转换为symLG格式。然 后 ,通过使用LgEval库[ 31 ]报告指标。我们选择“ExpRate”,“% 1错误”,“ 2错误”,以及“ 3个错误”指标来衡量性能 我们提出的模型。这些指标表示当我们容忍0到3个符号或结构错误时的表情识别率。4.3消融研究为了验证我们提出的方法的有效性,我们在CROHME 2014测试集上进行了消融实验[21]。在表1中,的+v:mala2255获取更多论文CoMER:基于变压器的HMER 11“自覆盖”列指示是否使用自覆盖。“Cross-cov”一栏首先,由于原始BTTR [35]没有使用任何数据增强方法,因此我们重新实现了BTTR模型并实现了53.45%的ExpRate,这与[35]中的原始结果相似。为了将BTTR作为基线与我们提出的CoMER进行比较,我们还使用规模增强来训练BTTR,并获得了“BTTR(基线)”的ExpRate为55.17%与BTTR相比,使用ARM和覆盖机制的CoMER的性能得到了显着改善。比较表1中的最后四行,我们可以观察到:1. 当CoMER使用自我覆盖来细化注意力权重时,与“BTTR(基线)”相比,绩效提高了2.34%实验结果验证了在Transformer解码器中使用过去对齐信息的可行性和有效性。2. 与自覆盖相比,在CoMER中使用交叉覆盖可以带来更多的性能增益,这是由于来自前一层的更准确的对准信息。3. “CoMER 这个实验结果表明,从不同层生成的不同对齐信息有助于ARM更准确地细化当前的注意力权重。表1. CROHME 2014测试集上的消融研究(%)。†表示BTTR的原始报告结果[35]模型[15]第十五话 自覆盖交叉覆盖ExpRateBTTR [35]✗ ✗ ✗53.96BTTR✗ ✗✗53.45BTTR(基线)✓✗✗55.17(+0.00)CoMER(自身)✓ ✓✗57.51(+2.34)CoMER(交叉)✓✗✓58.11(+2.94)CoMER(融合)✓ ✓✓59.33(+4.16)4.4与最先进方法的我们比较了建议的CoMER与以前的国家的最先进的方法,如表2所示。对于基于RNN的模型,我们选择DenseWAP [32],DenseWAP-TD[33],WS-WAP [26],Li等人。 [15]和Ding等人。 [9]用于COM。对于基于变压器的模型,我们与使用+v:mala2255获取更多论文12瓦。 Zhao等人普通的Transformer解码器。请注意,Li等人 [15]和Ding等人 [9]提出的方法也使用了尺度增强[15]。与使用覆盖注意力的基于RNN的模型相比,CoMER优于Ding等人提出的先前最先进的模型。 [9]每个CROHME测试集。在ExpRate指标中,CoMER比之前性能最好的基于RNN的模型平均提高了与基于变压器的模型相比,我们提出的CoMER配备ARM和融合覆盖显着提高性能。具体而言,CoMER在所有指标上均优于表2. 在CROHME 2014/2016/2019测试集上与先前最先进方法的性能比较(%)。数据集模型ExpRate≤1个错误 误差≤2误差≤3CROHME 14角59.3371.7075.6677.89CROHME 16角59.8174.3780.3082.56CROHME 19角62.9777.4081.4083.074.5不同等级直觉上,我们假设长序列的识别准确率低于短序列,因为缺乏覆盖问题[27,34]。因此,我们认为长序列的识别准确率反映了模型对序列和图像进行比对的能力为了验证CoMER具有更好的对齐DenseWAP [32]43.0 57.861.9-DenseWAP-TD [33]49.1 64.267.8-[26]第二十六话53.65---Li等人[第十五条]56.59 69.0775.2578.60Ding等人[9]第九届58.72---BTTR [35]53.96 66.0270.28-BTTR(基线)55.17 67.8572.1174.14DenseWAP [32]40.154.357.8-DenseWAP-TD [33]48.562.365.3-[26]第二十六话51.9664.3470.1072.97Li等人[第十五条]54.5869.3173.7676.02Ding等人[9]第九届57.7270.0176.3778.90BTTR [35]52.3163.9068.61-BTTR(基线)56.5868.8874.1976.90DenseWAP [32]41.755.559.3-DenseWAP-TD [33]51.466.169.1-Ding等人[9]第九届61.3875.1580.2382.65BTTR [35]52.9665.9769.14-BTTR(基线)59.5572.2376.0678.40+v:mala2255获取更多论文×CoMER:基于变压器的HMER 13并因此解决了覆盖率不足的问题,我们在CROHME 2014测试集上计算了不同长度下的识别准确率,如图所示。3.通过比较“BTTR(baseline)”与CoMER系列模型,我们发现配备ARM的CoMER在处理各种长度的序列时,尤其是处理较长的序列时,具有更好的性能。当识别长度大于50的序列时,“CoMER(Fusion)”的性能实验结果表明,ARM覆盖机制可以提高对准质量并缓解覆盖不足问题。比较自覆盖和交叉覆盖的性能,我们发现交叉覆盖在分析短序列时表现更好。相比之下,自我覆盖在识别长序列方面更好。我们假设这是因为交叉覆盖会累积前一层产生的不对齐,导致它错误地细化当前层中的注意力权重。相比之下,自覆盖独立地在每个层中执行对齐和细化。“CoMER(Fusion)”使用自覆盖和交叉覆盖来利用不同的比对信息,并且在识别长于20的序列方面远远优于其他模型。BTTR(基线)CoMER(自身)CoMER(交叉)CoMER(融合)80706050403020100(0,10)(10、20)(20、30)(30、40)(40、50)50+LaTeX表达式图3. CROHME 2014测试集上不同长度的LATEX表达式的识别准确度(%)4.6细化术语可视化如图4所示,我们将识别过程中的细化项R可视化。我们发现,解析区域较暗,这表明ARM将抑制76.0073.5074.0074.2553.3154.7054.6949.1349.4048.4447.9235.7130.3630.7725.0023.21十九点二十三分十九点二十三分20.0011.5412.008.004.00表情识别率(%)+v:mala2255获取更多论文14瓦。 Zhao等人注意力在这些解析的区域中加权,并鼓励模型集中在进入的未解析区域上。可视化实验表明,我们提出的ARM可以有效地缓解覆盖不足的问题。见图4。公式图像识别中的细化项R可视化。颜色越深,值越大5结论与未来工作在本文中,受RNN中的覆盖注意力的启发,我们提出了CoMER将覆盖机制引入到Transformer解码器中。我们的主要贡献有以下四点:(1)我们提出的CoMER解决了覆盖率不足的问题,显著提高了长LATEX表达式的识别准确率。(2)我们提出了一种在Transformer中进行注意力细化的改进型注意力细化模块(ARM而不损害其并行计算性质。(3)我们提出了自覆盖,交叉覆盖和融合覆盖,使用当前和先前层的过去对齐信息来细化注意力权重。(4)实验验证了CoMER模型的有效性。具体来说,我们在CROHME2014/2016/2019测试集上使用单个CoMER模型实现了新的最先进性能,ExpRate达到59.33%/59.81%/62.97%我们相信,我们提出的注意力细化框架不仅适用于手写数学表达式识别。我们的ARM可以帮助优化注意力权重,并提高所有需要动态对齐的任务的对齐质量为此,我们打算在Transformer中扩展ARM,作为在未来工作中解决各种视觉和语言任务的通用框架(例如,机器翻译、文本摘要、图像字幕)。致谢。本工作得到了国家重点研发计划(2019YFB1406303)和国家自然科学基金(No.61876003)项目的支持,也是出版业科学技术与标准重点实验室(智能出版媒介技术重点实验室)的研究成果。+v:mala2255获取更多论文CoMER:基于变压器的HMER 15引用1. Al varo,F., S'anchez,J.A.,Bened'estern,J.M.:应用二维随机上下文无关文法与隐马尔可夫模型识别手写体数学Pattern Recognition Letters35,582. 安德森,R.H.:手写体二维数学的语法定向识别。在:实验应用数学的交互系统研讨会:计算机协会的会议记录。sym-symphony。pp. 4363. 本焦,Y.,Frasconi,P.,Simard,P.:在递归网络中学习长期依赖性的问题。IEEE International Conference on Neural Networks(IEEE神经网络国际会议)pp.1183-1188. IEEE(1993年)4. Carion,N.,Massa,F.,Synnaeve,G.,N.C.,Kirillov,A.,Zagoruyko,S.:使用变压器的端到端对象检测。在:欧洲计算机视觉会议(2020)5. Chan,K.F.,杨丹英:数学表达式识别综述。International Journal on DocumentAnalysis and Recognition3(1),36. 郑志,Bai,F.,徐,Y.,Zheng,G.,中国农业科学院,Pu,S.,Zhou,S.:集中注意力:在自然图像中准确识别文本。在:IEEE计算机视觉国际会议pp. 50767. Cornia,M.,Stefanini,M.,巴拉尔迪湖Cucchiara,R.:用于图像字幕的网状存储器Transformer。在:IEEE/CVF计算机视觉和模式识别会议论文集。pp. 105788. Devlin,J.,Chang,M.W.,Lee,K.,Toutanova,K.:Bert:用于语言理解的深度双向转换器的预训练。在:计算语言学协会北美分会(2018)9. 丁,H.,陈凯,霍问:一种采用多头注意和层叠解码器的手写数学表达式识别的编码器-解码器方法。在:文件分析和识别国际会议pp. 602-616施普林格(2021)10. Dosovitskiy,A.,拜尔湖,Kolesnikov,A.,Weissenborn,D.,Zhai,X.,Unterthiner,T.,Dehghani,M.,Minderer,M.,Heigold,G.,Gelly,S.,Uszkoreit,J.,Houlsby,N.:一张图片相当于16x16个单词:用于大规模图像识别的变形金刚在:第九届国际会议上学习代表,ICLR 2021,虚拟活动,奥地利,2021年5月3日至7日。OpenReview.net (2021),https://openreview.net/论坛?id=YicbFdNTTY11. Glorot,X.,Bordes,A.,Bengio,Y.:深度稀疏整流神经网络。国际人工智能和统计会议(2011年)12. Huang,G.,刘志,范德马滕湖,Weinberger,K.Q.:密集连接的卷积网络。计算机视觉与模式识别(2017)13. Ioffe,S.,Szegedy,C.:批量归一化:通过减少内部协变量偏移来加速深度网络训练。02 The Dog(2015)14. Lavirotte,S.,Pottier,L.:利用图文法进行数学公式识别。In:DocumentRecognition V. vol. 3305,pp. 44-52.国际光学和光子学学会(1998年)15. Li,Z.,Jin,L.,Lai,S.,Zhu,Y.:通过尺度增强和降低注意力来改进基于注意力的手写体表情识别。2020年第17届手写识别前沿国际会议(ICFHR)。pp. 175-180. IEEE(2020)+v:mala2255获取更多论文16瓦。 Zhao等人16. 刘,L.,Utiyama,M.,Finch,A.,Sumita,E.:目标双向神经机器翻译协议。在:计算语言学协会北美分会(2016)17. Luo,Y.,(1996年),美国,吉,J.,太阳,X.,曹,L.吴,Y.,Huang,F.,Lin,C.,Ji,R.:双层用于图像字幕的协作Transformer。于:第三十五届AAAI人工智能会议,AAAI2021,第三十三届人工智能创新应用会议,IAAI 2021,第十一届人工智能教育进展研讨会,EAAI 2021,虚拟活动,2021年2月2日至9日。pp. 2286-2293. AAAIPress(2021),https://ojs.aaai.org/index.php/AAAI/article/view/1632818. Luong,M.T.,范,H.,曼宁,C.D.:基于注意力的有效方法神经机器翻译《自然语言处理中的经验方法》(Empirical Methods in NaturalLanguage Processing,2015)19. MacLean,S.,Labahn,G.:提出了一种新的手写体识别方法ICS使用关系文法和模糊集。International Journal on Document Analysis andRecognition(IJDAR)16(2),13920. Mahdavi,M.,扎尼比河Mouchere,H.,Viard-Gaudin,C.,Garain,U.:ICDAR 2019crohme+ tfd:手写数学表达式识别和打字公式检测竞赛2019年国际文件分析与识别会议(ICDAR)pp. 1533-1538年。IEEE(2019)21. Mouchere,H.,Viard-Gaudin,C.,扎尼比河Garain,U.:ICFHR 2014竞赛在线手写数学表达式的识别(crohme 2014)。2014年第14届手写识别前沿国际会议。pp. 791-796. IEEE(2014)22. Mou ch`ere,H.,Viard-Gaudin,C.,扎尼比河Garain,U.:Icfhr2016crohme:Com-关于承认在线手写数学表达式的请愿书。2016年第15届手写识别前沿国际会议(ICFHR)。pp. 607-612. IEEE(2016)23. Pan,Y.,Yao,T.,李,Y.,Mei,T.:用于图像字幕的x-线性注意力网络在:2020年IEEE/CVF计算机视觉和模式识别会议,CVPR 2020,美国华盛顿州西雅图,2020年6月13日至19日。pp. 10968-10977.计算机VI-Sion Foundation/IEEE(2020).https://doi.org/10.1109/CVPR42600.2020.01098,https://openaccess.thecvf.com/content_CVPR_2020/html/Pan_X-Linear_Attention_Networks_for_Image_Captioning_CVPR_2020_paper.html24. Paszke ,A.,格罗斯, S. Massa ,F.,Lerer ,A. ,布拉德伯里,J,Chanan ,G. ,Killeen,T.,林 芝, Gimelshein , N., 安提 加 湖Desmaison , A. ,Kopf , A. , Yang , E.,DeVito,Z.,Raison,M.,Tejani,A.,Chilamkurthy,S.,Steiner,B.,芳湖,Bai,J.,Chintala,S.:Pytorc
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- StarModAPI: StarMade 模组开发的Java API工具包
- PHP疫情上报管理系统开发与数据库实现详解
- 中秋节特献:明月祝福Flash动画素材
- Java GUI界面RPi-kee_Pilot:RPi-kee专用控制工具
- 电脑端APK信息提取工具APK Messenger功能介绍
- 探索矩阵连乘算法在C++中的应用
- Airflow教程:入门到工作流程创建
- MIP在Matlab中实现黑白图像处理的开源解决方案
- 图像切割感知分组框架:Matlab中的PG-framework实现
- 计算机科学中的经典算法与应用场景解析
- MiniZinc 编译器:高效解决离散优化问题
- MATLAB工具用于测量静态接触角的开源代码解析
- Python网络服务器项目合作指南
- 使用Matlab实现基础水族馆鱼类跟踪的代码解析
- vagga:基于Rust的用户空间容器化开发工具
- PPAP: 多语言支持的PHP邮政地址解析器项目
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功