基于transformer的手写数学模型的覆盖率和表情识别

表情识别

PDF格式 | 862KB | 更新于2025-01-16 | 142 浏览量 | 举报

+v：mala2255获取更多论

文

CoMER

：

基于

transformer

的手写数学

模型

覆盖率

表情识别

赵文琪和高

良才

王璇北京大学计算机技术研究所

网址：wenqizhao@stu.pku.edu.cn，gaoliangcai@pku.edu.cn

抽象的。基于

transformer

的编码器

解码器体系结构最近在识别手写体字

母表达式方面取得了重大进展。然而，Transformer模型仍然存在覆盖率

不足的覆盖信息记录了过去步骤的对齐信息，已被证明在RNN模型中是

有效的。在本文中，我们提出了CoMER，一个模型，采用覆盖信息的

Transformer解码器。具体来说，我们提出了一种新的注意力细化模块

（ARM），以改善过去的对齐信息的注意力权重，而不损害其并行性。

此外，我们通过提出自覆盖和交叉覆盖将覆盖信息发挥到极致，这些覆盖

利用了当前层和先前层的过去对齐信息。实验表明，

CoMER

相比当前最

先进的模型， ExpRate 提高了 0.61%/2.09%/1.59% ，在 CROHME

2014/2016/2019

测试集上达到

59.33%/59.81%/62.97%

。

关键词：手写数学表达式识别

变换器

覆盖率

对齐

编码器

解码器模型

介绍

手写数学表达式识别（HMER）的目的是

从

手写

数学

表达式

图像中生

成

相应

的

X序列

手写数学表达式的识别已经导致了许多下游应用，

例如在线教育、自动评分和公式图像搜索。在COVID-19疫情期间，

越来越多的教育机构选择使用在线平台进行教学和考试。手写数学表

达式的识别率至关重要

提高在线教育场景中的学习效率和教学质量。

手写数学表达式识别是一个图像到文本的任务，比传统的文本识

别更具挑战性。除了各种文字

源代码可在https://github.com/Green-Wood/CoMER上获得

arXiv

：

2207.04410v2 [cs.CV] 2022

年

+v：mala2255获取更多论

文

W. Zhao等人

除了样式之外，我们还需要对符号和上下文之间的关系进行建模[2]。

例

如，在

中

，

模型

需要

生成

“符号“、“”、“”和““来描述

符号在二维图像中的位置和层次关系

。研究人员在HMER任务中广泛

使用编码器-解码器架构

[

，

32- 35 ] ，因为其在编码器部

分中的特征提取和在解码器部分中的语言建模。

Transformer [28]是一种完全基于注意力机制的神经网络架构，已逐

渐取代RNN成为自然语言处理（NLP）[8]中的首选模型。通过

Transformer中的自注意机制，相同序列中的令牌建立直接的一对一连

接。这样的架构允许Transformer更好地对令牌之间的长期依赖性进行

建模。目前，Transformer在计算机视觉[10]和多模态[7，17，23]社区

中引起了越来越多的关注尽管Transformer已经成为NLP中的标准事

实，但与RNN对应部分相比，它在HMER任务中的表现并不令人满意

[9，35]。我们观察到，使用Transformer解码器的现有模型仍然存在覆

盖不足的问题[27，34]。这个问题表现在两个方面：过度解析意味着

图像的某些部分被不必要地多次传递，而解析不足意味着某些区域仍

然没有解析。

RNN

解码

器使用

协

方差属性

[

，

然而，当

前的Transformer解码器使用香草点积注意力而没有覆盖机制，这是限

制其的关键因素。

性能

Transformer中每个步骤的计算都是相互独立的，这与RNN不同，

RNN中当前步骤的计算取决于前一

步

虽然这种性质提高了Transformer

中的并行性，但它使直接在Transformer解码器中使用来自先前作品的

覆盖机制变得困难。为了解决上述问题，我们提出了一种新的模型，

用于利用在transforMER解码器，命名为CoMER

中的

Co_（？）受

RNN中覆盖机制的启发，我们希望Transformer将更多注意力分配给尚

未解析的区域。具体来说，我们提出了一种新的和通用的注意力细化

模块（ARM），动态细化的注意力权重与过去的对齐信息，而不损

害其并行性。为了充分利用从不同层生成的过去对齐信息，我们提出

了自覆盖和交叉覆盖，分别利用我们进一步表明，在HMER任务中，

CoMER的性能优于香草Transformer解码器和RNN解码器。我们工作的

主要贡献概述如下：

–

我们提出了一种新颖的通用注意力细化模块（

ARM

）来细化

Transformer解码器中的注意力权重，在不影响其并行性的前提下

有效地解决了覆盖不足问题。

–

我们提出了自覆盖，交叉覆盖和融合覆盖，以充分利用过去的对

齐信息产生的堆栈Transformer解码器中的不同层。

+v：mala2255获取更多论

文

CoMER

：基于

transformer

的

HMER 3

–

实验表明，

CoMER

优于现有的最先进的方法，并在

CROHME 2014

[21]/2016 [22]/2019 [20]数据集上实现了59.33%/ 59.81%/ 62.97%的表情

识别率（

ExpRate

）。

相关工作

2.1 HMER

方法

传统的方法通常将HMER任务分为两个子任务：符号识别和结构分析

[5]。研究人员通过不同的预定义语法表示公式的结构信息，例如图语

法[14]，上下文无关语法[1]和关系语法[19]。这些方法要求研究者开

发出手工设计的语法规则，而其推广性在很大程度上取决于这些语法

规则的完善程度。

近年来，编码器-解码器架构在各种图像到文本任务中表现出了良好

的性能，例如场景文本识别[6]和图像字幕[30]。在[34]中，提出了一种称

为WAP的模型，首次使用编码器-解码器神经网络来解决HMER任务，并

在CROHME 2014竞赛中优于基于语法的方法[21]。WAP模型使用卷积神

经网络（CNN）编码器、门控递归单元（GRU）解码器和覆盖关注来形

成编码器-解码器架构。

在模型架构改进方面，Zhang

等人。

[32]提出了DenseWAP，它使用多

尺度DenseNet [12]编码器来提高处理多尺度符号的能力。Ding

等人。

[9]

然后借用Transformer的架构设计，通过多头注意力和堆叠解码器来提高

基于RNN的模型性能。

在数据增强方面，Li

et al.

[15]提出了尺度增强，在保持纵横比的

同时随机缩放图像，这提高了多尺度图像的泛化能力。PAL-v2 [29]然

后使用打印的数学表达式作为额外的数据来帮助训练模型。

在训练策略方面，Truong

et al.

[26]通过向编码器引入关于符号的存

在或不存在的弱监督信息提出了WS-WAP。此外，BTTR [35]提出首先使

用Transformer解码器来解决HMER任务，并使用单个解码器执行双向语言

建模。

2.2

覆盖机制

覆盖机制首先被提出[27]，以解决机器翻译任务中的过度翻译和翻译

不足问题。

HMER

[

，

- 34 ]中的所有先前工作都使用了RNN中

的coverage attention，其中引入了覆盖向量来指示图像特征向量是否已被解

析，导致模型将更多注意力放在未解析区域上。这是一个逐步细化，其

中解码器

剩余16页未读，继续阅读

cpongm

粉丝: 6

基于transformer的手写数学模型的覆盖率和表情识别

vue.js v2.5.17

DM8-SQL语言详解及其数据管理和查询操作指南

1108_ba_open_report.pdf

anslow_02_0109.pdf

以下是OpenCV在不同操作系统下的下载与安装教程

aronson_01_0707.pdf

Designing Deep Learning Systems. A software engineer's guide - 2023.pdf

基于豆瓣图书网站的图书数据分析与可视化

barbieri_01_0108.pdf

brown_3ck_01_0718.pdf

最新资源