
2
W. Zhao等人
除了样式之外,我们还需要对符号和上下文之间的关系进行建模[2]。
例
如,在
L
A
T
E
X
中
,
模型
需要
生成
“符号“、“”、“”和““来描述
符号在二维图像中的位置和层次关系
。研究人员在HMER任务中广泛
使用编码器-解码器架构
[
9
,
15
,
26
,
29
,
32- 35 ] , 因为其 在 编 码 器 部
分中的 特征提取和 在解码器部分中 的语言建模。
Transformer [28]是一种完全基于注意力机制的神经网络架构,已逐
渐取代RNN成为自然语言处理(NLP)[8]中的首选模型。通过
Transformer中的自注意机制,相同序列中的令牌建立直接的一对一连
接。这样的架构允许Transformer更好地对令牌之间的长期依赖性进行
建模。目前,Transformer在计算机视觉[10]和多模态[7,17,23]社区
中引起了越来越多的关注尽管Transformer已经成为NLP中的标准事
实,但与RNN对应部分相比,它在HMER任务中的表现并不令人满意
[9,35]。我们观察到,使用Transformer解码器的现有模型仍然存在覆
盖不足的问题[27,34]。 这个问题表现在两个方面:过度解析意味着
图像的某些部分被不必要地多次传递,而解析不足意味着某些区域仍
然没有解析。
RNN
解码
器使用
协
方差属性
[
9
,
15
,
26
,
29
,
32
然而,当
前的Transformer解码器使用香草点积注意力而没有覆盖机制,这是限
制其的关键因素。
性能
Transformer中每个步骤的计算都是相互独立的,这与RNN不同,
RNN中当前步骤的计算取决于前一
步
虽然这种性质提高了Transformer
中的并行性,但它使直接在Transformer解码器中使用来自先前作品的
覆盖机制变得困难。为了解决上述问题,我们提出了一种新的模型,
用于利用在transforMER解码器,命名为CoMER
中的
Co_(?) 受
RNN中覆盖机制的启发,我们希望Transformer将更多注意力分配给尚
未解析的区域。具体来说,我们提出了一种新的和通用的注意力细化
模块(ARM),动态细化的注意力权重与过去的对齐信息,而不损
害其并行性。为了充分利用从不同层生成的过去对齐信息,我们提出
了自覆盖和交叉覆盖,分别利用我们进一步表明,在HMER任务中,
CoMER的性能优于香草Transformer解码器和RNN解码器。我们工作的
主要贡献概述如下:
–
我 们提 出 了 一 种 新 颖 的 通 用注 意 力 细 化 模 块 (
ARM
) 来 细 化
Transformer解码器中的注意力权重,在不影响其并行性的前提下
有效地解决了覆盖不足问题。
–
我们提出了自覆盖,交叉覆盖和融合覆盖,以充分利用过去的对
齐信息产生的堆栈Transformer解码器中的不同层。