端到端Transformer DocFormer：视觉文档理解的创新突破

49 浏览量更新于2025-01-16 收藏 13.56MB PDF 举报

DocFormer是一个创新的端到端Transformer架构，专为视觉文档理解（VDU）任务设计，该领域关注理解和处理诸如表格、收据等不同格式和布局的数字文档。传统的OCR技术虽然在识别文本方面表现出色，但在理解文档结构和布局方面仍有所欠缺。DocFormer的关键在于其多模态特性，它结合了文本、视觉和空间特征，通过一种新颖的多模态自注意力层，实现了这些模态的有效融合。模型的优势在于其无监督预训练阶段，通过精心设计的任务，鼓励模型在没有标注数据的情况下学习模态间的交互。这种设计允许模型不仅捕捉文本内容，还能将文本与视觉元素（如图像中的形状和位置）关联起来，从而提升对文档复杂性的理解。相较于仅依赖文本或文本加上空间特征的方法，DocFormer的综合使用三种模态使得性能更优。在实验部分，DocFormer在四个不同的VDU数据集上进行了严格的评估，结果显示它在多个任务上表现出了卓越的性能，有时甚至超越了参数量为其四倍的竞争对手。这表明DocFormer在处理文档理解问题时，不仅在准确度上表现出色，而且在效率上也具有竞争力。总结来说，DocFormer代表了Transformer模型在视觉文档理解领域的最新进展，其多模态融合和无监督预训练策略为提高文档理解任务的准确性提供了新的可能性。通过在实际应用中展现的先进性和效率，DocFormer有望推动文档处理技术的发展，尤其是在自动化文档分析、信息提取等领域。

995

最近，田中等提出了Layout-T5

[48]，用于对Web文章文档图像数据库进行问答任务，而Po

walski等提出了TILT

[39]，将卷积特征与T5架构结合起来执行各种下游文档理解

任务。

3.方法

概念概述：我们首先介绍了变压器编码器多模态训练中使用

的架构的概念概述，如图2所示。

（a）联合多模态：VL-BERT[46]，LayoutLMv2

[55]，Visu-alBERT[32]，MMBT

[30]：在这种类型的架构中，视觉和文本被连接成一个长序

列，这使得变压器的自注意力由于跨模态特征相关性而变得

困难，这在引言中有所提及。（b）双流多模态：CLIP

[40]，Vil-BERT

[36]：每个模态都是一个独立的分支，这允许使用任意模型

来处理每个分支。然而，文本和图像仅在最后相互作用，这

并不理想。最好进行早期融合。

（c）单流多模态：将视觉特征也视为标记（就像语言一样

），并将其与其他特征相加。以这种方式（简单相加）将视

觉特征与语言标记结合在一起是不自然的，因为视觉和语言

特征是不同类型的数据。

（d）离散多模态：在本文中，DocFormer将视觉、文本和

空间特征解耦。即，空间和视觉特征作为残差连接传递到每

个变压器层。我们这样做是因为空间和视觉依赖关系可能在

不同层次上有所不同。在每个变压器层中，视觉和语言特征

分别进行自注意力计算，并共享空间特征。为了对DocFor

mer进行预训练，我们使用了IIT-CDIP文档集合[31]中的50

0万个页面的子集进行预训练。为了进行多模态VDU，我们

首先提取OCR，这为我们提供了每个文档的文本和相应的单

词级边界框。接下来，我们将描述模型架构，然后是预训练

任务。

3.1.模型架构

DocFormer是一个仅编码器的变压器架构。它还具有用于视

觉特征提取的CNN骨干。所有组件都进行端到端的训练。D

ocFormer使用新颖的多模态自注意力在变压器层中实现了

深度多模态交互。我们描述了在将三种模态特征（视觉、语

言和空间）输入变压器层之前如何准备它们。视觉特征：假

设v∈R3×h×w

是文档的图像，我们将其通过ResNet50卷积神经网络fcnn

(θ,v)

进行处理。我们在第4层提取低分辨率的视觉嵌入，即vl4

∈Rc×hl×wl。在这个阶段，典型的值为c=2048和

hl=h32，wl=w32（其中c是通道数，hl和wl

是高度和

特征的宽度）。Transformer编码器期望输入维度为d的扁

平序列。因此，我们首先应用1×1卷积将通道c减少到d。然

后，我们将ResNet特征展平为(d,

hl×wl)，并使用线性变换层进一步转换为(d,

N)，其中d=768，N=512。因此，我们将视觉嵌入表示为V

=linear(conv1×1(fcnn(θ,

v)))。语言特征：设t为从文档图像中通过OCR提取的文本。

为了生成语言嵌入，我们首先使用word-piece分词器[53]对

文本t进行分词，得到ttok，然后将其通过可训练的嵌入层W

t进行处理。ttok的形式如[CLS]，ttok1，ttok2，...，ttokn

，其中n=511。如果一页中的标记数>511，则忽略其余部

分。对于标记少于511个的文档，我们使用特殊的[PAD]标

记填充序列，并在自注意力计算过程中忽略[PAD]标记。我

们确保文本嵌入T=

Wt(ttok)与视觉嵌入V具有相同的形状。根据之前的研究[55

]，我们使用LayoutLMv1

[54]预训练权重初始化Wt。空间特征：对于文本中的每个单

词k，我们还获取边界框坐标bk=(x1,y1,x2,y2,x3,y3,x4,

y4)。2D空间坐标bk为模型提供了关于单词相对于整个文档

的位置的附加上下文。这有助于模型更好地理解内容。对于

每个单词，我们使用单独的层Wx和Wy分别对x和y坐标进行

编码。我们还编码了更多的空间特征：边界框高度h，宽度

w，从边界框的每个角到其右侧边界框对应角的欧氏距离以

及边界框之间的质心距离，例如Arel={Ak+1num−Aknum}

；A∈(x,y)；num∈(1,2,3,4,

c)，其中c是边界框的中心。由于transformer层是置换不变

的，我们还使用绝对1D位置编码Pabs。我们为视觉Vs

和语言Ts

特征创建单独的空间嵌入，因为空间依赖性可能是模态特定

的。最终的空间嵌入是通过对所有中间嵌入求和得到的。所

有空间嵌入都是可训练的。

Vs=Wxv(x1,x3,w,Axrel)+

Wyt(y1,y3,h,Ayrel)+Pabst(2)

Ts=Wxt(x1,x3,w,Axrel)+

Wyv(y1,y3,h,Ayrel)+Pabst(1)

多模态自注意力层：现在我们详细描述我们的新颖的多模态

自注意力层。考虑一个transformer编码器fenc(η,V,Vs,T,

Ts)，其中η是transformer的可训练参数，V，Vs，T和Ts是

视觉、视觉空间、语言和语言空间

剩余10页未读，继续阅读

cpongm

粉丝: 6

端到端Transformer DocFormer：视觉文档理解的创新突破

文档转化器

优秀毕业设计：基于transformer的序列数据二分类完整代码+数据可直接运行

3DETR：端到端Transformer在3D物体检测中的突破

Donut：无需OCR的端到端文档理解Transformer模型

Visformer：提升Transformer在视觉模型的数据拟合能力

基于查询的图像外推技术QueryOTR：混合Transformer架构用于无缝图像扩展与外画

MAE深度解析：从Transformer到高效视觉学习

Swin Transformer：层次视觉Transformer解决视觉挑战

BERT：双向Transformer预训练推动语言理解新高度

Transformer驱动的视觉显著性检测：纯Transformer模型VST

最新资源