PARSeq:革新场景文本识别的置换自回归模型

18 浏览量更新于2024-06-19 收藏 1.77MB PDF 举报

本文主要探讨的是"基于PARSeq的场景文本识别"这一主题，由Darwin Bautista和Rowel Atienza两位作者，来自菲律宾大学电气和电子工程学院。PARSeq是一种创新的场景文本识别方法，针对传统上下文感知的自回归语言模型（ARLM）在处理图像条件依赖性问题上的局限性进行改进。ARLM通常依赖于内部模型，这可能导致错误地纠正预测，从而降低识别效率。 PARSeq的核心在于它利用置换语言建模（RLM）的概念，学习一组共享权重的内部ARLM，这种设计将上下文无关的非自回归模型和上下文感知的自回归推理结合起来。此外，该方法引入了双向上下文的迭代细化，进一步提高了识别精度。这种方法的优势在于其能够利用合成训练数据，在STR基准上达到了先进的性能，如达到91.9%的准确性，并在更具挑战性的数据集上也表现出色。值得注意的是，当PARSeq在真实数据上进行训练时，它实现了新的SOTA结果，达到了96.0%的准确性。同时，它的设计使得在参数计数、计算复杂度（FLOPS）和延迟方面表现最优，因为其结构简洁，处理方式并行，对令牌进行高效处理。PARSeq的鲁棒性得益于广泛的跨模态注意力机制，使其能适应各种方向的文本，这在实际的图像场景中尤为关键。与传统的光学字符识别（OCR）相比，STR在处理场景文本的多样性上有更高的要求，包括字体、方向、形状、照明、遮挡和传感器条件的不一致性。因此，PARSeq的提出对于提升STR在自动驾驶、增强现实等领域的实用性具有重要意义。本文的创新之处在于它将自回归建模与置换语言模型相结合，以及引入双向上下文的优化策略，使得场景文本识别在处理复杂环境中的文本识别任务时表现出色。感兴趣的读者可以通过提供的GitHub链接获取代码、预训练权重和相关数据，以便进一步研究和应用。关键词包括场景文本识别、置换语言建模、自回归建模以及跨模态注意力。

+v：mala2255获取更多论

文

∈

t=1

∈

基于置换自回归序列模型的

（第3.3节），它可以是一个标准的从左到右的前瞻掩码（AR解码），

一个

完形填空

掩码（迭代细化），或者根本没有掩码（NAR解码）。

第二个MHA用于

MHA

（

，

）

∈

（

+1）

模型

（3）

其中不使用注意掩模最后的解码器隐藏状态是MLP的输出，

hdec

MLP

（

）

∈

（

+1）×

模型

。

最后，输出logits是y =

Linear

（h

dec

）

（

+1）×（

+1）

，其中

是用

于训练的字符集（charset）的大小。附加字符属于

[E]

标记（标记序列

的结束）。总之，给定注意掩码m，解码器是采取以下形式的函数：

Dec

（z

，

m）∈

（

+1）×（

+1）

（4）

3.2

置换语言建模

给定一个图像x，我们希望在一组模参数θ下最大化其文本标签y

[

，

..........

，

]

的可能性

。

在

现代

建模中，

使用链式规则根据规范或-

dering，

，

. . .

，

]，

从而得到

模型del

log

（

）

log

（

，

）。

但是，Transformer并行处理所有令牌，允许输出令牌

以

访问

或有条件地依赖于所有输入令牌。为了具有有效的AR模型，

过去

的

令牌不能访问

未来的

令牌。AR属性在Transformers中通过使用注意掩码

来强制执行。例如，三元素序列y的标准AR模型将具有表1a所示的注意

力掩码。

PLM背后的关键思想是在所有T！可能性的因子分解

log

（y

x）

<$Z

不

log

（

< t

，

）

（

五

）

其中

表示索引序列[1，2，.. .，

]，

和z

分别表示置换z

的第

个

元素和前

1个元素。每个置换z指定对应于似然的不同因子分解的排

序。

要在Transformers中实现PLM，我们不需要实际置换文本标签y。相

反，我们设计注意力掩码来

强制执行

z指定的顺序。作为具体示例，

表1中示出了用于三元素序列的四个不同排列的注意掩码请注意，虽

然输入和输出序列的顺序保持不变，但所有四个序列都对应于由给定

置换或因子分解顺序指定的不同AR模型考虑到这一点，可以看出，

标准 AR 训练只是 PLM 的一个特殊情况，其中只有一个排列 [1

，

. . .

，

]，使用。

在实践中，我们不能在所有

上训练！由于计算需求的指数增加，

因子分解。作为妥协，我们只使用K

剩余39页未读，继续阅读

cpongm

粉丝: 6

PARSeq:革新场景文本识别的置换自回归模型

parseqTest

parseq：异步Java更容易

Android-ParSeq一个框架使得更容易在Java中编写异步代码

如何结合置换语言建模和自回归建模提升场景文本识别的精度和实时性能？

结合置换语言建模和自回归建模在场景文本识别中如何提升精度和实时性能？

在实际项目中，如何将置换语言建模（RLM）与自回归建模相结合，以提高场景文本识别的精度和实时性能？

parseq数据集下载

ParseQ:为 DevMountain 解析 BaaS

异步Java变得更容易-Android开发

undertow-2016.11.0.zip

最新资源