半监督文本识别的伪标签生成和基于不确定性的数据选择框架

144 浏览量更新于2023-10-16 1 收藏 999KB PDF 举报

图像文本识别

半监督学习

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6180Seq-UPS：用于半监督文本识别的邱强美国普渡大学电气与计算机工程学院{gpatel10，allebach，qqiu} @ purdue.edu摘要本文着眼于基于图像的文本识别的半监督学习（SSL）。最流行的SSL方法之一是伪标签（PL）。PL方法在使用标记数据和伪标记数据的组合重新训练模型之前将标签分配给未标记数据然而，PL方法由于噪声而严重退化，并且由于包括从校准不良的模型生成的错误的高置信度伪标签而易于过度拟合到有噪声的标签，因此，使得基于阈值的选择无效。此外，假设空间的组合复杂性和由于多个不正确的自回归步骤而导致的误差累积使得序列模型的为此，我们提出了一个伪标签生成和基于不确定性的数据选择框架的半监督文本识别。我们首先使用波束搜索推理产生高度可能的假设分配伪标签的未标记的例子。然后，我们采用一个集成的模型，通过应用dropout采样，以获得与预测相关的不确定性的鲁棒估计，同时考虑字符级和单词级的预测分布，以选择高质量的伪标签。在几个基准手写和场景文本数据集上的大量实验表明，我们的方法优于基线方法和以前最先进的半监督文本识别方法。1. 介绍文本识别在最近一段时间内获得了大量的关注[35]，主要是由于其商业应用。自引入深度学习以来，在各种公开可用的基准数据集[27，28，29，36，41，42，45，46，56]上的识别准确性已经取得了很大的进步[6，9，14，31，33，34，49，50，54，55，62]。然而，这些模型严重依赖于大量的具有完整字符序列的标记数据作为标签，这是费力获得的。除了完全监督的文本识别之外，很少有人尝试利用未标记的数据样本来提高模型[s]吴恩吴恩吴恩wur n wur n低高图1：波束搜索推理（波束宽度= 2）识别未标记的文本图像和弹出假设集的概述。该框架考虑了所有累积的假设来近似总的不确定性（U总）的重要性抽样。半监督学习范式已经被开发来解决上述问题，并且主要是基于伪标签的半监督学习（PL-SSL）方法已经引起了广泛的关注。在PL-SSL配置中，较小的此外，未标记的数据及其最可靠的假设作为标签与训练数据相结合进行重新训练，该方法利用标记和未标记的数据点来重新训练完整的模型，允许整个网络也利用未标记的数据点的潜在知识。然而，另一方面，PL-SSL对所选伪标签的质量敏感，并且由于包含从校准不良的模型生成的错误的高度置信的伪标签而受到影响，从而导致噪声训练[47]。此外，对于需要在每个输入图像的每个时间步处预测字符的基于图像的文本识别，由于假设空间的组合巨大性以及单个不正确的字符预测呈现整个假设空间的事实，伪标记更具挑战性。6181预测序列为false。此外，在PL-SSL设置中，处理使用相对少量的标记数据训练的模型的错误预测，并能够在训练周期开始时排除它们是非常重要的。因此，在这样一个框架中，正确的假设生成和选择至关重要。本文提出了一种基于图像文本识别的PL-SSL的可靠假设生成我们提出了一种方法来估计的不确定性associated与字符序列的输入图像的预测，给出了一个坚定的估计的可靠性的伪标签的未标记的数据样本，然后根据估计的不确定性，选择的例子，有一个不正确的分配psetuo标签的可能性低我们的方法源于两个主要观察结果，表明（a）对于基于伪标签的SSL方案，选择具有低不确定性的预测减少了不良校准的影响，从而提高了泛化能力[47]，以及（b）对于基于深度神经网络的语言模型，预测不确定性与令牌错误率之间存在高度正相关性，这表明，如果模型为输入图像产生了高不确定性，那么用作伪标签的预测很可能是不正确的[53]。然而，大多数无监督的不确定性估计方法都集中在传统的非结构化预测任务，如图像分类和分割。用于文本识别的输入图像的不确定性估计，本质上是一个序列预测任务，是非常重要的，并提出了各种挑战[39]：（a）识别模型不会直接在可变长度序列的无限集合上生成分布，以及（b）自回归序列预测任务，如文本识别，没有固定的假设集;因此，禁止在相同的情况下进行期望计算。为了规避这些挑战，我们使用波束搜索推理（图1）为使用给定标记数据训练的种子模型上的每个未标记数据点此外，所获得的假设用于近似预测分布并获得集合上的期望。我们将此过程称为决定性推理，其为每个图像生成明确且不同的假设集，这些假设集有助于近似预测分布。此外，为了计算与输入相关的不确定性，我们采用贝叶斯方法进行集成，因为它产生了优雅的，概率性的和可解释的不确定性估计[39]。我们使用 Monte-Carlo-Dropout （ MC-Dropout ）[19]，它强调了同时训练多个模型的需要，并允许我们利用Dropout虚拟地生成多个模型（从原始模型中删除不同的神经元）作为Monte-Carlo样本，并对采样模型进行推断，对教师强制设置的假设中的每个序列进行推断[58]，将其称为随机推断。我们在伪标记阶段使用教师强迫的动机是在所有的模型中加强预测的一致性集合中的采样模型，使得我们可以估计通过确定性推理获得的每个假设的预测分布。最后，每个假设的预测后验通过对所有样本模型进行期望来获得。此外，获得的预测后验用于计算不确定性的信息论估计，其估计总不确定性[21]，考虑字符级和单词级预测后验，并用作伪标签的鲁棒选择标准。图1显示了Beam-Search推理背后的直观想法，以生成归一化不确定性估计的多个假设。最后，我们在几个手写和场景文本数据集上测试了我们的方法，将其性能与半监督设置中最先进的文本识别方法进行了比较。此外，我们使用基于字错误率（WER）的预测拒绝曲线[38，40]证明了我们的不确定性估计的鲁棒性总之，关键点是：（a）我们提出了一个基于不确定性的伪标签的半监督学习框架，该框架利用Beam-Search推理进行伪标签分配，并利用字符和序列感知的不确定性估计进行样本选择。（b）我们利用教师强迫[58]，主要用于在伪标记阶段训练序列模型，以加强集合中所有采样模型的预测一致性，以估计预测分布。(c)最后，在SSL设置中的几个具有挑战性的手写和场景文本数据集上对该方法进行了评估。2. 相关工作文本识别：基于注意力的顺序解码器[5]已经成为场景文本[33，54，60，63]和手写[10，37，57]中文本识别的前沿框架，64]。此外，已经提出了各种增量命题[9，11，12]，例如引入或改进校正模块[34，50，60，63]，设计多方向卷积特征提取器[17]，增强注意力机制[16，32]，以及堆叠多个Bi-LSTM层以更好地进行上下文建模[16，49，50]。由于文本识别模型中存在所有的多样性，Baek等人[3]的开创性工作为文本识别提供了一个统一的框架，该框架通过建议将识别系统分为四个不同的操作阶段，为现有方法提供了一个模块化的观点，即：（ a ）空间变换（ Trans. ），（ b ）特征提取（Feat.），(c)序列建模（Seq.），和（d）预测（Pred.）。此外，该框架不仅提供了现有的方法，而且还提供了其可能的变体[3]，并证明大多数最先进的方法[14，31，34，49，50，55]都属于该框架。半监督学习：当标签是稀缺的或昂贵的获得，半监督学习提供了一个强大的框架，利用未标记的数据。基于深度学习的SSL算法已被证明是有效的6182DDDi=1i=1{1}|}{1}|}标准基准任务。近年来发表了许多半监督学习作品，包括基于一致性正则化的方法[30，44，43，52]，标签传播[7，65]，自我训练[2，15，47]，数据增强-[25]第25话：[25]尽管半监督学习正在迅速发展，但它通常用于非结构化预测任务例如分类或语义分割。然而，文本识别是结构化预测任务，因此，现成的半监督方法不太可能直接适用于当前用例。半监督文本识别：尽管有明显的好处，大多数文本识别系统目前不使用未标记的文本图像。特别是手写识别，通常基于全监督训练[51，61]，而场景文本模型主要是在合成数据上训练的[22，23]。然而，Kang etal.[26]和Zhang et al. [64]最近提出了用于与标记数据一起使用未标记数据集的域自适应技术。尽管如此，他们引入了特定的模块来强制进行主对齐.Fogel等人。[18]提出了一种完全无监督的手写文本图像方案，其中一个预测器强制预测与给定文本语料库的分布相一致然而，这些方法需要限制识别器仅使用本地预测。此外，Gao等人。 [20]在学习框架中炮制了一种基于奖励的方法来执行场景文本识别的SSL，然而，他们引入了一个额外的嵌入网络来计算嵌入距离以制定奖励函数，从而在训练时引入了计算开销。此外，Aberdam等人 [1]提出了一种用于文本识别的序列到序列对比自监督学习框架，由于自监督学习器的泛化能力，该框架隐含地显示了SSL能力[15]，该方法通过自监督预训练学习广义图像特征，该方法用于在微调阶段初始化权重。此外，我们假设模型3. 方法我们从一个初步的介绍开始，描述3.1中通用文本识别模型然后，我们在3.2小节中描述了图2所示的半监督框架，并在3.3小节中描述了所提出最后，在3.4小节中，我们验证了引入的不确定性估计的鲁棒性，并显示了估计的不确定性3.1. 初步文本识别模型fθ（. ）试图预测给定图像X的机器可读字符序列Y。在众多的文本识别模型中，伪标记数据选择的伪标记样本未标记数据已标记数据图2：表示伪标签生成和基于不确定性的标签选择策略的示意图该图描绘了在第I次训练迭代结束时伪标记过程的快照。u中的未标记数据点通过确定性推理被分配伪标签。此外，与每个未标记的样本相关联的不确定性通过随机推断与K个集合来计算;然后基于阈值参数选择具有低不确定性值的样本，以与第（I+1）次训练迭代的l一起被包括在训练集训练虚线箭头表示在不确定性估计时应用的示教-强制[58]。(The为了简洁起见，省略了空间变换模块。骨干和顺序解码方案，我们采用了一个通用的识别模型与基于注意力的顺序解码方案[3]。大多数处理不规则或手写文本的最先进的文本识别选择都是我们所选模型的衍生物。我们的文本识别模型主要由四个部分组成：（a）空间变换器网络[24]，通过图像归一化来简化下游阶段，（b）骨干卷积特征提取器，（c）上下文序列建模阶段，以及（d）自回归预测每个时间步长的字符的序列模型。令提取的卷积特征图为V=v iv iRCW ，其中W是数字的列，并且C是通道的数量。特征图V通过序列模型，表示为Seq（. ）以生成上下文序列H，即， H=Seq（V）=喜喜研发W ，其中D是隐藏状态维度。此外，在第t步，解码器预测跨特征空间的概率质量， p （ yt ） =softmax（W0st+b0），其中W0和b0是可训练参数，并且st是解码器LSTM隐藏。步骤t的den 状态定义为st= LSTM（yt−1，ct，st−1）。这里，ct是作为加权和计算的上下文向量上一步骤中H中的元素，定义为样本选择麦克斯可信度预测不确定度估计监督训练波束推断LSTM解码器LSTM解码器LSTM解码器LSTM解码器LSTM解码器BiLSTMBiLSTMBiLSTMBiLSTMBiLSTM骨干CNN骨干CNN骨干CNN骨干CNN骨干CNN确定性推理随机推理随机推理随机推理关注关注关注关注关注6183Σt=1Y∼DDΣY我我i=1联系我们i=1我我用于重新训练识别模型。i=1CE不不<不我i=t−1我我i=1我我YX我 i=1我我 i=1我我Y（b）我我b=1我我不 <不我ΣNlllD{}我我UBct=1αt，i hi，使得αt，i=expt，i，与训练数据集Dt rain=Dl{{Xu，Yu}Nu|如果qi=1}et，i=watanh（Wbst−1+Wchi+b），其中wa、Wb、Wc和b是可训练参数。完整的识别模型使用交叉熵损失CE（，）进行端到端训练3.3.序贯预测的不确定性估计在地面实况序列Y={yt}S上求和，其中y i是RE中的独热编码向量，其中E是字符词汇大小，S表示序列长度。现在，我们详细介绍了采用的不确定性估计方法的伪标签选择。我们采用基于集成的方法进行不确定性估计，也称为MC-Dropout [19]。考虑一个集合-S S EL=CE（y，p（y））=ylog（p（y））。（一）具有预测概率分布的模型表{P（Y |X，θk）} K，每个集合模型参数t=1t=1i=1表示为k=1K表示合奏的数量，此外，由于LSTM的自回归性质，解码器，我们可以将Y上的分布分解为条件分布的乘积，以先前预测的输出Y为条件={y}1，输入X和所有θ，其中K从后验πp（θ）采样。这里，πp（θ）是应用了dropout的所有可能的参数，给定概率P。此外，预测后验概率为用θ表示的可训练参数为，SP（Y|X，θ）= P（yt|Y

下载后可阅读完整内容，剩余1页未读，立即下载