自监督表示学习中的SimAN模块：相似性感知归一化的自监督表示学习

188 浏览量更新于2023-10-25 收藏 13.78MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

{canjie.luo, lianwen.jin}@gmail.com, jingdongchen.cjd@antgroup.com10390SimAN: 通过相似性感知归一化探索场景文本的自监督表示学习0骆灿杰 1 ，金连文 1,2,* ，陈晶东 301 华南理工大学，2 鹏城实验室，3 蚂蚁集团0摘要0最近，自监督表示学习在场景文本识别社区引起了相当大的关注。与以往使用对比学习的研究不同，我们从另一个角度来解决这个问题，即通过生成式方式来构建表示学习方案。通常，一个文本行中的相邻图像补丁往往具有相似的样式，包括笔画、纹理、颜色等。受到这种常识的启发，我们增强一个图像补丁，并使用其相邻补丁作为指导来恢复自身。具体而言，我们提出了一种相似性感知归一化（SimAN）模块，以识别不同的模式并从指导补丁中对齐相应的样式。通过这种方式，网络获得了区分复杂模式（如杂乱笔画和混乱背景）的表示能力。实验证明，所提出的SimAN显著提高了表示质量，并取得了有希望的性能。此外，我们惊讶地发现，我们的自监督生成网络在数据合成、文本图像编辑和字体插值方面具有令人印象深刻的潜力，这表明所提出的SimAN具有广泛的实际应用。01. 引言0计算机视觉社区在过去的十年中见证了监督学习的巨大成功。然而，监督学习方法严重依赖于费力费时的注释。否则，它们可能会遇到泛化问题。最近，自监督表示学习成为一种有前途的替代方案，因此引起了越来越多的关注[24,34]。已经表明，自监督表示可以使后续的监督任务受益[6-10,18]。尽管在单个对象识别/分类任务上的表示学习取得了快速的改进，0* 通讯作者。0f(∙)0内容0样式0增强0相似性0注意力归一化0f(∙)0内容0样式对齐0内容0解码器0表示0空间0（a）对比表示学习0（b）生成式表示学习（我们的方法）0恢复的图像0SeqCLR0增强0f(∙)0f(∙)0f(∙)0表示0空间0投影0头部0图1.场景文本表示学习的对比式（a）和生成式（b）方法（我们的方法）。我们估计增强补丁与其相邻补丁之间的内容表示的相似性，并对应地对齐相应的样式以重构增强补丁。只有高质量的表示才能被区分，从而可以实现精确的重构。0场景文本识别领域面临额外的挑战。例如，一张图像中的多个字符不能被视为一个实体[38,61]。直接采用当前非顺序对比学习方案用于类似序列的字符[44]通常会导致性能下降[1]。这表明了非顺序和顺序方案之间的差距。因此，为场景文本识别设计一个特定的表示学习方案是可取的。由于场景文本图像中包含密集字符，与自然图像显著不同，SeqCLR [1]10400使用特定策略将一个文本行分成几个实例，并对这些实例进行对比学习。学习方案如图1(a)所示。用于序列到序列视觉识别的SeqCLR优于代表性的非序列方法SimCLR[7]。虽然它带来了巨大的飞跃，但场景文本的表示学习仍然是一个具有挑战性的开放性研究问题，其中场景文本的本质尚未完全探索。因此，我们回顾了与一般对象（例如人脸、汽车和狗）不同的场景文本的几个特性。例如，突出显示场景文本的一个特征是其恒定的笔画宽度[13]。同时，观察到颜色相似性通常发生在一个文本行上。这些特殊性为手工制作的特征提供了线索，例如连通组件[41]、笔画宽度变换[13,58]和最大稳定极值区域树[21]，在深度神经网络取得巨大成功之前很受欢迎。在本文中，我们从新的角度探索表示学习，考虑到场景文本的上述独特属性。学习方案如图1(b)所示。具体而言，我们随机裁剪一个文本行中的两个相邻图像块。一个块是增强的，另一个块指导增强块的恢复。由于一个文本行通常呈现出一致的风格，包括笔画、纹理、颜色等，增强块的原始风格可以根据相似的内容模式在相邻块上找到。因此，我们提出了一个相似性感知归一化（SimAN）模块，通过估计这两个块之间的内容表示的相似性来对齐相应的风格。这意味着表示需要足够可区分，以便可以识别不同的模式并正确对齐相应的风格。只有这样，网络才能产生精确的恢复图像块。因此，所提出的SimAN以生成方式实现了高质量的自监督表示学习。此外，我们发现我们的自监督网络在与最先进的场景文本合成方法[17,23,35,59]相比具有竞争力的性能。将SimAN应用于其他视觉效果任务，如文本图像编辑和字体插值，也是有希望的。总结起来，我们的贡献如下：0•我们提出了一种生成式（与对比式[34]相反）的表示学习方案，利用场景文本的独特属性，这可能启发我们重新思考对于文本图像等序列数据的更好表示的学习。据我们所知，这是对场景文本识别的首次尝试。0• 我们提出了一个SimAN模块，用于估计增强之间表示之间的相似性。0通过利用增强图像块及其相邻块来对齐相应的风格。只有当表示足够可区分时，才能识别不同的模式并与正确的风格对齐。否则，网络可能会产生错误的恢复图像，例如不同的颜色。0•提出的SimAN模块实现了有希望的表示性能。此外，自监督网络展示了合成数据、编辑文本图像和插值字体的令人印象深刻的能力，表明了该方法的广泛实际应用。02. 相关工作02.1. 场景文本识别的数据需求0场景文本识别是计算机视觉领域的一个重要研究课题，因为图像中的文本为我们提供了相当多的语义信息。该领域一个重要的开放问题是数据需求。通常，主流的场景文本识别器[14,45,54]需要大量的标注数据。然而，数据收集和标注需要大量的资源。例如，注释一个文本字符串比选择一个选项作为单个对象分类数据集的真实标签更困难，而为了获得鲁棒性，需要数千万个训练数据。虽然合成数据是可用的，但以前的研究[26,33,37,61]表明真实数据和合成数据之间存在差距。为了缓解这个问题，张等人[61]和康等人[26]提出了领域自适应模型来利用无标签的真实数据。我们的研究以生成方式探索表示学习，这是利用无标签真实数据的另一种解决方案。02.2. 视觉表示学习0在大数据时代，有大量的无标签数据可用。充分利用无标签数据成为一个关键的课题。自监督表示学习因其出色的预训练特征提取能力而受到广泛关注[24,34]。例如，预训练任务后训练的编码器可以提取可转移的特征，以利于下游任务。根据其目标，我们将流行的方法总结为两个主要类别。对比学习方案将预训练任务定义为分类任务或距离测量任务。例如，预训练任务是预测相对旋转[31]和位置[56]。最近，相似性测量预训练任务已经成为主流，其目标是通过使用判别头[5, 7, 8, 10,18]来最小化正样本对之间的距离，同时最大化与负样本之间的距离。它与度量学习密切相关。此外，仅使用正样本并丢弃负样本[9, 16]的相似性测量任务也是一个新兴的话题。10410对齐0K0Q0V0实例归一化0局部统计0随机裁剪0增强0编码器0解码器0判别器0对0损失L2损失0数据流监督流可训练模块操作特征图损失0SoftMax0I s0I c I aug I c0I rec0相似性感知0归一化0图2.提出的生成式表示学习方案概述。我们将内容和风格解耦为两个不同的输入，并引导网络恢复增强的图像。提出的SimAN模块学习根据可区分的表示对不同模式的对应风格进行对齐。0新兴的话题。0对于场景文本领域，Baek等人[3]引入了现有的自监督技术[18,31]来使用无标签数据，但结果表现出了大致相同的性能。Aberdam等人[1]提出了一种对比表示学习方案，称为SeqCLR，以满足场景文本识别的序列到序列结构。这是场景文本表示的第一步。0生成学习方案在计算机视觉领域尚未得到深入研究。其中一个原因可能是原始图像信号处于连续和高维空间中，不像离散空间中的自然语言句子（例如单词或短语）[18]。因此，很难定义一个实例。虽然可以逐像素地对图像进行建模[50]，但这理论上需要更多高性能的集群[6]。另一种解决方案是去噪自编码器[49,52]，它通过重构（损坏的）输入图像来学习特征。0我们的方法属于视觉表示学习的第二类，即生成学习方案。我们通过研究场景文本的独特属性，并使用图像重建预训练任务，提出了一种新的表示学习方案。03. 方法论0在本节中，我们首先介绍了预训练任务的设计和训练样本的构建。然后，我们详细介绍了提出的SimAN模块。最后，我们介绍了任务的目标和完整的学习方案。整体框架如图2所示。03.1. 训练样本构建0构建适当的训练样本对于预训练任务的成功至关重要。我们通过使用其邻近补丁作为指导来恢复增强图像补丁，从而实现场景文本表示学习。这种设计考虑了场景文本的独特属性，即一行文本中的样式（例如笔画宽度、纹理和颜色）倾向于一致。预训练任务需要解耦的样式和内容输入。如图2所示，给定一个未标记的文本图像I∈R3×H×W（要求宽度W大于高度H的两倍），我们随机裁剪两个相邻的图像补丁Is和Ic∈R3×H×H作为样式和内容输入。这确保了两个补丁之间在内容上有足够的差异。即使相邻的补丁可能包含相同的字符，它们的位置也是不同的。然后，我们将内容补丁Ic增强（模糊、随机噪声、颜色变化等），使其样式与样式补丁Is不同。最后，预训练任务以Iaug作为内容输入，以Is作为样式指导来恢复图像Irec。源内容补丁Ic作为监督。讨论：由于我们的预训练任务是在其邻近补丁的指导下恢复增强补丁，因此视觉线索在两个补丁中应保持一致。某些空间增强策略，如弹性变换，可能会破坏一致性并导致训练失败。例如，它可能会改变笔画宽度。过度扭曲的笔画也与源字体样式不同。因此，我们避免使用广泛用于自监督表示学习的所有空间变换增强方法。这也是与先前研究SeqCLR[1]的一个重要区别。104203.2. 相似性感知归一化0先前的研究[22,29]表明，特征图的统计信息，包括均值和方差，可以表示样式。基于这一发现，我们对特征图进行实例归一化(IN)[22,48]，以去除样式并获得内容表示，作为关键(K，来自Is)和查询(Q，来自Iaug)。0K = IN(Encoder(Is)), Q = IN(Encoder(Iaug)), (1)0其中，K和Q是具有空间尺度RCF×HF×WF的归一化特征图。IN(∙)的计算如下所示：0IN(x) = x - σ(x)0σ(x)^2 + ε，(2)0其中，µ(∙)和σ(∙)分别计算每个通道和每个样本的均值和标准差。对于局部样式表示，我们在特征图的第c个通道上的位置(i,j)提取八个邻域的均值和标准差。0µc,i,j = 10无0p,q∈Ni,j×c,p,q，(3)0σc,i,j = 10无0p,q∈Ni,j (xc,p,q - µc,i,j)^2, (4)0其中，Ni,j是由位置(i,j)及其周围八个邻域组成的位置集合。这里的µ、σ∈RCF×HF×WF作为值(V，来自Is)。然后，通过适应性地重新排列µ和σ来根据两个输入的模式之间的相似性进行重新排列。在此处，K、Q、µ和σ被重塑为RCF×HF×WF。0µ' = µ Softmax(KTQ/√dk)0σ' = σ Softmax(KTQ/√dk)0无0其中，d_k是输入K的维度。µ'和σ'被重塑为RCF×HF×WF。最后，我们执行IN(∙)的逆过程，将重新排列的样式与每个位置对齐，以进行图像恢复。0Q'c,i,j = Qc,i,jσ'c,i,j + µ'c,i,j, (6)0我接收到的是解码器(Q')。(7)0由于提出的SimAN将样式和内容整合起来恢复图像，它实现了表示学习。如果编码器产生了无意义的内容或样式表示，解码器将无法正确恢复源图像。例如，无法识别的内容表示将混淆样式对齐并导致混乱的图像。不准确的样式表示将导致颜色失真。总之，图像重建目标要求同时有效地表示内容和样式。03.3. 学习方案0由于我们将预文本任务定义为图像重建，源补丁I c可以作为监督。我们通过最小化恢复图像I rec 与目标图像Ic 之间的距离来实现：0L2 = ||I rec - I c||^2_2. (8)0同时，我们采用了广泛使用的对抗目标，以最小化生成数据和真实数据之间的分布偏移：0min D L adv = E[ D(I s) - 1 ]^2 + E[ D(I rec) ]^2, (9)0min Encoder, Decoder L adv = E[ (D(I rec) - 1 )^2,(10)0其中D表示鉴别器。完整的学习方案如算法1所示。编码器/解码器和鉴别器交替优化以实现对抗训练。0算法1 表示学习方案输入：Encoder,Decoder, Discriminator D 输出：Encoder,Decoder01:对于迭代t = 0, 1, 2, ...,T，进行以下操作：2:从无标签数据中采样一个小批量{I i} Bi =103:对于每个I i进行以下操作04:随机裁剪I s和I c，将I c作为I aug进行增强05:前向传播Encoder, SimAN和Decoder06:计算{I rec,i} Bi =1的损失07:使用min D L adv更新D08:使用以下更新编码器和解码器0min Encoder, Decoder L adv + λ L209:（λ经验设置为10）04. 实验0在本节中，我们进行了大量实验证明了所提方法的有效性。首先，我们将学习到的表示质量与之前的研究SeqCLR[1]进行了比较。然后，我们使用半监督设置来研究我们方法的性能，其中我们使用无标签数据预训练编码器，并使用部分标记数据进行微调。最后，我们展示了我们生成方法在其他视觉任务中的潜力。例如，我们尝试合成多样化的数据来训练一个强大的识别器。此外，我们还将我们的自监督模型与主流的有监督模型在文本图像编辑任务上进行了比较。我们还展示了一些有前景的字体插值视觉效果。1https://github.com/Canjie-Luo/Real-300K.10430RNNs骨干网络预处理0“珠宝商”0CTC/Attention0（矫正）（ResNet-29）（2*BiLST0归一化0图像0图3. 识别器的架构[1, 2]。04.1. 数据集0我们在几个公共基准数据集上评估了我们的方法，这些数据集在场景文本识别研究中被广泛使用。这些数据集包括IC03[36]，IC13 [28]，IC15 [27]，SVT [53]，SVT-P[42]，IIIT5K[39]，CUTE80（CT80）[43]和Total-Text（TText）[12]。我们构建了一个用于自监督表示学习的数据集。为了获得更真实和多样化的场景文本图像，我们从公共真实训练数据集中收集样本，包括IIIT5K [39]，IC13 [28]，IC15[27]，COCO-Text [51]，RCTW [46]，ArT [11]，ReCTS[60]，MTWI [19]，LSVT [47]和MLT[40]。我们丢弃高度小于32像素或宽度小于64像素的低分辨率图像（宽度应大于高度的两倍以构建训练样本）。因为在实践中，低质量的图像会混淆图像恢复任务并导致训练效率低下。因此，我们丢弃它们的标签，获得一个由约300k个真实样本组成的无标签数据集，称为Real-300K1。此外，我们还使用流行的合成数据集SynthText[17]与之前的研究SeqCLR [1]进行公平比较。04.2. 实现细节0我们在补充材料中提供了更多细节，如数据增强、架构、探测器目标和训练设置。编码器/解码器我们采用了一种常用的识别器骨干ResNet-29[2]作为我们的编码器。我们对称地设计了一个轻量级的解码器。识别器识别器的完整架构遵循[1,2]，包括一个矫正模块、一个ResNet-29骨干、两个堆叠的双向LSTM和一个CTC [15]/Attention[4]解码器，如图3所示。优化在自监督表示学习阶段，我们将批大小设置为256，并训练网络400K次迭代。在两个NVIDIA P100GPU上，收敛时间不到3天（每个GPU内存为16GB）。优化器采用Adam [30]，设置为β1 = 0.5和β2 =0.999。学习率设置为10^-4，并线性减小到10^-5。图像的高度调整为32个像素，保持纵横比。识别器的训练设置遵循之前的研究SeqCLR [1]。04.3. 探测器评估0我们首先使用常见的协议——探测评估来研究表示质量。具体而言，我们使用SynthText[17]对ResNet-29骨干进行自监督预训练。然后我们固定骨干的参数，并将冻结的表示输入到CTC/Attention探测器中。这些探测器在相同的带标签的SynthText数据集上进行训练。人们认为表示质量越高，探测器获取分类线索的能力就越好。表1报告了包括单词准确率（Acc.）和编辑距离为1的单词级准确率（E.D.1）[1]在内的量化结果。请注意，我们的生成方案与对比方案SeqCLR[1]有显著的不同，SeqCLR在自监督预训练阶段使用了充分的序列建模（RNN投影头和序列映射）。虽然直接比较这两种方法有些不合理，但我们在类似的实验设置下列出了SeqCLR的结果以供参考。在这里我们分析了我们方法的结果。请注意，编码器中的序列建模（2*RNN）降低了表示质量。这是因为我们的方法对恢复进行了局部模式建模，而序列建模引入了上下文来干扰这种学习方案。因此，我们在编码器中舍弃了序列建模。这意味着我们的方法在自监督表示学习后可能缺乏序列建模的能力。然而，可以在探测器中配备一个轻量级的RNN，这可以显著提高表示质量。总体而言，我们以生成方式获得了有希望的表示。这可能为场景文本识别领域带来全新的学习视角。此外，我们发现这种实验设置（预训练骨干并使用相同的合成数据集微调探测器）可能不符合实际实践。事实上，我们通常会遇到这样一种情况，即我们拥有大量未标记的真实世界数据。充分利用真实世界数据是值得的。因此，我们在这种新的设置下进行了实验，以进一步验证我们方法的有效性。我们使用Real-300K数据集对骨干进行自监督学习。如表3所示，识别性能显著提升。由于真实世界数据提供了更真实和多样化的图像，这有利于骨干的鲁棒性。另一个原因是使用真实数据集。SeqCLR [1]ResNet + 2*RNNProj. + Seq. Map.CTC35.762.043.671.243.567.9ResNet + 2*RNNFCNCTC0.02.80.00.00.06.4ResNetFCNCTC1.57.92.35.22.212.9ResNetFCN1*RNN + CTC57.475.164.878.963.081.2ResNetFCN2*RNN + CTC60.875.664.978.964.081.0SeqCLR [1]ResNet + 2*RNNProj. + Seq. Map.Att.49.268.663.979.659.377.1ResNet + 2*RNNFCNAtt.6.412.86.89.97.115.1ResNetFCNAtt.22.239.722.338.624.143.6ResNetFCN1*RNN + Att.65.078.373.685.971.884.3ResNetFCN2*RNN + Att.66.578.871.783.668.781.6CTCSynth.Synth.60.875.664.978.964.081.0RealSynth.68.982.875.087.272.986.0Att.Synth.Synth.66.578.871.783.668.781.6RealSynth.73.785.681.290.477.987.810440表1. 探测器评估。我们报告了单词级准确率（Acc.，%）和编辑距离为1的准确率（E.D.1，%）。虽然我们无法直接与SeqCLR进行比较，但我们列出了它的结果供参考。“Proj.”，“Seq.Map.”，“Att.”分别表示投影头、序列映射和注意力。RNN是一个双向LSTM（256个隐藏单元）。0方法编码器解码块探针 IIIT5K IC03 IC130（训练）（测试）准确率 E.D. 1 准确率 E.D. 1 准确率 E.D. 10我们0我们0表2。增强策略的比较。我们舍弃了空间变换增强，因为我们的方法是基于一致的视觉线索恢复图像的。0增强策略对比生成（SeqCLR [ 1 ]）（我们）0颜色对比 � �0模糊化 � �0锐化混合 � �0随机噪声 � �0裁剪 � ×0透视变换 � ×0分段仿射 � ×0表3。探针评估。我们报告了单词准确率（Acc.，%）和编辑距离为1的单词级准确率（E.D.1，%）。真实的训练数据提供了更稳健的表示。0探针训练数据 IIIT5K IC03 IC130类型编码器探针准确率 E.D. 1 准确率 E.D. 1 准确率 E.D. 10取得更好结果的原因可能是更接近基准数据集的分布，这些数据集也是真实世界的数据集。讨论在这里，我们揭示了对比学习方案SeqCLR和我们的生成学习方案SimAN之间的两个重要差异。1）我们在表2中总结了增强策略。由于我们的SimAN根据一致的视觉线索恢复图像，因此我们没有将空间变换增强引入到我们的流程中。这意味着我们的方法更适用于场景文本图像，而不是黑白的手写文本图像（重点是笔画变形）。相反，SeqCLR在手写文本上比场景文本显示出更有前景的结果。2）我们发现在编码器中添加序列模型会降低我们方法的性能，而对于SeqCLR则提供了显著的改进。这是因为我们的方法对恢复进行了局部模式建模，而SeqCLR则需要序列中的上下文信息进行区分。这两种方案具有不同的特性。在这方面，对比和生成方法的互补性值得未来探索。04.4. 半监督评估0我们进一步研究了半监督方式下的性能。由于它可以充分利用丰富的无标签数据，因此具有重要的实际意义。由于SynthText提供了600万个训练样本，因此它是0能够对原始的600万个数据进行三个不同规模（10K、100K和1M）的子集采样。在对SynthText进行自监督预训练后，我们使用预训练参数来初始化识别器的骨干网络。最后，我们使用SynthText的不同子集对整个识别器进行微调。如表4所示，我们的半监督方法在性能上优于有监督的基线。例如，在10K低资源设置下，我们的方法将准确率提高了5%以上，这表明识别的鲁棒性与表示质量高度相关。随着标记数据规模的增加，我们的方法仍然可以提高识别准确率。我们将半监督结果与之前的研究SeqCLR [ 1]在相同设置下进行了比较。值得注意的是，我们的方法仍然可以在使用整个SynthText进行微调时稍微提高识别性能，而SeqCLR则表现不一致。这表明了我们方法的泛化能力。04.5. 生成式视觉任务0我们在生成式视觉效果任务上展示了我们方法的潜力。为了适应多个不同任务的泛化，我们在模型中采用了广泛使用的VGG编码器和相应的解码器[22,25]。训练数据集为Real-300K。图像高度设置为64像素。04.5.1 数据合成0由于我们的生成学习方案将内容和风格表示解耦，我们可以随机集成现有风格和新内容来合成多样的训练样本。如图4所示，我们用风格参考图像替换Is，并用新的内容输入替换Iaug。然后，生成网络可以合成一个在相似风格中保留所需内容的图像。请注意，这里的“风格”和“内容”与字体风格转换任务[55]的术语略有不同。这里的风格指的是颜色、模糊程度和纹理等方面，而不是字体类别。内容指的不仅是文本字符串，还包括背景的轮廓和字体的拓扑形状。因此，可以通过在ImageNet样本上添加由Canny边缘检测算子提取的变体草图来引入更多的背景噪声。因此，最终可以将包含倾斜/弯曲文本的干净画布渲染为丰富多样的场景文本图像。(a)(b)10450表4.半监督性能评估。我们从SynthText（6M）中采样了三个规模（10K、100K和1M）的数据。我们的方法可以从无标签数据中学习高质量的表示，并改进有限资源标注数据的监督基线。0方法监督 IIIT5K IC03 IC130标注训练数据标注训练数据标注训练数据 10K 100K 1M 6M 10K 100K 1M 6M 10K 100K 1M 6M0SeqCLR [1] 监督 - - - 83.8 - - - 91.1 - - - 88.1 半监督 - - - 82.9 ↓ 0.9 - - - 92.2 ↑ 1.1 - - - 87.9 ↓ 0.20我们的监督 35.0 72.6 84.1 86.6 37.6 79.4 88.2 91.5 38.6 75.3 86.4 89.0 半监督 41.1 ↑ 6.1 73.6 ↑ 1.0 84.1 87.5 ↑ 0.9 42.9 ↑ 5.3 79.9 ↑ 0.5 89.2 ↑ 1.0 91.8 ↑ 0.3 43.9 ↑ 5.3 75.6 ↑ 0.386.5 ↑ 0.1 89.9 ↑ 0.90解码器0编码器0SimAN0风格参考0Canny0（a）（b）0图4.数据合成流程。我们可以合成包含新文本字符串的相似风格图像。请注意，画布上的草图Iaug也与源图像Is上的相应背景噪声风格对齐。0图5.通过t-SNE显示包含单词“the”的场景文本图像的分布。我们展示了(a) 200个真实标注样本和(b)200个真实样本和我们的2000个合成样本的两个分布。原始分布的大空白区域可能暗示了标注数据的缺乏多样性。添加我们的合成样本后，分布更加均匀和密集。最好以彩色查看。0表5. 基准测试上的单词准确率（%）。按照UnrealText[35]的设置，我们合成了100万个样本并训练了相同的识别器。对于每一列，最佳结果以粗体字突出显示，次佳结果以下划线显示。0方法 IIIT5K SVT IC15 SVT-P CT80 TText0Synth90K [23] 51.6 39.2 35.7 37.2 30.9 30.5 SynthText [17] 53.5 30.3 38.429.5 31.2 31.1 Verisimilar Synthesis [59] 53.9 37.1 37.1 36.3 30.5 30.9UnrealText [35] 54.8 40.3 39.1 39.6 31.6 32.10我们的方法（高分辨率，64×）62.3 51.2 35.0 36.6 44.8 37.90我们的方法（模糊处理后）65.7 58.6 38.7 44.2 47.9 38.30首先，我们可视化了有限的真实标注样本和丰富的合成样本的分布。如图5所示，有限的真实标注数据无法覆盖多样的风格。然而，我们的合成数据填补了空白的风格空间，表明风格得到了显著丰富。然后，我们进行了识别实验来展示定量结果。按照UnrealText[35]的设置，我们合成了100万个样本来训练相同的识别器，并在几个基准测试上报告准确率。如表5中倒数第二行所示，我们的样本在四个（六个中的四个）基准测试上的表现优于之前的合成方法[17, 23, 35,59]，而没有使用任何花哨的技巧。我们发现我们的合成样本具有较高的分辨率（高度为64像素），这通常无法满足场景文本的低质量实践。因此，我们只需对样本进行模糊处理。识别性能进一步提升，表明我们的合成流程是可扩展的。04.5.2 任意长度文本编辑0在野外编辑文本的目标是在源图像上更改单词，同时保留真实的源外观。由于我们的方法可以在源样式内合成新单词，我们研究了我们的自监督方法和流行的受监督方法EditText2 [57] 的性能。我们使用SynthText [17]的语料库和IC13[28]的样式生成了1万张图像。然后，我们使用FID分数[20]评估样式分布相似性，并使用主流的识别器3[44]评估可读性。如图6和表6所示，EditText无法处理不同长度的目标文本。这意味着编辑受到了限制。02 https://github.com/youdao-ai/SRNet 3https://github.com/meijieru/crnn.pytorch10460尽管EditText的样式分布更接近源图像，但其生成的图像是不可读的，而我们的方法可以自适应地将正确的样式对齐到任意长度的文本，表明了我们自监督方法的灵活性。在实践中，我们发现我们的方法足以进行跨语言编辑，如图7所示。它具有广泛的应用，例如菜单翻译和跨境电子商务。0“23:02:33”0“VFR750.”0“detectors”0内容样式 EditText 我们0图6. 文本编辑的可视化。EditText [57]无法处理不同长度的目标字符串，而我们的方法可以自适应地对齐正确的样式，并获得更可读的结果。0表6.任意长度文本编辑评估。我们报告FID分数和字级别识别准确率（%）。尽管受监督的EditText可以模仿更多的字体类别和背景纹理，但我们的自监督方法具有更好的可读性。0方法监督 FID ↓ 准确率 ↑0EditText [57] � 40.5 14.9 我们的 × 67.9 57.604.5.3 字体插值0人们普遍认为字体设计是属于少数专家的专业技术[55]。我们在字体插值方面提出了一个有趣的应用，可以自动高效地生成字体候选项。由于我们将样式和内容参数化为表示形式，我们可以对这些表示形式进行插值以实现过渡效果。例如，我们计算两个图像的样式表示（局部统计信息）并根据相同的内容表示重新排列它们。我们对这两个样式表示进行插值以解码图像，从而获得逐渐变化的颜色、光泽和阴影，如图8所示。同时，我们对内容表示进行插值以实现字形的变化。这一潜力表明我们的方法可能有助于字体设计。05. 更广泛的影响0由于我们提出的自监督方法能够解耦场景文本的样式和内容，因此该方法具有广泛的应用前景。例如，它可以交换文本以实现图像（和视频）操作，可用于许多应用，如菜单翻译和跨境电子商务。然而，我们指出文本图像编辑的风险。它可以用于篡改敏感数据，如个人信息、车牌号码和财务统计数据，以欺骗依赖于文本图像的系统。0英语中文韩语阿拉伯语0源图像生成图像0图7. 通过我们的自监督方法进行跨语言编辑。0源字体颜色0源字体字形0图8. 我们方法产生的字体插值效果。0文本识别。有必要减少这些负面影响。一种有希望的技术解决方案是使用合格的鉴别器检测编辑/攻击图像。同时，提高广大人群的媒体素养也是至关重要的。06. 结论0我们提出了一种新颖的场景文本自监督表示学习方法，即以生成方式进行学习。它利用了一个文本图像中相邻补丁之间的样式一致性，以其相邻补丁的指导下重构一个增强补丁。具体而言，我们提出了一个SimAN模块，基于两个补丁之间的表示相似性来识别不同的模式（例如，背景噪声和前景字符）。这些表示需要足够可区分，以便正确对齐相应的样式以重构增强补丁。否则，会导致图像不准确。通过这种方式，它通过图像重构任务实现了自监督表示学习。大量实验证明了我们的生成方法在表示质量上取得了有希望的结果，并且优于先前的对比方法。此外，它展示了数据合成、文本图像编辑和字体插值的令人印象深刻的潜力，展示了广泛的实际应用。我们的研究可能引发对场景文本自监督学习的重新思考。未来，我们将研究对比和生成学习方案的互补性，以进一步提高表示质量。0致谢0本研究部分得到了NSFC（Grant No.61936003）和GD-NSF（No. 2017A030312006）的支持。10470参考文献0[1] Aviad Aberdam, Ron Litman, Shahar Tsiper, OronAnschel, Ron Slossberg, Shai Mazor, R Manmatha, andPietro Perona. 序列对序列对比学习用于文本识别. In CVPR ,pages 15302–15312, 2021.0[2] Jeonghun Baek, Geewook Kim, Junyeop Lee, SungraePark, Dongyoon Han, Sangdoo Yun, Seong Joon Oh, andHwal- suk Lee.场景文本识别模型比较存在的问题？数据集和模型分析. In ICCV ,pages 4715–4723, 2019.0[3] Jeonghun Baek, Yusuke Matsui, and Kiyoharu Aizawa.如果我们只使用真实数据集进行场景文本识别？朝着更少标签的场景文本识别. In CVPR , pages 3113–3122, 2021.0[4] Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio.通过联合学习对齐和翻译进行神经机器翻译. In ICLR , 2015.0[5] Mathilde Caron, Ishan Misra, Julien Mairal, Priya Goyal,Pi- otr Bojanowski, and Armand Joulin.通过对比聚类分配进行无监督学习的视觉特征学习. In NeurIPS ,volume 33, pages 9912–9924, 2020.0[6] Mark Chen, Alec Radford, Rewon Child, Jeffrey Wu, Hee-woo Jun, David Luan, and Ilya Sutskever.从像素开始的生成预训练. In ICML , pages 1691–1703, 2020.0[7] Ting Chen, Simon Kornblith, Mohammad Norouzi, andGe- offrey Hinton. 对比学习视觉表示的简单框架. In ICML ,pages 1597–1607, 2020.0[8] Ting Chen, Simon Kornblith, Kevin Swersky, MohammadNorouzi, and Geoffrey Hinton.大型自监督模型是强大的半监督学习器. NeurIPS , 33:22243–22255, 2020.0[9] Xinlei Chen and Kaiming He. 探索简单的孪生表示学习. InCVPR , pages 15750–15758, 2021.0[10] Xinlei Chen, Saining Xie, and Kaiming He.自监督视觉Transformer训练的实证研究. In ICCV , pages9640–9649, 2021.0[11] Chee Kheng Chng, Yuliang Liu, Yipeng Sun, Chun ChetNg, Canjie Luo, Zihan Ni, ChuanMing Fang, Shuaitao Zhang,Junyu Han, Errui Ding, et al. ICDAR2019关于任意形状文本的鲁棒阅读挑战. In ICDAR , pages 1571–1576, 2019.0[12] Chee-Kheng Ch’ng, Chee Seng Chan, and Cheng-LinLiu. Total-Text: 朝向鲁棒性的场景文本检测. Int. J. Doc. Anal.Recogn. , 23(1):31–52, 2020.0[13] Boris Epshtein，Eyal Ofek和YonatanWexler。使用笔画宽度变换检测自然场景中的文本。在CVPR，2010年，第2963-2970页。0[14] Shancheng Fang，Hongtao Xie，YuxinWang，Zhendong Mao和YongdongZhang。像人类一样阅读：用于场景文本识别的自主、双向和迭代语言建模。在CVPR，2021年，第7098-7107页。0[15] Alex Graves，Santiago Fern´andez，FaustinoGomez和J¨urgenSchmidhuber。连接主义时间分类：使用递归神经网络对未分段序列数据进行标记。在ICML，2006年，第369-376页。0[16] Jean-Bastien Grill，Florian Strub，Florent Altch´e，CorentinTallec，Pierre Richemond，Elena Buchatskaya，

下载后可阅读完整内容，剩余1页未读，立即下载