论述：通过国际合作、科技进步和经济发展，建立一个繁荣稳定的世界

200 浏览量更新于2023-10-12 收藏 1.9MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9086ႎ ეᴁᴁڥ######ชݴᐣኞ岉จრଫӱชݴᐣ֯ଘਞႲ中文街景文本：部分监督学习下的大规模中文文本阅读孙一鹏1刘嘉明1刘伟2韩俊宇1丁二瑞1刘敬拓1百度公司计算机视觉技术部（VIS）1香港大学计算机科学系2{sunyipeng，liujiaming03，hanjunyu，dingerrui，liujingtuo}@baidu.comwliu@cs.hku.hk摘要由于训练数据量有限，大多数现有的文本阅读基准测试难以评估更高级的深度学习模型在大词汇量中的性能。为了解决这个问题，我们引入了一个新的大规模文本阅读基准数据集 C-SVT （ ChineseS treetViewText），该数据集包含430，000个街景图像，是现有中文文本阅读基准数据集的14为了在野外识别中文文本，同时保持大规模数据集标记的成本效益，我们建议在位置和文本标签中注释C-SVT数据集（30，000张图像）的一部分作为完整注释，并添加400，000张图像，其中仅给出区域中相应的感兴趣文本作为弱注释。为了充分利用弱注释数据中的丰富信息，我们在部分监督学习框架中设计了一个文本阅读网络，该网络能够同时从完全和弱注释数据中为了从弱标记图像中定位最佳匹配的文本提案，我们提出了一个在线提案匹配模块，该模块集成在整个模型中，通过共享端到端训练参数来识别关键字区域与全监督训练算法相比，该模型的端到端识别性能提高了4。在相同的标签成本下，F分数为03%。所提出的模型也可以在ICDAR2017-RCTW数据集上实现最先进的结果，这证明了所提出的部分监督学习框架的有效性。1. 介绍从图像读取文本近年来由于其众多的应用而受到广泛关注，例如，文档分析，基于图像的翻译，产品图像修复，这份工作是刘伟在百度公司实习时完成的检索、视觉地理定位和车牌识别等。受益于深度学习算法的进步[13，31，27，11，4]，在过去三年中，文本检测和识别在标准基准上的性能大幅提高[1]。感谢图1：端到端中文文本阅读：完全监控（左）与部分监督（右）。请注意，错误识别的字符将标记为红色。精心设计的基于深度学习的文本阅读模型，在IC-DAR基准测试[19，20]上检测[46，33，15]和识别文本[34，35，21，9]方面取得了显着的成功，主要集中在野外的英语文本上。然而，以前的方法很少注意到在野外阅读中文文本。将现有的文本检测和识别算法应用于中文文本阅读时，其性能会有较大的下降，这是一个由于真实世界图像中汉字的类别数量远大于拉丁语言，因此目前大多数数据集的训练样本数量仍然是有限的，并且字符分布相对不平衡。因此，在野外阅读中文文本需要更多注释良好的训练样本，然而，现有的基准测试[36][43]很难满足要求，主要是由于数据收集和文本区域位置注释的成本很高。为了解决这个问题，我们建立了一个新的大规模的智-9087一个名为ChineseS treetV iewT ext（C-SVT）的文本阅读基准测试，总共有超过430，000张街景图像。这个数据集包含30000个完全注释的图像，带有区域的位置和文本标签。由于在文本区域的精确位置注释图像对于实际应用来说是非常耗时、昂贵和低效的，因此我们添加了400，000多个图像，其中仅给出了感兴趣文本的注释。收集和注释这些大量的图像要便宜得多，称为弱注释。在这项工作中，我们打算利用这种大量的弱标记图像的一个单一的模型中的一个新的解决方案。具体而言，我们提出了一个端到端的可训练的中文文本阅读模型在部分监督学习框架。为了从弱标记图像中定位该模型可以主要提供使用完整注释的端到端定位和识别结果，并通过部分监督的联合训练进一步大幅提高性能，在统一的框架中使用完整和弱注释。本文的贡献有三个方面。1）建立新的大规模中文文本阅读基准命名为C-SVT，提供完整和弱文本标注，是现有中文文本阅读数据集的14倍2）为了利用大规模弱标注，我们提出了一种部分监督的端到端可训练文本阅读模型，该模型能够从完整和弱标注中学习，同时定位和识别野生中文文本。3）所提出的部分监督模型的性能可以显著优于完全监督学习模型，并且在ICDAR2017-RCTW上也达到了最先进的结果。据我们所知，C-SVT数据集是迄今为止最大的中文文本阅读基准。这也是第一次提出部分监督学习来解决端到端的文本阅读任务。2. 相关工作2.1. 文本阅读基准近年来，人们收集了大量的自然图像文本阅读数据集，这极大地促进了文本阅读方法的发展。对于英文文本，IC-DAR 2013 [19]和ICDAR 2015 [20]主要包含水平和多方向文本，首次用于评估文本阅读模型的性能为了在更复杂的情况下处理文本，Total-Text [10]和SCUT-CTW 1500[44]数据集。对于中文文本，Liuet al. [26]首先介绍了用于在线和离线手写识别的数据集对于野外中文文本，已发布MSRA-TD 500 [42]、RCTW-17[36]和CTW[43]，以评估中文文本阅读模型的性能不像所有先前的数据集仅提供完全注释的图像，所提出的C-SVT数据集还引入了大量的弱注释图像，其中仅具有感兴趣区域中的文本标签，这更容易收集并且具有进一步提高文本阅读模型的性能的潜力。C-SVT至少是之前中文基准的14倍[36，43]，使其成为野外阅读中文文本的最大数据集2.2. 端到端文本阅读端到端的文本阅读受到了广泛的关注，因为许多实际应用可以从自然图像中嵌入的丰富语义信息中受益。大多数传统方法[40，12，18，23]将此任务分为两个单独的部分。他们首先采用一个检测器本地化的文本区域的图像，然后生成字符的文本识别器在检测到的区域。为了通过共享特征来联合优化这两个部分，最近的方法[22，7，5，6，28，14，29，37]采用端到端的可训练框架来定位和识别文本区域。对于检测分支，[8，22，29]利用区域建议网络来生成文本建议，[14，28，37]采用完全卷积网络来直接预测位置[46]。对于识别分支，CTC（连接主义时间分类）[7，28]和基于注意力的LSTM解码器[22，14，37]用于将单个字符识别为序列到序列问题[11，4]。与以往所有的端到端文本阅读模型都是以完全监督的方式训练的不同，我们的模型是用部分监督的学习框架来训练的。通过将大规模弱注释数据纳入训练过程，我们可以进一步大幅提高端到端性能。2.3. 弱监督学习和部分监督学习弱监督学习已被用于计算机视觉的许多领域，例如，图像识别[30]、分割[16，32]和场景文本检测[38，15]等。弱监督场景文本检测方法[38，15]训练提出了一种基于字符级包围盒的有监督字符检测器，并利用词级包围盒对该模型进行了改进，提高了准确率。在端到端文本阅读任务中，我们利用大规模弱标记数据和完全标记数据来训练我们的文本阅读模型，该模型被制定为部分监督学习框架[16]，以同时定位和识别文本区域。据我们所知，这是第一次将部分监督学习范式引入端到端文本阅读任务。3. 中文街景文本在本节中，我们介绍了中文街景文本基准测试和数据集的特点，在-9088包括完整注释和弱注释。3.1. 定义中文街景文本基准测试旨在借助超过430，000个图像样本来评估更先进的深度学习模型，这是现有中文文本基准测试的14倍以上，如表1所示。一是比较。C-SVT数据集中的所有图像由于在精确的文本位置中注释地面实况是昂贵且耗时的，因此在精确的位置中用文本标签收集和标记如此大量是低效的。为了解决这个问题，我们建议在两个单独的部分中注释图像。样本的一部分在文本区域的位置处被标记有对应的文本标签，称为全注释。另一部分在粗糙掩模区域中进行注释，仅给出感兴趣文本的标签注意，感兴趣的文本被称为用户标记的有意义的关键字信息。全监督学习是用完全注释的数据训练模型，而弱监督学习则应用于弱注释的数据。对完全和弱注释数据的混合训练被称为部分监督学习[30]。完整注释：有29，966个完全注释的图像，其中给出了相应区域中的位置和文本标签。注释的文本实例包括水平、垂直和透视以及弯曲的情况，它们以四边形或多边形表示，如图所示。2.我们将完全注释的数据集分为训练集，验证集和测试集，将三个集的大小比例设置为4：1：1。整个分割过程被应用于保持水平和垂直文本区域以及不同的汉字类别几乎均匀地分布在三个集合中。完全注释的数据集包含29，966张图像，其中包含243，537行文本和1，509，256个字符。拆分后的训练集、验证集和测试集的详细2.这包括水平、垂直和弯曲文本行的数量，三组的字符和中文的数量。弱注释：由于缺乏训练样本，很难使用以前的文本阅读基准来评估更强大的深度学习模型，特别是对于大词汇量的中文文本阅读。为了克服这一限制，同时保持标签的成本效益，我们增加了400，000多张图像，其中只有文本的注释与粗略的位置和文本标签，如图所示。3.弱注释的感兴趣文本总共包括500万个汉字。这些弱注释可以进一步用于提高端到端识别性能，而收集和标记）O JHUIDUYHUԄἈᐰ ԔᴁflXJJHU.FQ֖3༵༵1&1ݩኪᦾғ34618759ႦӞ00ԲӤၹ૱ᳩ၃꧒ᖖࢮᒫ Բտ图2：完整注释中的示例。黄色字符包括中文、数字和字母。绿色文本区域包括四边形中的水平、垂直和定向情况。弯曲的文本行在多个点中进行标记。ၒᱟݳӧᕪ ០ ᖭ ١图3：弱注释中的示例。请注意，感兴趣文本的位置由手工制作的掩码标记为绿色，关键字的相应字符在左下角标记为黄色。对于如此大量的图像样本的工作要容易得多并且更有效。3.2. 数据收集和标签整个数据集的构建过程主要包括数据采集、预处理和标注。首先，这些图像是通过在中国不同城市的街道上众包的方式用手机捕捉的然后，我们利用人脸和车牌检测算法来解决隐私问题，通过模糊检测到的区域。标签过程在开发的众包平台上进行，遵循注释定义。作为一项劳动密集型工作，贴标过程需要55人在三周内完成，即，6、600工时，完成30K全标注。这与400K弱注释所需的时间和工作形成对比，400K弱注释仅需要960个工时（24个人，一周）。30 K完整注释的标注成本约为6。是400K弱注释的88倍最后，我们验证了数据集的标记质量，以保证标记错误率控制在不超过2%。为了检查标注的质量，几个标注器随机选择30%的标注数据块来检查准确率是否高于98%，否则数据将被再次标注。3.3. 评估指标我们评估了C-SVT数据集上的模型在文本检测和端到端识别任务中的性能。根据ICDAR 2015 [20]和IC-DAR 2017-RCTW [36]的评估规则，C-SVT的文本检测任务在精度，召回率和F分数方面进行评估，9089t=1表1：现有文本阅读基准的比较。数据集年场景主要语言数量的图像标签MSRA-TD500 [42]2012街景中国500四合院ICDAR 2013 [19]2013聚焦场景英语超过500人四边形+单词[20]第二十话2015偶然场景英语1.5K四边形+单词DOST [17]2016视频序列日本30K+帧四边形+单词[39]第三十九话2016偶然场景英语60K+矩形+单词[第10话]2017偶然场景英语1.5K+多媒体+文字[45]第四十五话2017街景英语110K多媒体+文字ICDAR-17 MLT [2]2017偶然场景多语言10K+四边形+单词/文本行ICDAR 2017-RCTW2017街景+网络图片中国12K+四边形+单词/文本行CTW [43]2018街景中国30K矩形+字符ICPR 2018-MTWI [3]2018Web图像中国20K四边形+单词/文本行C-SVT2019街景中国30K +400K四边形/多边形+单词/文本行表2：完整注释中的训练集、验证集和测试集的统计数据。请注意，在所有数据集分割中，水平和垂直文本行之间的比例保持为6：1分裂图像编号水平与垂直vs 弯曲数字水平垂直弯曲字符中国火车20,157139,61323,4732,4711,031,904620,368有效4,96833,0195,709600240,261144,088测试4,84132,4705,575607237,091143,849总29,966205,10234,7573,6781,509,256908,305IoU（intersection-over-union）大于0。五、为了更全面地比较结果，从几个方面评估C-SVT的端到端性能，包括AED（平均编辑距离）[36]，精度，召回率和F分数。在F分数中的完全匹配标准下，真阳性文本行意味着当IoU大于0时，预测结果和地面实况之间的Levenshtein距离等于零。五、4. 部分监督中文文本阅读我们首先提出了完全监督的端到端文本阅读模型，然后介绍了我们的部分监督框架，用于在野外阅读中文文本，包括骨干网络，文本检测分支，透视RoI（感兴趣区域）变换，文本识别分支和在线建议匹配模块，如图所示。4.第一章4.1. 端到端中文文本阅读文本检测分支：在设计了扩展文本检测器[46]之后，我们利用ResNet-50 [13]作为标准基础网络，并采用FPN（特征金字塔网络）[25]融合各种尺度的特征，形成一个共享的骨干网络，用于同时进行文本检测和识别。文本检测分支也由全卷积块组成，它们联合执行文本/非文本检测。点和包含该点的文本区域的四个顶点在训练阶段，检测损失Ldet被定义为Ldet=Lloc+λLcls，其中Lcls是文本/非文本分类的骰子损失，Lloc被计算为位置回归的平滑L1损失，λ是平衡两个损失的超参数。在测试阶段，检测分支将阈值化应用于文本分类的预测概率，并对所选择的空间位置执行NMS（非最大抑制）以生成四边形文本建议。透视ROI变换：给定检测分支预测的四边形文本pro-boundary，我们采用透视RoI变换[37]将特征图F中的相应区域对齐到小特征图Fp中，而不是将提案包裹在旋转的矩形中[8][28][14]。每个特征图Fp保持在固定高度，纵横比不变。与英文文本识别不同[22][28][14][37]，C-SVT文本包括水平和垂直线。因此，如果纵横比（高度/宽度）大于1，则我们将每个垂直行顺时针旋转90度，在一个识别分支中识别水平和垂直文本行。文本识别分支：给定对齐的小特征Fp，文本识别分支负责从这些建议中重新识别单个字符。根据最近的文本识别方法[35][21]，我们在识别分支中采用了基于注意力的编码器-解码器框架以小特征图Fp为输入，识别分支提取具有堆叠卷积层和RNN作为编码器的序列文本特征Fs为了识别单个字符，我们利用基于注意力的机制[4]将文本特征序列转换为字符文本分类和文本位置回归。鉴于y={yt}T，其中yt和T是字符标签，骨干网制作的特征图F，文/非在F的每个空间位置处进行文本分类，以计算其属于文本区域的概率。为了定位文本实例，我们直接采用四边形来表示透视文本区域，预测偏移量{（m，m）|m = 1，2，3，4}，每个字的长度分别为y。在解码过程中，时间步长t，我们利用带有RNN解码器的注意力机制来更新隐藏状态ht并预测特征yt，给定yt−1作为输入。在我们的实现中，我们使用GRU（门控经常性单位）作为其易于使用的经常性单位输出字符la的概率9090i=1S编码特征基于注意RNN解码器嵌入OPM模块字符嵌入嵌入GT: “魚煲煲”阴性样本：不匹配阳性样本图4：（左）提出的部分监督端到端文本阅读模型的整体架构。（右）在线提案匹配。然后用全连接层和softmax损失函数来计算Belyt。培训损失的识别-对应于关键字注释yw。我们首先使用完全监督模型的检测分支，在所有带接地的文本建议上计算接地分支生成一组文本建议{Pw（i）}N，其中N是事实位置和标签，制定为一个完全监督的学习问题。4.2. 部分监督学习预测文本提案的数量。然后，通过透视RoI变换提取每个建议的特征图，并通过文本识别分支中的CNN-RNN编码器将其编码为序列特征Fw此外─此外，为了计算特征Fw和先前的端到端可训练文本阅读模型[40，14，22，28，29]仅在完整注释中使用图像，弱标记关键字ywS，我们利用注意力-从以前的基准来看[36，3，43]。改善-基于RNN解码器在OPM模块中计算de-编码器状态{hw}Tw 给定yw作为输入，如这些模型的性能的改善需要更充分注释的训练数据，这在注释方面是极其昂贵和低效的。为了进一步扩大数据量，同时保持成本效益，我们的目标是充分利用弱注释数据，这要便宜得多。因此，我们提出了一个文本阅读模型，监督学习，它可以训练完整和弱不t=1见图4。注意，基于注意力的RNN解码器共享与识别分支的参数和字符嵌入层相同，Tw是时间步长，也就是关键字yw的长度。为了选择包含关键字的正确建议，OPM模块直接计算em中的欧几里德距离dw（i）在解码器状态{hw}Tw之间的寝具空间f（·），在一个统一的模型中的注释，以保持简单而有效，不t=1周每个文本建议和字符嵌入{ew}Ttive.现有的弱监督学习方法用于图像分类[30]，分割[16，32]和文本检测，关键字yw为Tw不t=1任务[38]主要集中在使用图像级或绑定-dw（i）=1Σ ||f(hw,W ）− f（ew，W）||、（1）ing框作为弱注释，而端到端文本阅读的目的是将图像转换成一组序列，这是更具挑战性的解决。为了解决这个问题，鉴于T TEt=1其中Wh和We是用于编码hw和ew在文本标签中只有弱标注而没有位置的情况下，我们开发了一个在线建议匹配模块（OPM）来从弱标注t t在嵌入空间中，分别。培训期间过程中，OPM模块使用成对损失1ΣN图像. 该模块能够以在线方式发现给定的关键字，并且可以很容易地并入Lopm= Ni=1[sw（i）]2，（2）整个文本阅读模型通过添加识别损失进行端到端训练。所提出的部分学习模型的整体架构如图所示。4.第一章4.2.1在线提案匹配为了在统一的框架中从弱注释图像中发现关键字，可以通过共享部分学习参数将OPM模块集成到基于提议的监督学习框架中给定弱标记图像Iw，OPM模块旨在定位文本区域其中，如果文本建议Pw（i）是匹配关键字yw的正样本，则sw（i）=dw（i），否则sw（i）=max（0，1-dw（i））。为了训练OPM，我们通过检查Pw（i）和所选择的地面实况关键字区域之间的IoU来生成正样本4.3）。4.2.2全监督与弱监督联合训练如示于图4，用于阅读自然图像中中文文本的部分监督学习框架由两部分组成，即完全监督和弱监督文本检测分支骨干网GT：文本识别分支关注+输入透视ROI变换完全注释的数据弱注释数据解码器OPM模块在线提案匹配GT: “魚煲煲”CNN+RNN编码器不W9091再认再认不再认W文本阅读。对于完全监督的文本阅读，训练图像来自C-SVT的完全注释的数据集，并且训练损失L_full被计算为Lfull=Ldet+βLrecog，（3）其中β是权衡这两种损失的参数。对于弱监督的中文文本阅读，我们使用弱标注的图像与建议的OPM模块。训练损失Lw被公式化为5. 实验在本节中，我们在C-SVT数据集上进行实验，以证明所提出的部分监督学习方法的有效性请注意，在所有实验中，我们分别将召回率、准确率和F分数表示为“R”、“P”和“F”。ICDAR 2017-RCTW [36]中定义的平均编辑距离表示为“AED”。更高的w1L=Σm（i）lw（i）、（4）5.1. 实现细节再认Ni=1 m（i）i=1再认当使用完全注释的C-SVT数据时，数据aug-其中，如果dw（i）≤τ，则m（i）= 1，否则m（i）=0，并且阈值τ用于选择匹配的文本提议。第i个文本建议的识别损失lw（i）被定义为负对数似然函数Tw执行分段以提高我们的文本阅读模型的鲁棒性。首先，我们从[0. 五一二0，3。0]来重新缩放原始训练图像。然后，我们从重新缩放的图像中随机裁剪样本，并将其长边调整为512像素。最后，我们将图像填充为512×512，值为零。在公路交通-lw（i）=−1Σ logp（yw|yw，hw，cw），（5）再认Tt=1tt−1t−1t表单层，我们设置的高度和最大宽度的分别将特征图扭曲为8和64。如果宽度其中cw表示由注意力机制计算的时间t因此，部分监督学习框架的总损失计算为小于64，我们使用零值填充它。否则，我们使用双线性插值调整其大小，将宽度设置为64。部分监督框架的第1和第2阶段中的所有弱标记图像都被重新标记。Ltotal=Ldet+β（Lrecog+Lw全监督和弱监督联合训练。4.3.训练管道）（6）尺寸为512×512，带衬垫。我们所有的实验都是在8个NVIDIA TESLA P40 GPU上进行的。对于我们模型的预训练和微调，批处理大小为每GPU16个，批处理中的文本提案数量设置为每GPU32个对于部分监督学习，本文提出了一种全监督中文文本阅读模型使用VGG合成数据集[12]进行训练，然后在C-SVT的完全注释数据上进行微调。所提出的部分监督框架的训练过程建立在完全监督文本阅读模型的基础上，并且可以分为两个阶段：第一阶段：我们首先按照第二节中的描述训练OPM模块。4.2.1通过固定训练有素的全面监督部分。由于我们没有关键字的地面实况位置，区域的弱标记图像，我们创建伪弱标记的训练样本生成的完全注释的图像。给定一个完全注释的图像，我们随机选择一个标记的文本实例作为关键字区域，并生成一组文本建议。为了训练OPM模块（参见等式（2）），我们计算每个生成的提案与所选关键字区域之间的IoU，并选择那些IoU小于0的提案。五是反面典型。我们直接使用所选关键字区域的地面实况位置作为正面示例。第二阶段：使用经过训练的OPM模块，我们进一步使用部分监督损失Ltotal训练整个模型（参见Eqn）。（6））。在这个阶段，我们将完全和弱注释的样本都输入到部分监督模型中，这是端到端可训练的。框架中，我们有两个数据流：完全和弱，标记的训练图像。我们将每个批次的大小设置为8。在整个训练过程中，我们使用Adam作为优化算法，学习率设置为10−4。参数λ和β被设置为0。01和0。02作为默认值。5.2. 定量和定性结果根据评估协议，C-SVT上的文本检测和端到端识别的结果如表1所示。3.第三章。请注意，部分监督模型利用大规模弱标注数据的优势，在端到端文本阅读中取得了具体而言，与使用C-SVT的全注释训练的'End 2End'相比与其他方法相比，例如，EAST [46]+CRNN[34]和EAST [46]+Attention [35]，在C-SVT数据集上训练，所提出的部分监督算法在这两方面都优于这些方法N909212ḗፄ 你知道吗？ᆔ۱ᅻဉႴ፥ፏ ֡ቐ໑๐ᴬᗦဉ ὄᅙᄄኪ ᦾ;136;8;O;1;1์์ࣚᐒտ㾒ፄ གᆔ۱ᅻӾوԾؾଠ૱ ၹቐၹଓဉႴ፥ፏ ֡ቐ໑ᵦᴬᗦဉ ὄᅙٷ◌ኪᦾ;1;6786O;1O1ӣẌᅻᶎݶ༵࿆ᐒտ表3：端到端中文文本阅读模型在C-SVT上的性能。‘PSL’ denotes the proposed partially supervised learning方法训练数据有效测试检测End-to-end检测End-to-endR %P %F %R %P %F %AEDR %P %F %R %P %F %AED[35]第四十六话：一个人火车71.74 77.58 74.5423.89 25.83 24.82 22.2973.37 79.31 76.22 25.02 27.05 25.99 21.26[34]第三十四话：一个人的世界火车71.74 77.58 74.5425.78 27.88 26.79 20.3073.37 79.31 76.22 26.96 29.1428.019.25End2End火车72.70 78.21 75.3526.83 28.86 27.81 20.0174.60 80.42 77.40 27.55 29.69 28.58 19.68火车+4。4 K超全72.98 78.46 75.6228.03 30.13 29.04 19.6274.95 80.84 77.79 28.77 31.03 29.85 19.06列车+10K额外满载73.23 76.69 74.9229.91 31.32 30.60 18.8775.13 78.82 76.93 30.57 32.07 31.30 18.46End2End-PSL列车+25K弱72.93 79.37 76.0129.44 32.04 30.68 19.4774.72 81.39 77.91 30.18 32.87 31.46 18.82列车+50K弱73.09 79.36 76.1029.96 32.53 31.19 19.2074.80 81.32 77.93 30.56 33.22 31.83 18.72列车+100K弱73.17 78.50 75.7430.55 32.78 31.63 18.9775.04 80.41 77.63 31.19 33.43 32.27 18.28列车+200K弱73.26 78.64 75.8531.31 33.61 32.41 18.5475.14 80.68 77.81 32.01 34.38 33.15 18.12列车+400K弱73.31 79.73 76.3831.80 34.58 33.13 18.1475.21 81.71 78.3232.53 35.34 33.88 17.59图5：完全监督和部分监督文本阅读模型之间的定性比较。顶行和底行上的视觉结果分别由完全监督模型和部分监督模型预测。错误识别的字符以红色标记。‘X’ denotes the prediction of the corresponding character isF评分和AED指标。从图中所示的例子。5，我们注意到我们的部分监督模型比完全监督模型显示出更好的视觉效果。我们进行实验，以探讨我们的文本阅读模型的性能是如何如Tab中所示。3、当添加更多弱注释图像时，我们的模型在测试集上的端到端文本阅读性能可以从28. 58%到33。88%的F-评分。为了进一步验证弱标注的有效性，我们还从弱标注的图像中随机选择了10K张图像，并将其在完整标注中标记为按照注释，成本以工时计算（见第3.2），标签成本4. 4 K完整注释大约等于400 K弱注释，并且“End 2 End-PSL”（Train +400 K Weak）显示出相当大的端到端性能改进4。03%的F-评分和1. 47%的AED超过'End2End'（火车+额外的完整4。4K）在测试集上。我们还注意到，在F-score和AED中，'End 2 End- PSL'（Train + 50 K弱）的端到端性能与'End 2 End'（Train + 10 K Extra Full）的端到端性能的10K全注释，这进一步证明了弱注释数据的有效性。5.3. 与其他方法的比较为了与其他方法进行比较，我们还对ICDAR 2017-RCTW数据集[36]进行了实验，该数据集包含8，034张用于训练的图像和4，229张用于测试的完整注释。我们使用VGG合成数据预训练并在ICDAR 2017-RCTW的训练集上进行微调来训练我们的基线文本阅读模型为了验证所提出的部分监督学习算法的有效性，我们使用ICDAR 2017- RCTW的训练集和C-SVT的400K弱注释数据来训练“End 2 End-PSL”，以进一步提高端到端性能。检测和端到端识别结果如表1所示。4.请注意，“MS”表示训练模型的多尺度测试。与传统方法相比，RRD [24]和Border [41]，我们的基线文本阅读模型请注意，标记为+的ICDAR 2017-RCTW [36]的端到端基线使用了具有中国人的大型合成数据集。9093*7：日本料理ᓕ ቘړ*7：IDVKiRQ密码*7：密码破解密码*7：密码破解密码破解密码(D)（E）（F）（G）图6：OPM模块生成的匹配示例。绿色和红色四边形分别表示关于地面实况关键字的匹配和不匹配的文本提议。表4：与ICDAR 2017- RCTW中其他方法的请注意，方法检测End-to-endR %P %F %AED标准值%RCTW-基线[36]40.47652.8二十五62岁以上*[46]第46话47.859.753.1**RRD [24]45.372.455.7**RRD-MS [24]59.177.567.0**边境（ResNet）-MS [41]58.574.265.4**[41]第四十一话58.878.267.1**End2End47.282.860.127.572.9End2End-PSL47.482.560.224.276.2结束2结束-MS57.282.467.526.273.5End2End-PSL-MS57.881.767.722.177.7表5：OPM在召回率（R）和精确率（P）方面的性能。τIOUR %P %IOUR %P %0.050.545980.745960.1579756940.266926489词典来预训练识别模型。从Tab。4，可以看出，通过利用C-SVT的弱注释，所提出的“End 2 End-PSL”可以通过主要提升识别性能来超过完全监督模型“End 2End”，将AED减少3. 每张图片3张。在多尺度测试中，我们可以进一步减少平均距离，二十二岁1提供了一个新的国家的最先进的结果，这证明了所提出的部分监督学习算法的有效性和推广。5.4. 模型设计的有效性表6：我们的中文文本阅读模型的识别分支的性能。方法训练数据准确度%AEDEnd2end火车40.2013.52End2end-PSL列车+400K弱48.3310.79根据弱标记图像中对应的关键字进行文本建议。即使当关键字出现在图像中多次，OPM仍然可以本地化所有相应的文本区域（见图。6（c））。我们的OPM的召回率和准确率分别为57%和97%。查全率低的主要原因是当检测分支将一些关键字拆分为多个建议时，OPM模块失败，如图所示。第6（d）段。弱标注对识别的有效性：我们还评估了C-SVT测试集上的“End 2 End-PSL”识别分支的性能。在本实验中，我们直接使用每个文本区域的地面真值位置作为透视ROI变换的输入。如Tab.所示。6.当加入400K弱标记数据进行训练时，识别分支的准确率可以有较大幅度的提高。因此，C-SVT的弱注释数据在提高识别能力方面起着重要作用。6. 结论我们开发了一个新的大规模中文文本阅读基准，即，中文街景文本，这是最大的一个与现有的中文文本阅读数据集。在保持训练样本的同时，在线提案匹配：为了验证OPM的有效性，我们从C-SVT的弱注释数据中随机选择500幅图像，并手动评估准确性。搜索关键词的技巧选项卡.图5示出了通过使用不同阈值τ来生成匹配的文本建议的OPM模块的性能我们观察到，当阈值τ等于0时，OPM模块可以具有可接受的召回率和高精度。1，所以我们选择τ= 0。在所有的实验中训练部分监督模型。如图所示的匹配示例。6、所提出的OPM模块能够精确地选择正确的标签过程具有成本效益，我们在完整和400K弱标签中注释图像。我们提出了一个在线建议匹配模块来训练部分监督学习的端到端文本阅读在C-SVT上的实验结果表明，该模型具有良好的性能，大规模弱标记可以将端到端的结果提高4。在相同的标签成本下，F-评分比完全监督模型高出03%，并在ICDAR 2017-RCTW数据集上获得了最先进的结果9094引用[1] ICDAR 2015关于附带场景文本检测、识别和端到端阅读任务的竞赛http：//rrc. cvc.uab.es\/ch=4com=评估任务=1。访问时间：2019-3-22。[2] ICDAR 2017多语言场景文本检测和脚本识别竞赛。http://rrc.cvc.uab 的网站。 es/ ？ ch=8&com=introduction.访问时间：2019-3- 22。[3] ICPR 2018多类型Web图像鲁棒阅读竞赛（MTWI）。https://tianchi.aliyun。com/getStart/introduction.htm？SPM=5176.100066.0.0.50c233aftaCagb&raceId=231686。访问时间：2019-3-22。[4] Dzmitry Bahdanau，Kyunhyun Cho，Yoshua Bengio.通过联合学习对齐和翻译的神经机器翻译。arXiv预印本arXiv：1409.0473，2014。[5] Christian Bartz ， Haojin Yang ， and Christoph Meinel.Stn- ocr：用于文本检测和文本识别的单神经网络。arXiv预印本arXiv：1707.08831，2017年。[6] Christian Bartz，Haojin Yang，and Christoph Meinel.参见：半监督式端到端场景文本识别。在AAAI，2018。[17] MasakazuIwamura ， TakahiroMatsuda ， NaoyukiMorimoto，Hitomi Sato，Yuki Ikeda，and Koichi Kise.大坂市中心欧洲计算机视觉会议，第440-455页[18] 马克斯·贾德伯格，凯伦·西蒙尼安，安德里亚·维达尔迪，和安德鲁·齐瑟曼.使用卷积神经网络在野外阅读文本International Journal of Computer Vision，116（1）：1[19] Dimosthenis Karatzas 等人 ICDAR 2013 年稳健阅读竞赛。见《国际荒漠化公约》，第1484-1493页。IEEE，2013。[20] Dimosthenis Karatzas等人ICDAR 2015年关于稳健阅读的竞赛。见《国际荒漠化公约》，第1156-1160页。IEEE，2015年。[21] Chen-Yu Lee和Simon Osindero。递归递归网络与注意力建模在视觉识别中的应用。在CVPR程序中，第2231-2239页[22] Hui Li，Peng Wang，and Chunhua Shen.使用卷积递归神经网络进行在ICCV Proc.，第5238-5246页[23] Minghui Liao，Baogang Shi，and Xiang Bai.文本框++：一种面向单镜头的场景文本检测器。IEEE Transactionson Image Processing，27（8）：3676[7]MichalBusRutta，Luka'sRutta诺伊曼还有吉鲁·马塔斯深[24]廖明辉，朱震，施宝光，夏桂松，textspotter：一种端到端可训练的场景文本本地化方法识别框架。ICCV，2017年。[8] 米哈尔·布斯塔，卢·卡·诺依曼，还有吉鲁·马塔斯。深度文本分析器：一个端到端可训练的场景文本定位和识别框架。在CVPR的程序中，第2223- 2231页。IEEE，2017年。[9] Zhanzhan Cheng，Fan Bai，Yunlu Xu，Gang Zheng，Shiliang Pu，and Shuigeng Zhou.集中注意力：自然图像中的精确文本识别。在ICCV，第5086-5094页[10] Chee Kheng Chng和Chee Seng Chan。Total-text：用于场景文本检测和识别的综合数据集。ICDAR，2017年。[11] 亚历克斯·格雷夫斯，阿卜杜勒·拉赫曼·穆罕默德，杰弗里·辛顿。深度递归神经网络语音识别在ICASSP的Proc.，6645[12] Ankush Gupta，Andrea Vedaldi，Andrew Zisserman.用于自然图像中的文本定位的合成数据在CVPR程序中，第2315-2324页[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR程序中，第770-778页[14] 何彤、田智、黄伟林、沈春华、乔宇、孙长明一个端到端

下载后可阅读完整内容，剩余1页未读，立即下载