对象信息和文本识别的贡献

186 浏览量更新于2023-10-14 收藏 1.11MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

使用对象信息定位文本Shitala Prasad1和Adams Wai Kin Kong21CYSREN@NTU和2新加坡南洋理工大学科学与计算机工程学院{shitala，adamskong} @ ntu.edu.sg抽象。文本识别，也称为文本检测，是一项具有挑战性的计算机视觉任务，因为背景杂乱，图像环境多样，文本大小各异，以及一些对象和字符之间的相似性，例如，文本的大小和字符的大小。例如，在一个实施例中，你是和'o '。然而，像素点在许多AI和计算机视觉系统（诸如自主机器人和用于视觉受损者的系统）中具有重要由于其潜在的应用和商业价值，研究人员已经提出了各种文本识别的深度架构和方法这些方法和体系结构只关注图像中的文本，而忽略了与文本相关的其他信息在某些对象和文本的存在之间存在着很强的关系，例如招牌或文本的缺失，例如树木。提出了一种基于文本和对象依赖关系的文本识别算法该算法由两个子卷积神经网络和三个训练阶段组成。对于这项研究，一个新的NTU-UTOI数据集包含超过22 k的非合成图像与277 k的文本和42个文本相关的对象类的边界框建立。据我们所知，它是第二大非合成文本图像数据库。在COCO-Text、MSRA-TD500和SVT这三个具有复杂背景的基准数据集上的实验结果表明，该算法与现有的文本识别方法相比具有相当的性能实验也进行了我们新建立的数据集，以调查对象信息的文本识别的有效性。实验结果表明，对象信息的贡献显着的性能增益。关键词：文本检测，自然场景，深度学习，对象检测，RCNN1介绍自然图像中的文本理解是许多人工智能（AI）和计算机视觉（CV）应用的重要先决条件，例如自动驾驶机器人、视力受损系统、上下文检索和基于图像输入的多语言机器翻译[1-9]。研究人员已经证明，一旦文本被很好地检测到，现有的文本识别方法可以实现高准确度[4，6]。文本定位是当前的瓶颈，并且是具有挑战性的CV任务，因为自然场景（例如街道）中的背景2S. Prasad和A. W. K. 孔(a)(b)（c）第（1）款Fig. 1.文本定位的挑战：黄色框表示通过最先进的方法之一错过和/或错误检测到的文本[11]。（a）至（c）分别是由于路障、招牌及文字在玻璃上的反射而引致的误差。请注意，roa d b arrier是一个类似于xt、'llllllllll'和'nnnnn'的字符串。视图图像非常杂乱并且其中的文本在样式上具有很大的差异（例如，艺术字体，具有不同颜色的TimeNewRoman和SimSun中文、日文和英文）、尺寸（例如，咖啡馆招牌上的文本和其食物菜单板上的文本），照明条件（例如，办公室、餐馆、酒吧、阳光明媚的乡村和多云的街道），以及对比（例如，过度曝光和曝光不足）。其他因素，包括低分辨率、失焦、遮挡以及对象和人物之间的相似性（例如，模糊度）也可以被考虑。轮胎和轮胎特征）的影响，以及对测试点的影响[ 10]。图1说明了其中的一些挑战。因此，研究人员仍在积极寻求更强大和准确的文本识别方法。目前，研究人员专注于设计更有效的深度网络架构和训练方案，以在文本中寻找更多有用的信息，包括字符级、单词级、文本行级和精确到一个像素的精确文本位置[12，13]。对于特定的应用，例如杂货店和书店的购物助手[14，15]，可以利用更多的先验知识来实现更高的更确切地说，在这些环境中，文本可以以类似的样式和颜色出现在特定位置，并且背景更可预测。然而，这种先验知识一般不适用于可能具有杂乱背景的自然场景图像，因为无法控制在何处以及如何拍摄图像。即使图像不是从特定的环境中拍摄的，我们仍然对它们有大致的了解，因为它们是从我们居住，生活，工作和旅行的地方拍摄的，例如城市，街道，办公室，咖啡馆和公园。文本可能出现在特定的人造物体上，例如，书、电脑和招牌，但不太可能在自然物体上，例如，水、天、树、草。某些对象比其他对象更例如，文本总是出现在汽车牌照上，但不总是出现在汽车侧面。更清楚地说，对象和文本不是独立的。文本的外观通常取决于场景中对象的类型。图2示出了街景图像中的对象和文本之间的很少依赖性。此外，该信息可以减少检测误差，而这是由于没有障碍和障碍是相似的。G. ，yreandd‘O‘。一旦检测到汽车，则意味着文本不太可能出现在其底部。根据使用对象信息定位文本3(a)（b）（c）（d）图二.街景图像中对象与文本的依赖性。例如，（a和c）标志牌和数字，（a-b）汽车和车牌，（b）建筑物和文本，以及（d）布和文本。据作者所知，以前的研究都没有利用该信息来检测自然场景图像中的文本本文的目的是开发一种算法，利用这些信息，提高文本识别性能。在这项研究中，作者对具有集群背景的图像特别感兴趣，例如从街道上拍摄的图像，因为它们甚至对最先进的方法都具有挑战性，并且可能包含本研究的目标对象文本定位可以被认为是对象检测的特定情况。近年来，目标检测的进步是由区域提议（RP）方法驱动的[11，16，17]。快速RCNN [18]及其最新发展[11]是其中的一些方法。更快的RCNN与区域建议网络（RPN）和快速RCNN共享卷积层，是最先进的目标检测方法之一，具有低计算成本[11]。由于其在准确性和速度方面的性能，它被选为本研究的基线网络。转换更快的RCNN来检测背景杂乱的图像中的文本，然而，这种方法没有考虑对象信息，这是本研究的重点。如果使用具有对象和文本标签的图像一起作为原始的更快的RCNN训练过程来训练网络，则对象可能会降低其针对文本的性能，因为网络将在文本和其他对象之间平衡其性能。另一种方法是在知识图上编码对象和文本关系，其中每个节点表示特定类型的对象或文本，并且每个边描述两个对象或文本和对象一起出现的可能性。这种方法可以使用更快的RCNN来首先检测对象，然后使用知识图的邻接矩阵它实际上可以被认为是决策级融合，因为来自更快的RCNN的最终结果（其是对象和文本的边界框）与知识图信息融合。这种方法既没有利用更快的RCNN中的对象特征，也没有优化端到端的网络这些潜在的方法可能是次优的。本文提出了一种算法，直接利用深度网络中的对象特征和文本特征，并对其进行端到端训练，以获得更好的性能。4S. Prasad和A. W. K. 孔为此，建立了一个新的文本数据集--南洋理工大学无约束文本和对象图像数据集（NTU-UTOI）。该数据集包含22，767幅自然场景图像，其中42类对象具有165，749个边界框，文本1具有111，868个边界框，包括英文、中文和数字。图2显示了NTU-UTOI数据集中的样本。有关数据集的更多信息，请参见第4节。据我们所知，它是用于文本识别的第二大真实（非合成）自然场景图像数据集。NTU-UTOI用于训练和测试所提出的算法。此外，在评价和比较中还采用了来自三个不同群体的三个基准：SVT 2、MSRA-TD500 3和COCO-Text 4。这三个数据库具有挑战性，因为它们的图像来自不同的环境和杂乱的背景。本文其余部分的组织结构如下：第2节给出了一个非常简短的总结国家的最先进的文本检测方法。第3节详细阐述了所提出的算法。第4节报告了在三个基准数据集以及NTU-UTOI数据集上与最先进的文本检测方法的比较结果。第5节给出了一些结论性的评论。2相关作品自然场景图像中的文本检测已经研究了几十年[2，12，19，20]，并且已经提出了各种方法，这些方法可以大致分为字符区域方法和滑动窗口方法。字符区域方法旨在将像素分割成字符，然后将字符分组为单词[12，19-24]，而滑动窗口方法确定滑动窗口中的像素是否属于文本[9，25-27]。文本检测也可以分为基于图像处理的方法和基于深度学习的方法。基于图像处理的方法首先对图像进行预处理，然后提取特征，最后将像素点分类为文本和背景。深度学习方法利用深度网络自动提取特征并基于其特征图执行检测的能力。一般来说，深度学习方法的性能更好，但需要更多的计算资源，特别是在训练中。Epshtein等人提出了一种用于文本检测的每像素输出变换，称为笔划宽度变换（SWT）[12]。Neumann和Matas [24]提出了一种基于梯度滤波器的方法来检测定向笔划，其显著优于SWT。Anthimopoulos等人提出了一种滑动窗口方法，该方法使用动态归一化边缘作为特征和随机森林分类器来检测自然场景图像中的文本[27]。Chen等人使用边缘增强的最大稳定极值区域（MSER）进行文本检测1在NTU-UTOI中，文本一词是指英文、中文和数字。2http://tc11.cvc.uab.es/datasets/SVT_13http://www.iapr-tc11.org/mediawiki/index.php/MSRA_Text_Detection_500_数据库_（MSRA-TD 500）4https://vision.cornell.edu/se3/coco-text-2/使用对象信息定位文本5[19]第10段。它优于SWT，因为它对模糊图像更鲁棒，对过滤假阳性字符更有效。波斯纳等人提出了一系列具有显着图的提升分类器，以创建用于文本检测的边界框[28]。2012年，Wang et al.声称是第一个使用卷积神经网络（CNN）进行文本识别的小组[29]。他们在合成数据集上训练CNN [8]。近年来，研究人员将单词和文本行视为整体通用对象，但忽略了字符组件，因此可以修改通用对象检测器以进行文本检测[13]。2017年，Rong et al.提出了一种使用长短期记忆（LSTM）进行无歧义文本定位和检索的递归密集文本定位网络（DTLN）[15]。Zhong等人修改更快的RCNN用于文本检测[10]。此外，Liao et al.提出了TextBoxes，其灵感来自Single Shot multibox Detector（SSD）[30]，以实现更高的检测精度和速度[31]。事实上，如前所述，文本可以被视为通用对象使用深度学习和区域建议网络（RPN）进行通用对象检测引起了许多研究人员的极大关注。与传统方法相比，基于RPN的最先进的对象检测方法已经取得了非常显着的改进[32]，[18]。除了更快的RCNN之外，还有其他区域建议方法，例如选择性搜索（SS）[33]，多尺度组合分组（MCG）[34]和边缘盒（EB）[35]。这些方法产生非常大量的区域建议，导致高召回率，但更多的计算要求。To overcome this problem, RPN computesregion proposals through sharing convolutional layers with fast RCNN thatexponentially reduces the computational cost and achieves a promising re- callrate.受[11]的启发，在本文中，RPN在具有对象标签的相同图像上进行训练，然后与另一个深度网络相结合，并在具有文本标签的图像上进行训练研究人员已经提出了深度学习模型，并在 COCO-Text 和SynthText等大型数据集上对其进行了训练[36，37]，但没有一个模型利用了文本附近的对象信息。3方法本节首先描述所提出的深度网络架构和训练阶段。然后给出了文本定位所需的锚点参数本节末尾提供了用于训练网络的损失函数和实现细节。3.1网络架构和培训阶段为了使用深度网络中的对象特征来增强文本识别性能，提出了具有两个子网络和三个训练阶段的卷积神经网络（CNN）所提出的深度网络被命名为Text和5这里，我们所说的文本识别是指文本检测而不是文本识别。6S. Prasad和A. W. K. 孔（一）（b）第（1）款图三.提出的TO-CNN用于基于对象信息的文本定位。(a)说明了第一个训练阶段提取对象信息并存储在对象CNN中（b）示出了用于调整文本CNN中的参数的第二训练阶段基于对象的CNN（TO-CNN）。图3展示了拟议的深度网络和训练阶段。在这项研究中，使用具有VGG-16网络[38]作为骨干的更快RCNN在第一训练阶段，在具有图3（a）所示的文本和对象标签的图像上训练更快的RCNN。一旦网络被完全训练，对象和文本信息将被存储在VGG-16网络中。为了方便起见，训练好的VGG-16网被称为对象VGG-16网。请注意，它确实存储文本信息。对象VGG-16网络与更快的RCNN中的其他组件分离。将从另一个VGG-16网络修改的CNN添加到Object VGG-16网络上。这个CNN叫做Text VGG-16 net。稍后将给出修改的细节。对象VGG-16和文本VGG-16共同形成TO-CNN的主干TO-CNN还包括RPN和图3（b）中所示的更快RCNN的回归网络。在第二个训练阶段，TO-CNN仅在具有文本标签的图像上训练，并且所有图像都是文本标签。使用对象信息定位文本7对象VGG-16网络中的参数是固定的。在此阶段，文本VGG-16网络从对象VGG-16中获取对象和文本特征，以调整其用于文本检测的参数。从另一个角度来看，文本VGG-16网络融合了文本和对象特征进行文本检测。在第三个训练阶段，整个TO-CNN，包括文本VGG-16网络和对象VGG-16网络被微调。在该训练阶段结束时，网络针对基于对象和文本信息的文本识别进行了充分修改文本VGG-16网络以从对象VGG-16网络获取输入特征图。有不同的方法将两个网络合并在一起[39堆叠沙漏方法[40]是有效的方法之一。在本文中，遵循类似的沙漏方法，对象VGG-16网络的输出被上采样并组合到文本VGG-16网络中，添加三个上采样层和一个归一化层，用于进一步的RPN学习过程。为了检测具有不同大小的对象，更快的RCNN使用超参数，即，规模和比例来控制区域建议。Ren等人使用三种尺度来确定滑动锚钉的尺寸：8、16和32，具有三种宽高比：1：1，1：2，2：1 [11]。在TO-CNN中，比例也固定为三个级别，但纵横比被修改，因为它们的纵横比是为通用对象检测而设计的。文本通常具有与对象相比不同的纵横比，并且因此新的纵横比被设置为1：1、1：2、2：1、1：5和5：1以覆盖图像中的几乎所有文本行和单词。图3（b）左上角给出了所提出的网络中使用的锚点的总结。注意，在最终特征图上的每个点中，在每个滑动位置处有15个锚点（5× 3）。因此，对于W×H的卷积映射，有W×H×15个锚点。TO-CNN使用与RPN相同的平移不变属性[11]，这导致提案层中有2，397，696个参数。更清楚的是，如果文本在图像中被翻译，则提案也将被翻译，并且无论其翻译位置如何，都将使用相同的3.2损失函数在第一个训练阶段，采用更快的RCNN中的原始损失函数在第二和第三训练阶段，使用下面给出的多任务损失函数L[42]L（pl，v，v*）=Lcls（pl）+αLreg（v，v*）（1）其中l= 1和l= 0分别表示文本和背景，pl是使用softmax计算的相应概率，Lcls是分类损失，Lreg是预测边界框和真实边界框之间的回归损失，α是平衡这两个损失的权重，v和v*分别是预测边界框和真实边界框边界框由它们的左上角坐标、宽度和高度表示，即，{vx，vy，vw，vh}6特征图、reg和cls的维度分别为512、4和1内核大小为3乘3，锚点数量为15。因此，参数的数量是3× 3× 512× 512 + 512× 15×（4 + 1）=2，397，696。8S. Prasad和A. W. K. 孔v，v，v，v，v。定义了分类损失和回归损失XywH分别在等式2和3中，Lcls（pl）=− logpl（2）哪里ΣLreg（v，v*）={x，y，w，h}.smoothL1（vi−v*）（3）2smoothL1（x）=0的情况。5x如果|X|<1（四）|-0。| − 0. 5其他在本文中，使用smoothL1与RPN一样，这里用于回归的特征具有相同的维度，在特征图上为3乘3。这有助于更有效地实现边界框回归[11]。3.3培训和实施详情对象CNN和文本CNN由VGG-16预训练的ImageNet分类模型初始化[38]。权重分别在前100，000次和后350，000次迭代中使用10−3和10−4基本学习率为10−3，学习率衰减参数γ为0.1。重量衰减和动量设为ω =5 × 10 −4和µ = 0。9，分别。这些参数在所有三个训练阶段中使用。所有的实验都是在Intel Xeon E5-2690 CPU工作站上进行的，具有32GB RAM ， NVIDIA Quadro M6000 24 GB 和 Ubuntu 14.04 操作系统。Caffe7用于实现TO-CNN。4实验和结果三个基准数据集：SVT，MSRA-TD 500和COCO-Text被用来评估所提出的算法的性能。这三个数据库即使对于最先进的方法也是具有挑战性的，因为它们的图像是从不同的环境中收集的，包括在不同照明条件下的内部和室外COCO-Text数据集[43]是MS COCO数据集[44]的子集，其用于研究对象检测任务。它包含从复杂的日常场景中拍摄的63k图像，其中10k用于验证，10k用于测试。图4（a）示出了来自COCO-Text数据集的样本图像。MSRA-TD 500是一个多语言数据集，包括英文和中文文本以及高分辨率的数字。MSRA-TD 500由500幅自然场景图像组成其中200张是测试图像，300张是训练图像。图4（b）示出了MSRA-TD 500数据集的样本图像街道视图文本（SVT）数据集7http://caffe.berkeleyvision.org/使用对象信息定位文本9(a)（b）（c）（d）见图4。来自不同数据集的文本样本：（a）COCO-Text，（b）MSRA-TD500，（c）SVT和（d）NTU-UTOI -建议的数据集。由从谷歌街景收集的图像组成，并在单词级别进行注释。它由街道视图中的较小和较低分辨率的文本组成。SVT有100个用于训练的图像和249个用于测试的图像，总共有647个注释的单词（未完全注释）。这是具有挑战性的，因为它具有很少的不完整和/或遮挡的文本与低图像质量。图4（c）显示了来自该数据集的一些样本图像。除了这三个不同的基准数据集，TO-CNN还在作者建立的NTU-UTOI数据集上进行了测试。NTU-UTOI数据集由来自ICDAR 2011鲁棒场景文本8、ICDAR 2015意外场景文本9、KAIST场景文本10、MSRA-TD 500、NEOCR 11、SVT、USTB-SV 1 k [3]和交通标志数据集[45]的22，767个图像以及从中间和中间集合收集的图像组成。 18，173幅图像用于测试，其余4，594幅图像用于测试。应该强调的是，NTU-UTOI的训练集不包含来自COCO-Text、MSRA-TD 500或SVT的任何测试图像因此，可以在NTU-UTOI的训练集上训练TO-CNN，并在COCO-Text，MSRA-TD 500和SVT的测试集上进行检查来自NTU-UTOI数据集的样本图像如图4（d）所示。文本和42个与文本正相关或负相关的对象类被标记。它们是常见的街景对象。表1列出了所有类。选择标签是因为它们与8http://www.cvc.uab.es/icdar2011competition/? com=介绍9http://rrc.cvc.uab.es/? ch=4\&com=简介10http://www.iapr-tc11.org/mediawiki/index.php/KAIST_Scene_Text_Database11http://www.iapr-tc11.org/mediawiki/index.php? title=NEOCR：_Natural_Environment_OCR_Dataset10S. Prasad和A. W. K. 孔表1.NTU-UTOI数据集的对象标签和频率计数。公共汽车（673）火车（31）汽车侧（4728）广告牌（18054）交通灯（697）中文（简体）卡车（2539）卡通（228）快速标志（3702）交通板（3810）商标（4514）横幅（1640）警告（338）停车板（882）电子产品（550）商店（2046）人（18829）建筑（5198）中国人（16445）停车标志（610）中国人（60561）海报（4779）汽车前（7413）瓶罐（201）卡通人物（1546）自行车（548）符号（802）汽车板（4461）中国人（12730）车辆符号（276）循环（474）动物（251）门板（233）中文（简体）交通方向（8112）日本人（19654）简体中文（zh_cn）咖啡杯（152）中文（简体）建筑编号（91）其他（4931）汽车后（14001）铭牌（352）食品（797）建筑控股（620）图五、来自MSRA-TD 500基准数据集的TO-CNN的示例检测结果文本和通常出现在自然场景图像中。总共有277，617个文本和文本相关对象的边界框被手动标记，并由每个图像的两名工人进行交叉验证。NTU-UTOI数据集也是一个具有挑战性的数据集。从具有类似于文本的图案的各种成像环境收集图像（例如，窗口类似于此外，它包含来自室内、室外、街道、人群、道路、海报和移动/电视屏幕的模糊和附带的文本和图像。图2和图4（d）中给出了一些示例以查准率（P）、查全率（R）和F-score（F）为性能指标对该算法进行了评价，并与现有的文本识别方法进行了比较。MSRA-TD 500和SVT已被广泛用作算法评估的基准，COCO-Text是新发布的基准。不同的研究小组使用不同的数据集来评估他们的方法，并在不同的数据集上进行训练。对于每个基准数据集，选择报告有最新结果的方法进行比较。因此，在这些比较中选择了不同的方法它们的训练集和基线网络也在结果表中列出。注意，本文中的IoU（inter-section over union）被取为0.5以作为正确匹配。表2、3和4分别列出了MSRA-TD 500、SVT和COCO-Text的精确度、召回率和F分数图5、6和7分别显示MSRA-TD 500、SVT和COCO-Text的输出示例表2显示了MSRA-TD 500上TO-CNN在精确度、召回率和F分数方面取得了最好的结果 TO-CNN的准确率为0.87，与EAST [37]和Lyu等人相同。[46]第46段。由于TO-CNN中的对象信息，它实现了0.90的召回率，比所有其他方法都高出至少0.14。图5显示了MSRA-TD 500的一些输出。使用对象信息定位文本11表2.MSRA-TD 500数据集上的比较方法&火车基线网络MSRA-TD500PRFKong等人[47个]--0.71 0.620.66Yao等人[48个]MSRA-TD500tr-0.63 0.630.60Yin等人[3]第一章MSRA-TD500tr-0.81 0.630.74Yin等人[49个]--0.71 0.610.65Zhang等人[二]《中国日报》MSRA-TD500tr、ICDAR13tr、ICDAR15trVGG-160.83 0.670.74Yao等人[50个]MSRA-TD500tr、ICDAR13tr、ICDAR15trVGG-160.77 0.750.76RRPN[42]MSRA-TD 500tr，HUST-TR 400aVGG-160.82 0.680.69SegLink [51]SynthTextaVGG-160.86 0.700.77东[37]MSRA-TD 500tr，HUST-TR 400aPVANET0.83 0.670.74东[37]MSRA-TD 500tr，HUST-TR 400aVGG-160.82 0.620.70东[37]MSRA-TD 500tr，HUST-TR 400aPVANET2x0.87 0.670.76Lyu等人[46个]SynthTextaVGG-160.87 0.760.81*TO-CNN（提议）NTU-UTOI树VGG-160.87 0.90 0.88* 请注意，TO-CNN利用对象信息。它不能只在以前的训练集上训练。&下标tr、te和a分别表示相应的训练、测试和整个数据集。例如，MSRA-TD 500tr和MSRA-TD 500te分别表示MSRA-TD 500的训练集和测试集的“系统日志”-“由于没有使用深度模型，因此无法轻松地对信息进行描述。表3.SVT数据集的比较方法&火车基线网络SVTPRFFCRN multi-scl [8]SynthTextaFRCN0.47 0.45 0.46FCRN single-scl [8]SynthTextaFRCN0.51 0.41 0.46Epshtein等人[12个]--0.54 0.42 0.47Mao等人[五十二]--0.58 0.41 0.48FCRN+多滤波器[8]SynthTextaFRCN0.62 0.52 0.56亚德尔伯格[4]SynthTextaVGG0.63 0.49 0.54FCRNall+多过滤器[八]《中国日报》SynthTextaFRCN0.65 0.60 0.63[15]SynthTextaVGG-160.65 0.63 0.64Zhang等人[五十三]--0.68 0.53 0.60TO-CNN（建议）NTU-UTOI树VGG-160.95 0.75 0.84&下标tr和a表示相应的训练数据集和整个数据集。表3列出了TO-CNN的结果和SVT的最新方法。TO-CNN实现了0.95的准确率，0.75的召回率和0.75的F分数。0.84. 该方法的查准率和召回率分别比其他方法高图6示出了TO-CNN的一些检测结果。比较其他方法在两个数据集上的准确率、召回率和F分数，注意到SVT更具挑战性。TO-CNN仍然为SVT提供稳定的性能。COCO-Text包含63 k图像，其中173 k标记文本区域主要集中在英语文本区域。在训练TO-CNN的过程中，首先在第一阶段使用NTU-UTOI中的对象和文本标签进行训练，然后在第二和第三阶段使用COCO-Text中的文本标签进行训练。TO-CNN在精确度、召回率和F分数方面提供了相当的结果（参见表4和图7）。方法A、B和C由Google、TextSpotter和12S. Prasad和A. W. K. 孔见图6。SVT基准数据集上TO-CNN的检测结果示例。表4.在COCO-Text数据集上进行比较方法&火车基线网络COCO文本PRF基线C [43]--0.19 0.05 0.07基线B [43]--0.90 0.11 0.19基线A [43]--0.83 0.23 0.36Yao等人[五十四]SynthTextaYolo0.31 0.18 0.22Yao等人[50个]--0.43 0.27 0.33He等人[55个]ICDAR13tr ICDAR15trVGG-160.46 0.31 0.37Lyu等人[46个]SynthTextaVGG-160.62 0.32 0.42东[37]COCO-Text树VGG-160.50 0.32 0.39TO-CNN（建议）NTU-UTOI树VGG-160.41 0.44 0.43TO-CNN（建议） NTU-UTOI树、COCO-Text树VGG-160.47 0.44 0.45&下标tr和a表示相应的训练数据集和整个数据集。见图7。COCO-Text数据集的TO-CNN检测结果。VGG的性能为0.36、0.19和0.07 [43]。TO-CNN实现了最高的召回率和F-score。NTU-UTOI数据集的比较如表5所示，用于证明对象信息在文本定位中的有用性在这里，它与使用对象信息定位文本13表5.NTU-UTOI数据集上的比较表6. 更快的R-CNN微调在NTU-UTOI文本数据集上。锚Coco NTU-UTOI相同P0.380.43R0.180.33F0.240.37改进P0.520.67R0.170.50F0.260.57&下标tr和a表示相应的训练数据集和整个数据集。注意：网络分别在COCO对象和NTU-UTOI对象上进行训练，然后根据我们的文本数据集进行微调。见图8。NTU-UTOI数据集上TO-CNN的检测结果。表7.TO-CNN在NTU-UTOI上使用各种锚点的见图9。TO-CNN的对象依赖性和性能分析RCNN和更快的RCNN方法，它们是TO-CNN的基础并与其他一些先进的方法进行了对于对象依赖性测试，TO-CNN也仅在文本标签上进行训练（倒数第二行）。实验结果表明，在没有对象信息的情况下，TO-CNN和更快的RCNN表现相似。在带有对象标签的图像上训练，TO-CNN的性能明显优于RCNN，更快的RCNN和没有对象信息的TO-CNN。这些结果清楚地表明，对象包含有价值的信息，文本定位。TO-CNN的第1 - 3阶段的精确度，召回率和F分数是分别为{0.59，0.33，0.42}、{0.65，0.53，0.59}和{0.70，0.62，0.66}一些NTU-UTOI数据集的视觉输出在图8中示出，其包括在不同环境和照明条件下拍摄的图像，并且证明方法&火车NTU-UTOIPRFRCNNNTU-UTOI树 0.61 0.520.56东[37]NTU-UTOI树 0.74 0.500.60SSTD [55]NTU-UTOI树 0.59 0.340.43更快的RCNN（带对象） NTU-UTOI树 0.43 0.330.37更快的RCNN（仅含文本） NTU-UTOI树 0.63 0.550.58TO-CNN（无对象）NTU-UTOI树 0.65 0.530.59TO-CNN（带对象）NTU-UTOI树 0.70 0.620.66设置参数PRF规模比1个比例，1个比率{8}{1：1}0.35 0.30 0.32{16}{1：1}0.34 0.28 0.311个比例，5个比率{8}【2019 -05 - 2,201：01：01】0.65 0.53 0.58{16}【2019 -05 - 2,201：01：01】0.65 0.50 0.593个比额表，1个比率【2019 -04 - 28】{1：1}0.66 0.55 0.6214S. Prasad和A. W. K. 孔所提出的算法在这些情况下工作良好。它甚至可以很好地用于密集文本场景，如图8所示。为了在网络中存储对象信息，该算法结合了两个子网。然而，它的大小并不是最先进的文本识别网络中最大的一个。为了进一步分析对象信息如何影响文本检测，图9示出了来自NTU-UTOI测试集的包含文本的四种类型的对象的百分比树、植物、动物与文本负相关，而车、标牌与文本正相关。对于负相关对象，TO-CNN的准确率比其召回率更好，但对于正相关对象，召回率更好。请注意，正相关对象使没有对象信息的网络降级很多。这意味着对象上的文本受对象的影响。注意，在图9中，基于文本和所选对象计算精确率和召回率，仅示出它们对文本和所选对象的依赖性。也就是说，如果测试集中的车牌图像的总数被认为是100%，则文本重叠是57%，分别导致在没有对象信息和具有对象信息的情况下精度为34%和41%灾难性遗忘，这是一个常见的问题，在神经网络，在我们的研究中没有观察到。表5中的实验结果示出了所提出的算法不遭受这样的问题。表5中没有对象的术语TO-CNN意味着移除训练集中的对象标签，但保持相同的深度。我们还测试了来自更快RCNN的两个预训练模型，然后在NTU-UTOI文本数据上进行了微调（表6）。第一个是在常规COCO对象上进行预训练，另一个网络是在NTU-UTOI数据集上进行最后，为了显示RPN锚钉的不同尺度和纵横比的显著性，我们在NTU-UTOI数据集上试验了不同的锚钉参数，结果如表7所示据此，改进锚钉的尺寸和形状实际上提高了性能。5结论传统的自然场景图像文本识别方法仅利用文本中的信息，而忽略了图像中的对象。事实上，文本与对象具有很强的依赖性.本文提出了一种具有三个训练阶段的TO-CNN，以利用对象信息进行文本识别。TO-CNN在COCO-Text、MSRA-TD 500和SVT上实现了与最先进方法相当的结果。实验结果表明，目标信息对提高文本检测准确率，尤其是召回率至关重要。目前，TO-CNN使用线性网络架构。作者将研究其他网络架构，以更有效地利用对象信息，并实现基于集群的RPN锚点选择。致谢作者要感谢BAE系统应用智能公司，因为这项工作是由他们在网络安全研究中心@ NTU新加坡的研究合作BAE-NTU基金下支持和资助的。使用对象信息定位文本15引用1. 田志黄伟，他T他，P.，Qiao，Y.：基于连接主义文本建议网络的自然图像文本检测。In：European Conference on ComputerVision， Springer（2016）562. 张志，张，C.，Shen，W.，Yao，C.，刘伟，白X：使用全卷积网络进行多方向文本检测 In ： Proceedings of the IEEE Conference onComputerVision andPatter n Recog nition.（2016）41593. 尹旭春，Pei，W.Y.，张杰，Hao，H.W.：基于自适应聚类的多方向场景文本IEEE Transactions on pattern analysis and machineintellige nce37（9）（2015）19304. Jaderberg，M.，西蒙尼扬，K.，Vedaldi，A.，齐瑟曼，A.：使用卷积神经网络在野外阅读文本。国际计算机视觉杂志116（1）（2016）15. 他T黄伟，Qiao，Y.，Yao，J.：文本注意力卷积神经网络，用于搜索和识别。IEEETransacti onsac t i onsonimageprocessing25（6）（2016）25296. 他，P.，黄伟，Qiao，Y.，Loy，C.C.，唐X：在深度概念中读取场景文本。 In：AAAI. （2016）35017. Busta，M.，诺伊曼湖Matas，J.：Fastext：高效的无约束场景文本检测器。在：IEEE国际计算机视觉会议论文集中。（2015）12068. Gupta，A.，Vedaldi，A.，齐瑟曼，A.：用于自然图像中的文本定位的合成数据。在：IEEE计算机视觉和图像处理会议论文集中。（2016）23159. 陈旭，Yuille，A.L.：在自然场景中检测和读取文本。计算机视觉与模式识别， 2004 年。 CVPR 2004 。 Proceedings of the 2004 IEEE ComuterSocietyConferenceon. 第2卷，02TheDog（2004）10. Zhong，Z.，Jin，L. Zhang，S.，（1991），中国农业科学院，Feng，Z.：Deeptext：一个统一的框架文本建议生成和自然图像中文本检测。arXiv预印本arXiv：1605.07314（2016）11. Ren，S.，他，K.，格尔希克河孙杰：更快的r-cnn：利用区域建议网络进行实时目标检测。 IEEE Transactions on Pattern Analysis andMac hineintel i ge nce39（6）（2017）113712. Epshtein，B.，Ofek，E.，Wexler，Y.：基于笔画宽度变换的自然场景中文字检测。In：Computer Vision and Pattern Recognition（CVPR），2010IEEE（2010）296 313. 他W Zhang，X.Y.，Yin，F.，Liu，C.L.：用于多方向场景文本检测的深度直接回归。arXiv预印本arXiv：1703.08289（2017）14. Xiong，B.，Grauman，K.：使用重复先验的商店中的文本检测。在：计算机视觉应用（WACV），2016年IEEE冬季会议，IEEE（2016）115. Rong，X.，Yi，C.，田某：用

下载后可阅读完整内容，剩余1页未读，立即下载