无约束场景下的车牌检测与识别

127 浏览量更新于2023-10-13 收藏 1.81MB PDF 举报

深度学习方法

卷积神经网络

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

无约束场景下的车牌检测与识别S´ergi oMontaz zolliSilva[0000−0003−2444−3175]andCla´udi oR ositoJung[0000−0002−4711−5783]巴西南里奥格兰德州阿雷格里港联邦大学信息学院{smsilva，crjung}@ inf.ufrgs.br抽象。尽管有大量的商业和学术方法用于自动车牌识别（ALPR），但大多数现有方法都集中在特定的车牌（LP）区域（例如，车牌区域）上。欧洲、美国、巴西、台湾等），并且频繁地探索包含近似正面图像的数据集。这项工作提出了一个完整的ALPR系统，专注于不受约束的捕获情况下，LP可能会大大扭曲，由于倾斜的意见。我们的主要贡献是引入了一种新的卷积神经网络（CNN），能够检测和纠正多个扭曲的车牌在一个单一的图像，这是一个光学字符识别（OCR）方法，以获得最终的结果。作为一个额外的贡献，我们还提出了一个具有挑战性的一组LP图像从不同的地区和采集条件的手动注释。我们的实验结果表明，所提出的方法，没有任何参数调整或微调的特定情况下，执行类似的国家的最先进的商业系统在传统的情况下，并优于学术和商业方法在具有挑战性的。关键词：车牌·深度学习·卷积神经网络1介绍若干与交通相关的应用，诸如被盗车辆的检测、收费控制和停车场访问验证，涉及车辆识别，其由自动牌照识别（ALPR）系统执行。并行处理和深度学习（DL）的最新进展有助于改善许多计算机视觉任务，例如对象检测/识别和光学字符识别（OCR），这显然有利于ALPR系统。事实上，深度卷积神经网络（CNN）已经成为应用于车辆和车牌（LP）检测的领先机器学习技术[18，28，19，3，2，9，31，17]。除了学术论文，一些商业ALPR系统也在探索DL方法。它们通常被分配在巨大的数据中心，并通过网络服务工作，每天能够处理数千至数百万张图像，并不断改进。为例2S. M. Silva和C. R. 荣格在这些系统中，我们可以提及Sighthound（ https://www.sighthound.com/ ）、 OpenALPR 的商业版本（http://www.openalpr.com/）和Ama-zonRekognition（https://aws.amazon.com/rekognition/）。图1：在所提出的评估数据集中存在的挑战倾斜车牌的示例。尽管在现有技术中取得了进步，但大多数ALPR系统假定车辆和LP的主要正视图，这在例如收费监控和停车场验证等应用中是常见的。然而，更宽松的图像获取场景（例如，执法人员带着移动照相机或智能电话行走）可能导致倾斜视图，其中LP可能高度失真但仍然可读，如图1B所示1，甚至最先进的商业系统也在为此而在这项工作中，我们提出了一个完整的ALPR系统，在各种情况下和相机设置表现良好我们的主要贡献是引入了一种新的网络，能够在许多不同的相机姿势检测LP，另一个贡献是大量使用真实图像的合成扭曲版本来增强训练数据集，允许使用不到200个手动标记的图像从头所提出的网络和数据增强方案还导致了灵活的ALPR系统，该系统能够使用相同的系统参数化成功地检测和识别独立测试数据集中的LP我们还概括了为巴西LP开发的现有OCR方法[28]。基本上，我们使用一个新的训练集重新训练了他们的OCR网络，该训练集由真实和人工生成的数据组成，使用与目标区域相似的字体类型。因此，重新训练的网络对于原始巴西sce- nario中的真实字符的检测和分类变得更加鲁棒，而且对于欧洲和台湾LP也是如此，实现了非常高的精确度和召回率。用于这项工作的所有注释数据都是公开可用的1，参考图像可以通过下载Cars数据集[16]，SSIG数据库[6]和AOLP数据集[10]获得。1可查阅http://www.inf.ufrgs.br/www.example.com/alpr-datasets。无约束场景下的车牌检测与识别3本工作的其余部分按如下方式组织。在第2节中，我们简要回顾了ALPR的相关方法。所提出的方法的细节在第3节中给出，其中我们描述了LP检测和unwarping网络，以及用于训练我们的模型的数据增强过程。总体评价和最终结果见第4节。最后，第5节总结了我们的结论，并对未来的工作提出了展望。2相关工作ALPR是在图像中发现和识别车牌的任务。它通常分为形成顺序流水线的四个子任务：车辆检测、车牌检测、字符分割和字符识别。为简单起见，我们将最后两个子任务的组合称为OCR。过去已经提出了许多不同的ALPR系统或相关的子任务，通常使用图像二值化或灰度分析来找到候选提议（例如，图像二值化）。LP和字符），然后是手工特征提取方法和经典机器学习分类器[1，4]。随着DL的兴起，最先进的技术开始向另一个方向发展，现在许多作品都采用CNN，因为它对通用对象检测和识别的准确性很高[23，24，21，25，8，11]。与ALPR相关的是场景文本定位（STS）和野外数字读取（例如，从谷歌街景图像[22]）的问题，其目标是寻找和阅读文本/数字在自然场景。虽然ALPR可以被看作STS的一个特殊情况，但这两个问题具有特殊的特点：在ALPR中，我们需要学习没有语义信息的字符和数字（没有太多的字体可变性），而STS则关注于包含高字体可变性的文本信息，并可能探索词汇和语义信息，如[ 30]所示。数字阅读不呈现语义信息，但只处理数字比ALPR上下文更简单，因为它避免了常见的数字/字母混淆，例如B-8，D-0，1-I，5-S。由于这项工作的主要贡献是一个新的LP检测网络，我们开始这一节审查基于DL的方法，这个特定的子任务，以及一些STS方法，可以处理失真的文本，并可用于LP检测。接下来，我们将完成基于ALPR DL的系统。2.1车牌检测YOLO网络的成功[23，24]激发了许多最近的工作，目标是LP检测的实时性能[28，9，31，17]。Hsu等人使用了YOLO [23]和YOLOv2 [24]网络的略微修改版本[9]，其中作者扩大了网络输出粒度以提高检测次数，并为两个类别（LP和背景）设置了概率。他们的网络在精确度和召回率之间取得了很好的折衷，但论文缺乏对提取的边界框的详细评估而且是4S. M. Silva和C. R. 荣格已知YOLO网络难以检测小尺寸物体，因此需要对汽车远离摄像头的场景进行进一步评估。在[31]中，训练了两个基于YOLO的网络的设置，目标是检测旋转的LP。第一个网络用于找到包含LP的区域，称为尽管如此，他们只考虑了平面上的旋转，而没有考虑由倾斜的相机视图引起的更复杂的变形，例如图1所示的变形。1.一、此外，由于它们不提供完整的ALPR系统，因此难以评估OCR方法在检测到的区域上的表现使用滑动窗口方法或与CNN耦合的候选滤波的车牌检测器也可以在文献[3，2，27]中找到。然而，由于不像用于对象检测的现代元架构（如YOLO，SSD [21]和Faster R-CNN [25]）那样共享计算，它们往往在计算上效率低下。虽然场景文本定位（STS）方法主要集中在大字体变化和词汇/语义信息上，但是值得一提的是，处理旋转/扭曲文本的一些方法可以被探索用于倾斜视图中的Jaderberg及其同事[13]提出了一种基于CNN的方法，用于自然场景中的文本识别，使用完全合成的数据集来训练模型。尽管结果良好，但它们强烈依赖于N元语法，这不适用于ALPR。Gupta等人[7]还通过将文本逼真地粘贴到真实图像中来探索合成数据集，主要关注文本本地化。输出是一个围绕文本旋转的边界框，它发现了ALPR场景中常见的离面旋转的限制。最近，Wang et al.[29]提出了一种检测各种几何位置中的文本的方法，称为实例转换网络（ITN）。它基本上由三个CNN组成：用于计算特征的骨干网络、用于推断特征图中假定存在文本的仿射参数的变换网络、以及最终分类网络，其输入通过根据仿射参数对特征进行采样来构建。虽然这种方法可以（理论上）处理离面旋转，但它不能正确地推断出实际将文本区域映射到矩形的变换，因为在文本周围没有应该映射到未失真视图中的矩形的物理（或明确的心理）边界区域。在ALPR中，LP通过构造是直角的和平面的，并且我们探索该信息以回归变换参数，如在第3.2节中详述的。2.2完整ALPR方法Silva和Jung [28]和Laroca等人的作品[17]提出了基于一系列修改的YOLO网络的完整在[28]中使用了两个不同的网络，一个用于联合检测汽车和LP，另一个用于执行OCR。在[17]中总共使用了五个网络，基本上每个ALPR子任务一个，两个用于字符识别。这两个报告的实时系统，无约束场景下的车牌检测与识别5但他们只专注于巴西车牌，没有受过训练，以捕捉失真，只有正面和近矩形的LP。Selmi等人[27]使用了一系列基于形态算子、高斯滤波、边缘检测和几何分析的预处理方法以找到LP候选和字符。然后，使用两个不同的CNN来(i)将每个图像的LP候选的集合分类为一个单个正样本;以及（ii）识别分割的字符。该方法处理每个图像的单个LP，并且根据作者，失真的LP和较差的照明条件可以损害性能。Li等人。[19]提出了一种基于Faster R-CNN的网络[25]。简言之，区域建议网络被分配以找到候选LP区域，其对应的特征图由RoI池化层裁剪。然后，这些候选数据被馈送到网络的最后部分，其计算是/不是LP的概率，并通过递归神经网络执行OCR。尽管有希望，由作者提出的评估显示，在最具挑战性的情况下，包含斜LP的性能缺乏。商业系统是了解最新技术的良好参考点。尽管它们通常只提供关于其体系结构的部分（或没有）信息如第1节所述，示例包括Sighthound、OpenALPR（Metropolis平台2的官方NVIDIA合作伙伴）和Amazon Rekognition（一种通用AI引擎，包括可用于LP识别的文本检测和识别模块，如公司所述3该方法所提出的方法由三个主要步骤组成：车辆检测，LP检测和OCR，如图所示。二、给定输入图像，第一模块检测场景中的车辆在每个检测区域内，所提出的翘曲平面对象检测网络（WPOD-NET）搜索LP和回归一个仿射变换每个检测，允许纠正的LP区域的一个类似于正面视图的矩形。这些积极的和纠正的检测被馈送到OCR网络进行最终的字符识别。3.1车辆检测由于车辆是许多经典检测和识别数据集中存在的基础对象之一，例如PASCAL-VOC [5]，ImageNet [26]和COCO [20]，因此我们决定不从头开始训练检测器，而是选择已知模型来执行车辆检测。一方面，期望高召回率，因为具有可见LP的任何未命中检测到的车辆直接导致总体LP未命中检测。另一方面，高2用于智能城市视频分析的NVIDIA平台（https://www.nvidia.com/en-us/autonomous-machines/intelligent-video-analytics-platform/）。6S. M. Silva和C. R. 荣格MLC3511MLC3534MLC3543输入图像车厢探测（YOLOv2）车牌检测（WPOD-NET）整改OCR（OCR-NET）图2：拟议管道的图示由于每个错误检测到的车辆必须由WPOD-NET验证，基于这些考虑，我们决定使用 YOLOv2 网络，因为它的执行速度快（约 70FPS），精度和召回率都很好（76. PASCAL-VOC数据集上的8% mAP我们没有对YOLOv2进行任何更改或改进，只是将网络用作黑盒，合并与车辆相关的输出（即汽车和公共汽车），并忽略其他类。然后，在馈送到WPOD-NET之前，调整阳性检测的大小。根据经验，较大的输入图像允许检测较小的对象，但会增加计算成本[12]。在大致的前/后视图中，LP尺寸和车辆边界框（BB）之间的比率很高。然而，对于斜视图/侧视图，该比率趋于小得多，因为车辆BB趋于更大且更细长。因此，倾斜视图应调整到比正面视图更大的尺寸，以保持LP区域仍然可识别。虽然3D姿态估计方法（如[32]）可用于确定调整大小比例，但这项工作提出了一种基于车辆BB纵横比的简单快速程序当它接近1时，可以使用更小的尺寸，并且随着纵横比变大，它必须增加更准确地说调整大小因子Fsc由下式给出fsc=1min{Wv，Hv}min.Dminmax（Wv，Hv）min（Wv，Hv）Σ，Dmax 、（1）其中，Wv和Hv分别是车辆BB的宽度和高度。注意，Dmin≤fscmin（Wv，Hv）≤Dmax，使得Dmin和Dmax界定了调整大小的BB的最小尺寸的范围基于实验并试图在精度和运行时间之间保持良好的折衷，我们选择Dmin= 288和Dmax= 608。3.2车牌的检测与去扭曲牌照本质上是矩形和平面物体，其附接到车辆以用于识别目的。为了利用它的形状，我们提出了一种新的CNN，称为Warped Planar ObjectDetection Network。这无约束场景下的车牌检测与识别7（男、女、6）仿射参数（m，n）胞腔（1、1、6）=T仿射WPOD网络对象概率输入输出前馈特征映射目标高概率小区正方形到物体变换n）（m网络学习检测各种不同失真中的LP，并且将在“未被扭曲”的LP处的仿射形式的系数回归虽然可以学习平面透视投影而不是仿射变换，但是透视变换中涉及的除法可能在分母中生成小值，并且因此导致数值不稳定性。WPOD-NET是利用YOLO，SSD和Spatial Transformer Networks（空间转换器网络）的见解开发的[14]。YOLO和SSD一次执行快速的多对象检测和识别，但它们不考虑空间变换，只为每次检测生成矩形边界框相反，STN可以用于检测非矩形区域，但是它不能同时处理多个变换，仅在整个输入上执行单个空间变换。图3：平面对象的完全卷积检测（为了更好的可视化而裁剪）。使用WPOD-NET的检测过程如图所示3.第三章。最初，网络由车辆检测模块的调整大小的输出馈送。前馈导致编码对象/非对象概率和仿射变换参数的8通道特征图为了提取扭曲的LP，让我们首先考虑围绕单元（m，n）的中心的固定大小的假想正方形如果该单元格的对象概率高于给定的检测阈值，则使用部分回归参数来构建仿射矩阵，该仿射矩阵将虚构正方形变换为LP区域。因此，我们可以很容易地将LP展开为水平和垂直对齐的对象。网络架构所提出的架构共有21个卷积层，其中14个在残差块内[8]。所有卷积滤波器的大小固定在3 × 3。ReLU激活在整个网络中使用，除了在检测块中有4个最大池化层，大小为2× 2，步幅为2，将输入维度降低了16倍。最后，检测块具有两个并行的卷积层：（i）一个用于推断概率，由softmax函数激活，以及（ii）另一个用于回归仿射参数，而不激活（或者等效地，使用恒等式F（x）=x作为激活函数）。8S. M. Silva和C. R. 荣格CONV 3x3，16检测ReLURESBLOCK（128）CONV 3x3，16RESBLOCK（128）CONV 3x3，128ReLU最大池化最大池化RESBLOCK（64）CONV 3x3，32RESBLOCK（64）ReLU最大池化RESBLOCK（32）RESBLOCK（64）最大池化RESBLOCK（64）CONV 3x3，64ReLURESBLOCK（N）CONV 3x3，N RELUCONV 3x3，NSUMRELU检测CONV 3x3，2 CONV 3x3，6SOFTMAX线性连接器图4：详细的WPOD-NET架构。令pi= [xi，yi]T，对于i= l，· ··， 4，表示注释LP的四个角，从左上开始顺时针同样，设q1 =[−0。5，-0。5] T，q2=[0. 5，-0。5] T，q3=[0. 5，0。5] T，q4=[−0. 5，0。T表示以原点为中心的规范单位正方形的对应顶点。对于高度为H、宽度为W的输入图像，网络步长为Ns= 24（4个最大池化层），网络输出特征映射由 M×N×8 体积组成，其中M=H/Ns，N=W/Ns。对于特征图中的每个点单元（m，n），有八个值要估计：前两个值（v1和v2）是对象/非对象概率，最后六个值（v3到v8）用于构建局部仿射变换Tmn，由下式给出Tmn（q）=Σ Σmax（v3，0）v4Q+v5最大值（v6，0）Σ Σ第7节，（2）v8其中采用用于V3和V6的MAX函数以确保对角线为正（避免不希望的镜像或过度旋转）。为了匹配网络输出分辨率，通过网络步幅的倒数来重新缩放点P1，并且根据特征图中的每个点（m，n）来重新居中这是通过应用归一化函数来1Amn（p）=α. 1Nsp−Σ ΣΣnM、（3）其中α是表示虚构正方形的边的缩放常数我们设α = 7。75，其是增强训练数据中的最大和最小LP维度之间的平均点除以网络步幅。假设在单元（m，n）处存在对象（LP），则损失函数的第一部分考虑规范正方形的扭曲版本与LP的归一化注释点之间的误差，由下式给出Σ4faffine（m，n）=i=1Tmn（qi）− Amn（pi）（四）无约束场景下的车牌检测与识别9损失函数的第二部分处理在（m，n）处具有/不具有对象的概率。它类似于SSD置信损失[21]，基本上是两个对数损失函数fprobs（m，n）= logloss（Iobj，v1）+logloss（1−Iobj，v2），（5）其中Iobj是对象指示符函数，如果在点（m，n）处存在对象，则返回1，否则返回0，并且logloss（y，p）=−y log（p）。如果对象的矩形边界框呈现大于阈值γobj（根据经验设置为0）的IoU，则对象被认为在点（m，n）内部。3）w.r.t.另一个相同大小的边界框，以（m，n）为中心。最终的损失函数由等式2中定义的项的组合给出。（4）和（5）：ΣM损失=ΣN[I objfaffine（m，n）+fprobs（m，n）]。（六）m=1n =1为了训练所提出的WPOD-NET，我们创建了一个包含196个图像的数据集，其中105个来自Cars数据集，40个来自SSIG数据集（训练子集），51个来自AOLP数据集（LE子集）。对于每个图像，我们手动注释了图片中LP的4个角（有时不止一个）。从汽车数据集中选择的图像主要包括欧洲LP，但也有许多来自美国以及其他LP类型。来自SSIG和AOLP的图像分别包含巴西和台湾LP。一些注释的样品如图所示。五、图5：训练数据集中的注释LP的示例考虑到训练数据集中注释图像的数量减少，使用数据增强是至关重要的。使用以下增强变换– 整改：- 基于LP注释校正整个图像，假设LP位于平面上;– 纵横比：在区间[2，4]中随机设置LP纵横比以适应来自不同区域的尺寸;10S. M. Silva和C. R. 荣格– 定心：LP中心成为图像中心;– 缩放：LP被缩放，使得其宽度匹配40px和208px之间的值（基于LP的可读性通过实验设置）。该范围用于定义等式中使用的α值。（3）;– 旋转：执行具有随机选择的角度的3D旋转，以考虑宽范围的相机设置;– 奇迹：50%的几率;– 平移：随机平移将LP从图像中心移动，限于中心周围208×– 裁剪：考虑到平移前的LP中心，我们裁剪一个208×208其周围的区域;– 色彩空间：HSV色彩空间中的轻微修改– 注释：通过应用用于增强输入图像的相同空间变换来调整四个LP角的位置。从上面提到的所选择的一组变换，可以从单个手动标记的样本获得具有非常明显的视觉特性的各种各样的增强测试图像。例如图图6示出了从同一图像获得的20个不同的增强样本。图6：相同样品的不同扩增。红色四边形表示转换后的LP注释。我们使用ADAM优化器[15]对大小为32的小批量进行了100k次迭代训练。学习率设置为0。001，参数β1= 0。9和β2= 0。999. 小批量是通过从训练集中随机选择和增加样本来生成的，每次迭代都会产生大小为32× 208× 208× 33.3OCR使用修改后的YOLO网络执行整流LP上的字符分割和识别，具有与[28]中相同的架构。然而，在这项工作中，通过使用合成和增强数据来应对世界各地（欧洲，美国和巴西）的LP特征，训练数据集被大大扩大了3。3我们也使用了台湾的LP，但无法找到有关该国使用的字体类型的英文信息，以便包括在人工数据生成中。无约束场景下的车牌检测与识别11字体选择（欧洲、美国或巴西）随机7个字符字符串背景旋转随机背景和前景以及颜色定义的图像叠加翻译PASCAL-VOC盐和胡椒高斯噪声模糊图7：具有所提出的生成流水线的人工LP样本（底部）。人工创建的数据包括将一串七个字符粘贴到纹理背景上，然后执行随机变换，如旋转，平移，噪声和模糊。一些生成的样本和用于合成数据生成的流水线的简短概述如图所示。7.第一次会议。如第4节所示，使用合成数据有助于极大地提高网络泛化能力，因此，对于世界各地不同地区的LP，完全相同的网络表现良好3.4评价数据集我们的目标之一是开发一种在各种无约束场景中表现良好的技术，但也应该在受控场景（如主要是正面视图）中表现良好因此，我们选择了四个在线可用的数据集，即OpenALPR（BR和EU）4，SSIG和AOLP（RP），它们涵盖了许多不同的情况，如表1的第一部分所总结的。我们考虑三个不同的变量：LP角度（正面和倾斜）、车辆到摄像机的距离（近、中和远）以及拍摄照片的区域。表1：评价数据集。数据库（子集）LP角车辆距离图片数量区域OpenALPR5（欧盟）多为正面密切104欧洲OpenALPR（BR）多为正面密切108巴西SSIG（测试集）多为正面中，远804巴西一级法律助理主任（道路巡逻）额肌+斜肌密切611台湾建议（CD-HARD）多斜近、中、远102各种目前在LP失真方面使用的更具挑战性的数据集是AOLP Road Patrol（RP）子集，它试图模拟摄像机安装在巡逻车辆中或由人手持的情况。方面4可查阅https://github.com/openalpr/benchmarks。12S. M. Silva和C. R. 荣格从相机到车辆的距离来看，SSIG数据集似乎是最具挑战性的数据集。它由高分辨率图像组成，允许来自远处车辆的LP仍然可读。他们中没有一个一次从多个（同时）车辆呈现LP。尽管所有这些数据库一起涵盖了许多情况，但据我们所知，在文献中缺乏具有挑战性图像的更通用的数据集因此，这项工作的另一个贡献是从汽车数据集中选择的一组新的102张图像（命名为 CD-HARD）的手动注释，涵盖了各种具有挑战性的情况。我们选择了大多数具有强烈LP失真但仍然可读的图像。这些图像中的一些（LP区域周围的作物）如图所示。1，这是用来激励在这项工作中解决的问题。4实验结果本节涵盖了我们的完整ALPR系统的实验分析，以及与其他国家的最先进的方法和商业系统的比较。不幸的是，大多数学术ALPR论文都集中在特定的场景（例如：单个国家或地区、环境条件、相机位置等）。因此，文献中有许多分散的数据集，每个数据集都由一个子集的方法进行评估。此外，许多论文仅关注LP检测或字符分割，这甚至更多地限制了完整ALPR流水线的比较可能性。在这项工作中，我们使用了四个独立的数据集来评估所提出的方法在不同的场景和区域布局的准确性。我们还展示了与商业产品和论文，目前充分ALPR系统的比较。所提出的方法在管道中呈现了三个网络，我们根据经验设置了以下接受阈值：0的情况。5用于车辆（YOLOv 2）和LP（WPOD-NET）检测，以及0. 4用于字符检测和识别（OCR-NET）。此外，值得注意的是，字符“I”和“1”对于巴西LP是相同的。因此，在评价OpenALPRBR和SSIG数据集时，将其视为单一类别没有其他启发式或后处理应用于OCR模块产生的结果。我们评估系统的正确识别LP的百分比，其中LP被认为是正确的，如果所有字符都被正确识别，并且没有检测到额外的字符。值得注意的是，所有数据集都应用了完全相同的网络：对于给定类型的LP（例如，欧洲人或台湾人）。在管道中执行的唯一轻微修改是针对AOLPRoad Patrol数据集。在这个数据集中，车辆非常接近相机（在几种情况下导致车辆检测器失败），因此我们直接将LP检测器（WPOD-NET）应用于输入图像。为了显示在OCR-NET训练过程中包括完全合成数据的好处，我们使用两组训练数据评估了我们的系统：（i）真实的增强数据加上人工生成的数据;以及（ii）仅真实增强数据。无约束场景下的车牌检测与识别13表2：所有5个数据集的完整ALPR结果。OpenALPRSSIG AOLP拟定平均值*OpenALPR很难理解台湾LP中的** 在[10]中，作者提供了一个估计值，而不是真正的评估。这两个问题不是由 “ 我们的 ” 和 “ 我们的 ” （不属于任何一方）来定义的。）”，在表2中特别地示出。可以观察到，添加完全合成的数据提高了所有测试数据集的准确度（AOLP RP数据集的增益≈5%）。此外，为了突出校正检测边界框的改进，我们还呈现了使用规则的非校正边界框的结果，其被定义为“Our s（unrect. ）“在表2中。如所示，在大多数正面数据集中，结果没有太大变化（对于ALPR-EU甚至稍微好一点），但是在具有挑战性的倾斜LP（AOLP-RP和所提出的CD-HARD）的数据集中存在相当大的准确性下降。表2还显示了竞争性（商业和学术）系统的结果，表明我们的系统在代表更多受控场景的数据库中实现了与商业系统相当的识别率，其中LP主要是正面的（OpenALPR EU和BR以及SSIG）。更准确地说，它是OpenALPR数据集中的第二好方法，也是SSIG中的第一好方法。然而，在具有挑战性的情况下（AOLP RP和拟议的CD-HARD数据集），我们的系统优于所有比较方法的显着幅度（与第二个最佳结果相比，准确度提高了7%以上）。值得一提的是，李等人的作品[18，19]，Hsu et al. [10]和Laroca etal.[17]集中在一个区域或数据集。通过超越他们，我们表现出很强的泛化能力。同样重要的是要注意，最具挑战性的数据集（AOLP-RP和CD-HARD）的完整LP识别率高于直接将OCR模块应用于带注释的矩形LP边界框（79. AOLP-RP为21%，53. CD-HARD为85%）。这种增益是由于WPOD-NET允许的解扭曲，这在LP严重失真时极大地帮助了OCR任务敬伊-欧盟BR测试Rp硬光盘我们93.52%91.23%88.56% 百分之九十八点三六75.00%89.33%我们的（没有艺术品）92.59%88.60%84.58%93.29%73.08%86.43%Ours（unrect.）94.44%90.35%87.81%84.61%57.69%82.98%商业系统OpenALPR96.30%85.96%87.44%69.72%*67.31%81.35%观光猎犬83.33%94.73%81.46%83.47%45.19%77.64%亚马逊Rekog。69.44%83.33%31.21%68.25%30.77%56.60%Laroca等人[17个]李- -85.45%畸胎-- -14S. M. Silva和C. R. 荣格* 错过了 *我们在图中显示了这种行为。图8示出了针对图1中的图像的检测到的和未扭曲的LP。1，以及OCR-NET产生的最终识别结果。右上LP的检测分数低于接受阈值，说明假阴性示例。ZCAA30 GNO6BGV C24JBH ACAC1350 MXH4622AURI318 J2II3 06U564 VZ60MLB KK4504 HBDD1111图8：来自图8中的图像的检测到的/解扭曲的LP。1和最终ALPR结果。拟议的WPOD-NET使用TensorFlow框架实现，而初始的YOLOv 2车辆检测和OCR-NET是使用DarkNet框架创建和执行的。使用Python包装器来集成这两个框架。用于我们实验的硬件是Intel Xeon处理器，具有12Gb的RAM和NVIDIA Titan X GPU。通过该配置，我们能够以平均5FPS的速度运行完整的ALPR系统（考虑所有数据集）。该时间高度依赖于在输入图像中检测到的车辆的数量。因此，增加车辆检测阈值将导致更高的FPS，但是更低的召回率。5结论和未来工作在这项工作中，我们提出了一个完整的深度学习ALPR系统，用于不受约束的场景。我们的研究结果表明，所提出的方法优于现有的方法，到目前为止，在具有挑战性的数据集，包含LP捕获在强烈倾斜的意见，同时保持良好的结果，在更多的控制数据集。这项工作的主要贡献是引入了一种新的网络，允许通过生成仿射变换矩阵每个检测单元的检测和扭曲的LP这一步减轻了OCR网络的负担，因为它需要处理更少的失真。作为额外的贡献，我们提出了一个新的具有挑战性的数据集，用于评估ALPR系统在捕获主要是斜LP。数据集的注释将公开提供，以便数据集可以用作新的具有挑战性的LP基准。对于未来的工作，我们希望将我们的解决方案扩展到检测摩托车LP。由于纵横比和布局的差异，这提出了新的挑战此外，我们打算探索所获得的仿射变换的自动摄像机标定问题，在交通监控的情况下。鸣谢。作者要感谢资助机构CAPES和CNPq，以及NVIDIA公司捐赠Titan X Pascal GPU。无约束场景下的车牌检测与识别15引用1. Anagnostopoulos，C.N.，阿纳诺斯托普洛斯岛普索罗拉斯岛Loumos，V.Kayafas，E.：基于静止图像和视频序列的车牌识别研究综述。IEEETransacti o nso ntel i gentTra nsportati o nSystems9 （ 3 ）， 377- 391（2008年https://doi.org/10.1109/TITS.2008.922938，http://ieeexplore.ieee.org/document/4518951/2. Bulan，O.，Kozitsky，V.，Ramesh，P.，Shreve，M.：具有深度定位和故障识别的无分割和注释的车牌识别。IEEETRANSACTIONSONITELIGENTRANSPRTATIONSTES18 （ 9 ），2351- 2363（S e p 2017）。https://doi.org/10.1109/TITS.2016.26390203. Delmar Kurpiel，F.，米内托河Nassu，B.T.：卷积神经网络用于图像中的车牌检测。在： 2017 IEEE InternationalConferenceonImagePr ocessing（ICIP）.pp.3395-3399IEEE（sep2017）.https://doi.org/10.1109/ICIP.2017.8296912，http://ieeexplore.ieee.org/document/8296912/4. Du，S.， Ibrahim，M. Shehata，M.， Badawy，W.：自动车牌识别（ ALPR ）：最先进的审查。 IEEETransac-tionsonCircuitsandSystemsforVideoTecch l 〇 gy23 （ 2 ）， 311- 325 （ fe 2013 ）。https://doi.org/10.1109/TCSVT.2012.2203741，http://ieeexplore.ieee.org/document/6213519/5. Everingham，M.凡古尔湖威廉姆斯，C.K.I.，Winn，J.，齐瑟曼，A.：pascal视觉对象类（voc）的挑战。International Journal of ComputerVisual88（2），3036. G.R. Gonalves da Silva，S.P.G.， Menotti，D.， Schwartz，W.R.：车牌字符分割基准。电子成像杂志25（5），1- 5（2016），http：// www.ssig.dcc.ufmg.br/wp-conntent/uploads/2016/11/JEI-2016-Benchmark.pdf7. Gupta，A.，Vedaldi，A.，齐瑟曼，A.：用于自然图像中的文本定位的合成数据。IEEE计算机视觉与模式识别会议（2016）8. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习在：2016年IEEE计算机视觉和模式识别会议（CVPR）.vol. 第4页。770IEEE（2016年6月）。 http：//doi. 或g/10。1109/CVPR. 2016年。909. 许先生，G.S.，Ambikapathi，A.，Chung，S.L.，Su，C.P.：强大的车牌检测在野外。在：2017年第14届IEEE广告视频和信号处理国际会议（AVSS）上。pp.1不。August，IEEE（aug2017）.https://doi.org/10.1109/AVSS.2017.8078493、http://ieeexplore.ieee。org/document/807849310. 许先生， G.S. ， Chen ， J.C. ，钟耀智：面向应用的车牌识别。I.VehicularTechnology62（ 2）， 552- 561（ 2013年 6月）中描述的。https://doi.org/10.1109/TVT.2012.222621811. Huang，G.，刘志，范德马滕湖，Weinberger，K.Q.：密集连接卷积网络。在：2017年IEEE计算机虚拟现实和硬件资源会议（CVPR）中。pp.2261-2269IEEE（2017年7月）。https://doi.org/10.1109/CVPR.2017.243，http://arxiv.org/abs/1608.06993http://ieeexplore.ieee.org/document/8099726/12. 黄，J.，Rathod，V.，孙角，澳-地Zhu，M.， Korattikara，A.， Fathi，A.，菲舍岛，Wojna，Z.，Song，Y.，Guadarrama，S.，Murphy，K.：速度/准确度16S. M. Silva和C. R. 荣格现代卷积对象检测器的权衡。 In ： 2017IEEECon-fe-receonComputerVisionandPatternRecognition（CVPR）. pp. 3296-3297 IEEE（2017年7月）。https://doi.org/10.1109/CVPR.2017.351、http://ieeexplore.ieee。org/document/809983413. Jaderberg，M.，西蒙尼扬，K.，Vedaldi，A.，齐瑟曼，A.：用于自然场景文本识别的合成数据和人工神经网络。NIPS，Conference on NeuralInformationPr ocessingSystemspp. 第114. Jaderberg，M.，西蒙尼扬，K.，Zisserman，A.，kavukcuoglu，k.：空间Transformer 网络。在： Cortes ， C. ，劳伦斯，北达科他州，李 D.D.Sugiyama，M.，加内特河（eds. AdvancesinNeuralIinformmationPr oces28，pp.2017- 2025年。库尔兰联合公司。（2015年）15. 金玛，D.P.， Ba，J.： Adam：随机最佳化的方法。Corrabs/1412.6980（2014）16. Krause，J.，斯塔克M. Deng，J.，李菲菲：用于细粒度分类的3D对象表示。第四届国际IEEE 3D表示和识别研讨会澳大利亚悉尼（2013）17. L ar oca，R.，

下载后可阅读完整内容，剩余1页未读，立即下载