YOLO9000:实时高效的多类别物体检测系统

148 浏览量更新于2023-10-16 收藏 1.53MB PDF 举报

YOLO9000

联合训练

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7263YOLO9000：更好、更快、更强Joseph Redmon，Ali Farhadi，华盛顿大学艾伦人工智能研究所，XNOR.ai×http://pjreddie.com/yolo9000/摘要我们推出了YOLO9000，这是一款先进的实时物体检测系统，可检测9000多种物体类别。首先，我们提出了对YOLO检测方法的各种改进，既新颖又借鉴了先前的工作。改进后的模型YOLOv2在标准检测任务（如PASCAL VOC和COCO）上处于最先进水平。使用一种新颖的多尺度训练方法，同一个YOLOv2模型可以以不同的大小运行，在速度和准确性之间提供了一个简单的权衡。在67 FPS下，YOLOv2可以获得76.8 2007年关于挥发性有机化合物的mAP。在40 FPS下，YOLOv 2获得78.6 mAP，优于最先进的方法，如更快的R-CNN与ResNet和SSD，同时仍然运行得更快。最后，我们提出了一种联合训练目标检测和分类的方法。使用该方法，我们在 COCO 检测数据集和ImageNet分类数据集上同时训练YOLO9000。我们的联合培训使YOLO9000能够预测没有标记检测数据的对象类别的检测结果。我们在ImageNet检测任务上验证了我们的方法。 YOLO9000获得19.7在ImageNet检测验证集上的mAP，尽管只有200个类中44个类的检测数据。在156个不在COCO中的类上，YOLO9000获得16.0 mAP。YOLO9000可实时预测9000多种不同物体类别的检测结果1. 介绍通用对象检测应该是快速、准确的，并且能够识别各种各样的对象。自从引入神经网络以来，检测框架已经变得越来越快速和准确。然而，大多数检测方法仍然局限于一个小的对象集。与用于其他任务（如分类和标记）的数据集相比，当前的对象检测数据集是有限的。最常见的检测数据集包含数千至数十万个图像，带有数十至数百个标签[3] [10] [2]。分类数据集包含数百万个图像，其中包含数万或数十万个类别[20][2]。我们希望探测能扩展到目标分类的级别。然而，为检测而标记图像远比为分类或标记而标记要昂贵得多（标记通常是用户免费提供的因此，我们不太可能在与分类图1：YOLO9000。YOLO9000可以实时检测各种各样的对象类别。7264数据库在不久的将来我们提出了一种新的方法来利用我们已经拥有的大量分类数据，并使用它来扩大目前的检测系统的范围。我们的方法使用的对象分类的层次视图，允许我们结合不同的数据集在一起。我们还提出了一个联合训练算法，使我们能够在检测和分类数据上训练对象检测器我们的方法利用标记的检测图像来学习精确定位对象，同时使用分类图像来增加其词汇量和鲁棒性。使用这种方法，我们训练YOLO 9000，一个实时对象检测器，可以检测超过9000种不同的对象类别。首先，我们改进了基础 YOLO 检测系统，以产生YOLOv2，这是一种最先进的实时检测器。然后，我们使用我们的数据集组合方法和联合训练算法，在ImageNet的9000多个类以及COCO的检测数据上训练模型。我们所有的代码和预先训练的模型都可以在http://pjreddie.com/yolo9000/找到。2. 更好YOLO相对于最先进的检测系统存在各种缺点与FastR-CNN相比，YOLO的错误分析表明YOLO产生了大量的定位错误。此外，与基于区域提议的方法相比，YOLO具有相对较低的召回率因此，我们主要集中在提高召回率和本地化，同时保持分类精度。计算机视觉通常倾向于更大，更深的网络[6] [18][17]。更好的性能通常取决于训练更大的网络或将多个模型集成在一起。然而，对于YOLOv2，我们需要一个更准确的检测器，它仍然很快。我们没有扩大我们的网络，而是简化了网络，然后使表示更容易学习。我们从过去的工作中汇集了各种各样的想法，并提出了我们自己的新颖概念，以提高YOLO的性能。结果总结见表2。批次归一化。批量归一化导致收敛性的显著改善，同时消除了对其他形式正则化的需求[7]。通过在YOLO中的所有卷积层上添加批量归一化，我们在mAP中获得了超过2%的改进。批量规范化也有助于规范化模型。使用批量归一化，我们可以在不过度拟合的情况下从模型中删除dropout。高分辨率分类器。所有最先进的检测方法都使用在ImageNet上预训练的分类器[16]。从AlexNet开始，大多数分类器对小于256×256的输入图像进行操作[8]。最初的YOLO列车224×224的分类器网络，提高了分辨率。第448章为了检测这意味着网络必须同时切换到学习对象检测和广告。新的输入分辨率。对于YOLOv2，我们首先在ImageNet上以完整的448×448分辨率微调分类网络10个epochs这使网络有时间调整其滤波器，以便在更高分辨率的输入上更好地工作然后，我们微调结果，网络检测这种高分辨率分类网络使我们增加了近4%的mAP。具有锚框的卷积。 YOLO使用卷积特征提取器顶部的完全连接层直接预测边界框的坐标。而不是直接预测坐标更快的R-CNN使用手工挑选的先验来预测边界框[15]。Faster R-CNN中的区域建议网络（RPN）仅使用卷积层来预测锚框的偏移量和置信度由于预测层是卷积的，因此RPN在特征图中的每个位置处预测这些偏移。预测偏移量而不是坐标简化了问题，并使网络更容易学习。我们从YOLO中移除全连接层，并使用锚框来预测边界框。首先，我们删除一个池化层，使网络卷积层的输出分辨率更高。我们也将网络缩小到416个输入图像，而不是448×448。我们这样做是因为我们希望在我们的特征图中有奇数个位置，因此有一个中心单元。物体，尤其是大的物体，往往占据图像的中心，所以YOLO我们得到一个13 ×13的输出特征图。当我们移动到锚盒时，类预测机制从空间位置，而是预测类和对象的每个锚框。在YOLO之后，对象性预测仍然预测基础事实和所提出的框的IOU，并且类预测预测在给定存在对象的情况下预测该类的条件概率。使用锚框，我们得到了一个小的精度下降YOLO仅预测每张图像98个框，但使用锚框时，我们的模型预测了1000多个框。没有锚框，我们的中间模型得到69。5mAP，召回率为81%。有了锚框，我们的模型得到69。2个mAP，召回率为88%。即使mAP下降，召回率的增加意味着我们的模型有更大的改进空间。维簇。我们在使用YOLO时遇到了两个问题。第一个是盒子尺寸是手工挑选的。网络可以学习适当地调整盒子，但是如果我们为网络选择更好的先验，我们可以让网络更容易学习预测好的检测。我们不是手动选择先验，而是在训练集边界框上运行k-means聚类来自动找到好的先验。如果我们使用标准k均值72650.750VOC2007Coco123456789101112131415#集群尤其是在早期迭代期间。大多数不稳定性来自于预测盒子的（x，y）在区域建议网络中，网络预测值tx和ty，并且（x，y）中心坐标计算为：x=（txwa）−xay=（t yha）−ya例如，预测tx=1将使框向右移动锚框的宽度，预测t x = 1将使框向右移动锚框的宽度。图2：VOC和COCO上的聚类框维度。我们在边界框的维度上运行k-means聚类，对我们的模型来说有很好的前科左图显示了我们在k的各种选择下得到的平均IOU。k= 5给出了召回率与模型的复杂性右图显示了VOC和COCO的相对质心。COCO的尺寸变化比VOC大。欧氏距离较大的盒子比较小的盒子产生更多的错误。然而，我们真正想要的是导致良好IOU分数的先验，这与盒子的大小无关。因此，对于我们的距离度量，我们用途：d （ box ， centroid ） = 1− IOU （ box ，centroid）我们对各种k值运行k均值，并绘制具有最接近质心的平均IOU，见图2。我们选择k=5作为模型复杂性和高召回率之间的良好折衷。聚类质心与手工挑选的锚框显著不同。短而宽的盒子越来越少，而高而细的盒子越来越多。我们将平均IOU与我们的聚类策略和表1中手工挑选的锚框的最接近先验进行比较。仅在5个先验情况下，质心表现类似于9个锚框，平均IOU为61.0，而平均IOU为60.9。如果我们使用9个质心，我们会看到一个更高的平均IOU。这表明，使用k-means来生成我们的边界框可以以更好的表示方式开始模型，并使任务更容易学习。框生成#平均IOU集群SSE558.7集群IOU561.0锚箱[15]960.9集群IOU967.2表1：与VOC 2007年最接近的先前包装盒的平均IOU。VOC 2007上对象的平均IOU与其最接近的，未修改的，使用不同的生成方法来确定先验。聚类比使用手工挑选的先验数据提供了更好的结果。直接位置预测。当使用锚框与YOLO时，我们遇到了第二个问题：模型不稳定性，t x= −1将使它向左移动相同的量。该公式是不受约束的，因此任何锚盒都可以在图像中的任何点结束，而不管预测框的位置。在随机初始化的情况下，模型需要很长的时间来稳定以预测可感知的偏移。代替预测偏移，我们遵循YOLO的方法并预测相对于网格单元的位置的位置坐标这将地面真值限制在0和1之间。我们使用逻辑激活来约束网络网络在输出特征图中的每个单元预测5个边界框。网络为每个边界框预测5个坐标，tx，ty，tw，th和to。如果单元格从图像的左上角偏移（cx，cy）并且边界框先验具有宽度和高度pw，ph，则预测对应于：bx= σ（ tx）+cxby=σ（ty ） + cybw= pw etwbh=phethPr （ object ） IOU （ b ，object）=σ（too）由于我们限制了位置预测，因此参数化更容易学习，使网络更稳定。使用维度聚类以及直接预测边界框中心位置，与锚框版本相比，将YOLO提高了近5%。细粒度特征。这个修改后的YOLO预测在13×13特征图上的检测。虽然这对于大型对象是足够的，但它可能受益于更细粒度的fea。用于定位较小物体的方法更快的R-CNN和SSD都在网络中的各种特征图上运行他们的提案网络，以获得一系列的分辨率。我们采用不同的方法，只需添加一个passthrough层，以26×26分辨率从早期层中引入特征。穿透层连接更高的分辨率通过将相邻特征堆叠到不同的通道而不是空间位置中来将具有低分辨率特征的特征与ResNet中的标识映射相类似。这将26×26×512的要素图变成了13×13×2048的平均IOU7266C80振英706003050 100帧每秒图3：具有维度先验和位置预测的边界框。我们预测框的宽度和高度作为从集群质心的偏移。我们预测了框相对于使用sigmoid函数的过滤器应用程序的位置。特征图，其可以与原始特征连接。我们的检测器运行在这个扩展的特征图之上，这样它就可以访问细粒度的特征。这给出了适度的1%的性能提升。多尺度训练。YOLO的输入分辨率为448×448。通过添加锚框，我们将分辨率更改为416×416。然而，由于我们的模型只使用卷积层和池化层，在飞行中调整大小我们希望YOLOv2能够在不同大小的图像上运行，因此我们将其训练到模型中。我们不是固定输入图像的大小，而是每隔几次迭代就改变网络.每10批，我们的网络随机选择新的图像尺寸。由于我们的模型向下采样32倍，我们从以下32的倍数中提取：{320、352、…608}。因此，最小选项为320×320，最大选项为608×608。我们将网络调整到该维度并继续训练。这种机制迫使网络学习在各种输入维度上进行良好的预测。这意味着同一个网络可以预测不同分辨率的检测结果。网络在较小的尺寸下运行速度更快，因此YOLOv2在速度和准确性之间提供了一个简单的折衷。在低分辨率下，YOLOv2作为一种廉价、相当准确的检测器运行。在288×288下，它以超过90 FPS的速度运行这使得它非常适合较小的GPU、高帧率视频或多个视频流。YOLOv2是一款在VOC 2007上具有78.6 mAP的高分辨率探测器，同时仍能以高于实时速度运行。YOLOv2与VOC 2007上其他框架的比较见表3图4进一步的实验。我们训练YOLOv2进行检测图4：VOC 2007的准确性和速度。关于VOC 2012表4示出了YOLOv2相对于其他现有技术检测系统的比较性能YOLOv2实现了73.4 mAP，同时运行速度远远快于其他方法。我们也在COCO上进行培训，见表5。在VOC指标（IOU =.5）上，YOLOv 2获得44.0 mAP，与SSD和更快的R-CNN相当。3. 快我们希望检测准确，但我们也希望它快速。大多数检测应用，如机器人或自动驾驶汽车，都依赖于低延迟预测。为了最大限度地提高性能，我们将YOLOv2设计为从零开始就非常快速。大多数检测框架依赖于VGG-16作为基本特征提取器[17]。VGG-16是一个功能强大、准确的分类网络，但它过于复杂。VGG-16的卷积层需要306.9亿次浮点运算才能在单个图像上执行一次，224×224分辨率。YOLO框架使用基于以下内容的自定义网络：Googlenet架构[19]。该网络比VGG-16更快，向前传递仅使用85.2亿次操作。然而，它16.对于224×224的单次裁剪，前5名的准确率，YOLO暗网 -19 我们提出了一个新的分类模型，作为YOLOv2的基础。我们的模型建立了以前的工作，网络设计以及在该领域的共同知识。与VGG模型类似，我们主要使用3×3滤波器，并在每次合并步骤后将通道数量加倍[17]。在网络中网络（NIN）的工作之后，我们使用全局平均池来进行预处理，dictions以及1×1滤波器来压缩3×3卷积之间的特征表示[9]。我们使用批量归一化来稳定训练，加速收敛，PWBWpHBHσ（tybx=σ（tx）+cxσ（txb=σ（t）yy ybw=pwetwb=pethHH更快的R-CNNSSD 512ResNetSSD300Faster R-CNNFast R-CNNR-CNNYolo平均平均精度X7267YoloYOLOv2批量标准？高分辨率分类器卷积的锚箱？新网络？维度前科位置预测？通过？多尺度？高分辨率探测器CCCCCCCCCCCCCCCCCCc CC C CC c CC c CC CCCCCCCCCVOC 2007 mAP63.465.8 69.5 69.2 69.6 74.4 75.476.878.6表2：从YOLO到YOLOv2的路径。大多数列出的设计决策导致mAP的显著增加。两个例外是切换到具有锚框的全卷积网络和使用新网络。切换到锚框风格的方法增加了召回率，而不改变mAP，同时使用新的网络切割计算33%。检测框架火车地图FPS在224×224处，我们在更大的尺寸448处微调我们的网络。快速R-CNN [5]2007年+2012年70.00.5对于这种微调，我们使用上述参数进行训练，更快的R-CNN VGG-162007年+2012年73.27只需要10个epoch，并且以10−3的学习率开始。在更快的R-CNN ResNet[6]2007年+2012年76.45这个更高的分辨率，我们的网络达到了顶级的精度[第十四话]2007年+2012年63.445为76. 5%，前5名的准确率为93。百分之三。SSD300 [11]2007年+2012年74.346检测培训。我们修改了这个网络，SSD500 [11]2007年+2012年76.819通过删除最后一个卷积层来进行保护，YOLOv2288 ×2882007年+2012年69.091增加三个3×3卷积层，1024个文件，YOLOv2352 ×3522007年+2012年73.781每个层后面都有一个最终的1×1卷积层，YOLOv2416 ×4162007年+2012年76.867我们需要检测的输出数量。对于VOC，YOLOv2480 ×4802007年+2012年77.859预测5个盒子，每个盒子有5个坐标，每个盒子YOLOv2544 ×5442007年+2012年78.640box so 125 filters.我们还从最后3×3×512层到倒数第二个卷积层表3：2007年关于《巴黎标准》挥发性有机化合物的检测框架。 YOLOv2比以前的检测方法更快，更准确。它也可以运行在不同的决议，一个简单的权衡速度和准确性之间的差距每个YOLOv2条目实际上都是具有相同权重的相同训练模型，只是以不同的大小进行评估。所有时间信息都在Geforce GTX Titan X（原始，而不是Pascal型号）上。并对模型进行正则化[7]。我们的最终模型称为Darknet-19，有19个卷积层和5个maxpooling层。完整描述见表6。Darknet-19只需要55.8亿次操作就可以处理一张图像，但却达到了72亿次。9%的top-1准确率和91. ImageNet上前5名的准确率为2%分类培训。我们使用随机梯度下降在标准ImageNet1000类分类数据集上训练网络160个epoch，起始学习率为0。1，多项式速率衰减为4的幂，权重衰减为0。0005，动量为0。9使用Darknet神经网络框架[13]。在训练过程中，我们使用标准的数据增强技巧，包括随机裁剪、旋转、色调、饱和度和曝光偏移。如上所述，在我们对图像进行初始训练7268层，以便我们的模型可以使用细粒度特征。我们训练网络160个epoch，起始学习率为10−3，在60和90个epoch时将其除以10。我们使用0的权重衰减。0005，动量为0。9 .第九条。我们使用与YOLO和SSD类似的数据增强，包括随机裁剪、颜色偏移等。我们对COCO和VOC采用相同的培训策略。4. 强我们提出了一种机制，共同训练的classi- fication和检测数据。我们的方法使用标记为检测的图像来学习特定于检测的信息，如边界框坐标预测和对象以及如何对常见对象进行分类。它使用只有类别标签的图像在训练期间，我们混合来自检测和分类数据集的图像。当我们的网络看到标记为检测的图像时，我们可以基于完整的YOLOv2损失函数反向传播。当它看到分类图像时，我们只从架构的分类特定部分反向传播损失。这种方法带来了一些挑战。检测数据集只有公共对象和一般标签，如7269方法数据mAP航空自行车鸟船瓶巴士车猫椅子牛桌子狗马自行车人工厂羊沙发训练器电视快速R-CNN [5]07++12 68.4 82.3 78.4 70.8 52.3 38.7 77.8 71.6 89.3 44.2 73.0 55.0 87.5 80.580.872.035.168.3 65.7 80.4 64.2[15]第十五话07++12 70.4 84.9 79.8 74.3 53.9 49.8 77.5 75.9 88.5 45.6 77.1 55.3 86.9 81.780.979.640.172.6 60.9 81.2 61.5[第十四话]07++12 57.9 77.0 67.2 57.7 38.3 22.7 68.3 55.9 81.4 36.2 60.8 48.5 77.2 72.371.363.528.952.2 54.8 73.9 50.8SSD300 [11]07++12 72.4 85.6 80.1 70.5 57.6 46.2 79.4 76.1 89.2 53.0 77.0 60.8 87.0 83.182.379.445.975.9 69.5 81.9 67.5SSD512 [11]07++12 74.9 87.4 82.3 75.8 59.0 52.6 81.7 81.5 90.0 55.4 79.0 59.8 88.4 84.384.783.350.278.0 66.3 86.3 72.0ResNet [6]07++12 73.8 86.5 81.6 77.2 58.0 51.0 78.6 76.6 93.2 48.6 80.4 59.0 92.1 85.384.880.748.177.3 66.5 84.7 65.6YOLOv254407++12 73.4 86.3 82.0 74.8 59.2 51.8 79.8 76.5 90.6 52.1 78.2 58.5 89.3 82.583.481.349.1 77.2 62.4 83.8 68.7表4：PASCAL VOC 2012测试检测结果。YOLOv 2的性能与最先进的探测器（如带ResNet和SSD 512的Faster R-CNN）不相上下，速度快2 -10倍0.5：0.950.5 0.75S M L1 10 100SM L快速R-CNN [5]火车19.735.9- -一种- -- -- -快速R-CNN[1]火车20.539.9 19.44.1 20.0 35.821.3 29.530.17.3 32.1 52.0[15]第十五话trainval21.942.7- -一种- -- -- -ION [1]火车23.643.2 23.66.4 24.1 38.323.2 32.733.510.1 37.753.6更快的R-CNN[10]trainval24.245.3 23.57.7 26.4 37.123.8 34.034.612.0 38.554.4SSD300 [11]火车35k23.241.2 23.45.3 23.2 39.622.5 33.235.39.6 37.6 56.5SSD512 [11]火车35k26.846.5 27.89.0 28.9 41.924.8 37.5 39.8 14.0 43.5 59.0[第11话]火车35k21.644.0 19.25.0 22.4 35.520.7 31.633.39.8 36.5 54.4表5：COCOtest-dev 2015的结果。表格改编自[11]类型滤波器尺寸/步幅输出卷积323× 3224× 224Maxpool2× 2/2112× 112卷积643× 3112× 112Maxpool2× 2/256× 56卷积1283× 356× 56卷积641× 156× 56卷积1283× 356× 56Maxpool2× 2/228× 28卷积2563× 328× 28卷积1281× 128× 28卷积2563× 328× 28Maxpool2× 2/214× 14卷积5123× 314× 14卷积2561× 114× 14卷积5123× 314× 14卷积2561× 114× 14卷积5123× 314× 14Maxpool2× 2/27× 7卷积10243× 37× 7卷积5121× 17× 7卷积10243× 37× 7卷积5121× 17× 7卷积10243× 37× 7卷积平均池Softmax10001× 1全球7× 71000表6：暗网-19。“狗”或“船”。分类数据集具有更广泛和更深的标签范围。ImageNet有超过一百种狗，包括如果我们想在两个数据集上训练，我们需要一种连贯的方式来合并这些标签。大多数分类方法都在所有可能的类别中使用softmax层来计算最终的概率分布。使用softmax假设类是互斥的。这给合并数据集带来了问题，例如，您不希望合并7270ImageNet和COCO使用这个模型，因为类相反，我们可以使用多标签模型来组合不假设互斥的数据集。这种方法忽略了我们所知道的关于数据的所有结构，例如，所有COCO类都是互斥的。分级分类。ImageNet标签来自WordNet，WordNet是一种语言数据库，用于构建概念及其相关性[12]。在WordNet中，“Norfolk terrier”和“Yorkshire terrier”都是“terrier”的下位词，“terrier”是“hunting dog”的一种，“dog”是“dog”的一种，“dog”是“犬科”的一种，等等。大多数分类方法都假设标签的平面结构，但是对于组合数据集，结构正是我们所需要的。WordNet的结构是一个有向图，而不是一个树，因为语言是复杂的. 例如，我们没有使用完整的图结构，而是通过从ImageNet中的概念构建层次树来简化问题。为了构建这棵树，我们检查了ImageNet中的视觉名词，并查看它们通过WordNet图到根节点（在本例中为“物理对象”）的路径许多synsets只有一条路径通过图，所以首先我们将所有这些路径添加到树中。然后，我们迭代地检查我们留下的概念，并添加尽可能少地增长树的路径。因此，如果一个概念有两条到根的路径，其中一条路径会给树增加三条边，另一条路径只会增加一条边，我们选择较短的路径，最终的结果是WordTree，一个视觉概念的层次模型。为了使用WordTree进行分类，我们预测每个节点的条件概率，7271在给定同义词集合情况下，该同义词集合的每个下位词的能力例如，在Imagenet1k诺福克梗|约克夏梗|贝灵顿梗|梗类）...如果我们想计算一个特定节点的绝对概率因此，如果我们想知道一张照片是否是诺福克梗，我们计算：WordTree1ksoftmaxsoftmaxsoftmaxPr（诺福克梗）=Pr（诺福克梗|梗类）小猎犬|猎狗）* 本文件迟交。. . ∗哺乳动物|Pr（动物）动物|物理对象）为了分类的目的，我们假设图像包含一个对象：Pr（物理对象）= 1。为了验证这种方法，我们训练了Darknet-19模型使用 1000 class ImageNet 构建的 WordTree 为了构建WordTree1k，我们添加了所有中间节点，将标签空间从1000扩展到1369。在训练期间，我们将地面真实值标签传播到树上，使得如果图像被标记为“诺福克梗”，则它也被标记为“狗”和“哺乳动物”等。为了计算条件概率，我们的模型预测了一个1369个值的向量，并且我们计算了所有作为同一概念下义词的sysnset上的softmax，见图5。使用与之前相同的训练参数，我们的Hi-technicalDarknet-19达到71。9%的top-1准确率和90. 前5名的准确率为4%。尽管增加了369个额外的概念，并让我们的网络预测一个树结构，但我们的准确率只略有下降。以这种方式执行分类也具有一些益处。新的或未知的对象类别会使性能适度降低例如，如果网络看到一张狗的照片，但不确定它是什么类型的狗，它仍然会以高置信度预测“狗”，但在下位词中具有较低的置信度该制剂也适用于检测。现在，我们不再假设每个图像都有一个对象，而是使用YOLOv2检测器预测边界框和概率树我们向下遍历树，在每次拆分时都采用最高置信度路径，直到达到某个阈值，然后预测该对象类。图5：ImageNet与WordTree上的预测。大多数Ima-geNet模型使用一个大的softmax来预测概率分布。使用WordTree我们执行多个softmax操作而不是上下义词数据集与WordTree的组合。我们可以使用WordTree将多个数据集以合理的方式组合在一起。我们简单地将数据集中的类别映射到树中的同义词集。图6显示了使用WordTree组合ImageNet和COCO标签WordNet非常多样化，因此我们可以将这种技术用于大多数数据集。联合分类和检测。现在我们可以使用WordTree组合数据集，我们可以在分类和检测方面训练我们的联合模型。我们想要训练一个非常大规模的检测器，所以我们使用COCO检测数据集和ImageNet完整版本中的前9000个类创建了我们的组合数据集。我们还需要评估我们的方法，因此我们添加了ImageNet检测挑战中尚未包含的任何类。这个数据集对应的WordTree有9418个类。ImageNet是一个更大的数据集，所以我们通过对 COCO 进行过采样来平衡数据集，这样ImageNet只会大4：1。使用这个数据集，我们训练YOLO9000。我们使用基本YOLOv2架构，但只有3个先验而不是5个先验来限制输出大小。当我们的网络看到检测图像时，我们会像正常情况一样反向传播损失对于分类损失，我们只在标签的相应级别或以上反向传播损失例如，如果标签是当它看到一个分类图像时，我们只会反向传播分类损失。要做到这一点，我们只需找到预测该类最高概率的绑定框softmax. 9.第九条。八六。softmaxsoftmax.1 .一、三十五57272飞机苹果背包香蕉蝙蝠熊床板凳自行车鸟70斑马尿布0.0单杠0.0橡皮擦0.0太阳镜0.0游泳裤0.0...小熊猫50.7福克斯52.1阿富汗非洲非洲非洲非洲非洲Airedale美国美国22k西葫芦考拉熊54.3猎犬变色龙鳄象灰色猎狗美洲鳄老虎61.0犰狳61.7表7：ImageNet上的YOLO9000最佳和最差类。来自156个弱监督类的具有最高和最低AP的类。YOLO9000学习各种良好的模型，动物，但与新的类，如衣服或设备的斗争5. 结论双平面喷气式空中客车隐形金色马铃薯觉得海美国我们推出YOLOv2和YOLO9000，实时解压缩，战斗机蕨类蕨类蕨类熏衣草双花保护系统。YOLOv2是最先进的，在各种检测中比其他检测系统更图6：使用WordTree层次结构组合数据集。我们-在WordNet概念图中，我们构建了一个vi的层次树，sual概念。然后，我们可以通过将数据集中的类映射到树中的同义词这是WordTree的简化视图，用于说明目的。我们只计算预测树的损失。我们还假设预测框与地面真实标签重叠至少。3IOU，我们基于这个假设反向传播对象损失。通过这种联合训练，YOLO9000学会使用COCO中的检测数据在图像中查找对象，并学会使用ImageNet中的数据对各种各样的对象进行分类。我们在ImageNet检测任务上评估YOLO9000ImageNet的检测任务与COCO共享44个对象类别，这意味着YOLO9000只看到大多数测试类别的分类数据。YOLO9000总体上获得19.7 mAP，其中16.0mAP在不相交的156个对象类上，它从未见过任何标记的检测数据。该 mAP 高于 DPM 获得的结果，但YOLO9000是在仅部分监督的不同数据集上训练的[4]。它还同时检测9000个其他类别，所有这些都是实时的。YOLO9000能很好地学习新的动物种类，但在学习服装和设备等类别时会遇到困难。新的动物更容易学习，因为对象性预测从COCO中的动物中概括得很好。但COCO没有任何类型服装的边界框标签，仅针对个人，因此YOLO9000很难对“太阳镜”或“泳裤”等类别进行建模数据集。此外，它可以运行在各种图像大小，以提供一个平稳的速度和准确性之间的权衡YOLO9000是一个实时框架，通过联合优化检测和分类，检测超过9000个对象类别。我们使用WordTree来结合来自不同来源的数据，并使用我们的联合优化技术在ImageNet和COCO上同时进行训练。YOLO9000是缩小检测和分类之间数据集大小差距的有力一步我们的许多技术都是在对象检测之外推广的。ImageNet的WordTree表示为图像分类提供了更丰富、更详细的输出空间。使用分层分类的数据集组合在分类和分割领域将是有用的。像多尺度训练这样的训练技术可以为各种视觉任务提供益处。对于未来的工作，我们希望使用类似的技术，弱监督图像分割。我们还计划使用更强大的匹配策略来改善我们的检测结果，以便在训练期间将弱标签分配给分类计算机视觉拥有大量的标记数据。我们将继续寻找将不同来源和结构的数据结合在一起的方法，以构建更强大的视觉世界模型。鸣谢：我们要感谢Junyuan Xie对构建WordTree的有益讨论。这项工作得到了ONR N 00014 -13-1-0720、NSFIIS-1338054 、 NSF-1652052 、 NRI-1637479 、 AllenDistin-最佳调查员奖和艾伦人工智能研究所。Coco.....ImageNet.....实体物件WordTree动物伪影自然物体现象猫狗鱼车辆设备植物真菌地面水空气维管植物虎斑波斯车室内植物飞机7273引用[1] S.贝尔角L. Zitnick，K. Bala和R.娘娘腔。内外网：用跳跃池和递归神经网络检测上下文中的对象。arXiv预印本arXiv：1512.04143，2015年。6[2] J. Deng，W.东河，巴西-地索赫尔湖J. Li，K. Li和L.飞飞。Imagenet：一个大规模的分层图像数据库。在计算机视觉和模式识别，2009年。CVPR 2009。IEEE会议，第248-255页。IEEE，2009年。1[3] M.埃弗灵厄姆湖，澳-地凡古尔角，澳-地K.威廉斯，J.Winn和A. 齐瑟曼。 pascal 视觉对象类（ voc ）的挑战。International Journal of Computer Vision，88（2）：3031[4] P. F.费尔岑斯瓦尔布河B. Girshick和D.麦卡莱斯特区别性训练的可变形零件模型，版本 4 。http://people.cs.uchicago.edu/pff/latent-release4/. 8[5] R. B.娘娘腔。快速R-CNN。CoRR，abs/1504.08083，2015。五、六[6] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习arXiv预印本arXiv：1512.03385，2015。二、五、六[7] S. Ioffe和C.赛格迪批次标准化：通过减少内部协变量偏移来加速深度网络训练。 arXiv 预印本 arXiv ：1502.03167，2015。二、五[8] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。在神经信息处理系统的进展，第1097-1105页，2012年。2[9] M.林角，澳-地Chen和S.燕.网络中的网络。arXiv预印本arXiv：1312.4400，2013。4[10] T.- Y. 林，M。迈尔，S。贝隆吉，J.Hays，P.Perona，D.Ra-manan ， P.Dolla'r 和 C.L. 齐特尼克Microsoftcoco：上下文中的通用对象。在欧洲计算机视觉会议上，第740-755页。Springer，2014. 1、6[11] W. Liu，L.安格洛夫，D。埃尔汉角Szegedy和S.E. 里德SSD：单次触发多盒探测器。CoRR，abs/1512.02325，2015。五、六[12] G. A.米勒河贝克维斯角Fellbaum，D.恶心，K。J·米勒wordnet简介：一个联机词汇数据库。国际词典学杂志，3（4）：235-244，1990。6[13] J·雷德蒙Darknet：C语言中的开源神经网络。http://pjreddie.com/darknet/，2013-2016年。5[14] J.雷德蒙，S.迪夫拉河，巴西-地Girshick和A.法哈迪。你只看一次：统一的实时物体检测。arXiv预印本arXiv：1506.02640，2015年。五、六[15] S. Ren，K.赫利河Girshick和J.太阳更快的r-cnn：用区域建议网络进行实时目标检测。arXiv预印本arXiv：1506.01497，2015。二三五六[16]O. 鲁萨科夫斯基Deng，H.Su，J.Krause，S.萨蒂希S.妈Z。Huang，黄背天蛾A.卡帕西A.科斯拉，M。伯恩斯坦A. C. Berg和L.飞飞ImageNet大规模视觉识别挑战。International Journal of Computer Vision（IJCV），2015年。2[17] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。arXiv预印本arXiv：1409.1556，2014。二、四7274[18] C.塞格迪，S。Ioffe和V.范霍克起始-v4，起始-resnet和剩余连接对学习的影响。CoRR，

下载后可阅读完整内容，剩余1页未读，立即下载