改进目标检测器的简单有效学习技术

122 浏览量更新于2023-10-18 收藏 1.82MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1激活的辅助激发一种改进目标检测器Mohammad Mahdi Derakhshani1岁，Saeed Masoudnia1岁，Amir Hossein Shaker1岁，OmidMersa1岁，Mohammad Amin Sadeghi1岁，Mohammad Rastegari2岁，Babak N. 阿拉比11MLCM实验室，德黑兰大学电气和计算机工程系，伊朗德黑兰2艾伦人工智能研究所（AI2）电子邮件：mderakhshani，masoudnia，ah.shaaker，o.mersa，asadeghi，araabi{ @ ut.ac.ir}，mohammadr@allenai.org平均精密度与帧每秒视网膜-101（500x500）Retina-50（800x800）Retina-50YOLOv3+（608x60YOLOv3（608x60YOLOv3+（416x41YOLOv3YOLOv3+（416x416）（320x320）YOLOv2+YOLOv3（544x544）（320x320）更快的R-CNNResNe固态硬盘R-CNNVGG-16固态硬盘YOLOv2（544x54Fast R-CNN帧每秒图1.根据平均精度和速度（每秒帧数）比较不同的目标检测算法。我们的改进（YOLOv2+和YOLOv3+，使用圆圈和粗体字突出显示）在准确性方面优于原始 YOLOv2 和YOLOv3。在速度方面，我们的技术与YOLOv2和YOLOv3相同。我们在三种不同的图像分辨率上评估了YOLOv3+。摘要我们提出了一种简单有效的学习技术，显着提高了mAP的YOLO对象检测器，而不影响其速度。在网络训练期间，我们仔细输入本地化信息。我们激发某些激活，以帮助网络学习更好地定位（图2）。在训练的后期阶段，我们逐渐将辅助激励减少到零。我们在速度-准确性权衡方面达到了一个新的最先进水平（图1）。平等贡献图2.我们提出的辅助激发模块的说明我们在训练过程中手动激发某些激活这些激活有助于改善本地化。我们根据物体的位置激发激活我们将我们的技术应用于YOLO物体探测器。在MSCOCO数据集上，我们的方法使YOLOv2的mAP提高了3.8%，YOLOv3的mAP提高了2.2%。该方法简单有效，适用于大多数单级目标检测器。1. 介绍现代目标检测器使用卷积神经网络[22，29，30]。大多数现代物体探测器分为两类：单级探测器（YOLO [27，28，29]，SSD [24]和Retina-Net [22]）和两阶段检测器（R-CNN [13]和变体[12，30]）。两阶段检测器首先生成一些建议，然后对它们进行分类。相比之下，单级检测器直接从原始图像一次完成检测9201平均精密度（AP）%9202表1.比较YOLO目标探测器的三个版本的架构和特性模型骨干结构检测分辨率检测每个网格YOLOv1Darknet受GoogleNet启发[33]（不含初始模块）和NIN [20]24个卷积层通过2个完全连接的层7 ×7网格2YOLOv2Darknet19受到VGG和NIN的启发[20]FCN [32] 19卷积层和5个最大池步长为32的网格5YOLOv3Darknet53受到ResNet [16]和FPN [21]的具有75个卷积层的无最大池步长为32、16和8的网格3到最后的检测图1根据速度和准确性比较了一些非表对象检测器。YOLO（You Only Look Once）是最成功的物体探测器家族之一。这些探测器由Redmon等人开发。[27，28，29]在三个版本中：YOLOv1（2016）[27]，YOLOv2（2017）[28]和YOLOv3（2018）[29]. YOLO探测器同时具有快速和准确性。它们实时工作并产生高精度检测[25]。虽然YOLO检测器非常成功，但它们面临两个挑战：1-定位困难[27，28，29]，以及2-训练时前景-背景类不平衡[22]。所有版本的YOLO都面临着这些挑战。在最近的工作中，Redmon et al.[29]报告说：“随着IOU阈值的增加，性能显著下降，这表明YOLOv3很难让盒子与物体完美对齐。“由于YOLO同时执行分类和本地化，因此会出现本地化问题。最后一个卷积层通常在语义方面是丰富的这是理想的分类;然而，最后一个卷积层通常在空间上进行定位。因此，与其他成功的目标检测器相比，YOLO产生了更多的定位错误。与两阶段检测器不同，单阶段检测器不会将搜索空间减少到有限数量的候选pro-prone。相反，他们的搜索空间包括大量可能的边界框（大约104到105）。这些边界框大多数是反例，并且大多数反例易于分类。因此，检测器这个问题是由Lin et al.[22]前景-背景类不平衡问题。他们提供了“焦点丢失”，以动态地关注更困难的负面例子。这个损失函数大大提高了检测精度，并产生了一个名为RetinaNet的新模型。Redmon等人[29]研究了YOLOv3的病灶丢失，然而，他们报告说病灶丢失无法改善YOLOv3。1.1. 我们的解决方案概述我们在YOLO中提出了解决这些挑战的解决方案。我们只是改变了这些网络的训练方式我们提出了一种在训练过程中激发网络中某些激活图的技术。我们在推理过程中不改变网络的体系结构，不改变损失函数，也不操纵网络的输入或输出。我们在YOLOv2和YOLOv3检测器的训练上测试我们的技术。在训练的第一个阶段，我们手动激发特征图中的某些激活。然后，在训练的后期，我们逐渐将兴奋水平降低到零。在训练的最后阶段，我们停止了兴奋的激活。因此，网络学习在没有辅助激励的情况下执行检测。这一策略受到课程学习的启发[2];它简化了训练初期的探测和定位任务，并逐渐使任务变得更加困难和现实。我们在特征图中激发对应于对象位置（从地面实况中提取）的激活。当我们激发这些激活时，检测变得更容易，因为我们的模型从地面实况接收反馈。因此，我们认为，这些激励有助于网络1-提高本地化和2-专注于硬否定，而不是容易的否定。我们将我们的方法称为辅助激发（AE），因为我们手动激发激活来辅助训练。我们的技术帮助 YOLOv2 提高了 3 。 8% mAP 和YOLOv3，2. MSCOCO上的2%mAP，没有任何速度损失2. 相关作品YOLO：通过一系列的进步，Redmon等人。[27，28，29]提出了三个版本的YOLO。最新型号的性能与最先进的产品不相上下。此外，YOLO位于速度-准确性权衡的更快一端我们在表1中简要比较了这些版本的YOLO的架构将辅助信息增强到CNN中：将辅助信息引入CNN已被证明在某些应用中是有用的[35，26，3，19，17]。许多研究表明，目标检测和语义分割的联合学习可以改善这两个结果。这些作品分为两类。第一9203(a)（b）（c）（d）图3.我们的辅助激发过程的插图（a）参考图像;（b）用于屏蔽激励的物体边界框图(c)辅助激发层之前的平均激活;（d）辅助激发层之后的平均激活请注意，激发位置对应于对象图。类别[14，6]试图同时执行检测和分割，并提高这两项任务的性能[14，6，8，34，5]。这种组合任务被称为实例感知语义分割。第二类[14，15，10，11，36]旨在通过引入分割特征来提高对象检测。Gidaris和Komodakis [11]在R-CNN模型的最高级别添加了语义分割感知的CNN特征。他们的模型使用辅助分割信息来细化定位。He等人。[15]提出了Mask R-CNN，它扩展了Faster R-CNN [30]。他们添加了一个分支，用于预测与现有检测分支并行的对象分割掩码。Zhang等人[36]通过添加分割分支扩展了基于SSD的对象检测模型。然而，这个分支是由弱分割地面实况（框级分割）训练的，因此不需要额外的注释几个作品[7，4]在行人检测的应用中使用了联合分割和检测的方法。巴西等[4]还提供了基于R-CNN扩展的行人检测和语义分割的多任务学习。在该模型中，基于弱在综述的研究中，我们提出的方法与[4，36]更相关。与他们的方法类似，我们也只在训练期间使用弱分割地面实况，并且模型效率在我们的推理阶段不受影响。另一个相似之处在于，在检测注释中不需要额外的注释，而需要弱虽然以前的研究[4，36]分别基于R-CNN和SSD开发了他们的模型，但我们的模型是建立在YOLO模型之上的。这些研究增加了额外的损失函数的辅助分割层。我们提出的方法不需要额外的计算训练阶段的负担。我们的主要新颖之处在于将地面实况信息纳入CNN的方式。3. 单级探测器在1.1节中，我们描述了YOLO架构面临的两个挑战。在这里，我们更详细地描述它们：1. 本地化问题：为了提高速度，YOLO同时进行定位和分类。YOLO架构的最后几层生成高级特征图。这些特征图是分类的理想选择，因为它们是语义的和高层次的.然而，由于它们在空间上太过粗糙，因此对于定位来说并不理想。YOLOv3试图通过将低级功能（从早期阶段）传递到本地化过程来解决这个问题。不过，雷德蒙等人。我承认三个版本的YOLO都存在本地化问题。2. 前景-背景类不平衡问题：两阶段检测器首先识别有限数量的对象建议，然后对它们进行分类。第一阶段负责大部分本地化任务。因此，第二阶段的搜索空间仅限于具有适当本地化的多个建议。相比之下，单级检测器需要搜索大量可能的边界框（104到105）。这些边界框中的许多都包含一个对象，但大多数包含对象的边界框都没有正确本地化。因此，检测器必须搜索所有这些边界框，并找到最佳定位对象的单个边界框。这个问题由Lin等人描述。[22]他们提出了一个新的损失函数来解决这个问题。Redmon等人[29]检查了YOLOv3的焦点丢失，但是没有成功。9204（c，i，j）我们的技术属于Bengio等人描述的课程学习框架。[2]的文件。课程学习背后的思想是，学习空间是非凸的，学习可能会陷入一个糟糕的局部极小值。他们认为，如果我们先学习更简单的任务，然后继续更复杂的任务，我们在局部最小值和泛化方面的性能会更好。4.1. 使用地面实况的辅助激发辅助激发可以被视为操纵神经激活的网络层我们可以如下描述辅助激励模块l+1（c，i，j）L（c，i，j）+α（t）e（c，i，j）（1）图4.辅助激发层：这一层接受激活张量作为输入。它首先对输入张量中的所有激活图求平均值。然后，它根据对象边界框位置掩蔽结果。激励值乘以激励系数α。结果最终被添加到输入张量的每个通道，并传递到下一层。其中al和al+1是在水平l和l+1处的激活张量。e是激发张量，α是依赖于历元数t的激发因子。此外，（c，i，j）指通道编号、行和列。在训练期间，α（t）在初始时期以非零值开始，并逐渐衰减到零。e是l和地面实况的函数为了计算e，我们首先构造一个边界盒映射g如下：. 1、如果单元格（i，j）中存在bboxg（i，j）=0，如果否 bbox存在于单元格（i，j）。4. 辅助激发过程我们提出了一种技术来应对这些挑战。我们的技术只适用于学习过程。我们既不可以基于不同的策略来应用bbox位置中的激励e直接励磁策略如下：g（i，j）改变网络架构，也不改变检测e（c，i，j）=a（c，i，j）（2）D过程在训练过程中，我们手动激发与对象位置相对应的某些激活。在训练的初始阶段，我们执行这种额外的激励，但是，我们在后面的阶段逐渐将激励水平降低到零，参见图4。在训练的最初阶段，我们的手动激活会提高最佳本地化边界框。这种激活有助于区分最佳的边界框和稍微错位的边界框。当我们在下一个训练阶段降低兴奋水平时，我们的模型继续区分最佳边界框和错误放置的边界框。我们在已知物体存在的位置手动激发激活。我们知道物体存在的地方这种策略激发了每个通道中bbox位置的激活替代策略可以抑制bbox外的位置，使bbox位置的激活相对突出。e（c，i，j）=−（1−g（i，j））a（c，i，j）（3）这两种策略突出了每个通道中bbox位置的独立激活。我们已经尝试了这种激励策略的几个变体。然而，最好性能不是基于这些独立的操作实现的，而是通过所有信道上的BBOX位置的共享信息的激励来实现的在我们的方法中，e（c，i，j）取l的所有通道的平均值。因此，它对所有c值都是相同的。我们计算激发张量e如下：地面实况注释，见图3。地面实况只有在培训期间才知道。因此，我们最终的训练模型不能依赖于地面实况。以来e（c，i，j）=g（i，j）dΣdc=1a（c，i，j）（四）我们在训练的最后阶段停止手动励磁模型学习独立于地面实况工作。然而，在训练的初始阶段，我们的模型依赖于由地面实况指导的手动激励。一=a9205其中d是指特征通道的数量。所有提到的策略都提高了本地化。然而，最后一个策略（等式4）优于其他策略。这些激励引导模型1-改进局部化，2-关注硬否定而不是容易否定。我们称我们提出的方法为辅助激发。α（t）=. 5 ×1 +Cos（π.t）最大迭代次数图4更详细地展示了我们的AE层。（五）9206图5. YOLOv2+架构。YOLOv2架构通过我们新的辅助激发层进行了修改。AE可以在每个阶段结束时添加;我们的实验表明，第四阶段的结束是AE的最佳位置。每个阶段由一系列具有相似分辨率的激活张量组成。例如，假设输入图像大小为480x480。阶段1、阶段2、阶段3、阶段4、阶段5和阶段6分别包含分辨率为240x240、120x120、60x60、30x30和15x15的张量。图6. YOLOv3+架构。受[1]启发的YOLOv3架构增加了辅助激发层。新层将添加到阶段8的末尾。4.2. 推理在推理过程中，α=0，AE层的输出与其输入相同。因此，AE层在推理过程中基本上被去除。在训练的最后阶段因此，我们不使用地面实况信息。在实践中，我们的模型架构在推理过程中与YOLO相同。我们的训练模型与标准YOLO模型的不同之处仅在于模型权重。这有两个主要好处：1. 我们的训练模型是即插即用的。我们可以重复使用为所有设备开发的高度优化的检测器。2. 我们的推理时间与原始YOLO检测器相同，同时我们获得了更好的准确性。4.3. YOLOv2和YOLOv3中的辅助激发我们在YOLOv2和YOLOv3中使用了辅助激发。对于每个探测器，我们进行了消融研究，以检查如果我们在每个阶段放置AE的改善。我们在实验部分报告结果。图5显示了YOLOv2架构中AE的最佳阶段。图6展示了YOLOv3架构中AE的最佳阶段。5. 实验和结果数据集：我们将我们的技术应用于 YOLOv2 和YOLOv3 。我们使用两个基准来评估这些技术：MSCOCO [23]和PASCAL VOC 2007，2012 [9]。与原始YOLO论文[28，29]的约定类似，我们在PASCAL上比较了9207图7.左图：我们提出的方法YOLOv2+和YOLOv3+与其基线YOLOv2和YOLOv3的比较，基于预测大小。如图所示，对象越大，我们获得的改进越多。右：我们提出的方法YOLOv2+和YOLOv3+与其基线YOLOv2和YOLOv3的比较，基于交集超过并集（IoU）阈值。表2.通过YOLOv2+的不同阶段应用AE模块的结果。我们提出的模型显着提高了应用于不同阶段的准确性然而，在所有AP方面的最佳精度在阶段4中实现。方法阶段APAP50AP75YOLOv2-21.644.019.2YOLOv2+（480）阶段224.644.824.6YOLOv2+（480）阶段3254624.9YOLOv2+（480）阶段425.446.925.1表3.YOLOv2+中不同AE策略的结果方法战略APAP50AP75YOLOv2-21.644.019.2YOLOv2+（544）战略在Eq。225.145.825.8YOLOv2+（544）战略在Eq。324.84525YOLOv2+（544）战略在Eq。42647.925.8VOC 2007年、2012年和MSCOCO 2014年。此外，我们还在MSCOCO 2017上比较了YOLOv3+和YOLOv3。此外，我们还在这些数据集上与其他最先进的检测器进行了比较。培训：对于培训，我们根据原始研究中的最佳实践从头开始培训YOLOv2+和YOLOv3+[28，29]。我们使用在IMAGENET数据集上预先训练的Darknet19 [28]和Darknet53 [29]作为骨干。然后，我们使用Adam [18]训练整个架构，初始学习率为10- 5，权重衰减为0。0005，批量为48。9208表4. YOLOv 2+与YOLOv 2和MSCOCO测试dev-set 2015上其他最先进探测器的比较结果。其他方法的结果是改编自。与以前最先进的检测结果相比，我们提出的YOLOv2+在AP的所有方面都实现了更好的准确性方法数据APAP50AP75快速RCNN [12]火车19.735.9-[30]第三十话trainval24.245.323.5SSD512 [24]火车35k26.846.527.8[第28话]第28话火车35k21.644.019.2YOLOv2+（480）火车35k25.446.925.1YOLOv2+（544）火车35k2647.925.8YOLOv2+（608）火车35k2750.9265.1. YOLOv2+为了找出哪一层是我们的辅助激发模块的最佳位置表2列出了在不同阶段使用辅助激发模块的YOLOv2+的准确度当高级激励置于第4级时，AP的所有方面都达到最佳精度。我们还研究了4.1节中讨论的不同激励策略。如表3所示，Eq.4取得了最好的成绩。我们将进一步讨论结果。在下面的实验中，我们使用此配置（阶段4上的AE）作为YOLOv2+的默认配置。基于此设置，我们在MSCOCO测试dev-set 2015上比较了YOLOv 2+与YOLOv 2和其他当前最先进的探测器。结果比较见表4。我们使用不同的方法比较YOLOv2+和YOLOv29209表 5. PASCAL VOC 2007 和 2012 上不同输入分辨率下YOLOv2+与YOLOv2的比较结果。这些结果也与该数据集上的最先进检测器进行了比较。我们提出的模型显着提高了YOLOv2在所有测试分辨率的准确性。YOLOv2+与之前最先进的检测结果相比，也实现了较高的准确性。图像分辨率在PASCAL VOC 2007和VOC 2012上。表4将我们的结果与PASCAL上最先进的作品进行了比较。表5列出了PASCAL VOC 2007和2012中不同分辨率的5.2. YOLOv3+与最初的 YOLOv3 论文 [29] 类似，我们在MSCOCO2017测试开发数据集上进行了几项实验。我们首先报告了我们在YOLOv 3+的不同阶段放置辅助激发模块的消融研究。我们在表6中比较了YOLOv3+与YOLOv3。如结果所示，当辅助激励模块放置在第4级时，实现了最佳性能。在剩下的实验中，我们将AE模块放置在第4阶段。基于此设置，我们还比较了不同的图像分辨率。表7比较了不同输入分辨率下的YOLOv3+和YOLOv3。表8比较了我们提出的YOLOv3+与MSCOCO 2017测试开发集上的最先进检测器。5.3. 定位在定性结果中可以看到定位的改善。图比较了图8. YOLOv2+和YOLOv2预测的视觉比较。如图所示，我们提出的方法（红色边界框）相对于YOLOv2的预测（蓝色边界框）更好地定位对象除了本地化，我们提出的方法增加了真正的正边界框的数量。图9. YOLOv3+和YOLOv3预测的视觉比较。如图所示，我们提出的方法（红色边界框）相对于YOLOv3的预测（蓝色边界框）更好地定位对象我们的实验结果表明，AE技术提高了精度，无论它被放置在什么阶段。此外，我们的实验表明，YOLOv2和YOLOv2+本地化比较图YOLO32和YOLOv3+之间的结果。图7右侧比较了YOLOv2、YOLOv3、YOLOv2+和YOLOv3+的mAP与联合阈值上的交集。图7左边显示了我们的改进率随着对象变大而增加。这些结果以及上述理论分析表明，所提出的技术提高了YOLO的定位能力，特别是在中型和大型物体上。如果AE处于中级阶段，则可以实现在YOLOv2+中，通过将AE置于阶段4（步幅=16）实现最佳性能。这个舞台位于在模型的中间层，包括本地化信息和语义信息。在YOLOv3+中，通过将AE置于第3阶段（步幅=8）来实现最佳性能。这个阶段也位于模型的中间层。由于跳跃连接，该阶段中的激励不仅影响第一检测头，而且影响第二和第三检测头。检测框架火车地图FPSFast R-CNN2007年+2012年70.044.0更快的R-CNN ResNet2007年+2012年76.448.4Yolo2007年+2012年63.426.7SSD5002007年+2012年76.826.7YOLOv2（416）2007年+2012年76.826.7YOLOv2（480）2007年+2012年77.826.79210表6. YOLOv2+与PASCAL VOC 2012上最先进检测器的比较结果。其他探测器的结果改编自[28]。与以前最先进的检测结果相比，我们提出的YOLOv2+在AP的所有方面都实现了更好的准确性。方法地图 Aero 自行车鸟船瓶总线车猫椅子牛表狗马姆比凯人植物羊沙发火车电视Fast R-CNN68.482.3 78.4 70.8 52.338.777.8 71.6 89.3 44.2 73.0 55.0 87.580.580.872.035.168.365.7 80.4 64.2Faster R-CNN70.484.9 79.8 74.3 53.949.877.5 75.9 88.5 45.6 77.1 55.3 86.981.780.979.640.172.660.9 81.2 61.5Yolo57.977.0 67.2 57.7 38.322.768.3 55.9 81.4 36.2 60.8 48.5 77.272.371.363.528.952.254.8 73.9 50.8SSD51274.987.4 82.3 75.8 59.052.681.7 81.5 90.0 55.4 79.0 59.8 88.484.384.783.350.278.066.3 86.3 72.0YOLOv2 54473.486.3 82.0 74.8 59.251.879.8 76.5 90.6 52.1 78.2 58.5 89.382.583.481.349.177.262.4 83.8 68.7YOLOv2+ 544 75.6 87.9 85.1 76.1 62.053.7 81.2 79.2 93.1 53.9 81.1 59.4 90.6 84.785.684.751.479.864.7 86.7 71.3表7.在MSCOCO 2017测试开发集上YOLOv3+的不同阶段应用AE模块的结果。这些结果与原始YOLOv3进行了比较。我们提出的YOLOv3+改进了所有测试阶段的准确性。然而，第3阶段达到了最佳精度。激发阶段阶段APAP50AP75YOLOv3 （608）-33.057.934.4YOLOv3+（608）阶段335.258.438.4YOLOv3+（608）第四阶段35.158.238.4YOLOv3+（608）第五阶段34.256.137.6YOLOv3+（608）第七阶段34.558.037.9YOLOv3+（608）第九阶段33.554.637.1表8.不同输入分辨率下YOLOv3+改善的消融研究方法APAP50AP75YOLOv3 （三百二十）28.247.730.0YOLOv3+（320）29.150.230.8YOLOv3 （416）31.051.034.1YOLOv3+（416）32.053.034.8YOLOv3 （480）31.651.234.5YOLOv3+（480）32.453.035.2YOLOv3 （544）33.151.835.9YOLOv3+（544）33.855.537.36. 讨论激发对象区域还是抑制非对象区域？我们在第3节中讨论了前景-背景类不平衡问题。根据这个问题，我们的大部分搜索空间都是由负面例子组成的。我们在第4.1节中提出了不同的客体激发与非客体抑制策略如果我们抑制非对象区域，我们将影响搜索空间的很大一部分。当我们在训练结束时将课程因素降为零后，网络将需要对搜索空间中的大多数候选者重新评分。相比之下，当我们只激发对象区域时，网络只需要跟踪更少的正面示例。因此，该模型可以更容易地处理这种变化，并产生更好的结果，如表3所示和比较。9211表9.YOLOv3+与MSCOCO 2017测试开发套件上最先进探测器的比较结果其他检测器的结果改编自[29，22]。与之前最先进的检测结果相比，我们提出的YOLOv2+在AP的所有方面都实现了更好的准确性。方法数据APAP50AP75更快的RCNN+火车34.955.737.4[21]第二十一话火车36.259.139.0RetinaNet(800)[22日]火车35k40.861.144.1YOLOv3(608)[29日]火车35k33.057.934.4YOLOv3+（608）火车35k35.258.438.4反向传播过程中会发生什么我们的辅助兴奋模块对背部有影响-传播由于AE放大了某些激活，因此感受野的效果也被放大因此，正样本和错误定位的样本将对训练产生更高的影响（与具有较低影响的简单负样本相反这类似于焦点损失背后的想法。作者表明，增加对正面和反面例子的关注可以提高准确性。课程学习我们的技术类似于课程学习，我们从简单的任务开始，逐步走向更复杂的任务。然而，这里有一个微妙的区别。通过引入越来越难的例子，课程学习从容易到困难。相比之下，我们从简单到困难，首先将地面实况信息注入模型，然后逐渐删除这些信息。换句话说，我们的任务在初始阶段更容易，不是因为例子更容易，而是因为我们帮助提高了正确答案。这一课程学习模式在应用上还有进一步研究的空间适用性我们的技术不仅适用于其他单级探测器，但也有两级探测器。此外，AE模块可以集成在不同的CNN架构中，用于不同的计算机视觉问题，例如，图像分类（细粒度）、分割和合成。9212引用[1] yolo v3有什么新功能？走向数据科学，2018年4月。[2] YoshuaBengio ， Je´romeLouradour ， RonanCollobert ，andJason Weston.课程学习。第26届机器学习国际年会论文集，第41-48页。ACM，2009年。[3] 西蒙·比安科在深度网络中通过特征注入进行大年龄差距人脸验证。Pattern Recognition Letters，90：36[4] Garrick Brazil，Xi Yin，and Xiaoming Liu. 通过同时检测分割照亮行人。arXiv预印本arXiv：1706.08564，2017。[5] 曹佳乐，庞彦伟，李雪龙。用于联合检测和分割的三重监督解码器网络 arXiv 预印本 arXiv ： 1809.09299 ，2018。[6] 戴季峰、何开明、孙建。基于多任务网络级联的实例感知语义分割。在IEEE计算机视觉和模式识别会议论文集，第3150-3158页[7] Xianzhi Du ， Mostafa El-Khamy ， Jungwon Lee ， andLarry Davis. Fused dnn ： A deep neural network fusionapproach to fast and robust pedestrian detection. 计算机视觉应用（WACV），2017年IEEE冬季会议，第953-961页。IEEE，2017年。[8] Nikita Dvornik，Konstantin Shmelkov，Julien Mairal，and Cordelia Schmid. Blitznet：用于场景理解的实时深度网络。在 ICCV 2017-International Conference onComputer Vision，第11页，2017年。[9] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams，John Winn，and Andrew Zisserman.pascal视觉对象类（ voc ）的挑战。 International Journal ofComputer Vision，88（2）：303[10] Sanja Fidler ， Roopheh Mottaghi ， Alan Yuille ， andRaquel Urtasun.自下而上的分割，自上而下的检测。IEEE计算机视觉和模式识别会议论文集，第3294-3301页，2013年[11] 斯派罗·吉达里斯和尼科斯·科莫达基斯基于多区域和语义分割感知cnn模型的目标检测。在IEEE计算机视觉国际会议论文集，第1134-1142页[12] 罗斯·格希克。快速R-CNN。在IEEE计算机视觉国际会议论文集，第1440- 1448页[13] 罗斯湾 Girshick ， Jeff Donahue ， Trevor Darrell ， andJitendra Malik.丰富的功能层次结构，用于准确的对象检测和语义分割。在2014年IEEE计算机视觉和模式识别会议，CVPR 2014，Columbus，OH，USA，2014年6月23-28日，第580-587页，2014年。[14] Bhara thHariharan，PabloArbela' ez，RossGirshick，andJi-tendra Malik.同时检测和分割。欧洲计算机视觉会议，第297-312页。Springer，2014.[15] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick. 面具 R-CNN 。在计算机视觉（ICCV），2017年IEEE国际会议上，第2980IEEE，2017年。[16] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[17] 潘和，黄伟林，何通，朱启乐，乔玉，李晓林。具有区域注意力的单次文本检测器。在IEEE计算机视觉国际会议论文集，第3047-3055页[18] Diederik P. Kingma和Jimmy Ba。Adam：随机最佳化的方法。CoRR，abs/1412.6980，2014。[19] 李宏阳，江晨，卢沪川，池智真。Cnn用于低层特征整合的显著性检测神经计算，226：212[20] Min Lin，Qiang Chen，and Shuicheng Yan.网络中的网络。arXiv预印本arXiv：1312.4400，2013。[21] 放大图片作者：林宗毅，彼得 · 多尔，罗斯 ·B.Girshick，KaimingHe，Bharath Hariharan，and Serge J.贝隆吉用于对象检测的特征金字塔网络。在2017年IEEE计算机视觉和模式识别会议，CVPR 2017，檀香山，HI，美国，2017年7月21日至26日，第936[22] 放大图片创作者：林宗毅， Priya Goyal ， Ross B.Girshick，Kaiming He，andP i otrDoll a'r. 密集目标检测的焦面损失。在IEEE国际计算机视觉会议，ICCV2017，意大利威尼斯，2017年10月22日至29日，第2999[23] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。欧洲计算机视觉会议，第740-755页。Springer，2014.[24] Wei Liu ， Dragomir Anguelov ， Dumitru Erhan ，Christian Szegedy ， Scott Reed ， Cheng-Yang Fu ， andAlexander C Berg. Ssd：单发多盒探测器。欧洲计算机视觉会议，第21施普林格，2016年。[25] Ajeet Ram Pathak ， Manjusha Pandey 和 SiddharthRautaray。用于从图像中检测对象的深度学习方法：审查 . In Prasant Kumar Pattnaik ， Sid- dharth SwarupRautaray ， Himansu Das ， and Janmenjoy Nayak ，editors ， Progress in Computing ， Analytics and Net-working，pages 491-499，Singapore，2018.斯普林格新加坡。[26] Nazneen Fatema Rajani和Raymond J Mooney。具有辅助特征的堆叠。第26届国际人工智能联合会议论文集，第2634-2640页。AAAI Press，2017.[27] 放大图片作者： Joseph Redmon ， Santosh KumarDivvala，Ross B. Girshick和Ali Farhadi你只看一次：统一的实时物体检测。在2016年IEEE计算机视觉和模式识别会议上，CVPR 2016，拉斯维加斯，NV，美国，2016年6月27-30日，第779-788页[28] 约瑟夫·雷德蒙和阿里·法哈迪YOLO9000：更好、更快、更强。在2017年IEEE计算机视觉和模式识别会议上，CVPR 2017，檀香山，HI，美国，2017年日，第6517-6525页[29] 约瑟夫·雷德蒙和阿里·法哈迪Yolov3：一个渐进的改9213进。CoRR，abs/1804.02767，2018。9214[30] 任少卿，何开明，Ross B.Girshick和Jian Sun。更快的R-CNN：朝向利用区域建议网络的实时对象检测。在神经信息处理系统的进展28：2015年神经信息处理系统年会，2015年12月7-12日，加拿大魁北克省蒙特利尔，第91-99页，2015年。[31] Karen Simonyan和Andrew Zisserman用于大规模图像识别的非常深的卷积网络。 arXiv 预印本 arXiv ：1409.1556，2014。[32] Jost Tobias Springenberg、Alexey Dosovitskiy、ThomasBrox和Martin Riedmiller。追求简单：全卷积网。arXiv预印本arXiv：1412.6806，2014。[33] Christian Szegedy ， Wei Liu ， Yangqing Jia ， PierreSermanet ， Scott Reed ， Dragomir Anguelov ， DumitruErhan，Vincent Vanhoucke，and Andrew Rabinovich.更深的回旋。在IEEE计算机视觉和模式识别会议论文集，第1-9页[34] Marvin Teichmann，Michael Weber，Marius Zoellner，Roberto Cipolla，and Raquel Urtasun. Multinet：自动驾驶的实时联合语义推理。2018年IEEE智能车辆研讨会（IV），第1

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

改进目标检测器的简单有效学习技术

目标检测改进点.pdf

基于深度学习的目标检测算法.pdf

yolov7改进:多头检测器助力小目标检测,实现暴力涨点

目标检测改进模型的思路

基于深度学习的水面目标检测技术研究

目标检测 机器学习 深度学习的关系

深度学习的目标检测技术

YOLOv5的目标检测算法的模型设计技术改进过程

国外基于深度学习的车辆目标检测的研究现状

传统目标检测算法与深度学习目标检测算法的区别

一种基于gabor深度学习的无人机目标检测算法

学习目标检测模型的收获

目标检测yolo改进指南

yolov8改进小目标检测

深度学习对目标检测技术的加持

matlab深度学习目标检测

深度学习目标检测的特点

深度学习目标检测 pdf

目标检测领域前沿技术

yolov7小目标检测改进

最新资源

目标检测机器学习深度学习的关系