没有合适的资源?快使用搜索试试~ 我知道了~
联合检测和分割的框架TripleNet在多任务学习中取得优异性能
pto11D D D D DSSSS S用于联合检测和分割的曹佳乐1,庞彦伟1,李雪龙21天津大学2西北工业大学光学图像分析与学习中心网址:connor@tju.edu.cn,pyw@tju.edu.cn,网址:www.example.com,li@nwpu.edu.cn摘要联合目标检测和语义分割在自动驾驶汽车等许多领域都是必不可少的姓名首字母缩写-D D D D DDSS实现这一目标的诱惑是简单地共享一个用于多任务学习的网络。我们认为,它没有充分利用的事实,即检测和分割是互利的。在本文中,我们提出了一个名为TripleNet的框架来深入推进这两项任务。一方面,为了在不同尺度上深度连接这两个任务,在解码器的每一层上施加包括面向检测的监督和类感知/不可知分割监督的三重类不可知分割提供了一个对象之前,检测和分割。另一方面,为了进一步交叉两个任务并细化每个尺度中的特征,两个轻量级模块(即,内部连接模块和注意力跳层融合)被合并。由于在测试阶段不对每个解码器层执行分段监督,并且增加的两个模块是轻量级的,因此所提出的在VOC 2007/2012和COCO数据集上的实验表明,TripleNet在两个任务中的性能都优于所有其他一阶段方法(例如,VOC 2012上81.9% mAP 和 83.3% mIoU , COCO 上 37.1% mAP 和59.6% mIoU一个单一的网络。. 介绍目标检测和语义分割是计算机视觉领域的两个大多数现有技术的方法仅仅集中于一个单一任务(即,对象检测[42,31,28,4]或语义分割[24,45,14,18])。然而,同时的对象检测和语义分割在许多应用中是非常重要的,例如自动驾驶汽车和无人水面船只。因此,联合检测和分割是必要的,因为简单地使用两个最先进的网络进行检测和分割是低效和耗时的。此外,对象检测和语义分割(a) 朴素联合网络(b)精细联合网络(c)Blitznet(d) 我们的PairNet图1.联合目标检测和语义分割的体系结构。(a)用于检测和分割的两个分支被添加到最后一个编码器层[2]。(b)用于检测的分支由用于分割的分支细化[35,53]。(c)解码器的每一层检测不同尺度的对象,融合多尺度特征的层用于分割[8]。(d)我们提议的配对网络。解码器的每一层同时用于检测和分割。(e)我们提出的TripleNet,它有三种类型的监督和两个轻量级模块。在推理过程中,只使用灰色矩形中的分割。是高度相关的。一方面,用作多任务监督的语义分割可以为对象检测提供上下文信息和语义特征[35,25]。另一方面,对象检测可以用作对象先验知识,以帮助提高语义分割的性能[14,40,39]。由于应用需求和任务相关性,联合目标检测和语义分割是非常必要的,因此受到了研究者的关注图1总结了联合检测和分割的三种典型架构。图1(a)显示了最简单的方法,其中对象检测和语义分割的两个分支并行连接到编码器的最后一层[2]。在图1(b)中,通过语义分割分支的特征进一步细化了对象检测分支[35,53]。近年来,进一步提出了采用编解码器网络进行联合检测和分割.在图1(c)中,解码器的每一层用于多尺度对象检测,并且级联7392DSD DDS SSSS ssSSSS(e)我们的TripleNetDD7393来自解码器的不同层的特征图用于语义分割[8]。上述方法在检测和分割方面取得了很大的成功但是,其性能与实际应用的严格要求仍有很大差距我们认为,这些方法只是共享一个单一的网络进行多任务学习,并没有充分利用两个任务之间的互利。为了深入挖掘联合对象检测和语义分割的共同利益,我们在本文中提出了一个名为TripleNet的新框架(见图1)。第1段(e)分段)。一方面,要在不同尺度上深度衔接两项工作面向检测的监督、类感知/不可知分段监督)被施加在解码器网络的每一层另一方面,为了进一步交叉两个相关任务并细化解码器特征,可以使用两个轻量级模块(即,内连接模块和注意力跳跃层融合)。作为TripleNet的简化版本,图中的PairNet1(d),它只对解码器的每一层施加最后,本文的贡献可以总结如下:(1) 两个新的框架(即,PairNet和TripleNet)被提出来深度连接检测和分割。 在TripleNet中,面向检测的监督和类感知/不可知分割监督被施加在解码器的每一层上。同时,两个轻型模块(即,内连接模块和注意力跳过层融合)也被结合在每个解码器层中。(2) 在准确性和速度的协同作用一方面,检测和分割的准确性都得到了显著提高。另一方面,TripleNet可以以实时速度运行,因为这种改进不是以额外的计算成本为代价的。(3) 在VOC 2007,VOC 2012和COCO数据集上的实验证明了所提出的TripleNet的有效性和效率。例如,使用单个网络,它在VOC 2012上实现了81.9%的mAP和83.3%的mIoU,而无需COCO预训练,速度为16fps。2. 相关作品目标检测目标检测的目的是对图像中的目标进行分类和定位。一般来说,这些方法可以分为两大类:两步法和一步法。两阶段方法首先从图像中提取一些候选对象建议,然后将这些建议分类到特定的对象类别。R-CNN [12]及 其 变 体 ( 例 如 , Fast RCNN [11] 和 Faster RCNN[42])是两阶段方法中最具代表性的框架基于R-CNN系列,研究人员做了许多改进[7,27,3]。为了加快检测速度,Dai等人 [7]提出了R-FCN,它使用位置敏感的特征图进行建议分类和边界框回归分析为了输出具有强语义的多尺度特征图,Lin etal. [27]提出了基于跳层连接和自顶向下路径的特征金字塔网络(FPN)。最近,Cai et al. [3]训练了一系列具有增加IoU阈值的检测器,以提高检测质量。单阶段方法直接预测单个网络中的对象类和边界框YOLO [41]和SSD[31]是两种最早的一步法在此之后,提出了许多变体[10,23,44,55,37]。DSSD [10]和RON [23]使用编码器-解码器网络来添加多尺度对象检测的上下文信息。为了从头开始训练对象检测器,DSOD [44]使用SSD上的STDN [55]没有使用不同分辨率的网络内特征图进行多尺度对象检测,而是使用尺度可转移模块来基于最后一层生成不同的高分辨率特征图。为了解决类别不平衡,RetinaNet [28]引入了焦点损失来降低简单样本的贡献。语义分割它的目的是预测图像中每个像素的语义标签,这已经与全卷积网络(即,FCN [34])。通常,语义分割的方法也可以分为两大类:编码器-解码器方法和空间金字塔方法。编码器-解码器方法包含两个子网络:编码器子网络和解码器子网络。编码器子网络提取强语义特征并降低特征图的空间分辨率,这通常基于深度CNN模型(例如,VGG [45],ResNet [16],DenseNet [18])在ImageNet [43]上预训练。解码器子网络逐渐上采样编码器子网络的特征图。例如,DeconvNet [36]和SegNet[1]使用最大池化索引对特征映射进行上采样。为了提取上下文信息,一些方法[38,26,50]采用跳层连接来组合编码器和解码器子网络的特征图。空间金字塔方法采用空间金字塔池化的思想[15]从最后一层的特征图中提取多尺度信息。Chen等人。[5,6,47,48]提出并行使用不同atrous速率的多个卷积层(称为ASPP)来提取多尺度特征。Zhao等人 [54]提出了金字塔池化模块(称为PSPnet),而不是使用不同速率的卷积层Yang等人 [48]提出使用密集连接来密集覆盖对象尺度范围。联合目标检测和语义分割旨在同时检测对象和预测像素se,Mantic标签由一个单一的网络。最近,研究人员做了一些尝试。Yao等人 [49]提出使用图形模型来理解整体场景。Te- ichmann等人。 [46]提出将对象检测和7394detdet det det detdet检测输入图像F跳层融合res2res1conv1res3 Res4Res5res6f f ff fres7seg seg seg segseg分割(a) PairNet(b)跳层融合图2.提出了用于联合对象检测和语义分割的PairNet。(a)PairNet的详细架构。解码器的每一层同时用于检测和分割。(b)PairNet中使用的跳层融合。请注意,在推理过程中,只有灰色矩形中的分割用于最终分割。通过共享编码器子网络来实现语义分割。Kokkinos [21]提出将多个视觉任务整合在一起。在[35,2]中,发现联合语义分割和行人检测可以帮助检测。同时,提出了联合实例语义分割和对象检测[40,39]。 Dvornik等人。 [8]提出了一个用于联合对象检测和语义分割的实时框架(BlitzNet)。与BlitzNet相比,该方法在每个解码器层通过三重监督(检测监督和类感知/不可知分割监督)将两个任务深度连接起来。最近,panoptic分割[19]被进一步提出,这确实是完整的。但是方法(例如,Mask-RCNN [14]和PanopticFPN [20])通常具有沉重的ROI头和繁琐的后处理,这相对耗时。联合检测和分割相对简单,这对于一些实时应用(例如,自动驾驶中的汽车检测和道路因此,本文在联合目标检测和语义分割方面做了进一步的探索。3. 所提出的方法近年来,具有编码器-解码器结构的全卷积网络(FCN [34])在对象检测[28,10]和语义分割[1]方面取得了例如,DSSD [10,40]和Reti- naNet [28]使用解码器的不同层来检测不同尺度的对象。通过使用编码器-解码器结构,SegNet [1]和LargeKernel [38]生成用于语义分割的高分辨率logit。基于上述观察,一个非常自然和简单的想法是,具有编码器-解码器的FCN适合于联合对象检测和语义分割。基于具有编码器-解码器的FCN,成对的超视解码器网络(即,PairNet)和三重监督解码器网络(即,TripleNet)用于关节对象de-并提出了语义分割的方法。3.1. 成对监督解码器网络(PairNet)基于编码器-解码器结构,首先提出了一个非常简单的PairNet。在每个解码器层添加检测和分割的监督,以指导不同尺度的特征学习。一方面,Pair- Net使用解码器的不同层来检测不同尺度的对象。另一方面,PairNet使用解码器的每一层分别解析像素语义标签,而不是使用最后一个高分辨率层进行语义分割,这是大多数最先进的方法所采用的[1,38]虽然提出的PairNet非常简单和幼稚,但据我们所知,它还没有被探索用于联合对象图2(a)给出了PairNet的详细架构。输入图像首先通过具有编码器-解码器结构的全卷积网络。编码器逐渐地对特征图进行下采样。在本文中,ResNet[16] (i.e. 、 RES 1-RES 4 ) 和 一 些 新 添 加 的 残 差 块(即,res 5-res 7)构造编码器。解码器将低分辨率特征图逐渐映射到高分辨率特征图。为了增强上下文信息,使用跳层融合来组合来自解码器的特征图和来自编码器的对应特征图。图2(b)给出了跳层融合的示意图。解码器中的特征图首先通过双线性插值进行上采样,然后与编码器中相同分辨率的对应特征图级联之后,连接的特征图经过残差单元以生成输出特征图。为了结合对象检测和语义分割,解码器的每一层被分成两个不同的分支。的对象检测的分支由一个3× 3卷积层和两个兄弟1× 1卷积层组成, 树枝在不同的层上的目标检测被用于检测不同尺度的目标。 具体来说,前面1x1,512特征图编码器解码器特征图segF1x1,512总和3x3,1281x1,128concat上采样7395内连通模级联输入图像(a) TripleNet图3.提出的TripleNet用于联合对象检测和语义分割。(a)TripleNet的详细架构。(b)内部连接模块。(c)注意跳层融合。黄色矩形表示与类别无关的分割监督,灰色矩形中的分割是推理过程中的最终分割。具有低分辨率映射的解码器层用于检测大尺度对象,而具有高分辨率映射的后一层的分支用于检测小尺度对象。语义分割的分支由一个3× 3卷积层以生成logit。有两个不同的-生成logits的方法很多。第一种是分段logit被上采样到与地面实况相同的分辨率,第二种是地面实况被下采样到与logit相同的分辨率。我们发现第一种策略的性能稍好,采用如下。3.2. 三重监督解码器网络(TripleNet)为了更好地利用这两个任务之间的互补性,进一步提出了三重监督解码器网络(一方面,为了在不同尺度上深度连接两个任务,在解码器的每一层上添加面向检测的另一方面,为了进一步交叉这两个任务,并细化每个解码器层的特征,提出了内部连接模块和注意 力 跳 层 融 合 图 3 ( a ) 给 出 了 TripleNet 的 详 细 与PairNet相比,TripleNet增加了一些新的模块,如下所示。多尺度融合分割在[8,54,5]中,已经证明多尺度特征可以提取用于语义分割的上下文信息。为了使用多尺度特征进行更好的语义分割,解码器中不同层的特征图经过3×3卷积层进行通道缩减。输出的特征图被上采样到相同的空间分辨率并被合并在一起。然后,使用3×3卷积层与来自解码器的一层的特征相比,多尺度融合特征更好地利用了上下文信息。因此,多-尺度融合分割用于推理期间的最终预测。同时,解码器的每一层上的语义分割可以被看作是对特征学习的深度监督。内部连通模块PairNet只共享解码器的每一层进行检测和分割,而PairNet每一层中的检测和分割分支为了进一步交叉这两个任务,提出了一个内部连接的模块。图3(b)示出了层i中的内部连接模块。第i层中的特征图首先经过3× 3卷积层,语义分离分支的分割逻辑同时,分割logit进一步经过两个3 × 3卷积层以生成新的特征图,该新的特征图与第i层中的特征图级联。基于级联的特征图,使用3 ×3卷积层来生成特征图,物体检测的分支。上面提到的语义分割是类感知的,其目的是同时识别特定的对象类别和背景。我们认为,类感知的语义分割可能会忽略对象和背景之间的歧视。因此,类不可知的分割监督被进一步添加到解码器的每一层。具体-在逻辑上,使用3× 3卷积层来生成类无关语义分割的logits。完成网站在地面实况中,所有对象被设置为一个类别,而背景被设置为另一个类别。在第3.1节中,PairNet简单地融合了解码器和编码器的特征图。通常,来自编码器层的特征具有相对低级的语义,而来自解码器层的特征具有相对高级的语义。为了增强信息特征并抑制不太有用的特征,det det det det检测FFFFFres7 Rres4res5res6塞格RRRres3R分割res2s1conv1segsegRsegCsegsegsegsegsegsegsegsegredet(b)内连模环编码器特征图解码器(c)注意力跳层融合特征图1x1,512SEregCLS检测logits分割解码器特征图总和1x1,5121x1,211x1,843x3,1281x1,128concat3x3,256concat3x3,1281x1,5123x3,483x3,512上采样3x3,217396方法骨干输入大小det赛格费恩赛格阿尔MFSICCASASF地图Miou(a)仅检测ResNet50300×300✓78.0N/A(b)仅细分细层ResNet50300×300✓N/A72.5(c)仅分割所有图层ResNet50300×300✓N/A72.9(d)PairNetResNet50300×300✓✓78.973.1(e)添加MFSResNet50300×300✓✓✓79.073.5(f)添加MFS和ICResNet50300×300✓✓✓✓79.573.6(g)添加MFS、IC和CASResNet50300×300✓✓✓✓✓79.774.4(h)TripleNetResNet50300×300✓✓✓✓✓✓80.074.8(i)TripleNetResNet50512×512✓✓✓✓✓✓83.277.3(j)TripleNet†ResNet50512×512✓✓✓✓✓✓87.379.6(k)TripleNet†ResNet101512×512✓✓✓✓✓✓88.180.4表1.VoC 2012-val-seg装置上的PairNet和TripleNet消融实验主干是ResNet 50或ResNet 101 [16],输入图像为300×300或512×512。†表示VOC 2007用于培训。编码器由解码器,图中的挤压和激励(SE)[17]块。3(c)已纳入。SE块的输入是来自解码器的特征图,并且SE块的输出用于缩放来自编码器的特征图。然后,将来自编码器和解码器层的特征图连接起来,作为PairNet进行跳层融合。4. 实验4.1. 数据集和评价为了证明所提出的方法的有效性和效率,并与一些最先进的方法进行比较,在著名的VOC 2007,VOC2012 [9]和COCO [29]数据集上进行PASCAL VOC挑战赛[9]自2006年以来每年举行一图像分类、对象检测和语义分割)。在这些年度挑战中,VOC 2007和VOC 2012数据集通常用于评估对象检测和语义分割的性能,其中有20个对象类别。VOC2007数据集包含5011个训练图像和4952个测试图像。VOC 2012数据集分为三个子集(即,训练、验证和测试)。训练集包含5717张用于检测的图像和1464张用于分割的图像(称为VOC 12-train-seg)。val集包含5823张用于检测的图像和1449张用于分割的图像(称为VOC 12-val-seg)。测试集包含10991张用于检测的图像和1456张用于分割的图像。为了扩大语义分割的训练数据,使用[13]提供的增强分割数据,其中包含10582个训练图像(称为VOC 12-trainaug-seg)。COCO基准测试[29]是一个用于对象检测、实例分割和图像捕获的大规模数据集,它有80个对象类别。它通常分为三个子集(即,trainval35k、minival和test)。trainval35k集包含大约115k个图像,Minival集包含5k图像,而Test集包含约20k图像。通常,trainval35k集用于训练,minival集用于验证实验,测试集用于与最先进的方法进行比较对于语义分割,通过为属于相同类别的对象分配相同的语义标签来生成地面真值。对于对象检测,平均平均精度(即,mAP)用于性能评估。在VOC数据集上,mAP是在IoU阈值0.5下计算的。在COCO基准测试中,mAP是通过在IoU阈值05:0.95上取平均值来对于语义分割,平均交集超过并集(即,mIoU)用于性能评估。4.2. VOC 2012数据集上的消融实验在PASCAL VOC 2012上进行了实验,验证了该方法的有效性. VOC 12-trainaug-seg的集合用于训练,而VOC 12-val-seg的集合用于性能评估。输入图像被重新缩放为300× 300的大小,小批量的大小为32。训练阶段的总迭代次数为40k,初始学习率为0.0001。在25k和35k迭代时,学习率下降了10倍。表1的顶部显示了PairNet的消融实验。当解码器的不同层仅用于多尺度对象检测时(即,表1(a))中,物体检测的mAP为78.0%。当解码器的精细层用于语义分割(即,表1(b)),语义分割的mIoU为72.5%。当解码器的所有不同层都用于联合对象检测和语义分割时(即,表1(d)),PairNet的mAP和mIoU分别为78.9%和73.1%。也就是说,PairNet可以提高检测和分割的性能,这表明在解码器的每一层上进行联合检测和分割是有用的。7397仅分段检测的GT(表1(a))仅分段(表1(b))我们的PairNet(表1(d))我们的TripleNet(表1(h))(a)检测和分割都得到了改善(b)检测改进(c)分割改进图4.表1中的方法的检测或分割结果(即, (a)证明了PairNet和TripleNet都可以改进检测和分割。(b)表明检测主要是通过PairNet或TripleNet改进的。(c)表明分割主要是由PairNet或TripleNet改进的。同时,使用解码器的所有不同层进行分割的方法(即,表1(c))比仅使用解码器的最后一层进行分段的方法(即,表1(b))。原因是使用解码器的所有层进行语义分割为特征学习提供了更深层次的监督。TripleNet表1的介质部分显示TripleNet的烧蚀实验。在PairNet的基础上,TripleNet增加了四个模块(即,MFS 、 IC 、 CAS 和 ASF ) 。 当 添 加 MFS 模 块 时 ,TripleNet在检测方面优于PairNet 0.1%,在分割方面优于PairNet0.4%当添加MFS和IC模块时,TripleNet在检测方 面优 于 PairNet 0.6%,在 分割 方面 优于 PairNet0.5%。当添加所有四个模块时,TripleNet在检测和性能方面都具有最佳性能,优于基线(即,表1(a)和(b)),在对象检测上减少2.0%,在语义分割上减少2.3%。更大的输入和更多的数据表1的底部显示了更大的输入大小和更多的训练数据的影响可以看出,对于较大的输入大小(即,512× 512)和更多的训练数据(即,添加VOC 2007数据集),TripleNet可以进一步提高目标检测和语义分割的性能例如,具有更多额外训练数据的TripleNet512在ob上实现了88.1%的mAP。在语义分割上,对象检测和80.4%的mIoU。定性结果图4示出了表1中的一些方法的检测和分割结果。前两列是对象检测和语义分割的基础事实。仅检测的结果(即,表1(a)中的“仅det”)和仅分段(即,表1(b)中的“仅seg”)在第三和第四列中示出。表1(d)中的PairNet和表1(h)中的TripleNet的结果在图4(a)中,给出了由PairNet或TripleNet改进的检测和分割的例子。例如,在第一行中, 在图4(b)中,示出了改进的对象检测的示例。“只探测”只能 探 测 到 一 艘 船 , PairNet 可 以 探 测 到 三 艘 船 ,TripleNet可以探测到四艘船。在图4(c)中,示出了改进的语义分割的示例。“only seg” recognizes the bluebag as a motorbike, while PairNet and TripleNet correctlyclassify the blue bag into the特征可视化图5进一步可视化了表1中的方法的特征图(即,“only det”, “only seg”, 关于目标检测和语义分割-7398输入GT的seg图5.表1中的方法的特征可视化(即,“only det”、“only seg”和TripleNet)。对于检测,选择对象被检测到的最大响应值的前9个特征图。对于分割,示出了对应对象类别的特征图。7399方法骨干输入大小APAP50AP75APsAPmAPlSSD512 [31]VGG16512× 51228.848.530.310.931.843.5DSSD 512 [10]ResNet101512× 51233.253.335.213.035.451.1STDN 512 [55]VGG16512× 51231.851.033.614.436.143.4DES512 [53]VGG16512× 51232.853.234.613.936.047.6[28]第二十八话ResNet101500× 50034.453.136.814.738.549.1[52]第五十二话ResNet101512× 51236.457.539.516.639.951.4RFBNet512 [30]VGG16512× 51234.455.736.417.637.047.6DFPR512 [22]ResNet101512× 51234.654.337.314.738.151.9TripleNet512ResNet50512× 51235.957.838.017.737.250.7TripleNet512ResNet101512× 51237.459.339.618.539.052.7表5.COCO测试开发集上单阶段方法的检测结果所有方法均基于单尺度试验。908580757065604 8 16 32帧每秒图6.VOC 2012测试集上的接头性能速度方法骨干APAP50AP75Miou[8]第八话ResNet5034.155.135.953.5TripleNet512ResNet5036.057.737.858.3TripleNet512ResNet10137.158.739.459.6表6. COCOminival测试中联合目标检测和语义分割的比较。心理状态(2)提出的TripleNet和BlitzNet都输出对象检测和语义分割的结果。TripleNet在对象检测上比BlitzNet高出2.9%,在语义分割上高出7.3%。速度基于表4,还可以看出TripleNet可以同时输出检测和分割结果,而无需太多额外的计算成本。具体来说,TripleNet以实时速度(14- 16 fps)运行图图6进一步绘制了VOC 2012测试集上的接头性能和速度联合性能定义为目标检测和语义分割的平均性能。与BlitzNet相比,TripleNet具有更高的联合性能,而额外的计算成本很少。4.4. COCO基准测试在本节中,进一步进行了具有挑战性的COCO基准测试[29]的实验。具体而言是训练数据是TrainVal35k集合。输入图像为512×512。总迭代次数为700k,初始学习率为0.0001。学习率在400k和550k迭代时,10. 表5比较了COCO测试开发集上一些单阶段和最先进方法的检测结果TripleNet512与ResNet101 [16]实现了37.4%的mAP,优于所有其他最先进的方法。例如,基于深度ResNet 101 [16],TripleNet 512的性能优于DFPR 512 [22] 2.8%,优于RF-BNet 512 [30] 3.0%。同时,TripleNet与BlitzNet [8]在COCOminival集上进行了比较,用于表6中的联合对象检测和语义分割。基于相对较小的ResNet50 [16],TripleNet512在检测上具有36.0%的mAP,在分割上具有58.3%的mIoU,而BlitzNet[8]检出率为34.1%AP,分割率为53.5%mIoU。也就是说,所提出的TripleNet在对象检测方面优于BlitzNet [8]1.9%,在语义分割方面优于BlitzNet [8] 4.8%。通过更深入的ResNet101,TripleNet可以进一步提高检测性能和分割性能。5. 结论在本文中,我们提出了两个完全卷积网络(即,PairNet和TripleNet)进行联合对象检测和语义分割。PairNet通过不同的层同时预测不同尺度的对象,并通过所有不同的层解析像素语义标签。为了进一步利用检测和分割之间的互惠互利,TripleNet在PairNet中增加了四个模块(即多尺度融合分割,内部连接模块,类别不可知的分割监督和注意力跳层融合)实验表明,TripleNet可以在实时速度下实现对象检测和语义分割的最先进性能。6. 致谢国家自然科学基金(No. 61632018)、创新人才博士后计划(No. BX 20180214)、中国博士后科学基金(No. 2018M641647)和诺基亚。77.3%/19fps BlitzNet51281.4%/16fps TripleNet51282.6%/14fps TripleNet512−Res101联演7400引用[1] V.巴德里纳拉亚南,A. Kendall和R.西波拉Segnet:用于图 像 分 割 的 深 度 卷 积 编 码 器 - 解 码 器 架 构 。 IEEETransactionsonPatternAnalysisandMachineIntelligence,39(12):2481[2] G.巴西,X. Yin和X。刘某通过同时检测分割照亮行人。Proc. IEEE国际计算机视觉会议,2017。[3] Z. Cai和N.瓦斯康塞洛斯Cascade r-cnn:深入研究高质量的对象检测。IEEE计算机视觉和模式识别会议,2018年。[4] J. Cao,Y. Pang和X.李学习多层通道特征用于行人检测。IEEE Transactions on Image Processing,26(7):3210[5] L- C. Chen,G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。Deeplab:使用深度卷积网络、atrous卷积和完全连接的crfs进行语义图像分割。IEEE Transactionson Pattern Analysis and Machine Intelligence,40(4):834[6] L- C. Chen,G.帕潘德里欧F. Schroff和H. Adam.重新思考语义图像分割的无环卷积。arXiv:1706.05587,2017。[7] J.戴,Y. Li,K. He和J. Sun. R-fcn:通过基于区域的全卷积网络的目标检测。神经信息处理系统进展,2016。[8] N. Dvornik , K. Shmelkov , J. Mairal 和 C. 施 密 特Blitznet : 用 于 场 景 理 解 的 实 时 深 度 网 络 。 IEEEInternational Conference on Computer Vision,2017。[9] M.埃弗灵厄姆湖,澳-地V. Gool,C. K.威廉斯,J. Winn和A. 齐 瑟 曼 。 pascal 视 觉 对 象 类 ( voc ) 的 挑 战 。International Journal of Computer Vision,88(2):303[10] C.- Y. 傅,W.Liu,中国粘蝇A.Ranga、黑腹拟步行虫A.Tyagi和A.C. 伯格。Dssd:解卷积单次激发探测器。arXiv:1701.06659,2017。[11] R. 娘 娘 腔 。 快 速 R-CNN 。 Proc. IEEE InternationalConference on Computer Vision,2015.[12] R.格希克,J。多纳休,T. Darrell和J.马利克丰富的特征层次结构,用于准确的对象检测和语义分割。IEEE计算机视觉和模式识别会议,2014年。[13] B. 哈里哈兰山口阿贝湖。 Bourd ev,S. Maji和J. 马力。从 反 向 检 测 器 的 语 义 轮 廓 。 IEEE InternationalConference on Computer Vision,2011。[14] K. 他,G. Gkioxari,P. Doll a'r 和R. 娘娘腔。 面具r-cnn 。 IEEEInternationalConferenceonComputerVision,2017。[15] K. 他,X。Zhang,S.Ren和J.太阳用于视觉识别的深度卷积网络中的空间金字塔Proc.欧洲计算机视觉会议,2014。[16] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残 差 学 习 。 Proc.IEEE International Conference onComputer Vision,2016。[17] 胡杰湖,澳-地Shen和G.太阳挤压-激发网络。 Proc.IEEE计算机视觉和模式识别会议,2017年。[18] G. Huang,Z.柳湖,加-地van der Maaten和K. Q.温伯格。密集连接的卷积网络。Proc. IEEE计算机视觉和模式识别会议,2017。[19] A. Kirill ov,K. 赫利河吉希克角 Rothe r和P. 娃娃。全景分割。arXiv:1801.00868,2018年。[20] A. Kirill ov,K. 赫利河吉希克角 Rothe r和P. 娃娃。全景功能金字塔网络。arXiv:1901.02446,2019。[21] I. Kokkinos Ubernet:使用不同的数据集和有限的内存,训练一个通用的卷积神经网络,用于低,中,高层次的视觉。 Proc. IEEE计算机视觉与模式识别会议,2017年。[22] T.孔氏F.太阳,W。Huang和H.刘某用于目标检测的深度特征金字塔重建 Proc. 欧洲计算机视觉会议,2018年。[23] T.孔氏F. Sun,A. Yao,H. Liu,M. Lu和Y.尘Ron:反向连接对象先验网络进行对象检测。IEEE计算机视觉和模式识别会议,2017年。[24] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。神经信息处理系统进展,2012。[25] C. Lin,J. Lu,G. Wang和J.舟用于行人检测的粒度感知深度特征学习。Proc.欧洲计算机视觉会议,2018年。[26] G. Lin,L.米兰角沈和我里德Refinenet:多路径精化网络,带有标识映射,用于高分辨率语义分割. IEEE计算机视觉和模式识别会议,2017年。[27] T.- Y. Lin,P.多尔河格希克角他,B.Hariharan和S.贝隆吉用于目标检测的特征金字塔网络。Proc. IEEE计算机视觉和模式识别会议,2017年。[28] T.- Y. Lin,P. 戈亚尔河格希克角He和P. 娃娃。密集目标检测的焦面损失。IEEE International Conference onComputer Vision,2017。[29] T.- Y. 林,M。迈尔,S。Belongie,P.P. J. Hays,P.D.D. Ra- manan和C. L.齐特尼克微软coco:上下文中的公用对象。 Proc. 2014年欧洲计算机视觉会议。[30] S. Liu,L.Huang和Y.王. 接收域块网,用于准确和快速的目标检测。IEEE计算机视觉和模式识别会议,2018年。[31] W. Liu,L.安格洛夫,D。埃尔汉角塞格迪,S。里德角,澳-地Y. Fu和A.C. 伯格。Ssd:单发多盒探测器。Proc.欧洲计算机视觉会议,2016。[32] W. Liu , 中 国 粘 蝇 A. Rabinovich 和 A. C. 伯 格 。Parsenet:看得更宽,看得更清楚。2016年国际学习表征会议[33] Z. Liu,X. Li,P. Luo,C. C. Loy和X.唐基于深度解析网络的语义图像分割。IEEE International Conference onComputer Vision,2015。[34] J.朗,E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络 Proc. IEEE计算机视觉与模式识别会议,2015年。7401[35] J. Mao,T.肖氏Y. Jiang和Z.曹什么可以帮助pedes-trian检测? Proc. IEEE计算机视觉与模式识别会议,2017年。[36] H. Noh,S. Hong和B.韩用于语义分割的学习反卷积网络。IEEE International Conference on Computer Vision,2015。[37] Y.庞氏T.王河,巴西-地M. Anwer,F. S. Khan和L.邵用于单次激发探测器的高效特征化图像金字塔网络。IEEE计算机视觉和模式识别会议,2019年。[38] C.彭、X。Zhang,G. Yu,G. Luo和J. Sun.大核问题--通过全局卷积网络改进语义分割。IEEE计算机视觉和模式识别,2017年。[39] 五Q.范,S。Ito和T.小坂屋Bis
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功