没有合适的资源?快使用搜索试试~ 我知道了~
扩张残差网络:图像分类中的解决空间敏锐度问题的方法
1扩张剩余网络普林斯顿大学VladlenKoltun IntelLabs普林斯顿大学摘要用于图像分类的卷积网络逐渐降低分辨率,直到图像由微小的特征图表示,其中场景的空间结构不再可辨别。这种空间敏锐度的损失可能限制图像分类精度,并使模型向需要详细场景理解的下游应用的转移复杂化。这些问题可以通过扩张来缓解,扩张增加了输出特征图的分辨率,而不会降低单个神经元的感受野。我们发现,扩张残差网络(DRN)在图像分类中优于非扩张网络,而不会增加模型的深度或复杂性。然后,我们研究了由膨胀引入的网格化伪影,开发了一种去除这些伪影的方法此外,我们表明,DRN的准确性优势在下游应用中进一步放大,如对象定位和语义分割。1. 介绍卷积网络最初是为了对手写数字进行分类而开发的[9]。最近,卷积网络架构已经发展到对更复杂的图像进行分类[8,13,14,6]。然而,网络架构的一个核心方面在很大程度上仍然存在。用于图像分类的卷积网络逐渐降低分辨率,直到图像由微小特征表示保留很少空间信息的地图(通常为7×7虽然卷积网络已经做得很好,但几乎完全消除空间敏锐度可能会阻止这些模型实现更高的准确性,例如通过保留对于正确理解图像可能很重要的小而薄的对象的贡献。这种保存在手写数字分类的情况下可能并不重要,因为在这种情况下,一个物体占主导地位的图像,但可能有助于分析复杂的自然场景,其中多个物体及其相对配置必须考虑在内。此外,图像分类很少是卷积网络工作的存在理由。图像分类通常是一个代理任务,用于在图像分类之前对模型进行 它被转移到涉及更详细的场景理解的其他应用中[4,10]。在这样的任务中,空间敏锐度的严重现有技术通过引入上卷积[10,11],跳过连接[5]和其他事后措施来补偿丢失的分辨率。卷积网络必须粉碎图像才能对其进行分类吗?在本文中,我们表明,这是不必要的,甚至是可取的。从残差网络架构开始,图像分类的当前技术水平[6],我们通过用扩张替换内部子采样层的子集来提高网络输出的分辨率我们证明了扩张残差网络(DRN)可以提高图像分类性能。具体来说,DRN在ImageNet分类中的准确性比非扩张的同类更高,而深度或模型复杂性没有增加。DRN 在 典 型 ImageNet 输 入 上 的 输 出 分 辨 率 为28×28,与人类检查时传达图像结构的小缩略图相当[15]。虽然可能不清楚平均池可以正确处理这样的高分辨率输出的先验,但我们表明,它可以,产生显著的精度增益。然后,我们研究了由膨胀引入的网格化伪影,提出了一种消除这些伪影的方案,并表明这种我们还表明,DRN在下游应用中提高了准确性,例如弱监督对象定位和语义分割。通过一种非常简单的方法,完全不涉及微调,我们在ImageNet上的弱监督局部化中获得了最先进的top-1准确度。我们还研究了DRN在语义分割方面的性能,并显示,例如,42层DRN在Cityscapes数据集上的表现优于ResNet-101基线超过4个百分点,尽管深度较低 2.4倍。4724731我我2. 扩张剩余网络我们的核心思想是保持卷积网络图像分类的空间分辨率虽然渐进式下采样在对数字或对象的图标视图进行分类方面非常成功,但空间信息的丢失可能对自然图像分类有害,并且可能严重妨碍转移到涉及以下内容的其他任务增加较高层的感受野,补偿由去除子采样引起的感受野的减小其效果是,在膨胀层中的单位具有相同的感受野在原始模型中的相应单位。我们关注最后两组卷积层:G4和G5。在原始的ResNet中,每个组(G4和G5)是跨越式的:在空间细节图像理解。自然图像-11十个特征在于许多对象,这些对象的身份和相对配置对于理解场景是重要的。当一个关键对象不存在时,甚至行和列,这降低了输出分辨率在每个维度上,这些层的系数为2。转换为DRN的第一步是删除步幅在G4和G5中。请注意,每个接收器的接收字段空间主导G4中的一个单位仍然没有受到影响:我们刚刚将产量增加了一倍是薄的(例如,三脚架)或当有一个大的背景14像山一样的物体。在这些情况下,背景响应可以抑制来自感兴趣对象的信号。更糟糕的然而,如果我们在整个过程中保持高空间分辨率在不影响G1的接收场的情况下,单位 但是,后续图层都会受到影响:感受野在每个维度上被减小了2倍。因此,我们将这些层中的卷积算子替换为2-扩张卷积[18]:Σ模拟并提供密集覆盖内部的输出信号,(G4<$2f4)(p)=G4(a)f4(b)⑵在Put Field中,反向传播可以学习保留关于较小和不太突出的对象的重要信息。我们建设的起点是一套网-我我我a+2 b=p对于所有i≥2。同样的转换也适用于G5:由He等人提出的工作架构。[6]的文件。这一切成功都体系结构由五组卷积层组成(G5<$2f5)(p)=ΣG5(a)f5(b)。(三)呃。每组中的第一层通过步幅执行下采样:也就是说,卷积滤波器仅在偶数行和列处进行评估。令每组层由G表示,其中G=1,. . .、5。 表示组中的第i由G。为了简化说明,考虑一个理想化的模型,其中每个层由单个特征图组成:对多个特征图的扩展是直接的。设f是与层G关联的滤波器。在原1 1 1 1a+2 b=pG5中的后续层跟随已经被消除的跨层消除了跨步,使它们的感受野在每个维度上都减少了4倍。它们的卷积需要放大4倍来补偿损失:Σ5 5 5 5ii(Gi4fi)(p)=Gi(a)fi(b) (4)模型,Gi的输出为(Gf)(p)=Σ G(a)f(b),(1)a+4b=p5我我我a+ b= p其中p的定义域是G中的特征映射。这之后是一个非线性,这并不影响所提出的结构。一个简单的方法来提高网络高层的分辨率,就是简单地从一些内部层中删除这确实增加了下游分辨率,但具有否定益处的有害副作用:去除子采样相应地减小了后续层中的感受场。因此,去除步幅使得输出层的分辨率增加4倍,也将每个输出单元的接收场减少4倍。这严重减少了可以通知每个单元产生的预测的上下文的量由于上下文信息在消除局部线索的歧义方面很重要[3],因此感受野的这种减少是为更高分辨率付出的不可接受的代价因此,我们使用扩张卷积[18]来对于所有i≥2。 最后,与原始架构一样,G接着是全局平均池化,它将输出特征映射减少到一个向量,以及一个1×1卷积,它将这个向量映射到一个包含所有类的预测分数的向量。ResNet到DRN的转换如图1所示。转换后的DRN具有与原始ResNet相同的层数和参数。关键的区别在于,原始ResNet在每个维度上对输入图像进行了32倍的下采样(面积减少了一千倍),而DRN则对输入进行了1倍的为8.例如,当输入分辨率为224×224时,原始ResNet中G 5的输出分辨率为7×7,这不足以使输入的空间结构可辨别。DRN中G5的输出为28×28。因此,全局平均池化需要2- 4倍的值,这可以帮助分类器识别覆盖输入图像中的像素数量较少,并在其预测中考虑这些对象。474H/4HWHHW/4全球集中共用cKnC(a) 分类输出(a) ResNetd=1 d=1d=2d=2d=2Hwwd=2d=4d=4 d=4Kw wC nWc 2c4c第四组第五(b) DRN图1:将ResNet转换为DRN。原始ResNet如(a)所示,结果DRN如(b)所示。跨越在G4和G5是removered,带来的决议(b)本地化产出图2:使用分类网络进行本地化。在(a)中示出了针对图像分类训练的DRN的输出级。这里K是一个1×1卷积,将c个通道映射到n。为了重新配置网络以实现本地化,我们删除了池操作符。结果是1G4中的所有层1和g5决议草案G3 .第三章。为了-如(b)所示。 重新配置的网络产生N活动-分辨率为w×h的高程图。无训练或参数补偿随后的感受野收缩,G4和G5被因子2扩张,G5被因子2扩张。涉及到调谐i1i因子4,对于所有i≥2。c、2c和4c表示数量。层中特征图的ber,w和h表示特征图分辨率,d是膨胀因子。所提出的结构也可以应用于早期的层组(G1,G2或G3),在限制保留的输入的全分辨率。我们选择不这样做,因为已知下采样因子8可以保留在像素级正确解析原始图像所需的大部分信息[10]。此外,28×28的缩略图虽然很小,但足以让人类分辨场景的结构[15]。解决方案的额外增加是有成本的,不应在没有成本的情况下追求测定收益:当特征图分辨率在每个维度上增加2倍时,该特征图的存储器消耗增加4倍。在整个过程中以全分辨率运行,根本没有下采样,这超出了当前硬件的能力。3. 定位给定一个经过图像分类训练的DRN,我们可以直接生成密集的像素级类别激活图,而无需任何额外的训练或参数调整。这允许为图像分类训练的DRN立即用于对象定位和分割。为了获得高分辨率的类激活图,我们重新移动全局平均池化算子。然后,我们将最终的1×1卷积直接连接到G5。将softmax应用于结果卷中的每一列,以将逐像素预测得分到适当的概率分布。此过程如图2所示。结果网络的输出是一组激活图,其空间分辨率与G5(28×28)相同。每个分类类别y具有对应的激活图。为该图中的每个像素,该图包含在该像素处观察到的对象属于类别Y的概率。由我们的构造产生的激活图与Zhou等人的过程的结果具有相同的目的。[19 ]第10段。然而,程序是根本不同的。Zhou等人与卷积网络一起工作,该卷积网络产生大幅下采样的输出,该输出对于对象定位来说不足以解决。为此,Zhou et al.必须从分类网络中删除层,引入补偿消融层的参数,然后微调修改后的模型以训练新参数。即使这样,获得Zhou et al.是相当小的(14×14)和修改后的网络的分类性能受损。相比之下,DRN被设计为产生高分辨率的输出地图,并且从一开始就在这种配置中进行训练。因此,为图像分类训练的模型已经产生了高分辨率的激活图。正如我们的实验所示,DRN在图像分类方面比原始的ResNets更准确。由于DRN从一开始就产生高分辨率的输出地图,因此不需要删除层,添加参数和重新训练模型进行本地化。原始的精确分类模型可以直接用于定位。d=1d=1d=1d=1d=1d=1 d=1d=1Hd=1h/44cWh/2w/22cc第4组第5WHHH475(a) 输入(b)ResNet-18(c)DRN-A-18(d)DRN-B-26(e)DRN-C-26图3:ResNet-18和相应DRN的激活图。如第2节所述,由ResNet-18构建的DRN称为DRN-A-18。由第4节中描述的去网格化方案产生的相应DRN被称为DRN-C-26。DRN-B-26是一种中间结构。4. 去网格化使用扩张卷积会导致网格化伪影。图3(c)中显示了此类工件,并且在语义分段的并行工作中也观察到了这些工件[17]。当特征图具有比扩张卷积的采样率更高的频率内容时,会出现网格化伪影。图4显示了一个教学示例。在(a) 输入(b) 扩张2(c) 输出如图4(a)所示,输入特征图具有单个有效像素。2-扩张卷积(图4(b))在输出中诱导相应的网格模式(图4(c))。在本节中,我们将开发一种方案,用于从DRN产生的输出激活图中删除网格化伪影。该方案如图5所示。一个DRN-图4:网格化工件。如第2节所述的结构称为DRN-A,如图5(a)所示。本节中描述的构造的中间阶段被称为476水平(a) DRN-A-18(b) DRN-B-26(c) DRN-C-26扩张图5:更改DRN架构以从输出激活图中删除网格伪影。 每个矩形都是一个Conv-BN-ReLU组,数字指定过滤器大小和该层中的通道数。绿色粗线表示步长2的下采样。网络被划分为多个级别,使得给定级别内的所有层具有相同的膨胀和空间分辨率。(a)DRN-A直接扩展了ResNet模型,如第2节所述。(b)DRN-B用残差块替换早期的最大池化层,并在网络的末端添加残差块(c)DRN-C从一些添加的块中移除残余连接。每一步的基本原理都在正文中描述。称为DRN-B,如图5(b)所示最终构造被称为DRN-C,如图5(c)所示删除最大池。 如图5(a)所示,DRN-A从ResNet架构继承了一个最大池操作-在最初的7×7卷积之后我们发现,这种最大池化操作会导致高振幅高频激活,如图6(b)所示。 这种高频激活可能被传播到后面的层并最终加剧网格化伪像。因此,我们用卷积滤波器代替最大池化,如图5(b)所示图6(c)显示了这种转换的效果。(a) 输入(b)DRN-A-18(c)DRN-B-26图6:网格化的第一阶段,修改网络的早期层。(b)以及(c)示出了DRN-A-18和DRN-B-26的级别3中的第一卷积层显示具有最高平均激活的特征图添加图层。为了去除网格伪影,我们在网络的末端添加卷积层,并逐渐降低膨胀。具体来说,在DRN-A中的最后4个扩张层之后(图5(a)),我们添加2个扩张的残留块,然后添加1个扩张的块。这些成为DRN-B中的7级和8级,如图5(b)所示这类似使用具有适当频率的滤波器去除混叠伪影[16]。移除残余连接。如前一段所述,添加具有递减膨胀的层并不能完全去除网格伪影,因为存在残余连接。DRN-B的第7级和第8级中的残余连接可以从第7级传播网格伪影。6.为了更有效地去除网格伪影,我们重新移动了第7级和第8级中的残余连接这产生了DRN-C,我们提出的结构,如图5(c)所示。请注意,DRN-C比相应的DRN-A或用作起点的ResNet具有更高的深度和容量。然而,我们将表明,所提出的degridding计划有一个显着的效果的准确性,这样的精度增益补偿增加的深度和容量。例如,实验将证明DRN-C-26具有与DRN-A-34相似的图像分类精度,并且具有比DRN-A-50更高的对象定位和语义分割精度。DRN-C内部的激活如图7所示。该图显示了网络中每个级别的输出的特征图。显示了具有最大平均激活幅度的特征图5. 实验5.1. 图像分类在ImageNet 2012训练集上进行训练[12]。训练过程类似于He et al.[6]的文件。我们使用Szegedy等人的比例和长宽比增强。[14]和Krizhevsky等人的颜色扰动。[8]和霍华德[7]。培训由SGD执行,12345678111124213x3 5123x3 5123x3 5123x3 5123x3 5123x3 5123x3 5123x3 5123x3 5123x3 5123x3 5123x3 5123x3 5123x3 5123x3 5123x3 5123x3 5123x3 5123x3 5123x3 5123 x 3 2563 x 3 2563 x 3 2563 x 3 2563 x 3 2563 x 3 2563 x 3 2563 x 3 2563 x 3 2563 x 3 2563 x 3 2563 x 3 2563 x 3 1283 x 3 1283 x 3 1283 x 3 1283 x 3 1283 x 3 1283 x 3 1283 x 3 1283 x 3 1283 x 3 1283 x 3 1283 x 3 1283 x 3 643 x 3 643 x 3 643 x 3 643 x 3 643 x 3 643 x 3 643 x 3 643 x 3 643 x 3 643 x 3 643 x 3 64池化3 x 3 327 x 7 643 x 3 323 x 3 323 x 3 323 x 3 163 x 3 163 x 3 163 x 3 167 x 7 167 x 7 16477图像等级1等级2等级3等级4等级5等级6职业激活图7:经过训练的DRN-C-26内部的激活对于每个级别,我们在级别的输出中显示特征图中具有最高平均激活幅度的图5中定义了这些级别。动量0.9,重量衰减10−4。学习率最初设置为10−1,每30个epoch减少10倍。训练总共进行了120次。训练模型的性能在ImageNet 2012验证集上进行评估。调整图像的大小,使得较短的边具有256个像素。我们使用两个评估方案:1-crop和10-crop。在单作物协议中,预测精度是在中心224×224作物上测量的。在10-crop协议中,预测准确性是在每个图像的10个作物上测量的具体来说,对于每个图像,我们采取的中心作物,四个角落作物,和翻转版本这些作物。报告的10个作物准确度是这10个作物的平均值。ResNet与DRN-A。表1报告了根据两种评价方案的不同模型的准确度。每个DRN-A都优于相应的ResNet模型,尽管具有相同的深度和容量。 例如,DRN-A-18和 DRN-A-34 在 单 作 物 前 1 位 准 确 性 方 面 分 别 优 于ResNet-18 和 ResNet-34 2.43 和 2.92% 。 ( 误 差 减 少10.5%)ResNet-34 →DRN-A-34的情况。DRN-A-50在单作物前1位准确性方面优于ResNet-50超 过 一 个 百 分 点 。 相 比 之 下 , ResNet-152 相 对 于ResNet-101实现的相应误差减少了0.3个百分点。(From22.44至22.16在中心作物上。这些结果表明,即使将ResNet直接转换为DRN-A,也不会改变模型的深度或容量,但会显着提高分类精度。DRN-A与DRN-C。表1还表明,第4节中描述的去网格构造是有益的。具体-1作物10种作物模型Ptop-1top-5top-1top-5ResNet-1830.4310.7628.229.4211.7MDRN-A-1828.009.5025.758.2511.7MDRN-B-2625.197.9123.336.6921.1MDRN-C-2624.867.5522.936.3921.1MResNet-3427.738.7424.767.3521.8MDRN-A-3424.817.5422.646.3421.8MDRN-C-4222.946.5721.205.6031.2MResNet-5024.017.0222.246.0825.6MDRN-a-5022.946.5721.345.7425.6MResNet-10122.446.2121.085.3544.5M表1:ImageNet 2012验证集上的图像分类准确率(错误率)。越低越好。P是每个模型中参数的数量。每个DRN-C的性能明显优于相应的DRN-A。尽管去网格化过程增加了深度和容量,但由此产生的准确性增加是如此之大,以至于转换后的DRN与更深层次模型的准确性相匹配。具体而言,从DRN-A-18衍生的DRN-C-26与更深的DRN-A-34的精度相匹配。反过来,从DRN-A-34衍生的DRN-C-42与更深的DRN-A-50的精度相匹配。将degridded DRN与原始ResNet模型进行比较,我们看到DRN-C-42接近ResNet-101的准确性,尽管后者更深2.4倍。4785.2. 对象定域我们现在评估使用DRN进行弱监督对象定位,如第3节所述。如图3所示,由DRN提供的类激活图比从相应的ResNet提取的激活图在空间上分辨率更好我们使用ImageNet 2012验证集评估了DRN提供的高分辨率激活图对于弱监督对象定位的实用性。我们首先根据10-crop测试预测图像类别由于地面实况是以边界框的形式存在的,因此我们需要将边界框与激活图相匹配。我们通过分析所有响应图上的类响应来预测对象边界框。一般的想法是找到紧密的边界框,覆盖像素的主导响应指示正确的对象类。具体而言,鉴于C个分辨率为W×H的响应图,设f(c,w,h)为第c个响应图上位置(w,h)处的响应。在ImageNet数据集中,C是1000。我们找出主导的每个地点的班级:.′ ′Σg(w,h)= c |C≤ 1≤ c ≤ C。f(c,w,h)≥ f(c,w,h).对于每个类ci,将有效边界框的集合定义为.模型top-1top-5ResNet-1861.559.3DRN-A-1854.648.2DRN-B-2653.849.3DRN-C-2652.347.7ResNet-3458.756.4DRN-A-3455.550.7DRN-C-4250.746.8ResNet-5055.752.8DRN-a-5054.048.4ResNet-10154.651.9表2:ImageNet验证集上的弱监督对象定位错误率。越低越好。去网格化的DRN-C-26优于DRN-A-50,尽管深度和分类精度较低。DRN-C-26也优于ResNet-101。5.3. 语义分割我们现在将DRN转换为语义分割。高分辨率的内部表征是很重要的-Bi=((w1,h1),(w2,h2))|且f(w,h,ci)> t。Σw1≤w≤w2和h1≤h≤h2,#21415;的任务[10,18,2]。由于严重的经济衰退,在先前的图像分类架构中,它们向语义分割的转移需要事后适应,例如上卷积、跳过连接和事后适应。其中t是激活阈值。类ci的最小边界框定义为:b i=arg min(w2−w1)(h2−h1)。((w1,h1),(w2,h2))∈Bi为了评估DRN在弱监督对象定位上的准确性,我们简单地计算每个图像上预测类i的最小边界框bi在定位挑战中,当预测边界框与地面实况框的IoU 大于0.5。表2报告了结果。请注意,分类网络直接用于本地化,没有微调。如表2所示,DRN的性能优于相应的ResNet模型。(比较ResNet-18与DRN-A-18,ResNet-34与DRN-A-34,ResNet-50与DRN-A-50。这再次说明了第2节中介绍的基本DRN结构的优点。此外,DRN-C-26的性能明显优于DRN-A-50,尽管其深度要低得多。这表明第4节中描述的去网格方案对于需要更详细的空间图像分析的应用具有特别显著的益处。DRN-C-26也优于ResNet-101。hoc dilation [10,1,11,18].相比之下,DRN中输出层的高分辨率意味着我们可以传输通过简单地删除全局池化层并完全卷积地操作网络,将分类训练的DRN转换为语义分割[10],而无需任何额外的结构更改。由输出层合成的预测使用不涉及任何参数的双线性插值被上采样到全分辨率。我们使用Cityscapes数据集来评估这种能力[2]。我们使用标准的Cityscapes训练和验证集。为了理解模型本身的属性,我们只使用图像裁剪和镜像进行训练。我们不使用任何其他数据增强,也不向网络添加额外的模块。结果报告于表3中。所有呈现的模型都优于ResNet-101的可比基线设置,据报道,ResNet-101的平均IoU为66.6 [1]。例如,DRN-C-26的性能比ResNet-101基线高出一个百分点以上,尽管深度低4倍。DRN-C-42模型比ResNet-101基线高出4%以上,尽管深度低2.4倍。比较不同的DRN模型,我们看到DRN-C-26和DRN-C-42都优于DRN-A-50,例如,479DRN-a-5096.9 77.4 90.3 35.8 42.8 59.0六十六点八74.5 91.6 57.0 93.4 78.7 55.3 92.1 43.2 59.536.252.075.267.3DRN-C-2697.4 80.7 90.4 36.1 47.056.9六十三点八73.0 91.2 57.9 93.4 77.3 53.8 92.7 45.0 70.548.4四十四点二72.868.0DRN-C-4297.7 82.2 91.2 40.5 52.659.266.774.6 91.7 57.7 94.1 79.1 56.0 93.6 56.0 74.354.750.974.170.9表3:Cityscapes验证集上扩张残差网络的性能越高越好。DRN-C-26优于DRN-A-50,尽管深度较低。DRN-C-42实现了更高的精度。作为参考,据报道,ResNet-101的可比基线设置实现了66.6的平均IoU。(a) 输入(b)DRN-A-50(c)DRN-C-26(d)地面实况图8:Cityscapes数据集上的语义分割。与深度更深的DRN-A-50相比,去除网格的DRN-C-26产生更清晰的结果。这表明在第4节中提出的去网格构造对于密集预测任务特别有益DRN-A-50和DRN-C-26之间的定性比较如图8所示。正如图像所示,DRN-A-50的预测受到网格伪影的影响,尽管该模型是用密集的像素级监督训练的。相比之下,DRN-C-26的预测不仅更准确,而且明显更清晰。6. 结论我们提出了一种方法来设计卷积网络的图像分析。我们不是逐步降低内部表示的分辨率,直到场景的空间结构不再可辨,而是在最终输出层中始终保持高空间分辨率我们已经证明,这种简单的变换提高了图像分类的准确性,优于最先进的模型。然后,我们已经表明,通过修改结构,可以进一步提高精度,减轻由膨胀引入的网格伪影。所提出的图像分类网络产生信息输出激活,其可以直接用于弱监督对象定位,而无需任何微调。所提出的模型也可用于密集预测任务,如语义分割,在这些任务中,它们的性能优于更深和更高容量的基线。结果表明,扩张残差网络可以用作涉及复杂自然图像的图像分析任务的起点,特别是当场景的我们将发布代码和预训练模型,以支持未来的研究和应用。致谢这项工作得到了英特尔和国家科学基金会(IIS-1251217和VEC 1539014/1539099)的支持。路人行道建筑壁围栏极光签署植被地形天空人骑手车卡车总线火车摩托车自行车平均IoU480引用[1] L- C. Chen,G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。DeepLab:使用深度卷积网络、atrous卷积和 完 全 连 接 的 CRF 进 行 语 义 图 像 分 割 。 arXiv :1606.00915,2016。7[2] M.科德茨,M。奥姆兰,S。拉莫斯,T.雷费尔德,M。恩茨韦勒R.贝南森,美国弗兰克,S。罗斯和B。席勒Cityscapes数据集用于语义城市场景理解。在CVPR,2016年。7[3] C. Galleguillos和S.J. 贝隆吉基于上下文的对象分类:批判性的调查计算机视觉与图像理解,114(6),2010。2[4] R. B. 格希克,J。多纳休,T.Darrell和J.马利克基于区域的卷积网络用于精确的对象检测和分割。PAMI,38(1),2016. 1[5] B. 哈里哈兰山口A. 阿尔贝拉兹河。B. Girshick和J. 马利克用于对象分割和细粒度本地化的超列。CVPR,2015。1[6] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR,2016年。一、二、五[7] A. G.霍华德基于深度卷积神经网络的图像分类的一些改进。arXiv:1312.5402,2013年。5[8] A.克里热夫斯基岛Sutskever和G. E.辛顿基于深度卷积神经网络的ImageNet分类。NIPS,2012年。一、五[9] Y.莱昆湾博泽,J. S. Denker、D.亨德森河E. Howard,W. Hubbard和L. D.杰克反向传播应用于手写邮政编码识别。神经计算,1(4),1989年。1[10] J.朗,E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。CVPR,2015。一、三、七[11] H. Noh,S. Hong和B.韩用于语义分割的学习反卷积网络。在ICCV,2015年。1、7[12]O. 鲁萨科夫斯基Deng,H.Su,J.Krause,S.萨蒂希S. 妈Z。Huang,黄背天蛾A.卡帕西A.科斯拉,M。S. 伯恩斯坦A. C. Berg 和 F. 李 ImageNet 大 规 模 视 觉 识 别 挑 战 。IJCV,115(3),2015. 5[13] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。2015年,国际会议。1[14] C. 塞格迪W. 刘先生,Y. 贾,P. Sermanet,S. E.里德D.安格洛夫,D。Erhan,V. Vanhoucke,和A. 拉比诺维奇。更深的回旋。CVPR,2015。一、五[15] A.托拉尔瓦河Fergus和W. T.弗里曼。8000万张小图片:用于非参数对象和场景识别的大数据集。PAMI,30(11),2008年。第1、3条[16] B. Triggs经验滤波器估计亚像素插值和匹配。载于ICCV,2001年。5[17] P. Wang,P. Chen,Y. Yuan,云南杜父花D. Liu,Z.Huang,X.侯,和G.科特雷尔理解语义分割的卷积。arXiv:1702.08502,2017。4[18] F. Yu和V.Koltun.通过扩张卷积的多尺度上下文聚合。ICLR,2016年。一、二、七[19] B. Zhou,中国古柏A. 科斯拉河拉佩德里萨A. Ol iv a和A. 托拉尔巴。用于区分定位的深度特征学习在CVPR,2016年。3
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功