没有合适的资源?快使用搜索试试~ 我知道了~
面向场景理解的统一感知句法分析肖特特1 *,刘英成1 *,周博磊2 *,姜宇宁3,孙健41北京大学2MIT CSAIL3字节跳动4Megvii Inc.* 表示相等的贡献。抽象。人类在多个层次上识别视觉世界:我们毫不费力地对场景进行分类,并检测内部的对象,同时还识别对象的纹理和表面以及它们的不同组成部分。在本文中,我们研究了一个新的任务,称为统一的感知解析,它要求机器视觉系统识别尽可能多的视觉概念,尽可能从一个给定的图像。一个多任务的框架,称为UPerNet和训练策略的开发,从异构的图像注释学习。我们基准我们的框架上统一的感知解析,并表明它能够有效地分割广泛的概念,从图像。经训练的网络进一步应用于发现自然场景中的视觉知识1。关键词:深度神经网络,语义分割,场景理解1介绍人类视觉系统能够从一个单一的一瞥中提取大量的语义信息。我们不仅可以即时解析其中包含的对象,而且还可以识别对象的细粒度属性,例如它们的部分,纹理和材料。例如,在图1中,我们可以认识到这是一个客厅,里面有各种对象,如咖啡桌、绘画和墙壁。与此同时,我们确定咖啡桌有腿,围裙和顶部,以及咖啡桌是木制的,沙发的表面是针织的。我们对视觉场景的解释是在多个层次上组织的,从材料和纹理的视觉感知到物体和部件的语义感知。由于深度神经网络和大规模图像数据集的发展,计算机视觉在人类视觉识别方面取得了巨大进展。然而,各种视觉识别任务大多是独立研究的。例如,对于对象分类[1]和场景识别[2],已经达到了人类水平的识别;对象和材料在像素水平上被精确地解析和分割[3,2];纹理和材料感知和识别已经在[4]和[5]中进行了研究由于场景识别、物体检测、1模型可在https://github.com/CSAILVision/unifiedparsing2T.肖氏Y.刘湾,澳-地Zhou,Y.Jiang,J. 孙采利Mirr油漆或ngwall窗口有窗舱小木屋咖啡表SOF弗洛河或部分材料- 柜子是木头做的。- 咖啡桌是木制的- 墙是砖砌的。- 沙发是织物做的。- 地板是地毯做的。- 咖啡桌是华夫饼。- 沙发是编织的。- 墙是分层的。-客厅由墙壁、地板、天花板、茶几、橱柜和绘画组成。Fig. 1. 针对统一感知解析训练的网络能够同时解析多个感知级别的各种视觉概念,例如场景、对象、部件、纹理和它还识别检测到的概念之间的组成结构。纹理和材料识别在人类视觉感知中交织在一起,这为计算机视觉系统提出了一个重要问题:神经网络有可能同时解决几个视觉识别任务吗?这促使我们的工作引入了一个新的任务,称为统一感知解析(UPP)以及一种新的学习方法来解决它。UPP中存在若干挑战。首先,不存在用所有级别的视觉信息注释的单个图像数据集。各种图像数据集仅针对特定任务构建,例如用于场景解析的ADE20K [2]、用于纹理识别的描述纹理数据集(DTD)[4]以及用于材料和表面识别的OpenSurfaces[6]。接下来,来自不同感知水平的注释是异构的。例如,ADE20K具有像素级注释,而DTD中纹理的注释是图像级的。为了解决上述挑战,我们提出了一个框架,克服了不同数据集的异质性,并学会联合检测各种视觉概念。一方面,在每次迭代中,我们随机采样一个数据源,并且只更新路径上的相关层,以从所选源推断概念。这样的设计避免了关于某个概念的注释的梯度可能是有噪声的不稳定行为。另一方面,我们的框架利用了来自单个网络的特征的分层性质,即。对于场景分类等具有较高语义的概念,分类器只建立在具有较高语义的特征图上;对于诸如对象和材料分割之类的较低级语义,分类器建立在跨所有阶段融合的特征图或仅具有低级语义的特征图上。我们进一步提出了一种训练方法,使网络能够预测像素纹理标签只使用图像级注释。我们的贡献总结如下:1)我们提出了一个新的解析任务统一感知解析,它要求系统解析多个视觉信息。- 一种沙发,由座垫、扶手、靠枕、座架组成。- 一种咖啡桌,由桌腿、桌板和桌面组成。砖背枕门我是一个很好的朋抽屉臂座垫背枕织物座椅底座围裙腿木材木材木材地毯织物场景纹理客厅对象天花板镜绘画壁分层窗玻璃沙发内阁分层内阁针织茶几胡言乱地板沙发多孔面向场景理解的统一感知句法分析3概念一次。2)提出了一种新的具有层次结构的网络UPerNet,用于从多个图像数据集中的异构数据中学习3)该模型能够联合推断和发现图像下丰富的视觉1.1相关工作我们的工作是建立在以前的工作语义分割和多任务学习。语义分割为了生成给定图像的逐像素语义预测,图像分类网络[7,8,9,1]被扩展以生成语义分割掩码。Chen等人的开创性工作。[10]基于结构预测,使用条件随机场(CRF)来细化CNN最终特征图的激活。 为这种像素级 分类任务设 计的最流行 的框架是全 卷积网络(FCN)[11],它用卷积层取代了分类网络中的全连接层 Noh等人 [12]提出了一个框架,该框架将反卷积[13]应用于上采样低分辨率特征图。Yu和Vladlen [14]提出了一种基于扩张卷积的架构,该架构能够以指数方式扩展感受野,而不会损失分辨率或覆盖范围。最近,RefineNet[15]使用了从粗到细的架构,该架构利用了下采样过程中可用的所有信息。金字塔场景解析网络(PSPNet)[16]在几个网格尺度上执行空间池化,并在几个分割基准上实现了卓越的性能[17,18,2]。多任务学习。多任务学习旨在训练模型以同时完成多个任务,早在深度学习时代之前就引起了人们的例如,许多以前的研究工作集中在识别和分割的组合[19,20,21]。最近,Elhoseiny et al. [22]提出了一种同时执行姿态估计和对象分类的模型。Eigen和Fergus [23]提出了一种联合解决深度预测、表面法线估计和语义标记的架构。Teichmann等人。[24]提出了一种通过共享特征提取器执行分类、检测和语义分割的方法。Kokkinos提出了UberNet [25],这是一种深度架构,能够依靠不同的训练集完成七种不同的任务另一个最近的工作[3]提出了一个部分监督的训练范例,仅使用框注释将对象分割扩展到3000个对象将我们的工作与以前的多任务学习工作进行比较,其中只有少数在异构数据集上执行多任务学习,即。数据集不一定在所有任务上具有所有级别的注释。此外,虽然[25]中的任务是从低层到高层形成的,如边界检测,语义分割和对象检测,但这些任务并没有形成视觉概念的层次结构。在第4.2节中,我们进一步证明了我们提出的任务和框架在从图像中发现丰富的视觉知识方面的有效性。4T.肖氏Y.刘湾,澳-地Zhou,Y.Jiang,J. 孙2定义统一感知解析我们定义的统一感知解析的任务,从一个给定的图像中识别出许多视觉概念。可能的视觉概念被组织成几个层次:从场景标签、对象和对象的部分,到对象的材质和纹理。该任务取决于不同类型的训练数据的可用性。由于没有一个图像数据集在多个层次上标注了所有视觉概念,我们首先通过组合几个图像注释源来构建图像数据集。2.1数据集为了从多个层次完成对各种视觉概念的分割,我们利用了广泛和密集标记数据集(Broden)[26],这是一个包含各种视觉概念的异构数据集。Broden统一了几个密集标记的图像数据集,即ADE 20 K [2]、Pascal-Context [27]、Pascal-Part [28]、OpenSurfaces [6]和可描述纹理数据集(DTD)[4]。这些数据集包含各种环境中的各种场景、对象、对象部件、材质和纹理的样本。对象、对象部分和材料被分割到像素级,同时对纹理和场景进行注释在图像级别。Broden数据集提供了广泛的视觉概念。然而,由于最初收集它是为了发现视觉概念与卷积神经网络(CNN)的隐藏单元之间的对齐以实现网络可解释性[26,29],因此我们发现来自不同类别的样本是不平衡的。因此,我们标准化Broden数据集,使其更适合训练分割网络。首先,我们合并不同数据集的类似概念例如,ADE 20 K、Pascal-Context和Pascal-Part中的对象和零件注释将合并和统一。其次,我们只包括出现在至少50幅图像中的对象类,并且在整个数据集中包含至少50,000个像素此外,出现在至少20个图像中的对象部分可以被认为是有效部分。将手动删除概念上不一致的对象和零件。第三,我们手动合并OpenSur- faces中的采样不足标签例如,石头和混凝土合并成石头,而透明塑料和不透明塑料合并成塑料。出现在少于50个图像中的标签也会被过滤掉。第四,我们将ADE20K数据集的400多个场景标签映射到Places数据集的365个标签[30]。表1显示了我们的标准化Broden的一些统计数据,称为Bro- den+。它总共包含57, 095个图像,其中22, 210个图像来自ADE 20 K,10, 103个图像来自Pascal-Context和Pascal-Part,19, 142个图像来自Open- Surfaces,5, 640个图像来自DTD。图2显示了对象的分布我们还在图3中提供了来自Broden+数据集的每个源的示例。面向场景理解的统一感知句法分析51头臂躯干腿手轮窗前照灯门车牌窗门阳台商店橱窗屋 顶头部躯干口吻耳朵鼻子头部躯干耳朵鼻子眼罩柱基管天篷躯干头部喙尾眼体翼艉机轮臂座垫靠背枕头后腿座位围裙臂门抽屉侧顶前躯干头枪口耳朵腿床头板脚侧扶手座垫腿座椅底座顶部抽屉腿裙座窗轮镜大灯门躯干头耳口眼门框把手把手窗格锁躯干头枪口耳腿窗门屋顶烟囱栏杆监视器键盘鼠标电脑机箱扬 声器主车厢头灯车顶车厢顶玻璃上窗框式烘箱按钮面板抽屉燃烧器拨盘抽屉侧前裙顶孔帘扩散器天篷背 板角袋侧袋床腿柜后座底座臂活塞遮阳链篷臂球轮窗门牌照挡风玻璃1墙壁天空地板树建筑物人天花板桌子窗户道路草椅子汽车植物画门人行道灯箱招牌灯地帘杆山栏路灯床沙发箱土架子瓶垫水书花地毯镜子花瓶花盆水槽狗扶手椅岩墙壁插座烛台枕头猫步盆板栏杆钟包柱自行车布咖啡桌垃圾桶聚光灯长凳船篮工作台碗书桌飞机鸟房子玩具海纸电视枝形吊灯杯一种开关楼梯厢式货车炉车篷五斗橱交通灯座椅海报玻璃旗帜电话壁炉绳毛巾监视器水桶灌木凳现场托盘bannister商品名木材扇马摩托车基地火车浴缸厕所冰箱柜台衣柜食品烛台百叶窗电脑板手掌类别类来源Eval. 度量场景365ADE [2]top-1 acc.对象335[27]第27话:我的世界mIoU像素对象w/部件77[27]第27话:我的世界-部分152[28]第28话:我的世界mIoU(bg)像素acc.材料26OpenSurfaces [6]mIoU像素纹理47DTD [4]top-1 acc.表1. Broden+数据集中每种标签类型的统计数据。还列出了每种类型标签的评价指标。a)、b)、图二. a)按频率分类的对象类:我们显示了从Broden+中选择的前120个类。出现在少于50个图像中或包含少于50,000个像素的对象类将被过滤。b)按对象分组的部件的频率我们只显示前30个对象及其前5个频繁部分。出现在少于20个图像中的部分被过滤。2.2度量为了量化模型的性能,我们根据每个数据集的注释设置了不同的度量标准。用于评估语义分割任务的标准度量其指示正确分类的像素的比例,以及平均IoU(mIoU),其指示在所有对象类上平均的预测像素与地面实况像素之间的交并(IoU)。注意,由于图像中可能存在未标记区域,因此mIoU度量将不计算未标记区域的预测。这将鼓励人们在训练期间排除背景标签。但10100100010000101000 10000 100000100人车建筑狗猫灯鸟飞机沙发椅子内阁马床扶手椅表总线羊门牛房子计算机火车窗口炉子抽屉柜光台球桌转椅吊灯van6T.肖氏Y.刘湾,澳-地Zhou,Y.Jiang,J. 孙3c@µ@obj@c$ppy$mp$@yjpl$@χ$y@图三. 来自Broden+数据集的样本。场景和纹理的地面实况标签是图像级注释,而对象、部件和材料是像素级注释。对象和部分是密集的注释,而材料是部分注释。具有纹理标签的图像大多是这样的局部对象区域。不适用于零件分割等任务的评估,因为对于某些对象,具有零件注释的区域仅占少量像素。因此,我们使用mIoU,但在某些任务中计算背景区域中的预测,表示为mIoU-bg以这种方式,在训练期间排除以一小部分的优势。尽管如此,它将显著降低mIoU-bg的性能。对于涉及ADE 20 K、Pascal-Context和OpenSurfaces的对象和材质解析,注释处于像素级别。ADE 20 K和Pascal- Context中的图像被完全注释,不属于任何预定义类的区域被归类为未标记类。OpenSurfaces中的图像是部分注释的,即如果在单个图像中出现几个材料区域,则可以不注释多于一个的区域。我们用广播。和mIoU度量。对于对象部分,我们使用P.A.和mIoU-bg度量。每个部分的IoU首先在对象类别内求平均值,然后在所有对象类上求平均值。对于场景和纹理分类,我们报告最高的精度1。评估指标列于表1中。为了平衡不同类别中不同标签的样本,我们首先随机抽取10%的原始图像作为验证集。然后,我们从训练集和验证集中随机选择一张图像,并检查在交换这两张图像后,像素级别的注释是否更平衡,接近10%迭代地执行该过程。数据集被分成51617张图像用于训练,5478张图像用于验证。3设计统一感知解析的网络我们在图4中展示了我们的网络设计,称为UPerNet(统一感知解析网络),基于特征金字塔网络(FPN)[31]。FPN是一个通用的特征提取器,它利用多级特征表示y@µ gpyd@µy µypyyjµdoyppµ@ypllf loy@ybo$$l@Yp3 @公司简介奇普日$pbl@3kyb jldjµg公司简介$y@@plpµ$ypllypllyjY@yyjµdoyyjµdoy3hopyjµdoypym b@dcpbjµ@3@p $c 3hjoµ$bpckm@$pl约德皮洛伊合金Pym3@p$ c 3hjoµ公司简介yoodppjµ$@dFPBYJCkµj$$@dgyooY@d面向场景理解的统一感知句法分析7CIp33jfj@yCoµY 3 × 3Obj@c$/Ppy$/Mp$@yjpIH@pdPPM H@pdH@pd3c@µ@c@jIjµg1/32姆日约伊ppjµ$jµg1/32ypIIyjµdoyppµ@1/161/16H@pd3ofp1/81/8F#3@obj@c$flooycpbjµ@$cpbjµ@$coff@@$pbI@3ofp1/41/41/4F$3QdFQp$çQMppH@pdFQp$çQPyçpdNQoçkPy $bpck pjIIoy杜伊pym3@p$c#3hjoµdypy@yPym3@p $bp3 @$op奥奇I pgq(~450 ×I@gppyoµ3@p $c#3hjo µbpck pjIIoy欧吉普德pgqfoQ×$Q(~ 48H@pdmp$@yjpI约德FPBYJC约德公司简介FPBYJC(p g)= mpybI@dGIOBPI AYg.PooIjµgH@pd$@ x$#y@(Q3µg)Sc@µ@H@pdT@ x $#y@H@pdCIp33jfj@yCoµY 3 × 3CoµY 3 × 3CIp33jfj@yCoµY 3 × 3IjYjµg yoom4 × CoµY(128中国药典µµQ l3)图4.第一章统一感知解析的UPerNet框架左上角:特征金字塔网络(FPN)[31],在将其馈送到FPN中的自上而下分支之前,在骨干网络的最后一层上附加了金字塔池化模块(PPM)[16]右上角:我们在不同的语义层次上使用特征。场景头部被附加在PPM之后的特征图上,因为图像级信息更适合于场景分类。对象和零件头部被附加在由FPN输出的所有层融合的特征图上。材料头以最高分辨率附加在FPN中的特征图上。纹理头被附加在ResNet [1]中的Res-2块下图:不同头像的插图。详情见第3节。在一个固有的金字塔式的等级制度中。它采用一种自顶向下的横向连接架构,以边际额外成本将高层语义信息融合到中低为了克服Zhou等人提出的问题。 [32]虽然深度CNN的理论感受野足够大,但深度CNN的经验感受野相对要小得多[33],我们在将其馈送到FPN中的自上而下分支之前,在骨干网络的最后一层上应用PSPNet [ 16 ]的金字塔池化模块(PPM)。经验上,我们发现PPM是高度兼容的FPN架构带来有效的全球先验表示。有关FPN和PPM的更多详细信息,请读者参阅[31]和[16]。有了新的框架,我们能够训练一个单一的网络,它能够在多个层次上统一解析视觉属性。我们的框架基于关于残差网络[1]。我们表示每个阶段的最后特征图的集合在ResNet中为{C2,C3,C4,C5},并且由FPN提出的特征图集为{P2,P3,P4,P5},其中P5也是直接跟随PPM的特征图的下采样率分别为{4, 8, 16, 32}场景标签是在图像级别注释的最高级别属性,通过全局平均池化P5进行预测8T.肖氏Y.刘湾,澳-地Zhou,Y.Jiang,J. 孙然后是线性分类器。值得注意的是,与基于扩张网的框架不同,P5的下采样率相对较大,使得全局平均池化后的特征更多地关注高级语义。对于对象标签,我们根据经验发现,融合FPN的所有特征图优于仅使用具有最高分辨率(P2)的特征图。基于与对象相同的特征图分割对象部分对于材料,直观地说,如果我们事先知道这些区域属于物体这个上下文是有用的,但是我们仍然需要局部的明显特征来决定哪个是正确的。还应当注意,物体可以由各种材料制成。基于以上观察,我们在P2之上分割材料,而不是融合特征.纹理标签是基于非自然图像的,在图像级给出。直接将这些图像与其他自然图像融合对其他任务是有害的。我们也希望网络可以预测像素级的纹理标签。为了实现这样的目标,我们在C2之上添加了几个卷积层,并迫使网络预测每个像素的纹理标签。 该分支的梯度被阻止反向传播到骨干网络的层,并且纹理的训练图像被调整为较小的尺寸(64× 64)。这些设计背后的原因是:1)纹理是最低级别的2)正确预测纹理的基本特征是在其他任务上训练时隐式学习的。3)这个分支的感受野需要足够小,以便当正常尺度的图像被馈送到网络中时,网络能够预测各个区域的不同标签。我们只在整个网络完成其他任务的训练后对纹理分支进行了几个时期的微调。当只在对象监督上训练时,没有进一步的增强,我们的框架产生了与最先进的PSPNet几乎相同的性能,同时对于相同数量的epoch只需要63%的训练时间。值得注意的是,根据他们的论文[16]中的实验,我们甚至不执行PSPNet中使用的深度监督或数据增强,而只是缩放抖动。消融实验见第4.1节。3.1实现细节每个分类器前面都有一个单独的卷积头。为了融合具有不同尺度的层,例如{P2,P3,P4,P5},我们通过双线性插值将它们调整为P2的大小并连接这些层。卷积层然后应用于从不同的级别熔丝特征以及减少变化。网格尺寸所有额外的非分类器卷积层,包括FPN中的卷积层,都具 有 512 通 道 输 出 的 批 量 归 一 化 [34] 。 ReLU [35] 被 应 用 于CHNORMALIZATION。如[36]所述,我们使用政策在哪里当前迭代的学习速率等于初始学习速率乘法iter最大值功率. 初始学习速率和功率设置为0的情况。02和0。9,分别。我们使用0的权重衰减。0001和动量的0。9. 在训练期间,输入图像被调整大小,使得其长度被改变。1−面向场景理解的统一感知句法分析9短边是从集合{300, 375, 450, 525, 600}中随机选择的。对于推断,我们不应用多尺度测试进行公平比较,长度设置为450。较长边的最大长度设置为1200,以避免GPU内存溢出。骨干网络中的层使用ImageNet上预先训练的权重进行初始化[37]。在每次迭代期间,如果小批量由来自各种任务上的若干源的图像组成,则相对于某个任务的梯度可能是有噪声的,因为每个任务的实际批量大小实际上减小了。因此,我们在每次迭代时基于每个源的规模随机采样数据源,并且仅更新路径以推断与所选源相关的概念。对于物体和材料,我们不计算未标记区域的损失。对于部分,如2.2节所述,我们添加背景作为有效标签。此外,零件的损失仅应用于其超级对象的区域内部。由于物理内存的限制,每个GPU上的小批处理仅涉及2个图像。我们在8个GPU上采用同步SGD训练值得注意的是,批量大小已被证明对于为分类[38],语义分割[16]和对象检测[39]等任务生成准确的统计数据非常重要。我们实现了批量归一化,以便能够在多个GPU之间同步。我们在训练过程中不固定任何批量范数层仅ADE 20k(具有100k图像)的训练迭代次数为100k。如果在更大的数据集上训练,我们会根据数据集中的图像数量线性增加训练迭代。3.2设计探讨最先进的分割网络主要基于全卷积网络(FCN)[11]。由于缺乏足够的训练样本,分割网络通常从针对图像分类预先训练的网络初始化[37,7,8]。为了实现语义分割的高分辨率预测,已经提出了扩大卷积[14],一种去除卷积层的步幅并在卷积滤波器的每个位置之间添加孔的技术,以减轻下采样的副作用,同时保持感受野的扩展速率扩张网络已经成为语义分割的事实我们认为,这样的框架有重大的缺点,建议统一的感知解析任务。首先,最近提出的深度CNN [1,40]在图像分类和语义分割等任务上取得了成功,通常具有数十或数百层。这些深度CNN经过复杂的设计,使得下采样率在网络的早期阶段快速增长,以获得更大的感受野和更低的计算复杂度。例如,在总共具有100个卷积层的ResNet中,Res-4和Res-5块中有78个卷积层,下采样率分别为16和32。实际上,在扩张分割框架中,需要对两个块应用扩张卷积,以确保所有特征图的最大下采样率不超过8.然而,由于两个块内的特征图增加到10T.肖氏Y.刘湾,澳-地Zhou,Y.Jiang,J. 孙方法平均IoU(%)像素Acc.(%)总体(%)时间(小时)简体中文[CN]29.3971.3250.36-SegNet [42]21.6471.0046.32-DilatedNet [14]32.3173.5552.93-CascadeNet [2]34.9074.5254.71-RefineNet(Res-152)[15]40.70---DilatedNet† †(Res-50)[16]34.2876.3555.3253.9PSPNet†(Res-50)[16]41.6880.0460.8661.1FPN(/16)34.4676.0455.2518.1FPN(/8)34.9976.5455.7720.2FPN(/4)35.2676.5255.8921.2FPN+PPM(/4)40.1379.6159.8727.8FPN+PPM+融合(/4)41.2279.9860.6038.7表2. 详细分析了我们的框架基于ResNet-50与ADE20K数据集上最先进的方法。我们的结果是在没有多尺度推理或其他技术的情况下获得的。FPN基线具有竞争力,同时需要少得多的计算资源。进一步增加特征图的分辨率带来一致的增益。PPM与FPN高度兼容。根据经验,我们发现,融合功能,从各级FPN产生最佳性能。*:对[16]中报道的DilatedNet的更强参考†:训练时间基于我们复制的模型。我们也使用相同的代码在FPN基线。4 或16倍,计算复杂度和GPU内存占用都急剧增加。第二个缺点是这样的框架仅利用网络中最深的特征图。先前的工作[41]已经显示了网络中特征的分层性质,即较低的层倾向于捕获局部特征,例如角或边缘/颜色连接,而较高层倾向于捕获更复杂的图案,例如某些对象的部分。使用具有最高级别语义的特征对于分割诸如对象之类的高级概念可能是合理的,但是它本质上不适合分割多个级别的感知属性,特别是诸如纹理和材料之类的低级属性。在下文中,我们展示了我们的UPerNet的有效性和效率。4实验实验部分的组织如下:我们首先介绍了我们提出的框架上的原始语义分割任务和UPP任务的定量研究在第4.1节。然后,我们应用该框架来发现4.2节中场景理解的视觉常识知识。4.1主要结果整体架构。为了证明我们提出的语义分割架构的有效性,我们报告了在ADE20K us上训练的结果面向场景理解的统一感知句法分析11Trai 宁 Dat一Object部分场景垫列状结构+O +P +S +M +TmI.P.A.mI.(磅)P.A.T-1mI.P.A.T-1C24.7278.03------C----- 52.7884.32-CC23.9277.4830.2148.30----CCC23.8377.2330.1048.34 71.35---CCCC23.3677.0928.7546.92 70.87 54.1984.45-CCCCC23.3677.0928.7546.92 70.87 54.1984.4535.10表3. Broden+数据集上的统一感知解析结果。O:反对。P:零件。史:场景。M:材料。T:质地。mI.:我的意思是。P.A.:像素精度mI. (bg):包括背景的平均IoU。T-1:top-1精度。在表2中的各种设置下使用对象注释。一般来说,FPN demonstrates竞争力的性能,同时需要少得多的计算资源的语义分割。使用仅以16的下采样率(P4)上采样一次的特征图,其达到mIoU和P.A.为34. 46/7604,几乎与[16]中报告的强基线参考相同,同时对于相同数量的迭代仅花费约1/3的训 练时间 。分辨 率越高 ,性能 越好。 添加Pyramid Pooling Module(PPM)可将性能提升4. 87/3 09的边缘,这表明FPN也遭受不足的感受野。经验上我们发现融合来自所有级别的FPN的特征产生最佳性能,在[43]中也观察到一致的结论。考虑到FPN的简单性,其性能是令人惊讶的,其中特征图通过双线性内插而不是耗时的反卷积被简单地上采样,并且自上而下的路径通过1x1卷积层与自下而上的路径融合,随后进行逐元素求和,而没有任何复杂的细化模块。它的简单性实现了它的效率。因此,我们采用这种设计的统一感知解析。具有异构注释的多任务学习。 我们报告了在单独或融合的不同注释集上训练对象解析的基线是在ADE 20 K和Pascal-Context上训练的模型它产生mIoU和P.A.为24. 72/78。03.与ADE20K的结果相比,该结果相对 较 低 , 因 为 Broden+ 具 有 更 多 的 对 象 类 。 材 料 的 基 线 是 在OpenSurfaces上训练的模型。它产生mIoU和P.A.为52. 78/8432. 对象和部分解析的联合训练产生23。92/77。目标48分30分。21/4830部分对象解析训练加上部分注释的性能几乎与仅在对象注释上训练的性能相同。在添加场景预测分支之后,其产生71的top-1准确度。35%的场景分类,对象和部件性能的降级当联合训练材料与对象,部分和场景分类时,它的性能为54。19/8445关于材料分析,23。36/77。09关于对象解析,以及28. 75/4692篇关于部分解析。值得注意的是,由于异构性,对象和部件都会遭受轻微的性能下降,12T.肖氏Y.刘湾,澳-地Zhou,Y.Jiang,J. 孙co$$pg@3kyljµ@dGP YYyoofyjµdoy何3@$y@@3$pjy3plpµ$杜伊ypjljµg石膏33ypllblo$chyb@dyoomppjµ$jµgypll3hpd@Colmµh@pdbpydbp3@ljµ@d倾泻计划h@ pdbpydFPBYJC公司简介约德GP YY皮洛伊合金po$hol@db@d$pbl@o$h@ydypy@yFPBYJC约德b@do$h@yFPBYJCpo$hol@d糟透了波约3GP YY3$y@@$3$y@@$ljgh$b jldjµgGP YY3jgµbopydp@y3oµplpµ$f@µc@ypllCPY杜伊yh@@lpo$hol@db mp@yyopdgyooY@d3c@µ@obj@c$ppy$mp$@yjpl$@χ$y@ljYjµg yoomypllc y$pjµc@jljµgppjµ$jµgc y$pjµfjy@plpc@公司简介铜镍合金3@p$ c 3hjoµ3@p $bp3 @$ opl@gbpckc 3hjoµcpbjµ@$3ofpcoff@@ $pbl@Flooypymchpjy皮姆奇皮3m@py@dglp33FPBYJCFPBYJCGP YYglp33cyo33hp$ch@dFPBYJC约德3$pjµ@d约德fy@ckl@d图五、使用UPerNet(ResNet-50)对验证集进行预测从左到右:场景分类、对象、部件、材质和纹理解析。与仅在OpenSurfaces上训练的材质相比,材质的性能得到了提升。我们推测,这是由于有用的信息,在对象作为先验的材料解析。如上所述,我们发现直接将纹理图像与其他自然图像融合对其他任务是有害的,因为DTD中的图像与自然图像之间存在重要差异。在使用所有其他任务训练的模型对纹理图像进行微调之后,我们可以通过挑选最频繁的像素级预测作为图像级预测来获得定量纹理分类结果。它的分类精度为35。10.纹理上的性能表明,仅在纹理标签上微调网络并不是最佳的。然而,这是克服自然和合成数据源融合的必要步骤我们希望未来的研究能够发现更好地利用这种图像级注释进行像素级预测的方法。定性结果。我们提供了UPerNet的定性结果,如图5所示。UPerNet能够统一组成的视觉知识,并有效地预测分层输出的同时。4.2在自然场景统一感知解析需要一个能够从给定图像中识别尽可能多的视觉概念如果模型成功地实现了这一目标,它就可以发现现实世界中丰富的视觉知识,例如回答“客厅和卧室之间的共性是什么?”或者"为什么要让我做这个?"”在本节中,我们将演示ppjµ$@dglp33拜克m@$pl面向场景理解的统一感知句法分析13石地板瓷砖人行道瀑布路床窗帘地毯食品 羊人台球桌木材水雪GrassFoliage棕榈狗布鸟毛皮牛灯马壁天花板天空台面树猫建筑抛光石船画浴缸工作表面洗碗机飞机涂装陶瓷摩托车金属火车银屏微波吊灯水槽奥多比乌斯玻璃厕所自行车冷藏车窗玻璃塑料总线电视监视器皮革抛光石柳条瓷砖坐便器软凳座椅底座蒙皮沙发座垫马躯干马嘴砖马桶水箱织物毛陶瓷头发台球桌床洗碗机按钮面板马头牛耳摩托车车轮人发塑料马桶盖台球桌腿金属公共汽车马尾马颈建筑火灾逃生地毯木材灯罩飞机尾瓶体洗衣机门镜床头板咖啡桌面玻璃ss公共汽车挡风玻璃桌子抽屉电视监视器屏幕画纸车窗层压大理槽衬层压分层瓷砖编织砖交叉阴影柳条地毯坑坑洼洼金属画泡状玻璃满蛛网塑料薄纱壁纸抛光石褶边石木材镜栅纸树叶斑点陶瓷染色橡胶/乳胶食品纸板织物无光d毛皮涂抹胡言乱语结晶头发雀斑皮革镶皮肤书桌银幕阶段绳棕榈Bannister鸟遮阳篷水船港码头海豪斯罗克砂灯聚光灯枕头光窗玻璃门看台水族馆船屋海滨别墅植物路径床椅子座椅电影院(ID)电梯/门游泳池(OD)建筑阁日本花园烤房工作表面柱垫圈青年旅舍客车内部演讲室汽车内饰拳击台门口/室外塔防火梯树玉米田布什希尔会议中心人行道图书馆/户外地球沙漠/植被内阁自助餐厅更衣室商品名称店面天空山雪窗帘表地板壁人沟槽谷领域天花板桑拿自然历史博物馆售票亭停车场(OD)野餐区草农场山餐厅厨房面包店/商店博物馆(id)珠宝店板凳车机库/室外路直升机场牧场炉子板托盘布料店五金店招牌极滚道铁轨计数罐情况食品架框药房礼品店雕塑路灯栅栏地面飞机轨道火车瓶玩物基地绘画袋动物卡车路堤跑道货架包括统一的房间,织物商店,珠宝店直升机场是由建筑物、人、飞机(a) 场景-对象关系的可视化。室内场景和室外场景被聚类成不同的组(顶部图像的左部分和顶部图像的右部分)。顶部图像)。我们还能够定位出现在各种场景中的常见对象,或者找到特定场景中的对象(左下角和右下(b) 从左到右:对象-材料关系、部件-材料关系和材料-纹理关系的可视化我们能够发现一些知识,如一些水槽是陶瓷的,而另一些是金属的。我们还可以找出什么可以用来描述一种材料。图六、可视化发现了各种概念之间的组成关系我们在Broden+上训练的框架能够在多个层次上发现合成视觉知识。这也是在异构数据注释上训练我们使用Places-365 [30]的验证集作为我们的测试平台,其中包含来自365个场景的36, 500张图像,因为Places数据集包含来自各种场景的图像并且更接近真实世界。我们以层次化的方式定义了几种关系,即场景-对象关系、对象-部件关系、对象-材质关系、部件-材质关系和材质-纹理关系。请注意,只有对象-部分关系可以直接从地面实况注释中读出,其他类型的关系只能从网络预测中提取。14T.肖氏Y.刘湾,澳-地Zhou,Y.Jiang,J. 孙场景-对象关系。对于每个场景,我们计算有多少对象显示了这个场景的频率归一化根据[44],我们将该关系公式化为二分图G=(V,E),该二分图G =(V,E)由场景节点和对象节点的集合V=Vs<$ Vo以及边的集合E具有从Vs到Vo的权重的边表示对象Vo出现在场景Vs中的可能性百分比。没有边连接都来自Vs或都来自Vo的两个节点。我们过滤掉权重低于阈值的边,并运行聚类算法以形成更好的布局。由于空间限制,我们只对几十个节点进行采样,并在图6(a)中显示图形的可视化。我们可以清楚地看到,室内场景主要共享诸如天花板、地板、椅子或窗玻璃之类的对象,而室外场景主要共享诸如天空、树、建筑物或山之类的对象更有趣的是,即使在场景集合中,人造和自然场景也被聚类到不同的组中。在布局中,我们还能够定位出现在各种场景中的公共对象,或者找到某个场景中的对象图6(a)中左下角和右下角的图片举例说明了一个例子,我们可以合理地得出结论,货架经常出现在商店、商店和杂物间中;在直升机场中,经常有树木、围栏、跑道、人,当然还有飞机。对象(部分)-材料关系。除了场景-对象关系,我们还能够发现对象-材料关系。由于我们的模型能够预测每个像素处的对象和材料的标签,因此通过在每个像素处计算每个材料在每个对象中的百分比,可以直接将对象与其相关材料与场景-对象关系类似,我们构建了一个二分图,并在图6(b)的左侧显示了其可视化。 使用该图,我们可以推断出一些水槽是陶瓷的,而另一些是金属的;不同的地板具有不同的材料,例如木材、瓷砖或碳。文字和墙壁都是平行的;天空也是平行的,更像是一种隐喻。然而,我们也可以看到,床的大部分是织物而不是木材,这是由于床上的实际物体造成的错位直观地,对象中的部件的材料将更单调。我们在图6(b)的中间示出了部件材料可视化。材料-纹理关系一种类型的材料可以具有各种纹理。但什么是材料的视觉描述?我们在图6(b)的右侧示出了材料-纹理关系的可视化。值得注意的是,虽然缺乏纹理标签的像素级注释,但我们仍然可以生成合理的关系图。例如,地毯可以被描述为无光泽的、有斑点的、染色的、交叉阴影的和有凹槽的。5结论这项工作研究的任务,统一的感知解析,其目的是在解析视觉概念的场景类别,对象,部分,材料和纹理的图像。一个多任务的网络和训练策略,处理异构注释的开发和基准测试。我们进一步利用训练好的网络来发现场景中的视觉知识。面向场景理解的统一感知句法分析15引用1. 他,K.,张,X.,Ren,S.,孙杰:用于图像识别的深度残差学习。在:IEEE计算机视觉和模式识别会议论文集。(2016)77 02. Zhou,B.,(1991年),中国地质大学,赵,H.,Puig,X.,Fidler,S.,Barriuso,A.Torralba,A.:通过ade20k数据集进行场景In:Proc.CVPR. (2017年)3. Hu , R. , 做 吧 , PHe , K. , 达 瑞 尔 , T. , Girshi ck , R. :Learningingtoosegentery t e arXiv预印本arXiv:1711.10370(2017)4. Cimpoi,M.,Maji,S.,科基诺斯岛Mohamed,S.,Vedaldi,A.:描述野外的纹理。In:Computer Vision and Pattern Recognitio
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功