没有合适的资源?快使用搜索试试~ 我知道了~
1通过ADE20K数据集进行场景解析周博磊1,赵航1,Xavier Puig1,Sanja Fidler2,Aushi Barriuso1,Antonio Torralba11美国麻省理工学院2加拿大多伦多大学摘要场景分析,即图像中的物体和物体的识别和分割,是计算机视觉中的关键问题之一尽管社区在本文中,我们介绍并分析了ADE20K数据集,涵盖了场景、对象、对象的部分,在某些情况下甚至是部分的部分的各种场景解析基准是在ADE20K的基础上构建的,包含150个对象和素材类几个分割基线模型进行了评估的基准。提出了一种称为级联分割模块的新型网络设计,用于将场景解析为级联中的素材、对象我们进一步表明,训练的场景解析网络可以导致图像内容去除和场景合成等应用。1. 介绍视觉场景的语义理解是计算机视觉的圣杯之一。像ImageNet[26], COCO[17]和Places[35]这样的大规模图像数据集的出现,以及深度卷积神经网络(ConvNet)方法的快速发展,为视觉场景理解带来了巨大的进步。如今,给定一个客厅的视觉场景,配备了经过训练的ConvNet的机器人可以准确地预测场景类别。然而,为了在场景中自由导航并操纵内部对象,机器人需要消化更多的信息。它不仅需要识别和定位沙发、桌子、电视等物体,还需要识别和定位它们的部件,例如,椅子的座位或杯子的把手,以允许适当的交互,以及分割诸如地板、墙壁和天花板之类的东西以用于空间导航。场景分析,即识别和分割图像中的对象和内容,仍然是1数据集和预训练模型可在http://groups.csail.mit.edu/vision/datasets/ADE20K/上获得图1. ADE20K数据集中的图像使用对象和部件进行了密集的详细注释。第一行显示示例图像,第二行显示对象和内容的注释,第三行显示对象部分的注释。场景理解除了图像级识别之外,场景解析还需要对具有大量对象的场景进行更密集的注释。然而,当前数据 集 具 有 有 限 数 量 的 对 象 ( 例 如 , COCO[17] ,Pascal[10]),并且在许多情况下,这些对象并不是人们在世界上遇到的最常见的对象(如Fris-bees或棒球棒),或者数据集仅覆盖有限的场景集(例如,城市景观[7])。一些值得注意的例外是Pascal-Context [21]和SUN数据库[32]。然而,Pascal-Context仍然包含主要集中在20个对象类上的场景,而SUN在对象级别上具有噪声标签。我们的目标是收集一个具有密集注释图像(每个像素都有一个语义标签)的数据集,该我们数据集中的图像经过非常详细的手动分割,涵盖了各种场景,对象和对象部分类别。收集这样的注释的挑战包括找到可靠的注释器,以及如果没有预先定义类列表另一方面,开放式词汇命名也存在命名不一致的问题,633634在不同的注释器之间切换。相比之下,我们的数据集由单个专家注释器注释,提供非常详细和详尽的图像注释。平均而言,我们的注释者为每个图像标记了29个注释片段,而外部注释者(如Amazon MechanicalTurk的工作人员)为每个图像标记了16个片段。此外,数据的一致性和质量远远高于外部注释器。图1显示了我们数据集的示例。本文的结构如下。首先,我们描述了ADE20K数据集,收集过程和统计。然后,我们介绍了一个通用的网络设计,称为级联分割模块,它使神经网络能够级联分割东西,对象和对象部分。在场景分析基准ADE20K上对几种语义分割网络进行了评估所提出的我们进一步将场景解析网络应用于场景内容自动去除和场景合成。1.1. 相关工作为了对场景进行语义理解,已经收集了许多数据集我们回顾了数据集根据其注释的详细程度,然后简要地通过以前的工作语义分割网络。对象分类/检测数据集。大多数大型数据集通常只包含 图像 级别 的 标签 或 提供 边界 框 。 例 如Imagenet[26]、Pascal [10]和KITTI [12]。Imagenet拥有最大的类集,但包含相对简单的场景。Pascal和KITTI更具有挑战性,并且具有更多的对象/图像,然而,它们的类以及场景更受约束。语义分割数据集。 现有 具有像素级标签的数据集通常只为前景对象的子集提供注释(PASCAL VOC中有20个[10],Microsoft COCO中有91个[17])。收集所有像素都标记的密集注释要复杂得多。这些努力包括SIFT Flow 数 据 集 [18] 、 Pascal-Context [21] 、 NYUDepth V2 [22]、SUN数据库[32]、SUN RGB-D数据集[28]、CityScapes数据集[7]和OpenSurfaces [2,3]。包含对象、部件和属性的数据集。 核心数据集[6]是探索跨类别对象部分注释的最早工作之一最近,发布了两个数据集,它们超越了典型的标签设置,还为对象部件提供像素级注释,即Pascal-Part数据集[5]或材料类,即OpenSur- faces [2,3]. 我们通过收集更广泛场景选择的非常高分辨率的图像来推进这一努力,每个图像包含一大组对象类。我们可以-标记了stuff和object类,我们另外注释了它们的部分以及这些部分的部分。我们相信我们的数据集ADE20K是同类数据集中最具综合性的数据集之一。我们在SEC中提供了数据集之间的比较。 2.5语义分割/解析模型。. 有很多模型被提出用于图像分析。例如,提出了MRF框架来解析不同级别的图像[30]或分割稀有对象类[33];检测与分割相结合以提高性能[31];利用填充类来定位对象[13]。随着卷积神经网络(CNN)在图像分类中的成功[16],人们对使用具有密集输出的CNN进行语义图像解析的兴趣越来越大,例 如 多 尺 度 CNN [11] , 递 归 CNN [25] , 完 全 CNN[19],去卷积神经网络[24],编码器-解码器SegNet[1],多任务网络级联[9]和DilatedNet [4,3 4]中。它们在Pas- cal数据集上进行了基准测试,在分割20个对象类方面具有令人印象深刻的性能。其中一些[19,1]在Pascal-Context[21]或SUN RGB-D数据集[28]上进行了评估,以显示在场景中分割更多对象类的能力。在[8]中探索了联合填充和对象分割,其使用预先计算的超像素和特征掩蔽来表示填充。实例分割和分类的级联在[9]中进行了探索。 在本文中,我们介绍了一个通用的网络模块,分段的东西,对象和对象部分联合级联,它可以集成在现有的网络。2. ADE20K:完全注释的图像数据集在本节中,我们将介绍我们的ADE 20K数据集,并通过各种信息统计数据对其进行分析。2.1. 数据集汇总训练集中有20,210张图像,验证集中有2,000张图像,测试集中有3,000张图像所有的图像都用对象进行了详尽的注释。许多对象也使用其部件进行注释。对于每个对象,都有关于它是被遮挡还是被裁剪的附加信息以及其他属性。验证集中的图像用部分进行详尽注释,而部分注释在训练集中的图像上不是详尽的。数据集中的注释仍在增长。ADE20K数据集的样本图像和注释如图所示。1.一、2.2. 图像标注对于我们的数据集,我们感兴趣的是拥有一组不同的场景,其中包含所有对象的密集注释。图像来自LabelMe[27], SUN数据集[32]和Places[35],并被选择用于覆盖900个场景635图2. 注释接口,图像中对象及其关联部分的列表.SUN数据库中定义的类别。图像由单个专家工作人员使用LabelMe界面注释[27]。图2示出了注释界面的快照和一个完全分割的图像。工人提供了三种类型的注释:对象段的名称,对象部分,和属性。所有对象实例都是独立分割的,因此数据集可用于训练和评估检测或分割算法。COCO[17]、 Pascal[10]或Cityscape[7]等数据集首先定义一组感兴趣的对象类别。然而,当标记场景中的所有对象时,不可能使用预定义的对象列表,因为新的类别经常出现(见图2)。5.d)。在这里,注释器创建了一个视觉概念字典,不断添加新的类以确保对象命名的一致性。对象部件与对象实例相关联。请注意,部件也可以有部件,我们也标记这些关联。例如, 总零件层次的深度为3。对象和部件层次结构在柔性材料中。2.3. 注释一致性当标记任务被限制为对象类的固定列表时,定义标记协议相对容易,然而当类列表是开放式的时,它变得具有挑战性由于目标是标记每个图像中的所有对象,因此类列表将无限增长。许多对象类在整个图像集合中只出现几次。然而,这些罕见的对象类不能被忽略,因为它们可能是解释场景的重要元素。在这些情况下,标记变得很困难,因为我们需要保持所有对象类的不断增长的列表,以便在整个数据集上具有一致的命名。尽管注释者尽为了分析注释一致性,我们从验证集中随机选择61个图像的子集,然后60.2% 95.1% 82.3% 89.7%图3. 注释一致性分析。每列显示一个图像和两个由同一注释器在不同时间完成的分割。底行显示了当两个分割被减去时的像素差异,以及具有相同标签的像素的百分比在所有重新标注的图像中,平均为82。4%的像素得到相同的标签。在第一列的示例中,具有相同标签的像素的百分比相对较低,因为注释器在两轮注释期间将同一区域标记为在第三列中,场景中有许多对象,注释器在两个分割之间遗漏了一些对象。请我们的注释员重新注释(有六个月的时差)。人们期望这两种注释之间存在一些差异。图3中示出了几个示例。平均82岁。4%的像素得到了相同的标签。其余17.6%的像素有一些错误,我们将其分为以下三种错误类型:• 分割质量:分割质量和对象边界轮廓的变化。一个典型的错误来源出现在分割复杂的对象,如建筑物和树木,可以分割不同程度的精度。5.7%的像素有这种类型的错误。• 对象命名:对象命名的差异(由于概念之间的模糊性或相似性,例如,在一个分割中将大型汽车称为6.0%的像素存在命名问题。这些错误可以通过定义一个非常精确的术语来减少,但是随着词汇量的增加,这变得更加困难• 分割数量:两个分割之一中缺失的对象。在每个图像中存在非常大量的对象,并且一些图像可能比其他图像被更彻底地注释。例如,在图3的第三列中,注释者遗漏了一些差异隔离区隔离区图像636不同注释中的小对象5.9%的像素是由于缺少标签。存在类似的问题表1.语义分割数据集的比较图像对象Inst.物镜Cls.部件说明第Cls部分目标Cls。每Img.Coco∗123,287 886,284 91 0 0 3.5在分割数据集中,如伯克利图像ImageNet476,688 534,309 200 0 0 1.7分割数据集[20]。纽约大学深度V2 1,449 34,064 894 0 0 14.1城市景观25,000 65,385 30 0 12.2孙16,873 313,884 4,479 0 0 9.8OpenSurfaces 22,21471,460浏览器PascalContext 10,103 104,398160 0 0不适用540 181,770 40 5.1三种错误类型的中位误差值为:4.8%、0.3%和2.6%,表明平均值由少数图像支配,并且最常见的错误类型是分割质量。为了进一步比较由我们的单个专家注释器和AMT类注释器完成的注释,来自验证集的20个图像由两个邀请的外部注释器进行注释,这两个外部注释器都具有图像标记的先前经验与我们的注释器提供的分割相比,第一个外部注释器有58.5%的不一致像素,第二个外部注释器有75%的不一致像素。这些不一致性中的许多是由于外部注释器提供的分割质量差(如AMT所观 察 到 的 , AMT需 要 多 个 验 证 步骤 进 行 质 量 控 制[17])。对于最好的外部注释器(第一个),7.9%的像素具有不一致的分割(比我们的注释器稍差),14.9%具有不一致的对象命名,35.8%的像素对应于丢失的对象,这是由于与我们的专家注释器注释的对象相比,外部注释器注释的对象数量要少得多外部注释器平均每个图像标记16个片段,而我们的注释器每个图像提供2.4. 数据集统计数据图4.a显示了排序对象频率的分布。该分布类似于齐普夫定律,通常在图像中对对象进行详尽注释时发现[29,32]。它们与COCO或ImageNet等数据集的分布不同,后者的分布更均匀,这是手动平衡的结果。图4.b示出了注释部分的分布,注释部分通过它们所属的对象分组并且通过每个对象类内的频率排序。大多数对象类还具有部件计数的非均匀分布。图4.c和图4.d显示对象如何跨场景共享以及对象如何共享图图4.e显示了"门“部件外观的变化性对象分割的模式如图所示。5.a包含四个对象(从上到下):“天空”、“墙”、“建筑物”和“地板”。当简单地使用该模式来分割图像时,平均每个图像的20.9%图5.b示出了根据不同类别和实例的数量的图像的分布。平均每个图像有19.5个实例和10.5个对象类,比其他现有数据集大(见表1)。图5.c显示了部件的分布。ADE20K 22,210 434,826 2,693 175,961 476 9.9∗ 只有边界框(没有像素级分割)。稀疏注释。∗∗ PascalContext数据集没有实例分段。 为了估计实例的数量,我们为每个类标签找到连接的组件(至少有150像素)。由于对象类列表未预定义,因此随着注释时间的推移会出现新的类。图5.d显示了随着注释实例数量的增加,对象(和部件)类的数量图5.e显示了在标记n个实例之后,实例n+1是一个新类的概率。我们拥有的段越多,我们将看到一个新类的概率就越小在数据集的当前状态2.5. 与其他数据集的我们将ADE 20K与Tab中的现有数据集进行比较。1.与最大的注释数据集COCO[17]和Imagenet[26]相比,我们的数据集包括更多样化的场景,其中每个图像的对 象 类 的 平 均 数 量 分 别 是 3 倍 和 6 倍 。 相 对 于SUN[32], ADE20K在图像和对象实例方面大约大35%。然而,我们数据集中的注释要丰富得多,因为它们还包括部分级别的分割。这种注释仅适用于Pascal-Context/Part数据集[21,5],其中包含20个对象类中的40个不同的部分类。请注意,我们合并了他们的一些零件类,以与我们的标签保持一致(例如,我们将左腿和右腿都标记为相同的语义部分腿)。由于我们的数据集包含更广泛的对象类集合的部分注释,因此部分类的数量几乎是我们数据集中的9倍。一个有趣的事实是,ADE20K中的任何图像都至少包含5个对象,每个图像的对象实例最大数量达到273个,当计算部件时,则为419个实例。这显示了我们数据集的高度注释3. 级联分段模块虽然对象出现在场景中的频率遵循长尾分布,但是对象的像素比率也遵循这样的分布。例如,像“墙”,“建筑物”,“地板”和“天空”这样的东西类占据了所有注释像素的40%以上,而离散对象,如“花瓶”和“微波炉”,则位于分布的尾部(见图2)。4b),仅占据注释像素的0.03%。由于长尾分布,语义分割网络很容易被最频繁6378070605040302010102030405060708090100按可共享性70060050040030020010050100150200250300按可共享性部件对象注释实例100100010000“墙”“人”“天”“地”“树”“天花板”“楼”“树”“地”“草”'cue''厨房岛'“台球"”肥皂"墓碑“”商品“'录像''墓碑''墓碑''干草卷'“门”“窗”“把手”“底座”“抽屉”“腿”“轮子”“窗格”“旋钮”“左脚”“左手”“左腿”“鼠标”“脖子”“口袋”“右臂”“右脚”“右手”“右腿"”a)、b)、c)d)e)图4. a)按频率排序的对象类。只显示了带有超过100个注释实例的前270个类。68个类有超过1000个分段实例。b)按对象分组的部件的频率。有200多个对象类带有注释的零件。只有包含5个或更多部分的对象才会显示在此图中(每个对象类最多显示7个部分c)按它们所属场景的数量排列的对象d)对象部分,按其所属对象的数量排序。(e)有门的物体的例子。右下角的图像是门不作为零件的示例。25001042000150010001041041000100十比一10-25000010 20 304050001234567891010 110 210310410510610- 3102103104105106a)b)类别/实例数c)类别/实例数目d)、实例数(e) 实例数图5. a)对象分割的模式包括“天空”、“墙壁”、“建筑物”和“地板”。b)每个图像的分割对象实例和类的数量的直方图。c)每个对象的分割部分实例和类的数量的直方图。d)作为分段实例(对象和部件)的函数的类的数量。方块表示数据集的当前状态。e)作为实例数量的函数的看到新对象(或部件)类的概率。实例(19.6)类(9.9)部件对象注释实例实例3.92.3级共享每个对象100100010000墙人树建筑物汽车椅子地板植物灯窗户天空画天花板桌子橱柜标志灯人行道书垫路灯窗帘盒草瓶架子座山岩石镜子聚光灯地床花盆花扶手椅栅栏枕头杆花瓶柱烛台沙发玻璃墙插头地毯水槽栏杆长凳蝴蝶结房子花盆工作表面棕榈树楼梯袋篮毛巾交通灯荧光转椅玩具一种灌木棚缸凳摩天大楼时钟垃圾桶咖啡桌旗水双门面包车吊灯鞋水果头右臂左臂左腿右腿右手躯干窗户门阳台柱商店橱窗车顶百叶窗轮窗门前灯牌照尾灯挡风玻璃腿后座围裙臂伸展器座垫孔扩散器遮光板顶篷灯泡窗玻璃窗框下窗扇上窗扇窗格条轨道人建筑车椅子光源窗口壳体腿数量的图像抽屉上裙板门 表抽屉顶前侧 内阁架 裙帘柱底管篷帘臂门框把手把手窗格条锁铰链床头板腿踏板侧轨床柱侧梯搁板门侧上 腿臂 腿背座垫背枕座座垫靠背枕臂腿部座椅底座靠背裙子抽屉腿顶门侧架窗门屋顶烟囱栏杆立柱百叶窗靠背底座座臂活塞扶手腿座椅撑板上裙板搁板抽屉轮窗门牌照尾灯挡风玻璃前照灯灯罩灯泡臂链罩船食物、固体灯食品海栏杆纸场烛台盘架楼梯间球开关海报品牌名称盲人电视摩托车卡车梳妆台雕像自行车监视器杂志厨灶空调器可电脑梁伞雕塑动物书柜电话壁炉斗风扇公共汽车柜台餐巾厕所冰箱浴缸屏幕文本墓碑搁脚凳衣柜砂板mugcake沙井闸河台面小山微波帽集装箱台阶门框路边扬声器手提包板雪蜡烛桶池球桥飞机公告板杯柱绿篱罩管中央预订毛毯手提箱地面洗碗机台球桌小册子水罐烧烤垫甲板椅陈列柜灯泡街机绘图水龙头笔记本纸鱼夹克价格标签酒吧散热器衬衫门共享每个部分床架扶手椅数量的对象沙发书桌房子转椅凳子茶几Van吊灯班数轮挡风玻璃前照灯车窗牌照镜抽屉侧裙卡车梳妆台前鸟网球鞋 旗雕像顶部腿刀咖啡基地制造商停车烤炉按钮面板拨号燃烧器抽屉监视器键盘电脑机箱鼠标扬声器接收器底座屏幕按钮软线键盘刀片电机天篷遮阳管窗轮挡风玻璃大灯门牌照镜门抽屉架侧顶腿门按钮面板表盘屏幕按钮显示按钮起落架稳定翼机身涡轮发动机角套腿侧袋床轨米厨房炉灶看台背包商品茶壶分区交通锥塔洗涤计算机机卫生纸视频笔记本电脑天线堤岸梯子纱门通风口老虎机消火栓亭盖式皂液加热器淋浴架茶杯自动售货机游泳池棒厨房岛粘合剂遥控牛墩杆靴式起重机罐衣架柜台托盘面包罐陶器瀑布水壶狗手推车机柜投影屏幕电话风扇总线新类别衣柜微波飞机邮箱树干抹布画架裤子T恤小屋马舞台烛台干草跑道模拟控制台麦克风包平底锅勺子毛巾架叉子金属丝皂十字喷泉毛衣纸巾打印机花束天窗台球桌洗衣机柜底门拨号按钮洗涤剂分配器按钮面板屏幕门抽屉工作表面侧面顶部 厨房岛638斯图河48x48x4096学习分割目标地图384x384x396x96x256对象流48x48x4096目标得分地图场景分割(Part流)48x48x4096部分分割图6.场景解析的级联分割模块框架素材流生成素材分割和对象化从共享功能激活映射。对象流然后通过整合来自素材流的对象图来生成对象分割。最后将物体分割和物体分割融合,得到完整的场景分割类似地,部分流从对象流中获取对象得分图以进一步生成对象-部分分割。由于并非所有对象都有零件注释,因此零件流是可选的。特征尺寸基于Cascade-dilatedNet,Cascade-SegNet具有不同但相似的结构。东西类。另一方面,语义切分网络的设计忽略了材料与对象、对象与对象部分之间的空间布局关系。例如,墙上的画是墙的一部分(画挡住了墙),汽车上的轮子也是汽车的一部分。为了处理场景中对象的长尾分布以及场景、对象和对象部分的空间布局关系,提出了一种称为级联分割模块的网络设计该模块是一个通用的网络设计,可以潜在地集成在任何以前的语义分割网络。我们首先将场景的语义类分类为三个宏类:素材(天空、道路、建筑物等)、前景对象(汽车、树、沙发等)和对象部分(汽车车轮和门、人头部和躯干等)。请注意,在某些情况下,有一些对象类,如在用于场景解析的网络中,使用不同的高级层流来表示不同的宏类并识别所分配的类。然后融合来自每个流的分割结果以生成分割。所提出的模块如图所示。六、更具体地,填充流被训练为对所有填充类加上一个前景对象类(其包括所有非填充类)进行分类。在训练之后,填充流生成填充分割和指示像素属于前景对象类的概率的密集对象图。对象流被训练以分类离散对象。在对象流的训练损失函数中忽略所有非离散对象。在训练之后,对象流进一步分割来自填充流的预测对象图上的每个离散对象。将结果与素材分割合并,生成场景分割。对于那些离散的物体通过用部件注释,部件流可以被联合训练以分割对象部件。因此,部分流进一步分割从对象流预测的每个对象得分图上的部分。具 有 两 个 流 ( stuff+objects ) 或 三 个 流(stuff+objects+parts)的网络可以端到端地训练流共享较低层的权重。每个流在结束时都有一个训练损失。对于填充流,我们使用每像素交叉熵损失,其中输出类是所有填充类加上前景类(所有离散对象类都包含在其中)。我们使用对象流的每像素交叉熵损失,其中输出类是所有离散对象类。对象图作为地面实况二进制掩码给出,其指示像素是否属于任何填充类或前景对象类。该掩码用于在对象流的训练损失中排除属于任何填充类的像素的惩罚。类似地,我们对部分流使用交叉熵损失。所有零件类一起训练,而非零件像素在训练中被忽略。在测试中,部件在由对象流给出的其关联对象得分图两个流和三个流的训练损失是L=L个填充物+L个对象和L=L个填充物+L个对象+L个部分分别每一层的配置都基于所使用的基线网络 我们在两个基线网络Segnet [1]和DilatedNet [4,34]上集成了所提出的模块。在接下来的实验中,我们评估了所提出的模块为场景解析带来了很大的改进。4. 实验为了训练网络进行场景解析,我们从ADE 20K数据集中选择了按总像素比率排名的前150个对象,并构建了一个场景解析基准,639ADE20K,称为MIT SceneParse1502。由于ADE 20K数据集中的原始图像具有各种大小,为了简单起见,我们重新缩放那些大尺寸图像以使它们的最小高度或宽度为基准中的512。在150个对象中,有35个填充类(即,墙、天空、道路)和115个离散对象(即,车、人、桌子)。150个对象的标注像素占数据集中所有像素 的 92.75% , 其 中 填 充 类 占 60.92% , 离 散 对 象 占31.83%。4.1. 场景解析至于SceneParse 150基准的场景解析基线,我们训练了三个语义分割网络:SegNet [1],FCN-8 s [19]和DilatedNet [4,34]。SegNet具有用于图像分割的编码器和解码器架构; FCN对CNN中的多个层的激活进行上采样,以进行像素分割; DilatedNet从完全卷积的VGG-16网络中删除了pool 4和pool 5,并将以下卷积替换为扩张卷积(或atrous卷积),并在最后添加了一个双线性上采样层。我们在两个基线网络上集成了所提出的级联分割模块:SegNet和DilatedNet。我们没有将其与FCN集成,因为原始的FCN需要大量的GPU内存,并且具有跨层的跳过对于级联SegNet,两个流共享一个编码器,从conv1 1到conv5 3,而每个流都有自己的解码器,从deconv5 3到loss。对于Cascade-DilatedNet,两个流在pool 3之后分裂,并在之后保持其特征图的空间维度。为了公平比较和基准测试的目的,级联网络只有内容流和对象流.我们使用NVIDIA Titan X GPU上的Caffe库[15] 随机梯度下降,0。001的学习率和0.9momentum被用作优化器,我们每10k次迭代就会降低学习率结果在四个通常用于语义分割的度量中报告[19]:像素精度表示正确分类的像素的比例;平均准确度表示所有类别上平均的正确分类像素的比例。平均IoU指示在所有类上平均的预测像素和地面实况像素之间的交集。加权IoU指示通过每个像素的总像素比率加权的IoU。课由于像“墙”和“地板”这样的一些类相反,平均IoU反映了模型对基准中每个离散类进行分类的准确程度。场景解析数据和开发工具箱将提供给公众。我们取像素精度和平均IoU的平均值2http://sceneparsing.csail.mit.edu/表2.SceneParse150验证集上的性能网络像素访问平均加速加权IoUFCN-8s71.32%40.32%0.29390.5733SegNet71.00%31.14%0.21640.5384DilatedNet73.55%44.59%0.32310.6014级联SegNet71.83%37.90%0.27510.5805级联扩张网74.52%45.38%0.34900.6108表3.填充物和离散对象分割的性能网络35平均加速东西平均IoU115离散平均加速电子对象平均IoUFCN-8s46.74%0.334438.36%0.2816SegNet43.17%0.305127.48%0.1894DilatedNet49.03%0.372943.24%0.3080级联SegNet40.46%0.324537.12%0.2600级联扩张网49.80%0.377944.04%0.3401作为挑战赛基线和级联网络的分割结果列于表2中。在这些基线中,DilatedNet在SceneParse150上实现了最好的性能。级联网络Cascade-SegNet和Cascade-DilatedNet的性能均优于原始基线。在平均IoU方面,SegNet的级联分割模块带来的改进为6%,DilatedNet为2.5%。在表3中,我们进一步分解了35个填充物和115个离散对象类的网络性能。我们观察到,这两个级联网络在115个离散对象上的表现比基线好得多。这验证了级联模块的设计有助于改善离散对象的场景解析,因为它们具有更少的训练数据,但比那些东西类的视觉复杂度更高。来自验证集的分割示例如图所示。7.第一次会议。与基线SegNet和Di-latedNet相比,Cascade-SegNet和Cascade-DilatedNet的分割结果此外,来自素材流的对象映射突出场景中可能的离散对象4.2. 部分分割对于零件分割,我们选择了八个经常用零件注释的对象类:“人”、“建筑物”、“汽车”、“椅子”、“桌子”、“沙发”、“床”、“灯”。在过滤掉实例数小于300的对象的零件类后,共有36个零件类被包含在训练和测试中。我们在场景解析中使用的Cascad-DilatedNet上训练部分流。对材料、物体和物体部分进行联合分割的结果如图所示8. 在一个单一的前向传递的网络与建议的级联模块能够解析场景在不同的水平。我们使用准确性而不是IoU作为度量标准来衡量部分分割结果,因为数据集中对象实例的部分没有完全注释。八个物体的所有部分的准确度如图8.a所示,平均准确度为55.47%。4.3. 进一步应用我们在下面展示了场景解析的两个应用640身体测试图像地面实况FCN-8 s SegNet DilatedNet Cascade-DilatedNet对象地图图7.地面实况,网络给出的分割结果,以及Cascade-DilatedNet给出的对象图负责人腿罩柱灯底座抽屉主宾席一种腿后腿座座垫底座沙发靠背臂后 轮门挡风玻璃汽车车身门窗百叶窗商店橱窗烟囱屋顶阳台立柱其他栏杆其他床头板踏脚板腿测试图像地面实况分割结果人树a)、a)0 0.2 0.4 0.6 0.8 1b)图8.部件分割结果。自动删除图像内容。图像内容删除方法通常要求用户注释要 移 除 的 目 标 对 象 的 精 确 边 界 。 在 这 里 , 基 于Cascade-DilatedNet的预测对象概率图,我们自动识别目标对象的图像区域。在使用预测对象概率图裁剪出目标对象之后,我们简单地使用图像完成/修补方法来填充图像中的孔。图9.a示出了自动图像内容移除的一些示例。可以看出,利用预测的对象得分图,我们能够以精确的方式从图像中裁剪出我们使用了[14]中描述的图像完成技术。场景合成。给定场景图像,场景解析网络可以预测语义标签掩码。此外,通过将场景解析网络与[23]中提出的最新图像合成技术相耦合,我们还可以在给定语义标签掩码的情况下合成场景图像。总体思路是优化深度图像生成器网络的代码输入图9.b示出了每行中给定语义标签掩码的两个合成图像样本作为比较,我们还显示了与语义标签掩码相关联的原始图像。b)、图9. 场景解析的应用:a)使用由场景解析网络预测的对象得分图来自动去除图像内容。第一列显示原始图像,第二列包含对象得分图,第三列显示填充图像。b)场景合成。给定注释掩码,通过耦合场景解析网络和[23]中提出的图像合成方法来合成图像。5. 结论在本文中,我们介绍了一个新的密集注释的数据集的东西,对象和部分的实例,涵盖了一组不同的视觉概念的场景。提出了一种通用的网络设计,将场景解析为级联的素材、鸣谢:这项工作得到了三星和美国国家科学基金会的资助,资助号为1524817. SF感谢NSERC的支持。BZ由Facebook Fellowship提供支持。椅子建筑床641引用[1] V.巴德里纳拉亚南,A. Kendall和R.西波拉Segnet:用于图像分割的深度卷积编码器-解码器架构。arXiv:1511.00561,2015。[2] S. 贝尔山口Upchurch,N.Snavely和K.巴拉OpenSurfaces:表面外观的丰富注释目录。ACM Trans. on Graphics(SIGGRAPH),32(4),2013.[3] S. Bell,P. Upchurch,N. Snavely和K.巴拉野外材料识别与上下文数据库中的材料在Proc.CVPR,2015中。[4] L- C. Chen,G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。Deeplab:使用深度卷积网络、atrous卷积和完 全 连 接 的 CRF 进 行 语 义 图 像 分 割 。 arXiv :1606.00915,2016。[5] X.陈河,巴西-地Mottaghi,X. Liu,N.- G.周,S。菲德勒河Ur-tasun和A.尤尔。检测您可以:使用整体模型和身体部位检测和表示对象。在Proc. CVPR,2014。[6] 联合O. I. a. U.- C. 计算机视觉组。跨类别对象识别。在http://vision.cs.uiuc.edu/CORE/,2009年。[7] M. 科德茨,M。奥姆兰,S。拉莫斯,T. 你好M. 恩茨韦勒河贝南森,美国弗兰克,S。罗斯和B。席勒城市景观数据集。在CVPR研讨会上,2015年,数据集的未来。[8] J. Dai,K.He和J.太阳用于联合对象和填充物分割的卷积特征掩蔽在Proc.CVPR,2015中。[9] J. Dai,K. He和J. Sun.通过多任务网络级联的实例感知语义分割。Proc. CVPR,2016.[10] M.埃弗灵厄姆湖,澳-地凡古尔角,澳-地K.威廉斯,J.Winn和A.齐瑟曼。pascal视觉对象类(voc)的挑战。Int’lJournal of Computer Vision[11] C.法拉贝特角库普里湖Najman和Y.乐存。学习- ing场景标记的层次特征。IEEE Trans. on Pattern Analysis andMachine Intelligence,2013.[12] A. Geiger,P. Lenz,和R.盖革,等.乌塔松我们准备好了吗?Kitti Vision基准套件。在Proc. CVPR,2012。[13] G. Heitz和D.科勒学习空间背景:用东西找东西。在Proc.ECCV,2008年。[14] J. - B. Huang,S.B. Kang,N.Ahuja和J.科普夫利用平面结构制导实现图像的自动完成。ACM Transactions onGraphics(TOG),2014年。[15] Y. Jia、E.Shelhamer,J.多纳休S.Karayev,J.隆河,西-地Gir- shick,S. Guadarrama和T.达雷尔。Caffe:用于快速特征嵌入的卷积架构。ACM国际多媒体会议论文集。ACM,2014年。[16] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。神经信息处理系统的进展,2012年。[17] T.- Y. 林,M。迈尔,S。贝隆吉,J.Hays,P.Perona,D.Ra-manan , P.Dolla'r 和 C.L. 齐 特 尼 克Microsoftcoco:上下文中的通用对象。在Proc. ECCV中。2014年[18] C. 刘,J.Yuen,和A.托拉尔巴非参数场景解析:通过密集场景对齐进行标签传输。在Proc.CVPR,2009中。642[19] J.朗,E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。在Proc.CVPR,2015中。[20] D.马丁角,澳-地Fowlkes,D. Tal和J.马利克 人类分割自然图像数据库及其在评估分割算法和测量生态统计中的应用。InProc. ICCV,2001.[21] R. Mottaghi,X. Chen,X. Liu,N.- G.周S W.李,S。菲德勒河Urtasun和A.尤尔。背景在野外对象检测和语义分割中的作用在Proc. CVPR,2014。[22] P. K. Nathan Silberman、Derek Hoiem和R.费格斯。室内分割和支持从rgbd图像推断。在Proc.ECCV,2012中。[23] A. 阮 A. 多索维茨基 J. Yosinski T. 布洛克斯,还有J. Clune通过深度生成器网络合成神经网络中神经元的首选输入。NIPS 2016,2016.[24] H. Noh,S. Hong和B.韩用于语义分割的学习反卷积网络。在Proc. ICCV,2015中。[25] P. H. Pinheiro和R.科洛伯特用于场景标记的递归卷积神经网络。在ICML,第82-90页[26] O. 鲁萨科夫斯基Deng,H.Su,J.Krause,S.萨蒂希S.妈Z。Huang,黄背天蛾A. 卡帕西A.科斯拉,M。伯恩斯坦A. C. Berg和L.飞飞ImageNet大规模视觉识别挑战。Int’l Journal of Computer Vision[27] B. C. 罗素,A.托拉尔巴K.P. Murphy和W.T. 弗里曼。Labelme:一个数据库和基于网络的图像注释工具。Int’l Journal of Computer Vision[28] S.宋,S. P. Lichtenberg和J.萧Sun rgb-d:一个rgb-d场景理解基准测试套件。 在proc CVPR,2015年。[29] M. Spain和P.佩洛娜测量和预测对象的重要性。国际计算机视觉杂志,2010年。[30] Tighe 和 S. Lazebnik 从 多 个 层 面 理 解 场 景 。InProc.ICCV,2011.[31] J. Tighe和S.Lazebnik 发现事物:使用区域和每个样本检测器进行图像解析在Proc.CVPR,2013中
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索AVL树算法:以Faculdade Senac Porto Alegre实践为例
- 小学语文教学新工具:创新黑板设计解析
- Minecraft服务器管理新插件ServerForms发布
- MATLAB基因网络模型代码实现及开源分享
- 全方位技术项目源码合集:***报名系统
- Phalcon框架实战案例分析
- MATLAB与Python结合实现短期电力负荷预测的DAT300项目解析
- 市场营销教学专用查询装置设计方案
- 随身WiFi高通210 MS8909设备的Root引导文件破解攻略
- 实现服务器端级联:modella与leveldb适配器的应用
- Oracle Linux安装必备依赖包清单与步骤
- Shyer项目:寻找喜欢的聊天伙伴
- MEAN堆栈入门项目: postings-app
- 在线WPS办公功能全接触及应用示例
- 新型带储订盒订书机设计文档
- VB多媒体教学演示系统源代码及技术项目资源大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功