「丰富注释的草图数据集SKetchyScene的场景草图」

181 浏览量更新于2023-10-13 收藏 2.61MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

SketchyScene：丰富注释的场景草图邹长青1 钱瑜2杜若飞1莫浩然3宋一哲2陶翔2高成英3陈宝泉4张浩5美国马里兰大学帕克学院1英国伦敦玛丽皇后大学2中山大学3山东大学4加拿大西蒙弗雷泽大学5这是一个晴朗的日子。这是一个家庭野餐。有四个人，一个篮子，两个苹果，一个杯子，两个香蕉，和一个野餐地毯。远处有两棵树图1.一、来自我们的数据集SKET c HY Sc ENE的场景草图，该数据集是用户基于所示的参考图像生成的，通过在Sket c hy Sc ene上训练的方法获得的分割结果（中间），以及典型应用：草图字幕抽象。我们贡献了第一个大规模的场景草图数据集，SKETcHY ScENE，其目标是在对象和场景两个层面上推进草图理解的研究该数据集是通过新颖且精心设计的众包管道创建的，使用户能够高效地生成大量逼真且多样化的场景草图。Sket c HY Sc ENE包含超过29，000个场景级草图，7，000多对场景模板和照片，以及11，000多个对象草图。场景草图中的所有对象都具有地面实况语义和实例遮罩。数据集也是高度可缩放和可扩展的，容易地允许增强和/或改变场景组成。我们通过训练新的计算模型来对场景草图进行语义分割，并展示新的数据集如何使几个应用程序，包括图像检索，草图着色，编辑和字幕等，展示了Sket chy Sc ene的潜在影响。数据集和代码可以在www.example.com上找到https://github.com/SketchyScene/SketchyScene。关键词：草图数据集·场景草图·草图分割。⋆ 平等贡献⋆⋆ 通讯作者：baoquan@sdu.edu.cn2C. Zou等人1介绍在数据驱动计算的时代，大规模数据集已经成为改善和区分机器学习算法的性能、鲁棒性和通用性的驱动力。近年来，计算机视觉社区已经接受了大量大型且注释丰富的数据集对于图像（例如，ImageNET[8]和Microsoft COCO [15]）、3D对象（例如，ShapeNET [2，31]和PointNET [17]）和场景环境（例如，[22]《明史》卷122：在视觉形式的各种表现形式中，手绘草图占据了一个特殊的位置，因为与大多数其他形式不同，它们来自人类的创造。人类非常熟悉素描作为一种艺术形式，素描可以说是最紧凑，最直观，最常用的视觉表达和传达我们的印象和想法的机制。最近，计算机视觉和图形学中的草图理解和基于草图的建模取得了重大进展[9，20，39，30，7，24，11，35，23，14，25]。几个大规模的草图数据集[9，19，10]也已经构建和利用的方式。然而，这些数据集都是由对象草图形成的，并且草图分析和处理任务大多在笔划或对象级别。将两者扩展到场景级别是一个自然的进步-对素描视觉形式进行更深入、更丰富的推理。随后的分析和数据合成问题变得更具挑战性，因为草图场景可能包含以复杂方式交互的许多对象。虽然场景理解是计算机视觉的标志性任务之一，但场景草图的理解问题尚未得到很好的研究。在本文中，我们介绍了第一个大规模的数据集的场景草图，我们称之为SKETCHYSCENE，以方便草图的理解和处理在对象和场景的水平。显然，将图像转换为边缘图[33]并不起作用，因为结果与手绘草图的特征不同。基于预定义的布局模板自动组成现有的对象草图并将对象草图拟合到库存照片中都是具有挑战性的问题，这些问题不太可能产生大量的现实结果（参见图11）。第2段（b）分段）。在我们的工作中，我们诉诸众包，并设计了一个新颖和直观的界面，以减少对用户的负担，提高他们的生产力。而不是要求用户从头开始绘制整个场景草图，这可能是乏味和恐吓，我们提供对象草图，使场景草图可以通过简单的交互式操作，如拖放和缩放对象草图创建。为了确保场景草图的多样性和真实感，我们提供了参考图像，以指导/启发用户在他们的草图生成。通过用户友好的界面，Partici- pants可以高效地创建高质量的场景草图。另一方面，以这种方式合成的场景草图基本上是粗略的草图[9，19]，它们与专业艺术家制作的草图不太相似。SKETcHY ScENE包含对象级和场景级数据，并附有丰富的注释。总的来说，该数据集包含超过29，000个场景草图和超过11，000个对象草图，属于45个常见类别。在SketchyScene：丰富注释的场景草图3(a)（b）（c）（d）（e）（f）图二. （a）参考图像;（b）边缘检测器的响应;（c）使用来自Sketchy和TU-Berlin的对象草图的合成场景（使用与（f）相同的管道）;（d）与参考图像的部分一起进行的非对称的绘制;（f）使用我们的系统合成场景。（c）-（f）的过程分别花费6、8、18和5分钟。此外，还提供了7,000多对场景草图模板和参考照片，以及20多万个标注实例请注意，场景草图中的所有对象都具有地面实况语义和实例遮罩。更重要的是，由于其面向对象的合成机制，SKETcHY ScENE是灵活的和可扩展的草图场景模板中的对象草图可以使用SKETCHYSCENE中的可用实例来切换入/出，以丰富数据集。我们通过实验证明了硫醚的潜在影响。最重要的是，该数据集提供了一个跳板，以调查与场景草图相关的问题的分类（一个快速的谷歌图像搜索“场景草图”的简历）。在我们的工作中，我们首次研究了场景草图的语义分割。为此，我们评估了高级自然图像分割模型DeepLab-v2 [3]，探索不同因素的影响并提供信息性见解。我们还演示了几个应用程序启用新的数据集，包括基于草图的场景图像检索，草图着色，编辑和字幕。2相关工作2.1大规模草图数据集近年来，大规模草图数据集激增，主要是由草图识别/合成[9，10]和SBIR [36，19]等应用驱动的。然而，该领域仍然相对欠发达，现有的数据集主要是促进草图的对象级分析。这是人类草图数据的非普遍存在性质的直接结果-TU-Berlin [9]是第一个这样的大规模众包草图数据集，主要用于草图识别。它由20，000张草图组成，跨越250多个类别。最近的QuickDraw[10]数据集要大得多，包含345个类别的5000万张草图。尽管足够大以便于笔划级分析[6]，但这些数据集中的草图是由sketchingow和a semamanticoncept（e. G. 、这极大地限制了4C. Zou等人视觉细节和所描绘的变化的水平，因此使它们不适合细粒度匹配和场景级解析。例如，人脸几乎都在其正面视图中，并在QuickDraw中被描绘为笑脸。[36]和[19]的并行工作通过为FG-SBIR收集对象实例草图进一步推进了该领域。QMUL数据库[36]由两个对象类别（鞋和椅子）的716个草图-照片对组成，其中参考照片从在线购物网站上抓取Sketchy [19]包含75，471张草图和12，500张相应的照片，涵盖了更广泛的类别选择对象实例草图是通过要求众包者描绘他们对参考照片的心理回忆而产生的。与概念草图[9，10]相比，它们大体上展示了更多的对象细节，并与参考照片具有匹配的姿势。然而，对于本项目而言，两者的共同缺点在于它们有限的姿势选择和对象配置。QMUL草图在单个对象配置下仅显示一个对象姿势（侧视图）。场景草图虽然展示了更多的对象姿势和配置，但仍然受到限制，因为它们的参考照片主要由以相对简单的背景为中心的单个对象组成（因此没有描绘对象交互）。这个缺点本质上使得它们都不适合我们的场景草图解析任务，其中复杂的相互对象交互决定了高度的对象姿势和配置变化，以及微妙的例如，在图1所示的野餐场景中，人们以不同的姿势和配置出现，彼此之间有微妙的眼神接触图图2（c）示出了使用来自Sketchy和TU-Berlin的草图的合成结果SKETcHY ScENE是第一个专门为场景级草图理解设计的大规模数据集它与上述所有数据集的不同之处在于，它超越了对单个对象草图的理解来处理场景草图，并且有目的地包括具有不同姿势，配置和对象细节的各种对象草图，以适应复杂的场景级对象交互。虽然现有的数据集抽象场景[38]为理解视觉数据中的高级语义信息提供了类似的动机，但它们专注于使用剪贴画组成的抽象场景，其中包括更多的视觉线索，如颜色和纹理。另外，它们的场景局限于描述两个角色和少数物体之间的交互，而SKETcHYSCENE的场景内容和相互物体之间的交互很多更加多样化。2.2素描理解草图识别可能是草图理解中研究最多的问题。自TU-Berlin数据集[9]发布以来，已经提出了许多工作，并且识别性能早已超过人类水平[37]。现有的算法可以大致分为两类：1）使用手工特征的算法[9，20]，以及2）学习深度特征表示的算法[37，10]，其中后者通常明显优于前者。其他工作流已经深入到将对象级草图解析为它们的语义部分。[26]提出了一种熵下降笔划合并算法，用于部件级和SketchyScene：丰富注释的场景草图5对象级草图分割。Huang等人[13]利用由语义标记的组件组成的三维模板模型的存储库来导出部件级结构。Schneider和Tuytelaars [21]通过在CRF框架下查看显著的几何特征（例如T连接和X连接）来执行草图分割本文没有研究单个物体识别或部分级草图分割，而是通过提出第一个大规模场景草图数据集，对草图的场景级解析进行了探索性研究。2.3基于场景草图的应用虽然没有先前的工作，旨在解析草图在场景级，一些有趣的应用程序，提出了利用场景草图作为输入。Sketch2Photo [5]是一个结合草图和照片蒙太奇的系统，用于逼真的图像合成，而Sketch2Cartoon [29]是一个类似的系统，适用于卡通图像。类似地，假设对象已经在粗略场景中被分割，Xu et al.[34]提出了一个名为sketch2scene的系统，它通过将检索到的3D形状与2D草图场景中的分割对象对齐来自动Sketch2Tag[27]是一个SBIR系统，其中场景项被自动识别并用作文本查询以提高检索性能。毫无例外，所有上述应用都涉及感官草图的手动标记和/或分割。在这项工作中，我们提供了自动分割的场景草图的手段，并提出了一些新的应用程序，展示了所提出的数据集的潜力。3SKETcHY ScENE数据集场景草图数据集应该反映具有足够多样性的场景，在它们的配置，对象交互和微妙的外观细节方面，其中草图还应该包含不同类别的多个对象。此外，数据集的容量很重要，尤其是在深度学习的背景然而，如前所述，基于现有数据集构建这样的数据集是不可行的，而从人类收集数据可能是昂贵且耗时的，因此需要高效且有效的数据收集管道最简单的解决方案是要求人们直接用提供的对象或场景标签作为提示来绘制场景（即，在[9]中使用的策略）。不幸的是，这种方法在我们的案例中被证明是不可行的：（1）大多数人都不是训练有素的艺术家。因此，他们努力绘制场景中存在的复杂对象，特别是当它们处于不同的姿势和对象配置时（参见图2（d））;（2）尽管不同的人具有不同的绘画风格，但人们仍然需要绘制特定的场景。在绘画中，人们通常把“地上有太阳、树、云、气球、狗等几个物体这使得采集到的场景草图布局单调，视觉特征稀疏（3）重要的是，这种解决方案是不可扩展的6C. Zou等人鸡马牛兔猫鸭羊飞机猪云狗沙发伞人孙明星球囊自行车车鸟板凳路路灯篮子山蜜蜂花房子树瓶餐具葡萄杯香蕉总线苹果卡车椅子孙草蝴蝶围栏表野餐毯图3.第三章。SKETcHYSCENE的代表性物体草图。合理的质量，其中成本为18分钟的专业（见图。第2段（e）分段）。这将阻止我们收集大规模数据集。因此，设计了一种新的数据采集策略，该策略通过在参考图像的指导下合成提供的对象组件来合成整个过程包括三个步骤。步骤1：数据准备。我们为我们的数据集选择了45个类别，包括对象和东西类。具体地，我们首先考虑几个常见场景（例如，花园、农场、餐厅和公园），并从中提取100个对象/素材类作为原始候选。然后，我们定义了三个超类，即天气，对象和字段（环境），并将候选人分配到每个超类。最后，我们从现实生活中的组合和共性中选出了45个我们没有要求工人绘制每个对象，而是为他们提供了大量的对象jectsketches（ea chobjectcandidateisalsorefertoa“c om p on e n t“）作为候选对象。为了在姿势和外观方面有足够的变化，我们为每个类别搜索并下载了大约1,500个组件。然后，我们聘请了5名经验丰富的工人，手工整理出包含单个组件的草图或从具有多个组件的草图中剪切单个组件。对于一些搜索组件很少（20）的类别，如我们共收集了11，316个组件，涵盖所有44个类别（不包括每个类别的这些组成部分分为三组：训练（5468）、验证（2362）和测试（3486）。45个类别的代表性组成部分见图3。为了保证我们的数据集中场景布局的多样性，我们另外收集了一组卡通照片作为参考图像。通过从我们的预定义超类中的每一个对类标签进行采样，例如，sun（天气），rabbit（对象），mountain（环境），我们生成了1,800个查询项1.每个查询项检索到约300张卡通照片。在手动重新移动重复图像后，有7，264幅参考图像（4730幅图像是唯一的）。这些参考图像也被分成三组，分别用于训练（5，616）、验证（535）和测试（1，113）。第二步：场景草图合成。为了提高人类创作者的效率，我们设计了一个习惯的，基于Web的应用程序的草图场景合成。关于1我们将不使用此“容量”，以便在存储设备上进行查询SketchyScene：丰富注释的场景草图7见图4。USketch的界面和工作流程，用于众包数据集。请参见功能按钮区域（左上）、组件显示区域（左下）和画布区域（右）。80名工人被雇佣来制作场景草图。图4示出了应用程序的接口（名称为“USketch”）。如前所述，我们通过允许工作人员利用图像的图形拖动、旋转、缩放和变形组件草图来促进草图场景图像的创建。该过程在图中详细描述。4.第一章值得注意的是，（1）我们为不同的工作人员提供了不同的组件草图集（即使是同一类别），以隐含地控制对象草图的多样性。否则，工作人员倾向于从候选池中选择前几个样本;（2）我们要求工作人员在场景合成期间产生尽可能多的遮挡这是为了模拟真实的场景，并促进在分割的研究。我们的服务器记录了所得到的粗略场景的每个场景项的变换和语义标签。在这一步，我们收集了一个场景草图的基础上，每个参考图像，使用的组件，从相应的组件库。因此，我们这些独特的场景草图被进一步用作场景模板以生成更多的场景草图。步骤3：注释和数据扩充。参考图像被设计成帮助工作者组成场景并丰富场景草图的布局然而，参考图像中的对象不一定包括在我们的数据集中，即，45个类别。为了方便未来的研究提供更准确的注释，我们要求工人注释每个对象实例的对齐状态。考虑到我们的数据集中有大量的组件，一个有效的数据增强策略是用同一类别的其余组件替换对象草图具体来说，我们为每个工人生成的场景自动生成另外20个场景草图，并要求工人为Step2的每个场景模板选择4个最合理的场景。最后，我们得到了29K+粗略的场景图像后，数据增强。数据集统计和分析。综上所述，我们完全得到：第一步：选择一个出现在参考图像中的主题，然后程序将随机挑选12个候选图像步骤2A：如果没有候选图像可用（例如，道路），使用钢笔和橡皮擦工具绘制草图步骤2B：点击候选图像以将其添加到场景中;用户可以移动、缩放和旋转候选图像以与参考图像对齐重复步骤1和2以完成用户合成的场景。8C. Zou等人LLLLLLLLL图五、每个类别的对象实例频率了图六、从左到右：引用、 synthesizedsketchycene（“L”用于标记类别对齐）、语义和实例分割的基础事实。1. 7，264个由人类创建的独特场景模板。每个场景模板包含至少3个对象实例，其中对象实例的最大数量为94。平均每个模板有16个实例、6个对象类和7被遮挡实例的最大数量为66。图. 5示出了对象频率的分布。2. 29，056个数据增强后的场景草图（步骤3）;3. 11，316个物体草图，属于44个类别。这些组件可用于对象级草图研究任务;4. 4730个唯一的参考卡通风格图像，其具有与场景草图对应的成对对象5. 所有草图都具有100%准确的语义级和实例级分段注释（如图所示）。（六）。可扩展性。利用数据集中提供的场景模板和草图组件，可以进一步增强场景（1）通过对草图构件的分割，可以得到零件级或笔划级的草图信息;（2）通过对草图构件的替换，可以生成风格更加多样的场景草图。4草图场景分割SKETcHY ScENE可用于研究各种计算机视觉问题。在本节中，我们通过修改现有的图像分割模型，重点研究场景草图的语义分割性能进行评估，以帮助我们确定未来的研究方向。每个类别的500045004000350030002500200015001000500火车验证测试111418545728853412741761703500030000250004221842171465081952181383382189208343330630182361241199813026098216215112824171450022152153897130767200001500010000500013374120034251523611557831331571155836246673248123162913411134348599710121127280841920205188716323403471351591941243074 441028445171178124166256891591071109061 32262958027452133802771275300224001382521510507534949270736321470262296621034116415307851109997005SketchyScene：丰富注释的场景草图9问题定义。在语义分割中，每个像素需要被分类到候选类中的一个具体地，存在标签空间L={11， 12，…lK}，K是指填充类的对象的数量。每个草图场景图像s={p1，p2，… pN} ∈ RH×W包含N = W × H个像素。需要针对语义分割训练的模型来为每个像素2分配标签。素描场景分割的定义与照片图像分割的定义是一致的。然而，与照片不同，草图仅由黑线（像素强度值等于0）和白色背景（像素值等于255）组成。鉴于只有黑色像素传达语义信息的事实，我们将粗略场景中的语义分割定义为预测值为0的每个像素的取图1B的第二图像。例如，在分割树木、房屋、太阳和云时，线段上的所有黑色像素（包括轮廓和轮廓内的线）都应分类，而其余白色像素被视为背景。挑战由于视觉特征的稀疏性，分割粗略场景是具有挑战性的。首先，草图场景图像由白色像素主导。在硫醚中，本底比为87.83%。其余像素属于K个前景类。因此，各阶层之间非常不平衡。第二，分割被遮挡的对象变得更加困难。在照片中，对象实例通常包含统一的颜色或纹理。草图场景图像中不存在此类提示4.1制剂我们采用了为照片图像开发的最先进的语义分割模型DeepLab-v2 [3]，该模型是为分割场景草图而定制的。DeepLab-v2有三个关键特性，包括atrous卷积，空间金字塔空间池（ASPP），以及使用全连接CRF作为后处理。这是一个基于FCN的[16]模型，即，通过用全卷积层替换最终的全连接层来适配用于分割的分类模型。对于每个输入草图，输出是一个K×h×w张量，K表示类的数量，而h×w是输出分割维度。在训练期间使用常见的在这三个特征中，全连接CRF或denseCRF广泛用于分割作为后处理。然而，在场景草图中存在较大的空白区域，应区别对待。我们表明，直接应用DeepLab-v2对草图进行建模会导致性能较差，而denseCRF会进一步降低粗略的分割结果（参见第二节）。4. 2）的情况。针对草图场景的特点，提出了在建模时忽略背景类的方法这是因为（1）背景像素的比率远高于非背景像素，这可能将偏差引入模型;（2）背景信息在输入图像中提供，并且我们可以通过在分割之后将输入处理为掩模来容易地过滤掉它们。具体地，在我们的实现中，背景像素不贡献于2在本研究中，我们将草图视为位图图像。10C. Zou等人训练中的损失。在推断期间，这些背景像素被指定为非背景类标签，随后是用于细化的denseCRF。最后，背景像素被输入图像过滤掉。4.2实验我们使用7，264个独特场景草图模板的集合在SKETCHYSCENE上进行了所有实验，这些模板被分成训练（5，616）、验证（535）和测试（1，113）。采用Microsoft COCO验证预训练的有效性实作详细数据。我们使用Tensorflow和ResNet101作为基础网络。初始学习率设置为0.0001，mini-batch大小设置为1。我们将最大训练迭代次数设置为100K，优化器是Adam。我们将数据保持为原始大小（750* 750），而不对输入应用任何数据增强，因为我们不是以最佳性能为目标。我们使用反卷积将预测缩放到与地面真实掩码相同的大小对于denseCRF，我们将超参数σα、σβ、σγ分别设置为7、3和3竞争对手我们比较了四种现有的用于分割天然照片的模型：FCN-8s[4]，SegNet[1]，DeepLab-v2[3]和DeepLab-v3[16]。FCN-8 s是第一个适应于深度分类的深度分割模型。它进一步结合了来自不同层的粗糙和精细特征，以提高性能。Seg-Net采用编码器-解码器架构，其修改上采样过程以生成更准确的分割结果。DeepLab-v2采用atrous卷积和denseCRF进行分割，如第2节所述4. 与DeepLab-v2相比，DeepLab-v3结合了全局信息和批量归一化，实现了与DeepLab-v2相当的性能，而无需使用denseCRF进行细化。在我们的实验中，FCN-8 s和SegNet使用VGG-16，而DeepLab-v2和v3都使用ResNet 101作为基础网络。为了公平比较，我们在所有四个模型中应用相同的数据处理策略。评估指标。四个指标用于评估每个模型：总体准确度（OVAcc）指示正确分类的像素的比率;平均准确度（MeanAcc）计算正确分类的像素在所有类别上的比率;平均交集与并集（MIoU），一种通常用于分割的度量，计算两个集合的交集与并集之间的比率，在所有类别上平均;FWIoU通过添加类别权重略微改进MIoU。对比表1比较了不同基线模型在新任务上的性能显然，DeepLab-v2和DeepLab-v3的性能都比FCN和SegNet好得多。然而，DeepLab-v3产生了与DeepLab-v2相似的性能，表明上下文信息对任务没有太大影响。这可以通过草图场景的稀疏性以及草图中的结构比自然照片中的结构更多样化来解释因此，上下文信息是不太重要的，比自然图像。定性结果。图7显示了生成的几个分割结果通过DeepLab-v2（每个类用不同的颜色突出显示）。虽然结果令人鼓舞，但仍有很大的改进空间。特别是，失败主要是由两个原因造成的：（1）类内变异较大SketchyScene：丰富注释的场景草图11表1. DeepLab-v2和其他基线的比较（%）模型OVAcc平均访问MiouFWIoUVal测试Val测试Val测试Val测试FCN-8s83.38 73.7862.82 57.8045.26 39.1673.63 60.16SegNet84.61 78.6158.29 54.0542.56 38.3276.28 67.91deeplab-V392.71 88.0782.83 76.40 73.03 63.69 86.71 79.19DeepLab-v2（最终版）92.94 88.38 84.95 75.92 73.49 63.10 87.10 79.76表2. 纳入/排除背景的比较（%）模型OVAcc平均访问MiouFWIoUVal测试Val测试Val测试Val测试带BG（列车试验）带BG（列车）95.3894.2290.21 86.4142.48 34.5673.54 66.4938.34 30.0561.50 52.5891.2989.3482.67 77.09不含BG（最终）92.94 88.38 84.9575.9273.4963.1087.10 79.76表3. 培训前策略比较（%）模型OVAcc平均访问MiouFWIoUVal测试Val测试Val测试Val测试变体-193.0788.6782.23 74.9771.41 62.12 87.42 80.19变式-291.22 87.0876.91 71.7065.41 57.8184.36 78.01变体-391.47 86.44七九点一七七二点二四67.91 58.5484.80 77.18Pre-ImageNet（final）92.94 88.38 84.95 75.92 73.4963.1087.10 79.76图7.第一次会议。我们的细分结果的可视化左：6例，分割结果良好;右：两个失败案例。12C. Zou等人而草图本身明显变形。例如，在图18的第四列的底部图像中。7，“shee p”（高亮度）与“dog”（以绿色突出显示）相似;（2）不同对象实例之间的遮挡或空间上太近的实例。如第四列的顶部图像所示，“cat”、“human”和“areclusteredtogge”的“s”，使得接合部分中的像素被错误分类。由于草图是稀疏的视觉线索，我们只利用像素级的信息，因此，它将有助于整合对象级的信息。请注意，第二个问题更具挑战性，并且针对草图。在照片图像中，轮廓上的像素通常被忽略。然而，它们是新任务中唯一感兴趣的像素。因此，需要引入一些草图特定的模型设计。例如，可以引入一些感知分组原则[18]来解决这个问题。在补充资料中查看更多分割结果。背景的影响。如前所述，大面积的背景是粗略场景分割要解决的关键问题我们建议在模型训练期间忽略背景类。当考虑背景类时，它主要影响两个过程，通过深度网络建模和通过denseCRF细化。因此，我们将它们解耦，并进行了以下实验：（1）具有BG（训练&测试）：在训练深度模型期间考虑背景并应用denseCRF进行细化，以及（2）具有BG（训练）：在训练期间仅考虑背景而忽略该类别以进行细化，也就是说，当生成粗分割时，模型为背景类像素分配非背景类标签，然后将其馈送到denseCRF。表2比较了性能。我们可以做以下观察：（1）当排除背景作为类别时，在平均准确度和MIoU两者中测量的性能具有显著改善。总体精度和带宽要求在“bac kgrond”表上的精度高于其它等级;（2）背景的处理主要影响成绩的denseCRF。这是预期的，因为它通过考虑相邻像素来推断每个像素的标签，因此在图像中具有大比例的类倾向于扩散。一些定性结果如图所示。8. 从在第二列所示的图像中，我们可以看到，使用denseCRF的细化，许多像素被合并到“背景”中。最后一张图像显示了我们提出的数据处理后的结果。预培训的效果。我们的最终模型在ImageNet上进行了预训练，并在SKETCHYScENE上进行了微调。在这个实验中，我们实现了三个预训练变体：（1）变体-1：基于ImageNet预训练模型，我们进一步在大规模自然图像分割数据集上进行预训练，即，Microsoft COCO，然后在SKETCHYScENE上进行微调。(2)变体2：我们不是在自然图像上进行预训练，而是在从COCO数据集提取的边缘图上训练模型在该变型中，每个对象的掩模是基于区域的，即，具有内部区域像素。（3）变式3：为了模拟目标任务，我们进一步移除变体-2中使用的掩模的内部区域像素。也就是说，遮罩仅覆盖边缘，这与我们的最终任务更相似。表3显示：（1）COCO的预培训没有帮助。这可能是由于SketchyScene：丰富注释的场景草图13带BG的GT（列车试验）带BG（列车）不含BG图8. 比较包括/排除背景（BG）时的分割结果草图和自然照片之间的大域间隙。(2)在边缘图上进行预训练（无论他们使用什么样的掩码）也不会带来好处。这也是由于域间隙：与草图不同，边缘图包含大量噪声。(3)变体-3优于变体-2，这是预期的，因为变体-3与我们的最终任务更相似。5使用硫醚的其他应用在本节中，我们提出了几个有趣的应用程序，这些应用程序由我们的SKETcHY ScENE数据集实现图像检索在这里，我们展示了场景级SBIR的应用，它通过使用场景级草图来检索图像来补充传统SBIR [36，19，12]考虑到在SKETc草图中呈现的对象，hy Sc ene与参考图像不是100%对齐的（如在第2.2节中所解释的）。3），我们选择了语义IoU高于0.5的草图-照片对（2，472对用于训练和验证，而252用于测试）。这里，语义IoU指的是场景草图和参考图像之间的类别级重叠。我们通过将基础网络更改为InceptionV3 [28]，并添加S形交叉熵损失作为辅助损失（这是为了利用对象类别信息来学习更多的域不变性特征），开发了一个类似于[36]的三元组排名网络。我们报告的精度等级为1（acc.@ 1)和排名10（ acc.@ 10)与其他 SBIR 文件一致总体而言，我们在 acc.@上获得32.13%1和69.48%的acc.@10.图9提供了示例定性检索结果。草图字幕和编辑。在这里，我们演示了两个简单的应用程序，即草图字幕和草图编辑（如图所示）。10（b）和（c））。假设是，基于分割结果，利用像图像描述的额外注释，可以基于SKETcHY ScENE开发图像字幕模型。此外，人们可以使用计算机网络编辑特定对象。就像在电影里一样。第10（c）条，“14C. Zou等人一只鸡正在过马路一只黄色的鸡正穿过一条棕色的路，有绿色的树，深绿色的山，白色的云，红色的太阳，和一辆橙色的车。一只鸡在路中间一只鸡在路的右边图9.第九条。检索结果。相应的参考图像用红色框突出显示（a）（b）（c）（d）（e）（f）图10个。应用：字幕（b）、编辑（c）、着色（d）和动态场景合成（d-f）。更改为“duk”，而其他对象则会保留该对象这两个应用程序中的任何一个都可以用于儿童教育。草图着色。在这里，我们展示了使用我们的数据集来实现自动草图着色的潜力，当与第二节开发的识别和分割引擎相结合四点二。在图10（d）中，我们通过将不同的颜色分配给不同的分割对象，考虑到它们的语义标签（例如，太阳是红色的）。动态场景合成。最后，我们展示了一个更先进的应用程序，动态草图场景合成。我们通过操纵我们的场景模板来构建一系列帧，然后在所有帧中连贯地着色来实现这一点图图10（d）-（f）描绘了一个示例，6结论、讨论和未来工作在本文中，我们介绍了第一个大规模的数据集的场景草图，称为SKETCHY扫描。它由总共29，056个场景草图组成，使用7，264个场景模板和11，316个对象草图生成场景中的每个对象都进一步增强了语义标签和实例级遮罩。数据集是在模块化数据收集过程之后收集的，这使得它具有高度的可扩展性和可伸缩性。我们已经展示了将多个基于图像的分割模型适应场景草图数据的主要挑战和信息性见解。有几个有前途的未来方向，以进一步增强我们的场景草图数据集，包括添加场景级注释和文本标题，以实现应用程序，如基于文本的场景生成。谢谢。这项工作得到了中国国家973计划（2015 CB 352501）、NSFC-ISF（61561146397）、NSERC 611370和中国留学基金管理委员会（CSC）。SketchyScene：丰富注释的场景草图15引用1. Badrinarayanan，V. Kendall，A.，Cipolla，R.：Segnet：深度卷积编码-针对图像段的深度卷积编码。TPAMI39（12），24812. Chang，A.X.，Funkhouser，T.A.，Guibas，L.J.，Hanrahan，P.黄，Q，Li，Z.，Savarese，S.，Savva，M.，Song，S.，Su，H.，肖，J.，Yi，L.，Yu，F.：ShapeNet：信息丰富的3D模型存储库。CoRR，abs/1512.03012（2015）3. Chen，L.C.，帕潘德里欧，G.，科基诺斯岛墨菲K Yuille，A.L.：Deeplab：使用深度卷积网络、 atrous 卷积和全连接 crf 的 SE-mantic 图像分割。1606.00915（2016）4. Chen，L.C.，帕潘德里欧，G.，Schroff，F.，Adam，H.：再思考无卷积在语义图像分割中的应用。arXiv预印本arXiv：1706.05587（2017）5. 陈，T.，Cheng，M.，Tan，P.，Shamir，A.，Hu，S.：Sketch2photo：互联网图像管理ACMTrans.Graph. 28（5），124：16. 陈玉，Tu，S.，Yi，Y.，Xu，L.：Sketch-pix2seq：生成多个类别的草图的模型。arXiv预印本arXiv：1709.04121（2017）7. Dekel，T.，Gan，C.，Krishnan，D.，刘，C.，弗里曼，W.T.：智能、稀疏的轮廓来表示和编辑图像。 arXiv 预印本 arXiv ： 1712.08232（2017）8. Deng，J.，Dong，W.，索赫尔河Li，L.J.，Li，K.，李菲菲：Imagenet：一个大规模的分层图像数据库。在：CVPR（2009）9. Eitz，M.，Hays，J.，Alexa，M.：人类如何绘制物体？ACM Trans.Graph.31（4），44：110. D Eck，D.：草图的神经表征。arXiv预印本arXiv：1704.03477（2017）11. 胡 C.Li ， D. ， Song ， Y.Z. ， Xiang ， T. ， Hospedales ， T.M. ： Sketch-a-classifier：基于草图的来源：CVPR（2018）12. 胡河 Collomosse ， J. ：一个性能评估的梯度场 hog 描述符为sketchbasedimageretreval。CVIU117（7），79013. 黄志，傅， H. ，刘瑞华：徒手画的数据驱动分割和标记。ACMTrans.Graph. 33（6），175：114. Li，L.，黄志，Zou，C.，中国科学院，Tai，C.，Lau R.W.H.张洪，Tan，P.，Fu，H.：基于模型驱动的草图重构和面向结构的检索。在：SIGGRAPH ASIA，技术简报（2016）15. 林，T. 是的，我是M Belongie，S.，嗨，J.， Perona，P.， Ramanan，D. ，Dolla'r，P.，Zitnick，C.L.：Microsoft coco：上下文中的公共对象In：ECCV（2014）16. 朗J Shelhamer，E.，达雷尔，T.：用于语义分段的全卷积网络。参见：CVPR（2015）17. Qi，C.R.，Su，H.，Mo K Guibas，L.J.：Pointnet：对点集进行深度学习，用于3D分类和分割。在：CVPR（2017）18. 齐，Y.，Song，Y.Z.，Xiang，T.，张洪，Hospedales，T.，李，Y.，Guo，J.：通过感知分组更好地利用边缘参见：CVPR（2015）19. Sangkloy，P.，Burnell，N.哈姆角，澳-地Hays，J.：sketchy数据库：学习如何找回画得不好的兔子。02 The Dog（2016）20. Schneider，R.G. Tuytelaars，T.：草图分类和分类驱动分析是使用firvector的。 ACMTrans. Graph. 33（6），174：121. Schneider，R.G. Tu

下载后可阅读完整内容，剩余1页未读，立即下载