通用草图分组数据集和深度分组模型的研究

68 浏览量更新于2023-10-13 收藏 1.76MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

通用草图感知分组李珂1、 2，庞凯跃2，宋继飞2，宋一哲2，陶翔2，TimothyM.Hospedales3和Honggang Zhang11北京邮电大学2伦敦大学玛丽女王学院SketchX，3爱丁堡大学{like1990，zhhg}@ bupt.edu.cn，{t.hospedales}@ ed.ac.uk{kaiyue.pang，j.song，yizhe.song，t.xiang}@ qmul.ac.uk图1：SPG数据集的示例笔划组采用颜色编码。抽象。在这项工作中，我们的目标是开发一个通用的素描石斑鱼。也就是说，可以应用于任何域中的任何类别的草图以将构成笔划/段分组为语义上有意义的对象部分的分组器。实现这一目标的第一个障碍是缺乏具有分组注释的大规模数据集。为了克服这个问题，我们贡献了迄今为止最大的草图感知分组（SPG）数据集，由均匀分布在25个对象类别上的20，000个独特的草图组成。此外，我们提出了一种新的深度通用感知分组模型。该模型是学习与生成和歧视性的损失。生成损失提高了模型对不可见对象类别和数据集的泛化能力。区分损失包括局部分组损失和新的全局分组损失，以加强全局分组一致性。我们表明，该模型显着优于国家的最先进的分组。此外，我们表明，我们的分组是有用的一些草图分析任务，包括草图合成和细粒度的基于草图的图像检索（FG-SBIR）。关键词：草图感知分组，通用分组器，深度分组模型，数据集。1介绍人类毫不费力地从杂乱的背景中检测出物体和物体的部分。心理学家的格式塔学派[1，2]认为，这种将视觉线索/模式感知分组到对象中的能力是建立在许多2Ke Li等分组原则，称为格式塔分组法。这些包括五个类别，即邻近性、相似性、连续性、闭合性和对称性[3]。分组或分割中的计算机视觉研究长期以来一直利用这些感知分组原则。例如，在图像分割[4，5，6，7]中，像素视觉外观相似性和局部接近性通常用于将像素分组为对象。这些原理被人类视觉系统利用，以在不同的上下文中并且针对不同的对象类别鲁棒地执行感知分组。利用它们对于通用分组算法是重要的。我们的目标是开发这样一个普遍的人类徒手素描，它需要一个草图作为输入和组的组成笔划到语义部分。请注意，这与照片[7]或草图[8，9，10]的语义分割不同，其中每个分割部分都有一个标签，并且标签通常是对象类别相关的。只有笔划之间的组关系被预测，使得分组器可以普遍地应用于任何对象类别。很少有现有的研究[11，12]调查素描知觉分组。这些方法从每个笔划计算手工制作的特征，并且使用接近度和连续性原理来计算笔划亲和度矩阵以用于后续聚类/分组。因此，它们有一些限制：（i）五个原则中只有两个被利用，而未使用的原则，如clo- sure，在对可能被分割的人类草图进行分组时显然是有用的（见图1）。①的人。㈡如何制定原则是人工确定的，而不是从数据中学习的。(iii)使用不同原则的固定权重，这些权重可以手动设置[11]或学习[12]。然而，对于不同的草图，不同的原则可以由具有不同权重的人使用因此，更动态的草图特定分组策略是优选的。然而，现有的草图感知分组数据集[8，12]非常小，最多包含2，000个注释草图。这阻碍了开发更强大、更灵活的深度神经网络模型。本文的第一个贡献是提供了第一个大规模草图感知分组（SPG）数据集，该数据集由20，000个具有地面实况分组注释的草图组成，即，比迄今为止最大的数据集大10倍[12]。这些草图是从25个有代表性的对象类别中收集的，每个类别有800个草图。草图及其注释的一些例子可以在图中看到。1.这样大小的数据集使得开发深通用石斑鱼成为可能。即使有足够的训练样本，学习深度通用草图分组器也是不平凡的。具体而言，有两个挑战：如何使深石斑鱼可推广到看不见的对象类别和域，而无需来自它们的任何训练数据;以及如何设计在给定每个草图的可变笔划数的情况下执行局部（笔划成对）分组一致性和全局（整个草图级）分组一致性的训练损失。现有深度模型使用的大多数损失都是用于监督分类任务;分组比分类更接近于聚类，因此存在的选项很少。在本文中，我们提出了一种新的深度草图分组模型，以克服这两个挑战。具体地，将草图视为笔划/段的序列通用草图感知分组3我们的模型是序列到序列变分自动编码器（VAE）。这种深度生成模型中的重构损失迫使学习的表示保留比单独的区分性分组任务所需的信息更丰富的信息。这已被证明是有用的，以提高模型的泛化能力[13]，关键是使石斑鱼普遍。至于区分性分组学习目标，我们部署了两个损失：实施局部分组一致性的成对笔划分组损失和实施全局分组一致性的全局分组损失。这种局部和全局分组损失的分离使我们能够平衡两者，并使我们的模型对注释噪声更具鲁棒性。基于建议的石斑鱼，我们开发了一个简单的草图合成模型分组和抽象的照片边缘图。合成的草图可以用于学习强无监督的基于细粒度草图的图像检索（FG-SBIR）模型，即，仅使用照片我们的贡献如下：（1）我们贡献了迄今为止最大的草图感知分组数据集，具有广泛的人类注释。为了推动未来的研究，我们将公开数据集。(2)第一次，一个深的通用素描石斑鱼开发的基础上，一个新的深序列到序列VAE的生成和歧视性的损失。(3)大量的实验表明，我们的石斑鱼对现有的优越性，特别是当评估的新类别或新领域。它的有用性的一些草图分析任务，包括草图合成和FG-SBIR也被证明。2相关工作感知分组：人类可以很容易地从明显的噪声中提取显著的视觉结构。格式塔心理学家将这种现象称为知觉组织[1，2]，并引入了知觉分组的概念，这解释了人类自然地将视觉模式分组为对象的观察结果进一步发展了一套简单的格式塔原则，包括邻近性，相似性和连续性[3]，随后引入了封闭性，连通性和共同命运，主要用于研究人类视觉系统[4，14]。草图分组：很少有研究将草图笔划分组为零件。最相关的研究是[11，12]。他们使用基于邻近性和连续性原则的手工特征来计算笔划之间的亲和矩阵。这两个原则与从人类注释的笔画组中学习到的固定权重相结合相比之下，我们假设当人类绘制草图并将其注释成组时，可以使用所有分组原则。重要的是，使用哪些和使用多少取决于特定的草图实例。因此，我们的模型是一个深度神经网络，它以草图为输入，旨在通过生成和判别分组损失隐式地对所有原则进行建模。因此，它具有根据草图输入动态地执行原理选择和加权与[12]中提供的数据集相比，我们还我们表明，在这两个数据集上，我们的模型都比[12]中的模型有很大的优势。请注意，感知分组已在[15]中使用深度自动编码器进行建模4Ke Li等然而，其目的是分组离散的图形模式，具有更丰富的视觉线索，使它们更类似于图像分割的问题，因此比分组素描线条画更容易。草图语义分割：与草图分组密切相关的问题是草图语义分割[8，9，10] 1。关键的区别在于草图分组器是通用的，因为它可以应用于任何对象类别，因为它只预测笔划是否属于同一组而不是什么组。相比之下，草图分割模型需要预测每个组的标签。因此，通常每个对象类别需要一个模型。注意，虽然解决了两个不同的问题，但我们的工作可以以两种方式潜在地有益于草图语义分割：（i）在我们的分组模型中隐含地建模的分组原则可以用于语义分割，例如，通过修改/微调我们的模型到一个完全监督的模型。(ii)SPG数据集还包含每个类别的组ID标签，因此可用于开发深度分割模型，由于现有草图分割数据集的尺寸较小，迄今为止尚不可能开发深度分割模型[8，9，10]。草图笔划分析：像我们的模型一样，一些最近的草图模型-EL基于笔划建模。[10]研究了笔画语义切分。序列到序列变分自动编码器在[16]中用于条件草图合成的不同目的。[17]中的工作使用了草图RNN对于草图抽象问题，通过顺序去除冗余笔划来解决。基于笔划的模型自然适合于感知分组。如果将草图视为2D像素阵列而不是笔划，则对格式塔原理进行建模将更加困难。细粒度SBIR：FG-SBIR是草图分析中最近的焦点[18，19，20，21，22，23]。训练FG-SBIR模型通常需要昂贵的照片-草图对收集，这严重限制了其对大量对象类别。在这项工作中，我们表明，我们的通用石斑鱼是一般的，足以适用于从对象的照片计算的边缘图。然后可以通过移除最不重要的组来抽象边缘图。提取的边缘图可用于替代人类草图并形成合成草图-照片对以用于训练FG-SBIR模型。我们表明，以这种方式训练的模型的性能接近使用人类标记数据训练的相同模型的性能，并且优于最先进的无监督替代方案[17]。3手绘草图感知分组数据集我们贡献了Sketch Perceptual Grouping数据集，这是迄今为止最大的徒手草图感知分组数据集。它包含20，000个草图，分布在25个类别中，每个草图都手动注释为零件。类别选择草图来自QuickDraw数据集[16]，这是迄今为止最大的草图数据集。它包含了345类日常用品。其中，基于以下标准选择25个用于SPG（参见表1）：该类别应当包含至少三个语义部分，1它们的关系类似于无监督图像分割之间的关系[5，6]和语义分割[7]。通用草图感知分组5图2：举例说明我们的草图选择过程。详见正文。这意味着云和月亮之类的类别已经过时了。(ii)多样性：所选类别需要彼此充分不同，以适合于测试组的通用性，从而能够实现一致性。对于实施例，仅选择四足动物类别中的一个。草图实例选择：每个QuickDraw类别至少包含100，000个草图。对它们全部进行注释是不可行的。因此，从每个类别中选择800个草图。首先，进行一些质量筛选。特别是，由于所有QuickDraw草图都是在20秒内绘制的，因此存在大量绘制不佳的草图，这些草图无法被人类识别，从而无法进行零件分组。因此，我们首先丢弃不能被现成的草图分类器识别的草图[24]。然后，其余草图将遵循以下实例选择标准：㈠多数：每个类别中的草图可以形成在视觉上彼此非常不同的子类别。仅选择多数子类别中的草图。例如，图1的顶行。图2示出了来自闹钟类别的大多数草图都指向“带指针和备用指针”的类别，其中所有草图都是没有指针的数字时钟。仅选择前者中的草图。(ii)复杂性：删除了少于三个部分的过度抽象的草图(iii)模糊性：最后，我们消除包含目标对象和其他对象/背景的草图，以避免对象类别的模糊性。图2显示了在实例选择期间如何执行这些标准的示例。注释：现在给出一个草图，要求每个注释者将笔划分组。每个组都有一个语义含义，通常对应于一个对象部分。因此，除了分组标签之外，还注释了组ID。即使在我们的感知分组模型中不使用组ID信息，但是当任务是草图语义分割时，也可以使用组ID信息。为了获得一致的分组注释，招募了25个注释器，每个注释器仅注释一个类别。注释的示例可以在图1中看到。1.一、歧义大多数复杂性6Ke Li等S2=S）=SN>）=SN=[S），S*，ℎ2LSTMc0LSTMc1双向RNN…ℎ特征差异矩阵D98GMM，SoftmaxG编号=G#%$G$&#：G#$生成损失局部分组损失tanh全局分组损失Softmax图图3：所提出的深度感知石斑鱼的示意图4深度通用素描感知石斑鱼4.1模型概述我们的深度草图分组器是序列到序列变分自动编码器（VAE）的变体[25，26]。如图在图3中，它本质上是深度编码器-解码器，其中编码器和解码器都是用于将草图建模为笔划集合的RNN。编码器产生草图的全局表示，该全局表示被用作变分解码器的条件，该变分解码器旨在重构输入草图。这样的草图合成在这里是一个附带任务。我们的主要目的是为解码器，以产生一个代表性的每个中风有用的分组。一旦被学习，解码器应当隐式地对注释器在产生分组标签时使用的所有分组原则进行建模，使得所学习的笔划表示可以用于计算指示正确笔划分组的笔划亲和度矩阵。为此，解码器具有两个分支：生成分支，用于重构输入草图;以及产生区分笔划特征/相似性矩阵的区分分支。4.2编码器和解码器架构传统的感知分组方法将草图视为由静态像素组成的图像，从而忽略了不同段和笔划之间的依赖性（每个笔划由可变数量的线段组成）。在我们的数据集中，所有的草图都以矢量化格式捕获，使草图的序列建模成为可能。更具体地，我们首先将草图表示为N个笔划段[S1，S2，…SN]。每个段是一个元组（∆x，∆y，p），其中∆x和∆y分别表示沿水平和垂直方向的偏移，而p表示绘制状态，遵循用于人类手写的相同表示[27]。通用草图感知分组7以这些笔划段作为输入，编码器和解码器都是RNN。特别是，我们采用与sketch-rnn [16]中相同的架构进行条件草图合成。也就是说，双向RNN [28]用作编码器来提取输入草图的全局嵌入然后，将编码器的最终状态然后对该分布进行采样以产生随机向量z作为输入草图的表示。因此，z不是给定草图的编码器的确定性输出，而是以输入为条件的随机向量。解码器是LSTM模型。它的初始状态通过单个全连接（FC）层以z为条件。在每个时间步，它然后预测每个笔划段的偏移，以便重建输入草图。关于编码器/解码器架构的进一步细节，请参考[16]。4.3制剂在LSTM隐藏单元输出之后，解码器分成两个分支：用于合成草图的生成分支和用于分组的判别分支。这两个分支使用不同的学习目标：在生成分支中，两个损失鼓励模型重构输入草图;在区分分支中，草图分组注释用于训练解码器以产生用于分组的准确笔划相似性矩阵。组亲和矩阵：分组注释被表示为表示段G ∈ RN×N之间的组关系的稀疏矩阵。将第i个草图段表示为Si，i∈[1，N]，我们有：.Gi，j=1，如果Si，Sj来自同一组0，否则（一）其中矩阵的每个元素指示第i和第j段是否属于同一组区别性学习目标的直接设计是通过l1或l2损失使使用学习的笔划特征fi=φ（Si）计算的亲和度矩阵尽可能类似于G然而，我们发现，在实践中，这是非常糟糕的工作.这是因为G传达两种类型的分组约束：每个元素对两个段强制执行二进制成对约束，而整个矩阵也强制执行全局分组约束，例如，如果S1和S2在同一组中，并且S2和S5也在同一组中，则全局分组一致性规定S1和S5也必须属于同一组。平衡这两个是至关重要的，因为成对分组预测通常是嘈杂的，并可能导致全局分组不一致。然而，使用单一损失使得不可能实现平衡。因此，我们建议使用两个损失来实现这两个约束。局部分组损失：这种损失要求当使用学习的笔划段特征测量成对亲和力时保持两个段之间的成对关系。解码器LSTM学习映射函数Φ，并将第i个笔划段S1映射到128D特征向量fi。要测量输入草图中任意两个线段的相似性8Ke Li等Ni，j）。i，ji，ji，j计算特征差以获得对称绝对特征差矩阵D∈RN×N×128，如下：..ΣD= Di，j。i，j ∈ [1，N]=..|.|. i，j∈[1，N]Σ.（二）然后，每个向量Di，j∈R128经受二进制分类损失（cross-e_r_op_y），以获得关于G_i，j的局部亲和性，这取决于所述段和所述段。因此，局部分组损耗LA被计算为：ΣNLA=ΣΣ−Glog（G ）−（1−G）lo g（1−GΣ（3）i=1j =1全局分组丢失：仅使用本地分组丢失可能会导致全局分组不一致。然而，将全局分组一致性公式化为深度神经网络的损失并不简单。我们的策略是首先使用G i，j上的局部仿射概率i导出每个分段的全局分组表示。如果属于同一组的段彼此之间具有比组外的段更相似的分组关系，则所述多个段将被随机分配。尽管三胞胎的等级-分组损失仅涉及三个分段，因为每个分段由其与所有其他分段的分组关系表示，所以该损失是全局分组损失。更重要的是，我们首先将局部亲和性限制在矩阵G？与Gi，jas elem m ents. G的一个流向量，Gi，最终的全局分组损耗L_G为：LG=max（0，∆+d（Gi ，：，Gi+ ，：）−d（Gi ，：，Gi− ，：）），（4）其中， i 表示锚定段， i+ 同一组中的正段，并且 di−anegativeegegentfromadifferentgroupp，Δisamarg in，并且d（·）de-表示两个特征输入之间的距离函数。这里我们取l2归一化下的平方欧几里德距离。生成损失：对于生成分支，我们使用与[16]中相同的生成损失。这些包括测量潜在随机向量z与具有零均值和单位方差的IID高斯向量之间的差的重建损失LR和KL损失LKL完整学习目标：我们的全部损失LF可以写成：LF=λaLA+λgLG+λr（LR+LKL）（5）其中超参数λa、λg和λr描述了完整训练目标中不同损失的相对重要性。模型测试：在测试阶段期间，给定草图，训练的模型用于计算在rix，G处的最小化的图项。然后，在rix处的该相似性被用于生成最终分组。由于不同草图的组数不同，因此也需要估计组数为此我们采用最近的凝聚聚类方法[29]来获得最终分组。请注意，该方法不会引入任何额外的自由参数。通用草图感知分组94.4草图分析从边缘图合成草图：一个简单的草图合成方法可以开发基于建议的通用分组。该方法是基于分组的边缘地图提取的照片图像和删除最不重要的组。假设边缘图的N个片段已经被分组在K个组中，表示为Pk，k∈[1，K]。重要性度量定义为：I（Pk）=IL（Pk）·IN（Pk）+ID（Pk）（6）其中，IL（Pk）、IN（Pk）和ID（Pk）分别从组Pk中的段的长度、数目和分布的角度来度量重要性。较不重要的组具有较少数量的长度较短的段，但占据较大的区域。因此，我们有：I（P）=PkLΣi=1是我，我（P）=NPK，I（P）=max（w，h）NPk（七）L kNi=1NkLSiNDkΣNPki=1Pk，MSi）其中NPk 是P k中的段数，LSi是段S i的长度，w和h分别是物体的宽度和高度，MPk表示组Pk在像平面中的平均位置，MSi表示Seg mentSi的平均位置，并且使用Eucide和i d（·）。随着为每个组计算的imp或tance测度I（Pk），我们可以丢弃定义为具有I（Pk）I δ的那些最不重要的组<，其中Iδ是阈值。基于细粒度草图的图像检索：我们进一步开发了无监督FG-SBIR方法[17]。具体来说，我们将我们的石斑鱼边缘地图从照片中提取合成人类风格的草图。Iδ的三个阈值用于每张照片，以说明人类素描者之间的可变抽象水平然后将照片和相应的合成草图用作数据来训练现成的FG-SBIR模型[19]。在测试期间，分组和组移除过程被应用于人类草图，同样具有三个不同的阈值。最后将三个草图与原始查询草图的匹配分数请注意，为了使这个无监督的FG-SBIR模型工作良好，我们的石斑鱼必须是真正通用的：它需要在训练过的人类草图和照片边缘图上都能很好地工作。5实验5.1数据集和设置数据集拆分和预处理：在新的SPG数据集中的25个类别中，我们随机选择20个作为可见类别，并使用其余5个类别作为不可见类别来测试我们的通用石斑鱼的泛化。在每个类别中，我们选择650个草图用于训练，50个用于验证，100个用于测试。对于看不见的类别，不使用任何数据进行训练d（M10Ke Li等并且我们随机选择每个类别100个草图用于测试，以具有与所看到的类别相同的每个类别大小我们规范化所有草图笔划，并通过笔划移除和扭曲来增强草图[24]。实现细节：我们的深度石斑鱼是在Tensorflow上在单个Titan XGPU上实现的。对于模型训练，我们针对不同的损失设置重要性权重λr、λa和λg（等式2）。5、0.6和1。亚当优化器[30]应用于参数β1= 0。5，β2= 0。9， = 10−8。初始学习率被设置为0.0003，具有指数权重衰减。该模型被训练了22，000次迭代，批量大小为100。评价度量：草图感知分组与无监督图像分割问题有许多共同的特征[5]。因此，我们采用相同的度量，包括信息变化（VOI），概率随机指数（PRI）和分段覆盖（SC），如[31]中定义的。在草图分组的上下文中，这些度量的更详细的定义是：（一）信息变更：在该度量中，计算两个组之间在它们的平均条件熵方面的距离。(ii)概率兰德指数：Rand指数比较每组中成对的笔划段之间的分配的兼容性。(iii)分段覆盖：测量机器分组和人工分组之间的重叠。对于SC和PRI，分数越高越好，而对于VOI，分数越低表示结果越好。竞争对手：存在非常少的草图感知分组方法最先进的模型Edge-PG [12]使用两个格式塔原理，即接近度（空间接近度）和连续性（斜率趋势）来计算亲和矩阵，并将矩阵馈送到图切割算法以获得组。使用RankSVM从数据中学习这两个原则的权重。因此，这种方法与我们的不同之处在于，使用手工制作的功能，只有两个原则，建立模型。除了草图分组之外，最近已经提出了许多基于全卷积网络（FCN）的语义图像分割方法我们选择最先进的模型之一DeepLab [7]作为基线。它被训练为将图像作为输入并输出语义分组，即，每个像素被分配一个类别标签。条件随机场（CRF）集成到网络中，以执行邻近性和相似性原则。注意：（1）DeepLab是一种监督语义分割方法。因此，它不仅需要像我们的模型那样进行分组注释，而且还需要组ID注释，这是我们的模型和Edge-PG所不使用的。这给了它一个不公平的优势。(2)它在像素级别执行分组，而我们的模型和Edge-FG都在笔划/段级别执行分组。5.2知觉分组查看类别的结果：在本实验中，模型在可见类别训练集上进行训练，并在可见类别测试集上进行测试。从表1中，我们可以看到：（i）我们的模型在所有25个类别中的每个指标上都达到了最佳性能，除了脸上的VOI指标，我们的模型略逊于DeepLab。VOI的改进特别引人注目，表明我们的模型在每个草图中发现的组是独特的通用草图感知分组11[12]第七届中国国际汽车工业展览会VOI↓PRI↑SC↑VOI↓PRI ↑SC↑VOI↓PRI ↑SC↑飞机0.580.880.780.720.800.711.090.720.65闹钟0.460.930.830.590.840.730.860.800.70救护车0.670.860.771.350.670.601.190.710.63蚂蚁0.860.830.691.320.680.621.380.690.60苹果0.250.920.910.540.880.790.820.830.72背包0.570.880.791.290.700.611.590.670.59篮子0.760.840.741.270.710.591.370.690.61蝴蝶0.830.760.651.300.690.581.580.660.58仙人掌0.510.900.830.860.820.710.900.790.68计算器0.500.860.830.980.770.681.170.720.64营火0.280.950.911.050.710.650.770.850.74蜡烛0.890.780.691.470.650.571.540.670.60咖啡杯0.380.910.860.850.830.680.980.790.66蟹0.690.810.741.290.690.561.580.670.60鸭0.860.830.690.950.740.681.630.650.57脸0.810.840.741.240.690.610.800.820.73冰淇淋0.410.940.850.790.820.711.400.680.62猪0.630.840.781.550.630.500.980.770.67菠萝0.500.930.820.630.830.721.050.740.65行李箱0.540.890.830.580.820.751.100.730.64平均0.590.870.791.030.750.651.200.730.65表1：所见类别的比较分组结果[12]第十二话表2：看不见的类别的感知分组结果彼此之间相比之下，这两个比较模型倾向于将语义部分分成多个组，从而产生相似的组（见图1）。4）. (ii)Edge-PG比我们的方法差得多，因为它基于手工制作的特征，只有两个原则，而我们的模型隐式地学习特征和组合策略，基于从人类组注释的端到端学习。(iii)虽然DeepLab也采用了深度神经网络并使用了额外的符号，但其结果并不比Edge-PG好。这表明，对于草图感知分组，重要的是将草图视为一组笔划而不是像素，因为笔划已经将像素分组。设计用于照片图像分割的DeepLab类型的模型忽略了这些约束分组结果的一些示例如图1B所示。4.正如预期的那样，忽略像素上的笔划级别分组约束，每个笔划通常被DeepLab分成多个组[7]。Edge-PG [12]没有这个问题。然而，它只受到两个原则的限制例如，要将时钟轮廓（第二列）分组为一个组，需要使用闭合原理。由于手工制作的特征的有限表达能力，它甚至不能有效地建模两个原理：在飞机的例子中（第一列），两个机翼应该组合在一起VOI↓PRI↑SC↑VOI↓PRI↑SC↑天使0.700.870.731.190.690.60推土机0.810.850.731.370.650.58钻0.670.780.771.450.610.53花0.390.900.840.790.750.64房子0.460.910.830.850.770.69平均0.640.860.771.130.690.6112Ke Li等DeepLab[7]边缘-PG [12]我们人类图4：所见类别的定性分组结果。天使推土机钻花房子边缘-PG [12]我们人类图5：对不可见类别的定性分组结果。一起使用连续性原则，但分为两个边缘PG。相比之下，我们的模型产生更一致的分组使用多个princi- ples动态。例如，DeepLab和我们的模型都成功地运用了相似性原理，将闹钟（第二列）和鸭子（第三列）的两条腿组合在一起。但DeepLab是通过在CRF层中显式编码原理来实现的，而我们的模型则是隐式编码在仙人掌的例子中（最后一列），为了产生这些尖峰的正确分组，需要结合连续性、相似性和不太普遍的原则，如共同命运。只有我们的模型能够做到这一点，因为它已经隐式地学习了人类用来注释分组的所有原则。Unseen Categories的结果：在这个实验中，使用可见类别学习的模型直接在不可见类别上进行测试，而没有任何微调。因此，该实验被设计为评估石斑鱼是否确实是单一的，即，可以应用于任何新的对象类别。请注意，作为一种监督分割方法，DeepLab不能在这里应用，因为每个类别都有一组唯一的组ID。我们的模型和Edge-GP的结果如表2所示。可以看出，我们的模型比Edge-GP有很大的改进。首先，将表2与表1进行比较，了解我们的模型在P R I和S C C h ard hen e d上的性能。此外，Edge-PG在不可见类别上的表现这表明我们的石斑鱼更具有普遍性和普遍性。一些定性结果如图所示五、它再次表明，缺乏强大的特征学习和限制只有两个原则有助于边缘GP的较弱的结果。通用草图感知分组13方法VOI↓PRI↑SC↑边缘-PG [12]1.690.620.53我们0.960.780.71表3：与Edge-PG[12]的数据集的时间的比较。我表4：我们的模型的不同变体在可见和不可见类别上的性能结果在未知数据集上：为了进一步证明我们的通用分组器的泛化能力，我们在不同的数据集上测试了训练模型具体来说，我们从[33]中的数据集中选择了10个类别，包括5个与我们的数据集重叠的类别和5个新类别。请注意，该数据集中的草图来自[34]中提出的数据库，这些草图是在没有20秒约束的情况下绘制的因此，该数据集表示不同的域。表3显示，我们的模型再次表现出比Edge-PG更好的泛化能力。消融研究：我们的模型是用生成性损失和区分性损失的组合来训练的。4.3）。这些包括局部分组损失LA、全局分组损失LG、重构损失LR和KL损失LKL。其中，除了KL损失之外的所有损失都可以被移除，从而导致我们的模型的六个变体，例如，我们- A - G是通过去除LA和LG得到的。此外，我们还实施Ours +l2，其中hichis在r ixG w处具有l 2个关于prdi c t e daffintym的l 2个操作。R. t. 这是一个绿色的真值矩阵G来检查具有单独的局部和全局分组损失的重要性。结果示于表4中。显然，所有三个损失都有助于我们模型的性能。最差的结果时，得到了一个L2损失被添加到预测的亲和力矩阵，这表明平衡的本地和全球分组损失是学习一个好的石斑鱼的关键。我们进一步表明，我们的完整模型在未看到的类别（0.64 vs 0.86）上比我们的- R的改进在看到的类别上更大（0.59 vs 0.86）。0.68）。这表明生成损失有助于模型推广到看不见的类别。5.3草图合成与FG-SBIR我们的石斑鱼的一个应用是将其用作抽象模型，以便从照片中提取的边缘图可以进行分组和抽象，以合成类似人类的草图。图图6示出了边缘图分组结果的一些示例，并且方法看到n类别es云瑟恩卡特戈RiesVOI↓PRI↑SC↑VOI↓PRI↑SC↑我们的- A -G1.450.650.591.530.640.56我们的- R -G1.120.710.641.360.680.59我们的- R -A1.270.690.631.480.640.57我们的-G0.630.860.780.710.840.73我们的-A0.750.800.720.950.780.67我们的-R0.680.830.760.860.780.69我们的+l22.680.580.492.630.590.49我们的完整模型0.590.870.790.640.860.7714Ke Li等方法鞋-V2椅子-V2表5：Shoe-V2和Chair-V2数据集上的FG-SBIR性能(a)（b）（c）（a）（b）（c）（a）（b）（c）（a）（b）（c）图6：应用我们的石斑鱼从照片边缘图合成抽象草图（b）列给出从照片提取的边缘图和分组结果;（c）专栏提供综合的抽象素描。合成草图。可以看出，我们的石斑鱼是概括的照片边缘和我们的抽象方法产生视觉上有吸引力的草图。然后使用合成的草图来训练最先进的FG-SBIR模型[19]，而不使用任何真实的人类草图。我们使用最大的FG-SBIR数据集QMUL Shoe-V2和Chair-V2 [35]。我们首先与使用来自[32]中的深度条件GAN网络（表示为Scribbler）的合成草图训练的相同FG-SBIR模型进行比较。从表5中可以看出，我们的模型表现得更好。这表明，我们的边缘抽象模型，虽然简单，合成更逼真的草图从边缘地图。我们进一步与最近提出的无监督FG-SBIR模型LDSA [17]进行比较，该模型也基于抽象照片边缘图来合成草图。表5显示，我们的模型在Shoe-V2和Chair-V2上的前1个准确度上分别优于LDSA模型5.71%和3.63%结果与使用Shoe-V2和Chair-V2中的真实草图-照片对训练的相同FG-SBIR模型获得的上限相差不远这表明，我们的方法使FG-SBIR被使用，而无需昂贵的素描照片对的收集。6结论我们提出了一个端到端的草图感知分组模型。这是通过收集新的大规模草图分组数据集SPG来实现的。我们的石斑鱼经过生成损失训练，使其可推广到新的对象类别和数据集/域。两个分组损失也formulated平衡的本地和全球的分组约束。广泛的实验表明，我们的模型显着优于现有的石斑鱼。我们还对我们组的应用程序进行了分析，以确定这些问题和F G -S B I R之间的关系。Top1Top10Top1Top10Scribbler [32]8.86%32.28%31.27%78.02%LDSA [17]21.17%55.86%41.80%84.21%我们26.88%61.86%45.57%88.61%上界34.38%79.43%百分之四十八点九二90.71%通用草图感知分组15引用1. Wagemans，J.，Elder，J.H.，Kubovy，M.，Palmer，S.E.，彼得森，文学硕士，Singh，M.，von der Heydt，R.：视觉知觉中的格式塔心理学世纪。Percep-tualgroupingandfigure- g ro und org a n iz a t io n. Psychologicallletin（2012）2. Wagemans，J.，Feldman，J.，Gepshtein，S.，泡菜河Pomerantz，J.R.，van der Helm，P.A.van Leeuwen，C.：视觉感知中的格式塔心理学的一个世纪二. 概念和理论基础。Psychological bulletin（2012）3. Wertheimer，M.：知觉形式的组织规律。英国伦敦：基根·保罗，《战壕》，Trubner&公司，1938年4. Ren，X.，Malik，J.：学习用于分割的分类模型。In：ICCV.（2003年）5. Xia，X.，Kulis，B.：W-net：完全无监督图像分割的深度模型ArXiv电子打印（2017）6. Wang，C.，中国地质大学，Yang，B.，Liao，Y.：使用卷积自动编码器和全变分正则化作为预处理的无监督图像分割。在：ICASSP中。（2017年）7. Chen，L.C.，帕潘德里欧，G.，科基诺斯岛墨菲K Yuille，A.L.：Deeplab：使用深度卷积网、无环卷积和全连接的 crfs 进行语义图像分割。1606.00915（2016）8. 太阳，Z.，Wang，C.，中国地质大学，张，L.，Zhang，L.：自由手绘草图分割。In：ECCV. （2012年）9. 黄志，傅，H.，刘荣文：手绘草图的数据驱动分割和标注03 The Dog（2014）10. Schneider，R.G. Tuytelaars，T.：基于实例的草图分割与标注。《TOG》（2016）11. 齐，Y.，郭杰，李，Y.，张洪，Xiang，T.，Song，Y.Z.：通过感知分组进行素描In：ICIP. （二零一三年）12. 齐，Y.，Song，Y.Z.，Xiang，T.，张洪，Hospedales，T.，李，Y.，Guo，J.：通过感知分组更好地利用边缘。在：CVPR中。（2015年）13. Hinton，G. Salakhutdinov，R.：用神经网络降低数据的维数。科学（2006年）14. Amir，A.，Lindenbaum，M.：一种通用分组算法及其定量分析。03 TheDog（1998）15. Lun，Z.，Zou，C.，中国科学院，黄，H.，Kalogerakis，E.，Tan，P.，卡尼议员Zhang，H.：学习对离散图形模式进行分组。TOG（2017）16. D Eck，D.：草图的神经表征。arXiv预印本arXiv：1704.03477（2017）17. Muhammad，U.R.，Song，Y.Z.，Xiang，T.，Hospedales，T.：学习深度素描抽象。在：CVPR中。（2018年）18. 李，Y.，医院特姆Song，Y.Z.，龚，S.：通过匹配可变形零件模型的基于细粒度草图的图像检索。在：BMVC. （2014年）19. 余，Q，刘芳，Song，Y.Z.，Xiang，T.，医院特姆Loy，C.C.：把那只鞋给我画出来。在：CVPR中。（2016年）20. 宋杰Song，Y.Z.，Xiang，T.，Hospedales，T.，阮某：深度多任务属性驱动的细粒度草图为基础的图像检索排名。在：BMVC.（2016年）21. 彭，K.，Song，Y.Z.，Xiang，T.，Hospedales，T.M.：跨域生成式学习用于基于草图的细粒度图像检索。在：BMVC. （2017年）16Ke Li等22. 胡C. Li，D.，Song，Y.Z.，Xiang，T.，Hospedales，T.：Sketch-a-classifier：基于草图的照片分类器生成。在：CVPR中。（2018年）23. 宋杰Qian，Y.，Song，Y.Z.，Xiang，T.，Hospedales，T.：深度空间语义关注的细粒度草图为基础的图像检索。In：ICCV. （2017年）24. 余，Q，杨，Y.，刘芳，So

下载后可阅读完整内容，剩余1页未读，立即下载