素描中的格点表示方法

6 浏览量更新于2023-10-16 收藏 21.99MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

9530SketchLattice：用于素描操作的格点表示0Yonggang Qi 1 * Guoyao Su 1 � Pinaki Nath Chowdhury 2 Mingkang Li 1 Yi-Zhe Song 201 北京邮电大学，中国 2 SketchX，CVSSP，萨里大学，英国0{ qiyg，sgybupt，lmk } @bupt.edu.cn { p.chowdhury，y.song } @surrey.ac.uk0摘要0设计素描表示的关键挑战在于处理抽象和图标性质的素描。现有的工作主要使用（i）将素描作为自然图像处理的像素格式，使用现成的基于CNN的网络，或者（ii）经过精心设计的矢量格式，利用顺序的基于RNN的方法来利用绘图顺序的结构信息。虽然像素格式缺乏对结构线索的直观利用，但矢量格式的素描在大多数情况下都不存在，限制了它们的实际使用。因此，在本文中，我们提出了一种格点结构的素描表示，不仅消除了对矢量数据的需求的瓶颈，还保留了矢量数据提供的结构线索。基本上，素描格点是使用格点图从素描的像素格式中采样得到的一组点。我们展示了我们的格点结构对于大部分有利于素描抽象建模的结构变化是适应的。我们的格点表示可以使用图模型有效地编码，使用的模型参数比现有的最先进方法少得多（减少了13.5倍）。广泛的实验证明了素描格点在素描操作中的有效性，包括素描修复和图像到素描的合成。01. 引言0近年来，关于自由手人类素描的研究变得越来越流行。由于其在记录视觉对象方面的普遍能力[6]，素描成为人机交互的一种自然媒介。为素描设计一个量身定制的表示方法是素描研究的核心，并直接影响一系列下游应用，如素描识别[33,27, 12]，基于素描的图像检索[3, 32, 17,16]，素描-3D重建[15, 9, 25, 19, 22]和素描合成[14,23]。尽管是一个关键组成部分，但设计一个有效的表示方法是具有挑战性的，因为素描通常是抽象和图标的。0* 相等贡献0(a)0(c) (b)0(d)0图1.(a)给定在输入素描上采样的格点（左），我们提出的Lattice-GCN-LSTM网络可以重新创建相应的矢量素描（右）。(b)给定一个损坏的素描，使用生成的格点来相应地重建一个相似的素描。 (c)通过改变格点的密度，可以控制生成素描的抽象级别。(d)通过在物体边缘上删除一些格点来进行图像到素描的合成。0以前的工作主要依赖于以像素格式（即图像）编码素描[6,33,21]。虽然它提供了使用现成的卷积神经网络轻松重新用于素描的便利性，但像素格式缺乏对结构信息的直观利用。结构信息的存在对于素描抽象建模[6,20]至关重要，而素描抽象建模对于决定结构操作的下游任务（如素描生成[7, 4, 10]和素描合成[14, 23]）至关重要。0基于RNN的方法因此成为充分探索素描的时序特性的手段[7]。研究惯例是使用QuickDraw[8]矢量格式，其中每个素描都表示为x和y的偏移量列表。由于对笔画级建模，这些方法在生成和合成任务中确实提供了一定的灵活性，但是它们通过施加一个强假设来实现这一点-所有的素描都有顺序的笔画数据。这种假设在很大程度上禁止了基于RNN方法与在纸上绘制的素描等素描一起使用。因此，一个自然的问题是-是否有一种方法可以消除对矢量数据的需求的瓶颈，但是9540同时保留矢量数据提供的结构线索？为了回答这个问题，我们提出了一种受格子结构概念启发的替代素描表示方法——SketchLattice。我们将SketchLattice定义为使用格子图从原始2D素描图像中采样得到的一组点，如图1(a)所示。尽管这种格子化的素描表示看似简单，但它非常适应结构变形，从而为素描抽象建模和后续下游素描生成任务提供重要的优势。我们提出的格子化表示可以使用简单的现成图卷积网络（GCN）[12,5,28]进行有效编码，与最新的技术相比，模型参数大大减少（减少13.5倍）。这不仅使我们提出的素描表示易于部署，从而进一步实现实用性的进展，而且还减少了优化和训练的难度，以获得竞争性的性能。具体而言，SketchLattice中的每个点被视为一个图节点。节点之间的几何接近性用于构建邻接矩阵以形成图链接。直观地说，所提出的基于GCN的特征提取器学习了素描对象中点的拓扑结构。尽管简单，我们的新颖素描表示对于素描生成非常有效。特别是，使用所提出的格子化表示，我们展示了如何使用我们的Lattice-GCN-LSTM网络恢复损坏的素描，如图1(b)所示。此外，我们还提出了素描表示中的一个新颖方面，即生成的素描的抽象级别是可控的，如图1(c)所示，取决于使用格子图采样的点的密度。此外，我们的方法还适用于图像到素描合成问题，只需在目标对象的边缘上放置一些关键点，如图1(d)所示。我们的贡献总结如下：（i）我们提出了SketchLattice，一种使用极其简单的公式即使用格子图从素描图像中采样得到一组点的新颖格子化表示。（ii）我们的格子化表示可以使用简单的图模型进行有效编码，使用的模型参数较少，从而在效率方面取得了重要进展。（iii）我们展示了如何通过改变使用格子图从图像中采样的点的密度来控制生成素描的抽象级别。02. 相关工作0素描数据格式素描表示主要有两种数据格式——基于图像和顺序表示。前者将素描视为0传统的2D图像具有像素值（即像素格式），而后者将素描视为一组有序的笔画点（即矢量格式），由沿x和y方向的偏移坐标以及笔状态（触摸、抬起和结束）表示[7]。传统的素描特征提取器通常是基于CNN的方法[33,4]，可以直接在输入时采用像素格式的素描图像。然而，由于素描图像中线条细节的稀疏性，这种方法具有很高的冗余性，需要大量的工程努力[33]。此外，基于CNN的方法不能有效地捕捉结构线索，因为它不编码对象的位置和方向，导致在生成模型上的结果不佳。相比之下，顺序表示是特定于素描的[8]，根据人类的绘画习惯逐笔构建。这种顺序的矢量格式表示允许使用基于RNN的方法对素描进行建模。这导致了令人印象深刻的结果，如使用长短期记忆（LSTM）进行素描生成和素描合成[7,24]。尽管有前景，但这种基于RNN的方法在输入时需要矢量化的数据格式，这在没有矢量素描（如纸上的素描）的情况下限制了实际使用。因此，我们旨在提出一种未经探索的技术，通过采用更实用的格子素描表示，即SketchLattice，避免存储笔画顺序，同时仍保持矢量素描通常提供的强大空间证据。0图形化素描嵌入图卷积网络（GCNs）[2,12]最初是为了处理结构化数据，如知识图谱或社交网络，通过在图上推广神经网络而设计的。在过去的几年中，已经取得了令人兴奋的发展，探索了GCNs在各种视觉任务中的能力，包括图像分类[5]、字幕[31]、图像理解[1]、动作识别[13]、3D物体检测[34]和形状分析[26]。然而，直到最近，一些尝试[30,29]才开始将GCNs应用于素描嵌入。素描笔画的现有视觉稀疏性和空间结构与图形表示自然兼容。然而，在素描研究中，主导方法假设可以访问需要笔画顺序的矢量格式，因此在现实世界中存在重大限制。相反，我们提供了一种通用方法，探索了素描的格子化表示中的几何接近性。我们还展示了我们提出的图形化素描嵌入如何可以额外用于涉及素描生成和图像到素描的翻译的任务。03. 方法论0概述我们描述了Lattice-GCN-LSTM网络，其中的核心思想是一种新颖的素描表示技术�9550随机失活0BN1d求和0图2.Lattice-GCN-LSTM架构的示意图。将输入的素描图像或图像对象的边缘图映射给我们的格子图，以采样格子点。采样所有在素描图中的黑色像素和格子图中均匀分布的线之间重叠的点。给定格子点，我们使用邻近原则构建一个图。图模型用于将SketchLattice编码为潜在向量。最后，生成式LSTM解码器重新创建一个类似于原始素描图像的向量素描。0一种技术，将输入的2D素描图像S转换为一组点S L = { p 1 ,p 2 , . . . , p m }，使用格子图F lattice 。S L 中的每个点p i= ( x, y )表示S中的绝对坐标x和y。我们称S L为S的格子格式表示。我们的新颖格子格式S L可以无缝地转换为图形形式G = ( V, E)，并使用一个简单的现成的基于GCN的模型将其编码为一个d维的素描级嵌入向量Ψ ∈ R d。我们观察到，这个素描级嵌入向量Ψ可以通过使用现有的基于LSTM的解码模型来帮助下游任务，如素描生成。图2提供了一个示意图。03.1. 格子化素描0我们提出的格子化素描表示的输入是一个素描图像S ∈ R w× h，其中w和h分别表示S的宽度和高度。我们使用格子图Flattice 从S中提取格子化素描S L 。我们的格子图F lattice是一个网格，由均匀分布的2n条水平和垂直线组成，以交叉方式排列。对于任何给定的素描图像S，n的最优值可以在推理过程中经验确定，无需进一步训练。如图2所示，我们通过采样在素描图像S中表示笔画区域的黑色像素和格子图Flattice 中的2n条水平或垂直线之间的所有重叠点p 1 , p 2 , .. . , p m 来构建S L 。形式上，我们定义S L 如下：0S L = F格子 ( S ) (1)0尽管非常简单，这种新颖的格子化素描表示S L非常信息丰富，因为它可以表达原始素描图像S的拓扑结构（即整体结构和形状），而无需矢量数据。此外，我们的格子化素描表示非常灵活，因为：(i) 输入素描图像（w ×h）的大小没有限制，保持了原始的长宽比；(ii)生成的素描的抽象级别调节0根据从格点图 F lattice 的采样密度，通过改变 n的值来确定。增加 n 的值会导致更详细的草图，而减小 n的值会导致高度抽象的草图。图 1 (c) 和 4展示了如何通过添加更多的采样点 p i来改变生成草图的抽象级别。03.2. 图构建0图节点 V SketchLattice S L可以通过一个简单的图模型进行有效编码，该模型不仅消耗更少的模型参数，从而提高效率，而且还可以更容易地进行优化，从而使模型在给出最先进性能的同时更好地训练。对于每个点 p i ∈ S L ，我们计算表示集合 V 的元素 v i ∈ V。为了确保编码过程适应结构变化，每个点 p i都通过可学习的嵌入函数 F emb ( ∙ ) : R 2 → R d进行标记化，将绝对点位置 p i = (x, y) 映射到 d维向量空间。形式上，0v i = F emb (p i ) (2)0其中 v i ∈ R d是生成的标记化向量表示。保持原始纵横比，我们将输入草图图像 S ∈ R w × h 调整大小并填充到 (256, 256)的尺寸，然后应用格点图 F lattice 。因此，学习嵌入函数 Femb 的词汇量大小为 256 2。我们的直觉是，通过使用一个将每个点位置 (x, y)标记化为 d 维向量 v i 的嵌入函数 F emb，模型将学习为附近的点获取相似的嵌入特征。因此，得到的表示将对经常出现的形状变形更具鲁棒性，并且更适合于生成任务中的草图抽象建模。图边 E采用了一种基于几何接近原则的直接而有效的方法，根据相应的格点位置 p i 构建节点之间的图边链接，其中 p i =ˆvki =m�j=1ai,jvkj(3)vk+1i= [ReLU(MLPΘ(ˆvki ))]×2(4)µ = WµΨ,σ = exp(WσΨ2)(5)min Eqϕ(z|S)[− log pθ(S|z)](7)9560(x, y) 。具体来说，我们首先计算每对节点 (v i , v j )之间的欧氏距离 d i,j = || p i - p j || 2。然后我们遵循以下两个选项之一：(i) 每个节点 v i ∈ V连接到其最近邻节点，或者 (ii) 每个节点 v i ∈ V连接到其足够接近的邻居节点，即 norm (d i,j ) < d T，其中 norm (d i,j ) 是在 (0,1)范围内的归一化距离。在我们的情况下，预定义的距离阈值d T 的值经验性地确定为 0.2 。通过将链接节点对 (v i , v j )的链接强度设置为 a i,j = 1 - norm (d i,j )，使较小的距离导致较大的分数。所有断开的节点 a i,j均设置为 0 。03.3. 图形草图编码器0给定图节点 V = {v 1 , v 2 , ..., v m } 和相应的邻接矩阵 A，我们使用一个简单的图模型来计算我们的最终草图级潜在向量 Ψ ∈ R d 。得到的向量 Ψ可以用于下游应用，包括草图修复和图像到草图的转换。我们使用一堆 K 个相同的图编码层，后面跟一个全连接 (FC)层、批归一化和非线性激活函数 Tanh 。对于图编码层 k ∈[1, K ] 中的每个第 i 个节点 v k i，执行一个特征传播步骤来生成更新后的节点特征 ˆ v k i，其中每个节点 v k i都关注具有非零链接强度的所有邻居节点，这些节点在邻接矩阵 A 中定义。我们计算 ˆ v k i 如下：0这种机制不仅促进了连接节点之间的信息传递，还增加了对格点草图中缺失部分的鲁棒性。这对于草图修复等下游任务非常有益 [24]。对生成的富有空间依赖性的特征 ˆ v k i应用图卷积：0每个编码层都由两个多层感知机（MLP）单元组成，两者都后跟一个修正线性单元（ReLU）。我们在每个编码层中使用了dropout和残差连接，如图2所示。从第K个图形编码层的节点的最终特征向量被整合成一个单一的向量，进一步被馈送到一系列的FC层、批归一化和Tanh函数中，以计算我们的素描级潜在表示 Ψ ∈ R d 。03.4. 通过LSTM解码器生成素描0根据[ 7 , 4 , 24]，我们设计了一个生成性LSTM解码器，以矢量格式生成顺序素描笔画。相应地，素描级潜在向量 Ψ0将其投影到两个向量 µ ∈ R d 和 σ ∈ R d，然后我们可以通过使用重参数化技巧[ 11]引入生成过程中的随机性，通过独立同分布的高斯变量 N(0 , I ) 来采样一个随机向量 z ∈ R d ：0其中 W µ 和 W σ 是通过反向传播学习得到的[ 7]。潜在向量 z被用作LSTM解码器的条件，以顺序预测素描笔画。具体而言，来自上一个时间步的输出笔画表示 s t − 1 ，以及潜在向量 z一起作为输入，通过以下方式更新LSTM隐藏状态 h t − 1 ：0h t = LSTM 前向传播 ( h t − 1 ; [ s t − 1 , z ]) (6)0其中 [ ∙ ]表示连接操作。接下来，使用线性层来预测当前时间步的输出笔画表示，即 s t = W s h t + b s ，其中 W s 和 b s是可学习的权重和偏置。最终的笔画坐标通过高斯混合模型从 s t 导出，以生成矢量素描格式，表示为 S ′。更多细节请参考[ 7 , 8 ]。03.5. 模型训练和部署0我们提出的图形素描编码器和生成性LSTM解码器被端到端地训练用于素描生成。需要注意的是，虽然我们需要矢量素描来训练LSTM解码器以实现矢量素描生成的目的，但在推断过程中，我们的模型完全基于图像素描输入，而不是矢量数据。根据[ 7]，目标是最小化生成的概率分布的负对数似然来解释训练数据 S ，可以定义为：0旨在从预测的潜在向量 z 重构矢量素描表示 S。在训练过程中，解码器根据图形编码的潜在向量 z生成一个矢量素描，从给定任何图像素描的格子素描 S L，因此更适用于实际应用。04. 实验0能够适应结构变化并能够为素描生成提供适当的抽象建模是我们提出的SketchLattice表示的两个关键方面。具体而言，我们采用了具有挑战性的素描修复任务来验证我们的新型素描表示对于经常发生的素描结构变形的鲁棒性。此外，我们9570同时观察我们提出的方法如何用于执行图像到素描的转换任务。0实现细节我们使用PyTorch [ 18 ]在一块Nvidia Tesla T4GPU上实现了我们的模型。优化使用Adam优化器进行，参数为 β 1 = 0 . 9 ， β 2 = 0 . 99 和 ϵ = 10 − 8。学习率的值设置为 10 − 3 ，每次迭代中衰减率为 0 .999。在训练LSTM解码器时采用了梯度裁剪策略，以防止梯度在训练过程中爆炸。实质上，如果实际值大于 1 . 0，我们将梯度值强制设为 1 . 0 。图编码层的最佳值为 K =2 。04.1.草图修复0草图修复任务[24]类似于矢量草图合成。具体而言，给定一个部分草图绘制，目标是重新创建一个最能够与部分草图相似的草图。0从完整的SL到部分的ˆSL：给定输入草图图像S的格子草图表示SL，我们以概率Pmask随机删除SL中的一部分格子点，生成部分的SketchLattice，表示为ˆSL。因此，与删除的节点相关联的图形边缘也被断开，同时修改邻接矩阵A。可以将Pmask视为输入草图图像的损坏程度。04.1.1实验设置0数据集：在[27,24]的基础上，我们使用QuickDraw[8]进行评估，因为它目前是最大的涂鸦草图数据集。更具体地说，选择了一个包含10个类别的小子集，以便包括（i）复杂和简单的绘画，（ii）类别内的对象彼此之间具有高度相似性，以及（iii）包含不同子类别的常见生活对象类别，例如公共汽车和雨伞。在每个类别中，我们使用70k个训练和1k个测试草图。所选的10个类别如下：飞机，天使，苹果，蝴蝶，公共汽车，蛋糕，鱼，蜘蛛，长城，雨伞。0竞争对手：我们将我们提出的Lattice-GCN-LSTM网络与三种最流行的矢量草图生成替代方法进行比较：SketchRNN（SR）[7]，SketchPix2seq（Sp2s）[4]和SketchHealer（SH）[24]。SketchRNN的输入是从矢量草图表示中的x和y方向的偏移量集合。SketchRNN的关键是一个序列到序列模型，该模型在没有KL散度项的情况下进行训练。这样做是为了保持比较的公平性，因为KL散度项在多类别场景中已经显示出有益的作用。另一方面，SketchPix2seq用CNN替换了其编码模块。0基于接受像素格式（即草图图像）的编码器。预计这样的设计将有助于捕捉更好的视觉信息。请注意，虽然SketchRNN和SketchPix2seq都不是专门为草图修复任务设计的，但是根据[24]的建议，我们在重新定位后使用这些技术，因为它们在程序上是兼容的。唯一专门解决草图修复任务的工作是SketchHealer[24]。给定一个矢量草图作为输入，SketchHealer将其转换为图形形式，其中每个笔画都被视为一个节点。然后，从每个节点区域提取视觉图像补丁。应用基于GCN的模型来对随机矢量z进行编码。SketchHealer的解码过程与我们的完全相同，其中将z输入到生成性LSTM解码器中以生成相应的矢量草图。此外，我们还重新训练了SketchHealer的一个变种，仅使用视觉线索（SH-VC），其中笔画顺序不可用。因此，类似于我们的方法，利用几何接近原则来构建图形边缘。这样可以检查SH [24]在没有矢量草图的情况下的性能。0评估设置：我们采用[23]和[24]中的类似评估设置进行定量评估，以了解我们的新型格子草图表示的有效性。首先，通过草图识别准确性评估生成的矢量草图的质量（转换为像素格式）。我们使用一个预训练的AlexNet架构的多类别分类器，该分类器在345个QuickDraw类别的训练集上进行训练。更高的识别准确性实质上意味着网络生成逼真草图的能力。它还表明网络能够通过有效地对草图进行编码来准确地建模底层数据分布。我们使用每个选定类别的1000个测试草图进行全面评估。其次，我们通过执行草图到草图的检索任务来判断编码的草图级潜在向量Ψ的可识别性。目标是，给定草图的编码表示Ψ，我们期望从一组草图中检索到相同类别的草图。更高的检索准确性表明网络具有强大的草图修复能力，这是由于其易于处理和稳健的草图表示。04.1.2 结果0定性结果我们在图3中展示了我们基于格点的素描生成器在不同Pmask值下生成的一些示例。我们可以观察到：（i）我们的格点表示对部分缺失的部分具有鲁棒性，即使在P mask =30%的情况下，我们仍能生成一个完整的新素描。（ii）生成的素描对获得的采样点的数量敏感，更多的点会导致生成的素描更详细。𝑃"#$%--10%30%50%SR [7]✓✗0.67 M10%25.08% 50.65%30%3.44% 43.48%Sp2s [4]✗✓1.36 M10%24.26% 45.20%30%10.54% 27.66%SH [24]✓✓1.10 M10%50.78% 85.74%30%43.26% 85.47%SH-VC [24] ✗✓1.10 M10%-58.48%30%-50.87%9580输入输出输入输出输入输出输入输出输入输出0苹果蝴蝶蛋糕公交车蜘蛛0输入输出0雨伞0图3. 在Quick-Draw数据集中，展示了SketchLattice在不同遮罩概率P mask下生成的素描示例。随着Pmask的增加，生成的素描变得更抽象。对于P mask ≤ 30%，我们观察到生成的素描令人满意，但对于P mask =50%，生成的新素描难以忠实地恢复原始素描。0图4.示例展示了在不同阶段添加更多的格点（颜色编码），使得Lattice-GCN-LSTM网络逐渐生成更详细的类别表示。0以蛋糕为例，如图3所示，我们观察到在增加Pmask时，底部和蜡烛区域被简化。（iii）当将Pmask进一步提高到50%时，我们的模型几乎无法生成令人满意的素描，因为输入采样点严重缺失。我们进一步展示了生成的素描的抽象程度如何随着输入格点的数量和位置的变化而调节，如图4所示。例如，如果我们只删除点以形成蝴蝶的翅膀，那么生成的蝴蝶将非常简单。当我们产生更多的点来传达相应细节的意图时，身体和触角开始出现。其他类别也可以找到类似的趋势。0定量结果如第4.1.1节所讨论的，我们根据两个指标（识别准确性和Top-1检索）比较了不同模型的性能，如表1所示。从表1可以看出，我们的方法在识别准确性上优于其他基线方法，这表明从我们的方法得到的修复素描更有可能被正确分类为对象。重要的是，我们还可以观察到，与其他竞争方法不同，我们的方法不需要在测试过程中使用矢量格式（VF）输入或视觉线索（VC）。0表1. 根据不同的遮罩概率Pmask，识别准确性（Acc）和检索结果（Top-1）。我们在测试过程中使用我们的方法，不需要矢量格式（VF）输入或视觉线索（VC），并使用“附近”接近原则和最优值n = 32。0方法 VF VC #参数 P mask 准确性 Top-10我们的方法 � � 0.08 M 10% 55.50% 76.02% 30%54.79% 73.71%0与其他对腐败程度非常敏感的竞争对手相比，我们的方法即使在Pmask增加到30%时，仍能保持稳定的识别准确性。对于素描到素描的检索任务，我们可以看到我们的方法达到了第二好的结果，略逊于SketchHealer。然而，SketchHealer在很大程度上依赖于矢量化素描提供的笔画顺序，这可以通过检索性能的显著下降(Table 1 SH vsSH-VC)来证明。这表明了我们的方法在没有矢量输入的情况下的重要性和优越性，而这在实际情况中是常见的做法。此外，我们的网络比其他竞争对手要轻得多，参数要少得多（比SketchHealer少13.5倍），因为我们的方法避免了使用昂贵的基于CNN的操作。我们还在评估中添加了两个干扰类别circle和clock来干扰apple。可以观察到稍微好一点的结果77.80%（与76.02%相比）（12个类别，P mask=10%），表明效果良好。10%0.260.180.390.4330%0.030.080.370.429590Pmask=10%0Pmask=30%0图5.QuickDraw类别在不同损坏水平Pmask下的草图到草图检索的定性结果（前6个）。红色边界框表示误报。0图6.QuickDraw中选择的10个类别的草图级潜在向量Ψ的t-SNE图，展示了我们基于格点的图形编码器的区分能力。同一类别的实例倾向于聚集在一起，表明具有类别级别的区分能力。0我们的格点表示的可扩展性和鲁棒性。图5显示了一些草图到草图检索的示例。0Ψ的可视化为了进一步可视化我们基于格点的图形编码器的区分能力，我们从测试集中随机选择了每个类别的100个草图，并使用t-SNE可视化它们的潜在向量Ψ，如图6所示。我们观察到同一类别的实例倾向于聚集在一起，表明具有类别级别的区分能力。0消融研究使用草图进行了彻底的消融研究0表2.在QuickDraw上的消融研究（Top-1和Top-3识别准确率），衡量了（i）从我们的格点图Flattice中的格点采样密度或网格n的贡献，（ii）格点图编码器中的残差连接，（iii）从格点构建图的有效接近原则；对于不同的损坏值Pmask = {10%，30%}。0网格残差接近 Top-1 Top-30我们的方法（Pmask =10%）08 � 最近 26.56% 33.77% � 最近 36.16% 45.82% �附近 38.86% 51.36%016 � 最近 14.47% 19.12% � 最近 40.64% 50.05% �附近 42.56% 51.71%032 � 附近 55.50% 64.72%064 � 附近 45.71% 53.56%0我们的方法（Pmask =30%）08 � 最近 16.97% 24.02% � 最近 34.70% 43.76% �附近 36.41% 47.75%016 � 最近 13.76% 18.43% � 最近 40.59% 49.56% �附近 39.07% 48.41%032 � 附近 54.79% 64.74%064 � 附近 45.07% 53.50%0识别准确率为了验证我们不同设计选择的有效性，例如（i）格点图的大小，（ii）用于图构建的接近原则，以及（iii）在我们的图形草图编码器中使用的残差连接的重要性，我们进行了一项消融研究。如表2所示，我们可以观察到（i）增加n的值，即从我们的格点图Flattice中密度采样格点的数量，会同时提高识别准确率。当n>32时，我们开始观察到性能饱和，从而确定n=32为最佳值。（ii）对于图的构建，我们观察到更多的邻居（附近的格点）比仅使用最近的邻居更好。（iii）去除残差连接会导致性能显著下降，从而证明其重要性。0对于复杂草图为了验证我们提出的格点表示的鲁棒性和适用性，我们进一步研究了处理复杂数据时的性能。具体而言，我们根据笔画数量，检查了所有类别中最复杂草图（前25%）的识别准确率。从表3的结果可以看出，我们的方法在修复最复杂的草图时优于其他竞争对手。0表3. 在最复杂的情况下，即所有类别中前25%的草图（按笔画计算）的草图识别准确率。0Pmask SR [7] Sp2s [4] SH [24] 我们的方法10%5.8011.5538.9843.6730%1.467.6026.7064.249600人类研究为了更深入了解修复的草图的准确性，我们额外进行了一项人类研究。我们招募了10名参与者。随机选择了10个类别中的50个草图样本。每个样本都有两个相关的损坏实例，分别对应于10%和30%的遮罩比例。对于每个损坏的草图，我们使用不同的方法（SketchHealer、SketchRNN、SketchPix2seq和我们的方法）生成一组修复的草图。我们以随机顺序向每个参与者展示损坏的草图和四个修复版本的组合。然后，要求每个参与者选择一个最像损坏输入的修复草图。表4的结果表明，根据人类的评价，我们的方法修复的草图在两个损坏水平下最像损坏输入。0表4. 关于修复草图的保真度的人体研究（以%表示）。0P mask SR [7] Sp2s [4] SH [24] 我们的模型04.2. 图像到草图的合成0我们的Lattice-GCN-LSTM网络可以应用于图像到草图的翻译。基本上，给定一个输入图像，我们使用一个现成的边缘提取器[35]提取相应的边缘。然后，我们使用我们的格子图将边缘图转换为一个格子化的草图表示。通过我们的图形编码器，可以无缝地对生成的SketchLattice进行编码。最后，使用生成性LSTM解码器可以生成一个矢量草图。我们的目标是生成一个最接近人类绘制的真实草图。一旦训练完成，对于任何输入图像，我们可以根据相应的边缘和格子图获得一些代表性的格子点。然后，我们的生成性LSTM解码器可以根据第3.4节中所述的草图级编码表示Ψ生成一个草图。实验设置我们使用QMUL-shoe-v2[32]，一个细粒度的基于草图的图像检索数据集，来评估我们的图像到草图合成方法。总共有6648个图像到草图的一对一映射。数据集分为两部分，即6000对用于训练，其余的648对用于测试。我们选择我们的格子图的n值为32，并采用“附近”策略进行图形构建。我们采用了当前最先进的LS-SCC[23]进行比较。人体研究我们进行了一个用户研究，评估了两个方面：（i）生成草图的真实性，即草图是否“看起来”像是由人类绘制的，以及（ii）生成的草图与目标照片之间的相似性。具体来说，我们向10个新参与者展示了图像三元组，即一张鞋子的照片和两个随机顺序生成的草图，分别由LS-SCC[23]和我们的模型生成。每个参与者被要求选择哪个草图更像人类绘画（REAL），以及哪个草图最像照片鞋子（SIM）。0(a) (b) (c) (f) (d) (e)0(g)0图7.图像到草图的合成示例。（a）Shoes-V2数据集中的原始照片。（b）照片鞋子边缘上的格子点。（c）我们模型生成的草图。（d）人类根据照片引入的点。（e）我们模型使用（d）中显示的格子点生成的草图。（f）用于比较的LS-SCC[23]生成的草图。（g）根据照片绘制的人类草图。0表5. 关于生成草图的真实性（REAL %）和相似性（SIM%）的人体研究。0方法 REAL SIM0LS-SCC [23] 44.82 49.77我们的模型 55.18 50.230参与者被要求判断两个方面：（i）生成的草图的真实性，即草图是否“看起来”更像人类绘画（REAL），以及（ii）生成的草图与目标照片之间的相似性（SIM）。0结果和分析在图7中展示了一些定性结果，我们可以看到与人工绘制的草图相比，LS-SCC[23]和我们的结果都远远不如人意，然而我们生成的草图描绘了更多的细节特征，例如“鞋跟”、“鞋底”和“拉链”。表5中的人体研究结果表明，我们模型生成的草图更接近于人类绘画，同时与LS-SCC相比，在描绘真实鞋子方面同样有效。05. 结论0我们引入了一种新颖的草图表示，SketchLattice，它不仅消除了矢量数据的瓶颈，还保留了矢量数据提供的基本结构线索。这导致了一种特别适合结构变化的草图表示，从而实现更好的抽象建模。我们展示了这种新的表示在多个草图操作任务中的帮助，例如草图修复和图像到草图的合成，在这些任务中，尽管使用的参数明显较少，但它在性能上优于最先进的替代方法。0致谢0该工作得到了中国国家自然科学基金委员会(NSFC)的支持，编号61601042。9610参考文献0[1] Somak Aditya, Yezhou Yang, Chitta Baral, YiannisAloi-monos和Cornelia Ferm¨uller.使用视觉和场景描述图进行视觉和推理的图像理解。CVIU，2018年。20[2] Joan Bruna, Wojciech Zaremba, Arthur Szlam和Yann Le-Cun.谱网络和局部连接网络在图上的应用。arXiv预印本arXiv:1312.6203，2013年。20[3] Yang Cao, Hai Wang, Changhu Wang, Zhiwei Li, Liqing Zhang和LeiZhang. Mindfinder: 在数百万张图像上进行交互式基于素描的图像搜索。在ACMMM，2010年。10[4] Yajing Chen, Shikui Tu, Yuqi Yi和Lei Xu. Sketch-pix2seq:用于生成多个类别素描的模型。arXiv预印本arXiv:1709.04121，2017年。1, 2, 4, 5, 6, 7, 80[5] Zhao-Min Chen, Xiu-Shen Wei, Peng Wang和YanwenGuo. 基于图卷积网络的多标签图像识别。在CVPR，2019年。20[6] Mathias Eitz, James Hays和Marc Alexa.人类如何素描物体？TOG，2012年。10[7] David Ha和Douglas Eck.素描绘图的神经表示。在ICLR，2018年。1, 2, 4, 5, 6, 7, 80[8] David Ha和Douglas Eck. 快速，绘制！数据集。0https://github.com/googlecreativelab/quickdraw-dataset，2018年。1, 2, 4, 50[9] Zi-Hang Jiang, Qianyi Wu, Keyu Chen和Juyong Zhang.用于3D面部形状的解缠表示学习。在CVPR，2019年。10[10] Tero Karras, Samuli Laine和Timo Aila.用于生成对抗网络的基于样式的生成器架构。在CVPR，2019年。10[11] Diederik P. Kingma和Max Welling.自动编码变分贝叶斯。在ICLR，2013年。40[12] Thomas N Kipf和Max Welling.带有图卷积网络的半监督分类。ICPR，2016年。1, 20[13] Maosen Li, Siheng Chen, Xu Chen, Ya Zhang, YanfengWang和Qi Tian.用于基于骨架的动作识别的行动结构图卷积网络。在CVPR，2019年。20[14] Runtao Liu, Qian Yu21和Stella X Yu.无监督的素描到照片合成。ECCV，2020年。10[15] Zhaoliang Lun, Matheus Gadelha, Evangelos Kalogerakis,Subhransu Maji和Rui Wang.通过多视图卷积网络从素描中重建3D形状。在3DV，2017年。10[16] Kaiyue Pang, Ke Li, Yongxin Yang, Honggang Zhang,Timothy M Hospedales, Tao Xiang和Yi-Zhe Song.泛化细粒度基于素描的图像检索。在CVPR，2019年。10[17] Kaiyue Pang, Yi-Zhe Song, Tony Xiang和Timothy M Hospedales.用于细粒度基于素描的图像检索的跨域生成学习。在BMVC，2017年。10[18] Adam Paszke, Sam Gross, Soumith Chintala, GregoryChanan, Edward Yang, Zachary DeVito, Zeming Lin, Al-banDesmaison, Luca Antiga和Adam Lerer.PyTorch中的自动微分。2017年。50[19] Anurag Ranjan, Timo Bolkart, Soubhik Sanyal和Michael JBlack.使用卷积网格自动编码器生成3D面部。在ECCV，2018年。10[20] Umar Riaz Muhammad, Yongxin Yang, Yi-Zhe Song, TaoXiang和Timothy M Hospedales.学习深度素描抽象。在CVPR，2018年。10[21] Patsorn Sang

下载后可阅读完整内容，剩余1页未读，立即下载