草图-BERT：基于完形自监督学习的草图双向编码器

101 浏览量更新于2023-10-23 收藏 934KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

16758草图-BERT：基于草图完形自监督学习的变形金刚草图双向编码器表示林航宇，付彦伟复旦大学18210980008,yanweifu@fudan.edu.cn江玉刚<$，薛向阳复旦大学计算机科学学院ygj，xyxue@fudan.edu.cn摘要以前的草图研究通常考虑像素格式的草图，并在草图理解中利用基于CNN的模型。从根本上说，草图存储为一系列数据点，一种矢量格式表示，而不是照片般逼真的像素图像。SketchRNN [7]通过长短期记忆网络（LSTM）研究了矢量格式草图的生成神经表示。不幸的是，SketchRNN学习的表示主要用于生成任务，而不是识别和重新评估草图的其他任务。为此，受当前BERT模型[3]的启发，我们提出了一种从转换器学习草图双向编码器表示的模型（Sketch-BERT）。我们将BERT推广到草图领域，使用新提出的组件和预训练算法，包括新设计的草图嵌入网络和草图完形的自监督学习特别地，对于预训练任务，我们提出了一种新的草图完形模型（SGM）来帮助训练草图- BERT。实验表明，Sketch-BERT的学习表征可以帮助和提高草图识别，草图检索和草图完形的下游任务的1. 介绍随着触摸屏设备的普及，例如，iPad，每个人都可以轻松绘制简单的草图。因此，它支持自动理解草图的需求，草图作为一种2D像素图像在[28，22，17]中得到了广泛的研究有趣的是，这些手绘草图反映了我们对周围世界中物体和场景的模式、结构、形式甚至简单逻辑的抽象和图标表示因此，而不是表示同等贡献，†表示通讯作者。Y. Fu就职于数据科学学院和MoE脑科学前沿中心，复旦大学智能信息处理上海市重点实验室摘要草图作为二维图像，其本质是从序列数据的角度进行分析，而这一点在以往的研究中较少涉及。通常，草图由几个笔划组成，其中每个笔划都可以被视为一系列点。我们采用与[7]中相同的5元素矢量格式表示草图。简单地说，每个点具有二维连续的位置值和指示该点的状态的三维一热状态值。根据知觉分组的完形原则[2]，人类可以很容易地将草图视为一系列数据点。为了分析连续的草图，SketchRNN [7]旨在通过将变分自动编码器（VAE）与长短期记忆网络（LSTM）相结合来学习草图的神经表示，主要用于草图生成。相比之下，人类视觉系统将能够理解语义，或从草图中抽象出图案。例如，我们可以很容易地从“Ground Truth”列（草图识别任务）预测草图的类别标签1.一、相比之下，这就要求学生在学习更一般、更全面的草图表示时具有更高的质量。形式上，一个新的素描完形（sGesta）的任务是，在本文中首次提出，如图。1.这个名字来自于著名的完形理论，强调的是物体的整体结构，而不是某些部分。其中，草图完形任务的目的是恢复草图中被遮蔽的点，完成被遮蔽草图的形状它需要预测用于定义草图点的连续位置值和离散状态值我们发现，杠杆老化的草图完形任务有助于更好地理解草图的一般模式。为此，本文提出了一种从Transformer学习 Sketch双向编码器表示的本质上，Transformer结构发挥了很大的16759地面实况掩码输入SketchBERT地面实况掩码输入SketchBERT地面实况掩码输入SketchBERT地面实况掩码输入SketchBERT图1.草图完形法旨在恢复草图中被遮蔽的点，完成被遮蔽草图的形状对序列数据建模的潜力;本文采用了文献[16]中提出的加权多层Transformer结构，该结构既具有BERT的优点，又具有较少的总参数。特别地，一种新的嵌入方法是为草图量身定制的，并且编码三级嵌入，即，点、位置和笔划嵌入。该算法利用一个精化嵌入网络将嵌入特征映射到Transformer的输入特征空间中。为了有效地训练我们的Sketch-BERT，我们引入了一个新的任务-通过草图完形的自监督学习，其中包括掩模位置预测和掩模状态预测的目标。相应地，我们进一步提出了一种新的草图完形模型（SGM）来解决这些任务，该模型的灵感来自NLP中的掩码语言模型。预训练的Sketch-BERT能够有效地解决草图的学习任务。特别地，本文考虑了草图识别，草图检索和草图完形的任务。捐款.在本文中，我们做了几点贡献. (1)将BERT模型扩展到草图，即首次提出了一种有效学习草图神经表征的Sketch-BERT模型。关键是，我们的Sketch-BERT有几个新的组件，这是显着不同的BERT模型，包括新的三层嵌入草图，和自我监督学习的草图完形。(2)据我们所知，一个新的任务-素描完形（sGesta）是第一次在本文中进行研究。这个任务的灵感来自于知觉分组的完形原则（3）提出了一种从经验上讲，我们表明，该任务的相应SGM可以有效地帮助预训练我们的Sketch-BERT，从而显着提高几个下游草图任务的性能。2. 相关作品草图的表示。关于素描表现的研究由来已久。作为种马-在图像和文本的双重领域中，学习草图的鉴别特征也是学习草图表示的一个热门话题。大多数这样的作品[11，19，28，27，20，17]通过分类或检索任务实现了目标。传统的方法总是专注于手工制作的特征，例如BoW [11]，HOG [10]和整体结构特征[19]。最近，有一些作品试图学习草图的神经表征。由于草图和图像之间存在巨大的视觉差距，Sketch-A- Net [28]为草图设计了特定的卷积神经另一方面，TC-Net [20]利用辅助分类任务直接解决主干的草图识别，例如：，DenseNet [12].与上述直接利用草图图像的像素级信息的方法不同，研究人员在[17，30]中使用了草图的矢量形式表示。素描的生成与完形。素描生成作为素描学习的另一个重要课题，也越来越受到人们的关注。在[14，32，18]中，他们通过卷积神经网络和翻译损失从图像中生成草图。SketchRNN [7]使用LSTM来解决草图矢量图像的条件和无条件生成。基于强化学习的模型[31，13]也可以很好地从草图的像素图像中学习笔画表示。除了生成任务之外，本文还提出了一个新的草图完形任务。尽管该任务与图像修复在完成掩蔽区域/部分方面具有相同的目标，但关键区别来自几点，包括：（1）图像修复[26，25]的模型主要通过图像中的现有部分预测像素;而素描完形的目的则在于还原某些物体的抽象形状。(2)纹理、颜色和背景信息被用来帮助图像修补模型保持整个图像的视觉一致性，而更抽象的信息，例如，形状，将更可取的素描在完成抽象和图标素描。16760Σ变压器和自我监督学习除了CNN模型之外，学习序列模型对于学习如何表示草图至关重要。递归神经网络[9，1]是近几十年来最成功的序列模型.最近，研究人员认为，“注意力是你所有的需要”[23];以及基于在Transformer上，几乎所有的NLP任务的性能都处于主导地位。特别是BERT [3]利用掩码语言模型作为预训练任务。关于XLNet[24]概括了BERT语言建模策略。这些模型都是以自我监督的方式训练的，然后在几个下游任务上进行微调。受此启发，我们设计了一种新的草图自监督学习方法，可以帮助Sketch-BERT理解草图的结构。自监督学习的任务[15]通常被定义为学习预测数据的保留部分。因此，它迫使网络学习我们真正关心的东西，例如图像旋转[6]，图像着色[29]和拼图[21]。然而，大多数以前的自监督学习模型是专门为形成（px，py，p1，p2，p3）被学习为嵌入Ept=Wpt（x，y，p1，p2，p3）T（2）其中Wpt∈RdE×5是嵌入矩阵，dE是点嵌入的维数。位置嵌入。每个连续点的位置应编码;因此我们引入了具有可学习嵌入权重W ps的位置嵌入，Eps=Wps1ps∈RdE（3）其中1ps是独热位置向量。特别是，我们将每个草图序列的最大长度设置为250，而在默认情况下删除序列中超过250的点。笔划嵌入。我们还学习嵌入笔划序列。受语言模型[3]中的段嵌入的启发，草图的笔画也被嵌入为图像，而不是素描。相比之下，第一个基于草图完形的自监督学习被提出并研究，在这张纸上。E海峡=W应力1串 ∈RdE（4）.3. 方法本节介绍我们的Sketch-BERT模型和学习过程。特别地，我们的模型将输入的草图嵌入为一系列的点.引入了一个权重共享的多层Transformer来实现Sketch-BERT。提出了一种新的自监督学习任务--3.1. 嵌入草图通常，草图被存储为连续的笔划集，其进一步被表示为点序列。作为[7]中的矢量数据格式，草图可以表示为点列表，其中每个点包含5个属性，（x，y，p1，p2，p3）（1）其中，Xxx和Xyy是当前点和前一点之间的相对偏移的值;（p1，p2，p3）将被用作指示每个点的状态的独热向量3笔画序列长度可达50个;其中1str是对应的单次笔划向量。因此，我们有以下最终的草图嵌入，E = Ept+ Eps+ Estr（5）优化嵌入网络。我们进一步采用了一种细化的嵌入网络，将嵌入维数从dE提高到dH ，并用于Transformer中。具体地说，细化嵌入网络由几个全连接层组成，输入和输出维度分别为dE和dH在我们的Sketch-Bert中，我们有dE= 128，dH= 768，加细网的结构-工作是128-256-512-768，其中两个隐藏层的神经元分别是256和512。3.2. 重量分担多层Transformer受ALBERT [16]和BERT [3]的启发，我们采用了重量共享的多层双向Transformer作为骨干特别地，权重在编码器的层中共享。这使得Sketch-BERT的收敛速度更快。形式上，我们将草图嵌入表示为（i=1pi= 1）;p2= 1表示一个笔画的结束;E =（E，E，···，E）∈Rn×dHp3= 1表示整个草图的结束，p1= 1表示草图的其他连续点。我们通过划分最大偏移值来归一化每个点的位置偏移，并确保<$x，<$y∈[0，1]。点嵌入。然后将草图作为顺序表示嵌入以学习Sketch-BERT。关键是-167611 2N其中n是每个草图嵌入的真实长度。隐藏的功能将被更新的自我注意力模块在每个权重共享Transformer层。最终的输出功能从草图BERT编码器将用于不同的，ent下游任务。167623海恩-1⋯ ⋯Transformer层⋮Transformer层⋯ ⋯12−⋯ ⋯第二代−卢恩卢恩CIMM第二代CIMM21卢恩海恩-1第二代321检索类要素标签⋯ ⋯Transformer层⋮Transformer层⋯ ⋯RetCls1搜索结果第二代��第一 ��卢恩海恩-1第二代1CQCEURR卢恩海恩-1第二代1CQCEURR(a) Sketch-BERT for SketchGestalt(b)用于草图识别/检索的Sketch-BERT图2.Sketch-BERT for Sketch Gestalt Model和下游任务的概述结构3.3. 基于素描完形的由于NLP中未标记文本数据的预训练任务在提高BERT性能方面表现出巨大的潜力，因此有必要引入一个自监督学习任务来促进预训练我们的Sketch-BERT。为此，我们定义了一个新的自监督学习过程的草图完形（sGesta），其目的是恢复草图中的掩蔽点，如图所示第2段（a）分段。一个点的状态被屏蔽，它具有p1=p2=p3= 0。嵌入重建网络。我们的SGM引入了一个嵌入重构网络，它充当细化嵌入网络的相应解码器.特别地，给定dH维嵌入特征作为输入，重建网络预测每个掩模的状态和位置。在实际应用中，我们将精化嵌入网络的结构反转，给定矢量格式的蒙版草图掩模=sgt·m结构为768-512-256-128-5，神经元为512、256和128个隐藏层。我们采用其中m是具有与sgt，sketch相同形状的遮罩完形的目标是从s掩码中预测与sgt具有相同形状和语义信息的scomp。具体地，可以分别预测前两个维度的位置掩码和其他维度的状态掩码。为了解决自监督学习任务，我们提出了草图完形模型（SGM）。如等式（1）中所示，每个点由位置偏移（px，py）和状态（p1，p2，p3）的关键信息表示，其将由我们的SGM单独地掩蔽和预测。我们针对位置偏移和状态信息提出了不同的掩码策略，以帮助训练我们的Sketch-BERT。默认情况下，我们为每个草图序列分别屏蔽所有位置和状态的15%掩模位置预测。我们将点的偏移值分为两类：1）笔划中的点的偏移;2)作为笔划起点的点的偏移。在草图中，这两种类型的偏移值的分布是非常不同的，并且也存在两种类型的偏移值的总的不同的值范围。因此，我们通过将掩码点的（x，y）设置为0，与每个点类型类的总点数成比例地对这两个类中的点进行采样来生成掩码。掩模状态预测。非常相似的是，对于草图点，存在p1、p2、p3特别是，p1的点总是比p2或p3的点多得多。因此，我们根据具有状态p1，p2，p3的点的百分比来屏蔽每个点的状态。如果L1损失用于掩模位置预测，预测连续位置偏移值;在掩模状态预测中，我们使用了不同状态类别的标准交叉熵损失。3.4. Sketch BERT的学习任务我们进一步阐述了Sketch-BERT模型如何在预训练过程之后通过自监督学习用于不同的下游任务。对于每个任务，我们给出了正式的定义，并描述了如何在这里使用预训练的Sketch-BERT模型。特别是，我们对以下任务感兴趣。草图识别。这个任务将草图s作为输入，并预测其类别标签c。为了微调识别任务的Sketch-BERT，我们添加了[CLS]标签，即，一个特殊的令牌开始的顺序数据的每一个草图，如图所示。第2段（b）分段。对于识别任务，我们的Sketch-BERT作为每个草图的通用特征提取器。标准softmax分类层以及交叉熵损失被应用于Sketch-BERT（OC）的输出识别任务的训练草图已被用于微调Sketch-BERT，并训练分类层，作为BERT中的标准实践[3]。草图检索。给定查询草图sq，草图检索任务的目标是找到草图s1，. - 是的- 是的... 我们将[RET]标签标记添加到16763每个草图的顺序数据的开始，并使用Sketch-BERT提取每个草图的特征（OR），如图所示。第2段（b）分段。为了执行检索任务，输出特征被投影到一个由256个神经元组成的完全连接层中，该层通过[20]中的三重损失进行优化，通过最小化同一类中草图的距离，并最大化不同类中草图的距离。此外，我们还应用学习的交叉熵损失来预测每个草图的类别。检索任务的训练数据用于训练新添加的全连接层，并微调Sketch-BERT。素描完形。受知觉分组的完形原则的启发，该任务被引入到恢复一个现实主义的草图图像的复合给定一个不完整的s掩模，如图所示。第2段（a）分段。我们直接利用在自监督学习步骤中学习的SGM来完成这项任务。4. 实验与讨论4.1. 数据集和设置数据集。我们的模型在两个大型草图数据集上进行了评估-[4]（1）QuickDraw数据集收集自Google应用程序Quick，Draw！，一个在线游戏画一个草图不到20秒。共有大约5000万张草图，涉及345类常见对象。在这里，我们遵循[7]中的预处理方法和训练分割，其中每个类在QuickDraw数据集中有70K个训练样本，2.5K个我们还通过应用Ramer-Douglas-Peucker（RDP）算法来简化草图，导致最大序列长度为321。（2）TU-Berlin比QuickDraw包含的草图样本数量少，但质量好柏林理工大学有250个对象类别，每个类别有80个草图。实施详情。在我们的工作中，Sketch-BERT模型具有L= 8个权重共享的Transformer层，隐藏大小为H=768，自我注意头的数量为12。与BERT相同，前馈大小将在权重共享变换器层中设置为4H嵌入大小设置为128，细化嵌入网络是神经元的全连接网络128−256−512−768. 相应地，reflecc-神经网络由四个完全连接的神经元层768-512-256-128-5组成。QuickDraw和TU-Berlin的输入草图的最大长度分别设置为250和500。我们用PyTorch实现了我们的Sketch-BERT模型。为了优化整个模型，我们采用Adam优化器，学习率为0。0001在自监督学习中，我们利用来自QuickDraw的整个训练数据来训练草图完形模型。竞争对手我们在这里比较几个基线。(1)HOG-SVM[5]：传统的方法是利用HOG特征和SVM对分类结果进行（2）在─方法快速绘制（%）柏林理工大学（%）T-1T-5T-1T-5HOG-SVM [4]56.1378.3456.0–[19]第十九话66.9889.3261.5–Bi-LSTM [9]86.1497.0362.3585.25[27]第二十七话––77.95–[27]第二十七话75.3390.2147.7067.00[22]第二十二话79.4792.4149.9568.00ResNet18 [8]83.9795.9865.1583.30ResNet50 [8]86.0397.0669.3590.75TCNet [20]86.7997.0873.9591.30Sketch-BERT（带/o.）83.1095.8454.2066.05Sketch-BERT（w.）88.3097.8276.3091.4016764表1.我们的模型和其他基线在分类任务上的Top-1（T-1）和Top-5（T-5）准确率; w./ O.，和w.分别指出了不使用和使用草图完形的自监督学习的结果[27]中的结果。[19]：这个模型利用了草图的几种类型的(3)Bi-LSTM[9]：我们采用三层双向LSTM模型来测试草图序列数据的识别和检索任务。隐藏状态的维度在这里被设置为512。(4)Sketch-a-Net：[28]：Sketch-a-Net是一个专门为草图设计的卷积神经网络。(5)DSSA[22]在原始Sketch-A-Net模型中添加了注意力模块和高阶能量三重态损失函数。(6)ResNet：我们还评估了残差网络，这是计算机视觉领域最流行的卷积神经网络之一，专为图像识别任务设计。(7)[20]第二十话：它是一个基于DenseNet [12]的网络，用于基于草图的图像检索任务，我们利用预训练模型进行分类和检索任务。(8)SketchRNN [7]：SketchRNN采用变分自编码器和LSTM网络作为编码器和解码器骨干来解决草图生成任务，在我们的实验中，我们使用这种方法来测试草图完形任务。训练和验证数据集用于训练我们的模型和竞争对手，并在测试集中进一步验证为了公平地比较结构，我们在QuickDraw和TU-Berlin数据集上重新训练了不同任务的所有模型。4.2. 草图识别任务的结果识别或分类是根据语义信息理解或建模数据的典型任务，因此我们首先将我们模型的分类结果与其他基线进行比较。我们使用100个类别，5 K训练样本，2.5K验证样本和2.5K测试样本用于QuickDraw数据集;所有类别的TU-柏林数据集，训练/验证/测试样本的训练分割分别为80%/10%/10%。16765模型QuickdrawTU-柏林前1名（%）前5名（%）最大平均接入点（%）前1名（%）前5名（%）最大平均接入点（%）Bi-LSTM [9]70.9189.5260.1131.4059.6023.71[27]第二十七话74.8890.1065.1337.2563.5026.18[22]第二十二话78.1691.0468.1038.4566.1028.77ResNet18 [8]80.3491.7170.9841.4567.1029.33ResNet50 [8]82.4192.5274.8451.8074.4536.94TCNet [20]83.5992.5776.3855.3079.4538.78Sketch-BERT（带/o.）63.1384.7055.1032.5057.9024.14Sketch-BERT（w.）85.4793.4978.8757.2581.5041.54表2.在草图检索任务中，我们的模型和其他基线的Top-1，Top-5准确率和平均平均精度（mAP）。w./ O.，和w.指出了没有和有草图完形的自监督学习的结果从选项卡中的结果。1，很明显，Sketch-BERT优于其他基线，包括基于像素图像的模型，如Sketch-a-Net，ResNet 18/50或TC- Net;和基于矢量图像的模型，如Bi-LSTM，有相当大的差距：在QuickDraw上大约2%。这表明了我们的Sketch-BERT模型和sGesta的自监督管道的有效性。特别地，我们给出了我们的Sketch-BERT的消融研究，而不使用自我监督训练（即，Sketch-BERT（带/ o.）在选项卡中。1）。它为我们提供了QuickDraw数据集上top-1精度下降5%的结果。事实上，这可以揭示我们的SGM在本文中提出的权力。此外，Sketch- BERT（w.）比Sketch- BERT（w./o.）如果它们在相同的训练数据上进行微调。例如，收敛时期从Sketch-BERT（w./0.），到只有5个时期的草图-BERT（w.），用于在TU-Berlin数据集上训练的识别任务。4.3. 草图检索任务的结果我们特别感兴趣的类别级草图检索和测试草图检索任务在同一数据集的识别任务。为了评估不同模型的性能，我们报告了 Top-1/5 准确度和平均精度（mAP）。为了与其他基线进行公平的比较，我们采用典型的三重态损失和交叉熵损失作为我们的Sec。3.4.每个模型仅作为骨架，从锚点草图、正草图、负草图这一元组中提取草图特征对排序后的检索结果进行了比较。结果总结见表。二、我们的具有自我监督学习任务的Sketch-BERT模型比其他基线具有更高的它比最好的第二种方法TCNet提高了约2%，TCNet是最先进的基于CNN的草图识别模型。我们注意到基于向量的模型-另一方面，有趣的是，我们的Sketch-BERT在没有sGesta的自我监督训练的情况下，在这个检索任务上取得的结果比其他基线差得多。这进一步表明，我们的SGM模型提出的自监督学习步骤，可以有效地提高我们的Sketch-BERT的泛化能力。综上所述，草图分类和草图检索任务的结果显示了我们的Sketch-BERT模型在草图表示学习上的优越性。4.4. 关于Sketch Gestalt TaskSketch-BERT模型具有较好的生成性表征能力，而不是区分性的神经表征能力，如草图完形任务，其中草图的某些部分已被掩蔽，并由模型预测在本节中，我们的模型与SketchRNN [7]进行了比较此任务在QuickDraw数据集上执行：两个模型都是在训练数据上学习的，并在测试数据上预测的。我们在图中展示了QuickDraw数据集中3.第三章。图中的四列表示（1）地面实况草图，（2）位置和状态上随机30%掩码的不完整或掩码输入，（3）来自SketchRNN的完整结果，(4)完成了我们的Sketch-BERT模型的结果。我们可以证明，我们的Sketch-BERT模型在理解和填充遮罩草图方面比SketchRNN模型有更好的能力。特别是，我们进一步分析和比较这些结果。对于简单的草图，SketchRNN在完成每个草图的缺失部分方面具有合理的能力。例如，我们可以从图 1 中的SketchRNN的第一列中观察到一般的好例子。3.然而，SketchRNN在填充复杂的草图方面相当有限，例如手电筒，老虎，SketchRNN可能无法完成它们。相比之下，我们的Sketch-BERT仍然可以正确地捕捉这些草图的形状和细节，如图2的第二列和第三列中的结果。3.我们还展示了更多关于sketch的不同类的例子16766洋葱锤篮球手电筒吉他老虎落地灯听诊器头盔地面实况掩码输入SketchRNNSketchBERT地面实况掩码输入SketchRNNSketchBERT地面实况掩码输入SketchRNNSketchBERT图3.我们的Sketch-BERT和SketchRNN在QuickDraw数据集上的草图完形的完成结果，来自9个类，洋葱，手电筒，落地灯，锤子，吉他，听诊器，篮球，老虎，头盔。表3.在不同类型的预训练任务后，QuickDraw数据集上的分类和检索任务的性能。完形任务补充材料。除了定性的结果外，我们还提供了一个用户研究作为补充材料的定量比较。4.5. 培训前任务分析在本节中，我们给出了进一步的消融研究，并分析了自监督学习和模型如何影响草图表示学习的性能。不同的训练任务。首先，我们研究模型中不同的预训练任务：（1）单一，表示BERT中使用的随机掩码策略;（2）位置，是指根据我们的素描完形模型中的掩蔽策略，只掩蔽位置信息;（3）状态，屏蔽状态信息;（4）完全，是素描完形模型中新提出的完全屏蔽策略。我们展示了标准Sketch-BERT在Tab中的这些预训练任务之后在分类和检索任务上3.第三章。很明显，我们的草图完形模型对提高Sketch-BERT的性能起着重要的作用，有/无预训练的432100 200 400 600 800 1000迭代图4.在QuickDraw数据集上使用/不使用Sketch- BERT进行预训练的收敛率。我们注意到与其他面罩模型相比有一致的改进：单（>1. 7%），位置（>1%），状态（>1. 4%）。这揭示了一个适当的面具模型的重要性，学习良好的神经表征的草图。此外，我们可以发现位置信息比状态信息对草图表示学习起着更重要的作用，如Tab。3.第三章。通过Sketch Gestalt模型加快自监督学习的收敛速度。除了在分类上的改进之外，我们还发现预训练草图完形模型可以显著减少分类任务收敛的训练时间。如图所4、Sketch-BERT将收敛很多w./ O. 预训练W. 预训练模型分类检索前1名（%）前5名（%）前1名（%）前5名（%）单个86.5196.7281.7392.13位置87.3797.0182.2291.98状态86.8396.8881.8792.15充分88.3097.8285.4793.49损失16767模型分类（%）回收率（%）Top-1Top-5Top-1Top-5345 ×70K88.3097.8285.4793.49345 ×5K85.7397.3182.4492.13200 ×5K84.8997.1481.8792.07100 ×5K85.8297.3181.9192.01表4. 的分类和检索任务的性能Sketch-BERT使用不同数量的预训练数据。地面实况掩码输入GatedConv表5.不同结构的Sketch-BERT（L-A-H）的分类和检索任务的性能。在Quick-Draw数据集上进行预训练后，速度更快，从大约50到5个epoch，其中一个epoch有50次迭代。4.第一章不同的预训练任务。我们还研究了预训练数据量如何影响下游任务。我们在QuickDraw数据集中使用5K训练，2K验证和2K测试通过改变类的数量和每个类中的训练样本数量，我们可以获得不同的预训练任务设置，如Tab中所示。4.第一章我们将预训练数据的量表示为c×n，其中C是类的数量，n是列车的数量每个班级的样本。我们可以发现，在增加预训练数据的类别数量后，没有明显的改善。但是每个类中预训练样本的数量会以更根本的方式影响性能，这反映在top-1准确率提高了3%Sketch-BERT架构分析。我们进一步比较了Sketch-BERT的不同变体，如表5所示我们表明，合理的深度和宽度的网络是重要的草图BERT。特别地，我们用三个关键的超参数L-A-H表示Sketch-BERT的结构：层数L，自注意头A隐藏尺寸H 它表明，8−12−768在模型复杂度和最终性能之间取得了很好的平衡，如果与其他变体相比。当隐藏的大小很小时，例如，，H= 256，更深的Sketch-BERT可以帮助提高草图表示的学习能力，从L= 6到L= 12在分类和检索任务上都有2%的提高。然而，我们发现12层的Sketch-BERT（12−16−1024）具有结果略逊于其他变种，很难得到收敛。通过基于CNN模型的草图完形。我们进一步确认--图5.基于CNN的草图完形任务模型。我们使用门控卷积[26]来完成掩码草图。管道实验表明，提出的素描完形任务是非常困难的。我们使用门控卷积 [26] 模型在具有随机掩码的QuickDraw数据集上进行训练。这种基于CNN的模型很难重建复杂草图的形状;并且结果总是存在人工制品。由于图像修复和草图完形的输入要求不同，图1中的“屏蔽输入”术语被认为是一种新的输入方式。5使用不规则的面具，这是从根本上不同于图中的条款。3.图像修复的模型通常是从图像的其他部分借用补丁来恢复被掩盖的部分，而不是针对草图完形。5. 结论在这项工作中，我们设计了一个新的Sketch-BERT模型的草图表示学习，采用了有效的自我监督学习的草图完形。提出了一种新的草图完形模型，用于草图的自监督学习任务。在QuickDraw和TU-Berlin数据集上的实验结果表明了Sketch-BERT在分类和检索任务上的优越性。我们还进行了草图完形任务的实验，以显示Sketch-BERT的生成表征学习能力。此外，Sketch-BERT模型还可以扩展到更多的草图任务中，如基于草图的图像检索和草图生成，这些都可以在未来进行研究。6. 确认本工作得到了国家自然科学基金项目（U1611461，61702108）、上海市科委项目（19511120700）、上海市科技重大项目（2018SHZDZX01）和上海研究和创新功能计划（17DZ2260900）。模型分类检索前1名（%）前5名（%）前1名（%）前5名（%）6-8-25684.8396.4281.0691.8612-8-25686.3497.1583.2392.1312-16-102485.3197.4482.7692.118-12-76888.3097.8285.4793.4916768引用[1] Junyoung Chung 、 Caglar Gulcehre 、 KyungHyunCho和Yoshua Bengio。门控回流神经网络在序列建模中的实证评价 arXiv 预印本 arXiv ：1412.3555，2014。2[2] Agne Desolneux ， Lionel Moisan 和 Jean-MichelMorel。完形理论与计算机视觉。理论与决策图书馆A：，2004年。1[3] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：用于语言理解的深度双向转换器的预训练arXiv预印本arXiv：1810.04805，2018。（文件）、1、2、3.1、3.2、3.4[4] Mathias Eitz，James Hays，and Marc Alexa.人类如何绘制物体？SIGGRAPH，2012. 4.1[5] MathiasEitz ， KristianHildebrand ， TamyBoubekeur，and Marc Alexa.基于草图的图像检索：基准和特征袋描述符。TVCG，2010年。4.1[6] S. Gidaris，P. Singh，and N.小木通过预测图像旋转的无监督表示学习在ICLR，2018年。2[7] David Ha和Douglas Eck。草图的神经表征。在ICLR，2018年。（文件）、1、2、3.1、4.1、4.1、4.4[8] Kaiming He，Xiangyu Zhang，Shaoying Ren，andJian Sun. 用于图像识别的深度残差学习。在CVPR，2016年。4.1、4.1[9] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算，9（8）：1735-1780，1997。二、四、一[10] 胡瑞和约翰·科洛姆斯。梯度场Hog描述子在基于草图的图像检索中的性能评价。CVIU，2013年。2[11] Rui Hu，Tinghuai Wang，and John Collomosse.基于草图的图像检索的区域袋方法。在ICIP。IEEE，2011年。2[12] Gao Huang ， Zhuang Liu ， Laurens Van DerMaaten，and Kilian Q Weinberger.密集连接的卷积网络。在CVPR中，第4700-4708页，2017年。2、4.1[13] 黄哲伟，温珩，周书昌。使用基于模型的深度强化学习学习绘画。ICCV，2019。2[14] Phillip Isola ， Jun-Yan Zhu ， Tinghui Zhou ， andAlexei A Efros.使用条件对抗网络的图像到图像翻译。在CVPR，2017年。2[15] Alexander Kolesnikov ，Xiaohua Zhai，and LucasBeyer.重新审视自我监督的视觉表征学习。在CVPR，2019年。2[16] 兰振中，陈明达，塞巴斯蒂安·古德曼，凯文·金佩尔，皮尤什·夏尔马，拉杜·索里-卡特. 阿尔伯特：一个自我监督学习的小伯特-语言表征。arXiv预印本arXiv：1909.11942，2019。1、3.2[17] Lei Li ， Changing Zou ， Youyi Zheng ， QingkunSu ， Hongbo Fu ， and Chiew-Lan Tai. Sketch-r2cnn：一种用于矢量草图识别的注意网络。arXiv预印本arXiv：1811.08170，2018。一、二[18] Yijun Li ， Chen Fang ， Aaron Hertzmann ， EliShecht-man ， and Ming-Hsuan Yang. Im2pencil ：可控制的铅笔插图从照片。在CVPR，2019年。2[19] Yi Li，Yi-Zhe Song，and Shaogang Gong.基于结构特征整体匹配的草图识别。InBMVC，2013.二、四、一[20] Hangyu Lin ， Peng Lu ， Yanwei Fu ， ShaogangGong，Xiangyang Xue，and Yu-Gang Jiang. ISBIR的TC-net：基于实例级草图的三元组分类网络图像检索。在ACM多媒体，2019年。2、3.4、4.1、4.1[21] M. Noroozi，A. Vinjimoor山口Favaro和H. Pirsi-avash。通过知识转移促进自我监督学习。在CVPR，2018年。2[22] Jifei Song，Qian Yu，Yi-Zhe Song，Tao Xiang，and Timothy M Hospedales.用于基于草图的细粒度图像检索的深度空间语义注意。在2017年IEEE计算机视觉。1、2、4.1、4.1[23] Ashish Vaswani 、Noam Shazeer、 Niki Parmar 、Jakob Uszkoreit、Llion Jones、Aidan N Gomez、Vukasz Kaiser和Illia Polosukhin。注意力是你所需要的InNeualPS，2017. 2[24] Zhilin Yang ，Zihang Dai ，Yiming Yang ，JaimeCar- bonell，Ruslan Salakhutdinov，and Quoc V Le.Xlnet：用于语言理解的广义自回归预训练。arXiv预印本arXiv：1906.08237，2019。2[25] Jiahui Yu，Zhe Lin，Jimei Yang，Xiaohui Shen，Xin Lu，and Thomas S Huang.具有上下文注意的生成式图像修复。在IEEE计算机视觉和模式识别集，第5505-5514页，2018年。2[26] Jiahui Yu，Zhe Lin，Jimei Yang，Xiaohui Shen，X

下载后可阅读完整内容，剩余1页未读，立即下载