可变原型编码器：图像分类的一次性学习

91 浏览量更新于2023-10-17 收藏 1.15MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9462可变原型编码器：基于原型图像的一次性学习Junsik Kim Tae-Hyun Oh<$Seokju Lee Fei Pan In So Kweon Dept.电气工程专业，KAIST，大田，韩国†MIT CSAIL，Cambridge，US摘要在日常生活中，交通标志、品牌标志等图形符号以其超越语言界限的直观表达方式，在我们身边无处不在。我们解决了一个开放集图形符号识别问题，通过一次拍摄分类原型图像作为一个单一的训练例子，每个新类。我们采取了一种方法来学习一个可推广的嵌入空间的新任务。我们提出了一种新的方法，称为变分原型编码器（VPE），学习图像翻译任务从现实世界的输入图像到其对应的原型图像作为一个元任务。因此，VPE学习图像相似性以及原型概念，这不同于广泛使用的基于度量学习的方法。我们的实验与不同的数据集表明，所提出的VPE执行形式有利的竞争度量学习为基础的一次性方法。此外，我们的定性分析表明，我们的元任务诱导了一个有效的嵌入空间适合看不见的数据表示。1. 介绍一个有意义的图形符号形象、完整地表达了语义信息。这种图形符号被称为表意符号，1其被设计为以抽象形式编码信号或标识信息。它们有效地传达了预期信号的要点，同时以一种允许读者轻松快速地掌握思想的方式吸引读者的注意力[2]。其即时（立即）识别特性被用于安全信号（例如，交通标志），以及提高商业标识的可见度和识别性。此外，图标代表性的紧凑性使表情符号和视觉标签成为可能[3]。表意文字往往独立于任何特定的语言，只有那些熟悉超越语言界限的先前惯例的人才能理解，例如。对物理对象的图像再现。[1]这在形式上也被称为象形图，pictogramme，pictograph，简称picto或icon。在这项工作中，为了简单起见，我们可以互换地使用“符号”这个词来指代图1.象征性图标的原型。顶行和底行分别显示交通标志和徽标原型。虽然这样的符号利用人类感知友好的设计，但是由于若干挑战，抽象视觉图像的基于机器的理解不一定是直接的。在一个规范域中的原始符号，如图所1，称为原型，通过打印或显示以物理形式呈现这些原型通过打印和成像管道进行几何和光度扰动。真实域和规范域之间的差异在视觉域中引入了大的感知差距（称为域差异）。这个差距是显著的，因为由于真实图像和单个符号原型之间的极端数据不平衡（称为类内数据不平衡），很难缩小它此外，即使对于真实图像，在构建大规模真实数据集时，注释通常也是昂贵的。虽然有一些数据集的类数量有限，但它们具有明显的类不平衡（称为类间数据不平衡）。因此，当训练大容量学习器时，缺乏用于类的大量训练示例通常会引起问题，即，深度神经网络。为了应对这些挑战，在这项工作中，我们提出了一种称为变分原型编码器（VPE）的深度神经网络，用于图形符号的一次性分类给定每个符号类的单个原型（称为支持集），VPE将查询分类到其相应的类别中，而不需要大型的完全监督数据集，即一次分类。尝试缓解域差异和数据不平衡问题的关键思想如下：1）VPE利用现有的原型对及其对应的真实图像来学习可推广的la，9463原型测试输入（ |（ |实）（原型）| ）训练阶段测试阶段真实训练图像编码器潜在空间解码器原型真实测试图像训练编码器潜在空间原型数据库图2.变分原型编码器的训练和测试阶段的图示在训练期间，编码器将实域输入图像编码为潜在分布q（z|X）。然后，解码器将编码分布重构回对应于输入图像的原型在测试阶段，训练的编码器被用作特征提取器。数据库中的测试图像和原型被编码到潜在空间中。然后，我们进行最近邻分类的测试图像进行分类。请注意，测试阶段数据库不用于训练阶段，即，，小说类。用于隐藏类数据的帐篷空间。2)VPE不是引入预定的度量，而是学习图像转换[8]，但是从真实图像到原型图像，由此原型被用作具有高级视觉外观知识的强监督信号。3）VPE利用变分自动编码器（VAE）[14]结构隐式地诱导潜在特征空间，其中来自真实数据的特征在相应原型的特征点周围形成紧凑的聚类这示于图二、在测试阶段，正如在以前的工作中通常所做的那样[15，12，30，26]，我们可以通过学习的潜在空间中的简单最近邻（NN）分类方案轻松地对查询进行分类，其中测量真实图像特征和给定原型特征之间的距离，并分配最接近输入特征的类别出于测试的目的，我们在测试阶段从看不见的类别中评估原型我们的方法也可以用于开集分类，作为一个无限数量的原型类可以处理的原型作为一个开集数据库。通过对各种一次性评估场景的实证实验评估，我们表明，所提出的模型对最近的基于度量的一次性学习者表现良好。交通标志的改进与第二好的方法（ GTSRB sce-nario 上为53.30%→83.79% ， GTSRB→ TT 100 K sce-nario 上为58.75%→71.80%）以及徽标数据集（Belga→ Flickr 32场景上为40.95%→53.53%，Belga→Toplogos场景上为36.62%→57.75%）相比，数据集的显著性显著。通过绘制t-SNE，我们还可以直观地了解VPE的嵌入空间特征分布和前K个检索图像的平均图像。源代码是公开的。22https://github.com/mibastro/VPE2. 相关工作在一次性学习的背景下，Fei-Fei等人的开创性工作。[19]假设人类学习的效率可能来自先前经验的优势。为了模仿这一特性，他们探索了一种贝叶斯框架，从不相关的任务中学习通用的先验知识，这些知识可以快速适应新的任务，只需很少的例子，并形成后验。最近，Lake et al. [16]开发了一种通过分层贝叶斯程序学习的方法，用简单的例子学习生成过程的概念，其中所学习的概念也很容易推广到新的情况，即使是一个单一的例子。尽管最近的端到端深度神经网络（DNN）在其他学习任务中取得了成功，但一次性学习仍然是一个具有挑战性的问题，手工设计的系统通常优于基于DNN的方法[16]。尽管如此，在一次性学习（包括少量学习）中，利用DNN的好处的努力正在进行中。一次性学习机制本质上是苛刻的，这是由于数据数量少导致的过度拟合问题。因此，最近的基于DNN的方法主要是为了实现关于不相关任务数据的可推广度量空间（即，，嵌入空间学习）或学习高级策略（即，元学习）。我们的方法接近前一类。一旦给定了度量，非参数模型（如最近邻（NN））就可以立即同化看不见的例子，而无需重新训练;因此，新的类别分类可以通过简单的NN来完成。以下工作是相关的：Siamese网络[15]，Quadruplet网络[12]和N路度量学习[30，26]的度量学习。给定一个度量（例如，欧几里德距离[15，12，26]，余弦距离[30]），这些方法学习嵌入空间（潜在空间），希望推广到新的但相关的域数据。我们的方法是不同的，因为我们不规范-9464i=1p（，）φφ通过元任务直接但隐式地学习嵌入空间，即从实域图像到原型图像的图像转换。最近的元学习方法已被应用于少镜头学习。Santoro等人。 [25]和Mishra等人。 [21]将序列学习方法作为元学习者，以便给定一系列输入序列，学习者学习可能解决新任务的高级策略 Ravi &Larochelle [23] and Finnet al. [5]寻求学习一种表示，可以通过几个梯度下降更新步骤轻松微调到新数据。鉴于大多数基于元学习者的方法[25，21，23，5，30，26]学习高级策略，它们通常采用必须协调良好的情景训练方案这与包括我们的方法在内的上述基于度量学习的方法[15，12]相反，其中训练步骤通常相当直接。上面讨论的方法集中在支持集合中的示例和查询来自相同域的情况。在我们的问题设置中，现实世界的查询图像和支持集中的原型之间的显着差异引入了新的挑战。很少有尝试与原型的一次性学习有关。Jetley等人。 [10]提出了一种特征变换方法，用于将真实图像的特征与原型的预定义手工制作特征对齐。Kimet al.[12]是最接近我们方法的工作。他们提出了使用深度四元组网络以端到端的方式学习共域嵌入，以便嵌入原型和真实世界嵌入空间VPE不是确定用户选择的度量来诱导嵌入空间，而是学习具有连续数据分布的生成模型 VPE通过元任务寻找嵌入空间;从真实图像到原型的条件图像翻译。此外，VPE使用有关原型的先验信息指导分发学习。在本文中，我们表示一个场景的支持集组成的C类，每个类的K个样本的C我们假设每个类都有一个原型（K=1）作为支持样本，即一个原型的一次性分类3.1. 可变原型编码器让我们考虑配对数据集X={（x，t）（i）}N，其中x是真实图像样本，t表示其对应的原型图像，并且我们假设相应的i.i.d. 样品在我们的场景中，每个类只有一个原型t，它充当标签。我们假设数据生成过程类似于变分自动编码器（VAE）[14]，但是生成的目标值不是数据x而是t：，从先验分布pθ（z）生成潜在码z（i），之后从条件分布生成原型t（ip θ（x|z）。因为这个过程是隐藏的，所以参数θ和潜变量z（i）是未知的。因此，我们近似用变分贝叶斯方法进行推理。参数近似是通过边际似然最大化。个体原型logpθ（t（i））的每个对数边际似然可以由下式下界：图像被映射到公共特征空间中。最近，Snell等人 [26]第二十六话∫logpθ（t）=logz∫pθ（t，z）=logzt zqφ（z|x）qφ（z|x）在Vinyals等人的扩展中学习。 [30 ]第30段。然而，在这方面，他们对原型的定义与我们的不同之处在于，=log.ΣEq（z|x）p（t，z）φqφ（z|x）根据类的平均质心定义原型在同一个域上进行查询，而我们的原型是一个≥Eqφ（z|x）[logpθ（t，z）−logqφ（z|x）]原型形象3. 该方法我们使用一种类似于基于度量学习的方法[15，12，26，30]的一次性学习方法，该方法通过度量比较来学习尽可能通用的嵌入空间这种方法包括两个步骤：1）学习具有大量数据（通用先验知识）的嵌入空间的训练步骤，以及2）涉及具有新类别数据及其支持集的嵌入的NN分类的测试步骤。这种方法假设训练步骤中使用的数据与测试阶段的类别无关，但具有与测试数据类似的分布。此外，嵌入被期望是信息的，使得每个新类的一到五个支持样本（一次到几次）可以被充分概括。变分原型编码器（VPE）与度量学习的不同之处在于它如何诱导广义的（Jensen=Eq（z|x）[log p θ（t|z）] − D KL[q φ（z）|x）||p θ（z）]，（一）其中DKL[·]是Kullback-Leibler（KL）偏差，并且建议分布q φ（z|x）被引入以近似难处理的真实后验。分布q φ（z|x）和p θ（t|z）分别被称为概率编码器和解码器（或识别模型和生成模型）。通过最大化等式中的变分下界。（1），我们可以确定编码器和解码器的模型参数φ和θ当量（1）与VAE不同[14]。VAE是从输入数据x上的边际似然导出的，其下限对输入的自表达进行建模，如下所示：logp θ（x）≥Eq（z|x）[logp θ（x|z）]−D KL[q φ（z）|x）||p θ（z）]。（二）在该公式中，x被编码为z，并从z，而我们的方法将输入x编码为z并将其转换为9465--到一个像图像到图像翻译的原型t [8]。由于原型是在一个典型的域与规范的颜色没有扰动在真实的对象，我们的方法转化为相应的原型图像不变的现实世界的扰动，如背景杂波，几何和光度扰动。在这个意义上，VPE与去噪自动编码器[29，1]相关，因为VPE充当现实世界扰动归一化并且可以导致嵌入（潜在z）不变或对扰动鲁棒。为了通过随机梯度下降（SGD）有效地训练参数，我们遵循Kingma和Welling [14]通过假设高斯潜变量和绘制样本来变量的相似性，我们可以用欧氏距离或马氏距离来度量。在这项工作中，我们简单地使用欧氏距离的神经网络分类。我们把高级度量的发展作为未来的工作。与其他方法的比较。在分类中，基于度量学习的一次性方法[15，12，26，30]学习适合于具有标签的给定度量距离的非线性映射。标签信息根据样本是否属于同一类的离散决策对数据进行分组。这往往是歧视性的看到类。然而，很难期望来自看不见的类的图像的特征在以这种方式学习的特征空间上有意义地分布3因此，有几种方法试图缓解z（s）Ss=1 从q φ（z|X）。经验损失，然后得出度量损失，例如多对正则化[12]如下所示L（x，t;θ，φ）=1小时Ss=1- logp θ（t|z（s））+D KL[q φ（z|x）<$p θ（z）]。（三）和注意力内核与条件嵌入[30]，但仍然有限。在不直接固定度量的情况下，我们的模型以完全不同的方式学习嵌入空间。VPE，重新参数化技巧[14]用于方程。（3）是可微的，其中q φ（z|x）用神经网络工作gφ （ ·）重新参数化，i. e. ，z（s）通过z（s）=gφ（x（i），σ（s））=μ（i）+σ（i）σφ（s）进行采样，其中σφ N（0，I）并且⊙表示逐元素乘法。此外该解码器p θ（t|z）由神经网络建模。我们可以有效地最小化Eq。（3）用小批量SGD。由方程式第一项和第二项对应于重构误差和分布正则化项re-estimation。KL发散通过鼓励z的分布遵循先验分布来正则化潜在空间，这防止了在将类似的数据输入映射到潜在空间中的附近位置时分布崩溃。此外，损失导致各种真实图像映射到同一类的单个原型图像。这使得在同一类内的真实图像的潜向量的分布能够通过调节其原型来封装。对于等式中的重构损失（3），可以使用任何重建损失，从基本损失（101-和102-范数）到高级损失（感知损失[7]和生成对抗损失[6，17]）。我们使用简单的二进制交叉熵（BCE）损失与实值目标在[0，1]，发现它是足够有效的原型，因为许多原型由在[0，1]范围内的原色组成。更多地探索损失函数将导致改进。测试阶段。学习编码器仅用作特征提取器。给定一个新的类支持的原型集，我们最初提取他们的特征从编码器和存储在支持集中，（一次性学习）。随后，当给定输入查询时，我们通过编码器提取其特征，并通过检索支持集通过NN分类进行分类（图1）。2）的情况。因为我们假设高斯潜势原型重建损失学习元任务对真实图像进行归一化，根据与原型的相似程度间接学习真实图像和潜在特征我们将在实验部分展示，学习图像域中的外观相似性允许更好的泛化。3.2. 网络架构我们构建了一个编码器，它有三个卷积层，每个卷积层后面有一个完全连接的层，用于均值和方差预测。每个卷积层的步幅大小为2，将特征图缩小2倍。每个卷积层之后都是批处理归一化和泄漏ReLU。最后一层是一个完全连接的层，将特征映射转换为预定义的潜在变量大小。卷积滤波器大小和潜在变量大小遵循Idsia网络[4]的大小，Idsia网络是GTSRB基准[27]内最好的交通标志分类网络。解码器的层的顺序与编码器层的顺序相反;即一个全连接层，后面是三个卷积层。我们在每次卷积之前以2倍的倍数进行上采样，以将特征大小恢复到原始输入尺寸解码器中的所有卷积核都设置为3×3. 与编码器一样，解码器中的每个卷积都是然后是批量归一化和泄漏ReLU。3.3. 数据增强我们将随机旋转和水平翻转应用于真实图像和原型，以训练我们的网络。增强使训练样本包括原型多样化。我们可以很容易地想象到3我们在补充材料中比较了几种度量学习方法的t-SNE可视化，为这一说法提供了支持。9466右方向箭头可以成为一个箭头标志与任何方向的形式后，扩大。这有助于我们网络的泛化，我们观察到它显著提高了性能，而在其他度量学习方法中，它的效果很微妙。4. 实验在本节中，我们首先描述数据集配置和整个实验设置，然后是实现细节。我们比较了以下用于一次性分类和检索任务的方法：Siamese网络[15]（SiamNet），Quadruplet 网络 [12]（QuadNet ）， Matching 网络 [30]（MatchNet）和提议的网络（VPE）。我们还提出了额外的定性分析，t-SNE可视化，原型和真实图像之间的距离热图，原型重建。GTSRB→GTSRB →TT100k数据集GTSRBTT100kBelgaLogosFlickrLogos-32To p L o g o -1011，988 9，585 3，404 848类别43 36 37 32 11表1.符号数据集规范。数据集和实验设置。在两个交通标志数据集和三个徽标数据集上进行了不同训练集和测试集选择的评估。表1中描述了每个数据集的类的大小和数量。有关数据集和更多图像可视化的详细说明，请参阅补充材料。为了验证我们的一次性学习方法，我们通过分离训练和测试数据集来执行跨数据集评估，这与在单个数据集中使用分割相比是一个更具挑战性的设置我们表示箭头左侧的数据集用作训练集，而箭头右侧的数据集用作测试集（表2和表3），例如：、GTSRB→ TT 100k。对于徽标分类，BelgaLogos [11，18]，FlirckrLogos-32 [24日] 和 TopLogo-10 [28日] 都被使用了。VAE 20.67 33.14 29.04VAE+8月22.24 32.10 27.98表2.交通标志数据集上的单次分类（Top 1-NN）准确率（%）标有“*”的数字评估报告了两种不同输入分辨率（48×48和64×64）的VPE最佳准确度标记为蓝色，第二好的是天蓝色。贝尔加→Flickr32→Toplogos拆分所有不可见所有不可见编号。28 11 6号32路11路支架组SiamNet [15]23.2521.3737.3734.92SiamNet +aug24.7022.8230.8430.46QuadNet [12]40.0137.7239.4436.62QuadNet +aug31.6828.5538.8934.16MatchNet [30]MatchNet+aug45.5338.5440.9535.2844.3528.4635.2427.46集 BelgaLogos 和 FlickrLogos-32 共享四个公共类，BelgaLogos和Toplogo-10共享五个公共类。我们排除了“看不见的”中的普通类test.对于交通标志分类，使用GTSRB [27]和TT100K[32] 数据集。对于 GTSRB→TT100k 场景，我们在GTSRB上训练模型，并报告在TT100K上测试的最佳准确度。GTSRB和TT100K共有四个共同的类别。虽然整个数据集用于跨数据集评估期间的训练和测试，但GTSRB实验仅使用具有分割的GTSRB数据集进行VAE25.0125.4821.9015.89VAE+aug27.1727.3123.3018.59表3.标志数据集上的单次分类（Top 1-NN）准确率（%）最好的精度用蓝色标记，第二好的精度用天蓝色标记。在GTSRB中总共43个类中，我们选择22个类作为可见类，其余21个类作为不可见类。GTSRB有两个数据分区：训练和测试分区。我们用22个seen类分裂看不见所有看不见号类213632号支持组（22+21）-路36-路SiamNet [15]22.4522.7315.28SiamNet+aug33.6228.3622.74QuadNet*[12]45.2*42.3*N/AMatchNet [30]26.0353.1649.53MatchNet+aug53.3062.1458.75VPE（48x48）55.3052.0849.21VPE+aug69.4666.6263.91VPE+aug+dos74.6966.8864.07VPE（64x64）56.9855.5853.04VPE+aug81.2768.0464.80VPE+aug+dos83.7973.9871.80BelgaLogos用作训练集，其余数据集VPE28.7127.3428.0126.36用作测试和验证集。比如在VPE+aug51.8350.2547.4841.82Belga→ Flickr 32案例，TopLogo-10用作验证VPE+aug+dos56.6053.5358.6557.759467GTSRB → TT100K Belga → Flickr32图3.通过查询原型检索的前100个图像的平均图像图像越清晰，检索性能越好显示的类是从未见过的类中选择的。并在所有43个类的测试集上评估性能训练集中的21个不可见的类样本用于验证。此场景的独特之处在于支持集包含所有可见和不可见的原型。因为这种情况下的随机机会准确度变得低得多，所以这是比典型的一次性评估场景更困难的设置在这个设置中，我们可以确定模型是否偏向于看到的类。GTSRB实验设置的细节遵循Kim等人的工作。 [12 ]第10段。实作详细数据。为了公平比较，本实验中的所有方法都使用IdsiaNet [4]作为基础网络。我们调整以获得最佳性能的方法，我们使用ADAM优化器[13]的学习率对于10−4，β =（0. 九比零。999），k=10−8，小批量大小为128，用于训练网络。原始实现SiamNet和MatchNet 4的主要功能是进行字符分类;因此，有必要进行基础网络改变。我们发现，基础网络的替代显着提高了性能结果。我们使用输入大小48×48的交通标志数据和64×64的标志数据，但也测试不同的分辨率效果作为一个简短的消融研究，如表2所示。根据输入大小调整第一全连接层的输入维度，使得对于所有方法，嵌入的最终维度固定在300，而不管输入大小。较大尺寸的徽标背后的基本原理我们通过调整图像的较大轴来保持宽高比，以适应具有零填充的网络输入大小。我们还发现，当使用原型作为查询进行训练时，SiamNet的性能非常差。因此，我们只使用真实图像训练SiamNet，用于查询和正面，并在徽标数据集上进行评估然而，融合两个连体网络的我们修改了QuadNet以共享网络的所有参数，以稳定训练，而不是使用两个连体网络。我们猜想，原来的实现的失败的标志源于训练集的质量GTSRB比包含更高质量样本的徽标数据集更大，而徽标数据集的样本更少，并且某些图像严重失真，包括非刚性变换，例如，商标印在弯曲的瓶子或皱巴巴的衣服上。术语aug表示所应用的随机翻转和旋转增强，而aug是连接到编码器部分的空间 Transformer [9]，即，Moodstock团队建议的改进的IdsiaNet。 5对于卷积版本，空间Transformer模块在编码器部分中的第1和第3通过这样做，我们可以表明，所提出的方法具有潜力如果采用先进的技术，还需要进一步改进。原型图像和真实图像在训练期间以1：200的比率随机采样。4.1. 一次分类（实物到原型）单次分类性能报告于表2和表3中。VPE及其变体在大多数情况下比竞争方法该余量在交通标志任务中是显著的，而在标志数据集上注意到的改善较少我们推测，这种性能差距来自训练数据集的质量如前所述，GTSRB是五个数据集中最大的数据集，交通标志图像具有一致的宽高比，而标志更具挑战性负样本对。使用IdsiaNet复制QuadNet5他们的实验实现了有意义的性能改进，4MatchNet实现基于，https://github.com/gitabcworld/MatchingNetworksIdsiaNet上的交通标志分类。更多详情，请参考，https://github.com/moodstocks/gtsrb.torchVAE + aug匹配四暹罗原型9468SiamNet QuadNet MatchNet VPE + aug图4.特征的t-SNE可视化。特征是从Belga→Flickr32场景的15个看不见的类别中随机抽样的。这是由于各种纵横比、颜色变化和非刚性变形。有趣的是，增强显著地改善了VPE对这种趋势的一个可能的解释是，VPE学习一个伪图像变换过程，并倾向于测量一种对细微输入变化不太敏感的感知相似性。这将不是直接度量学习方法的情况，因为诸如输入域中的翻转之类的细微感知变化不必映射到类似的嵌入向量。参见图中所示的距离热图。5我们强调的GTSRB的情况下，在测试阶段使用的支持集涉及在培训期间看到的类这使我们能够测量对所见类的过拟合。这是一个不同于典型的一次性分类设置的评估，其中支持集不包含来自训练类的任何样本，使过程更容易。在这种情况下，MatchNet在没有增强的情况下表现出很差的性能我们猜想，这是由于注意力核，这是偏向于有利于看到类。表2和表3中的VAE是与我们的VPE共享相同架构的模型，但在没有原型的情况下使用变分自动编码损失进行训练[14]它被报道为一个参考，以显示VAE如何执行没有原型学习。VAE的低性能有两个可能的原因：1）缺乏监督以减少真实域和原型域之间的域差距，以及2）缺乏根据实际类别诱导聚类效应的明确信息，这使得VAE难以调整它们应该聚类或区分样本的水平。4.2. 图像检索测试（原型到真实）平均图像[22，31]可以提供对多个图像的直观视觉理解在这个实验中，我们使用平均图像来总结图像检索结果。使用训练好的单次模型，通过查询原型，基于每种方法的度量检索图像。检索到的图像的平均值定性地可视化了模型的学习嵌入的辨别力只有当存在双折射时，才获得精细平均图像AUCGTSRB→GTSRBGTSRB→TT100k贝尔加→Flickr32贝尔加→托普洛戈斯SiamNet8.754.8320.5618.13夸德内特n/an/a32.4020.51MatchNet57.9941.0044.4746.13VPE+aug64.7741.7948.6149.39VPE+aug+dos85.2964.0463.8770.22表4.检索实验的AUC评分布尔离群值在检索结果中。我们通过检索提供平均图像以及用于比较的原型（图。（3）第三章。结果清楚地表明，VPE是有效的比较在相反的方向，即。，原型→真实图像。虽然平均图像提供了检索任务的定性测量，但我们还在表4中使用精确-召回曲线（AUC）下的面积报告了定量检索竞争方法之间的相对检索性能是类似的一次性实验（第二节。4.1）。4.3. 额外分析相似性度量。单次分类侧重于一般的分类能力，包括看不见的类。理解图像的相似性和相异性是单次分类的重要能力。基于度量的方法采用由标签引起的度量损失，没有图像级相似性的语义上较粗糙的信息图5.真实图像和GTSRB场景原型之间的平均距离被可视化为热图矩阵。9469图6. GTSRB场景中的VPE输出。而所提出的方法使用外观相似性并因此使用语义上更精细的信息。为了进一步证明学习图像相似性的质量，我们在图1中示出。5、GTSRB数据集的真实图像和原型之间的平均距离矩阵。距离矩阵的每一列都是l1归一化的，用于可视化目的。GTSRB数据集有38个类别，分为四组：禁止性、危险性、强制性和其他。同一类别中的类具有相似的外部形状，而内部内容则不同。随后，我们沿着矩阵的x轴和y轴用一种颜色标记每个组的类别，并分别对上面列出矩阵的对角线我们比较了MatchNet和建议的VPE之间的距离矩阵。VPE距离矩阵清楚地示出了块图案化的距离图，表明VPE捕获潜在空间中的外观相似性。另一方面，尽管MatchNet沿对角线显示短距离，但没有与类别集对齐的清晰块嵌入可视化。在图4中，我们比较t-SNE [20]方法嵌入空间的图来理解未知数据的学习嵌入。我们根据类别标签分配颜色以观察区分行为。VPE显示了样本点的清晰分离，而竞争的方法显示了部分混合分布。这种分布差异与一次性分类实验的结果这将表明，基于外观的损失导致更好地学习符号的一般特征，如与直接度量损失并列。原型重建。虽然重建任务是用于训练所提出的VPE网络的辅助任务，但为了更好地理解与看不见的数据无关的图像平移，我们在图中可视化生成的输出。六、该模型鲁棒地生成所看到的类的原型，而不管运动模糊、照明变化或低分辨率。虽然生成性能对于看不见的类并不准确，但它仍然在输入图像中捕获了这些类的某种程度的特征。值得注意的是，VPE可以处理高级类别，例如危险（红色圆圈）和危险（红色三角形）类别。虽然符号内容的细节并不准确，但斑点的位置大致与原型中的内容对齐。这表明，即使是粗糙的一代仍然是有效的NN分类在潜在的空间，并可能适用于一个高层次的概念理解的新的背景。5. 结论我们提出了一种新的基于生成损失的一次性学习方法所提出的VPE的关键思想涉及使用重建损失来学习诱导真实图像及其相应原型的间接感知相似性，而不是使用预定度量。一个原型重建实验（图。6）证明了我们的VPE隐式地学习关于真实图像如何可以针对真实世界扰动（诸如辐射和几何扰动）被中和的有利知识。VPE似乎捕捉高层次的原型概念，从图像看不见的类扭曲的现实世界的扰动，在一定程度上。这与度量学习方法有着根本的不同，因为它们在训练阶段使用标签信息对可用数据进行分组，因此很难将相似性推广到看不见的类。我们在多个数据集上定量和定性地验证了所提出的方法的性能，并证明了其优于竞争方法的性能。尽管VPE的性能有了明显的提高，但它很容易训练，产生的架构也很简单。在这方面，VPE背后的原则将导致未来的各种应用。鸣谢这项工作得到了技术创新计划（第2009号）的支持。10048320），由贸易、工业能源部&（MI，韩国）资助。9470引用[1] Y.本焦湖Yao，G. Alain和P.文森特作为生成模型的广义去噪自动编码器。神经信息处理系统进展，2013年。4[2] M. A. Borkin，Z. Bylinskii、新几内亚N. W.金角，澳-地M. 班布里奇C. S. 是的，D.Borkin，H.Pfister和A.奥利瓦超越可解释性：可视化识别和回忆。 IEEE transactions onvisualization and computer graphics，22（1）：5191[3] Z. Bylinskii，S.阿尔谢赫Madan，A.雷卡森斯湾钟H. Pfister，F.Durand和A.奥利瓦通过文本和视觉标签预测理解arXiv预印本arXiv：1709.09215，2017。1[4] D. Cires Sanguan，U. Meier，J. Masci，and J.施密特胡博用于交通标志分类的多列深度神经网络神经网络，32：333-338，2012。四、六[5] C. Finn，P. Abbeel，和S.莱文模型不可知Meta学习用于深度网络的快速适应2017年国际机器学习会议。3[6] I. Goodfellow，J.普热-阿巴迪米尔扎湾，澳-地Xu，L.Warde-Farley，S.奥扎尔A. Courville和Y.本吉奥。生成性对抗网。神经信息处理系统进展，2014年。4[7] X. 侯湖，澳-地Shen，K.Sun和G.邱深度特征一致的变分自动编码器。 IEEE Winter Conf. 计算机视觉应用（WACV），2017年。4[8] P. Isola，J.Y. Zhu，T.Zhou和A.A. 埃夫罗斯使用条件对抗网络的图像到图像翻译。2017年在IEEE计算机视觉和模式识别会议上发表。二、四[9] M. Jaderberg ， K. Simonyan 、 A. Zisserman 等人空间Transformer网络。神经信息处理系统进展，2015。6[10] S.杰特利湾Romera-Paredes，S. Jayasumana，和P.乇原型先验：从改进分类到零触发学习。2015年英国机器视觉会议。3[11] A. Joly和O.比松具有逆向视觉查询扩展的标志检索。2009年第17届ACM国际多媒体会议论文集。5[12] J.金，S.李，T.- H.哦，还有我。S.奎恩基于深度四元组网络的共域嵌入用于不可见交通标志识别。在AAAI，2018。二三四五六[13] D. P. Kingma和J. BA. Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。6[14] D. P.Kingma和M.威林自动编码变分贝叶斯。2014年，在国际学习代表。二、三、四、七[15] G.科赫河Zemel和R.萨拉赫季诺夫用于一次性图像识别的连体神经网络。ICML深度学习研讨会，2015年。二三四五[16] B. M. 莱克河Salakhutdinov和J.B. 特南鲍姆通过概率程序诱导的人类水平概念学习。Science，350（6266）：1332-1338，2015. 2[17]A. B. L. 拉森 S. K. 桑德比 H. Larochelle，以及O. 温瑟使用习得的相似性度量在2016年的国际机器学习会议上。4[18] P. 莱特西耶岛Buisson，和A.乔利可扩展的小视觉对象挖掘2012年第20届ACM国际多媒体会议论文集。5[19] F.- F.利河，巴西-地Fergus和P.佩洛娜无监督一次性学习对象类别的基本方法。IEEEInternational Conference onComputer Vision，2003。2[20] L. v. d. Maaten和G.辛顿使用t-sne可视化数据。Journal ofMachine Learning Research，9（Nov）：2579-2605，2008. 8[21] N.米什拉，M。Rohaninejad，X. Chen和P.阿比尔一个简单的神经专注元学习者。在NIPS 2017元学习研讨会，2017年。3[22] A. Oliva和A.托拉尔巴语境在物体再认中的作用Trends inCognitive Sciences，11（12）：520-527，2007. 7[23] S. Ravi和H.拉罗谢尔优化作为一个模型的少镜头学习。在2017年国际学习代表会议上。3[24] S.龙贝格湖G.普埃约河Lienhart和R.范兹沃尔真实世界图像中的可扩展徽标识别。2011年第一届ACM多媒体检索国际会议论文集。5[25] A. Santoro，S. Bartunov，M. Botvinick，D. Wierstra，以及T. Lillicrap使用记忆增强神经网络的元学习。在2016年的国际机器学习会议上3[26] J. Snell，K. Swersky和R.泽梅尔用于少镜头学习的原型网络。在神经信息处理系统的进展，2017年。二、三、四[27] J. Stallkamp，M. Schlipsing，J. Salmen和C.伊格尔人与计算机：用于交通标志识别的基准机器学习算法。神经网络，32：323四、五[28] H. Su，X. zhu和S.龚通过合成上下文进行数据扩展IEEE Winter Conf.计算机视觉应用（WACV），2017年。5[29] P. Vincent，H.拉罗谢尔岛Lajoie，Y.Bengio和PA. 曼-扎戈尔。堆叠去噪自动编码器：使用局部去噪标准在深度网络中学习有用的表示。Journal of Machine LearningResearch，11（Dec）：33714[30] O. 维尼亚尔斯角Blundell，T.Lillicrap、D.Wierstra等人一次学习的匹配网络。神经信息处理系统进展，2016。二三四五[31] J. - Y. Zhu，Y. J.Lee和A. A.埃夫罗斯平均浏览器：交互式探索和可视化数据集合的对齐。ACM Transactions on Graphics（TOG），33（4）：160，2014。7[32] Z. Zhu，D. Liang，S. Zhang，X.黄湾，澳-地Li和S.胡野外交通标志检测与分类。2016年在IEEE计算机视觉和模式识别会议上发表。5

下载后可阅读完整内容，剩余1页未读，立即下载