少镜头学习：基于动态分类器和子空间方法的鲁棒性建模和准确性提高

43 浏览量更新于2023-10-24 收藏 688KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

14136用于少镜头学习Christian Simon<$，§ Piotr Koniusz<$，§ Richard Nock<$，§Mehrtash Harandi <$，§†澳大利亚国立大学，莫纳什大学，悉尼大学，§Data 61-CSIROfirst.last@{anu.edu.au，monash.edu，data61.csiro.au}摘要对象识别需要泛化能力以避免过拟合，特别是当样本非常少时。从有限的样本中进行概括，通常在元学习的保护伞下进行研究，使学习技术具有在动态环境中快速适应的能力，并被证明是终身学习的一个重要方面在本文中，我们提供了一个框架，通过引入动态分类器，从少量样本构建的少镜头学习。利用子空间方法作为动态分类器的中心块。我们将实证表明，这种建模导致对扰动的鲁棒性（例如，离群值），并在监督和半监督的少镜头分类任务我们还开发了一种判别形式，可以进一步提高准确性。我们的代码可在https://github.com/chrysts/dsn_fewshot上获得。1. 介绍各种研究表明，计算机视觉、语音识别和自然语言理解中的许多深度学习除了与注释数据相关的劳动，精确的注释在某些情况下可能会变得不适定这种困难的一个主要示例是对象检测标记，其需要注释对象的边界框，如[1]中所解释的。在其他一些情况下，标签过程可能需要专业知识（例如，手语识别[2]）。与目前深度学习的趋势相反，人类只能从几个例子中学习新的对象这反过来又为人类提供了终身学习的能力。受这种学习能力的启发，开发了几种方法来研究有限样本的学习[3这种类型的学习，被称为少镜头学习（FSL），已经被一系列不同的想法所解决，从嵌入式学习[4]，56535047444138352 3 4 5射击次数图1：原型和子空间分类器的准确性评估与几个（2-5）图像。特征提取器是在ImageNet上训练的ResNet-34。原型是同一类内的几个图像的平均池化，子空间是类特定的基向量。原型和子空间直接从生成的特征构造而无需额外的可学习参数。13，14]，适应技术[7，8]，甚至生成模型[3，15]。在这项工作中，我们首先制定FSL作为一个两阶段的学习范式，即1。学习通用特征提取器，然后是2。学习从有限的数据动态地生成分类器。我们将证明，许多国家的最先进的FSL技术很好地适应这样的学习范式。此外，我们将表明，将FSL视为上述范式将是有益的，并为我们提供工具，以形式化FSL。一旦我们建立了两阶段学习范式，我们将把注意力转向如何从有限的数据中可靠地生成分类器。除了有限的注释，我们将表明，在许多具有挑战性的FSL问题的要求是从高维数据中学习分类器这最终归结为学习对称函数11对称函数是一个函数，它具有相同的值，而不管它们的顺序。原型54.1552.7子空间51.3749.9547.1545.4240.538.4准确度（%）14137从高维数据中。为此，我们做出了另一个贡献，并提出使用在可视化数据建模中具有悠久历史的子空间来构造对称函数[16这与以前的研究有很大的不同，在以前的研究中，对称函数是通过池化的形式实现的（例如，如[20]中的平均值作为一个激励性的例子，我们使用CUB数据集[21]将最先进的原型网络[20]与我们提出的子空间方法进行比较和对比。为此，对于通用特征提取器，我们使用了在ImageNet上训练的ResNet-34 [22]。我们考虑了四个不同镜头的FSL问题（具体为两到五个），并在图中报告了原型网络和我们的子空间方法的准确性。1.一、正如稍后将详细介绍的那样，在原型网络中，通过对每个类中的所有样本进行平均来构建低射除了作为自然选择，平均值由1支持。文[23]指出，对于适当的变换ρ和φ，集合X上的所有对称函数都可以写成ρ（x∈X φ（x））。二、在[11]中，作者指出，类与分类器参数高度相关softmax学习，因此人们希望平均也反映FSL中类的真实参数。尽管如此，我们观察到我们的子空间解决方案始终和舒适地优于原型网络.这个令人信服的结果以及我们对监督和半监督FSL的一系列实验（例如，见表1和表5）表明，在少数情况下，存在更好的方法来从有限的观察中构建分类器，我们建议使用基于子空间的方法。捐款. 总之，我们在这项工作中做出了以下贡献：i. 在生成动态分类器的框架内制定了少镜头学习解决方案。ii. 我们提出了一个扩展现有的动态类sifiers通过使用子空间。我们依赖于一个完善的概念，说明二阶方法更好地推广分类任务。iii. 我们还介绍了一个歧视性的制定，最大的歧视子空间之间的鼓励在训练过程中。该解决方案进一步提升了性能。iv. 我们表明，我们的方法可以利用未标记的数据，因此它本身的问题，半监督少杆学习和转导设置。在我们的实验中评估这种变体的鲁棒性。2. 相关工作在本节中，我们回顾了用于分类任务的少次学习和子空间方法的文献小样本学习最初是为了模仿人类的学习能力而引入的一些早期的作品使用生成模型和相似性学习来捕获对象的部件和几何配置内的变化[3，15，24]。这些作品使用手工制作的功能来执行少数镜头分类。在[15]中提出的星座模型考虑了用于推理的对象部分。这些部分的几何结构有助于区分不同的对象。此外，Torralbaet al. [24]利用视觉对象上的类似特征，但模型不利用几何结构。另一个非深度解决方案是Lake等人的工作。[3]它使用一组基元（笔画）来建模少数镜头分类。上述几次分类方法不是端到端训练的，并且给定的任务是非情景的。深度学习在从图像中学习区分特征Santoro等人[25]和Vinyalset al.[4]尝试用端到端深度神经网络解决少镜头分类。在大多数情况下，从情节训练的网络旨在从有限的数据中推断特定任务的潜在判别模型。元学习也可以用于获得快速自适应网络。一个突出的想法是学习神经网络参数（权重）通过适当的初始化，可以期望网络使用有限样本的反向传播Sachin等人[8]使用长短期记忆（LSTM）来嵌入梯度w.r.t.一个给定的任务来训练网络。MAML [7]不使用LSTM来编码梯度，但它仍然可以执行元学习，通常具有更好的性能。作为扩展，MAML++[26]使用重要性方案来权衡梯度更新期间的损失MetaNets [27]是另一种快速自适应网络，混合了所谓的快速和固定权重。快速权重通过反向传播改变，而固定权重不改变。因此，可以将该方法视为仅应用于选定权重的优化。基于度量学习的FSL是最接近我们工作的方向。匹配网络[4]和暹罗网络[13]学习样本度量，这意味着到样本的距离在原型网络[20]中，Snellet al.将思想从样本扩展到类度量。来自特定类的所有样本的描述符被分组并被认为是类原型。原型随后用于推理。学习类表示和查询之间的非线性关系可以通过神经网络来建模，例如关系网络[14]中所示基础度量被学习以保持共享相同类别标签的特征向量之间的小距离。巧et14138c′QQ年qQ2Q（一）（b）第（1）款（c）第（1）款（d）其他事项图2：用于少数镜头分类的各种分类器。(a)匹配网络创建成对分类器。(b)原型网络基于同一类中的样本创建均值分类器（c）关系网络产生非线性分类器。(d)我们提出的方法使用子空间创建分类器。al. [11]观察到网络的激活与其分类器（最终层）的权重相关，并主张由激活构成的原型足以用于分类。其他作品使用特征注意力模块[28，29]来调节少数学习的特征[30，31]。最近的几项工作针对少数半监督学习（FS-SSL）。Garcia等人[32]利用图神经网络进行半监督设置，其中未标记的数据通过图神经网络（GNN）与标记的数据连接。然后，从GNN提取的特征被用来分类查询。另一个由Ren等人提出的FS-SSL协议。[33]表明，未标记的图像有助于支持集的样本提高少镜头分类的性能。[33]中提出的方法是基于原型网络[20]，通过使用未标记的图像来细化原型。3. 问题设置首先，我们定义了少量学习中使用的术语。以元学习的方式为每次迭代训练一些样本。为了获得一个训练好的模型，所谓的情节被用来对数据进行采样一集Ti由两个集合组成，支持集S和查询集Q。这种学习范式描述了机器如何提高了在每次迭代中提供碎片数据能力。具体来说，深度嵌入是用lim学习的，其中未标记的数据被提供给模型。在文献中，各种配置被考虑用于半监督少次学习，[第32在这项工作中，我们遵循[33]中具有挑战性的协议，其中所谓引入了干扰物。因此，一个片段包括支持集S、查询集Q和未标记集R。支持（标记的）S和查询Q集被配置为在少数镜头学习中。此外，提供未标记的集合R以辅助在情节内的分类任务。在联合国-标记集，有来自两个不同来源的样本：支持类和干扰类。顾名思义，来自干扰项类的样本与分类任务无关4. 该方法4.1. 初步我们考虑一个少镜头学习问题，分两个阶段：特征提取器和动态分类器。设fΘ：X →RD是从输入空间X到由神经网络实现的D维表示的映射，并且Xc={xc ，1，· · ·，xc ，K}是类特定的集合。We formulate theproblem of few-shot learning as generating动态分类器为此，沿着softmax层的神经网络的最后一层实现：每集的标签和输入数量有限这个教训-exp（W<$fΘ（q））exp（dc（q））搜索范例被公知为N路K镜头分类（例如，20-1路和5路5路）。我们引入p（c|q）=C′exp（W<$fΘ（q））=0，（1）c′exp（dc′（q））我们的符号（N-路，K-镜头）少镜头学习。每个情节或任务Ti由支持集S={（x1， 1，c1， 1），（x1， 2，c1 ， 2 ）， ··· ，（ xN ， K ， cN ， K ） } 和查询集Q={q1，···，qN×M}组成，其中xi，j表示来自类i的第j个样本，ci，j∈ {1，···，N}. 在半监督设置中，另外存在未标记集合R ={r1，...， r U}内。一个相关的问题是半监督的少次学习-C14139其中Wc是类别c的权重。然后，FSL的问题可以理解为一旦提供新任务，W为了展示这种设置，我们在下面讨论成对分类器。通过计算样本之间的相似性，可以直接从样本中构建分类器，如图所示第2段（a）分段。一个开创性的工作使用这个14140子空间CCC我输入图像骨干动态分类器判别图3：我们的方法的总体管道。子空间分类器用每个类的单个向量替换分类器。然后应用判别方法来最大化子空间之间的裕度。分类器是匹配网络[4]。样本通过LSTM和注意力模块嵌入。然而，这种方法不构成一个不变性w.r.t.影响精度的输入图像的顺序分类器权重Wc用函数g（·）代替（例如，LSTM）来编码样本。然后对具体类别的样本进行了总结以及用于预测的余弦相似度。原型分类器。基于对[11]中的少数镜头分类的观察，来自最后一个全连接层和原型的参数相关。因此，分类器是从原型生成的。通过引入一个简单的多层感知器，从最终激活层的特征向量的平均值被用来执行少拍分类。这一观察结果也被直接学习特征嵌入的原型网络[20]所证实。一些表示类C的子空间的基可以通过矩阵分解获得，奇异值分解我们强调，更多的技术，niques，以获得强大的子空间可以潜在地改善算法。尽管如此，我们的目标是评估子空间建模的概念是否有充分的理由，因此我们选择截断SVD在我们的实现。4.3.子空间分类器高阶信息优于低阶信息，以提高分类器的性能。子空间方法可以形成鲁棒的分类器。下面，我们描述如何创建子空间并基于它进行分类一组新的样本由Θ编码的可被表示为X_c_f=[fΘ，（xc，1）-f θ，（xc，1）]下面的作品也使用原型作为动态类-μ，···，fΘ（xc，K）−μ]，其中μ=1x∈XfΘ（xi）。c c cKic如[35，36]。因此，W c被取代为子空间上的分类方法之一是找到1Kxi∈XcfΘ（xi）。此外，这种方法保留了数据点到其投影到对称性（对图像顺序的不变性）是因为执行平均操作以生成分类器。图中描绘了该图示。第2段（b）分段。非线性二进制分类器。这种方法利用了决策边界的非线性。关系网-子空间为此，从Xc计算类特定投影矩阵Pc。可以将查询qj投影到Pc上，并且基于最短距离的分类执行从查询到其投影到Pc（在原始空间中）的过程我们的一般子空间分类器定义为：作品使用非线性二元分类器来计算相似度，dc（q）=− k（I−Mc）（fΘ（q）−µ）2，（2）如图2（c）所示。设z=（fΘ（xi），fΘ（q）），M∈R2D是可学习的分类器（比较器）.我们可以重新定义Eq。1为p（c|q）=σ（z<$M），其中σ是非线性函数（例如，S形）。尽管这个分类器不使用softmax函数，它遵循生成分类器的原理，该分类器学习数据点对的比较其中Mj=PcP，μc可以解释为点与子空间之间的偏移。因此，Pc是矩阵Bc的截断矩阵，其具有跨越Xc={fΘ（xi）;yi=c}的线性子空间的正交基（因此，BB c= I）。我们定义查询被分配到类c的概率使用softmax函数：4.2.用于少镜头分类exp .Σdc（q）p c，q=p（c|q）= 0。Σ。（三）我们提出用子空间{Z}N来模拟点. 每个c′expdc′（q）ii=1子空间Zi的基表示为RD×n<$Bi=[b1，· · ·，bn];n≤D，其中B<$Bi=In.我们的目标是学习特征提取器Θ以生成子空间，即，以一种方式，所产生的空间是适合的功能子空间分类器Conv-4/ResNet14141现在，我们可以最小化方程的负对数。3和更新Θ。为了训练整个框架，需要通过SVD进行反向传播，这在现代深度学习包（如 PyTorch ）中可用[37]。在下文中，我们称我们提出的方法为深子空间网络（DSN）。14142CIF4.4. 判别式深子空间网络我们在这一部分的目标是通过学习代表来增强DSN，其中，mi=0 exp（−<$fΘ（ri）−µ）<$2）2、（7）表示，导致更多的歧视性子空间。在这样做，我们利用格拉斯曼几何[38]，并建议在训练期间最大化子空间之间的距离。这可以使用格拉斯曼上的投影度量轻松实现，格拉斯曼具有几个有用的属性（参见[39]）。更具体地说，给定两个子空间P3和Pj的基，投影度量定义为：c′exp（− <$fΘ（ri）−µc′）<$）其中mi是未标记样本的软分配分数为了处理干扰项的存在，我们使用了一个零均值的伪类，如[33]所示我们凭经验观察到，对平均值的这种简单修改可以改善结果，而不需要细化矩阵分解步骤。此外，该技术也适用于使用查询集作为未标记数据来细化¨ ¨22¨⊤ ⊤¨班⊤2δ p（P i，P j）=-P i P i−Pj Pj？F= 2n−2 <$Pi Pj<$F。（四）注1. 据我们所知，子空间已被用来解决FSL在[40，41]和我们的初步最大化投影度量是通过最小化P1 Σ Σ⊤2研究[42]。这项工作与TAP-NET [40]之间的主要区别在于，我们方法中的投影是类特定的，而TAPNet使用特定于任务的投影。我们的初步工作[42]，这是前18个月−NMlog（pc，q）+λCi我是P.P. J.F.（五）JDevos和Grossglauser的工作[41]共享相同的spirit，可以看作是一个类的子空间算法1解释了训练DSN的步骤我们的整体管道如图所示。3算法1训练深子空间网络输入：每个情节Ti与S和Q1：Θ0←随机初始化2：对于{T1，...，TNT} do3：对于{1，...，N} do4：Xc←Sc5：计算班级平均数6：使用等式计算平均细化（MR）67：用一个f set减去Xc8：[U，U，V]←Decompose（Xc）9：Pc←截断U1，.，n10：对于Q中的q，11：使用等式11 计算d c（q）。212：结束13：结束14：使用等式14计算最终损失Lt515：使用θ Lt更新Θ16：结束4.5. DSN用于半监督少镜头学习在下文中，我们扩展了第4.2节中开发的模型，以解决半监督少次学习。在这样做时，我们需要利用未标记的数据来使更好的子空间适合我们的数据。我们通过细化每个类的中心（平均细化）来实现这一点，ΣKµc+imi fΘ（ri）14143FSL的方法5. 实验下面我们将我们的方法与四个具有挑战性的数据集上的最先进技术进行对比和评估，即迷你ImageNet[8] ，分层 ImageNet [33] ， CIFAR [43] 和 Open MIC[44]。此外，我们使用了几个CNN主干，例如[20]中实现的4-卷积层（Conv-4）和[45]中采用的ResNet-12，用于标准的少数镜头分类。我们遵循一般的做法来评估模型与N路K-杆和15个查询图像。在扰动分析和半监督少镜头（SS-FSL）分类时，采用Conv-4。在所有数据集上提供了深子空间网络（DSN）的报告结果。mini-ImageNet。迷你ImageNet [8]包含ImageNet [46]数据集的60，000张图像。迷你ImageNet中的图像大小为84×84，代表100个类，其中64、16和20个类用于训练、验证和分析。测试，分别。每个类都有600个图像，遵循[8]中的图像列表。从以前的工作（例如，[47]）CNN主干影响性能。因此，我们使用4-卷积层（4-Conv）和ResNet- 12来进行公平的比较。我们还使用迷你ImageNet进行半监督分类，其中包含40%的标记数据。分层-ImageNet。这个数据集也来自ImageNet，但与迷你ImageNet相比，它包含了更广泛的类。有来自20个不同类别的351个类用于训练，来自6个不同类别的97个类用于验证，来自8个不同类别的160个类用于测试。我们遵循4-Conv的实现，ResNet-12主干和84×84的图像大小与迷你c=ΣK+m、（6）ImageNet.我我14144模型骨干1次注射5次射击[20]第二十话ResNet-1261岁74 ±0。77八十00 ±0。55CTM [52]ResNet-18六十四78±0。1181. 05 ±0. 52[53]第五十三话WRN-28-1066岁。33±0。0581. 44 ±0。09[45]第四十五话：ResNet-12六十五81±0。7481. 75 ±0。53DSNResNet-1266岁。22±0。7582岁79 ±0。48DSN-MRResNet-1267岁39 ±0。8282岁85 ±0。56DSNsResNet-1266岁。83±0。7383岁31 ±0。64DSN-MR双绞线ResNet-1268岁44 ±0。7783岁32 ±0。66表2：分层ImageNet上的5向少数分类结果，置信区间为95%方法采用包含用于训练模型的训练集和验证集模型1次注射5次射击原型网[4]七十二2±0。783岁5±0。5[45]第四十五话七十二6±0。784. 3 ±0。5[45]第四十五话七十二0±0。784. 2 ±0。5[45]第四十五话：七十二8±0。7八十五0±0。5DSN七十二3±0。8八十五1±0。6DSN-MR75. 6 ±0。986岁。2±0。6DSNs七十三。6±0。986岁。3±0。6DSN-MR双绞线78岁0±0。987岁3±0。6表1：与最新技术水平的比较。5路少数镜头分类结果，在迷你ImageNet数据集上具有95%的置信区间，具有1镜头和5镜头的各种主干。具有训练集的方法包括用于训练模型的训练集和验证集。CIFAR-100。我们对CIFAR-FS数据分割进行评估。这些数据集上的所有图像都是32×32，每个类的样本数为600。CIFAR-FS数据集[49]是包含CIFAR-100中所有100个类的少量学习基准[43]。数据集分为64、16和20，分别用于训练、验证和测试。打开麦克风。这个数据集[44]包含来自10个博物馆展览空间的图像。在这个数据集中，有866个类，每个类1-20个图像。图像经历各种光度和几何失真，类别通常是细粒度的，因此使少数镜头学习问题具有挑战性。我们使用的协议和基线在[55]中提出，但排除了最容易分类的类别，以便能够测试超过1次的测试，然后我们使用SoSN [55]方法。数据集被分成四个子集：p1=（ shn+hon+clv ）， p2= （ shn +gls+scl ）， p3=（sci+nat），p4=（shx+rlc）。协议[55]假设在p1→p2，p2→p3，p3→p4和p4→p1上进行评估，其中x→y表示在子集x上进行训练，在子集y上进行测试。在一个子集中训练，在另一个子集中的测试描述了少量学习问题，因为每个博物馆中的对象在不同的背景下是不同的请注意，在我们的实验中，我们排除了少于3个示例的类和所有算法模型骨干单次拍摄5次射击[4]第四话Conv-4四十三56±0。8455. 31 ±0。73MAML [7]Conv-4四十八70±1。8463岁11 ±0。92爬行动物[48]Conv-4四十九97±0。32六十五99±0。58[49]第四十九话Conv-4四十八70±0。60六十五50±0。60[20]第二十话Conv-444. 53 ±0。76六十五77±0。66[14]第十四话Conv-450块44 ±0。82六十五32±0。70DSNConv-451岁78±0。9668岁99±0。69DSN-MRConv-455. 88± 0。90七十50± 0。68[27]第二十七话ResNet-12五十七10±0。70七十04 ±0. 63蜗牛[10]ResNet-1255. 71 ±0。9968岁88 ±0。92AdaResNet [50]ResNet-12五十六88±0。62七十一94±0。57TADAM [51]ResNet-12五十八50±0。30七十六。70±0。30[20]第二十话ResNet-12五十九25±0。6475. 60 ±0。48[第30话]ResNet-1261岁72 ±0。1178岁32 ±0。1614145表3：使用ResNet-12的CIFAR-FS数据集上的5向少数分类结果具有训练集的方法包括用于训练模型的训练集和验证集5.1. 少拍学习我们遵循一般实践，并在 mini-ImageNet ，分层ImageNet ，CIFAR-FS 和Open MIC 上评估我们的方法，以进行少量学习和分类。迷你ImageNet的CNN架构与[47]中使用的相同，具有4个卷积层（Conv-4）和ResNet-12 [56]。而只有ResNet-12用于CIFAR-FS和分层ImageNet。我们使用ADAM [57]优化Conv-4，使用SGD优化ResNet-12。为了公平比较，我们进行了类似的实验设置。Conv-4骨干在没有数据增强的情况下进行训练，并将学习率降低到每5 K集一半我们在5路1次拍摄和5次拍摄上进行了训练，然后在Conv-4测试期间应用了相同的分类任务设置。请注意，使用Conv-4的原型网络[20]也在5路上进行了训练和测试ResNet-12的训练此外，[45]中的训练策略用于15个镜头，10个查询图像和每个批次8个事件。我们从验证集交叉验证，并设置λ=0。03所有实验准确性评估超过1000集。14146模型5路1拍五向三射p1−→p 2p2−→ p3p3−→ p4p4−→ p1Avgp1−→p 2p2−→ p3p3−→ p4p4−→ p1Avg[4]第四话69岁。40五十七30七十六。35五十三68六十四1884. 1074岁2087岁47七十8379岁。15[14]第十四话七十10四十九7066岁。90四十六岁。90五十八40八十9061岁9078岁50五十八90七十05[20]第二十话66岁。3352岁0374岁28五十四3061岁7481. 60七十三。5583岁5569岁。15七十六。96SoSN [55]78岁00六十岁。1075. 50五十七8067岁8587岁10七十二60八十五90七十二8079岁。60DSN75. 8762. 1378岁2562. 1169岁。5987岁9375. 7888岁42 七十六。5982岁18表4：使用Conv-4对Open MIC数据集进行5路1次激发和3次激发的少激发分类结果数据集模型1发5发迷你-ImageNetPN-SSL，非屏蔽[33][33]第三十三话半DSN50块09 ±0. 4550块41 ±0。31五十三01± 0.82四十八70 ±0。32四十九04 ±0.3151岁01± 0. 78六十四59 ±0。28六十四39 ±0。2469岁。12± 0。6263岁55 ±0。2862. 96 ±0。1467岁12± 0。81分层-ImageNetPN-SSL，非屏蔽[33][33]第三十三话半DSN51岁85 ±0。2552岁39 ±0。44五十四06± 0.9651岁36 ±0。3151岁38 ±0。38五十三89± 0。83七十25 ±0。百分之三十一69岁。88 ±0。百分之二十七十二07± 0.6968岁32 ±0。2269岁。08 ±0.25七十15± 0。81表5：在mini-ImageNet和分层ImageNet上使用Conv-4的5路半监督少镜头分类结果，分别具有40%和10%的标记数据。我们显示的分类结果（w/D）和无干扰（w/o D）。通过设计，我们的方法需要一个以上的样本来识别子空间的跨度。因此，对于单次拍摄的情况，我们通过翻转支持图像来增加数据来生成额外的样本结果下面，我们提供了基于Conv-4和ResNet-12的结果，以进行全面的比较。请注意，不同的主干会影响少量学习的性能。对于迷你ImageNet，表1显示我们的方法优于具有各种CNN主干的最先进方法以及5路5次和1次的样本数量我们的方法也可以受益于平均细化（MR）的查询集。我们的方法在具有更多参数的更深CNN 上更好，例如 ResNet-12[56] 。我们的性能比MetaOpt-SVM [45]在5路1次和5次上高1.3%我们的方法在分层ImageNet和CIFAR-FS数据集上的表现也一直优于其他方法（见表2和表3）。在开放MIC数据集（见表4）上，可以观察到类似的趋势。我们的方法优于最先进的嵌入方法，用于少量学习（即，匹配网络[4]，原型网络[20]和二阶相似性网络（SoSN）[55]）。结果表明，我们的子空间表示对Open MIC数据集造成的各种光度和几何失真具有鲁棒性，并且可以很好地建模该数据集中包含的细粒度概念。Open MIC包含不同类型的对象的不同展览。与其他方法相比，我们的模型可以推广到Open MIC上的不同对象子集，增益约为2%。141475.2. 半监督少射学习对于本节中的实验，我们使用了如[33]中的4卷积层嵌入架构。我们遵循[33]提出的实验装置支持集和查询集的标记部分的片段组成与少镜头学习分类任务相似，然而，在每个片段中提供了额外的未标记集我们的模型在mini-ImageNet和分层ImageNet上训练了10万集，分别有40%和10% 的标记数据。我们使用ADAM求解器[57]，然后将学习率设置为0。001与重量衰减，并削减率一半，每10K集。训练是在半监督环境中进行的，其中也使用了未标记集未标记集由支持集中的类和干扰项类的样本组成支持类和干扰类的数量被设置为五个用于训练和测试。在训练阶段，未标记集中的样本数量为50（每个类别5个在测试阶段，未标记集由每个类别的20个样本组成。出于测试目的，查询集每个类具有20个样本。λ分别设置为0.03和0.005，用于mini-ImageNet和分层ImageNet上的半监督少量学习。结果准确性评估超过600集。结果在标记和未标记集合的10个随机分割上平均。表5中详细描述的半监督实验表明，我们的方法通过利用未标记数据提高了性能我们的研究结果与原-1414870656055504505 1015 20DSNDSN，不带原型Disc.网7065605550450 5 10 15 2070605040300 5 10 15 2075655545350 5 10 15 20图4：在mini-ImageNet上存在离群值和加性噪声的情况下，使用Conv-4进行5路5次拍摄的实验。图中显示了DSN、不带判别项的DSN和原型网络的结果（见图例）。第一列显示在支持样本中引入离群值的影响（离群值的类别与样品）。第二、第三和第四列示出了引入根据高斯分布随机生成的噪声样本的影响，其中随机均值和方差为σ={0.15，0。3，0。4）分别。性能以w.r.t.异常值和噪声样本的数量增加（x轴）。方法5路1拍五向五射没有disc Term50块44 ±0。8867岁22 ±0。69关于Disc Term51岁78 ±0。9668岁99 ±0。69表6：在mini-ImageNet上使用Conv-4（有和没有区分项）的DSN的少镜头分类准确度。半监督学习（SS-FSL）的典型网络，具有软K均值（非掩码）和掩码K均值（掩码），如[33]所提出的。5.3. 消融研究歧视性术语。下面是一项消融研究，执行区别项。Eq.中的判别项4鼓励不同类的子空间之间的正交性这个术语导致了对少数分类任务的性能提升我们在表6中研究了给定Conv-4骨架的该机制的结果从结果中，我们得出结论，网络学习了相互推开的判别子空间。该实证研究证明，区分项提供了性能提升，并导致用于分类的更多区分子空间。子空间的抽象性。与匹配网络、原型网络和关系网络等其他模型相比，我们的DSN带有一个额外的超参数，即子空间的维数（即，n）。根据经验，我们建议使用n=K−1来训练和测试我们的模型。事实上，DSN对n表现出很大程度的鲁棒性，这反过来又使我们模型的训练我们观察到n从2到K−1的选择不会显著影响性能（±0.5%）使用Conv-4主干的mini6. 讨论对扰动的鲁棒性。人们可能会争论噪音是否会在少量学习中造成问题。但是，在收集数据时，某些噪声模式可能并不明显因此，不能保证数据没有噪声。在我们的实验中，我们观察到标准方法的性能随着对信号添加小程度的扰动而显著下降，如图所示。4.第一章然而，我们的基于子空间的模型很好地处理了这样的噪声。计算复杂性。我们的DSN方法的计算复杂度是O（min（ND2K，NDK2）），其中K，N和D是射击次数，方式和fea。真实维度。与原型网络方法的复杂性相比， O（NDK），我们的方法由于使用SVD步骤而有点慢。然而，为了解决SVD的复杂性，可以使用快速近似SVD算法[58]。7. 结论本文提出了DSN，一种新的少拍学习方法，采用了一个少拍学习模型，通过仿射子空间。从经验上讲，我们表明，通过DSN学习的表示在广泛的监督和半监督少数问题中具有表达力。它们都是在元学习中训练的，并且在训练模型时之前没有看到测试集子空间模型被证明是改善现有的模型，由于其性质，以表示一个子空间上的几个数据点的大幅度在DSN中，每个类分类器由其所有样本形成的子空间表示，这意味着每个类由其训练数据点的跨度建模。我们证明了DSN在少量学习中对噪声具有鲁棒性我们的实验表明，通过简单地鼓励子空间彼此分离，可以获得更高的分类精度14149引用[1] B. Alexe ， T. Deselaers 和 V. Ferrari ， “Measuring theobjectness of image windows” ， IEEE Transactions onPattern Analysis and Machine Intelligence ， vol.34 ， pp.2189-2202，2012。[2] D. Li，C.罗德里格斯，X。Yu和H.Li，“来自视频的单词级深度手语识别：一个新的大规模数据集和方法比较，“在IEEE冬季会议上的计算机视觉应用，2020年，pp。1459-1469年。[3] B. M. 莱克河Salakhutdinov和J.B. Tenenbaum，1332[4]O. 维尼亚尔斯角Blundell，T.Lillicrap，K.Kavukcuoglu和D. Wierstra，神经信息处理系统进展，2016年。[5] E. 特里昂塔菲尤河Zemel和R.Urtasun，[6] Z.许湖，加-地Zhu和Y. Yang，[7] C. Finn，P. Abbeel，和S. Levine，[8] S. Ravi和H. Larochelle，[9] Y.-- X. 王河，巴西 - 地格尔希克 MHerbert ，和B.Hariharan，[10] N. 米什拉，M。Rohaninejad，X.Chen和P.Abbeel，[11] S. 乔C.Liu，W.Shen和A.L. Yuille，[12] 工作人员Neill和P. Buitelaar，“使用门控递归连体网络进行词间相关性和相似性任务的少量迁移学习”，AAAI人工智能会议，2018年。[13] G.科赫河Zemel和R. Salakhutdinov，[14] F. Sung，Y.扬湖，澳-地Zhang，T. Xiang，P. H. Torr和T.M. Hospedales，1199-1208.[15] L.费费河Fergus和P. Perona，“One-shot learning of objectcategories，”IEEE Transactions on Pattern Analysis andMachine Intelligence，vol. 28，pp. 594[16] M. A. Turk 和 A.P. Pentland ， “Face recognition using eigen-faces，”inProceedings. 1991年IEEE计算机协会计算机视觉和模式识别会议，1991年，pp. 586-591.[17] R. Basri和D. W. Jacobs，218[18] P. Zhou，Y.Hou和J.Feng，1596-1604年。[19] J. Wang和A.切里安：Generalized one-class discriminativesubspaces for anomaly detection，”在IEEE国际计算机视觉会议上，2019年10月。[20] J. Snell，K.Swersky和Z.Richard，"Prototypical networks forfew-shotlearning"，神经信息处理系统进展，2017年。[21] P. Welinder，S. Branson，T.米塔角Wah，F. Schroff，S.Be- longie和P.Perona，众议员CNS-TR-2010-001，2010年。[22] A.克里热夫斯基岛Sutskever和G. E. Hinton，[23] M. Zaheer ， S. Kottur ，S. 拉万巴赫什湾波佐斯河R.Salakhutdinov和A.J. Smola，3391-3401[24] A. 托拉尔巴 K. P. Murphy 和W. T. Freeman ，“Sharingvisualfeaturesformulticlassandmultiviewobjectdetection” ， IEEE Transactions on Pattern Analysis andMachine Intelligence，vol. 29，no.第5页。854[25] A. Santoro，S. Bartunov，M. Botvinick，D. Wierstra，以及T. Lillicrap，1842-1850年。[26] A. 安东尼乌，H。Edwards和A.Storkey，[27] T. Munkhdalai和H.Yu，JMLR。org，2017，pp. 2554-2563[28] Y.什湖，加-地Liu，X. Yu和H. Li，10 090[29] P. Fang，J.Zhou，S.K. 罗伊湖Peterson和M.H

下载后可阅读完整内容，剩余1页未读，立即下载