没有合适的资源?快使用搜索试试~ 我知道了~
10657基于可微凸优化的Kwonjoon Lee2Subhransu Maji1,3Avinash Ravichandran1Stefano Soatto1,41亚马逊网络服务2加州大学圣地亚哥分校3马萨诸塞大学阿默斯特分校4加州大学洛杉矶分校kwl042@ucsd.edu{smmaji,ravinash,soattos}@ amazon.com摘要许多用于少量学习的元学习方法依赖于简单的基本学习器,例如最近邻分类器。然而,即使在少数情况下,区分训练的线性预测器也可以提供更好的泛化能力。我们建议使用这些预测器作为基础学习器来学习少数镜头学习的表示,并表明它们在一系列少数镜头识别基准之间提供了更好的特征大小和性能之间的权衡我们的目标是学习特征嵌入,以及推广为了有效地解决这个问题,我们利用线性分类器的两个属性:凸问题的最优性条件的隐微分和最优化问题的对偶形式。这使我们能够在计算开销适度增加的情况下使用具有改进的泛化的我们的方法名为MetaOptNet,在miniImageNet,tieredImageNet,CIFAR-FS和FC 100少数学习基准上实现了最先进的性能。我们的代码是可用的在线1.1. 介绍从一些例子中学习的能力是人类智能的标志,但它仍然是现代机器学习系统的挑战。这个问题最近受到了机器学习社区的极大关注,其中少量学习被视为元学习问题(例如,[22、8、33、28])。我们的目标是最大限度地减少任务分布中的泛化错误,训练示例很少通常,这些方法由将输入域映射到特征空间的嵌入模型和将特征空间映射到任务变量的基本学习器组成元学习的目标是学习一个嵌入模型,使得基础学习者能够很好地概括任务。虽然存在用于基本学习器的许多选择,但最近邻分类器及其变体(例如,[28,33]1https://github.com/kjunelee/MetaOptNet流行的分类规则是简单的,该方法的规模以及在低数据制度。然而,区别性训练的线性分类器通常优于最近邻分类器(例如,[4,16]),因为他们可以利用通常更丰富的负面示例来学习更好的类边界。此外,它们可以有效地使用高维特征嵌入,因为模型容量可以通过适当的正则化(如权重稀疏或范数)来控制。因此,在本文中,我们研究了线性分类器作为基于元学习的方法进行少量学习的基础学习器该方法如图1所示,其中使用线性支持向量机(SVM)来学习给定一组标记训练示例的分类器,并在来自相同任务的一组新示例上计算泛化误差关键的挑战是计算性的,因为最小化跨任务的泛化误差的元学习目标需要在优化的内环中训练线性分类器(见第3节)。然而,线性模型的目标是凸的,可以有效地求解. 我们观察到,由凸性质产生的两个附加属性允许有效的Meta学习:隐式微分的优化[2,11]和低秩性质的分类器在少数镜头设置。第一个属性允许使用现成的凸优化器来估计最优值 , 并 隐 式 区 分 最 优 性 或 Karush-Kuhn-Tucker(KKT)条件来训练嵌入模型。第二个属性意味着对偶形式中的优化变量的数量远小于少拍学习的特征维数为此,我们结合了可微二次规划(QP)求解器[1],其允许嵌入模型与各种线性分类器的端到端学习,多类支持向量机[5]或线性回归,用于少量分类任务。利用这些属性,我们表明,我们的方法是实用的,并提供了大量的收益超过最近的neighbor分类器在一个温和的增加计算成本(见表3)。我们的方法实现了最先进的性能5路1杆和5杆分类的流行,10658训练实例的嵌入权重线性分类器每类得分(logit)f“SVM损失ℒ������������f“培训实例试验例图1. 概述我们的方法。我们的方法MetaOptNet在1次3向分类任务上的示意图。元训练目标是学习特征嵌入模型fφ的参数φ,当与正则化线性分类器一起使用时,该特征嵌入模型f φ在任务之间很好地泛化(例如,SVM)。任务是一个由少量训练集和测试集组成的元组(详见第3节)。更大的几次基准测试,包括miniImageNet [33,22],tieredImageNet [23],CIFAR-FS [3]和FC 100 [20]。2. 相关工作元学习研究学习者的哪些方面(通常称为偏见或先验)影响任务分布的泛化[26,31,32]。用于少量学习的元学习基于梯度的方法[22,8]使用梯度下降来调整嵌入模型参数(例如,深度网络的所有层)给出训练示例。最近邻方法[33,28]在嵌入上学习基于距离的预测规则。例如,原型网络[28]通过样本的均值嵌入来表示每个类,分类规则基于到最近类均值的距离。另一个例子是匹配网络[33],它使用训练数据的嵌入来学习类密度的核密度估计(该模型也可以被解释为对训练示例的关注形式基于模型的方法[18,19]学习参数化预测器来估计模型参数,例如,一种递归网络,其预测参数类似于参数空间中的几步梯度下降虽然基于梯度的方法是通用的,但随着嵌入维数的增加,它们容易过拟合[18,25]。最近邻方法提供了简单性和规模以及在少数拍摄设置。然而,最近邻方法没有特征选择机制,并且对噪声特征不是很鲁棒。我们的工作是有关反向传播技术,通过优化程序。Domke [6]提出了一种通用方法,该方法基于固定步骤数的展开梯度下降和自动微分计算梯度。然而,优化器的跟踪(即,中间值)需要被存储,以便计算梯度,这对于大的问题来说是禁止的。Maclaurin等人更详细地考虑了存储开销问题。[15]他们在那里研究了深度网络优化轨迹的低精度表示如果优化的argmin可以通过分析找到,例如在无约束二次最小化问题中,那么也可以通过分析计算梯度。这已被应用于学习低层次的视力问题[30,27]。一个并发的和密切相关的工作[3]使用这个想法来学习少数镜头模型使用岭回归基础学习器,其具有封闭形式的解决方案。我们建议读者参考古尔德等人。[11]它提供了区分argmin和argmax问题的技术的优秀调查。我们的方法主张使用线性分类器,可以制定为凸学习问题。特别是,目标是一个二次规划(QP),可以有效地解决,以获得其全局最优值,使用基于梯度的技术。此外,凸问题的解决方案可以通过其Karush-Kuhn- Tucker(KKT)条件来表征,该条件允许我们使用隐函数定理[12]通过学习器反向传播具体而言,我们使用Amos和Kolter [1]的公式,该公式提供了用于计算QP及其梯度的解决方案的高效GPU例程。虽然他们应用这个框架来学习约束满足问题的表示,但它也非常适合少数学习,因为出现的问题大小通常很小。虽然我们的实验主要集中在具有铰链损失和NH2正则化的线性分类器上,但我们的框架可以与其他损失函数和非线性内核一起使用。例如,[3]中使用的岭回归学习器可以在我们的框架内实现,从而允许直接比较。10659我t=1我3. 凸基学习器的元学习我们首先推导出元学习框架的少数拍摄学习以下先前的工作(例如,[28,22,8]),然后讨论如何结合凸基学习器,如线性SVM3.1. 问题公式化列车T3.2. 任务的情景抽样标准的少镜头学习基准测试,如miniIm- ageNet[22],在K路,N镜头分类任务中评估模型。这里K表示类的数量,N表示每个类的训练示例的数量。小镜头学习技术是针对小的N,通常N∈ {1,5}。实际上,这些数据集并不显式包含元组(Dtrain,Dtest),但每个任务给定训练集D={(xt,yt)}t=1,目标i i基本学习器A的一个重要特征是估计预测器y = f(x;θ)的参数θ,使得它很好地推广到未知测试集Dtest={(xt,y t)}Q。人们常常认为,元学习是在元学习过程中“即时”构建的训练阶段,通常被描述为一个插曲。例如,在以前的工作[33,22],一个任务(或情节)Ti=(Dtrain,Dtest)采样如下。 整体训练集和测试集从同一分布并且使用EM将域映射到特征空间我我一组类别是C列. 对于每一集,类别Ci由φ参数化的层理模型fφ。对于基于优化的学习器,通过最小化训练数据的经验损失以及鼓励更简单模型的这可以写首先对来自C序列的包含K个类别的数据进行采样(具有替换);那么训练(支持)集Dtrain={(xn,y n)|n = 1,. . . ,N × K,yn∈ C i}由N每个类别的图像进行采样;最后,测试(查询)如:集合D检验={(xn,y n)|n= 1,. . .,Q×K,yn∈C i}θ=A(Dtrain; φ)= arg minLbase(Dtrain; θ,φ)+R( θ)对每个类别由Q个图像组成的图像进行采样。我们强调我们需要样品而不更换-θment,即, D列车试验=0,以优化生成器-我我(一)其中Lbase是损失函数,例如标签的负对数似然,并且R(θ)是正则化项。正则化在泛化中起着重要的作用,训练数据有限。用于少量学习的元学习方法旨在最小化从任务分布中采样的任务分布的泛化误差。具体地说,这可以被认为是在一系列任务中学习化错误。以同样的方式,元验证集和元测试集分别从Cval和Ctest中动态构建为了衡量嵌入模型3.3. 凸基学习器基础学习者A的选择对等式2具有显著影响。计算θ的基本学习器=T={(D列车,D试验)}I通常被称为Meta-A(Dtrain;φ)必须是有效的,因为期望必须i i i=1训练集 元组(Dtrain,Dtest)描述了一个训练在任务分布上进行计算。此外,对于esti-我我和测试数据集或任务。目的是学习一个嵌入模型φ,最小化给定基础学习者A的任务之间的泛化(或测试)错误。形式上,学习目标是:嵌 入 模 型 的 匹 配 参 数 φ , 任 务 测 试 误 差 LMeta(Dtest;θ,φ)相对于φ的梯度必须被有效地计算。这激励了简单的基础学习器,例如最近的类均值[28],对于这些学习器,最小ETφLMeta(Dtest;θ,φ),其中θ=A(DtrainΣ;φ)。基学习器θ的参数易于计算,目标是可微的。(二)图1展示了单个任务的训练和测试。一旦学习了嵌入模型fφ,就可以在一组保留任务(通常称为作为元测试集)S={(D训练,D测试)}J计算我们考虑基于多类线性分类器(例如,支持向量机(SVM)[5,34],逻辑回归和岭回归),其中基础学习者例如,K类线性SVM可以写成θ={wk}K. 谎言和如:阿马Meta测试j jj=1火车站k=1Singer [5]多类SVM的公式是:θ= A(D列车; φ)= arg min min 1 θ||W ||2+ C环ESL(D ;θ,φ),其中θ=A(D;φ).(三){wk}{n}2k2nkn根据先前的工作[22,8],我们将等式2和等式3中的估计期望的阶段分别称为元训练和元测试在元训练过程中,我们保留了一个额外的元验证集来选择超受wyn·fφ(xn)−wk·fφ(xn)≥1−δyn,k−<$n,<$n,k(四)元学习器的参数并选择最佳嵌入模型。其中,Dtrain={(xn,yn)},C是正则化参数,δ·,·是克10660罗内克δ函数。10661αnk=122αn=1SVM的目标。从图1中,我们看到,为了使我们的系统端到端可训练,我们要求SVM求解器的解应该相对于其输入是不同的,即, 我们应该能够计算{θ}N×K。SVM的目标是一致的,φ使人烦恼,并具有独特的最佳效果。 这允许使用隐函数定理(例如,[12,7,2])在最优性(KKT)条件下获得必要的梯度。为时间复杂度为O(d2),因为在前向传递中已经计算了因子分解.当嵌入fφ的维数很大时,前向传递和后向传递都是昂贵的。双重公式。 目标的双重表述等式4中的等式允许我们解决对嵌入维度的不良依赖性,并且可以写为如下。让为了完整性,我们推导出定理的形式,Σw(αk)=αkf(x)(九)优化问题,如[2]中所述考虑凸优化问题:极小化f0(θ,z)knφ nn我们可以在对偶空间中进行优化:当f(θ,z)≤0时h( θ,z)= 0.(五)Σ最大值−{αk}1 Σ ΣΣ||2+ yn||2+yn22NKn其中向量θ∈Rd是问题,向量z∈Re是受αyn≤ C,αk≤0 kyn,(十)n n最优化问题,在我们的例子中是{fφ(xn)}我们可以通过求解下面的拉格朗日函数的鞍点(θ,λ,ν)来优化目标L(θ,λ,ν,z)= f0(θ,z)+ λ Tf(θ,z)+ ν Th(θ,z). ( 六)换句话说,我们可以通过求解g(θ,λ,ν,z)=0来获得目标函数的最优值,其中θL(θ,λ,ν,z)g(θ,λ,ν,z)= λdiag(λ)f(θ,z)λ.(七)h( θ,z)给定一个函数f(x):Rn→Rm,记Dxf(x)为其雅可比行列式∈Rm×n.定理1(FromBarr att[2])设g(θ,λθ,νθ,z)=0.当所有的导数都存在时,Dzθ=−Dθg(θ,λ,ν,z)−1Dzg(θ,λ,ν,z).(八)这个结果是通过将隐函数定理应用于KKT条件而得到的。因此,一旦我们计算出最优解θ,我们就可以得到θ相对于输入数据的梯度的封闭形式这消除了对通过整个优化轨迹反向传播的需要,因为解不依赖于Σα k=0 <$n。K这导致对偶变量{αk}K上的二次规划(QP)。我们注意到,优化变量的大小是训练样本的数量乘以类的数量。这通常比少数学习的特征维度的大小小得多我们解决使用[1]的等式10的双QP,其实现基于GPU的可微分QP求解器。在实践中(如表3所示),QP求解器所花费的时间与使用ResNet-12架构计算特征所花费的时间相当,因此每次迭代的总体速度与基于简单基础学习器的速度没有显著差异,例如原型网络中使用的最近类原型(平均值)[28]。与我们的工作同时,Bertinetto等人。[3]采用岭回归作为基本学习器,具有封闭形式的解决方案。尽管岭回归可能不是最适合分类问题的,但他们的工作表明,通过最小化关于独热标签的平方误差来训练模型在实践中效果很好由此产生的岭回归优化也是一个QP,可以在我们的框架内实现为:由于其独特性,轨迹或初始化这也节省了内存,这是凸问题优于一般优化问题的一个优点Σ最大值−{αk}1 Σ||2−||2−2KλΣ||αk||2+双极n2nKn时间复杂度向前传递(即,使用我们的方法的等式4的计算)需要QP求解器的解,其复杂度缩放为O(d3),其中d是优化变量的数量。这个时间是通过分解原对偶Σ10662内点法所需的KKT矩阵来控制的。向后传递需要定理1中的等式8的解,其复杂度为:(十一)其中Wk被定义为等式9。第4节中线性SVM和岭回归的比较显示了线性SVM形成的轻微优势。3.4. Meta学习目标为了衡量模型的性能,我们评估了从以下数据中采样的测试数据的负对数似然性:10663k=1同样的任务。因此,我们可以将等式2的元学习目标重新表达为:LMeta( D检验;θ,φ,γ)==0。1.一、与[28]不同的是,他们在元训练中使用了比元测试更高的方式分类,我们在最近的工作之后的两个阶段中都使用了5方式分类Σ(x,y)∈D检验[−γwy·fφ(x)+logΣexp(γwk·fφ(x))]K(十二)[10、20]。每个类包含6个测试(查询)样本,在元测试期间进行元训练和15个测试样本。我们的元训练模型是基于元验证集上的5路5次测试准确度选择的。其中θ=A(Dtrain;φ)={wk}Kγ是一个可学习的元训练射击。 对于原型网络,我们匹配尺度参数先前在少数镜头学习方面的工作[20,3,10]建议通过可学习的尺度参数γ来调整预测得分,在基于最近类均值和岭回归的学习器下提供更好的性能。我们的经验发现,插入γ是有益的元学习与SVM的基础学习以及。虽然测试损失的其他选择,如铰链损失,是可能的,对数似然在我们的实验中工作得最好。4. 实验我们首先描述我们实验中使用的网络架构和优化细节(第4.1节)。然后,我们展示了标准少次分类基准的结果,包括ImageNet(第4.2节)和CIFAR(第4.3节)的衍生物,然后详细分析了使用相同嵌入网络和训练设置的各种基础学习器对准确性和速度的影响(第4.4-4.6节)。4.1. 实现细节元学习设置。我们在实验中使用ResNet-12网络[20,18]。令Rk表示由三个{3×3卷积与k个滤波器,批量归一化,Leaky ReLU(0.1)}组成的残差块;令MP表示2×2最大池化。我们使用DropBlock正则化[9],一种结构化Dropout的形式。令DB(k,b)表示具有保持速率=k和块大小=b的丢弃块层。ImageNet衍生产品的网络架构是:R64-MP-DB(0.9,1)-R160-MP-DB(0.9,1)-R320-MP-DB(0.9,5)-R640-MP-DB(0.9,5),而网络 架构 使用 为 CIFAR 衍生品是:R64-MP-DB(0.9,1)-R160-MP-DB(0.9,1)-R320-MP-DB(0.9,2)-R640-MP-DB(0.9,2).我们不在最后一个残差块之后应用全局平均池化。作为优化器,我们使用SGD,Nesterov动量为0.9,权重衰减为0.0005。每个小批量包含8集。该模型进行了60个epoch的元训练,每个epoch由1000个episodes组成。学习率最初被设置为0.1,然后在时期20、40和50改变为0.006、0.0012和0.00024,重新设置。”[10]这是一个实践在元训练期间,我们采用水平翻转,随机裁剪和颜色(亮度,对比度和饱和度)抖动数据增强,如[10,21]所示。对于使用ResNet-12的迷你ImageNet实验,我们使用标签平滑,元训练镜头到元测试镜头,惯例[28,10]。对于SVM和岭回归,我们观察到保持元训练射击高于元测试射击导致更好的测试精度,如图2所示。因此,在元训练过程中,我们使用ResNet-12将miniImageNet的训练镜头设置为15;具有4层CNN的miniImageNet为5(在表3中); tieredImageNet为10;CIFAR-FS为5; FC 100为15。基础学习者设置。对于线性分类器训练,我们使用二次规划(QP)求解器OptNet [1]。将SVM的正则化参数C设置为0。1.一、岭回归的正则化参数λ设为50。0的情况。 对于最近类均值(原型网络),我们使用相对于特征维度归一化的平方欧几里德距离。提前停止。虽然我们可以运行优化器直到收敛,但在实践中,我们发现运行QP求解器进行固定次数的迭代(只有三次)在实践中效果很好。早期停止作为一个额外的规则化器,甚至导致稍微好一点的性能。4.2. ImageNet衍生产品的实验miniImageNet数据集[33]是少数图像分类基准的标准基准,包括从ILSVRC-2012中随机选择100个类别[24]。这些类被随机分为64、16和20类,分别用于元训练、元验证和元测试。每个类包含600个大小为84×84的图像。由于原始文档[33]中没有发布类拆分,因此我们使用[22]中提出的常用拆分tieredImageNet基准测试[23]是ILSVRC-2012 [24]的一个更大的子集,由608个类组成,分为34个高级类别。这些被分为20类元训练,6类元验证和8类元测试。这分别对应于元训练、元验证和元测试的351、97和160个该数据集旨在最大限度地减少分割之间的语义相似性。所有图像的大小为84 ×84。结果表1总结了5路mini-ImageNet和tieredImageNet上的结果。我们的方法达到了-5路miniImageNet和分层ImageNet基准测试的最先进性能。请注意,LEO [25]除了使用WRN-28-10骨干网络之外,还使用编码器和关系网络来产生样本相关的初始化。10664表1. 与先前在miniImageNet和tieredImageNet上的工作进行比较。miniImageNet和tieredImageNet元测试分割的平均少数分类准确率(%)和95%置信区间a-b-c-d表示在每层中具有a、b、c和d个滤波器的4层卷积网络结果[22]。†使用元训练集和元验证集的联合来元训练元学习者。“RR” stands for ridgeminiImageNet 5向分层ImageNet 5向模型骨干单次拍摄5次射击1发5发[22]第二十二话64-64-64-6443.44 ±0.7760.60 ±0.71- -[33]第三十三话64-64-64-6443.56 ±0.8455.31 ±0.73- -MAML [8]32-32-32-3248.70 ±1.8463.11 ±0.9251.67±1.81 70.30 ± 1.75原型网络[28]64-64-64-6449.42 ±0.7868.20 ±0.6653.31±0.89 72.69 ± 0.74[29]第二十九话64-96-128-25650.44 ±0.8265.32 ±0.7054.48±0.93 71.32 ± 0.78R2D2 [3]96-192-384-51251.2 ±0.668.8 ±0.1- -[14]第十四话64-64-64-6455.51 ±0.8669.86 ±0.6559.91±0.94 73.30 ± 0.75蜗牛[18]ResNet-1255.71 ±0.9968.88 ±0.92- -[10]第十话64-64-128-12856.20 ±0.8673.00 ±0.64- -AdaResNet [19]ResNet-1256.88 ±0.6271.94 ±0.57- -TADAM [20]ResNet-1258.50 ±0.3076.70 ±0.30- -激活参数†[21]WRN-28-1059.60 ±0.4173.74 ±0.19- -[25]第二十五话WRN-28-1061.76 ±0.0877.59 ±0.1266.33±0.05 81.44 ± 0.09MetaOptNet-RR(我们的)ResNet-1261.41 ±0.6177.88 ±0.4665.36±0.71 81.34 ± 0.52MetaOptNet-SVM(我们的)ResNet-1262.64 ±0.6178.63 ±0.4665.99±0.72 81.56 ± 0.53MetaOptNet-SVM-tranaval(我们的)†ResNet-1264.09 ±0.6280.00 ±0.4565.81±0.74 81.75 ± 0.53梯度下降法TADAM [20]为每个卷积层-我们还注意到[25,21]预训练WRN-28-10特征提取器[36],以联合分类迷你ImageNet元训练集中的所有64个类;然后在元训练期间冻结网络[20]利用类似的标准分类战略:它们在少量分类任务(5向)和标准分类任务(64向)上共同训练特征嵌入。相比之下,我们的系统是元训练的端到端,显式地训练特征提取器,使其能够很好地处理正则化线性分类器的少量学习任务这个策略让我们可以清楚地看到元学习的效果我们的方法可以说是更简单,并实现了强大的性能。miniImageNet 5路8075706560551 5 10 15元训练投篮CIFAR-FS 5路84828078767472701 5 10 15元训练投篮807570656055.052.550.047.545.042.540.037.5tieredImageNet 5向1 5 10 15元训练投篮FC100 5路1 5 10 15元训练投篮4.3. CIFAR衍生物的实验CIFAR-FS数据集[3]是最近提出的一种少拍图像分类基准,由CIFAR-100 [13]中的所有100个类别组成。这些类被随机分为64、16和20,用于元训练、元验证,和元测试。每个类包含600个大小为32 ×32的图像。FC 100数据集[20]是从CIFAR-100 [13]派生的另一个数据集,包含100个类,这些类被分组为20个超类。这些类被划分为来自12个超类的60个类用于元训练,来自4个超类的20个类用于元验证,以及来自4个超类的20个类用于元测试。目标是最小化与目标图2. 在miniImageNet元测试集上测试准确率(%),使用不同的元训练镜头。误差条表示95%置信区间。岭回归基学习器(MetaOptNet-RR)在1次迭代中收敛; SVM基础学习器(MetaOptNet-SVM)运行3次迭代。关于tieredImageNet 每个类包含600个大小32 ×32。结果表2总结了5路分类任务的结果,其中我们的方法MetaOptNet-SVM 实 现 了 最 先 进 的 性 能 。 在 较 难 的FC100数据集上,各种基学习器之间的差距更为显著,这突出了复杂基学习器在少样本学习环境中的优势。MetaOptNet支持向量机准确度(%)准确度(%)准确度(%)准确度(%)10665表2. 与CIFAR-FS和FC 100上先前工作的比较。CIFAR-FS和FC 100上的平均少拍分类准确率(%),置信区间为95%。a-b-c-d表示在每层中具有a、b、c和d个滤波器的4层卷积网络。CIFAR-FS结果来自[3]。†FC 100结果来自[20]。使用元训练集和元验证集的联合来元训练元学习者。“RR” stands for ridgeCIFAR-FS 5路FC 100 5路模型骨干单次拍摄5次射击1发5发[8]第八届全国政协委员32-32-32-3258.9 ±1.971.5 ±1.0- -原型网络[28]64-64-64-6455.5 ±0.772.0 ±0.635.3±0.6 48.6 ± 0.6[29]第二十九话64-96-128-25655.0 ±1.069.3 ±0.8- -R2D2 [3]96-192-384-51265.3 ±0.279.4 ±0.1- -TADAM [20]ResNet-12--40.1±0.4 56.1 ± 0.4ProtoNets(我们的骨干)[28]ResNet-1272.2±0.783.5 ±0.537.5±0.6 52.5 ± 0.6MetaOptNet-RR(我们的)ResNet-1272.6±0.784.3±0.540.5±0.6 55.3 ± 0.6MetaOptNet-SVM(我们的)ResNet-1272.0±0.784.2±0.541.1±0.6 55.5 ± 0.6MetaOptNet-SVM-tranaval(我们的)¶ResNet-1272.8±0.785.0±0.547.2±0.6 62.5 ± 0.6表3. 基础学习者和嵌入式网络架构的影响。miniImageNet和tieredImageNet上的平均少拍分类准确率(%)和每集正向推理时间(ms),具有不同的基础学习器和骨干架构。前一组结果使用标准的4层卷积网络,每层使用64个过滤器[33,28],而后者使用12层ResNet,没有全局平均池化。“RR” stands for ridgeminiImageNet 5向分层ImageNet 5向1发5发1发5发模型加速度(%)时间(ms)加速(%)时间(ms)加速(%)时间(ms)加速(%)时间(ms)4层转换(特征维度=1600)原型网络[17,28]MetaOptNet-RR(我们)MetaOptNet-SVM(我们)53.47±0.6353.23±0.5952.87±0.576±0.0120±0.0328±0.0270.68±0.4969.51±0.4868.76±0.487±0.0227±0.0537±0.0554.28±0.6754.63±0.6754.71±0.676±0.0321±0.0528±0.0771.42±0.6172.11±0.5971.79±0.597±0.0228±0.0638±0.08ResNet-12(特征尺寸=16000)原型网络[17,28]59.25±0.6460±1775.60±0.4866±1761.74±0.7761±1780.00±0.5566±18MetaOptNet-RR(我们的)61.41±0.6168±1777.88±0.4675±1765.36±0.7169±1781.34±0.5277±17MetaOptNet-SVM(我们的)62.64±0.6178±1778.63±0.4689±1765.99±0.7278±1781.56±0.5390±174.4. 基础学习者之间的比较表3显示了我们为两种不同的嵌入架构改变基础学习器的结果 当我们使用一个标准的4层卷积网络,其中特征维度较低(1600)时,我们没有观察到采用判别式分类器进行少量学习的实质性好处。事实上,最近类均值分类器[17]被证明在低维特征下工作良好,如图所示Prototypical Networks [28].然而,当嵌入维数更高(16000)时,支持向量机比其他基本学习器产生更好的少镜头精度。因此,当高维特征可用时,正则化线性分类器提供鲁棒性额外的好处是在一个温和的增加COM-推定成本对于ResNet-12,与最近类均值分类器相比,脊回归基础学习器的额外开销约为13%,SVM基础学习器的额外开销约为30-50%。从图2中可以看出,我们的模型在1次和5次射击方案上的性能通常随着元训练射击的增加而增加这使得该方法更实用,因为我们可以对所有元测试镜头进行一次高镜头的元训练嵌入正如FC100实验中所指出的,当测试和训练之间的语义重叠较小时,SVM基础学习器似乎是有益的。我们假设训练数据的类嵌入比测试数据的类嵌入更紧凑(例如,参见[35]);因此,基础学习器中的灵活性允许对噪声嵌入的鲁棒性,并改进了泛化。1066663.062.562.061.561.060.5miniImageNet 5向1次拍摄1 23迭代79.0078.7578.5078.2578.0077.7577.5077.25miniImageNet 5-way 5-shotMetaOptNet支持向量机MetaOptNet网络分析1 2 3迭代图3. 在miniImageNet元测试集上测试精度(%),QP求解器的迭代次数不同。误差条表示95%置信区间。4.5. 减少Meta过拟合增强元训练集。尽管有采样任务,但在元训练结束时,ResNet- 12的MetaOptNet-SVM在所有元训练数据集 上 实 现 了 近 100% 的 测 试 准 确 率 , 除 了tieredImageNet。为了减轻过拟合,类似于[25,21],我们使用元训练和元验证集的联合来元训练嵌入,保持超参数,如epoch的数量,与之前的设置相同。特别是 , 我 们 在 mini-ImageNet 的 21 个 epoch 、tieredImageNet的52个epoch、CIFAR-FS的21个epoch和FC 100的21个epoch之后终止了元训练。表1和表2显示了增强元训练集的结果,表示为MetaOptNet-SVM-tranaval。在minImageNet、CIFAR-FS和FC 100数据集上,我们观察到测试准确率的提高。在tieredImageNet数据集上,差异可以忽略不计。我们怀疑这是因为我们的系统还 没 有 进 入 过 拟 合 的 状 态 ( 事 实 上 , 我 们 在tieredImageNet元训练集上观察到了94%的测试准确率我们的研究结果表明,元学习嵌入更多的元训练各 种 正 则 化 技 术 。 表 4 显 示 了 正 则 化 方 法 对 使 用ResNet-12的MetaOptNet-SVM的影响。我们注意到,早期的少量学习工作[28,8]没有使用任何这些技术。我们观察到,在不使用正则化的情况下,ResNet-12的性能降低到表3所示的每层64个过滤器的4层卷积网络的性能。这表明了正则化对于元学习者的重要性。我们希望通过引入新的正则化方法,可以进一步提高4.6. 对偶优化的效率为了了解双重优化是否确实有效和高效,我们使用QP求解器的不同迭代来测量元测试集的精度。QP求解器[1]的每次迭代涉及通过KKT矩阵的LU分解结果如图3所示。QP求解器仅在一次迭代中就达到岭回归目标的最优值替代地表4. 消融研究。各种正则化技术提高了测试精度正则化技术提高了5路miniImageNet基准测试的测试精度(%)。我们使用MetaOptNet-SVM和ResNet-12来获得结果。'数据八月',“La- bel Smt.”,和可以使用其封闭形式的解决方案,如[3]中所使用的此外,我们观察到,对于1次任务,QP SVM求解器在1次迭代中达到最佳精度,尽管我们观察到KKT条件尚未完全满足。对于5次任务,即使我们运行QP SVM求解器进行1次迭代,我们也比其他基础学习器获得了更好的精度当SVM求解器的迭代限于1次迭代,对于1次任务,1次发作需要69± 17 ms,对于5次任务,需要80± 17 ms,这与岭回归求解器的计算成本相当(表3)。这些实验表明,解决支持向量机和岭回归的双重目标,在少量拍摄的情况下非常有效。5. 结论在本文中,我们提出了一个元学习方法与凸基学习器的少镜头学习。可以利用对偶公式和KKT条件来实现计算和存储高效的元学习,这特别适合于少数学习问题。线性分类器提供了比最近邻分类器更好的泛化能力,但计算成本略有增加(如表3所示)。我们的实验表明,正则化线性模型允许显着更高的嵌入维数,减少过拟合。对于未来的工作,我们的目标是探索其他凸基学习器,如内核支持向量机。这将允许随着更多的训练数据变得可用于任务而逐渐增加模型容量鸣谢。作者感谢Yifan Xu、Jimmy Yan、Weijian Xu、Justin Lazarow和Vijay Mahadevan进行了有价值的讨论。此外,我们感谢匿名评论者的有益和建设性的意见和建议。最后,我们要感谢Chuyi Sun对图1的帮助。MetaOptNet的支持向量机MetaOptNet的支持向量机数据权重下降标签变大八月衰减块Smt.数据1发5发准确度(%)准确度(%)51.1370.88C55.8075.76C56.6573.72CC60.3376.61CCC61.1177.40CCCC62.6478.63CCCCC64.0980.0010667引用[1] Brandon Amos和J.济科·科尔特OptNet:微分优化作为神经网络的一层。ICML,2017。一、二、四、五、八[2] 谢恩·巴拉特。关于凸优化问题解的可微性。arXiv:1804.05098,2018。1、4[3] LucaBertinetto,Jo aoF. 菲利普·H·亨里克斯S. T或r,还有安德里亚·维达尔迪。元学习与可微封闭形式求解器。2019年,在ICLR。二、四、五、六、七、八[4] 里奇·卡鲁阿纳,尼科斯·卡兰帕齐阿基斯,艾努尔·耶西-纳莉娜.高维空间中监督学习的实证评估。InICML,2008. 1[5] 科比·克莱默和约拉姆·辛格多类核向量机的算法实现。J.马赫学习. Res. ,2:265-292,Mar. 2002. 第1、3条[6] 贾斯汀·多姆克基于优化建模的通用方法。2012年,在AISTATS。2[7] 阿森湖Dontchev和R.泰瑞尔·罗克费勒隐函数与解映射。 施普林格Monogr. 数学,2009年。4[8] Chelsea Finn,Pieter Abbeel,Sergey Levine.用于深度网络快速适应的模型不可知元学习。ICML,2017。一二三六七八[9] Golnaz Ghiasi , Tsung-Yi Lin , and Quoc V. 乐Dropblock:卷积网络的正则化方法。NeurIPS,2018。5[10] 斯派罗·吉达里斯和尼科斯·科莫达基斯动态少镜头视觉学习而不忘。在CVPR,2018年。五、六[11] Stephen Gould,Basura Fernando,Anoop Cherian,PeterAnderson,Rodrigo Santa Cruz,and Edison Guo.参数化argmin与argmax问题的区分及其在双层最佳化上的应用。arXiv预印本arXiv:1607.05447,2016年。一、二[12] Steven G. Krantz和Harold R. Parks. 隐函数定理:历史
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功