基于任务嵌入的视觉分类任务

120 浏览量更新于2023-10-13 收藏 935KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1i=1TASK 2VEC：元学习Alessandro Achille1，2Michael Lam1Rahul Tewari1AvinashRavichandran1 Subhransu Maji1，3Charless Fowlkes1，4StefanoSoatto1，2Pietro Perona1，5achille@cs.ucla.edu{michlam，tewarir，ravinash，smmaji，fowlkec，soattos，peronapp}@ amazon.com1AWS2加州大学洛杉矶分校3马萨诸塞大学阿默斯特分校4加州大学欧文分校5加州理工学院摘要我们介绍了一种方法来生成矢量表示的视觉分类任务，可用于推理这些任务的性质和它们的关系。给定一个带有真实标签和损失函数的数据集，我们通过“探测网络”处理图像确定与任务之间的可转移性相关的空间嵌入的计算利用深度神经网络（DNN）中的参数（权重）和输出（激活）之间的二元性。正如在复杂的视觉识别任务上训练的DNN的激活是输入图像的丰富表示一样，我们表明相对于特定任务损失的权重梯度是任务本身的丰富表示。给定已定义与探测网络参数相关联的形成矩阵通过数据集D={（xi，yi）}N标签样本的数量Eters 这提供了独立于诸如类的数量的细节并且不需要理解类标签语义的任务。我们证明，这种嵌入是能够预测任务的相似性，匹配我们的直觉不同的视觉任务之间的语义和分类关系。我们证明了这个框架的实用价值的元任务选择一个预先训练的特征提取器的一个新的任务。我们提出了一个简单的元学习框架，用于学习嵌入的度量，该度量能够预测哪些特征提取器在哪些任务上表现良好，而无需实际微调模型。选择具有任务嵌入的特征提取器产生接近最佳可用特征提取器的性能，与穷尽地训练和评估所有可用模型相比，计算工作量显著减少。1. 介绍深度学习在计算机视觉中的成功部分归因于这样一个事实，即为一个任务训练的模型通常可以用于相关的任务。然而，没有一个通用的框架来描述和推理任务之间的关系。我们介绍了任务2VEC嵌入，一种技术来表示的任务作为一个向量空间的元素的基础上Fisher信息矩阵。嵌入的范数与任务的复杂性相关，而嵌入之间的距离捕获任务之间的语义相似性（图11）。①的人。当其他自然距离可用时，例如生物分类中的分类距离，我们发现它们与嵌入距离很好地相关（图2）。2）的情况。我们还引入了一个不对称的距离嵌入-通过预先训练的参考卷积神经网络（我们称之为“探测网络”）来处理数据，并计算网络滤波器参数的对角Fisher信息矩阵（FIM）以捕获任务的结构（Sect.（3）第三章。由于探测器网络的架构和权重是固定的，因此该探测器提供了任务的固定维度表示，其独立于例如，有多少类别我们表明，这种嵌入同时编码任务的3.2）。我们的任务嵌入可以用来推理任务空间和解决元任务。作为一个激励性的例子，我们研究了选择最好的预训练特征提取器来解决新任务的问题（Sect. 4）.当没有足够的数据来训练或微调通用模型时，这是特别有价值的，并且知识的转移是必要的。为了选择合适的预训练模型，我们设计了一个模型和任务在同一向量空间中的联合嵌入，我们称之为模型2VEC。我们将其表述为一个元学习问题，其目标是找到一个嵌入，使得其嵌入接近任务的模型在该任务上表现出良好的性能。我们对从现有计算机视觉数据集构建的1，460个细粒度分类任务库进行了大规模实验这些任务在难度水平上变化，并且在训练集大小上具有数量级变化，模仿现实世界任务的重尾分布我们的实验表明，使用Task2VEC从156个特征提取器的集合中选择一个专家，其性能优于微调通用64306431B在ImageNet上训练的模型我们发现，所选择的专家是接近最优的，而数量级的速度比蛮力选择。2. 背景及相关工作在任务空间上应该使用什么度量？这主要取决于我们正在考虑的元任务。出于模型选择的目的，存在可以考虑的若干自然域距离。按其领域区分的任务可以简单地根据图像统计来理解。由于不同数据集的偏差，有时只需查看几张图像就可以识别基准任务[34]。还考虑了确定哪些汇总统计量是有用的（类似于我们选择的探测网络）的问题。例如[9]训练一个自动编码器，它学习提取固定维度的汇总统计数据，可以准确地再现许多不同的数据集然而，对于一般视觉任务，该域是不够的（检测行人和读取车牌是共享街道场景图像的相同域的不同分类距离。一些任务集合带有基于税收层级的语义相似性的自然概念。我们可以说，对狗的品种进行分类更接近于对猫的分类，而不是对植物物种的分类。当每个任务由层次结构的子树中的一组类别指定时，任务继承与分类法的距离。在这种情况下，我们可以定义并且a→b是当从任务a的解决方案开始然后对任务tb进行微调（利用所选择的过程）时获得的误差。这种任务转移的概念是Taskonomy [39]的重点，它在26个视觉任务的策划集合中探索知识转移，从分类到3D重建，定义在一个共同的领域。它们计算任务对之间的传输距离，并使用结果来计算有向层次结构。向层次结构添加新任务需要计算到集合中所有其他任务的传输距离。相比之下，我们可以直接产生一个任务嵌入在恒定的时间，而无需计算成对的距离。这使得在多个领域的1，460个分类任务的更大库上进行实验变得可行。大量的任务集合和嵌入的廉价成本使我们能够解决新的元学习问题。Fisher Kernels和Fisher Information 我们的工作灵感来自Jaakkola和Hausler [16]。他们提出了K（x（1），x（2））= θlog P（x（1）|θ）TF −1θlog P（x（2）|θ）。这里，P（x|θ）是参数化生成模型，F是Fisher信息矩阵。这提供了一种在区分性学习的背景下利用生成模型的方法Dtax（ta，tb）= mini∈Sa，j∈Sb d（i，j），Fisher核的变体已被广泛用作图像[28，29]和其他结构化数据的表示，例如其中Sa，Sb是任务ta，tb中的类别集合，d（i，j）是分类上的超度量或图距离然而，这样的分类法并不适用于所有任务，并且视觉相似性不需要与语义相似性相关传输距离。另一个抽象域和标签细节的概念是任务之间的转移距离对于指定的DNN架构，这被定义为相对于使用固定初始化（随机或通用预训练）1对任务t b进行简单训练的性能，来自对任务ta预训练模型然后对任务tb进行微调的性能增益。我们写E[a→b] − E[b]蛋白质分子[17]和文本[30]。由于生成模型可以在未标记的数据上学习，因此一些工作已经研究了Fisher内核在无监督学习中的使用[14，31]。[35]学习Fisher核表示上的度量，类似于我们的度量学习方法。我们的方法不同之处在于，我们使用FIM作为整个数据集（任务）的表示，而不是使用模型梯度作为单个数据项的表示。CNN的Fisher信息。我们的方法，任务嵌入使用的Fisher信息矩阵的神经网络作为一个表征的任务。Fisher信息在神经网络中的应用由Amari [6]推广，他提倡使用自然的Dft（ta→tb）=E[]，梯度下降，其利用FIM是统计模型上的参数化独立度量在那里，所有的训练都要接受期望，选定的体系结构、训练过程和网络初始化，b是训练得到的最终测试误差我们不恰当地称之为距离，但它不一定是对称的，甚至不一定是正的。埃尔斯最近的工作集中在适合于这种设置的FIM的近似器上（参见例如， [12，10，25]）。 FIM还被提出用于各种正则化方案[5，8，22，27]，以分析深度网络的学习动态[4]，并克服灾难性遗忘[19]。6432x，yw w w wp（x）p （y|x）wi=1Actinopterygii（n）两栖纲（n）蛛形纲（n）鸟类（n）真菌（n）昆虫（n）哺乳动物（n）软体动物（n）植物（n）原生动物（n）爬行动物（n）类别（m）颜色（m）性别（m）材料（m）领口（m）裤子（m）图案（m）鞋子（m）任务嵌入域嵌入图1：跨大型任务库的任务嵌入（放大后的效果最佳）。（左）从iNaturalist、CUB-200、iMaterialist数据集提取的任务嵌入的T-SNE可视化。颜色表示基于分类或语义类型的任务的真实分组。请注意，从CUB-200中提取的鸟类分类任务嵌入到iNaturalist中的鸟类分类任务附近，iMaterialist与iNat- uralist很好地分开，因为它需要非常不同的任务（服装属性）。请注意，一些类似类型的任务（如颜色属性）聚集在一起，但当底层视觉语义相关时，不同任务类型的属性也可能混合。例如，牛仔裤（服装类型）、牛仔布（材料）和破洞（样式）识别的任务在任务嵌入中是接近的。（右）相同任务的域嵌入的T-SNE可视化（使用平均特征激活）。域嵌入可以区分iNaturalist任务和iMaterialist任务，这是由于两个问题域的差异。但是，iMaterialist上的时尚属性任务都共享相同的域，仅在标签上有所不同。在这种情况下，域嵌入塌陷到一个区域，而不恢复任何合理的结构。Meta学习和模型选择。元学习有着悠久的历史，最近的许多工作致力于元任务，如神经结构搜索，超参数估计和鲁棒的少数学习。模型选择的元学习问题寻求从分类器库中选择来解决新任务[33，2，20]。与我们的方法不同，这些以前的技术通常通过地标或主动测试来解决问题，其中评估几个不同的模型，并通过扩展来估计剩余的这可以被视为完成由每个模型在每个任务上的性能定义的矩阵中的未知条目的问题。在计算机视觉中，这个想法已经被探索用于从大型检测器库中为新类别选择检测器[26，40，38]。3. 基于Fisher信息的任务嵌入给定观察到的输入图像X和未知任务变量y（例如，，标签），深度网络是函数pw（y）族|x）由权重w参数化，训练为了近似后向p（y|x）通过最小化（可能是正则化的）交叉熵损失Hpw，p（y|x）=Ex，y<$p<$[−logpw（y|x）]，其中p（是经验分布u-由两部分组成的工作：特征提取器，其计算输入数据的某种表示z=φw（x），以及“头部”或分类器，其预测分布p（y|z）给出表示z。并非所有网络权重在预测中都同等重要执行任务变量。任务权重的重要性或“信息含量”可以通过考虑权重的扰动w ′ = w + δw并测量原始输出分布p w（y）之间的平均Kullbach-Leibler（KL）散度来量化|x）和扰动一个pw′（y|X）。对于二阶近似，这是ExpKL （ pw′ （ y|x ） pw （ y|x ）） =δwT·F·δw+o（δw2），其中，F是Fisher信息矩阵（F）：F=Elogp（y|x）logp（y|x）TΣ。即，得分（对数似然的梯度）相对于模型参数的协方差。FIM是概率分布空间上的黎曼度量[7]，并且提供了特定参数（权重或特征）包含的关于联合分布 pw（x，y）=pw（y）的信息的度量|x）p（x）. 如果由训练集D={（xi，yi）}N定义的. 是给定任务的分类性能不依赖于有用的，特别是在迁移学习中，考虑网络-强烈地在参数上，相应的条目64332NΣFIM会很小。FIM还与Λ的值相关，满足（参见补充材料）：mogorov）任务的复杂性，可以使用定义任务间学习距离的可计算度量[3]。最后，FIM可以解释为β Λ=F+2Nβλ2I.2N易于计算的交叉熵损失的Hessian的半正定上界，并且在局部最小值处与其一致[24]。特别地，3.1. 任务2使用探针网络的 VEC当网络激活捕获输入图像中的信息时在这种直觉之后，我们使用任务本身来表示任务。然而，在不同网络上计算的FIM并不具有直接可比性。为了解决这个问题，我们使用在ImageNet上预先训练的单个训练完成后，我们计算特征提取器参数的FIM。由于完整的FIM对于基于CNN的丰富探测网络来说是不可管理的大，我们做了两个额外的近似。首先，我们只考虑对角条目，这隐含地假设探测网络中不同滤波器之间的相关性第二，由于每个滤波器中的权重通常不是独立的，因此我们平均同一滤波器中所有权重的Fisher信息因此，βΛF+0（1）可以被认为是FIMF的估计器，在低数据状态下偏向于先前的λ21而不是退化。如果任务是平凡的（损失是恒定的或样本太少），嵌入将与先验λ2I一致，我们将其称为平凡嵌入。该估计量的优点是易于通过随机梯度变量贝叶斯[18]直接最小化损失L（w;Σ）来计算，同时与直接计算相比，对损失景观的不规则性不太敏感，因为损失的值取决于大小为Λ−1的w邻域中的交叉熵。如上所述，我们对每个滤波器而不是每个权重估计一个参数，这实际上意味着当每个 wi 和 wj 属于同一滤波器时，我们约束Λii=Λjj。在这种情况下，可以使用[18]的局部重新参数化技巧来有效地完成L（W; Λ）的优化。3.2. 任务2VEC嵌入的性质我们刚刚定义的任务嵌入有许多有用的属性。为了说明的目的，考虑一个两层S形网络，可以导出其解析表达式（参见补充材料）。特征提取器参数的FIM可以使用克罗内克积写成因此，所得到的表示具有固定的大小，等于F=Ex，yp（x）pw（y| x）[（y − p）2·S xxT]探针网络中的过滤器数量我们称之为嵌入-丁方法任务2VEC。鲁棒Fisher计算。由于FIM是局部量，因此它受到训练损失景观的局部几何形状的影响，这在许多深度网络架构中是高度不规则的[21]，并且在用很少的样本训练时可能太嘈杂为了避免这个问题，而不是直接计算，我们使用一个更强大的估计，利用连接变分推理。假设我们扰动具有高斯噪声N（0，Λ）的网络的权重w（）与精度矩阵Λ一起工作，并且我们想要找到产生良好预期误差的最佳Λ，同时保持接近各向同性先验N（w（，λ2）。也就是说，我们想要找到最小化的ΛL（w;Λ）=EwN （w，Λ）[Hpw，p（y|x）]+β KL（N（0， Λ）N（0，λ2，λ1）），其中H是交叉熵损失，β控制先验的权重。请注意，对于β=1，这简化为变分推理中常用的Evidence下限（ELBO）近似到二阶，最优其中p = pw （y = 1|x ），矩阵S = wwT⊙ zzT⊙（1−z）（1−z）T是分类器权重w和第一层特征激活z的逐元素乘积。它是信息-将此表达式与仅基于嵌入在数据集域 Σn 统计 Σ 上，例如（非中心）方差C0Σ=ExxT输入数据或方差C1=EzzT的功能激活。人能将这种统计量作为代表域嵌入因为它们仅取决于边际分布p（x），而FIM任务嵌入取决于联合分布p（x，y）。这些简单的表达式突出了我们现在描述的Fisher嵌入的一些重要（和更一般）的性质。标签空间的不变性。任务嵌入不直接依赖于任务标签，而仅依赖于预测分布pw（y|x）的训练模型。关于地面实况标签y的信息被编码在权重w中，权重w是任务[5]的充分统计量。特别地，任务嵌入对于排列并且具有固定的维度（特征提取器的滤波器的数量）而与输出空间无关（例如，具有变化k的k路分类）。64343.02.52.01.51.0tance税disance欧共体任务2V0 25 50 75100125邻域大小k百分之六十百分之五十百分之四十百分之三十百分之二十百分之十0%的百分比0.4 0.6 0.8任务嵌入1e8的L1范数图2：物种分类任务之间的距离。（左）通过层次聚类排序的任务相似性矩阵。注意，由任务相似性产生的树状图匹配分类聚类（由颜色条指示）。对于从iNaturalist和CUB中提取的任务，我们将任务之间的余弦距离与它们的分类距离进行比较。随着任务嵌入邻域的大小增加（通过邻域中的任务数量来衡量），我们绘制了任务与邻域中心的平均分类距离。虽然任务距离与分类距离（其曲线以橙色显示）并不完全匹配，但它显示了良好的相关性。差异是由于分类学上接近的物种可能需要非常不同的特征来分类，从而在两个距离概念之间产生不匹配，并且因为对于iNaturalist中的某些任务，提供的样本太少而无法计算良好的嵌入。（右）任务嵌入的L1范数（距原点的距离）与在任务上获得的测试误差之间的相关性编码任务难度。从上面的表达式中可以看出，如果模型对它的预测非常有信心，E[（y-p）2]将变为零。因此，对于给定的特征提取器φ，任务嵌入的范数随任务的难度而缩放。图2（右）显示即使对于在真实数据上训练的更复杂的模型中，FIM规范与测试性能相关。编码任务域。以高置信度分类的数据点x，即，p接近0或1，将比决策边界附近的点对任务嵌入具有更低的贡献，因为p（1-p）在关于任务的结构。因此，我们可以预期两个嵌入之间的距离与任务空间上的自然度量正相关。然而，在嵌入之间使用欧几里德距离存在两个问题：网络的参数具有不同的尺度，并且嵌入的范数受任务的复杂性和用于计算嵌入的样本的数量的影响。对称任务2VEC距离。为了使距离计算鲁棒，我们建议使用归一化嵌入之间的余弦距离：p=1/2。将其与数据的协方差矩阵进行C0，所有数据点对它的贡献相等。而应任务2VEC域上的信息基于数据dsym（Fa，Fb）=d cos.Fa、Fa+FbFbΣ、Fa+Fb在决策边界附近（任务加权域嵌入）。为任务编码有用的功能。FIM取决于损失函数的曲率，对角入口捕获损失对模型参数的敏感性。具体地，在两层模型中，可以看到，如果给定特征与y不相关，则F的对应块为零。相比之下，基于探测网络的特征激活的域嵌入（例如，C1）仅反映哪些特征在数据集上变化，而不指示它们是否与任务相关。3.3. 对称和非对称Task2VEC度量通过建筑，的 Fisher 嵌入其上任务2 VEC 是基于捕获基本面信息其中dcos是余弦距离，Fa和Fb是两个任务嵌入（即，在同一探测网络上计算的Fisher信息的对角线），并且除法是逐元素的。这是一个对称的距离，我们期望捕捉两个任务之间的语义相似性。例如，我们在图中显示。2，它与iNaturalist上物种之间的分类距离相关性很好。另一方面，正是由于这个原因，该距离不适合于诸如模型选择之类的任务，其中（本质上不对称的）转移距离更相关。不对称的TASK2VEC距离。在第一近似中，其不考虑所使用的模型或训练程序，两个任务之间的正迁移取决于两个任务之间的相似性和第一任务的事实上，在一个通用的预培训，但Avg. top-k税距离任务测试错误（%）6435像ImageNet这样的复杂任务通常会产生比从复杂度较低的紧密数据集进行微调更好的结果。在我们的例子中，复杂度可以用与平凡嵌入的距离来衡量。这表明以下不对称分数，再次不恰当地称为dsym（ta→tb）=d sym（ta，tb）−αd sym（ta，t0），其中t0是平凡嵌入，α是超参数。这使得更复杂的模型更加接近。超参数α可以基于元任务来选择。在我们的实验中，我们发现α 的最佳值（ α=0. 当使用在ImageNet上预训练的ResNet-34作为探针网络时，它对元任务的选择是鲁棒的。3.4. 模型2VEC：共同嵌入模型和任务通过构造，Task2VEC距离忽略模型的细节，仅依赖于任务。如果我们知道模型是在什么任务上训练的，我们就可以通过嵌入该任务来表示模型但是，一般情况下，我们可能没有此类信息（例如：黑盒模型或手工构造的特征提取器）。我们还可以在同一任务上训练具有不同性能特征的多个模型。为了对任务和模型之间的联合交互进行建模（即架构和训练算法），我们的目标是学习两者的联合嵌入。我们具体地考虑学习问题用于模型选择的联合嵌入。为了在任务空间中嵌入模型，很可能在该任务上表现良好，我们制定了以下元学习问题：给定k个模型，其模型2VEC嵌入是向量mi=Fi+bi，其中Fi是用于训练模型mi的任务的任务嵌入（如果a可用，否则我们将其设置为零），并且bi是a学习“模型偏差”，其干扰任务嵌入以考虑模型的特殊性。我们通过优化k路交叉熵损失来学习bi，以预测给定任务距离的最佳模型（参见补充材料）：L= E[−log p（m |dasym（t，m0），. . . ，dasym（t，mk））]。在训练之后，给定新的查询任务t，我们然后可以将其最佳模型预测为arg minidasym（t，mi），即嵌入最接近查询任务的模型mi4. 实验我们测试Task2VEC上的大量任务和模型的任务相似性2的范围。我们的实验旨在测试嵌入的定性性质，2这里我们只讨论分类任务，补充描述了像素标记和回归任务它在元学习任务上的表现。我们使用在ImageNet上预训练的现成ResNet-34作为我们的探测网络，我们发现它提供了最佳的整体性能（见第二节）。4.2）。从以下四个主要数据集开始生成任务集合。iNaturalist[36]：每个任务对应于给定分类顺序中的物种分类。例如，每个任务被定义在原始数据集中的图像的单独子集上;也就是说，任务的域是不相交的。CUB-200[37]：我们使用与iNaturalist相同的过程来创建任务。所有任务都是鸟类目内的分类（鸟类分类类），并且通常比iNaturalist 中的相应任务具有更少的训练样本。iMaterialist [1]和DeepFashion [23]：这些数据集中的每个图像都与几个二进制属性（例如，样式属性）和分类属性（例如，颜色、衣服类型、材料）。我们二进制化的分类属性，并认为每个属性作为一个单独的任务。请注意，在这种情况下，所有任务都共享相同的域，并且自然地相互关联。总共有1460个任务（207个iNaturalist，25个CUB，228个iMaterialist，1000个DeepFashion）。虽然一些任务具有许多训练示例（例如，成千上万），大多数仅具有数百或数千个样本。这模拟了真实世界应用程序中数据的厚尾分布。对于模型选择实验，我们组装了一个“专家”特征提取库。这些是在ImageNet上预先训练的ResNet-34模型，然后在特定任务或相关任务的集合上进行微调（详细信息请参见补充材料）。我们还考虑在ImageNet上预先训练的“通用”专家，没有任何微调。最后，对于专家特征提取器和任务的每个组合，我们在专家之上训练线性分类器，以便使用专家来解决所选择的任务。我们总共训练了4，100个分类器，156个特征提取器和1，460个嵌入。生成最终结果的总工作量约为1，300 GPU小时。元任务。在第4.2节中，对于给定的任务，我们的目标是预测，使用Task2VEC，专家特征提取器将产生最佳的分类性能。特别地，我们制定了两个模型选择元任务：iNat + CUB和混合。第一个由50个任务和专家从iNat- uralist和CUB，旨在测试细粒度的专家选择，在一个受限制的领域。第二个包含从所有数据集中提取的26个策划专家和50个随机任务的混合，旨在测试不同领域和任务之间的模型选择（详见补充材料）。4.1. 任务嵌入结果任务嵌入定性地反映了iNaturalist的分类距离。对于从iNaturalist数据集（物种分类）中提取的任务，6436iNat+CUB错误分布和专家选择百分之八十百分之六十百分之四十百分之二十0%的百分比图3：Task2VEC通常会选择最好的可用专家。来自CUB-200数据集（列）的任务的测试误差分布（阴影）的小提琴图，通过在几个专家特征提取器（点）上训练线性分类器获得。大多数专门的特征提取器在给定任务上的表现类似，并且与在ImageNet上预先训练的通用特征提取器相似或更差（蓝色三角形）。然而，在某些情况下，一个精心挑选的专家，在相关的任务训练，可以大大超过所有其他人（长较低的胡须）。基于Task2VEC的模型选择算法可以预测用于任务的专家（红十字，越低越好），并且通常推荐最佳或接近最佳的特征提取器，而无需对所有可用的专家执行昂贵的蛮力训练和评估列按任务嵌入向量的范数排序具有较低嵌入范数的任务具有较低的错误，并且更顺序之间的距离提供了任务之间语义相似性的自然度量在图2中，我们比较了对称的TASK2VEC距离与分类距离，显示出高度一致。iMaterialist 的任务嵌入。在图 1 中，我们显示了iMaterialist和iNaturalist任务的嵌入的t-SNE可视化。任务嵌入产生可解释的结果：在数据集中相关的任务，例如对应于相同分类属性的二进制类，可能最终远离彼此并接近语义上更相似的其他任务（例如，任务嵌入）。牛仔裤类别任务接近撕裂属性和牛仔布材料）。在可视化中，这种非平凡的分组反映在语义相关的附近任务的颜色的混合物中。我们还将Task2VEC嵌入与仅利用输入分布p（x）而不是任务分布p（x，y）的主嵌入基线进行比较。虽然一些任务与它们的域高度相关（例如，，来自iNaturalist的任务），其他任务仅在标签上不同（例如，来自iNaturalist的任务）。，iMaterialist的所有属性任务，其共享相同的衣服域）。因此，域嵌入在iNaturalist上恢复相似的聚类。然而，在iMaterialst上，域嵌入将所有任务折叠到单个无信息集群（由于嵌入计算中的轻微噪声而不是单个点）。任务嵌入编码任务难度。图中的散点图1比较了嵌入向量的范数与每最佳专家的选择（或针对预训练和测试任务重合的情况的任务特定模型正如两层模型的分析所建议的，任务嵌入的规范也与实际任务和模型架构的任务的复杂性相关。4.2. 模型选择给定一个任务，我们的目标是选择一个专家特征提取器，最大限度地提高该任务的分类性能。我们提出两个策略：（1）嵌入任务并选择在最相似的任务上训练的特征提取器，以及（2）联合嵌入模型和任务，并使用学习的度量选择模型（参见第3.4节）。请注意，（1）不使用模型在各种任务上的性能知识，这使得它更广泛地适用，但需要我们知道模型是针对什么任务训练的，并且可能忽略这样一个事实，即在稍微不同的任务上训练的模型仍然可以提供总体上更好的特征提取器（例如，通过较少地过度拟合它们所训练的任务）。在表1中，我们比较了模型选择元任务上的各种建议度量的总体结果。在iNat+CUB和Mixed元任务上，AsymmetricTASK 2VEC模型选择接近地面实况最优，并且在两个机会上以及使用通用ImageNet专家上都有显着改进注意，我们的方法具有O（1）的复杂度，同时搜索测试误差精选专家ImageNet专家6437元任务最优机会ImageNet任务2VEC不对称Task2VEC型号2VECiNat + CUB31.24+59.52%+30.18%+42.54%+9.97%+6.81%混合22.90+112.49%+75.73%+40.30%+29.23%+27.81%表1：模型选择性能。在两个元学习数据集上通过穷举搜索选择最优专家得到的平均误差，当使用更便宜的模型选择方法时，相对误差增加。在ImageNet上预训练的一般模型比随机（偶然）挑选专家的表现更好。然而，使用非对称任务2VEC距离挑选专家可以实现更好的性能，并且可以通过元学习（模型2VEC）进一步改进。时间复杂度O（N）误差分布在图3中，我们详细显示了专家在多个任务上的错误分布。有趣的是，观察到使用大多数专家获得的分类错误集中在某个平均值附近，而很少观察到优于使用一般专家的改进。另一方面，对于每个任务，通常存在几个专家，他们可以在任务上获得比一般专家更好的性能这证实了在解决问题时获得大量专家的重要性。百分之十0%的百分比-10%左右暴力固定ImageNet修复Task2Vec修复ImageNet finetuneTask2Vec微调102 103 104数量的样本执行一个新的任务，特别是当训练数据很少时。Task2VEC提供了一种高效的方法来索引该集合，并为新任务识别合适的专家，而无需使用蛮力搜索。依赖于任务数据集大小。当新的查询任务具有相对较少的训练样本时，选择预先训练的专家尤其重要。图4，我们展示了Task2VEC模型选择的性能如何即使对于样本很少的任务，Task2VEC选择的执行效果也几乎与使用最佳（地面实况）专家一样好。如果除了训练分类器之外，我们还对所选专家进行微调，则误差进一步减小。在所有的数据集大小下，我们看到由ASK2VEC选择的专家显著优于使用通用ImageNet预训练模型的标准基线。探头网络的选择。在表2中，我们表明DenseNet [15]和ResNet架构[11]在用作探针网络以计算TASK2VEC嵌入时比VGG [32]架构表现得更好。5. 讨论Task2VEC是将任务表示为具有几个吸引人的性质的固定维向量。机会前10名+13.95%全部+59.52%VGG-13 DenseNet-121 ResNet-13+4.82%+0.30%+0.00%+38.03%+10.63%+9.97%表2：探针网络的选择。对于探测网络的不同选择，相对于iNat+CUB元任务上的最佳（地面实况）专家选择的误差的平均增加。我们还报告了一个子集的10个任务的性能与最训练样本的数据大小的影响，在选择一个探针架构。图4：任务2VEC的性能优于基线在不同的数据集大小：作为数量函数的4个任务子集上的模型选择性能相对于最优模型se可用于训练的样本选择（橙色虚线）。在Task2VEC选择的固定特征提取器上训练分类器（红色实线）总是比使用通用ImageNet特征提取器（红色虚线）更好微调特征提取器（蓝色曲线）时也是如此。在低数据状态下，由TASK2VEC选择的固定预训练专家甚至优于通用ImageNet特征提取器（蓝色虚线）的昂贵微调。嵌入范数与任务难度相关，并且嵌入之间的余弦距离预测任务之间的自然语义距离（例如，用于物种分类的分类距离）和用于迁移学习的微调距离。具有任务的表示为各种各样的Meta学习任务铺平了道路。在这项工作中，我们专注于选择专家特征提取器以解决新任务，并表明使用TASK2VEC从集合中选择专家可以在使用ImageNet预训练模型的实际基线上提高测试性能，同时仅向训练过程添加少量开销。我们证明，任务2VEC可扩展到数千个任务，使我们能够重建任务空间的拓扑结构，并测试元学习解决方案。目前的实验突出了我们的方法的实用性。即便如此，我们的收集并没有捕捉到人们在现实世界中可能遇到的任务的全部复杂性和多样性。未来的工作应该进一步测试嵌入更大和更多样化的集合的有效性，健壮性和局限性。相对于蛮力的错误（越低越好）6438引用[1] iMaterialist时尚挑战在FGVC5工作--商店，CVPR。https://www.kaggle.com/c/imaterialist-challenge-fashion-2018.6[2] Salisu Mamman Abdulrahman，Pavel Brazdil，Jan N vanRijn，and Joaquin Vanschoren.通过引入运行时间，使用平均排序和主动测试加速算法机器学习，107（1）：79-108，2018。3[3] 亚历桑德罗·阿希尔，格伦·姆本，乔瓦尼·保利尼，还有斯特法诺·索亚托.学习任务之间的动态距离：从柯尔莫哥洛夫复杂性到量子物理学的迁移学习和深度网络权重的信息瓶颈。关于深度学习理论集成的NIPS研讨会（ArXiv：1810.02440），October 2018. 4[4] Alessandro Ruple，Matteo Rovere，and Stefano Soatto.深度神经网络的关键学习期。Proc. 关于Intl.Conf. 学习表征（ICLR）ArXiv：1711.08856，2019。2[5] 亚历桑德罗·阿奇里和斯特凡诺·索亚托。深层表征中的侵入和解开 Journal of Machine Learning Research（ArXiv 1706.01350），19（50）：1二、四[6] 甘利俊一自然梯度在学习中起着有效的神经计算，10（2）：251-276，1998. 2[7] 甘利俊一和长冈浩信息几何方法美国数学学会，13，2000。3[8] Sanjeev Arora 、 Rong Ge 、 Behnam Neyshabur 和 YiZhang。通过压缩方法获得深度网络的更强泛化界。arXiv预印本arXiv：1802.05296，2018。2[9] 哈里森·爱德华兹和阿莫斯·斯托基。成为神经统计学家。arXiv预印本arXiv：1606.02185，2016。2[10] Chelsea Finn，Pieter Abbeel，Sergey Levine.用于深度网络快速适应的模型不可知元学习。arXiv预印本arXiv：1703.03400，2017。2[11] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE Conference on Computer Vision and PatternRecognition，第770-778页，2016中。8[12] 汤姆·赫斯基论多层感知器中的自然学习与剪枝。Neural Computation，12（4）：881-901，2000. 2[13] SeppHochreiter和JürgenSchmidhube r. 平坦极小值。神经计算，9（1）：14[14] Alex D Holub，Max Welling，and Pietro Perona. 结合生成模型和 Fisher 核函数进行物体识别。在 IEEEInternational Conference on Computer Vision，第1卷，第136-143页中IEEE，2005年。2[15] Gao Huang，Zhuang Liu，Laurens Van Der Maaten，andKilian Q Weinberger.密集连接的卷积网络。在IEEE计算机视觉和模式识别会议论文集，2017年。8[16] Tommi Jaakkola和David Haussler。在判别式分类器中利用生成模型。神经信息处理系统进展，第487-493页，1999年。2[17] Tommi S Jaakkola，Mark Diekhans，and David Haussler.使用Fisher核方法检测远程蛋白质同源性。在ISMB，第99卷，第149-158页，1999中。2[18] Diederik P Kingma，Tim Salimans，and Max Welling.变分丢弃和局部重新参数化技巧。神经信息处理系统进展，第2575-2583页，2015年。4[19] James Kirkpatrick，Razvan Pascanu，Neil Rabinowitz，Joel Veness ， Guillaume Desjardins ， Andrei A Rusu ，Kieran Milan，John Quan，Tiago Ramalho，AgnieszkaGrabska- Barwinska，et al.克服神经网络中的灾难性遗忘美国国家科学院院刊，第201611835页，2017年。2[20] Rui Leite，Pavel Brazdil，and Joaquin Vanschoren.通过主动测试选择分类算法模式识别中的机器学习和数据挖掘国际研讨会，第117-131页。Springer，2012. 3[21] Hao Li，Zheng Xu，Gavin Taylor，and Tom Goldstein.可视化神经网络的损失景观。arXiv预印本arXiv：1712.09913，2017。4[22] Tengyuan Liang，Tomaso Poggio，Alexander Rakhlin，and James Stokes. Fisher-Rao度量，几何和神经网络的复杂性。arXiv预印本arXiv：1711.01530，2017。2[23] Ziwei Liu，Ping Luo，Shi Qiu，Xiaogang Wang，andXiaoou Tang. DeepFashion：支持强大的服装识别和检索与丰富的注释。在IEEE计算机视觉和模式识别会

下载后可阅读完整内容，剩余1页未读，立即下载