相似性分析下的高效任务分类迁移学习

192 浏览量更新于2023-10-19 收藏 2.99MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12387表示相似性分析高效任务分类迁移学习Kshitij Dwivedi Gemma Roig新加坡科技设计大学kshitijdwivedi@mymail.sutd.edu.sg， gemmaroig@sutd.edu.sg摘要当可用的标记示例很少时，迁移学习广泛用于深度神经网络模型常见的方法是在类似的任务中采用预先训练的网络这通常是在没有从一组预训练模型中进行预先选择的情况下盲目完成的，或者通过微调在不同任务上训练的一组模型并通过交叉验证选择表现最好的一个。我们通过提出一种评估视觉任务与其任务特定模型之间关系的方法来解决这个问题。我们的方法使用代表相似性分析（RSA），这是常用的大脑数据和模型的神经元反应之间的相关性使用RSA，我们可以得到类似的-通过计算在不同任务上训练的模型之间的相关性来计算任务之间的得分。我们的方法是有效的，因为它只需要预先训练的模型，和一些图像，没有进一步的训练。我们证明了我们的方法的有效性和效率生成任务分类的Taskonomy数据集。接下来，我们评估RSA与任务型任务和新任务上的迁移学习表现的关系：Pascal VOC语义分割。我们的研究结果表明，在具有较高相似性得分的任务上训练的模型显示出更高的迁移学习性能。令人惊讶的是，Pascal VOC语义分割的最佳迁移学习结果并不是从语义分割的预训练模型中获得的，这可能是由于领域差异，并且我们的方法成功地选择了高性能模型。1. 介绍对于执行多个任务并以终身方式学习的人工智能体来说上述设置的解决方案是使用迁移学习。迁移学习允许利用从一个a）、b）、图1. 本文件的目的：a）通过b）发现视觉任务之间的关系，部署迁移学习中的模型选择策略。任务，以促进其他任务的学习，即使当标记的数据是昂贵的或难以获得。[30，3，23，10]。随着深度神经网络（DNN）最近的成功，这些已经成为几乎所有视觉任务的当然DNN的部署已经成为可能，主要是由于大量可用的标记数据，以及计算资源的进步[20，32，14]。对数据的需求是研究人员通过引入迁移学习技术克服的一个DNN中的迁移学习通常包括在类似的任务中采用预先训练的模型，12388域，并微调新任务的参数。例如，[30，10]在ImageNet上使用了一个预训练的模型，并对其进行了微调，以用于Pascal VOC上的对象检测。有了大量的预训练模型（图1a），在各种视觉任务上进行了训练，如何选择适合trans-fer learning的预训练表示并不为了设计模型选择策略，理解任务之间的底层结构和关系是至关重要的（图1b）。如果不同任务之间的关系是已知的，则可以通过使用可用的预训练模型评估不同任务与新任务的相似性排名来执行模型选择在最近的工作中，[34]用完全计算的方法建模了任务之间的关系。他们还介绍了一个名为Taskonomy的数据集，其中包含不同视觉任务的标签，从对象分类到边缘遮挡检测。在本文中，我们使用术语Taskonomy来描述[34]中的方法和数据集任务法成功地计算了任务之间的关系。然而，新任务与现有任务集之间的关系是用迁移学习性能来计算的，这是繁琐且计算昂贵的。在新任务上的学习绩效被称为迁移学习绩效。为了获得所有先前任务与新任务的关系，任务管理方法还需要使用在新任务上训练的模型作为源来计算所有先前任务上这违背了不为新任务从头开始训练模型的目的，并且所有的过程都需要计算，因为它会对所有现有的特定任务模型集重复。在这项工作中，我们通过提供一种替代方法来找到任务之间的关系，以解决上述限制我们提出了一种新的方法来获得任务关系，使用表示相似性分析（RSA）。在计算神经科学中，RSA被广泛用作将大脑反应与计算和人工神经模型进行比较的工具。受RSA在神经科学中的成功[18，4，16，1，5，25，11]的启发，我们研究了RSA在获得任务相似性（图1b）和迁移学习（图1a）中的应用。我们的方法依赖于这样的假设，即执行相关任务的模型的表示与不相关的任务相比将更加相似，我们在分析中验证了这一点。在我们的方法中，我们使用预训练的特定于任务的模型和一些示例来计算相似性得分。因此，我们的RSA方法只需要为所有任务随机选择一些图像的表示来计算相似性，并且我们不需要通过对先前任务的模型进行微调来获得迁移学习性能此外，我们在Taskonomy数据集上的结果表明，任务排名相似性与模型大小无关。使用少量样本训练的小模型，任务显示出与使用所有图像训练的高性能模型相似的结果。这可以节省计算时间和内存，并且与Taskonomy方法相比，它更适合于新我们首先验证了我们的方法在Taskonomy数据集上的迁移学习适用性我们发现，对于17个Taskonomy任务中的16个，根据迁移学习性能，使用RSA选择的最佳模型处于前5名。我们还报告了Pascal VOC语义分割任务的结果，通过分析RSA相似性分数和迁移学习性能的关系。我们的研究结果表明，RSA相似性得分和trans-fer学习性能之间有很强的关系我们注意到，来自Taskonomy数据集的语义分割模型显示出比大多数3D和语义任务更低的我们的研究结果表明，在域转移中，在相同任务上训练的模型可能不是迁移学习的最佳选择，使用我们的相似性得分可以找到更好的模型来实现更好的性能。使用我们的RSA相似性得分方法，我们可以选择具有更好迁移学习性能的模型。2. 相关作品在这里，我们讨论与本文的目标最密切相关的工作，即DNN和Taskonomy中的迁移学习。然后，我们简要介绍了激励我们工作的计算神经科学文献。2.1. 迁移学习深度神经网络（DNN）中通常的迁移学习方法是将在带有注释的大型数据集上预训练的模型作为部分该模型然后，针对新任务，使用反向传播对部分或全部参数进行微调.执行微调是因为对于大多数任务来说，没有足够的注释来从头开始训练DNN，这将导致过拟合。文献中的大多数工作通常从在Imagenet [6]数据集上预训练的模型初始化模型参数以例如，[30]使用Imagenet初始化模型在Pascal VOC上进行对象检测，[23]使用Imagenet初始化模型进行语义分割。在多个作品中已经注意到[24，33，28]，初始化在迁移学习中的性能中起着重要作用。因此，需要一种策略来选择用于初始化的模型。我们提出的基于相似性的排名方法为这个问题提供了一个解决方案，正如我们在本文的其余部分所讨论的那样，解决了Taskonomy [34]的局限性，这是解决DNN中迁移学习模型选择的首批尝试之一。123892.2. 任务论我们的工作与Taskonomy [34]密切相关，其目的是通过计算任务之间的传输性能来找到底层任务结构。为了实现这一目标，他们创建了一个室内场景图像数据集，其中包含可用于26个视觉任务的注释。他们称之为任务字典的任务集涵盖了常见的2D、3D和语义计算机视觉任务。然后，针对任务字典中的每个任务，以完全监督的方式训练任务特定的独立模型。他们通过比较每个任务特定模型的迁移学习性能并使用迁移学习性能的函数计算亲和矩阵来在本文中，我们依赖于预训练模型的特征图的相似性，而不是转移学习性能。因此，我们避免了对预训练模型进行额外的训练以获得迁移学习性能，节省了计算时间和计算量，并且仍然获得了与迁移学习性能的有意义的关系，正如我们将在结果部分看到的那样。2.3. 计算模型和大脑反应在计算神经科学中，表征相似性分析（RSA）被广泛用于将计算或行为模型与大脑反应进行比较。在[18]中，RSA用于计算具有分类模型和计算视觉模型的视觉皮层不同区域中的大脑反应之间的相似性。在[16]中，作者使用了几种无监督和有监督的视觉模型来证明有监督的模型比无监督的模型更好地解释了IT皮层区域，[25]使用RSA将视觉系统的动态与深度神经网络相关联。我们注意到，由于该方法可以用于评估计算模型和大脑数据之间的相似性，因此该方法也可以用于评估两个计算模型之间的相似性。RSA很少用于纯计算领域。只有在[26]中，RSA被引入作为知识蒸馏的损失函数[15]，并且在[27]中，探索了在CIFAR-10 [19]数据集上训练的同一模型中RSA相关性与不同随机初始化种子的一致性。然而，RSA在比较DNN以评估它们之间的相似性方面仍然是未经探索的。我们的工作首次引入了使用RSA作为相似性度量来寻找任务之间的关系，我们相信这为深度学习和计算机视觉开辟了一条新的研究路线。我们使用RSA相似性度量两个应用程序，即任务分类和迁移学习。我们的方法不仅限于这两个应用程序，可以进一步应用于其他计算机视觉问题。例如，在多任务学习中[17，13，7，21，8]，RSA可以用于决定不同的分支位置，图2. 表示相似性分析（RSA）：a）通过计算所选图像的子集中的每个图像对的成对相异性（1-皮尔逊相关性）来生成表示相异性矩阵（RDM）。b）相似性评分：两个模型的低三角形RDM的Spearman相关性（rs）（用·表示）被用作相似性得分。这里，DNN1和DNN2指的是在任务1和任务2上训练的模型。不同的任务，这取决于它们与共享根的不同深度处的表示的相似性3. 表示相似性分析（RSA）图2所示的表征相似性分析（RSA）[18]是计算神经科学领域广泛使用的数据分析框架，用于将大脑活动测量与计算和行为模型定量关联。在RSA中，计算模型和大脑活动测量通过比较表征-活动相异性矩阵而相关。通过比较与每对条件相关联的活动/表示的成对相异性来在这项工作中，我们引入RSA作为量化DNN之间关系的工具，并将其应用于模型选择的我们将在下面的段落中解释获得计算模型（如DNN）的相异性矩阵的步骤12390n（n−1）ΣDNN。这是：r= 1 −6表示相异度矩阵（RDM）我们首先选择图像的子集作为相异度计算的条件。对于一个给定的DNN，我们通过执行模型的前向传递来获得每个图像的表示。对于每一对条件（图像），我们计算相异性得分1−ρ，其中ρ是皮尔逊此子集的RDM然后，由每对条件的相异性分数填充条件，参见图2a。在我们的方法中，为DNN计算的RDM用于获得两个计算机视觉任务之间的相似性。注意，通过使用RDM，不同任务的表示可以具有不同的长度。的相似性是用两个RDM的上三角形或下三角形部分之间的斯皮尔曼相关性（rs）计算的。D2S2 i，其中di是不同的-在图2b中，两个RDM的下三角形部分的第i个元素的行列之间的距离，n是RDM的下三角形部分中的元素的数量斯皮尔曼相关性提供了我们探索了这种相似性分数在获得计算机视觉任务之间的关系[34]和迁移学习中的应用。4. 用于任务分类和迁移学习的RSA在本节中，我们将介绍我们的RSA方法，用于获取计算机视觉任务的任务分类，以及它在迁移学习中的应用。我们通过回答三个问题来证明RSA在获取任务相似性方面的有效性：1）我们研究了在预先训练的特定任务模型上使用RSA是否可以基于任务类型将任务分组到有意义的聚类中; 2）分析性能对计算任务相似性是否重要，或者我们可以使用具有较小次优模型的较小数据子集;以及3）我们调查我们使用RSA获得的相似性是否与迁移学习有关。4.1. 任务相似性是否与任务类型有关我们验证了我们的假设，根据RSA相似的任务被分组到集群根据任务类型，例如，2D，3D，语义。为此，我们从Taskonomy数据集中随机选择500个图像，并从任务字典中选择20个任务然后，我们使用500个采样图像的任务特定表示来计算20个任务中每个任务的预训练模型的RDM，如第3节所通过对预训练的任务特定DNN模型进行前向传递来获得任务特定表示利用每个任务的RDM结果，我们计算每个任务的RDM的成对相关性1我们排除拼图任务，因为它与所有其他任务与其他19个任务进行比较，得到一个20×20的任务相似度矩阵（图3a）。我们从相似性矩阵执行层次聚类，以可视化聚类是否将根据任务类型或一些其他标准来确定任务。我们在实验部分报告了结果，并将其与使用Taskonomy方法获得的聚类进行了我们注意到，与Taskonomy [34]中基于传输性能的度量然而，对称性并不影响任务相似性排名，因为排名中任务的位置是通过相对比较，因此，独立于对称性。4.2. 使用RSA进行排名是否取决于数据集和模型大小？我们分析了基于RSA的任务相似性是否取决于模型大小和训练数据量。直觉上，它应该独立于模型和数据集大小，因为我们的方法是基于相对相似性的。为了研究这一点，我们选择了一个Taskonomy任务的子集（详细信息见附录）。材料部分S1）和训练的较小模型，每个任务一个，具有比由Taskonomy提供的模型更少的参数，并且基于Taskonomy数据的小子集。首先，我们评估我们是否获得了一个类似的任务clustering使用小模型上选定的任务。然后，对于每个小模型，我们在所有20个任务上计算与预训练的Taskonomy模型的相似性得分。使用在相同任务上训练的预训练的Taskonomy模型重复相同的分析，并且我们比较了小型和Taskonomy高性能模型的基于相对相似性的排名。如果小模型和Taskonomy模型的相对排名相似，那么结果表明，对于一个全新的任务，可以训练一个小模型并计算相似性分数来对它们进行排名。4.3. RSA是否与传输性能相关？我们研究基于RSA的任务相似性是否可以应用于迁移学习问题。首先计算Taskonomy亲和矩阵的每一列与去掉对角线后的RSA 矩阵之间的相关性。由于Taskonomy亲和矩阵由原始损失/评估填充，因此它指示每个迁移学习 [34]。接下来，我们选择一个与Taskonomy不同的任务和数据集，并获得在新任务上训练的模型与Taskonomy预训练模型的相似性得分根据相似性得分对预训练的模型进行排名。然后，我们使用预训练的模型来初始化模型，并在初始化的模型之上添加最后一个任务相关层，以训练新任务。将基于传输性能的排序与基于RSA的排序进行比较，以评估传输性能与RSA之间的关系。正如我们将在结果中看到的，RSA可以用来选择高性能的模型进行迁移学习。12391图3. 我们的方法：a）特定于任务的预训练DNN模型（来自Taskonomy）的RSA，以计算任务相似性矩阵，b）在小数据集上训练的小模型（SDNN）的RSA，并与Taskonomy预训练模型进行比较。c）使用Taskonomy预训练模型在新任务（Pascal VOC语义分割）上训练的小模型（SDNNPV）的RSA。5. 实验装置我们首先提供用于实验的数据集的细节5.1. 数据集Taskonomy数据集它包括来自500个建筑物的超过400万个室内图像，具有可用于26个图像任务的注释。其中21个任务是单图像任务，5个任务是多图像任务。在这项工作中，我们选择了20个单一的图像任务，以获得任务相似性1。我们从Taskonomy训练数据集中随机选择了500张图像作为执行RSA的500种不同条件这些图像用作输入以生成不同任务特定模型的表示来计算RDM。为了分析RSA对用于训练的数据集和模型大小的依赖性，我们从包含12138张图像的Taskonomy数据集中选择了一个建筑物（Hanson）我们将它们分为10048个训练图像和2090个验证图像。Pascal VOC语义分割为了评估RSA在迁移学习中的应用，我们选择Pascal VOC [9，12]数据集进行语义分割任务。它有10582张训练图像，1449张验证图像和1456张测试图像的像素级注释我们认为，这个任务是不同的Taskonomy语义分割的图像是从不同的域。5.2. 模型下面，我们提供网络架构Taskonomy模型Taskonomy模型2由编码器和解码器组成。所有任务的编码器都是Resnet-50 [14]模型，后面是卷积层，将编码器输出的通道维度从2048压缩到8。解码器是特定于任务的，并且根据任务而变化。对于分类任务和输出是低维的任务，解码器由2-3个全连接（FC）层组成。对于所有其他任务，解码器由15层组成（除了12层的着色），由卷积和去卷积层组成我们选择编码器的最终压缩输出作为RSA的表示，如[34]所示。在Taskonomy方法中，编码器的压缩输出被用作传递函数的输入，以评估迁移学习性能。选择编码器的压缩输出可以确保所有任务的架构都是相同的，并且表示的差异只会由于模型优化的任务而出现，因为图像对于所有任务都是相同的。我们还探讨了编码器的早期层的表示和任务标签作为计算RSA的相似性得分的表示我们进行这种分析，以研究任务特异性如何在网络的深度上变化，以及任务的标签是否小模型模型的较小版本遵循与Taskonomy类似的风格，由编码器和解码器组成。编码器由4个卷积层组成，每个卷积层的步幅为2，以生成与Taskonomy编码器相同维度为预训练的Taskonomy模型，小模型训练，Taskonomy任务和用于Pascal VOC的模型。2可在https://github.com/StanfordVL/taskonomy12392a) 任务相似度矩阵b) 任务相似树6.1. 使用RSA的图4a显示了使用RSA计算的任务的相似性矩阵，其中压缩编码器输出作为任务表示。回想一下，我们使用RSA计算20×20的相似性矩阵，并为所有随机选择的500张图像提供特定于任务去看-为了了解任务之间的关系，我们对相似度矩阵进行了聚类。图4b中示出了从该聚类得到的树状图。我们可以看到，这些任务聚集在图4. 使用RSA的任务相似性：a）相似性矩阵20个任务组任务。b）使用RDM的聚集聚类。在这个实验中，我们选择了需要全卷积解码器结构的任务，并使用了4个卷积层，每个卷积层后面都有一个上采样层。模型在Taskonomy数据集的Hanson子集上训练。Pascal VOC模型我们使用两种类型的模型用于PascalVOC语义分割任务：1）用预训练的Taskonomy模型计算相似性得分的小模型; 2）用预训练的Taskonomy编码器初始化的模型，以评估迁移学习性能。小模型由编码器和解码器组成。编码器由4个卷积层组成，每个卷积层的步幅为2，以生成最终的特征图，其维度与Taskonomy编码器相同解码器是Atrous Spatial PyramidPooling（ASPP）[2]，其中包含与不同膨胀并行操作的卷积该模型在Pascal VOC训练集上进行训练，学习率为10- 4，迭代次数为20万在Pascal VOC上训练的小模型的编码器表示然后用于计算与Taskonomy预训练模型的相似性。用于评估迁移学习性能的模型由具有与Taskonomy模型类似架构的编码器和ASPP解码器组成。编码器部分由相应任务的预训练的Taskonomy模型初始化实现和评估细节我们使用deeplabv3 [3]的公开可用的tensorflow实现3我们使用RSA Matlab工具箱[29]进行RSA相关分析4.我们参考补充材料了解更多详情。6. 结果在这里，我们提出了RSA计算任务相似性的结果及其与迁移学习性能的关系。我们遵循与[34]中相同的任务类型命名法，并对2D，3D，语义和几何任务进行颜色编码。3https://github.com/sthalles/deeplab v34代码可在https://github.com/kshitijd20/RSA-CVPR19-release2D、3D和语义任务的视觉标准。我们进一步研究了在编码器架构和任务标签的不同深度使用RSA的任务相似性。图5示出了Resnet-50编码器的不同深度的任务相似性矩阵，即块1、2、3和4。4.我们还比较了使用任务标签计算的相似性矩阵。在图5中，我们观察到，在块1处，所有相似性值都非常高，这意味着在初始层处，大多数任务的表示是相似的，而不管任务类型如何。随着我们深入，任务之间的相似性分数开始下降，并且在压缩的编码器输出中，我们可以看到对应于2D、3D和语义任务的三个暗块上述结果进一步验证了我们使用压缩编码器输出作为任务特定表示来评估任务之间的相似性的选择。有趣的是，使用任务标签的聚类相反，标签聚类遵循标签的输出结构，与任务类型无关这是因为标签只包含关于任务的有限信息，并且如何表示输出取决于注释器标准。接下来，我们将我们的方法与Taskonomy ap-proach5进行比较。我们使用层次聚类来直观地比较使用图6中的两种方法获得的树状图。为了量化相似度，我们计算了Taskonomy相似度矩阵与RSA相似度矩阵的相关性（ρ=0.62，rs= 0.65）.结果表明，这两种方法分组的任务成类似的集群，很少有例外。在Taskonomy方法中，房间布局与消失点分组，在3D任务中，我们的方法。使用我们的方法，去噪与修复和自动编码是相关的任务。我们认为我们的结果是可信的。6.2. 模型大小是否影响相似性评分？在这个实验中，我们研究了模型和数据集大小如何影响任务相似性。我们显示了2个任务的相似性排名结果：2D关键点和表面5我们展示了17个任务，因为我们只能访问这些任务的亲和力值。与[34]中图13的对比，请参见补充材料12393区块1区块2区块3block4压缩编码器输出标签图5.使用RSA的任务分类1-5）使用模型中不同深度的特征作为特定任务表示的20个Taskonomy任务的相似性矩阵6）使用标签作为特定任务表示的20个Taskonomy任务的相似性矩阵OursTaskonomy（Zamiretal. 2018年）图6.RSA vs Taskonomy：集群比较。法线（对于其他任务，请参见补充材料中的第S1节）。我们比较了使用在Taskonomy数据的Hanson子集上训练的小模型与在相同任务上训练的Taskonomy模型获得的相似性排名。正如我们从两个任务的比较（图7）中直观观察到的那样，排名看起来相似。对于上述比较中考虑的所有任务，平均相关性都很高（ρ=0.84，rs= 0.85）。接下来，我们还通过将小模型与在其他任务上训练的小模型进行比较来计算任务相似性矩阵我们发现，使用Taskon的任务相似性矩阵（图S3）之间的相关性（ρ = 0.85，rs图7. 使用小模型的任务分类：（a）keypoint2d Taskonomy模型与小型模型的相似性排名。（ b ）表面法线Taskonomy模型与小模型。omy模型和small模型的相关性与前人的相关结果相当上述结果共同提供了强有力的证据，证明模型和数据集大小对相似性得分没有太大影响。6.3. 迁移学习的模型选择我们首先报告了使用RSA进行Taskonomy任务的模型选择，然后是Pascal VOC语义分割任务。Taskonomy我们从Taskonomy数据集中的17个任务中获得RSA和迁移学习之间的高平均相关性（ρ= 0.70，rs我们还在表1中报告，对于17个任务中的16个，RSA为12394Top-1前3Top-57/1714/1716/17表1.根据17个任务的迁移性能，使用RSA为迁移学习选择的最佳模型位于前n个模型中的任务数量迁移学习在任务型学习模式中排名前5。Pascal VOC我们通过选择一个新的任务（Pascal VOC中的语义分割）来展示使用RSA与迁移学习的相似性得分的关系。我们比较了由来自Taskonomy数据集的不同任务特定的预训练模型初始化的模型的迁移学习性能。然后，我们比较了迁移学习性能的排序与相似性得分排序。在这里，我们选择小Pascal模型来计算与Taskonomy模型的相似度在补充部分S3中，我们报告了使用RSA的相似性排名在模型大小、用于RSA分析的图像数量以及不同训练阶段方面的稳健性。我们在图8中显示了基于相似性分数的排名。令人惊讶的是，与在语义（场景类、对象类）和3D任务（遮挡边缘、表面法线）上训练的其他模型相比，来自Taskonomy的语义分割模型显示出较低的相似性得分。大多数2D任务显示出低相似性分数。为了研究相似性分数是否与迁移学习性能相关，我们评估了使用特定任务的Taskonomy模型初始化的模型，使用Pascal VOC训练集进行微调，并比较了PascalVOC测试集的性能表1显示了从一组选定任务初始化的模型的迁移学习性能比较（完整比较请参阅补充材料中的这些任务按其相似性得分的顺序列出。我们从表中注意到，顶部的任务（对象类，场景类，遮挡边缘和语义分割）显示出更高的性能，而自动编码器和消失点性能甚至低于从头开始训练的模型（表2中的随机）。我们注意到，我们的结果与结果（64。81%）在[3]中报告，当他们使用在Imagenet上训练的Resnet-50进行初始化时。结果提供的证据表明，使用RSA获得的相似性得分提供了预期的传输性能的估计。7. 结论我们提出了一种有效的替代方法来获得在不同任务上训练的计算机视觉模型之间的相似性。我们的方法使用RSA，与早期的最先进的方法相反，它适合于仅使用预先训练的模型而无需任何进一步的训练来获得任务相似性相似度排名：Pascal模型的任务型0.80.60.40.20任务DNN图 8. 基于 RSA 的预训练的 Taskonomy 模型的分数与在PascalVOC上训练的小模型的相似性任务（Task）Miou对象类0.6492场景类别0.6529遮挡边缘0.6496语义分割0.6487Autoencoder0.5901消失点0.5891随机（任务编码器）0.6083随机（小型编码器）0.4072表2.Pascal VOC测试集上的迁移学习性能Taskonomy这个问题。我们提供了强有力的证据表明，为了获得相似性，模型和训练数据集的大小并不起重要作用，我们可以使用小模型以及具有少量数据样本的最新模型来获得任务相似性相对排名。这带来了计算和内存节省。我们还展示了使用RSA的任务相似性与迁移学习性能的关系及其适用性。我们在Taskonomy和Pascal VOC语义分割上证明了迁移学习性能与RSA获得的相似性密切相关上述结果表明，对于域转移，在相同任务上训练的模型可能不是最适合迁移学习的模型，我们提出的方法可以帮助迁移学习的模型选择。我们的方法适用于广泛的潜在问题，如多任务模型，体系结构选择.鸣谢这项工作由 SUTD-MIT IDC 赠款（ IDG31800103）资助。K.D.也是由SUTD Presidents Graduate Fellowship资助。我们感谢Taskonomy作者的支持和代码。**********************相关系数语义二维几何3D对象类场景类距离三维边房间布局2.5d段3D关键点法线重着色语义段二维段二维边曲率2D关键点自动编码彩色化去噪z深度修补消失点12395引用[1] Michael F Bonner和Russell A Epstein。大脑皮层对视觉场景的示能性反应的计算机制。计算生物学.[2] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence，40（4）：834[3] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。重新思考语义图像分割的atrous卷积。arXiv预印本arXiv：1706.05587，2017.[4] Radoslaw Martin Cichy ， Aditya Khosla ， DimitriosPantazis，Antonio Torralba，and Aude Oliva.深度神经网络与人类视觉物体识别的时空皮层动力学的比较揭示了层次对应。科学报告，6（6月）：1[5] Radoslaw Martin Cichy ， Dimitrios Pantazis 和 AudeOliva。解决空间和时间上的人类对象识别。自然神经科学，17（3）：455，2014.[6] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。在计算机视觉和模式识别，2009年。CVPR2009。IEEE会议，第248-255页。IEEE，2009年。[7] Thanuja Dharmasiri，Andrew Spek和Tom Drummond。基于cnn的rgb图像深度、法线和曲面曲率联合预测。在智能机器人和系统（IROS），2017年IEEE/RSJ国际会议上，第1505-1512页。IEEE，2017年。[8] Nikita Dvornik，Konstantin Shmelkov，Julien Mairal，and Cordelia Schmid. Blitznet：用于场景理解的实时深度网络。[9] M. 埃弗灵厄姆湖，澳-地凡古尔角，澳-地K. I. 威廉斯，J.Winn和A. 齐瑟曼。 pascal 视觉对象类（ voc ）的挑战。International Journal of Computer Vision，88（2）：303[10] Ross Girshick，Jeff Donahue，Trevor Darrell和JitendraMalik。丰富的特征层次结构，用于精确的对象检测和语义分割。在计算机视觉和模式识别，2014年。[11] Iris IA Groen 、 Michelle R Greene 、 ChristopherBaldassano、Li Fei-Fei、Diane M Beck和Chris I Baker。功能和深度神经网络特征对人脑和大脑中场景的表征相似性的不同贡献。Elife，7：e32962，2018.[12] Bhara thHariharan，PabloArbela' ez，LubomirBourdev，Subhransu Maji，and Jitendra Malik.从反向检测器的语义轮廓在计算机视觉（ICCV），2011 IEEE国际会议上，第991-998页。IEEE，2011年。[13] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick. 面具 R-CNN 。在计算机视觉（ICCV），2017年IEEE国际会议上，第2980IEEE，2017年。[14] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。进行中-IEEE计算机视觉和模式识别会议的论文集，第770-778页，2016年。[15] Geoffrey Hinton Oriol Vinyals和Jeff Dean。提取神经网络中的知识。arXiv预印本arXiv：1503.02531，2015。[16] Seyed Mahdi Khaligh-Razavi和Nikolaus Kriegeskorte。深度监督，但不是无监督，模型可以解释IT皮层表示。PLoS Computational Biology，10（11），2014.[17] Iasonas Kokkinos Ubernet：使用不同的数据集和有限的内存训练通用卷积神经网络，用于低，中，高层次的视觉。[18] 尼古拉斯·克里格斯科特，玛丽克·穆尔，彼得·班德蒂尼.表征相似性分析-连接系统神经科学的分支。Frontiersin systems neu- roscience，2：4，2008.[19] 亚历克斯·克里热夫斯基从微小的图像中学习多层特征。技术报告，Citeseer，2009年。[20] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。神经信息处理系统的进展，第1097-1105页，2012年[21] 李波，沈春华，戴玉超，安东范登亨格尔，何明义。基于深度特征回归和分层crfs的单目图像深度和表面法线估计。在IEEE计算机视觉和模式识别会议论文集，第1119- 1127页[22] Fayao Liu，Chunhua Shen，and Guosheng Lin.用于从单个图像进行深度估计的深度卷积神经场。在IEEE计算机视觉和模式识别会议论文集，第5162-5170页[23] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。在IEEE计算机视觉和模式识别会议的论文集，第3431-3440页[24] Arun Mallya和Svetlana Lazebnik。Piggyback：通过学习屏蔽将多个任务添加到单个固定网络arXiv预印本arXiv：1801.06519，2018。[25] Radoslaw Martin Cichy ， Aditya Khosla ， DimitriosPantazis，and Aude Oliva.脑磁图和深度神经网络揭示的人脑场景表征动力学NeuroImage，153：346[26] 帕特里克·麦克卢尔和尼古拉斯·克里格斯科特。深度神经网络的代表性远程学习Frontiers in ComputationalNeuroscience，10：131，2016。[27] 约翰内斯·梅赫勒，尼古拉斯·克里格斯科特，蒂姆·基茨曼.小心开头：深度神经网络中的中级和高级表示受到权重初始化的强烈影响。在2018年认知计算神经科学会议[28] MathewMonfort，Bolei Zhou，Sarah Adel Bargal，TomYan ， Alex Andonian ， Kandan Ramakrishnan ， LisaBrown，Quanfu Fan，Dan Gutfruend，Carl Vondrick，etal. Moments in time数据集：100万个视频用于事件理解。[29] Hamed Nili ， Cai Wingfield ， Alexander Walther ， LiSu，William Marslen-Wilson，and Nikolaus Kriegeskorte.一12396代表性相似性分析工具箱。 PLoS计算生物学，10（4）：e1003553，2014.[30] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn：利用区域建议网络进行实时目标检测。神经信息处理系统的进展，第91-99页，2015年[31] Karen Simonyan和Andrew Zisserman双流卷积网络用于视频中的动作识别。在Advances in neural informationprocessing systems，第568[32] Karen Simonyan和Andrew Zisserman用于大规模图像识别的非常深的卷积网络。 arXiv 预印本 arXiv ：1409.1556，2014。[33] Ilya Sutskever ， James Martens ， George Dahl ， andGeoffrey Hinton.初始化和动量在深度学习中的重要性。机器学习国际会议，第1139-1147页，2013年[34] Amir R Zamir，Alexander Sax，William Shen。任务管理：任务转移学习。[35] Hengshuang Zhao ， Jianping Shi ， Xiaojuan Qi ，Xiaogang Wang，and Jiaya Jia.金字塔场景解析网络。在IEEE计算机视觉和模式识别会议（CVPR）上，2017年。

下载后可阅读完整内容，剩余1页未读，立即下载