没有合适的资源?快使用搜索试试~ 我知道了~
深度模型的知识转移方法DEPARA及其应用
39220DEPARA:用于深度知识可转移的深度归因图0宋杰 1 � ,陈奕鑫 1 � ,叶静文 1 ,王新超 2 ,沈成超 1 ,毛峰 3 ,宋明丽 101 浙江大学,2 斯蒂文斯理工学院,3 阿里巴巴集团0摘要0探索预训练深度神经网络(PR-DNNs)中编码的知识之间的内在相互关系,揭示它们的相互可转移性,从而使得可以将一个任务中学到的知识转移到另一个任务中,以减少后者的训练工作量。本文提出了DEPARA(DEeP At- tributiongRAph)来研究从PR-DNNs中学到的知识的可转移性。在DEPARA中,节点对应于输入,并通过其相对于PR-DNN的输出的矢量化归因图来表示。边表示输入之间的相关性,并通过从PR-DNN中提取的特征的相似性来衡量。两个PR-DNNs的知识可转移性通过它们对应的DEPARAs的相似性来衡量。我们将DEPARA应用于转移学习中的两个重要但鲜为人知的问题:预训练模型选择和层选择。通过大量实验来证明所提方法在解决这两个问题上的有效性和优越性。本文中重现结果的代码、数据和模型可在https://github.com/zju-vipa/ DEPARA上获得。01. 引言0在大量标记数据[5]和发展中的先进深度模型[9]的推动下,人工智能领域近年来取得了显著进展。然而,在现实场景中,我们经常遇到的困境是手头的问题只有有限的标记训练数据可用。在这种情况下的常见做法是将由专门的研究人员或行业开源的预训练模型转移到解决我们自己的问题上。然而,在这条道路上又出现了另一个问题:面对无数具有不同层的PR-DNNs,应该转移哪个模型和哪个层以获得最佳效果?0� 同等贡献。0目前,模型选择通常是通过盲目采用ImageNet预训练模型[21,15]和启发式地进行层选择来完成的。然而,ImageNet预训练模型并不总是能够为所有任务产生令人满意的性能,特别是当任务与ImageNet定义的任务明显不同时[2,28]。同样,启发式选择的层也可能表现不佳,因为用于转移的最佳层取决于诸多因素,如任务相关性和目标数据的数量。0为了解决上述问题,我们需要探索和揭示来自PR-DNNs的深度知识之间的潜在可转移性。最近,Zamir等人[33]在这个方向上进行了开创性的工作。他们提出了一种完全计算的方法,称为taskonomy,用于衡量任务之间的可转移性。然而,taskonomy存在三个不可忽视的限制,极大地阻碍了其在实际应用中的应用。第一个限制是计算成本过高。对于给定的任务字典计算成对相关性的计算成本将随任务数量的增加而呈二次增长,当任务数量变大时,计算成本将过高。第二个限制是它采用转移学习来建模任务之间的相关性,这仍然需要相当数量的标记数据来训练转移模型。最后,taskonomy只考虑了不同模型或任务之间的可转移性,而忽视了不同层之间的可转移性,我们认为这对于成功的转移也是重要的。0衡量来自不同PR-DNNs的可转移性的主要障碍是深度模型的“黑盒”性质。由于来自不同PR-DNNs的知识(例如特征)是无法解释的,并且实际上处于不同的嵌入空间中,直接计算可转移性非常棘手。在本文中,为了推导出编码在PR-DNNs中的知识的可转移性,我们提出了DEeP AttributiongRAph(DEPARA)来表示在PR-DNNs中学到的知识。在DEPARA中,39230节点对应于输入,并通过其相对于PR-DNN的输出的矢量化归因图[25, 3,24]来表示。边表示输入之间的相关性,并通过它们在PR-DNN的嵌入空间中的相似性来衡量(如图1所示)。由于不同PR-DNNs的DEPARAs在相同的输入集上定义,它们实际上处于相同的嵌入空间中,因此两个PR-DNNs的知识可转移性直接由它们对应的DEPARAs的相似性来衡量。更相似的DEPARAs表示从不同PR-DNNs学到了更相关的知识,因此它们之间的知识可转移性更高。所提出的方法不需要人工注释,对架构没有任何限制,并且比taskonomy快几个数量级。同时,除了模型选择,它还可以轻松应用于迁移学习中的层选择问题。进行了大量实验证明了DEPARA在量化深度知识可转移性方面的有效性。总之,我们做出了以下三个主要贡献:(1)我们引入了具有挑战性、重要但尚未研究的深度知识可转移性问题,其中只提供了PR-DNNs而没有任何标记数据。(2)我们提出了DEPARA,一种从PR-DNNs中获取知识可转移性的高效有效方法。据我们所知,这是第一个同时解决预训练模型选择和层选择问题的工作。(3)进行了大量实验,证明了DEPARA在解决迁移学习中的模型和层选择问题方面的有效性。02. 相关工作02.1. 知识可转移性0将PR-DNNs转移到新任务是一个活跃的研究课题。Razavian等人[20]证明了从深度神经网络中提取的特征可以用作通用图像表示,以解决各种视觉任务。Yosinski等人[31]研究了从深度神经网络的每一层提取的深度特征的可转移性。Azizpour等人[2]研究了影响深度特征可转移性的几个因素。最近,还研究了预训练数据集对迁移学习的影响[12, 8, 11,28]。尽管这些工作发现了许多启发式方法,但它们中没有一个明确量化不同任务和层之间的可转移性,以提供一种基于原则的模型和层选择方法。Zamir等人[33]提出了一种完全计算的方法来衡量任务相关性。Dwivedi和Roig[6]采用表示相似性分析来进行高效的任务分类。Song等人[26]利用归因图的相似性来量化模型的可转移性。然而,这些工作中仍然忽略了层选择问题。0这些工作中仍然忽略了这个问题。在本文中,我们提出DEPARA来解决迁移学习中的模型和层选择问题。02.2. 深度模型归因0归因是指为指定的输出分配重要性分数。现有的归因方法主要可以分为两组,包括扰动法[34, 35,36]和基于梯度的方法[25, 3, 24, 27, 23,1]。扰动法通过对单个输入或神经元进行扰动,例如删除、屏蔽或修改,来计算输入特征的归因,并观察对后续神经元的影响。相反,基于反向传播的方法通过一次或少数几次前向和后向通过网络计算所有输入特征的归因,使它们更加高效。在本文中,我们直接采用现有的归因方法来进行可转移性计算。更先进的归因方法的设计留给未来的工作。02.3. 深度知识表示0如何表示PR-DNNs中编码的知识对于知识重用至关重要。Hinton等人将经过训练的教师模型的软预测视为知识蒸馏的知识。在他们的工作之后,提出了其他形式的知识来促进学生学习。例如,Romero等人提出采用教师学习的中间表示作为改善学生最终性能的提示。Zagoruyko和Komodakis利用教师模型的注意力来指导学生的学习。最近,还发现了从训练的深度模型中学到的输入实例之间的关系是一种有用的知识[4, 16, 14, 29,17]。例如,Chen等人利用交叉样本相似性加速深度度量学习。Park等人利用数据示例的相互关系进行知识蒸馏。在本文中,我们提出DEPARA来表示深度知识,使我们能够轻松量化知识的可迁移性。03. 深度知识的可迁移性03.1. 符号和问题设置0假设有N个可用的PR-DNNs,表示为M={m1,m2,...,mN}。M中的每个模型可以被视为由多个非线性函数组成:mi:=fiLi◦∙∙∙◦(fi2◦fi1),其中f表示基本的非线性函数,Li表示mi中的非线性函数的数量,符号◦表示函数组合操作。需要注意的是,对于M中的模型的架构没有任何约束,因此这些PR-DNNs中的非线性函数的数量可能不同。mi处理的任务被表示为ti,而所有涉及的任务都被表示为任务字典T,T={t1,t2,...,tN}。对于任务ti,我们采用Pi(x,y)来表示相应数据域的联合数据分布。在本文中,术语“深度知识”指的是PR-DNNs学习到的嵌入空间。在mi中的fik之后产生的嵌入空间被表示为Fik。在没有任何标记数据的情况下,我们研究不同F之间的可迁移性,该可迁移性在下一节中定义,以促进任务选择和迁移学习中的层选择。39240M中涉及的任务被统称为任务字典T,T={t1,t2,...,tN}。对于任务ti,我们采用Pi(x,y)来表示相应数据域的联合数据分布。在本文中,术语“深度知识”指的是PR-DNNs学习到的嵌入空间。在mi中的fi k之后产生的嵌入空间被表示为Fik。给定没有任何标记数据的M,我们研究不同F之间的可迁移性,该可迁移性在下一节中定义,以促进任务选择和迁移学习中的层选择。03.2. 可迁移性的定义0可迁移性的直观描述是“深度卷积网络表示能够如何转移到目标任务”[31,2]。在这里,我们引入了一个更严格的定义,以便更好地解决迁移学习中的模型和层选择问题。假设有一个由Ω={F(1),F(2),...}1表示的深度知识池。请注意,在该池中,任意两个知识项F(i)和F(j)可能来自不同的模型或层。F(i)对于任务tj的可迁移性,表示为TF(i)→tj,被定义为在解决目标任务时F(i)在Ω中的升序排名。这里的排名是基于标准经验风险计算的。具体而言,设D是从Pj随机采样的目标数据,即D={(x1,y1),(x2,y2),...}。F(i)(D)表示D在F(i)中的嵌入,然后0TF(i)→tj(Ω,D):=ascending rank(RPj(hF(i)(D));Ω)。(1)hF(i)(D)是在F(i)(D)上产生的假设。R表示标准的期望风险:0RPj(h):=Ex,y�Pj[ℓj(h(x),y)],(2)0在任务tj中,ℓj是目标函数。在补充材料中提供了升序排名的详细描述。如果我们知道Ω中每个F对于任务tj的可迁移性,我们可以直接选择排名第一的F来解决目标任务tj。需要注意的是,当Ω中的每个F来自不同的PR-DNN时,可迁移性的定义可以用于模型选择。如果Ω中的所有F来自同一个PR-DNN的不同层,可迁移性的定义可以用于迁移学习中的层选择。上述定义的可迁移性直观上是直接的。然而,计算每对任务之间的可迁移性对于任务字典中的每对任务来说是昂贵的。更糟糕的是,它需要所有涉及的任务的标记数据。为了绕过这些问题,我们提出了DEPARA来近似定义的可迁移性,而无需任何标记数据。我们认为计算可迁移性必须同时考虑两个因素:01 注意我们使用 F ( i ) 表示 Ω 中的第 i 个项,使用 F i 表示由 m i产生的知识。01. 包容性:为了成功进行转移,源任务的 PR-DNN产生的 F应该包含解决目标任务所需的足够信息。包容性是转移性的直观简单和基本要素。然而,由于 F是高度非线性和不可解释的,直接衡量 F的包容性以解决目标任务非常具有挑战性。02. 可访问性:F应该被充分抽象并易于重新用于目标任务,以便目标任务可以在有限的人工监督下得到很好的解决。如果没有可访问性的要求,由于 F 从较浅层次的层次产生的 F往往比从较高层次产生的 F更具有包容性,因此更有可能具有更高的可转移性。由于深度模型的黑盒特性,衡量 F的可访问性也是一个具有挑战性的问题。03.3. 深度归因图0DEPARA 的示意图如图 1所示。形式上,假设存在一组随机采样的无标签数据点 D p= { x 1 , x 2 , ..., x n } 。本文将 D p称为探测数据。首先,将探测数据输入PR-DNN,通过前向传递获得其特征,即特定层的输出。然后通过反向传递生成归因图。反向传播规则取决于所采用的归因方法[1]。在 DEPARA中,每个节点对应于探测数据中的一个数据点,其特征是该数据点的向量化归因图。两个节点之间的边表示两个数据点的相关性,并通过它们在 PR-DNN的嵌入空间中的相似度来衡量。对于 m i 的 F i k,可以得到一个 DEPARA,用 G i k ( D p ) = ( V i k , E i k) 表示,其中 V 和 E 分别表示节点和边。G i k ( D p ) 表示DEPARA 定义在 D p上。以下提供了节点和边的更详细描述。03.3.1 节点0G i k 中的节点集合被统称为 V i k = { v i k, 1 , v i k, 2 , ..., vi k,n } ,其中 v i k,m 是 x m 相对于 F i k ( x m )的归因。在本文中,我们采用梯度*输入[24]进行归因。梯度*输入是指在输入设置为零时,输出将如何变化的一阶泰勒近似,这意味着输入相对于输出的重要性。数学上,对于 x中的第 i 个元素 x ( i ) ,其相对于 F 的归因分数 v ( i )计算如下:0v ( i ) := x ( i ) � ∂ ∥F ( x ) ∥ 20∂x ( i ) , (3)0其中 ∥ ∙ ∥ 表示 ℓ 2 范数。…..nk=1iedges, the similarity is defined to be Spearman correlation39250探测数据前向传递0相似度0反向归因图0PR-DNN0提取特征0生成归因图0深度归因图0PR-DNN0图 1. 构建深度归因图的过程的示意图。0节点被设计用于衡量 F 的包容性。直觉上,对于相同输入 xm 但由两个 PR-DNNs m i 和 m j 产生的 F i ( x m ) 和 F j (x m ),如果它们产生更相似的归因(即,它们关注输入上更相似的区域),它们更有可能包含相关信息并相互转换。否则,它们关注不同的输入维度,因此彼此之间的相关性较低。03.3.2 边0在 G i k 中,边集合被表示为 E i k = { e i k, 11 , e i k, 12 ,..., e i k,nn } ,其中 e i k,pq 是第 p 个节点和第 q个节点之间的边,表示嵌入空间 F i k中相应输入的相似度。形式上,0e i k,pq := 余弦相似性 ( F i k ( x p ) , F i k ( x q )) 。0我们采用余弦相似性来定义边缘,因为它对 F ( ∙ )的长度不敏感。请注意,我们假设 V i k中的每对节点之间存在一条边,因此 G i k实际上是一个完全连接的图。此外,由于 G i k被设计为无向的,对于任何 p 和 q ,e i k,pq = e i k,qp。边缘被设计用来揭示可迁移性的可访问性。如果在 f i k之后生成的嵌入空间 F i k可以轻松地传输(即具有高可访问性)到 m j 的 f j l之后生成的另一个嵌入空间 F j l ,那么 F i k 和 F j l应该在拓扑结构上相似。否则,将消耗大量标记数据和训练时间在 F i k 之上重建嵌入空间 F j l,这违反了高可访问性的定义。G中的边缘可以被视为嵌入空间中拓扑结构的表示。对于相似拓扑结构的两个嵌入空间,对于相同的一组探测数据,它们应该在 G 中产生相似的边缘。03.4. 任务可迁移性0在 T 中,我们采用 DEPARAs 来量化不同任务之间的可迁移性,这与taskonomy [33] 的目标类似。然而,在我们的问题中,只有相应任务的PR-DNNs 被提供。0假设没有为任何任务提供标记数据。在构建 T 中的任务的DEPARAs 之前,必须解决两个问题。首先是对于任务 t i,我们应该选择哪个嵌入空间 F (即层)来最好地表示任务t i 所需的知识。在本文中,我们将所有 PR-DNNs视为编码器-解码器结构。编码器提取紧凑的特征,解码器使用来自编码器的特征进行预测。我们采用编码器学习到的嵌入空间,表示为 F i e ,来表示 t i的知识。因此,知识池可以表示为 Ω = {F 1 e , F 2 e , ...,F N e }。第二个问题是我们需要一组探测数据,这些数据在所有任务之间共享,用于探测 F 的拓扑结构并构建DEPARAs。在本文中,探测数据是随机采样的。关于如何获取探测数据的更多细节,请参见实验部分和补充材料。根据公式(3)和(4),对于 T 中的每个任务 t ,在探测数据D p 上获得一个 DEPARA G e 。F i e 对任务 t j的可迁移性通过 F i e 在 Ω 中的降序排名来近似表示:0相似性函数:s ( V i e , V j e ) = 10∥ v i e,k ∥∙∥ v j e,k ∥。对于0n 3 − n ,其中 d k 是 E i e 和 E j e 的第 k个元素的排名之差。λ是权衡超参数。关于降序排名的详细描述,请参见补充材料。03.5. 层可迁移性0如前所述,深度模型通常由许多非线性函数或层组成。对于PR-DNN m i = f i L i ◦ ∙ ∙ ∙ ◦ ( f i 2 ◦ f i 1 ),实际上可以获得 L i 个不同的嵌入空间,可以表示为39260Ω i = {F i 1 , F i 2 , ..., F i L i } .然而,在上述的任务可迁移性和任务学习中,只考虑了来自编码器的一个嵌入空间 F ie,并忽略了所有其他学习到的知识。这可能导致性能次优,因为重用 F i e不能保证对不同的目标任务是最优的。在这里,我们考虑了层选择问题,这在迁移学习中也很重要:对于源任务 t i,其 PR-DNN的哪一层应该选择以最大程度地受益于目标任务 t j?层选择问题可以看作是从 Ω i 中选择 F i ,这对目标任务 tj 最有益。我们采用 m j 的编码器产生的 F j e 来表示对任务t j 重要的知识,因为 F j e 通常是最紧凑的。层选择通过 k= arg max k s ( G i k , G j e ) 进行。0使用从公式(6)计算得到的k,我们采用Fik来将PR-DNNmi转移到目标任务tj。04. 实验0我们首先验证了提出的方法在任务可转移性上的有效性,然后展示了其在层选择上的有效性。04.1. Taskonomy模型上的任务可转移性04.1.1 预训练模型0在这里,我们采用taskonomy[33]发布的PR-DNNs来验证DEPARA在任务可转移性上的有效性。在这个实验中,选择了20个PR-DNNs,每个PR-DNNs用于一个单图像任务。由于所有的taskonomy模型都采用了编码器-解码器架构,我们直接使用编码器的输出来构建DEPARA。taskonomy通过迁移学习的性能来衡量任务可转移性。我们采用其结果来评估我们的方法。04.1.2 探针数据0根据[26]的方法,在taskonomy数据的验证集中随机采样1000张图像构建探针数据。我们尝试使用更多的数据,但在实验中并没有观察到明显的性能改善。此外,我们还采用了与taskonomy数据非常不同的Indoor Scene [19]和COCO[13]作为计算taskonomy任务可转移性的探针数据。更多细节请参考补充材料。04.1.3 评估指标0我们采用两个评估指标P@K和R@K,这两个指标在信息检索中被广泛使用,用于比较我们方法构建的任务可转移性与taskonomy方法构建的任务可转移性。每个目标任务被视为一个查询,并且0taskonomy中产生最佳转移性能的前5个源任务被认为与查询相关。我们采用Precision-Recall(PR)曲线来展示所提出方法的整体性能。04.1.4 跨任务的可视化结果0在这里,我们可视化了DEPARA中的一些节点和边,以更好地理解所提出方法。结果如图2所示。可以看到,一些任务产生了相似的属性图和实例关系,而其他一些任务则没有。例如,Rgb2depth和Rgb2mist产生了高度相似的属性图和关系图,而与Autoencoder的结果不同。实际上,Rgb2depth和Rgb2mist在taskonomy中被证明具有很高的相互转移性,而它们对Autoencoder的转移性相对较低。此外,taskonomy采用凝聚聚类将任务分为四组:3D、2D、几何和语义任务。从图2中可以看出,我们的方法倾向于在每组任务内产生相对相似的节点和边。虽然可能会有一些例外情况,但随着我们聚合更多节点和边的结果,结果变得更加可信。04.1.5 任务可转移性结果0在本节中,我们通过从taskonomy获得的任务可转移性来评估所提出的方法。为了更好地理解结果,我们引入了一个使用随机排序的基准方法,该方法表示任务可转移性是随机确定的。为了对所提出的方法进行消融研究,我们引入了我们方法的三个变体。DEPARA-V:仅利用DEPARA中的节点进行任务可转移性;DEPARA-E:仅使用边;DEPARA:使用节点和边的完整版本,其中λ通过随机采样一小部分所有PR-DNNs进行调整。此外,我们还引入了另一种竞争方法:[7]提出的表示相似性分析(RSA)。在这里,我们采用PR曲线来比较所有上述方法的性能。为了进一步展示我们方法得到的任务可转移性与taskonomy的相似性,DEPARA生成的任务相似性树也在图3中显示出来。taskonomy的任务相似性树以及其他更多结果请参考补充材料。从这些结果可以得出结论:(1)所提出的方法产生的任务可转移性与taskonomy的任务可转移性非常相似。由于我们的方法比taskonomy更高效,因此在人工注释不可用或者02 所提出的方法在一个QuadroP5000显卡上的预训练taskonomy模型上大约需要20个GPU小时,而taskonomy在云上进行20个任务的训练需要数千个GPU小时。0.20.40.60.81.0Recall0.30.40.50.60.70.80.91.0PrecisionPR CurveDEPARA-DEPARA-DEPARARSARandom rankingOracle0.80.911.11.21.31.4AutoencoderDenoiseKeypoint 2DSegment 2DEdge 2DKeypoint 3DSegment 25DCurvatureRgb2sfnormEdge 3DReshadeRgb2depthRgb2mistSegment SemanticRoom LayoutClass PlacesClass 1000Vanishing Point39270Rgb2depth Rgb2mist Autoencoder 2D Keypoint 2D Segm Room Layt Vanishing Pts Object Class Scene Class0节点边0图2. DEPARA的一些节点和边的可视化示例。对于节点,我们分别从taskonomy数据、IndoorScene和COCO中可视化了三个示例。对于边,我们从taskonomy数据中随机采样了30个节点并展示了它们的相互连接。为了更好的可视化,一些弱连接被省略了。在这里,我们选择了两个3D任务、三个2D任务、两个几何任务和两个语义任务进行可视化。taskonomy导出的任务相似性树显示在任务名称上方。0(a) PR曲线。0(b) 任务相似性树。0图3.从taskonomy数据中随机采样的探测数据上获得的PR曲线和任务相似性树。0任务库T的大小很大。(2) DEPARA优于RSA[7],这证明了其优于现有技术的优越性。实际上,DEPARA-E和RSA的性能相当,因为它们的方法非常相似。(3)DEPARA在性能上优于DEPARA-V和DEPARA-E相当多,这表明了DEPARA中节点和边对于衡量知识可传递性的重要性。有关更多结果和有趣的观察,请参阅补充材料。为了研究不同类型的探测数据的影响,我们还使用来自IndoorScene和COCO的探测数据评估了所提出的方法。表1提供了按任务的P@K和R@K结果,以及所提出方法和一些竞争方法的平均结果。可以看出,尽管IndoorScene和COCO的数据与taskonomy数据非常不同,但所提出的方法仍然产生了任务可传递性,其任务级拓扑结构与taskonomy获得的拓扑结构高度相似。这表明所提出的方法对于随机采样的探测数据不敏感。此外,所提出的方法始终一致地0在所有数据集上,优于DEPARA-V,DEPARA-E和RSA,再次验证了所提出方法的有效性和优越性。04.2. 迁移学习中的层选择04.2.1 实验设置0我们采用Syn2Real-C[18]数据集来验证DEPARA在层选择方面的有效性。在Syn2Real-C中,源域和目标域的数据来自不同的领域,但属于相同的12个物体类别。源域包含152,397个合成图像,目标域包含从MicrosoftCOCO数据集中裁剪的55,388个图像。在本文中,我们使用源域和目标域的数据来训练两个领域特定的模型。最终目标是提高在目标域上的性能。我们考虑将两个预训练模型转移到目标域:(1)在源域上训练的模型(DNN-Source);(2)在ImageNet上预训练的深度模型(DNN-ImageNet)。我们采用VGG-19的架构来构建这两个模型。DNN-Source从头开始训练。初始学习率设置为0.01,在50个epoch后衰减为0.001。我们将权重衰减设置为0.0005,动量设置为0.9。DNN-Source总共训练80个epoch。对于DNN-ImageNet,我们直接采用TORCHVISION提供的预训练权重。为了计算DNN-Source和DNN-ImageNet对目标域上的分类任务的可传递性,我们还单独在目标数据上从头开始训练了DNN-Target。04.2.2 DEPARA在层选择方面的性能0在这里我们展示DEPARA能够挑选出在迁移到目标域时性能接近最高的层。01020304050Epoch0.10.20.30.40.50.60.7AccuracyLayer#1Layer#3Layer#5Layer#7Layer#9Layer#11Layer#13Layer#15Layer#16Layer#17Layer#1801020304050Epoch0.050.100.150.200.250.300.350.40AccuracyLayer#1Layer#3Layer#5Layer#7Layer#9Layer#11Layer#13Layer#15Layer#16Layer#17Layer#1839280表1. DEPARA和taskonomy结果之间的任务相似性。右侧显示了平均结果。为了更好地比较,还提供了DEPARA-V、DEPARA-E和RSA的平均结果。0AutoEnco0Curvature0Denoise0Edge2D0Edge3D0Keypts2D0Keypts3D0Reshade0RGB2Depth0RGB2Mist0RGB2Norm0RoomLayt0Segmt25D0Segmt2D0VanishPts0SegmtSemt0Class10000DEPARA0DEPARA-V0DEPARA-E0RSA0Tasknmy0P@1 1.0 0.0 1.0 1.0 0.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 0.88 0.71 0.82 0.82 P@5 1.0 0.6 1.0 0.4 0.8 0.8 0.8 0.8 0.8 0.8 0.6 0.8 0.8 0.8 0.8 0.4 0.8 0.75 0.680.75 0.73 R@5 1.0 0.6 1.0 0.4 0.8 0.8 0.8 0.8 0.8 0.8 0.6 0.8 0.8 0.8 0.8 0.4 0.8 0.75 0.68 0.75 0.730IndoorScn0P@1 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.00 0.82 1.00 1.00 P@5 1.0 0.6 1.0 0.6 0.6 1.0 1.0 1.0 0.8 0.8 0.8 0.8 0.8 1.0 0.8 0.6 0.6 0.81 0.720.78 0.79 R@5 1.0 0.6 1.0 0.6 0.6 1.0 1.0 1.0 0.8 0.8 0.8 0.8 0.8 1.0 0.8 0.6 0.6 0.81 0.72 0.78 0.790COCO0P@1 1.0 0.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 0.0 0.0 1.0 0.82 0.82 0.76 0.82 P@5 1.0 0.6 0.8 0.8 0.6 1.0 1.0 0.8 0.8 1.0 1.0 0.8 1.0 0.8 0.4 0.6 0.6 0.80 0.780.65 0.69 R@5 1.0 0.6 0.8 0.8 0.6 1.0 1.0 0.8 0.8 1.0 1.0 0.8 1.0 0.8 0.4 0.6 0.6 0.80 0.78 0.65 0.690目标任务。为此,我们对预训练的VGG-19的每一层进行了彻底的迁移学习。对于转移到目标任务的每一层,当前层和该层之前的所有层都被固定,而当前层之后的所有层都被微调。由于迁移学习通常发生在目标数据稀缺的情况下,我们以两种模式进行实验:(1)0.1-T:使用目标数据的10%;(2)0.01-T:只使用目标数据的1%。在这两种模式下,预训练的VGG-19在目标数据上进一步训练50个时期。为了选择转移层,我们简单地将DNN-ImageNet和DNN-Source在0.1-T模式下的λ设置为1。在0.01-T模式下,随着目标数据变得更加稀缺,可访问性对于可转移性变得更加重要。因此,我们在0.01-T模式下将λ设置为10。0结果列在表2中。我们可以看到:(1)所提出的方法可以成功地选择出在转移到目标时产生最高性能的层。例如,在0.01-T模式下的DNN-ImageNet中,#15、#16、#17和#18层在所有层中产生了最高的转移性能。我们的方法成功地选择出了这些层,因为它们产生了最高的DEPARA相似性。实际上,在表2中显示的所有结果的相似性和准确性之间的平均斯皮尔曼相关系数为0.913,这意味着DEPARA的相似性是迁移学习中层选择的良好指标。(2)对于不同的训练模型,产生最高转移性能的层也不同。此外,随着目标数据的大小变化,最佳性能的层也可能发生变化。例如,在0.1-T模式下的DNN-Source中,#3、#5和#7层产生了最高的性能。然而,在0.01-T模式下,最高性能的层是#11、#12和#13。通过适当设置λ,所提出的方法仍然可以选择出不同数量目标数据的最佳层。(3)令人惊讶的是,DNN-ImageNet的转移性能要比DNN-Source高得多。DNN-ImageNet的某些层的E的相似性明显高于DNN-Source的相似性。0(a)DNN-ImageNet。0(b)DNN-Source。0图4. 在0.01-T模式下微调期间不同层的测试准确率曲线。0DNN-Source的结果表明,ImageNet上学习到的嵌入空间更适合解决目标任务。DNN-Source虽然与目标任务相同,但由于源域和目标域之间的差异较大,学习到的嵌入空间相当不同。因此,当转移到目标数据时,它产生的性能相对较差。(4)在目标数据上从头开始训练的VGG-19在0.1-T和0.01-T模式下分别达到61.74%和32.27%的准确率。将这些数字与表2中的结果进行比较,我们可以看到,与从头开始训练相比,一些层在转移到目标数据时产生了更差的性能。这种现象被称为负迁移[30]。负迁移尤其在PR-DNN在相当不同的领域(如DNN-Source)上训练或与目标任务无关的任务上训练时发生。对于DNN-Source,大多数层在转移到目标数据时产生负迁移。所有这些结果都暗示了模型选择和层选择在迁移学习中的重要性。表2中的其他一些有趣观察结果在补充材料中提供。0在图4中,我们描述了将不同层转移到目标数据时的测试准确率曲线。结果进一步证明了所提出的方法选择的层更适合转移到目标任务。#1#3#5#7#9#10#11#12#13#14#15#16#17#1839290表2.DNN-ImageNet和DNN-Source转移到目标域的逐层转移性能。SIM表示特定层的DEPARA与目标任务之间的相似度。ACC表示目标测试数据上的准确性。出于空间考虑,我们省略了VGG-19的第2、第4、第6和第8层。较深的颜色表示较高的值。0卷积层 全连接层0DNN-ImageNet0SIM0V 0.45 0.45 0.48 0.52 0.55 0.55 0.55 0.55 0.54 0.54 0.54 0.54 0.53 0.52 E 0.16 0.01 0.20 0.03 0.35 0.32 0.14 0.15 0.50 0.43 0.77 0.78 0.81 0.81 λ =1 0.61 0.46 0.68 0.55 0.90 0.87 0.69 0.70 1.04 0.97 1.31 1.32 1.34 1.33 λ = 10 2.05 0.55 2.48 0.82 4.05 3.75 1.95 2.05 5.54 4.84 8.24 8.34 8.63 8.620ACC(%)0.1-T 60.74 63.78 69.23 69.77 73.36 74.89 76.86 77.11 79.50 76.89 81.15 80.81 80.71 79.21 0.01-T 34.03 37.71 40.16 44.67 53.06 58.11 59.35 63.0867.24 68.50 71.72 72.85 74.330DNN-Source0SIM0V 0.60 0.60 0.55 0.53 0.50 0.50 0.50 0.49 0.48 0.48 0.48 0.47 0.46 0.45 E 0.06 0.11 0.15 0.17 0.18 0.18 0.19 0.19 0.20 0.17 0.15 0.11 0.10 0.09 λ =1 0.66 0.71 0.70 0.70 0.68 0.68 0.69 0.67 0.68 0.65 0.63 0.58 0.56 0.54 λ = 10 1.20 1.70 2.05 2.23 2.30 2.30 2.40 2.39 2.48 2.18 1.98 1.57 1.46 1.350ACC(%)0.1-T 49.84 61.92 62.72 62.28 59.81 60.24 58.49 54.03 54.21 52.67 52.15 48.54 41.50 36.10 0.01-T 30.58 35.49 37.20 39.47 39.64 39.63 40.07 40.1140.37 39.04 36.88 34.13 31.40 29.130从图4可以看出,当重新训练目标任务时,所选的层比其他层收敛得更快。例如,对于PR-DNNDNN-ImageNet,所提出的方法选择了第15、第16、第17、第18层进行转移。最终的准确率也倾向于高于其他层。此外,DNN-ImageNet中的层产生的测试准确率曲线比DNN-Source更平滑,这表明DNN-ImageNet学习到的嵌入空间更容易适应目标任务。然而,DNN-Source学习到的嵌入空间在拓扑结构上与在目标数据上学习到的嵌入空间相当不同(如DEPARA中边的相似度较低)。当适应目标数据时,它将被大幅破坏并重建,因此测试准确率曲线会震荡,转移性能较差。05. 讨论和结论0在本文中,我们提出了DEPARA来研究编码在PR-DNNs中的知识的可迁移性。我们采用DEPARA来处理迁移学习中的两个重要但尚未研究的问题:用于预训练模型选择的任务间可迁移性的度量,以及用于层选择的层间可迁移性的度量。我们进行了大量实验来展示其在解决这两个问题上的有效性。我们总结了所提出方法的优点和局限性。我们希望这能使本文的贡献更加清晰,并激发我们进一步研究的灵感。优点。(1) 与需要大量标记数据的taskonomy[33]不同,所提出的方法只需使用预训练模型来量化任务的可迁移性。(2)由于不涉及训练,所提出方法的计算成本几乎与任务字典的大小呈线性增长,比taskonomy显著更高效。(3)所提出的方法解决了0不仅是模型选择,还有层选择问题。据我们所
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索AVL树算法:以Faculdade Senac Porto Alegre实践为例
- 小学语文教学新工具:创新黑板设计解析
- Minecraft服务器管理新插件ServerForms发布
- MATLAB基因网络模型代码实现及开源分享
- 全方位技术项目源码合集:***报名系统
- Phalcon框架实战案例分析
- MATLAB与Python结合实现短期电力负荷预测的DAT300项目解析
- 市场营销教学专用查询装置设计方案
- 随身WiFi高通210 MS8909设备的Root引导文件破解攻略
- 实现服务器端级联:modella与leveldb适配器的应用
- Oracle Linux安装必备依赖包清单与步骤
- Shyer项目:寻找喜欢的聊天伙伴
- MEAN堆栈入门项目: postings-app
- 在线WPS办公功能全接触及应用示例
- 新型带储订盒订书机设计文档
- VB多媒体教学演示系统源代码及技术项目资源大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功