没有合适的资源?快使用搜索试试~ 我知道了~
3245多领域数据的自监督表示学习泽宇冯昌徐大成涛UBTECH悉尼人工智能中心,计算机科学学院,工程学院,悉尼大学,达灵顿,新南威尔士州2008年,澳大利亚zfen2406@uni.sydney.edu.au,{c.xu,dacheng.tao}@ sydney.edu.au摘要我们提出了一个信息理论动机约束的自我监督表示学习从多个相关领域。与以前的自监督学习方法相比,我们的方法从多个领域学习,这具有减少单个领域的内置偏差,以及利用信息和允许跨多个领域的知识转移的好处。提出的互信息约束鼓励神经网络提取跨域的共同不变信息,并同时保留每个域的特有信息。我们采用易处理的互信息的上限和下限,使建议的约束可解。学习表示对输入图像更无偏和鲁棒。在多领域和大规模数据集上的大量实验结果证明了互信息约束下多领域自监督学习的必要性和优越性。在我们的框架中学习到的最先进的方法的表示比在单个域上学习到的表示实现了更好的性能。1. 介绍使用深度卷积神经网络(CNN)的无监督视觉表示学习算法在减轻大量手动注释的负担方面取得了突破它们能够学习可转移到各种下游任务的高级语义图像表示,而不使用昂贵的注释标签,这大大扩展了CNN的应用范围在许多无监督学习方法中,最近出现的自监督学习(SSL)技术产生了出色的表示,在标准计算机视觉基准上实现了最先进的性能[34,20,18,7,36,51]。SSL直接从输入数据本身发现监督信号,并从该监督中定义一个预文本任务。经过训练以实现这些目标的CNN必须理解输入数据,图1:我们建议使用来自多个相关领域的数据执行自监督学习。(图像选自PACS数据集[26]。)实例突出对象和周围背景的面向对象的图像。因此,CNN的中间层将获得为这种类型的数据提取高级语义表示的能力,这对于解决图像识别等不同的下游任务非常有用虽然在未标记数据上的有效训练在很大程度上减轻了人类标记的负担,但未标记训练数据本身的属性对于基于图像的SSL没有充分研究大多数先前的工作集中在提出新的借口任务,以改善学习表征。很少有方法研究所使用的训练数据的影响,或者应该以何种方式选择训练数据在计算机视觉社区中,长期以来人们已经认识到,为视觉任务收集的数据集通常是有个体偏见的,并且偏离了代表视觉世界的目标此外,某些域的总可用映像也会受到根本性的限制3246像艺术图像和素描[26]。在一个单一数据集上训练的CNNSSL算法通常在一个数据集(ImageNet)上训练CNN。因此,这种仅在一个数据集上进行的有限训练不太可能产生我们感兴趣的图像的良好无偏通用表示使用多个数据集的训练在补偿训练集偏差方面取得了很大的成功[12,21,14]。然而,SSL并没有考虑到这些因素。为了学习过滤掉不需要的变化的无偏表示的目标,我们建议在来自多个相关领域的数据上训练SSL模型。给定一个我们想要学习表示的数据集,我们可以利用来自其他相关领域的现有数据集,这些数据集包含语义重叠但不相同的信息(参见图1),并为SSL执行多域学习(MDL)这有利于丰富数据种类,减少单个数据集的内置偏差预计学习的CNN将在感兴趣的图像上提取优于仅在它们上训练的表示。正如在监督学习中所发现的那样,通过简单地连接更多数据集来从多个领域我们也观察到SSL的这种现象。这一事实表明,如果不加以处理,域差异的存在可能会影响性能,因此必须考虑跨域关系。基于这一观察,本文提出了基于互信息(MI)的多域SSL标准。MI被用作模型捕获多少域间和域内信息的指标。为了在不同的领域捕捉语义共享的信息,我们最小化图像的表示和领域标签之间的MI。在此目标下,排除不需要的变化的域不变信息将被编码到高级表示。另一方面,强制域不变性和数据集不平衡的存在可能会使模型忽略或过度拟合某些域,从而丢失它们的信息。对于保持每个域的特定信息,我们对每个域的输入图像与其CNN表示之间的MI值引入约束,使得表示将保持每个域上为了使这两个信息理论约束可计算,一个对抗性的近似,应用MI的变分上界和对比下界对目标进行近似优化。因此,学习的表示将导致在学习领域不变信息和领域特定信息之间的可控权衡。为了证明我们提出的MI标准对SSL的MDL的有效性,我们在多域数据集PACS [26]以及大规模数据集ILSVRC 2012 [42]和Places [55]上进行了实验。我们进行消融研究,以检查我们模型中每个组件的有效性。实验结果证明了我们的方法的优点。2. 相关工作这项工作涉及计算机视觉和机器学习中的几个主题:自监督学习(SSL)、多领域学习(MDL)、领域泛化(DG)和互信息(MI)准则,在此简要介绍。自我监督学习。SSL通过直接从输入数据本身发现监督信号来构造借口任务。 CNN训练预测这种监督信息-信息将对输入的高级语义表示进行编码。值得注意的图像预文本任务类型包括构建图像块之间的关系,如块位置预测[9,31],解决拼图[32,6]和计数[33],以及重建图像的一部分,如图像完成[37],彩色化[52,24,25]和通道预测[53]。本文还对语前任务形式之外的其他一些重要方面进行了研究.例如,Ren和Lee [41]研究了合成图像对表示学习的影响以及合成图像和真实世界图像之间的域间隙的影响。它依赖于合成图像的自由地面真值。Doersch和Zisserman [10]研究了将多个借口任务组合在一起的效果。他们的结论是,深层网络的表现优于浅层网络,组合任务总是比单独任务更能提高性能Kolesnikov等人通过重新审视几个借口任务,对现代CNN的选择进行了彻底的大规模研究他们发现了许多与CNN架构相关的重要见解,包括跳过连接和过滤器的数量。我们的工作也不仅仅局限于设计借口任务。我们探讨了使用多个相关数据集的影响,并提出了两种策略,多领域的数据学习。多领域学习与领域泛化。MDL旨在通过使用来自多个领域的数据来解决单个数据集的缺点[12]。几监督学习设置中的方法设计特定的网络来处理域相关特征,例如编码域描述符[50]和使用域特定参数。3247目的:自我监督e. G. 旋转共享权重Softmax下特征图高阶特征向量0°90°180°270°域间MI最小化多个域ConvNet(下层)ConvNet(高层)下特征图第一次第GRL层域内MI最大化同一域ConvNet(下层)“真实”“假的”图2:所提出的方法的图示我们利用来自多个相关领域的图像数据来执行自监督学习任务。MI充当域相关信息的代理,并用作主要SSL任务的约束。[39,40,8].其他一些工作寻求一个共同的特征提取器,例如通过域引导的丢弃发现域相关神经元由于SSL期望编码器能够为某些输入图像或类似图像提取更好的表示,因此我们不回复特定参数,而是专注于通用特征提取器。旨在提高监督学习算法的通用化能力的另一系列研究是DG [16,26,30,27,28,29]。请注意,我们的方法本质上不同于处理DG问题的方法,在DG问题中,他们更关心构建一个域不可知的分类器,该分类器在应用于看不见的目标域时是有效的。而对于SSL,目标是学习输入图像的更好表示,以便它们可以用于提取这些图像或类似图像的表示。我们认为,这是苛刻的要求,要求学习representation转移到一个显着不同的领域,在那里的前文本任务甚至可能是不合适的(例如。将RotNet [18]学习的表示转移到旋转不变的图像域似乎是不合理的)。我们的目标是将更多相关的未标记数据集用于训练,以提高给定一个数据集的相似图像的性能,即使该数据集存在的数量很少。大多数DG方法仅在VLCS [14]和PACS [26]等小规模数据集上进行实验。 目前还不清楚他们是否能够扩展到像ImageNet和Places这样的大规模数据集。我们的目标是改善SSL与图像从大规模的数据集.来自每个领域的数据有望相互帮助,我们主要根据每个领域的表现来评估学习到的表示。互信息准则。MI准则以前曾被探索过,用于模拟来自不同类型的数据之间的关系。领域Shi和Sha [44]以所有数据及其二进制域标签之间的MI以及目标数据与无监督域适应的估计类标签之间的MI的形式检查了对象。然而,他们的模型和相应的MI计算建立在判别聚类和度量公式的基础上,无法扩展到深度神经网络。Gholami等人[17]使用MI进行多目标域自适应与标记的源域数据。它的MI目标优化是基于MI的Barber Agakov下界&MI在深度学习中取得了广泛的应用和成功[2,1,4]。它也被用来建立数据结构之间的联系[36,19]。本文使用MI的易处理的边界来建立多个域之间的连接。3. 多领域学习在本节中,我们首先介绍问题设置,并提出建议的信息论约束。然后,我们详细描述了易于处理的近似MI的最小化和最大化。我们的模型总结在图2中。我们的目标是将每个图像示例x∈ X从某个域(其中X表示图像的输入空间)转换为高级语义表示z∈ Z,该高级语义表示z∈ Z可转移到无人监督的方式为了实现该目标,我们采用参数编码器函数E(·;θe):X→Z,其中参数θe(例如,神经网络)。我们有兴趣学习来自多个领域的数据假设手头可用的相关域的数量为M。对于i= l,. . .,M,则第i个域具有N i3248我我训练图像:Si={(x(j),d(j))}Ni,其中d是我们希望z的图像与类似的对象从不同的-i i j=1离散域标记。 我们将经验概率表示为-由pi(x)得到的xi在第i个域上的分布。通过从条件概率分布p θ e(z)中采样,获得图像x的表示z|x)用θe表示。编码器分布p θ e(z)有几种可能的选择|X)。本文 假 设 p θe ( z|x ) 由 x 的 确 定 性 函 数 定 义 , 即 E(·;θe)。则z在每个域上的矩分布为Σp i,θe(z)= p θe(z|x)p i(x).(一)x∈Si首先,我们希望通过在SSL目标下进行训练来使用语义信息对表示z进行编码。设F(·;θf)表示以z为输入的SSL的头网络为了简单起见,SSL方法的损失函数被定义为l(F(E(x;θe);θf))这里可以使用许多最先进的SSL方法来学习表示。例如,如果我们选择Rotation [18]作为SSL任务,则l(·,·)是旋转分类的跨中心损失。给定来自所有可用域的数据,多域SSL的目标是ent域将尽可能相似,并揭示尽可能少地提供关于其具体变异形式的信息设p(x)和pθe(z)表示由每个区域的分布集合导出的经验混合分布,x∈p(x)和z∈pθe(z)是随机变量。我们表达了我们从相关领域学习类似概念的愿望,即限制所有图像表示z之间的MII(z,d)的最大值。域和原始图像的对应域标记D。从概念上讲,这一目标与现有工作中的想法相似,即使表示的边缘分布如果I(z,d)很小,那么给定一个z,很难分辨输入图像x来自哪个域。因此,学习的表示将丢弃不需要的域相关变化,并形成域不变的表示空间,其中每个域具有相似的边缘分布。3.1.2网域特定信息尽管与域相关的变化被丢弃,但在边缘分布中执行相似性并不直接最小Lf=θe,θf1ΣMMi=11挪威尼Nij=1l(F(E(x(j);θe);θf)).(二)对每个域上有用信息捕获的影响域不变表示空间也可以通过将输入图像投影到没有语义对应的随机不变维护具体仅仅在这个目标下学习就等于天真组合数据集。我们的实验结果表明,MDL的性能有时并不比在单个域上学习更好,这表明天真地添加额外的训练示例并不总是有益的。我们接下来引入基于MI的约束来解决这个问题。3.1. 互信息约束如前所述,我们必须显式地对跨域关系建模,以便得到的表示可以学习跨域语义知识。我们现在详细讨论我们的需求。3.1.1域不变信息关于跨域利用信息,我们期望的表示属性是它们捕获跨不同域的输入数据中的公共语义知识,尽管它们可能看起来不同。每个域的信息都是必要的。此外,到目前为止引入的MDL策略没有考虑数据集不平衡。某些领域的图像可能很丰富,而在其他领域,它们可能很稀缺。只有少量数据的域将被域不变目标忽略或被SSL目标过拟合。应保留有关这些域的具体信息,以确保域内的一致性。形式上,令xipi(x)和zipi,θe(z)表示输入图像和表示的随机变量,第i个域。我们的迫切需要是限制MII(zi,xi)的最小值为每个域,使域特定的信息是保留在表示,在一定程度上为每个域。用这两个必要条件重写目标函数(2),我们有以下约束优化问题:图像外观的变化可以包括视角、照明条件、图像风格、成像系统、收集数据集的位置以及甚至偏好minθe,θfLf=1ΣMMi=11挪威尼Nij=1l(F(E(x(j);θe);θf))(三)数据集收集器[14,43]。对于某些下游任务(例如面向对象的图像识别),这些变化对于表示学习是有害的,因为它们在大多数时间与任务的决策无关。因此,我们认为,S.T.I(z,d) ni,ni∈{1,.. . ,M},这与(2)不同,因为引入了MI约束3249e我eepθe(z) KLθeeuMupi(x)×pi(x)ieil通过排除不想要的变化同时保留每个xi中的特定信息,允许z在语义上更具代表性。超参数u和l控制z和x之间的MI量。使用拉格朗日乘子λu和λl逼近问题(3)的拉格朗日对偶,目标变为:有趣的是,这个公式等于多类分类中使用的交叉熵损失。网络D(·;φu)将输入z分类到正确的域中,E(·;θe)试图混淆D(·;φu)。实际上,q(d)是a常数值,在优化过程中可以忽略。3.3. I(z,x)的下界我我它能够通过以下方式最大化目标(4)中的MII(z,x):minLf+ λ u I(z,d)− λ lI(zi,xi).(4)iiθe,θfi=1只是最大化了它的一个易于处理的下限。 m1可以(4)中的两个MI项都难以计算和优化。在下面的两个部分中,我们通过使用MI的上界和下界来提供易于处理的近似。3.2. 通过对抗训练的I(z,d)的上界有一个基于噪声对比的下限公式估计[36]:I(zi,xi)≥I<$(NCE)(zi,xi)Σ通过用变分后验分布代替其中一个边缘分布,* =Epi(x)ET(E(xi;θe),xi;φl)−T(E(x;θ),x′;φ)log e,(九)[1,2,54,38].形式上,对于任何分布q(d),我们可以有I(z,d)的上界:pi(x)x′我伊埃伊勒ΣI(z,d)=Epθ(z,d)Σlogp θe(d|z)− log p(d)其中x′是从分布p i(x)=p i(x)中采样的输入图像的随机变量。我们也可以最大-=Epθ(z)DKL(p θe(d|z)<$q(d))−DKL(p(d)<$q(d))≤Epθ (z)DKL(p θe(d|z)n(q(d)):= C.通过最大化MI的Jensen-Shannon散度(JSD)[35]公式来最小化MI,该公式能够提供然而,P(五)(d|z)在等式(5)难处理。我们可以稳定的近似结果[19]。 具体来说JSD配方是θe而是近似p θe(d|z)具有参数化模型(JSD)Σ(zi,xi):=Epi(x)Σ- sp(−T(E(xi;θe),xi;φl))−q φ(d|因此,这个上限有一个下限[45]:C≥ ED(p(d|z)<$q(d))−ΣDKL(p θe(d|z)<$q φ(d|z))(六)E<$sp(T(E(x;θ),x′;φ))<$,(十)其中sp(x)= log(1 +ex)是softplus函数。 作为Σ=Epθ(z,d)logqφu (d|z)− logq(d):=C在[19]中建议,函数T(·,·;φl)可以共享下层E(·;θe)使得E(·;θe)=f(·;θe)<$C(·;θe)最大 C与 尊重 到 φu将 减少并且T(·,·;φ1)=D(C(·;θe),E(·;θe);φ1)。最大DK L(p θe(d|z)<$qφ(d|z)),使C成为一个很好的近似值-当量(10)相对于θe和φl,向上界C配对。q(d)在Eq. (五)可以选择作为基于所有数据集的核密度估计[45]。通过使DKL(p(d)<$q(d))尽可能小,C更接近I(z,d)。因此,I(z,d)的最小化可以通过以下对抗目标来实现I(zi,xi)。我们的完整模型包括三个核心模块:多域自监督学习(Eq. (2))域不变表示约束(等式2)(8))和特定领域的 信 息 保 存 ( 等 式 1 ) 。 (10)) , 可 以 写 成 下 面 的minimax目标:最小最大Lu=Epθ(z,d)ΣlogqφΣ(d|z)−logq(d)。( 7)男θeφueminmaxL+λLΣ-λI∈(JSD)(z,x)。 (十一)实际上,我们模拟qφu(d|z)作为函数D(·;φu):Fθe,θf,φl φu乌乌勒我我i=1uΣu3250伊伊埃我)Z →Z ={α∈RM : α1+. . . +α M= 1 , α d≥0 , d=1,. . . ,M}(例如,具有softmax输出的神经网络),参数为φu,输出输入z的概率向量,其中φ u是概率单纯形。第d个分量的值由D(d)(·;φu)表示。用经验分布建模解决这个目标需要CNN的对抗训练我们在E(· ; θe)之后连接梯度反射层(GRL)[15],使得最大化Luw。r. t. φuwillgiv e上升到Luw.r.t.的最小化θe。4. 实验Lu=1ΣMMi=11挪威尼Nij=1日志D(d(j))(E(x(j);θ);φ)/q(d(j))(八)在本节中,我们在三种类型的数据集上进行实验,以证明我们的方法的有效性这些数据集是:u3251• PACS数据集[26]:包含4个子数据集的小规模多域数据集,其中图像样式不同。这主要是为了研究如何我们的方法在可用数据总数有限的情况下执行。• ImageNet(ILSVRC 2012)[42]和Places [55]:我们结合这两个大规模的数据集,数据集被视为一个域。前者主要包含面向对象的图像,后者包含面向场景的图像。我们通过这种设置测试我们的approach在大规模数据集• PASCAL VOC 2007 [13]:我们测试我们的方法如何执行时,我们使用更多样化的数据可用(Im-ageNet和Places)来帮助在一个相当小的数据集(PASCAL)上学习。我们研究了互信息约束的行为,并与标准单域SSL模型和简单地组合数据集(在表中标记为DeepAll)作为原理证明的策略进行了比较。线性分类是特征评估的常用程序[53]。其合理性最近也通过一项通过彻底实验进行的研究得到了证实,其中表明线性模型足以评估表示的质量[22]。因此,我们通过在它们之上训练线性多类分类器来评估学习到的表示在这个任务上的高性能需要从学习的表示中理解高层次的语义图像。按照之前的过程[36,19],对 于 所 有 实 验 , 我 们 评 估 来 自 最 后 一 个 卷 积 层(conv5)和编码器E(·;θe)(最后一个全连接)层(fc7)。4.1. 实现细节我们选择预测图像旋转(RotNet)[18]和AET [51]作为SSL的运行示例,因为它们是有效的方法,并且在许多下游任务上实现了最先进的结果所提出的多域解决方案可以与主流SSL方法集成。由于在RotNet和AET中的每个批次中都会创建图像的几个转换副本,因此我们将MI约束单独应用于minibatch的每个副本。 编码器功能-在[18]的设置之后,将E(·;θe)实现为标准的Ale xNet架构[23] 它包括五 个 卷 积 层 和 两 个 全 连 接 层 。 SSL 的 预 测 函 数 F( ·;θf)被实现为一个单层的li近网络。 F或函数T(·,·;φ1)和D(·;φu)用于MI近似,我们使用三层多层感知器(MLP),其隐层数目为512。从编码器E(·;θe)的conv 4层获取特征图C(·;θe)。对于所有的例子,我们将拉格朗日乘子λu和λl设置为0.1,除了在PACS上λl是1。为了防止网络看到每个域的不同级别的总图像,我们将每个数据批次平均分配给每个域。我们的模型是用0.9的动量训练的,批量大小为128,所有权重的l2惩罚为5·10−4。学习率最初设置为0.01,然后衰减一个当验证集的损失达到平台时,因子为10。在PACS数据集上,由于数据集中的总图像数量较少,E(·;θe)的每个卷积层上的通道数量被缩放到原始大小的1/4最后一个卷积层后面是2个完全连接的层,输出大小分别为512和64。通过全局平均池化将conv5特征池化到64的大小以进行线性评估。 隐藏的数量D(·;φu)中的层也被缩放到64。在求解ImageNet的实验中,E(·;θe)的输出首先线性投影到128维特征向量,然后根据[19]的实践将其馈送到T(·,·;φl),以减少内存消耗。功能地图conv5在空间上调整大小(使用自适应最大池),以便具有大约9,000个元素[52]用于线性评估。4.2. PACS数据集PACS [26]由来自照片(P)、艺术绘画(A)、卡通(C)和草图(S)域的图像组成。虽然它最初是为了评估DG方法的目的而提出的,但PACS中的四个域密切相关,并且共享相同的对象级语义(相同的七个类),而看似不同(不同的图像风格)。仅仅在这些领域中的任何一个领域进行训练都不能保证对象具有良好的综合语义。每个域中的图像数量分别为1,670、图片总数为9991张。我们在PACS中的每个域上使用原始的训练-验证分割,并在训练集上训练我们的模型,并报告每个验证集上的表示评估结果线性分类器被选为支持向量机(SVM)。实验结果总结于表1中。从结果中,我们可以看到DeepAll(在所有子数据上一起训练)平均比在单个域上训练SSL算法要好一些。但在某些领域的性能下降。这表明,SSL从多个域的数据,而不考虑跨域的关系将损害表示。我们的方法(DeepAll+MI)在大多数领域上优于DeepAll和在RotNet下,conv5和fc7的平均准确率分别提高了1.1%和3.0%。某些域上的信息丢失已成功挽回。这些结果证实了利用建议的互信息约束的优势。我们的方法是有效的,在提升SSL的多个域,利用跨域的信息3252培训领域\测试领域艺术绘画卡通照片素描平均表1:使用来自不同预训练策略的激活对PACS数据集的Top-1线性分类准确度训练多姆。测试dom。ImageNetPlaces平均conv5 fc7 conv5 fc7训练域\测试域PASCAL分类conv5 fc7表2:ImageNet和Places验证集上使用不同预训练策略激活的前1名线性分类精度。4.3. ImageNet和PlacesImageNet和Places是两个大规模的图像数据集,在训练集上有1,281,167和2,448,873张图像,总共有3,730,040张。像往常一样,我们在训练集上的表示之上训练对数回归,并在验证集上报告准确性[53]。我们预先计算所有训练图像的视觉表示,并通过SGD训练逻辑回归50个时期。这受到[22]的启发,可以在不同场景之间进行快速评估和比较。表2显示了在RotNet中学习的表示的线性分类精度。这两个数据集中的任何一个都有足够的图像,可以让CNN在SSL中获得相当好的表示。当将更多的数据集成到训练中时,我们可以看到性能并没有得到很大的 提 高 。 这 通 过 比 较 ImageNetentry 与ImageNet+Placesentry 的 ImageNet 性 能 以 及 比 较Placesentry与ImageNet+Placesentry的Places性能来反映结果甚至在conv5层上降低(从31.9到31.6,从34.1 33.2)。 迁移学习效果得到较大提高-项 ( 比 较 ImageNetentry 与 ImageNet+Placesentry 在Places性能上的差异,ImageNet上反之亦然),这可能是由于明确使用了目标域图像。 再次,我们的方法(DeepAll+MI)进一步超过-表3:PASCAL VOC 2007上使用不同预训练策略激活的平均精度。形成简单组合(DeepAll)。fc 7层的改进最为显著,这表明从多域数据中学习和提出的约束能够改进E (·;θe)输出的表示,并减轻其对SSL任务的过拟合。14.4. Pascal VOC将在ImageNet上的预文本任务中预训练的CNN传输到PASCAL数据集是SSL实验基准中的标准测试。PASCAL上相对较小的训练集为了展示多域学习的效果,我们首先在ImageNet和Places上对RotNet进行预训练,然后在PASCAL上通过在特征上训练线性逻辑回归(多标签交叉熵损失)进行测试。这有点类似于域泛化设置,并将显示我们的方法的泛化能力然后,我们在ImageNet和PASCAL上预训练RotNet,这评估了我们将手头的目标数据与大型数据集结合时的效果1这些线性评估结果没有使用数据增强,并且它们低于RotNet [18]中报告的结果。 为了与RotNet保持一致性并进行比较,当使用数据增强进行训练时,我们的方法能够将conv5的性能从37.3% [18]提高到38.2%,并将ImageNet和Places的性能从34.8% [18]提高到36.0%,review(RotNet的结果由我们重现,并且优于[18](36.5和33.7)中报告的结果)。conv5fc7conv5fc7conv5fc7conv5fc7conv5fc7DeepAll标签64.758.085.489.283.285.276.174.777.476.8艺术绘画(RotNet)50.444.661.653.977.775.461.858.062.958.0卡通(RotNet)49.951.665.957.176.274.266.763.064.761.5照片(RotNet)45.137.765.553.280.973.864.059.863.956.1草图(RotNet)45.438.756.345.071.964.172.659.961.651.9PACS(DeepAll,RotNet)54.343.068.558.780.973.560.961.966.259.3PACS(DeepAll、AET)53.143.467.642.277.372.166.350.666.152.1我们的(DeepAll+MI,RotNet)55.549.768.566.381.677.163.464.767.364.5我们的(DeepAll+MI,AET)56.946.769.656.980.973.967.959.768.859.3ImageNet-labels47.9 55.937.7 41.342.8 48.6ImageNet-labels80.383.5随机7.21.111.93.59.62.3随机55.645.2ImageNet31.9 20.432.5 24.732.2 22.6ImageNet74.372.7地方30.1 10.534.1 19.732.1 15.1ImageNet+Places74.573.8ImageNet+Places(DeepAll)31.6 21.433.2 28.532.4 25.0ImageNet+PASCAL74.873.2我们的(DeepAll+MI)32.5 26.033.7 31.833.1 28.9我们的(ImageNet+Places+MI)75.075.6我们的(ImageNet+PASCAL+MI)74.875.33253培训领域\测试领域艺术绘画卡通照片素描平均(λu,λl)conv5fc7conv5fc7conv5fc7conv5fc7conv5fc7PACS(DeepAll)(0,0)54.343.068.558.780.973.560.961.966.259.3深度不变(DeepInvariance)(0.1、0)55.445.068.460.180.473.463.958.067.059.1我们的(DeepSpecific)(0,0.1)55.848.266.964.580.876.561.561.966.362.8我们的(满)(0.10.1)56.345.467.662.978.175.866.765.767.262.5我们的(满)(0.1、1)55.549.768.566.381.677.163.464.767.364.5我们的(满)(0.1,0.01)53.246.567.162.780.875.463.460.466.161.3我们的(满)(1,0.1)55.344.767.964.181.079.365.360.467.462.1我们的(满)(0.010.1)55.546.466.364.279.576.264.564.366.562.8表4:在PACS线性分类任务中,我们的模型中的不同分量和参数λu和λl的不同值的比较如 表 3 所 示 , 这 两 种 策 略 都 优 于 PASCAL 上 的ImageNet预训练模型这表明,利用大规模数据集的信息是有用的PASCAL表示学习我们的方法进一步改进了简单的数据集组合。在ImageNet和带有MI约束的Places上进行预训练可以获得最佳结果。这表明所提出的相互信息约束提高了表示的泛化能力。4.5. 消融研究在本节中,我们进一步对PACS线性分类任务进行实验,以了解不同组件和不同超参数值对我们方法的影响。4.5.1不同组成部分为了研究我们框架中每个组件的贡献,我们比较了以下变量:DeepAll:在所有可用域上训练SSL(简单组合)。DeepInvariance:在所有可用域上训练SSL,并在等式中进行约束。(7)只. DeepSpecific:在所有可用域上训练SSL,并在等式中进行约束。(10)只. 完整:我们的完整模型(等式(11))。每种变体的结果总结见表4。我们可以观察到每个单独组件的影响:1. DeepInvariance主要在conv5层优于DeepAll,这可以从Average结果中看出。 该不变性约束被施加在E(·;θe)(fc 7)的输出层上。似乎仅仅强制不变性并不能增加额外的信息平均而言,中间层将朝向输出特征编码,但是中间层将编码更好的表示。2. DeepSpecific主要在fc7层上优于DeepAll,表现在它的性能提高上。这是在每个域上维护特定于域的信息的结果。3. 我们 (满) 模型 实现 一 权衡DeepInvariance和DeepSpecific,并优于DeepAll注意,同时使用域不变约束和域特定约束的结果并不简单地等于分别线性相加它们的效果。它们以复杂的方式相互作用,并可以进一步改善它们中的每一个4.5.2不同λ值的影响最后,我们还评估了参数λu和λl在我们的模型中的影响表4中的最后5行总结了不同λu和λl设置下PACS线性分类任务的结果。我们观察到,这两个MI约束的相对强度将对最终结果产生强调其中的每一个将使性能遵循DeepInvariance或DeepSpecific的效果。这些结果验证了这两种多元智能的效果,以及它们在学习领域不变信息和领域特定信息之间寻求可控权衡的能力5. 结论在本文中,我们提出了一种信息理论方法,用于在组合来自多个领域的数据集进行自监督学习时改进训练数据的使用,并使用流行的视觉数据集证明了其在RotNet中的有效性。我们提出的相互信息约束明确利用共同的,不变的,以及跨不同领域的具体信息。学习表示寻求最大不变性和最大信息维护之间的权衡,这导致比以前的结果更好的性能。我们相信,从多个领域学习是有益的表示,是一个有前途的未来方向,特别是对自监督学习的实际应用。确认这 项 工 作 得 到 了 澳 大 利 亚 研 究 委 员 会 在 FL-170100117项目、DP- 180103424项目和DE-180101438项目下的部分支持。3254引用[1] 亚历山大·阿莱米,本·普尔,伊恩·菲舍尔,约书亚·狄龙,里夫·A。索罗斯和凯文·墨菲修理坏掉的ELBO在Jennifer Dy和Andreas Krause,编辑,第35届机器学习国际会议的首席执行官,机器学习研究论文集第80卷,第159PMLR。[2] Alexander A.放大图片作者:Joshua V.狄龙和凯文·墨菲深层次的变信息瓶颈。 在2017年国际学习代表会议上。[3] 大卫·巴伯和菲利克斯·阿加科夫IM算法:信息最大化的变 分 方 法 。 在 Proceedings of the 16 th InternationalConference on Neural InformationProcessing Systems ,NIPS麻省理工学院出版社.[4] Mohamed Ishmael Belghazi 、 Aristide Baratin 、 SaiRajesh-war 、 Sherjil Ozair 、 Yoshua Bengio 、 AaronCourville和Devon Hjelm。互信息神经估计。在JenniferDy和Andreas Krause的编辑,第35届国际机器学习会议论文集,机器学习研究论文集第80卷,第531PMLR。[5] Yoshua Bengio Aaron Courville和Pascal Vincent表示学习:回顾与新的视角 。IEEE Transactions on PatternAnalysis and Machine Intelligence,35(8):1798[6] UtaB üchler,BiagioBrattoli,andBjoürnOmme r. 通过深度强 化 学 习 改 进 时 空 自 我 监 督 。 在 Vittorio Ferrari ,Martial Hebert,Cristian Smin-chisescu和Yair Weiss,编辑,计算机视觉施普林格国际出版社.[7] Mathilde Caron,Piotr Bojanowski,Armand Joulin,andMatthijs Douze.用于视觉特征的无监督学习的深度聚类 。 In Vittorio Ferrari , Martial Hebert , CristianSminchisescu , and Yair Weiss , editors , ComputerVision– ECCV 2018施普林格国际出版社。[8] 陈希伦和克莱尔·卡迪。多领域文本分类的多项对抗网络。在计算语言学协会北美分会2018年会议的会议记录中:人类语言技术,第1卷(长文),第1226- 1240页。计算语言学协会,2018年。[9] Carl Doersch、Abhinav Gupta和Alexei A.埃夫罗斯通过上下文预测的非监督视觉表示学习在IEEE计算机视觉国际会议(ICCV),2015年12月。[10] Carl Doersch和Andrew Zisserman。多任务自监督视觉学习。在IEEE计算机视觉国际会议(ICCV)上,2017年10月。[11] Je f fDonahue , PhilippK raühenbühl , 和 Tr ev 或Darrell。对抗性特征学习。在2017年国际学习代表会议上[12] 马克·德雷兹亚历克斯·库勒萨和科比·克莱默基于置信加权 参 数 组 合 的 多 领 域 学 习 。 Machine Learning , 79(1):123[13] Mark Everingham,S.M. 放大图片作者:Ali Eslami,Luc Van Gool , Christo- pher K.I. Williams , JohnWinn,and Andrew Zisserman.pascal visual object classes挑战:回顾展。国际计算机视觉杂志,111(1):98[14] 陈芳,叶旭,丹尼尔·N·洛克莫尔。无偏见的metric学习 : 利 用 多 个 数 据 集 和 网 络 图 像 软 化 偏 见 。 在Proceedings of the IEEE International Conference onComputer Vision,第1657[15] 雅罗斯拉夫·甘宁和维克多·伦皮茨基。通过
下载后可阅读完整内容,剩余1页未读,立即下载
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功