没有合适的资源?快使用搜索试试~ 我知道了~
基于拼图的区域泛化的方法
2229基于拼图的区域泛化法比奥·M Carlucci1安东尼奥·1华为,伦敦2罗马大学Sapienza,意大利3意大利理工学院4意大利都灵理工大学fabio.maria. huawei.com{antonio. dinocente,silvia.bucci}@ iit.it{barbara.caputo,tatiana.tommasi}@ polito.it摘要人类的适应性主要依赖于从监督学习和非监督学习中学习和融合知识的能力:父母指出几个重要的概念,但随后孩子们自己填补空白。这是特别有效的,因为监督学习永远不会是穷尽的,因此自主学习允许发现有助于概括的不变性和规律性。在本文中,我们建议将类似的方法应用于跨领域的对象识别任务:我们的模型以监督的方式学习语义标签,并通过从自监督信号中学习如何解决相同图像上的拼图游戏来扩展其对数据的理解。这个次要任务帮助网络学习空间相关性的概念,同时充当分类任务的正则化器。在PACS、VLCS、E-Home和digits数据集上的多个实验证实了我们的直觉,并表明这种简单的方法优于以前的领域泛化和自适应解决方案。消融研究进一步说明了我们方法的内在工作原理。1. 介绍在当前对人工智能系统的淘金热计算机视觉研究的很大一部分致力于监督方法,这些方法在定义良好的设置中使用卷积神经网络显示出显着的结果,但在尝试这些类型的泛化时仍然很困难。专注于跨领域泛化的能力,这项工作是在意大利罗马大学Sapienza完成的图1.跨视觉域识别物体是一项复杂的任务,需要很高的泛化能力。其他任务,基于内在的自我监督图像信号,允许捕捉自然的不变性和不变性,可以帮助跨越大的风格差距。与JiGen,我们共同学习分类对象和解决拼图游戏,这表明,这支持泛化到新的领域。到目前为止,社区主要通过搜索能够捕获基本数据知识的语义空间而不管输入图像的具体外观的超监督学习过程来现有的方法包括从共享对象内容中解耦图像风格[3],将不同域的数据拉在一起并施加对抗条件[27,28],直到生成新样本以更好地覆盖任何未来目标所跨越的空间与获得通用特征嵌入的类似目标,最近在无监督学习领域中一直在追求另一种研究方向。主要技术基于对学习视觉不变性有用的任务的定义,并通过补丁的空间协同定位[35,10,37],计数原语[36],图像着色[49],视频帧排序[32,47]和其他自我监督信号来捕获由于未标记的数据大部分可用,并且其本质上不太容易产生偏倚(没有标记偏倚问题e!和这些?...你能重组这些图像开胃一个?... 而这是什么这个物体?2230[44]),它们似乎是提供独立于特定域样式的视觉信息的完美候选者。尽管有很大的潜力,但现有的无监督方法通常带有定制的架构,需要专门的微调策略来重新设计所获得的知识,并使其可用作标准监督训练过程的输入[37]。此外,这种知识通常应用于真实世界的照片,并且在与其他性质的图像(如绘画或素描)的大的领域差距之前尚未受到挑战。从图像学习内在规则与跨域的鲁棒分类之间的这种明确分离与生物系统的视觉学习策略形成对比,特别是人类视觉系统。事实上,许多研究强调婴儿和幼儿同时学习对物体进行分类和对物体进行分类[2]。例如,流行的婴儿玩具通过将它们放入形状分类器来教他们识别不同的类别;动物或车辆的拼图游戏,以鼓励年龄学习的对象部分的空间关系,同样普遍在12-18个月大。这种类型的联合学习当然是人类在早期达到复杂的视觉概括能力的关键因素[16]。受此启发,我们提出了第一个端到端架构,同时学习如何跨域概括和图像部分的空间协同定位(图1,2)。在这项工作中,我们专注于从其洗牌部分恢复原始图像的无监督任务,也被称为解决拼图游戏。我们展示了如何将这个流行的游戏重新用作一个侧面目标,与不同源域的对象分类一起优化,并通过简单的多任务过程提高泛化能力[7]。我们命名为我们的拼图为基础的泛化方法JiGen。与之前处理单独图像块并在学习过程结束时重组其特征的方法不同[35,10,37],我们在图像级别移动块重组,并将拼图任务形式化为具有原始图像相同维度的重组图像上的分类问题。通过这种方式,对象识别和补丁重新排序可以共享相同的网络骨干,并且我们可以无缝地利用任何卷积学习结构以及几个预训练模型,而无需特定的架构更改。我们证明了JiGen可以更好地捕获多个源之间的共享知识,并作为一个单一的源的正则化工具。在目标数据的未标记样本在训练时可用的情况下,对它们运行无监督拼图任务有助于特征自适应过程,并且相对于最先进的无监督域自适应方法显示出竞争结果2. 相关工作解决拼图游戏从打乱的部分中恢复原始图像的任务是一个基本的模式识别问题,通常与拼图游戏有关。在计算机科学和人工智能领域,它首先由[17]引入,它提出了一种仅基于形状信息而忽略图像内容的9块拼图求解器后来,[22]开始利用形状和外观信息。该问题主要是预测一组平方块的排列,所有的挑战都与块的数量和尺寸有关,它们的完整性(如果所有的瓦片都可用/不可用)和同质性(存在/不存在来自其他图像的额外瓦片)。解决拼图游戏的算法的应用领域很广,从计算机图形学和图像编辑[8,40]到考古学中的重新组合文物[4,38],从生物学中的建模[31]到视觉表示的无监督学习现有的组装策略可以大致分为两大类:贪婪方法和全局方法。第一个是基于顺序成对匹配,而第二个搜索的解决方案,直接最小化的全球兼容性措施在所有的补丁。在贪婪方法中,[18]提出了一种最小生成树算法,该算法在尊重几何一致性约束的同时逐步合并组件。为了消除匹配的离群值,[41]在补丁之间引入了循环约束。这个问题也可以被公式化为一个分类任务,以预测一个补丁相对于另一个补丁的相对位置,如[15]所示。最近,[38]将补丁重排序表示为图上的最短路径问题,该图的结构取决于谜题的完整性和同质性。全局方法将所有补丁放在一起考虑,并使用马尔可夫随机场公式[9]或利用遗传算法[40]。在[42]中使用了关于邻居之间共识协议的条件,而[35]则关注涉及所有图像瓦片的可能排列相反,在[10]中通过近似置换矩阵并求解双层优化问题以恢复正确的排序来考虑整个置换集。无论具体的方法和应用如何,所有最新的深度学习拼图解决器都是通过处理单独的瓷砖来解决这个问题,然后找到一种方法来重新组合它们。这意味着设计瓦片专用的网络架构,然后遵循一些特定的过程,以在管理整个图像样本的更标准的设置中传输收集的知识。领域泛化和自适应领域泛化(DG)的目标是学习一个系统,该系统可以在多个数据分布中均匀地执行2231下令图像指数:p = 1排列:1,2,3,4,5,6,指数p = 2排列:9,2,3,4,5,6,7,8,1.指数p = P排列:1,9,.舒夫·德维德图像JJ图2.插图所提出的方法JiGen。我们从多个域的图像开始,并使用3×3网格将它们分解为9个补丁,然后随机洗牌并用于形成与原始图像相同维度的图像通过使用[35]中的最大汉明距离算法,我们定义了一组P片排列,并为每个排列分配一个索引 原始有序图像和混洗图像都被馈送到卷积网络,该卷积网络被优化以满足两个目标:对有序图像进行目标分类,对混洗图像进行拼图分类,即意义排列索引识别。选项。主要的挑战是能够从属于有限数量的人口来源的样本中提取最有用和可转移的一般知识。一些工作已经将问题简化为域自适应(DA)设置,其中完全标记的源数据集和来自不同目标域的未标记的示例集在这种情况下,所提供的目标数据用于指导源训练过程,然而,当改变应用目标时,源训练过程必须再次运行。为了更接近真实世界的条件,最近的工作已经开始关注源数据来自多个分布[30,48]并且目标仅覆盖源类的一部分[5,1]的情况。对于在训练时没有目标数据可用的更具挑战性的DG设置,以前的大部分文献提出了基于模型的策略来忽略来自多个源的域特定签名它们都是基于多任务学习[21]、低秩网络参数分解[26]或特定于域的聚集层[14]的浅层和深度学习替代解决方案基于域随机化的名称[43],用于模拟环境中的样本,其多样性通过随机渲染扩展。在[39]中,增广是用原始源物质的域引导扰动获得的即使在处理单个源域时,[46]表明,它仍然是可能的,通过定义虚构的目标分布在一定的Wasserstein距离的源添加adversarially扰动样本。我们的工作站在这个DG框架,但提出了一个正交的解决方案,相对于以前的文献,通过调查的重要性,共同利用监督和无监督的固有信号的图像。3. JiGen方法从多个源域的样本开始,我们希望学习一个模型,该模型可以在覆盖相同类别集的任何新目标数据群体上表现良好。让我们假设观察S域,其中i-第n个域包含Ni个标记实例{(xi,yi)}Ni 、J Jj =1源模型权重[29],或最小化验证从可用资源定义的虚拟测试上进行测量[25]。其他特征级方法搜索能够捕获多个域之间共享的信息的数据表示。在[20,27]中使用深度学习自动编码器对此进行了形式化,而[33]提出学习嵌入空间,其中相同类别但不同来源的图像 最近的工作[28]adversarially利用类特定域分类模块来覆盖协变量移位假设不成立并且源具有不同类条件分布的情况。数据级方法建议增加源域基数,目的是覆盖更大部分的数据空间,并可能更接近目标。这个解决方案最初是由其中xi指示第j个图像,并且yi∈{1,. . .,C}是它的类标签。JiGen的第一个基本目标是最小化损失Lc(h(x|θf,θc),y),它测量真实标签y和由深度模型函数h,由θf和θc参数化。 这些参数分别为网络的卷积部分和全连接部分定义了特征嵌入空间和最终分类器。与此同时,我们要求网络满足与解决拼图游戏有关的第二个条件我们从分解源图像使用一个规则的n×n网格的补丁,然后洗牌和重新分配到一个n2网格位置。从n2出来!可能的排列我们通过遵循汉明距离选择一组P个元素在[35]中,我们使用一个索引来指定每个en。Jigsaw分类器(排列索引)对象分类器(对象标签)Convnet.2232K试试 这样,我们在β = 0时定义了第二个分类任务。6意味着对于每一批,60%的图像是Ki标记的实例{(zi,pi)}Ki,其中zi指示剩下的40%,都是被淘汰的。 这最后K Kk =1k重构样本和pi ∈ {1,. - 是的- 是的,P}相关的每-通过交叉验证选择了三个参数,突变指数,我们需要最小化拼图损耗Lp(h(z|θf,θp),p). 这里,深度模型函数h具有用于对象分类的相同结构,并且与该深度模型函数共享参数θf。最终的全连接层专用于排列识别的参数化为θp。总的来说,我们通过以下方式训练网络以获得最佳模型:每个实验设置的源图像子集。我们设计了JiGen网络,使其能够在许多可能的卷积深度架构上发挥杠杆作用。实际上,删除网络中现有的最后一个完全连接的层,并用新的对象和拼图分类层 代 替 它 JiGen 使 用 SGD 求 解 器 进 行 训 练 , 30 个epoch,批量大小为128,学习率设置为ΣSargminΣNi Lc(h(xi|θf,θc),yi)+0的情况。001,下降到0。0001经过80%的训练J Jθ,θ,θ时代我们使用了一个简单的数据增强协议,Fc pi=1j =1ΣKi αLp(h(zi|θf,θp),pi)(1)随机裁剪图像以保留80-100%和随机应用的水平翻转。[37]K Kk=1其中Lc和Lp都是标准交叉熵损失。我们强调,拼图损失也计算在有序图像上。事实上,正确的补丁排序对应于到一个可能的排列,我们总是把它包括在考虑的子集P。另一方面,分类损失不受混洗图像的影响,因为这会使对象识别更加困难。在测试时,我们只使用对象分类器来预测新的目标图像。延伸到无监督域由于拼图任务的无监督性质,我们可以在训练时将JiGen扩展到目标域的未标记样本。这使我们能够利用拼图任务进行无监督的域自适应。在这种设置中,对于目标排序图像,我们最小化分类器预处理。通过经验entrop y损失LE (xt)确定不确定性y∈Yh(xt|θf,θc)log{h(xt|θf,θc)},而对于混洗的目标图像,我们继续优化拼图损耗Lp(h(zt|θf,θp),pt)。实现细节总体而言,JiGen1有两个参数与我们如何定义拼图任务有关,三个参数与学习过程有关。 前两项分别用于定义图像块的网格大小n×n和块置换子集P的基数。 正如我们将JiGen对这些值具有鲁棒性,并且对于我们所有的实验,我们使用3×3贴片网格和P=30保持它们固定。剩余的参数是拼图损失的权重α,以及当包括在优化过程中时分配给熵损失的η,无监督域自适应。最后的第三个参数调节数据输入过程:混洗图像与原始有序图像一起进入网络,因此每个图像批次包含它们两者。我们定义了数据偏差参数β来指定它们的相对比率。例如1代码可在https://github.com/fmcarlucci/JigenDG我们随机地(10%的概率)将图像块转换为灰度。4. 实验数据集为了评估JiGen在多个源上训练时的性能,我们考虑了三个域泛化数据集。PACS[26]涵盖7个对象类别和4个领域(照片、艺术绘画、卡通和素描)。我们遵循[26]中的实验协议,并将三个域作为源数据集,其余一个作为目标来训练我们的模型。VLCS[44]聚集了PASCAL VOC 2007、LabelMe、Caltech和Sun数据集共享的5个对象类别的图像,这些数据集被视为4个独立的域。我们遵循[20]的标准协议,通过从整个数据集中随机选择将每个域分为训练集(70%)和测试集(30%)。Office-Home数据集[45]包含来自4个领域的65类日常对象:艺术,剪贴画,产品和现实世界。特别地,产品图像来自供应商网站并且显示白色背景,而真实世界表示用常规相机收集的对象图像对于这个数据集,我们使用了与[14]相同的实验方案。请注意,在域类型方面,JiGen-Home和PACS是相关的,并且将两者视为测试床以检查当类别数量从7变为65时JiGen是否缩放是有用的。相反,VLCS提供了不同的挑战,因为它结合了加州理工学院的对象类别与其他领域的场景图像。为了理解即使在处理单一来源时,解决拼图游戏是否支持泛化,我们将分析扩展到数字分类,如[46]所示。我们在MNIST数据集[24]并在MNIST-M [19]和SVHN [34]的相应测试集上进行评估。为了使用可比较的数据集,将所有图像的大小调整为32×32,作为RGB处理。拼图的基于块的卷积模型我们通过评估现有拼图相关的基于块的卷积模型的应用来开始我们的实验分析。2233PACs艺术颜料卡通素描照片Avg.CFN -AlexnetJ-CFN-Finetune47.2362.1858.0370.1859.41J-CFN-Finetune++51.1458.8354.8573.4459.57C-CFN-Deep全部59.6959.8845.6685.4262.66C-CFN-吉根60.6860.5555.6682.6864.89AlexnetResNet-18[14个]全部深入77.8775.8969.2795.1979.55D-Sam77.3372.4377.8395.3080.72全部深入77.8574.8667.7495.7379.05继根79.4275.2571.3596.0380.51表1. PACS上的域概括结果。JiGen的结果是每次运行三次重复的平均值每个列标题指示用作目标的域的名称。我们使用粗体来突出泛化方法的最佳结果,而当一个结果高于所有其他结果时,尽管它是由朴素的Deep All基线产生的,但我们会给它加下划线上图:与之前使用拼图任务作为借口,使用上下文无关的siamese-ennead网络(CFN)学习可转移特征的方法进行中心和底部:分别使用Alexnet和Resnet-18架构时,JiGen与几种主要泛化方法的图3.当草图用作目标域时,Alexnet-PACS DG设置上的混淆矩阵的体系结构和模型的领域推广任务。 我们考虑了两个最近的作品,提出了一个拼图求解器9洗牌补丁从图像由规则的3×3网格分解。[35]和[37]都使用上下文无关网络(CFN),具有9个暹罗分支其分别从每个图像块中提取特征,然后在进入最终分类层之前重新组合它们。具体来说,每个CFN分支都是一个Alexnet[23]直到第一全连接层(FC6),并且所有分支共享它们的权重。最后,分支拼图任务被形式化为补丁置换子集上的分类问题,并且一旦网络在Imagenet的洗牌版本上训练[12],则学习的权重可以用于初始化标准Alexnet的conv层,而网络的其余部分从头开始训练,以完成新的目标任务。事实上,根据原始作品,学习的表示能够从图像中捕获语义相关的内容,而不管对象标签如何。我们遵循[35]中的说明,并从作者提供的预训练Jigsaw CFN(J-CFN)模型开始,对PACS数据集进行微调以进行分类,所有源域样本聚合在一起。在表1的顶部,我们用J-CFN-Finetune表示本实验的结果使用拼图模型提出在[35]中,而使用J-CFN-Finetune++则是[37]中提出的高级模型在这两种情况下,域上的平均分类准确率都低于标准Alexnet模型所能获得的准确率,该模型在Imagenet上针对对象分类进行了预训练,并对聚合在一起的所有源数据进行了微调我们用Deep All指示这种基线方法,并且我们可以使用表1的以下中心部分中的相应值作为参考我们可以得出结论,尽管它作为一个无监督的借口任务的权力,完全无视对象标签时,解决拼图会导致语义信息的损失,可能是跨域的推广至关重要。为了证明CFN架构的潜力,[35]的作者还使用它来训练Imagenet(C-CFN)上的监督对象分类模型,并证明它可以产生类似于标准Alexnet的结果。为了进一步测试这个网络,以了解其独特的siamese-ennead结构是否以及在多大程度上有助于提取跨领域的共享知识,我们将其视为JiGen的主要卷积骨干。从作者提供的C-CFN模型开始,我们在PACS数据上运行获得的C-CFN-JiGen,以及禁用拼图丢失(α=0)的普通对象分类版本,我们将其表示为C-CFN- Deep All。从获得的识别准确率,我们可以说,结合拼图与分类任务提供了一个平均的性能改善然而,C-CFN-Deep All仍然低于使用标准Alexnet获得的参考结果[26日]全部深入TF63.3062.8663.1366.9754.0757.5187.7089.5067.0569.21全部深入57.5567.0458.5277.9865.27[28日]DeepC62.3069.5864.4580.7269.26CIDDG62.7069.7364.4578.6568.88[25日]全部深入64.9164.2853.0886.6767.24MLDG66.2366.8858.9688.0070.01[14个]全部深入64.4472.0758.0787.5070.52D-Sam63.8770.7064.6685.5571.202234对于所有以下实验,我们考虑JiGen的卷积架构,其构建有与Alexnet或Resnet相同的主结构,始终使用图像作为整体(有序或混洗),而不是依赖于单独的基于补丁的网络分支。基于Alexnet对J-CFN-Finetune ++和JiGen在具有挑战性的草图域上的每类结果进行了详细比较,结果显示,对于七个类别中的四个类别,J-CFN-Finetune++实际上做得很好,优于Deep All。使用JiGen,我们通过在图像级别解决拼图游戏来改进相同类别的Deep All,并且我们保留了Deep All的优势。多源域泛化我们比较了JiGen与几种最近的域泛化方法的性能。TF是低秩参数化网络,与[26]中的数据集PACS一起提供。CIDDG是在[28]中提出的条件不变深域泛化方法,其训练具有两个对抗性约束的图像分类:一个是最大化[19]之后的整体域混淆,第二个是每个类都做同样的事情。在DeepC变体中,仅启用第二个条件。MLDG[25]是一种元学习方法,它在训练过程中模拟训练/测试CCSA[33]学习嵌入子空间,其中映射的视觉域在语义上对齐,但最大限度地分离。MMD-AAE[27]是一种基于对抗性自动编码器的深度方法,它通过最大平均差异(MMD)将数据分布与任意先验对齐来学习SLRC[13]基于单域不变网络和多个域特定网络,并在其中应用低秩约束。D-SAM[14]是一种基于使用特定领域聚合模块的方法,用于提高模型泛化能力:它提供了PACS和EMA-Home上的当前sota结果。对于这些方法中的每一种,Deep All基线指示当禁用所有引入的域自适应条件表1的中部和底部显示了JiGen在数据集PACS上使用Alexnet和Resnet-182作为骨干架构时的结果。平均而言,Ji-Gen在使用Alexnet时会产生最好的结果,并且仅略差于Resnet-18的D-SAM参考然而,请注意,在最后一种情况下,JiGen在四个目标情况中的三个中优于D-SAM,并且D-SAM的平均平均而言,JiGen还优于VLCS和E-Home数据集上的竞争方法(分别参见表2和表3)。特别是,我们注意到VLCS是一个艰难的环境,其中最新的作品只有2对于Resnet 18,为了让JiGen与D-SAM平起平坐,我们遵循了[14]中相同的数据增强协议,并启用了颜色抖动。VLCS加州理工Labelme Pascal孙Avg.Alexnet表2. VLCS上的域泛化结果。 有关运行次数、列的含义和粗体/下划线字体的使用的详细信息,请参见表1。办公室-家庭艺术剪贴画产品真实世界平均ResNet-18[14个]全部深入55.5942.4270.3470.8659.81D-Sam58.0344.3769.2271.4560.77全部深入52.1545.8670.8673.1560.51继根53.0447.5171.4772.7961.20表3.域泛化结果在P2P-主页上。有关运行次数、列的含义和粗体/下划线字体的使用的详细信息,请参见表1。相对于相应的DeepAll基线(例如,TF)。由于[14]没有在VLCS数据集上呈现D-SAM的结果,因此我们使用作者提供的代码来运行这些实验。所获得的结果表明,虽然通常能够关闭大的域差距在PACS和办公室家庭不同风格的图像,当处理域都来自现实世界的图像,使用聚合模块不支持泛化。消融我们专注于Alexnet-PACS DG设置的拼图和学习模型中的对象分类任务的各自角色的消融分析。在这些实验中,我们使用3×3的贴片网格和P=30个拼图类。{α=0,β=1}表示拼图任务已关闭,数据批只包含原始有序图像,对应于Deep All。分配给数据偏差β的值驱动整体训练:它将焦点从使 用 低 值 时 的 拼 图 ( β<0. 5 ) 当 使 用 高 值 ( β≥0.(五)。通过将数据偏差设置为β=0。6.我们为网络提供比混洗图像更有序的图像,从而保持分类,作为网络的首要目标。在这种情况下,当改变拼图损失重量α在{0. 1,1},我们观察到的结果总是在统计学上等于或优于Deep All基线,如图1的第一个图所示。全部深入85.7361.2862.7159.3367.26[28日]DeepC87.4762.6063.9761.5168.89CIDDG88.8363.0664.3862.1069.59[33个]全部深入86.1055.6059.1054.6063.85CCSA92.3062.1067.1059.1070.15[13个国家]全部深入86.6758.2059.1057.8665.46SLRC92.7662.3465.2563.5470.97[26日]全部深入93.4062.1168.4164.1672.02TF93.6363.4969.9961.3272.11[27日]MMD-AAE94.4062.6067.7064.4072.28[14个]全部深入94.9557.4566.0665.8771.082235=0.6,=0.9,P=30对象分类拼图分类精度7574737271700.10.2 0.3 0.4 0.5 0.6 0.7 0.81拼图减肥图4. Alexnet-PACS DG设置上的消融结果。报告的准确度是所有目标域的全局平均值,每次运行重复三次。红线代表表1中的Deep All100737290718070706968600 10 20 30历元10090807060=0.6,=0.9拼图分类57103050100300500 1000拼图类P当从2×2网格传递到4×4网格时,变化有限,证实了[35]和[10]中已获得的该参数的稳健性结论。此外,所有结果优于Deep All参考。除了支持对象分类器的泛化之外,检查jigsaw分类器本身是否产生有意义的结果也很有趣。我们展示其图5.在Alexnet-PACS DG设置上分析拼图分类器的行为。对于左边的图,每个轴指的是图中的颜色匹配曲线。图4.第二幅图表明,对于高α值,调整β对整体性能有显著影响。实际上,{α=1,β= 1}意味着拼图任务已经开始,并且在学习过程中高度相关,但我们只向网络提供有序的图像:在这种情况下拼图任务是微不足道的,并且迫使网络总是识别相同的置换类,这可能增加数据记忆和过拟合的风险,而不是规则化学习过程。进一步的实验证实,对于β=1但较低的α值,JiGen和Deep All表现同样出色。设置β=0意味着只向网络提供混洗图像。对于每个图像,我们有P个变体,其中只有一个变体具有正确顺序的补丁,并被允许进入对象分类器,从而大大减少了实际批量大小。在这种情况下,对象分类器不能收敛,不管拼图分类器是否活动(α >0)或不活动(α=0)。在这些情况下,准确率非常低(20%),因此我们没有在图中显示它以便于可视化。<拼图超参数调整通过使用与前一段相同的实验设置,图4中的第三幅图显示了当拼图类P的数量在5和1000之间变化时的性能变化我们从一个较低的数字开始,与PACS中对象类的数量具有相同的量级,并且我们增长到1000,这是[35]中用于实验的数量我们观察到准确性的总体变化为1.5个百分点,仍然(几乎总是)高于Deep All基线。最后,我们做了一个测试,当在用于评估对象分类器的相同图像上进行测试但具有混洗的块时,识别准确性。在图5中,第一个图显示了对象和拼图分类器在学习时期的准确度,表明两者同时增长(在不同的尺度上)。第二幅图显示了当改变排列类P的数量时的拼图识别精度:当然,当任务变得更加困难时,性能会下降,但总体而言,所获得的结果表明拼图模型在重新排序混洗的补丁时总是有效的。模型的泛化能力取决于所选择的学习过程和所使用的训练数据。为了研究形式和更好地评估由拼图任务提供的正则化效果对于这些实验,我们与最近在[46]中提出的基于对抗数据增强(Adv.DA)的泛化方法进行了比较。这项工作提出了一个迭代过程,扰动样本,使他们难以识别在当前模型下,然后将它们与原始的,同时解决分类任务。我们重现了[46]中使用的实验设置,并在MNIST上训练时采用类似的结果在图6中,我们显示了改变数据偏差β和拼图权重α时JiGen的性能。我们用红色背景阴影表示当改变其参数 3时Adv.DA 结 果 覆 盖 的 总 体 范 围 , 而 水 平 线 是 参 考Adv.DA结果,[46]的作者围绕其参数消融分析。该图表明,虽然Adv.DA可以达到高峰值,检查更改网格大小时的准确性,并注意最近的补丁号码。 即使在这种情况下,3的范围。整个结果集作为[46]的补充材料提供。=0.6,P=30全部深入继根精度精度2236高级专员达继根Adv.DA=1,K=2高级专员达继根Adv.DA=1,K=2高级专员达继根高级专员达继根精度精度MNIST-MMNIST-MSVHNSVHN拼图重量=0.9数据偏见=0.9拼图重量=0.9数据偏倚=0.960 6034 3458 5832 3256 5630 30540.00.50.60.70.80.9540.00.10.30.50.70.9280.00.50.60.70.80.9280.00.10.30.50.70.9数据偏见拼图砝码数据偏见拼图砝码图6.单源域泛化实验。我们分析了JiGen的性能,并与Adv.DA方法进行了比较[46]。阴影背景区域覆盖了当改变方法的超参数时获得的Adv.DA结果的总体范围。在此用水平红线表示Adv.DA(γ= 1,K= 2)的参考结果及其标准差。蓝色直方图显示了JiGen在更改拼图权重α和数据偏差β时的性能。PACS-DA艺术涂料。 卡通素描照片ResNet-18Avg.作为额外域对齐条件的熵损失的最小化:以这种方式,当对目标样本进行预测时,鼓励源模型将最大预测概率分配给单个标签,而不是将其分布在多个类别选项上。为了进行公平的比较,我们还打开了权重η =0的JiGen的熵损失。1.一、此外,我们考虑了两种情况下的曲线锯损失:或者保持已经用于PACS-Resnet-18DG实验的源数据和目标数据的权重α(α=α s=α t=0.7),或处理域表4. PACS上的多源域自适应结果作为每次运行三次重复的平均值获得。除了考虑源样本和目标样本的相同拼图损失权重αs=αt外,我们还在保持α s = 0的情况下调整了目标拼图损失权重。7、我们可以得到更好的结果。值,它对所选择的超参数也非常敏感。另一方面,JiGen更稳定,并且始终优于Adv.DA的较低准确度值,SVHN和数据偏差0.5是一个例外,但我们从消融分析中得知,这对应于对象和拼图分类正确组合的极限情况。此外,JiGen接近MNIST-M的Adv.DA参考结果,并显著优于SVHN。无监督领域自适应当训练时有未标记的目标样本时,我们可以让拼图任务涉及这些数据。实际上,块重新排序不需要图像标签,并且对源数据和目标数据两者运行锯齿形优化过程可以积极地影响用于适应的源分类模型为了验证这种直觉,我们再次考虑了PACS数据集,并将其用于[30]的相同无监督主适应设置中。这一先前的工作提出了一种方法,该方法首先发现源数据中多个潜在域的存在,然后根据它们各自的相似性将它们的知识不同地适应目标。已经证明,当源实际上包括多个域时,这种域发现(DDiscovery)技术优于其他强大的自适应方法,如Dial[6]。这两种方法都利用了分别与拼图目标损失的专用权重(α s=0. 7,α t=[0. 1,0。3,0。5,0。9])。该设置的结果总结见表4。所获得的准确性表明,JiGen优于竞争方法的平均水平,特别是在识别困难的任务素描此外,该优点仍然是真实的,不考虑目标拼图减肥的具体选择5. 结论在本文中,我们第一次表明,跨视觉域的一般化可以有效地实现学习分类和学习内在的图像入侵在同一时间。我们专注于学习图像部分的空间协同定位,并提出了一个简单而强大的框架,可以容纳广泛的预训练卷积架构。实验结果表明,我们的方法JiGen可以无缝,有效地用于域适应和泛化。我们认为这篇论文为领域适应和泛化开辟了一条新的研究思路。虽然我们在这里关注的是一种特定类型的不变性,但可以学习其他几种不变性,这可能会带来更大的好处。此外,我们的方法的简单性要求在不同于对象分类的应用中测试其有效性,如语义分割和个人重新识别,其中域转移效应强烈影响方法在野外的部署。致 谢本 工 作得 到 了 ERC 基 金637076 RoboExNovo 和NVIDIA学术硬件基金的支持。精度精度全部深入74.7072.4060.1092.9075.03[30]拨号87.3085.5066.8097.0084.15DDiscovery87.7086.9069.6097.0085.30全部深入77.8574.8667.7495.7379.05JiGenαs = αt =0。784.8881.0779.0597.9685.74JiGenαt=0。185.5882.1878.6198.2686.15JiGenαt=0。385.0881.2881.5097.9686.46JiGenαt=0。585.7382.5878.3498.1086.19JiGenαt=0。985.3280.5679.9397.6385.862237引用[1] 加布里埃尔·安杰莱蒂芭芭拉·卡普托和塔蒂亚娜·托马西通过视觉域定位的自适应深度学习。2018年国际机器人自动化会议(ICRA)。[2] Jeffrey Bisanz,Gay L.作者声明:John W. 儿童学习:认知发展研究进展。Springer-Verlag,1983.[3] Konstantinos Bousmalis , George Trigeorgis , NathanSilber-man,Dilip Krishnan,and Dumitru Erhan.域分离网络。在神经信息处理系统(NIPS),2016年。[4] 本尼迪克特·J·布朗、科里·托莱·富兰克林、迭戈·内哈布、迈克尔·伯恩斯、大卫·多布金、安德烈亚斯·弗拉乔普洛斯、克里斯·杜马斯、西蒙·鲁辛凯维奇和蒂姆·韦里希。一种用于大量采集和匹配壁画碎片的系统:重新组装 Theran 壁 画 ACM Transactions on Graphics ( Proc.SIGGRAPH),27(3),Aug. 2008.[5] Zhangjie Cao,Lijia Ma,Mingsheng Long,and JianminWang.部分对抗域自适应。2018年欧洲计算机视觉会议(ECCV)[6] 法比奥·玛丽亚·卡卢奇,洛伦佐·波尔齐,芭芭拉·卡普托,埃莉萨·里奇和塞缪尔·罗塔·布尔。只需拨号:域对齐-ment层的无监督域适应。图像分析与处理国际会议(ICIAP),2017年。[7] 瑞奇·卡鲁阿纳多任务学习。马赫学习. ,28(1):41[8] Taeg Sang Cho,Shai Avidan和William T.弗里曼。面片变 换 。 IEEE Transactions on Pattern Analysis MachineIntelligence,32:1489[9] Taeg Sang Cho,Shai Avidan和William T.弗里曼。一个概率 图像 拼图 解决 方案 。计算 机 视觉 和模 式识 别(CVPR),2010年。[10] Rodrigo Santa Cruz,Basura Fernando,Anoop Cherian,and Stephen Gould.视觉排列学习。在计算机视觉和模式识别(CVPR),2017年。[11] Gabriela Csurka编辑计算机视觉应用中的领域自适应。计算机视觉与模式识别进展Springer,2017.[12] Jia Deng,Wei Dong,Richard Socher,Li jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。计算机视觉与模式识别会议(CVPR),2009年。[13] 丁正明和傅云。具有结构化低秩约束的深度域泛化。IEEE Transactions on Image Processing,27:304[14] 安东尼奥·德诺森特和芭芭拉·卡普托使用特定于域的聚合 模 块 进 行 域 生 成 。 2018 年 德 国 模 式 识 别 会 议(GCPR)。代码可在https://github.com/VeloDC/D-SAM_public上获得。[15] Carl Doersch、Abhinav Gupta和Alexei A.埃夫罗斯通过上下文预测的非监督视觉表示学习2015年,国际计算机视觉会议(ICCV)。[16] 放大图片作者:Steven L. Franconeri和Sandra R.很小的婴儿通过视觉形式学习抽象的规则。PLOS ONE,13(1):1[17] 赫伯特·弗里曼和L.园丁Apictorial jigsaw puzzles:模式识 别 问 题 的 计 算 机 解 法 。 IEEE Trans. ElectronicComputers,13(2):118[18] Andrew C.加拉格方向不明的拼图
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功