Meta特征组合的单域泛化问题的解决

129 浏览量更新于2023-10-25 收藏 1.31MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4682-是的��。-是的��局部特征分解。Meta特征组合解决S单域推广的Meta卷积神经网络王超群1，徐申1，张永刚2，颜志恒3，田新梅2，高锋4，黄建强1，华先胜11阿里云计算有限公司，2中国科学技术大学3密歇根大学4浙江实验室{qionglong.wcq，shenxu.sx，jianqiang.hjq，xiansheng.hxs} @ alibaba-inc.com，yonggang@mail.ustc.edu.cn，yzhiheng@umich.edu，xinmei@ustc.edu.cn，gaof@zhejianglab.com摘要在单域泛化中，仅用来自一个域的数据训练的模型需要在许多看不见的域上表现良好。本文提出了一种新的模型，称为Meta卷积神经网络，以解决图像识别中的单域泛化问题。关键思想是将卷积分解为视觉单词量化直方图构成图像的特征转化为Meta特征。作为以Meta特征为参考，我们提出了一种组合操作，通过寻址过程消除局部卷积特征中的不相关特征，然后将卷积特征映射重新表示为相关元特征的组合通过这种方式，图像被普遍编码，而没有来自看不见的域的有偏信息，这些信息可以通过在源域中训练的以下模块来处理。合成操作采用回归分析技术，以在线批量学习的方式学习Meta特征。在多个基准数据集上的实验验证了该模型在提高单领域泛化能力方面的优越性。1. 介绍近年来，深度学习模型被广泛用于视觉任务然而，当应用于看不见的或分布外（OOD）测试域时，在源域上训练的模型的性能可能会显着下降。在实践中，由于照明、物体外观或背景的变化，域偏移问题非常常见[4，30]。为了解决这个问题，很多人-*通讯作者。(a) 视觉词汇袋（BoVW）Meta特征(b) Meta Features（BoMF）图1.一袋视觉词汇和一袋Meta特征。两者都遵循三步过程来构建输入的一般表示。(a)首先通过SIFT [24]提取局部特征，然后量化为视觉词。最后给出了视觉词的频率直方图。(b)输入特征首先通过滑动窗口分解为局部特征。然后，寻址操作选择与这些局部特征相关的Meta特征。最后，采用线性回归模型来合成基于所选择的Meta特征的输出表示。主要适应 [2，4，23，42]和域泛化[3，5，14，33，41，45，46，49]已提出方法。这些方法在将知识从多个源域转移到目标域的策略上有所不同然而，更合理的是考虑一个更现实的场景，其中只有一个单一的域可用于训练，并且训练的模型需要在多个看不见的域上表现良好，即。例如，单域泛化单域推广是一个重要而又具有挑战性的问题。局部特征提取………4683lenging问题。为了在实际场景中进行大规模视觉应用，我们专注于提高CNN的单域泛化能力。最近，只有少数工作被提出来解决这个问题，包括数据增强[32，43，45]和正则化[32，39]。基于数据增强的方法从输入空间中的许多“虚拟”域生成更多样化的数据用于训练。基于正则化的方法主要关注源数据和增强数据中特征之间一致性的损失。在本文中，我们从一个新的角度解决了单域泛化问题：开发一种新的卷积模型，称为Meta CNN。我们的动机是堆叠胶囊自动编码器（SCAE）[17]，其中图像被分割成组成部分，并通过通用部件模板的组合进行重建。同样，我们相信输入图像的卷积特征也可以分解为通用和基本的视觉特征。然后，这些基本的视觉特征被用作“模板”来组成训练域中的图像的一般表示。然而，由于域间隙，来自不同域的特征不能由这些训练的模板直接重建。在元数据标准化之后[25]，这种局部特征的域移位效应可以由于βM对应于由Meta特征解释的f中的分量，因此通过消除r来在源域中重构来自移位域的特征。因此，对于CNN块，通过将βM而不是f馈送到下面的卷积运算中，消除了输入特征中的域移位的影响。为了实现这一目标，我们遵循视觉词袋（BoVW）[6，24，37]的过程，其中每个图像通过3个步骤由“视觉词”的直方图表示1a）。我们提出了相应的3步CNN块合成操作：1）将图像的卷积特征分解为局部Meta特征作为通过这种方式，图像被普遍编码，而没有来自不可见域的有偏信息，这些信息可以通过在源域中训练的以下模块来处理（见第1b段）。在CNN构建块中应用Meta特征的组合操作的挑战在于四个方面：1）局部特征提取。对于BoVW，首先通过关键点检测定位局部特征，然后通过局部图像块的手工操作提取局部特征。这两种操作都是不可微的，使得最终不可行。在CNN块中进行批量学习由于卷积特征图的表示和位置是以网格方式同时编码的，因此我们建议将特征图分解为具有滑动窗口的局部补丁，这与CNN块中的以下卷积/池化操作兼容。2)本地特征寻址。在BoVW中，每个局部特征被映射到某个视觉词，其中为了小的映射误差，需要足够密集且足够大的视觉词集合。然而，在深度学习领域，批量训练和推理的存储受到GPU的限制。因此，我们建议将局部特征映射到Meta特征的组合，其中元特征集的表达能力被扩大。通过这种方式，在可行的存储机会下允许适度的Meta特征集。 3)Meta特征组合在BoVW中，图像由视觉词的频率直方图表示，这是不可微的，并且缺乏图像块的空间和内容信息。为了保持卷积特征的内容和空间信息，我们建议通过Meta特征的线性插值来表示局部补丁特征。4)Meta特征学习在BoVW中，对数据集中的所有局部特征执行聚类，每个聚类的中心被用作视觉词。然而，深度学习模型是以在线批量学习的方式训练的因此，我们采用最大似然估计的回归分析来更新训练过程中的Meta在多个基准数据集上的大量实验表明，该模型在解决单领域泛化问题方面具有优越性。更重要的是，这些结果揭示了卷积Meta特征用于一般图像表示的潜力2. 相关工作视觉词袋模型（BagofVisualWords，BoVW）是计算机视觉中应用最广泛的图像识别模型之一为了使用BoVW模型表示图像，可以将图像视为包含一系列“视觉单词”的文档。BoVW的整个过程可以概括为三个步骤：局部特征提取、特征量化和直方图表示，如图所示1a. 对于局部特征提取，David Lowe发明的尺度不变特征变换（SIFT）[24]是将图像转换为大量无序特征向量的最令人印象深刻的方法因为这些特征不随图像比例和旋转而变化[24]。这些鲁棒的功能，然后量化的基础上的视觉字，即。例如，为每个提取的特征找到最近的邻居最后，图像可以用视觉词的频率直方图来表示。为了生成可靠的视觉词汇，可以对所有提取的特征执行k均值聚类视觉词汇然后被定义为中心的学习4684∈∈i=1i=1×4∈×4441 1 11----××××集群BoVW的一个臭名昭著的缺点是它忽略了斑块之间的空间关系。我们在实现Meta CNN时仔细考虑了这个问题。在讨论卷积神经网络的稳定性和鲁棒性时，领域推广是最具普遍性的问题之一它考虑了深度模型对未知域的泛化能力。现有的领域泛化方法大致可以分为两类：学习领域不变表示和数据扩充。学习域不变表示是为了减少不同源域表示之间的差异经典方法包括基于内核的方法[27]、域表示[10]、对比语义对齐损失[33] 、域不可知表示学习 [41] 和最大平均离散度（MMD）。最近，元学习过程已经被研究来解决领域泛化问题。Li等人提出并开发了一种用于领域泛化的基于梯度的模型不可知元学习算法[22]。Dou等人开发了情景训练方案，该方案强制特征从局部和全局的角度保持对齐[8]。 Du等将变分信息瓶颈与元学习相结合，以缩小源域之间的域间隙[46]。另一个是数据扩充。这类方法通常旨在生成各种类型的样本以扩大训练分布。这些样本与源样本一起用于训练网络，以提高泛化能力。例如，Riccardo等人提出基于对抗训练方案为分类器生成Shankar等人专注于域变化的方向，并建议沿此方向增加源样本[34]。Zhou等人利用条件生成对抗网络（GAN）来合成来自伪新颖域的数据Fabio等人从解决拼图游戏中开发了一种辅助的自我监督训练信号[5]。单域泛化是一个更具挑战性但现实的域泛化任务[32，48]。在这个任务中，网络只在一个源域上训练，并在多个看不见的域上进行评估。为了解决这一难题，基于梯度的图像增强是提高模型泛化能力的有效策略。Qiao等人建议通过Wasserstein自动编码器[32]鼓励潜在空间中增强图像和源图像之间的语义一致性。Zhao等人在对抗训练框架中引入熵最大化，以生成源样本的挑战性扰动[48]。[32，43]建议学习各种风格，以生成更多样化的图像。与现有的单域泛化方法不同，我们的方法旨在从每一个模型中发现深层模型的稳定性。1Comp…Comp倍…CompMeta功能Conv解决腐烂图2.建议的BoMF操作概述。首先将输入卷积特征图分解为局部特征。然后通过相关Meta特征的组合来细化局部特征。最后，细化的局部特征被折叠以生成最终的输出卷积特征图。模型架构的观点。3. 方法考虑输入卷积特征映射fR C× H × W和Meta特征集MR M× D，其中M是元特征的数量，D是每个元特征的维度。BoMF的目标是将卷积表示重新表述为Meta函数的组合，图尔斯岛例如，ff=BoMF（f;M）。关于BOMFOP-迭代由四个步骤组成，如图所示2：1）本地特征分解的目的是将特征图分割成局部块。2)局部特征寻址从元特征集中选择最相关的Meta特征。3)Meta特征合成通过整合所选择的元特征来生成细化的局部补丁。此外，通过折叠所有细化的局部特征来生成整个输出特征图。4）Meta特征学习是基于批量随机梯度下降的元特征更新详情如下所述。3.1. 局部特征分解局部特征分解旨在提取局部特征piN 从输入卷积特征图f通过滑动窗口（如图1b所示），N是局部补丁的数量。与卷积/池化类似，局部特征分解中的滑动窗口由窗口大小k c定义锦洪k w和步长ss shsw.这个过程对应于PyTorch [31]中的展开1操作，piN=unfold（f）。图1b示出了从输入fea中提取16个补丁的示例通过滑动窗口的真实映射，其中kc×kh×kw=C×H×W和sc×s h×s w=1×H× W。3.2. 本地功能寻址给定一个特定的局部特征pRc× h × w， =ch w和整个Meta特征集M，局部特征寻址的目的是选择最相关的Meta特征Mp从麻省提高合成效率，1 https：//pytorch. org/docs/stable/generated/torch.nn.Unfold.html4685ΓL||1Ti=1i=1i=1i=1CC联系我们--×为了表达Meta特征的力量，例如，minMp），其中p的拟合误差最小化。因此，该选择过程可以被公式化为稀疏编码问题[1，15]，即，基于p=rM+r估计系数向量r，min||p−ΓM||2s. t. ||Γ||1<美元。（一）这里，r是不相关的特征，并且1的约束控制所选择的Meta特征的数量。为了解决这个问题，一个常用的解决方案是迭代收缩保持算法（ISTA）[15，35].给定初始值Γ0= 0，ISTA迭代递归方程Γk+1=Sλ（rk+（p − rkM）M）多次。在这之后-表1.我们的Meta CNN模型用于数字分类。基线模型共享卷积和全连接模块的相同参数设置。k、s和#k表示内核大小、步幅和输出通道。n表示Meta特征的数量。层参数中具有相应非零值的Meta要素Γ被并入以构建Mp。3.3. Meta特征组合Meta特征合成首先将相关的元特征Mp进行组合，对p进行细化，然后根据局部特征的空间关系将细化后的为了在不损失内容的情况下去除p的不相关特征，采用一般线性模型（GLM）[26，28]通过p=βMp+r将局部特征p和Meta特征Mp相关联。最佳线性系数β由下式给出：封闭解β=（MTMp）−1MTp。在那里-其中，α1、α2分别是重建损失和分类损失的权重这两个目标之间的平衡推动Meta特征学习一般和歧视性的局部模式。p p因此，在不考虑不相关特征的情况下，基于所选择的Meta特征Mp，p=βMp=p MT（MpMT）−1pMp。（二）3.5. 实例化为了了解Meta CNN的行为，我们进行了p p为了保持细化局部特征的空间关系，通过将pN定位到与f中的pN相同的位置来构造最终输出特征映射f（如图1b右侧所示）。这是局部特征分解的逆过程，并且对应于折叠2Py T orch中的操作[31]，i. 例如， f=fo ld（{pi}N）。3.4. Meta特征学习第2节中描述的操作3.2与次级3.3基于已知的Meta特征集M来构建。一个未解决的问题是从随机初始化中学习这些Meta特征Meta feature learning旨在基于批量随机梯度下降从随机初始化中学习元特征集。给定最新的Meta特征M和一批输入特征fiB，首先基于Sec中的操作在前向传递中估计β3.1、3.2和3.3。然后，估计的β是固定的，Meta特征可以通过聚合来自等式（1）中的重建误差的梯度来更新。2和反向传播的梯度从超-分级损失Lcls：L=α1||βMp−p||2+α2Lcls，（3）2 https：//pytorch。org/docs/stable/generated/torch.nn.Fold.html综合消融实验的推广数字分类[7，9，20，29]。首先，我们描述了我们用于此任务的基线网络架构，然后将其扩展到Meta卷积神经网络。Plain Networks 与[34，50]一样，基线卷积神经网络由两个卷积块组成。每个卷积层之后是ReLU激活和2 2最大池化。分类器是三个完全连接的层的级联。除了BoMF操作的设置之外，普通网络与Meta CNN共享相同的设置（Meta CNN. 在Meta CNN中，两个额外的BoMF模块被插入到卷积块中。局部特征分解（“decomp”）和Meta特征（“meta feat”）的数量的4. 实验在本节中，实验设置和实施细节将在第2节中介绍4.1和4.2。节中4.3，在三个广泛使用的领域泛化基准上进行了实验。进一步的分析和可视化在第二节中提供。4.4BoMF1腐烂k=9×9×3，s=2×2×1Meta壮举n= 100convk=5×5，s=1;#k=64最大池1k=2 ×2BoMF2腐烂k=5×5×4，s=1×1×1Meta壮举n= 200convk=5×5，s=1;#k=128Maxpool2k=2 ×2FC13200 ×1024FC21024 ×10244686××||||||2M...1日本语简体中文图3.Meta卷积神经网络框架每个块由三个步骤组成：分解输入，基于Meta特征的局部特征组合和卷积操作。该网络以端到端的方式进行训练，具有一般的分类损失。4.1. 数据集和设置Digits由5个不同的数据集组成，包括MNIST [20]，SVHN [29]，MNIST-M [9]，SYN [9]和美国邮政[7]。不同数据集中的图像具有不同的字体样式、比例、背景、笔画颜色等。接下来[32，43，45]，选择MNIST训练集的前10，000个图像所有的图像都被转换成RGB，并在数据预处理过程中调整大小为32 32CIFAR-10-C，也称为损坏的CIFAR-10 [12]，是一个鲁棒性基准，由CIFAR-10 [18]测试集上的19种类型的这些损坏来自4个主要类别，天气，模糊，噪音和数字。每种腐败都有五个严重级别，在[43]之后，选择CIFAR-10的训练集作为训练的源数据集，而CIFAR-10-C中具有“5“级损坏的图像为简单起见，仅报告每个类别的准确度和所有类别的平均准确度。PACS[21]是最近提出的领域泛化基准数据集，具有四个领域，照片，艺术绘画，卡通和草图。每个域包含224个224图像属于七个类别，有9991个图片大全与数字数据集相比，PACS是一种更具有挑战性的数据集，因为域之间的风格变化很大在[43]之后，照片中的图像被选为训练的源域，而其他图像则用于评估。4.2. 实现细节对于BoFM操作，Meta特征被初始化为具有0的标准偏差的随机高斯噪声。01.在局部特征寻址步骤中，两个BoMF操作的所选择的Meta特征的平均数量Mp分别被控制在4和8 归一化系数c被设置为1，并且每个Meta特征通过M i被归一化在每次迭代之后[1]。在当地的FEA-我真正的学习步骤，以提高激活Meta特征和扩大学习语义信息的多样性表2.数字分类的单域泛化实验。模型在MNIST中的前10000个训练图像上训练MetaCNN实现了最佳性能，特别是在SYN和USPS上。SYN和USPS中的图像样式和背景都很简单，这两个数据集的图像更接近 MNIST中的图像。这反映了MetaCNN更适用于小的离散发散。方法SVHN MNIST-M SYN USPS平均ERM [40] 27.8352.72 39.65 76.94 49.29[33] 25.89 49.29 37.31 83.72 49.05[44] 26.22 50.98 37.83 93.16 52.05JiGen [5] 33.80 57.80 43.79 77.15 53.14[40] 20.51 20.41 20.32 77.26 54.62M-ADA [32] 42.55 67.94 48.95 78.53 59.49墨西哥-ADA [48] 81.04 59.32[45] 2016年12月25日 83.36 72.88L2 D [43] 62.86 87.30 63.72 83.97 74.46MetaCNN（我们的）66.50 88.2770.66 89.64 78.76在这种情况下，为Γ引入了偏置项。该偏差具有与r相同的维度，并且反映了Meta特征的使用（最新的它赋予那些很少更新的Meta功能很大的价值。因此，对Γ和偏差进行加权求和可以消除M的更新的不平衡。更多细节见补充材料。对于模型架构，我们针对三个数据集设计了特定的任务模型和不同的训练策略。具体而言，数字模型在第2节中描述。3.5.至于CIFAR-10-C和PACS，普通网络是WideRes- Net（16-4）[47]和AlexNet [19]，用于公平比较[43]。类似于Sec。3.5中，通过将两个额外的BoMF模块插入到WideResNet和AlexNet中的前两个卷积块来与表1不同，PACS的第一BoMF的核大小和步长在空间维度上被设置为17和4对于模型训练，批量大小设置为32，所有网络都通过Adam [16]进行优化将损失权重α1和α2设置为2。0和0。1最初α1基于余弦函数cos（epochπ）+1逐渐减小到0，|历元|ConvComp腐烂Meta功能FCFCFCConvComp腐烂Meta功能4687表3.数字分类的单域泛化实验。模型在CIFAR-10上进行训练，并在CIFAR-10-C上进行评估。“*”表示我们的实施。MetaCNN实现了最佳性能，特别是在模糊，噪声和数字方面。表4.数字分类的单域泛化实验。模型在照片上进行训练，并在其余目标域上进行评估（即。例如，艺术绘画、卡通和素描）。最好的成绩用粗体突出显示。这三个类别中的图像更接近CIFAR-10中的图像这反映了MetaCNN更适用于小的分布发散。L2D [43] 56.26 51.04 58.42 55.24MetaCNN（我们的）54.0553.58 63.88 57.17而α2在前10个时期期间线性地增加到1在Digits中，初始学习率为0。0035用于conv/fc，以及0的情况。001为BOMF。它的衰减系数为0。1在50和100个时期。训练总共持续120个时期。在CIFAR-10-C中，初始学习率为 0 。 0001 用于 conv/fc ， 0. 001 为BOMF。衰减学习率的策略与Digits相同。在PACS中，初始学习率为0。00035用于conv/fc，0. 01，因为训练数据的规模不足。学习率在24个时期衰减，总共30个时期。所有模型和优化都在PyTorch中实现[31]。4.3. 单域综合表2、3和4显示了对Digits、CIFAR-10-C和PACS的单域概括结果表明，与三个基准测试中的其他基线相比，MetaCNN实现了最高的平均准确度。具体而言，在表2中，改进为3。6%，0. 9%，6. 9%，5. SVHN、MNIST-M、SYN和USPS，与以前的最佳方法L2D相比在Ta-表3，有0。6%，10. 7%、4. 9%，3. 7%的改善天气，模糊，噪音和数字分别。在表4中，MetaCNN在汽车动画，草图和平均性能方面优于以前的方法。上述结果表明，提出的BoMF操作提高了模型的泛化能力，反映了通过Meta特征组合广义输出特征的有效性。此外，不同的数据集之间存在明显的差异，而不是不同的基准。在USPS/SYN [Dig- its]、模糊/噪声/数字[CIFAR-10-C]和卡通/草图[PACS]上的性能增益是可观的，但在MNIST-M [Digits]、天气[CIFAR-10-C]和艺术绘画[PACS]上的性能增益不足。有趣的是，这两组数据集的划分揭示了某种一致的规则。在第一组中，图像样式图像背景简单，与MNIST训练图像接近然而，在第二组中，图像具有复杂的风格和背景变化，这与训练图像非常不同因此，大的分布发散（域间隙）增加了识别给定元特征的卷积特征的总之，所提出的BoMF操作及其构造的MetaCNN在单域生成上是有效的，特别是对于具有小分布发散的数据。4.4. 消融研究本小节提供了BoMF中每个组件的消融研究和分析MetaFeatureLearning和MetaFeatureComposition直接影响BoMF的输出。图4a展示了学习的Meta特征e。例如，在一个实施例中，点、直线、圆弧、圆弧，表明Meta特征学习能够将局部特征解耦为基本元素。这些基本要素是用来组成的输出，如图所示。4b. 给定特定的局部特征，选择最相关的例如，在图1的第一行中。4b，数字“4“的局部贴片然后，选择左上角和右中点来完成剩余的结构。此外，复杂的局部补丁（补丁在“8“的中间）也可以被构造给定线性回归分析表明，该方法在学习Meta特征和合成一般图像特征方面是有效的。比较Meta特征合成的输入和输出，这两种操作在保留领域无关信息（结构等）方面也显示出了优越性。并移除域特定信息（样式、外观等）。本地功能寻址。表5比较了两种寻址技术的性能。“MetaCNN-方法一CSAvgERM [40]54.4342.7442.0246.39JiGen [5]54.9842.6240.6246.07RSC []56.2639.5947.1347.66ADA [40]58.7245.5848.2650.85M-ADA [32]58.9644.0949.9651.00方法天气模糊噪声数字AvgERM [40]67.2856.7330.0262.3054.08CCSA [33]67.6657.8128.7361.9654.04D-SNE [44]67.9056.5933.9761.8355.07M-ADA [32]75.5463.7654.2165.1064.65L2D [43]75.9869.1673.2972.0272.61[45]第四十五话76.8755.3675.1977.5171.23MetaCNN（我们的）77.4476.8078.2381.2678.454688∼(a) 学习的Meta特征（b）Meta特征组合图4. (a)Meta特征的学习结果。独特的地方模式，E。例如，在一个实施例中，可以从局部特征中提取线、圆、边、点、弧、甚至一些(b)Meta特征合成的过程。给定一个特定的局部特征，最相关的Meta特征被选择并线性组合以组成输出。(a)w/o addressing（b）w/ addressing（b）w/addressing图5.比较学习的Meta功能w/o本地功能寻址。更有意义和多样化的地方模式学习的基础上解决。表5.通过实验评估局部特征寻址的有效性“M“表示跳过寻址并使用所有Meta功能。“Mp“表示使用本地特征寻址。方法SVHN MNIST-M SYN USPS平均MetaCNN-M62.84 85.62 65.45 83.21 74.28MetaCNN-M p66.5088.2770.66 89.64 78.76表示本地特征寻址，而结果表明，局部特征寻址能提高算法的泛化能力.一方面，通过稀疏编码实现局部特征另一方面，稀疏约束推动Meta特征选择更多相关的局部特征，学习更多的鉴别模式。图5可视化了具有和不具有本地特征寻址的学习的Meta特征。图5b包含更多样化的局部模式，i. 例如，点、直线、圆弧，显示局部特征寻址的重要性。超参数是局部特征分解中的核大小k和步长s，以及元特征学习中的Meta特征大小M。图7a和7b评估了图6.局部特征之间的相似性（欧几里得距离）w.r.t.不同的滑动窗口大小。斑块大小越大，相似性越高。在右边，一个具有高相似性的局部特征的情况下，每个补丁大小。不同外观和小距离之间的对比揭示了将输入特征图分解为具有小块尺寸的局部特征的必要性。两种BoMF操作在不同核大小和步长上的泛化性能结果表明，中等粒级的玉米产量最高。图7c表明，在Meta特征的数量达到200之后，准确度变得相对稳定。图6探讨了不同核大小下局部斑块的相似性不同的外观和小距离之间的对比揭示了将输入特征图分解为具有小块尺寸的局部特征的必要性。4.5. 更深的Meta CNN先前的实验在具有两个区块的Meta CNN上进行（表6中的BoMF1和2为了研究更深的Meta CNN的有效性，将两个更多的组成块添加到上述主链。该算法的核尺寸和步长分别为3×3×4和1×1×1…………………Meta功能残差弧点边缘界线��−��4689(a) BoMF1中的核大小步长（b）BoMF2中的核大小步长（c）Meta特征的图7. BoMF的超参数分析。(a)（b）：不同内核大小和步长的性能表明中等内核大小实现最佳性能。(c)随着Meta特征数量的增加，性能相对稳定。它表明BoMF1和BoMF2的Meta特征数量在100和200时是足够的。表6.不同深度的Meta CNN的性能。更深骨干的优越性能表明BoMF操作是卷积块的通用组件。BoMF1 β3BoMF1β 466.7388.7171.7689.79 79.24MNIST-M SVHN原始输入成分输出MNIST移除纹理移除样式局部特征图8.未知数据的Meta特征组合结果的可视化MNIST-M/SVHN中不相关的纹理和样式被删除，合成输出接近MNIST中的训练图像。位置操作。卷积的内核大小/步幅为3/1。表6示出了具有各种深度的Meta CNN的性能。更深骨干的优越性能表明，所提出的BoMF操作是卷积块的通用组件。4.6. 未知数据图8示出了未知数据的Meta特征组合的输出。在MNIST-M中，背景纹理导致手指边缘模糊。在SVHN中，挖掘的风格- 它与MNIST中的不同的帮助下BoMF，大多数纹理在MNIST-M的合成输出中被移除，并且在Meta特征合成之后，SVHN中的特殊样式被这些合成的输出接近MNIST中的图像，表明Meta特征组合在消除域间隙方面的有效性。5. 讨论局限性和未来工作。本文重点研究具有高性能而非效率的通用模型。这项工作的局限性在于所提出的局部特征分解和Meta特征组合的额外计算成本。这种限制可以通过使用关键点来提取局部特征来轻松缓解。我们将在未来讨论更多的选择。潜在的社会影响。BoMF被证明是提高模型泛化能力的一种有效而通用的操作.因此，本文的工作具有提高模型在实际应用中对未知数据的泛化能力6. 结论在这项工作中，我们提出了一个新的角度为单域推广。提出了组合操作BoMF，并通过局部特征分解、局部特征寻址、Meta特征组合和元特征学习四个步骤建立组合操作BoMF。在三个单域泛化基准数据集上的实验表明了该模型的有效性.广泛的可视化揭示了BoMF学习表达性Meta特征的潜力，用于图像的一般表示。确认本工作得到了国家重点研发项目（ No.2020AAA0103903 ）、阿里巴巴创新研究（AIR）项目和国家自然科学基金（No.61872329）的资助。方法SVHNMNIST-MSYNUSPSAvgBoMF164.8686.3068.7288.9777.21BoMF1 β266.5067.2388.2788.6370.6671.4489.6490.0778.7679.344690引用[1] M. Aharon，M. Elad和A. M.布鲁克斯坦K-SVD：一种设计稀疏表示的过完备字典的算法。IEEE Transactions onSignal Processing，54（11）：4311[2] M. Baktashmotlagh、M. T.哈兰迪湾C. Lovell和M.萨尔茨曼基于域不变投影的无监督域自适应. InICCV，2013.[3] Y. Balaji、S. Sankaranarayanan和R.切拉帕Metareg：使用元正则化进行域泛化NeurIPS，2018。[4] S. 本-戴维布利泽，K。克拉默，A。库莱萨河Pereira和J.W.沃恩从不同领域学习的理论。Machine learning，79（1）：151[5] F. Maria Carlucci，A. D'Innocente，S.布奇湾卡普托，还有T.托马西通过解决拼图问题进行领域综合。在CVPR，2019年。[6] G.丘尔卡角丹斯湖Fan，J. Willamowski，and C.布雷。使用关键点包进行视觉分类2004年，ECCV车间[7]J. S. Denker，W.R. Gardner，H.P. Graf，D.亨德森R. E. Howard，W.哈伯德湖D. Jackel，H.S. 贝尔德，以及I. Guyon手写邮政编码数字的神经网络识别器。在NeurIPS，1989中。[8] Q. Dou、杜氏木霉D.Coelho de Castro，K.Kamnitsas和B.Glocker.通过语义特征的模型不可知学习的领域泛化。NeurIPS，2019。[9] Y. Ganin和V.Lempitsky 通过反向传播的无监督域自ICML，2015。[10] M. Ghifary，W. B. Kleijn，M. Zhang和D. Balduzzi用多任务自动编码器进行对象识别的主泛化。在ICCV，2015年。[11] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR，2016年。[12] D. Hendrycks和T. G.迪特里希基准神经网络的鲁棒性常见的腐败和扰动。2019年，在ICLR[13] G. Huang，Z.柳湖，加-地v. d. Maaten和K. Q.温伯格密集连接的卷积网络。在CVPR，2017年。[14] Z. Huang，H. Wang，中国山核桃E. P.Xing和D.煌自我挑战提高了跨域泛化能力。在ECCV，2020年。[15] D. Ingrid，D. Michel和D. M.克莉丝汀稀疏约束下线性反问题的迭代阈值算法。Communications on Pure andApplied Mathematics ： A Journal Issued by the CourantInstitute of Mathematical Sciences，57（11）：1413[16] D. P. Kingma和J. Ba. Adam：随机最佳化的方法。2015年，国际会议[17] A. Kosiorek，S.Sabour，Y.W. Teh和G.E. 辛顿堆叠式胶囊自动编码器。NeurIPS，2019。[18] A. Krizhevsky，G. Hinton等人，《从微小图像中学习多层特征》。2009年[19] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。InNeurIPS，2012.[20] Y.勒昆湖Bottou，Y. Bengio和P. Haffner。基于梯度的学习应用于文档识别。 Proceedings of the IEEE ， 86（11）：2278[21] D. Li，Y. Yang，Y. Song和T. M.医院更深、更广、更艺术的领域概括。InICCV，2017.[22] D. Li，Y. Yang，Y. Song和T. M.医院学习泛化：领域泛化的元学习。在AAAI，2018。[23] M.隆岛，澳-地Cao、J.Wang和M.约旦.使用深度自适应网络学习可转移特征。ICML，2015。[24] D. G.洛从尺度不变的关键点中提取独特的图像特征。International Journal of Computer Vision，60（2）：91[25] M.卢秋，赵宇，张杰，K. M.放大图片作者：Li Fei-Fei，J. C. Niebles和E.阿德利元数据规范化。在CVPR，2021年。[26] R.麦克纳米回归建模和其他方法来控制混淆。职业与环境医学，62（7）：500[27] K. Muandet，D. Balduzzi和B. Sch oülk opf. 通过不变特征表示的域基因化2013年，《国际反洗钱法》[28] J. Neter，M.H. 库特纳，C.J.纳赫茨海姆Wasserman等人，《应用线性统计模型》。一九九六年。[29] Y. Netzer，T. Wang，中国山核桃A. Coates，A.比萨科湾Wu，和A. Ng.使用无监督特征学习读取自然图像中的数字。NeurIPS Workshop，2011年。[30] S. J.Pan和Q.杨迁移学习研究综述。 IEEE Transactionson knowledge and data engineering，22（10）：1345[31] A. Paszke，S. Gross，T Massa，A. Lerer，J. Bradbury，G. Chanan，T. Killeen，Z. Lin，N.吉梅尔辛湖Pytorch：An imperative style，high-performance deep learning- inglibrary. NeurIPS，2019。[32] F.乔湖，加-地赵，和X。朋学习以学习单做概括为主.在CVPR，2020年。[33] M. Saeid，P. Marco，A. EscherohDonald和D. 詹弗兰科统一的深度监督域自适应和泛化。InICCV，2017.[34] S. Shankar，V. Piratla，S. Chakrabarti、S. Chaudhuri、P.Jyothi和S. Sarawagi通过交叉梯度训练进行跨领域泛化。在ICLR，2018年。[35] D. Simon和M.埃拉德重新思考自然图像的CSC模型。NeurIPS，2019。[36] Karen Simonyan和Andrew Zisserman用于大规模图像识别的非常深的卷积网络2015年，国际会议。[37] J. Sivic和A.齐瑟曼。Video google：一种视频中对象匹配的文本检索方法。载于ICCV，2003年。[38] C.塞格迪，W。Liu，Y.作者简介：王志光，王志光，王志光. E.里德D.安格洛夫，D。Erhan，V.Vanhoucke和A.拉比诺维奇。用卷积更深入。CVPR，2015。[39] E. Tzeng，J.Hoffman，K.Saenko和T.达雷尔。对抗性判别域自适应。在CVPR，2017年。[40] R. Volpi，H.南宫岛Sener，J. C. Duchi，V. Murino，andS. Savarese通过对抗性数据增强推广到未知领域。NeurIPS，2018。4691[41] H. Wang， Z.他，Z。C. Lipton和E. P. Xing。通过投影表

下载后可阅读完整内容，剩余1页未读，立即下载