没有合适的资源?快使用搜索试试~ 我知道了~
4135||F−FFM:通过因子化频率修正王亚丹罗梓黄马赫萨巴克塔什莫特拉格昆士兰{firstname.lastname} @ uq.edu.au摘要这项工作研究了单域泛化(SDG)问题,旨在从一个单一的来源(即,训练)域到多个目标(即,测试)域。 大多数现有的SDG方法专注于通过将源图像变换成不同风格或优化应用于源图像的对抗性噪声扰动来生成域外样本。在本文中,我们展示了在处理SDG任务时,生成具有不同风格的图像可以与创建硬样本互补,并提出了我们的因子化频率修改(FFM)方法来满足这一要求。具体来说,我们设计了一个统一的框架,包括一个风格转换模块,一个对抗扰动模块,和一个动态频率选择模块。我们无缝地为框架配备了迭代对抗训练,有助于从硬和多样化的增强样本中学习区分特征。在Digits、CIFAR-10-C、CIFAR-100-C和PACS四个图像识别基准数据集上进行了大量的实验,实验结果表明,该方法优于现有的最先进的方法。1. 介绍域偏移[3,32,8]是计算机视觉中的一个基本问题,通常发生在训练集和测试集由于照明,天气,外观,背景等的变化而遵循不同的分布时。机器学习模型在暴露于域偏移时会遭受相当大的性能下降。为了解决这个问题,已经引入了域泛化方法[51],该方法可以学习在分布外(OOD)数据上表现良好。大多数现有的域泛化方法[5,36,51,16]假设访问在不同环境条件下收集的多个源域,并且旨在找到域不变表示。(a) 对抗性干扰(b)风格操纵图1:原始图像的傅立叶频谱E[(XX)(m,n)]与(a)adversariallyper-turbed [47](b)样式修改[52]图像之间的差异。我们平均所有CIFAR-10训练图像上的傅立叶频谱之间的差异我们可以看到,对抗性扰动更集中在高频分量上(即,而风格修改方法主要影响低频分量(即,,中间更亮)。报告最近引入了一种更现实的领域泛化设置[47,39],其中在训练阶段仅存在单个源领域,即单领域泛化(SDG)[52,39,13,47,27]。一般来说,现有的SDG方法集中于通过生成模糊域来解决不可预见的域偏移,并且可以被分类为基于对抗性噪声扰动的[47,59]和基于风格操纵的[52,27]。前者学习源图像上的对抗性扰动,形成辅助训练集,训练可推广的分类器。基于风格操作的方法利用图像生成网络来创建虚拟域,其目标是使增强图像和源图像之间的熵最大化[27,39]或互信息最小化[52]启发式地,基于对抗性扰动的方法专注于生成硬样本,而基于风格操作的方法的目的是生成4136方法是创建不同的样本。尽管任一类SDG方法都取得了令人鼓舞的结果,但我们认为多样性和硬度是相辅相成的,因此在设计SDG算法时同时考虑这两个特性可能会提高泛化性能。作为概念证明,最近对模型鲁棒性的研究[57,50]表明,对于自然训练的模型,不可感知的对抗性噪声扰动被编码在高频分量中,而更明显的风格被编码在低频分量中。我们在图1中可视化了[47,52]的最新SDG方法的频谱,这证实了这两类SDG方法对于傅立叶域中的域推广是互补的鉴于上述观察,在本文中,我们的目标是同时产生多样化和硬虚拟域。为此,提出了一种新的具有两个可学习分支的因子化频率调制(FFM)模块。为了生成硬样本,噪声扰动分支修改输入样本的高频分量。生成的样本的多样性是通过修改输入样本的低频分量的幅度经由风格变换分支来与使用硬编码频率选择参数的[56,53]的现有方法不同,我们通过动态学习不同数据集的高/低频带来开发频率选择的系统方法。所提出的端到端框架以对抗的方式迭代地优化任务模型和FFM。在这种训练方案下,FFM逐渐提高生成样本的多样性和硬度,而任务模型则在扩大的领域差距下学习预测。我们的工作可以概括为以下几个方面:(1)我们提出了一个单域推广框架,即因子化傅立叶修正,它通过同时增加输入样本的低频分量中编码的人类可感知风格和高频分量中编码的不可感知噪声来扩展源域;(2)一个动态的傅立叶修正,它可以同时增加输入样本的低频分量和高频分量中编码的不可感知噪声。提出了频率选择模块来学习域不变的高/低频带,这优于如[56,53]中使用特定域的硬编码频带;(3)为了验证该模型的有效性,我们在digits、CIFAF-10-C、CIFAR-100-C和PACS四个单域泛化基准数据集上进行了大量的实验。结果清楚地表明,我们提出的方法优于ADA[47],MEADA [59],L2d [52]等最先进的单域泛化方法。2. 相关工作域泛化(DG)方法旨在通过在潜在空间中对齐多个源域来解决域偏移问题。为此,现有的方法要么遵循统计匹配[36,35,41],要么遵循域匹配[36,35,41]。对抗性学习[29,34,42,26]技术。 虽然早期的DG方法专注于域不变学习,但学习的模型可能过拟合到源域,从而限制了它们在未知域上的推广。受元学习[14]的启发,一些DG作品[24,2,30,12,11]旨在通过在训练阶段将模型暴露于元域转换来缓解这个问题。数据扩充[62,61]是防止模型过度拟合源域的另一种方法具体而言,基于增强的DG方法通过在图像[61,60]或特征级[28,9]中的源域之间进行插值来创建新的一些方法利用图像风格转移技术[19,7],该技术混合[62]或部分交换[38]源域中样本的中间卷积特征统计以扩大训练集。单域泛化(SDG)是一个更复杂但更现实的设置,并假设在训练阶段只有一个源域可用。由于大多数前向DG方法利用领域相关性来提高模型的泛化能力,因此它们在SDG设置上不能很好地执行。当前的SDG方法可以归类为对抗梯度图像增强[47,59]或风格增强[27,52,39]技术。前一类方法通过优化干扰噪声来扰动源图像,为分类器生成硬样本。具体而言,它们通过最大化分类误差[47]或熵最大化[59]来优化源样本上的噪声扰动。[39]应用辅助Wasserstein自动编码器来促进输入空间中生成图像和源图像之间的差异,并且因此放松特征空间约束。基于风格增强的方法[52,27]采用图像生成网络来使源域多样化,该图像生成网络通过最小化互信息的上限[52]或最大化生成的样本与对应的源样本之间的InfoNCE损失[27]来频域分析和模型鲁棒性。最近的文献建立了频域数据处理和模型鲁棒性之间的联系。[44]表明网络可以很容易地被轻微扰动输入的频率幅度[57]从傅立叶的角度来看,对自然训练模型的对抗性扰动往往集中在数据的高频分量上。[40,50]指出,模型倾向于在训练的早期阶段抓住低频信息,但逐渐地,4137NsZ →YH X → Z不HX → Y+Im(F2··--一图2:拟议的因子化频率修改(FFM)的增强模块FFM通过风格修改分支和噪声扰动分支来增强输入提出了一种动态频率选择策略,以平衡两个分支的频率分量的贡献输出在空间中可视化,在图的右侧。对人类感觉不到的输入高频分量的过拟合,这可能导致为了更高的准确性而牺牲鲁棒性在域自适应和泛化领域,最近提出了基于频率的方法[56,53],其目的是通过交换不同域中图像的风格来生成图像。具体地说,[56]提出在源图像和目标图像之间交换振幅谱的低频分量。受Mix-up [58]策略的启发,[53]计算源和目标振幅谱之间的加权和,以在可用源域之间进行插值。 虽然用目标样源图像训练的模型实现了有希望的泛化性能,但当前基于傅立叶的方法仍然受到以下限制:(1)交换或混合域的幅度隐含地假设看不见的目标域是源域的内插,并且这种强假设在实践中可以容易地被突破;(2)该人─搜索[57,50,40],自然训练的模型最终过度拟合人类无法感知的高频模式。这种现象导致更高的精度,在模型的泛化和鲁棒性的成本。具体来说,我们认为,只关注低频增强和忽视的重要性,高频分量可能会阻碍泛化性能。3. 方法符号和初步。给定源域S=xi,yii=1,具有Ns个样本,SDG旨在学习域不可知的任务模型: 可以在看不见的目标域上执行得很好。该模型可以写成:=fh,其中f:表 示 特 征 提 取 器 , h :表示分类器。对于单个图像x,我们省略图像通道C的维度,并且我们将傅立叶变换公式化为:(x)(m,n)=<$x(h,w)e−j2π(hm+wn),j2=−1.F(3)现有的基于傅立叶变换的方法,h,wH W(一)联合选择低频分量的截止值,这限制了生成样本的多样性;(4)由于无法访问多个训练域,现有的基于傅立叶的策略(如[56,53])不适用于SDG这里F:RH×W→CH×W表示快速傅立叶变换。快速傅立叶变换(FFT)。根据信号F(x),我们可以获得幅度FA(x)和相位谱FP(x),如下所示:设置.为了克服上述局限性,我们...F(x)=[Re(F(x))2PIm(F(x))1(x))]2;(二)提出我们的因子化频率修改方法,以生成语义感知和多样化的域外SAM,F(x)=arctan、Re(F(x))PLE,并提出了动态学习高/低频带不同的任务。正如最近的一项研究所指出的那样其中Re()和Im()分别是保持输入的实部和虚部的算子4138FFF联系我们G X →XX∈FFFFFF··∈ G··一·PA Aa2222zz我们的框架概述如图2所示。为了扩大训练集的分布范围,我们提出了一个因子化傅立叶修正(FFM)模块:生成多样化的硬样本,在频域中应用变换。 本最后,FFM学习两种变换,即噪声扰动g1((x);θ1)和风格操作g2((x);θ2),分别影响输入图像的高粒度和低粒度信息。此外,我们设计了M1,20,1C<$H <$W的频率掩模,其中C,H,W为通道,高度和宽度。频率掩模动态地确定频谱(x)。通过对输入信号进行频率变换,并使用变换后的数据训练模型,我们假设模型在看不见的目标域上测试时可以表现良好。3.1. 因子化频率修正因子化频率修正(FFM)模块这里,M1和M2是噪声扰动分支1(x)和风格变换分支2( x ) 的 输 出 的 频 率 掩 模 , 因 此 , 为 了 构 造(x)。请注意,1,2(x),M1,2和1都有相同的维 数。 最 后, 通 过应 用 逆FastFFM 变换, FFM 将 F(x)从频域变换回原始域以获得增强图像x。3.2. 动态频率选择与之前使用固定超参数来屏蔽低/高通频率的基于傅立叶的方法[56]不同,我们提出了一种系统的方法来动态学习频率选择掩码M1和M2。受[1]启发,我们将模板学习过程建模为训练一个二进制的置信网络。具体来说,我们首先初始化M1,M2RC×H×W如下:M(i,j)=.1,如果d((i,j),(ci,cj))rh,1噪声扰动分支和风格变换的系统(七)分公司噪音干扰分支旨在影响高噪音-M(i,j)=.1,如果d((i,j),(ci,cj))>rl.基本信息是人类几乎无法感知的,但20能够损害模型预测。把一个消息来源-年龄信号(x)作为输入,噪声扰动分支如下增加频谱:F1(x)=F(x)+g1(F(x);θ1),(3)其中g1(;θ1)表示由θ1参数化的变换函数。我们使用深度复杂神经网络实现g1(;θ1)[43]以在傅立叶域中变换(x)样式转换分支修改d(i,j)表示第(i,j)个位置(i,j)和掩模中心(ci,cj)之间的欧几里德距离,在每个像素通道上计算。rl和rh表示半径。我们根据输入信号的幅度谱计算每个像素位置的置信度,并通过将置信度与均匀概率比较来获得掩模能力分布P_(?)49,1),如下:M1=P<$<(σ(M<$1<$FA(x))+0.5),输入信号中的低频分量,其被假定为编码人类可感知的风格信息,M2=P<$(σ(M<$2(八)◦ F(x))+0。5),as illumination照明and color颜色.为了增强所生成的图像的多样性,风格变换分支学习如下变换源信号:F2(x)=g2(F(x);θ2),(4)其中g2(θ2)是由θ2参数化的非线性变换函数。利用风格信息被编码在幅度中的特性,我们设计了一组卷积层来增强输入的风格。具体地,y,g2(·;θ2)被定义为:g(F(x);θ)=g′(FA(x);θ)e−jF(x),(5)其中FP(x)和FA(x)是频谱F(x)的相位和幅度,可从等式(1)获得。(二)、为了与增强的其中σ表示Sigmoid激活函数。3.3. 特征空间频率增强为了进一步促进增强样本的多样性,我们为框架配备了特征级频率增强。我们在特征级引入两种简单的傅立叶增强策略:(1)施加在所选频率分量的幅度上的随机扰动;(2)随机频率丢失。(1) 我们将第一特征级增强策略公式化为:F(z)=F(z)+gz(F(z),θz)<$M,(9)其中g(·;θ)表示非线性投影函数,图像xx,FFM将变换后的频率分量与频率掩模未选择的频率分量相加M是随机二进制掩码。我们将掩模M应用于产生的振幅,以便选择要扰动的频率分量。我们重建了频率-4139F(x)=F1(x)<$M1+F2(x)<$M2+F(x)<$(1−(M1<$M2)),(六)从修正的振幅谱FA(z<$)以及原始相位谱FP(z):4140×Σ1ΣNF(z<$)(m,n)=FA(z<$)(m,n)e−jFP(z)(m,n).(十)(2) 作为第二个特征级增强,我们随机丢弃频率分量如下:F(z)=F(z)<$M。(十一)总体目标函数。采用两步迭代训练策略对FFM模块进行优化G(·;θ1,θ2,M1,M 2),以及任务模型,由以下组成:F(·;θf)和H(·;θh)。具体地说,给我消息来源-年龄X和生成的图像X,我们冻结任务模型的权重并训练FFM模块:我们在F(z)上应用逆FFT以将特征从频域映射回在实践中-Maxθ1,θ 2,θz,M1,M2Lsupcl(14)因此,我们将上述增强策略应用于源图像z和增强图像z的特征。增强层可以很容易地与主干网络集成,如ResNet,WideResNet,AlexNet,请注意,特征级频率增强在测试时被停用。3.4. 对抗训练我们采用对抗训练来提高任务模型的泛化能力。具体地说,FFM模块学习增加生成的虚拟域的多样性和硬度,而任务模型的目标是获得潜在空间中的域不变表示。现有对抗性领域泛化训练策略的主要目标是生成硬样本以混淆分类器[39,59],或者最小化源样本和相应增强样本之间的互信息[52]。所有上述方法都在某种程度上没有考虑到样本在对抗训练中的类内多样性。为了共同考虑生成样本的类内多样性和硬度,我们采用了[21]的监督对比然后我们冻结FFM的权重并优化任务网络:minLtask+λLsupcl,(15)θf,θh其中λ是用于平衡Lsupcl对总目标函数的贡献的超参数。4. 实验4.1. 数据集我们在四个基准SDG数据集上评估了我们的方法,涵盖了不同的对象识别场景。(1)Digits包含5个数字识别数据集,包括MNIST [22],SVHN [37],MNIST-M[15],SYN [15]和美国邮政[10]。这些数据集主要在其图像的背景、字体 和 图 像 质 量 方 面 不 同 在 [59 , 39]之 后 , 我 们 从MNIST中获取10,000张图像作为源域,并计算所有其他域上的模型精度。(2)PACS由照片、美术、卡通、素描4个领域组成。每个域包含7个类,总共有9,991张图像,图像大小为224 224. PACS是一个比Dig更具挑战性的数据集-这是由于从一个域到LsupclN=−i=0时1|P(i)|p∈ΣP(i)对数Σe(zi·zp/τ)a∈A(i)e(zi·za/τ)另一我们遵循列车的正式拆分[23]、验证和测试。(3)CIFAR-10-C[18]和(4)CIFAR- 100-C[18]包含来自10和P(i)={p ∈ A(i):yp= y i}。(十二)100个班级。 有19个腐败从4主要类别,包括噪音,模糊,数字和天气。每个腐败都有5个严重级别,其中这里,zi表示第i个样本的潜在表示。A(i)是一个集合,包含正集合P(i)的正潜在表示z+和第i个样本的负潜在表示z−温度用τ表示。最大化监督对比损失促进FFM生成均匀分布在空间上的各种正样本。来自FFM的增强图像与原始源图像一起被传递到任务网络,在那里我们采用标准交叉熵进行分类:L=−largylog(h(f(x,θ),θ)4141···ΣΣ最严重的腐败。4.2. 实现细节对于噪声扰动分支g1(;θ1),我们采用3层复卷积神经网络[43],其输入和输出通道等于3,隐藏维数为64。风格变换分支g2(;θ2)是一个与g1(;θ1)具有相同维数的三层卷积神经网络。复杂卷积层和卷积层都对于所有的实验,我们设置初始半径rl和rh为0。5W和W。任务2Nii=0时Nifh(十三)4.3. 数字结果+y∈ilog(h(f(x∈i,θf),θh)),i=0时实验设置。在[59,39,52]之后,我们复制灰度图像的通道,将其转换为4142×表1:Dig-its上的单域泛化精度(%)模型在MNIST上进行训练,并在其余数字数据集上进行评估最好的成绩用粗体突出显示。高频分量,而“天气”类别中的损坏FFM的优越结果验证了在设计时同时考虑高频和低频分量的必要性领域泛化算法与CIFAR-10-C相比,CIFAR-100-C是一个更具挑战性的数据集,因为它具有更全面的标签空间。我们在表1 中报告了CIFAR-100-C 的结果3.第三章。 由于CIFAR- 100-C具有与CIFAR-10-C相同的腐败类型,因此我们观察到类似的结果和行为,其中我们在很大程度上超过SOTA约7。6%,7. 3%,8. 4%,5。9%的人分别对“天气”、“模糊”、“噪音”和“数字”问题表示不满。这证实了我们的方法优于基线。我们在图3中进一步证明了在五个破坏水平下不同方法对CIFAR-10-C和CIFAR-100-C如图3(a)和(b)所示,我们的方法和基线之间的准确度随着核心水平的提高而逐渐扩大。RGB图像,我们将所有图像的大小调整为32 32。采用LeNet-5作为所有数字实验的骨干网络,SGD优化器用于因子化频率模块和骨干网络。结果我们报告的单域泛化精度表。1.结果表明,FFM在具有挑战性的领域,即, SVHN和SYN,它们具有与MNIST不同的背景和风格。对于像MINST-M和USPS这样的相对容易的域,它们的背景颜色或字体与源域不同,我们的方法实现了与SOTA方法相当的结果。4.4. CIFAR-10-C和CIFAR-100-C的结果实验设置。在[59,39]之后,我们在干净图像的训练分割上训练我们的模型,即,CIFAR- 10或CIFAR-100,并在损坏数据的测试集上测试它们为了进行公平的比较,我们使用了一个类似于基线的随机初始化的WideResNet(16-4)主干。该网络采用初始学习率为0.1,其通过余弦退火调度器逐渐减小。结果在选项卡中。2.在CIFAR-10-C数据集上,以及在严重级别为“5”的损坏上,由于篇幅所限,我们只报告15种腐败类型的结果。如Tab.所示。2、FFM在各种各样的损坏上优于基于对抗性噪声扰动的方法和基于风格修改的方法。具体而言,我们的方法在大多数不同类型的“天气”、“模糊”和“噪声”损坏的基线中实现了最高结果,在一些“数字”损坏上有小的下降。根据[57],“模糊”和“噪音”类别中爆发增加。这表明,我们的方法是更强大的大域移动相比,其他基线。与此同时,我们观察到CIFAR-100-C与CIFAR-10-C相比有更大的性能增益,这表明我们的方法在具有挑战性的领域泛化任务上表现得比基线更好。4.5. PACS结果实验设置。我们采用在Imagenet上预训练的ResNet-18[17]作为骨干网络,批量大小为64。对于每个泛化任务,骨干网络在源域上进行微调,并在其余三个目标域上进行测试我们使用SGD,学习率为0。002来优化网络50个时期。我们还研究了我们的方法在经典的多源域泛化设置中的有效性,其中我们留下一个域进行测试,并使用其他三个域来训练网络。在此设置下,我们使用AlexNet和ResNet-18作为骨干网络。我们将批量大小设置为64,学习率设置为0。001来训练网络30个时期。结果表4显示了PACS数据集上的单域泛化结果。我们以一个域作为源,并报告其他三个域的平均准确度。结果表明,我们的方法显着优于形式的基线。我们还在表5中报告了多源域泛化设置下的结果。请注意,在此设置下,我们的方法在训练期间不需要任何域标签我们提出的FFM实现了SOTA的结果在不同的骨干网络。4.6. 消融研究实况调查团不同组成部分的影响。为了研究每个组成部分在整个框架中的作用SVHNMNIST-MSYNUSPSAvg.ERM [45]27.8352.7239.6576.9449.29CCSA [35]25.8949.2937.3183.7249.05D-SNE [54]26.2250.9837.8393.1652.05JiGen [5]33.8057.8043.7977.1553.14ADA [47]35.5160.4145.3277.2654.62M-ADA [59]42.5567.9448.9578.5359.49ME-ADA [59]42.5663.2750.3981.0459.32RSDA [46]47.481.562.083.168.5RSDA+ASR [13]52.880.864.582.470.1L2D [52]62.8687.3063.7283.9774.46RandConv [55]57.5287.7662.8883.3672.88我们64.1182.2563.9183.5673.45我们的+RandConv64.6684.9264.7084.8074.774143表2:CIFAR-10-C上的单域泛化准确度(%)我们报告了15种不同类型的腐败的准确性最好的成绩用粗体突出显示。方法天气模糊噪声数字雾雪森林变焦散焦玻璃运动枪冲动高斯JPEG像素化弹性亮度对比Avg.ERM [45]65.9274.3661.5759.9753.7149.4463.8135.4125.6529.0169.9041.0772.4091.2536.8756.15CCSA [35]66.9474.5561.4961.9656.1148.4664.7333.7924.5627.8569.6840.9472.3691.0035.8356.31M-ADA [39]69.3680.5976.6668.0461.1861.5964.2360.5845.1856.8877.1452.2575.6190.7829.7165.59MEADA [59]60.0781.7282.1075.4567.7172.5570.8659.7346.7858.6585.5277.4879.8088.1623.9269.15L2D [52]69.2178.7081.3572.8664.5861.5368.5278.3213.6174.8182.3153.1976.5091.3348.1669.08我们80.2384.6284.8681.0179.9467.5083.7182.6723.1680.9081.8070.1777.4090.8278.5477.7790858075706560551 2 3 45腐败程度(a) CIFAR-10-C7065605550454035301 2 3 45腐败程度(b) CIFAR-100-C6463626160595857560.010.1 0.5 1 2 5 1020(c) 参数敏感性图3:(a)CIFAR-10-C和(b)CIFAR- 100-C数据集上五个严重级别的腐败下的平均分类准确率(%)(c)PACS上的λ表3:CIFAR-100-C上的单域泛化准确度(%)。我们报告的平均精度超过4个主要表4:PACS上的单域泛化准确度(%)。最好的成绩用粗体突出显示。严重程度为5级的腐败类别最佳表现-男装以粗体突出显示。消融研究工作中,我们对FFM进行了消融研究,结果见表4。具体地说,我们进行了3组实验,通过删除(a)动态频率选择;(b) 噪声扰动分支,以及(c)风格修改分支。在这三个变体中,我们发现删除样式修改分支带来的性能下降最大,这表明它在我们的整体框架中的重要性。通过去除噪声扰动,我们看到性能略有下降,如“我们的噪声”结果所示这可能是因为PACS中的域转移主要来自于样式的变化,而不是噪声和高粒度信息。最后,我们从我们的帧中删除动态频率选择组件工作,而不是使用固定的频率选择,这导致1。平均业绩下降2%功能增强的影响。我们研究了所提出的特征级增强策略对数字数据集和LeNet主干的影响,并在图中显示了结果。5.具体来说,我们比较了我们提出的FFM与其两种可能的变体的性能,包括1)NoAug:从网络中删除傅立叶特征增强;以及2)层1:在第一卷积之后插入特征增强。我们观察到第1层和ERMADAMEADAMADAL2D我们ERMADAMEADAL2D我们准确度(%)准确度(%)准确度(%)照片艺术卡通草图Avg.ERM [45]42.270.976.553.160.7RSC [20]41.673.475.956.261.8[20]第二十话52.376.977.953.765.2RSC+ASR [13]54.676.779.361.668.1GeomTex [31]49.172.178.760.065.0我们61.480.577.762.170.4天气模糊噪声数字Avg.ERM [45]6.3832.4838.0137.3428.55ADA [47]19.8339.7040.4445.8236.45MEADA [59]25.6442.1838.4544.6637.73L2D [52]25.4037.9143.3446.0738.18我们33.0649.5151.7451.9846.57我们的-动力。掩模58.479.177.262.169.2我们的-噪音59.278.677.659.368.7我们的-风格55.178.076.459.067.14144−9085807570656055(a) MEADA(b)Ours图4:CIFAR-10-C上提取的目标特征的t-SNE可视化。具有相同语义标签的特征以相同颜色绘制。表5:PACS上的多源域泛化准确度(%)。ID表示某个算法对域标签的要求。最好的成绩用粗体突出显示。50图5:数字上的单域泛化精度(%)。我们比较了我们提出的FFM 的性能与它的两个可能的变体,包括NoAug和Layer1。对超参数的敏感性。我们验证了超参数λ在我们的公式中的重要性,并在图3(C)中显示了结果我们只进行一次区域将军-PACS上的信息化任务,以其余的作为目标域。 我们将λ从0.01变化到AlexNetDSN [4]✓83.3061.1066.5058.6067.40融合[33]✓90.2064.1066.8060.1070.30MetaReg [2]✓87.4063.5069.5059.1069.90[25]第二十五话✓86.1064.7072.3065.0072.00MASF [11]✓90.6870.3572.4667.3375.21DMG [6]✓87.3164.6569.8871.4273.32[49]第四十九话✗87.9066.8069.7056.2070.20[48]✗89.6066.3066.3064.1072.08JiGen [5]✗89.0067.6371.7165.1873.38ADA [47]✗85.1064.3069.8060.4069.90MEADA [59]✗88.6067.1069.9063.0072.20MMLD [34]✗88.9869.2772.8366.4474.38L2D [52]✗90.9671.1972.1867.6875.50我们✗90.7871.8671.1775.3177.28ResNet-18[25]第二十五话✓93.9082.1077.0073.0081.50MASF [11]✓94.9980.2977.1771.6881.03DMG [6]✓93.5576.9080.3875.2181.46事实[53]✓95.1585.3778.3879.1584.51吉根[5]✗96.0379.4275.2571.3580.51ADA [47]✗95.6178.3277.6574.2181.44MEADA [59]✗95.5778.6178.6575.5982.10MMLD [34]✗96.0981.2877.1672.2981.83L2D [52]✗95.5181.4479.5680.5884.27我们✗94.5584.0279.6582.4685.17FFM始终优于NoAug结果,证实了有目的的特征增强策略的有效性。对于每个λ值,我们进行三次随机试验来计算标准差。结果表明,平均准确度从大约60%变化到61。4%,在0.0120.结果表明,该方法对超参数λ具有较好的鲁棒性和稳定性.可视化我们使用t-SNE来可视化MEADA的特征分布,并在CIFAR-10-C上实现了该方法。我们从严重度为“5”的15个损坏中随机抽取5%的数据。如图4所示,我们提出的方法明显优于MEADA,具有更好的类间分离。MEADA未能在其正确的聚类中容纳大多数样本。此外,所提出的方法具有更好的类之间的分离,这可以帮助预测。5. 结论我们提出了因子化频率修正(FFM)来解决单域泛化问题。FFM的核心思想是通过在傅立叶域中变换源图像的风格和高粒度信息,用不同的硬样本来一个动态的频率选择策略的发展,以平衡的贡献,变换的频率分量的扩增输出。在四个基准数据集上的大量实验表明,所提出的FFM优于SOTA单域泛化方法。致谢这项工作得到了澳大利亚的支持研究理事会(ARCDP 190102353和 CE 200100025)NoAug第1层FFM准确度(%)D IDP一CSAvg.4145引用[1] Lei Jimmy Ba和Brendan J.弗雷用于训练深度神经网络的自 适 应 丢 弃 。 在 克 里 斯 托 弗 J 。 C. Burges , Le'onBottou , ZoubinGhahramani , andKilianQ.Wein-berger,editors,NeurIPS,2013.[2] 尤格什·巴拉吉,斯瓦米·桑卡拉纳拉亚南,和罗摩·哲拉帕. Metareg:使用元正则化实现领域泛化.NeurIPS,2018。[3] Shai Ben-David 、 John Blitzer 、 Koby Crammer 、 AlexKulesza 、 FernandoPereira 和 JenniferWortmanVaughan。从不同领域学习的理论。2010年。[4] Konstantinos Bousmalis , George Trigeorgis , NathanSilber-man,Dilip Krishnan,and Dumitru Erhan.域分离网络。InNeurIPS,2016.[5] Fabio Maria Carlucci , Antonio D'Innocente , SilviaBucci,Barbara Caputo,and Tatiana Tommasi.通过解决拼图游戏进行领域概括。在CVPR,2019年。[6] PrithvijitChattopadhyay 、 YogeshBalaji 和 JudyHoffman。学习平衡领域内和领域外泛化的特异性和不变性。在ECCV,2020年。[7] 陈智,李晶晶,罗雅丹,黄紫,杨阳。Canzsl:Cycle-consistent adversarial networks for zero-shot learning fromnatural language.在WACV,第874-883页,2020中。[8] Zhi Chen,Yadan Luo,Ruihong Qiu,Sen Wang,ZiHuang,Jingjing Li,and Zheng Zhang.广义零镜头学习的语义解缠。ICCV,2021。[9] Zhi Chen , Yadan Luo , Sen Wang , Ruihong Qiu ,Jingjing Li,and Zi Huang.减轻广义零激发学习的代移。2021年第28届ACM国际多媒体会议论文集[10] John S. Denker,W. R.放大图片创作者:Richard E.作者:Howard,Wayne E.作者:Lawrence D.作者:HenryS. Baird和Isabelle Guyon。手写邮政编码数字的神经网络识别器。在NeurIPS,1988中。[11] Qi Dou , Daniel Coelho de Castro , KonstantinosKamnitsas,and Ben Glocker.通过语义特征的模型不可知学习的领域泛化NeurIPS,2019。[12] 杜英军,徐军,熊欢,邱强,郑贤通,Cees G. M.斯诺克和凌少。变信息瓶颈下的领域泛化学习。在ECCV,2020年。[13] Xinjie Fan , Qifei Wang , Junjie Ke , Feng Yang ,Boqing Gong,and Mingyuan Zhou.单域泛化的逆向自适应归一化。在CVPR,2021年。[14] Chelsea Finn,Pieter Abbeel,Sergey Levine.用于深度网络快速适应的模型不可知元学习。In Doina Precup andYee Whye Teh,editors,ICML,2017.[15] Yaroslav Ganin和Victor S. Lempitsky通过反向传播的无监督主适应。ICML,2015。[16] Ishaan Gulrajani和David Lopez-Paz。寻找失落的领域。ICLR,2021年。[17] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,2016年。[18] Dan Hendrycks和Thomas Dietterich基准神经网络的鲁棒性常见的腐败和扰动。ICLR,2019。[19] Xun Huang和Serge J.贝隆吉实时任意样式传输,具有自适应实例规范化。InICCV,2017.[20] 黄泽毅,王浩涵,Eric P.邢、董煌。自我挑战改进了跨域泛化。在ECCV,2020年。[21] Prannay Khosla , Piotr Teterwak , Chen Wang , AaronSarna , YonglongTian , PhillipIsola , AaronMaschinot,Ce Liu,and Dilip Krishnan.监督对比学习。In Hugo Larochelle,Marc[22] YannLeCun,Le'onBottou,YoshuaBengio和PatrickHaffner。基于梯度的学习应用于文档识别。IEEE会议录,1998。[23] 李达,杨永新,宋益哲,蒂莫西M.医院更深、更广、更艺术的领域概括。InICCV,2017.[24] 李达,杨永新,宋益哲,蒂莫西M.医院学习概括:元学 习 的 主 要 推 广 。 在 Sheila A. McIlraith 和 Kilian Q.Weinberger,编辑,AAAI,2018。[25] Da Li,Jianshu Zhang,Yongxin Yang,Cong Liu,Yi-Zhe Song,and Timothy M.医院领域泛化的情景训练。在ICCV,2019年。[26] Haoliang Li,Sinno Jialin Pan,Shiqi Wang,and Alex C.科特领域泛化与对抗性特征学习。在CVPR,2018年。[27] 李磊,高可,曹娟,黄子尧,翁业鹏,米晓岳,于正泽,李晓雅,夏伯阳.用于单域生成的渐进域扩展网络。在CVPR,2021年。[28] 潘力,李达,李伟,龚少刚,傅彦伟,和蒂姆-奥西M.医
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功