没有合适的资源?快使用搜索试试~ 我知道了~
7130风格新宠:不断寻求领域泛化的新风格Juwon Kang1Sohyun Lee2Namyup Kim1Suha Kwak1,2 Dept.CSE,POSTECH1,人工智能研究生院,POSTECH2{gjw0917,lshig96,namyup,suha.kwak}@ postech.ac.kr摘要研究了基于领域不变表示学习的领域泛化问题.在这个方向上的现有方法假设域可以由其图像的样式来表征,并且使用样式增强的数据来训练网络,使得网络不偏向于特定的样式分布。然而,这些方法被限制到有限的样式集,因为它们从固定的外部图像集或通过内插训练数据的样式来获得用于增强的为了解决这一限制,并最大限度地提高风格增强的好处,我们提出了一种新的方法,在训练过程中不断合成新的风格。我们的方法管理多个队列来存储到目前为止已经观察到的样式,并合成新的样式,其分布不同于队列中样式的分布。将风格综合过程表示为单调子模优化问题,从而可以用贪心算法有效地进行风格综合。在四个公共基准上的大量实验表明,该方法能够实现最先进的领域泛化性能。1. 介绍卷积神经网络(CNN)在过去十年中推动了视觉识别的显著进步然而,当训练和测试数据来自不同的分布时,它们的性能往往会下降[8,21,46]。由于这种分布变化在自然界中频繁且显著地出现,因此它一直是将CNN应用于现实世界应用的主要障碍。这个问题最常见的解决方案是域自适应[8,30,41,42],其目的是使在源域上训练的模型适应已知的目标域。然而,域自适应模型一般不能很好地推广到看不见的域,因为它们假设一个单一的目标域。领域泛化(DG)[1,2,7,22,32]已经被研究来解决领域自适应的这种限制。DG的目标是提高模型在训练时看不到的任意域上源样式新型注塑款式新颖队列风格空间:源样式1:源样式2:来源风格3:小说风格:以前的小说风格图1.我们方法的动机。我们通过自适应地合成不同的、合理的和新颖的风格来提高模型的泛化能力,这些风格与源域风格和先前合成的新颖风格不同,然后在训练期间将它们注入模型的中间特征以学习风格不变表示。时间DG是通过学习领域不变特征[14,24,26,39,48]来实现的,这些特征捕获与目标任务相关的语义,同时不偏向于领域特定的特征。在这种情况下,图像的风格已被用于表征其域[27,58];已经证明,减少对风格的模型偏差可以提高泛化能力[5,33]。作为一个简单而有效的实现这一想法,风格增强已被调查最近[16,17,51,58]。它允许一个模型是无偏的特定风格分布,通过增加训练图像与不同的风格。虽然它们已被证明是有效的域泛化,然而,在风格多样性方面仍有进一步改进的空间;现有的风格增强方法从外部图像的有限集合[17,51]或通过插值源域图像的风格[58]获得用于增强的风格,这两者都导致有限的风格范围在本文中,我们提出了一个新的框架,以进一步扩大风格增强的好处其关键思想是不断生成新颖和合理的风格,并使用合成风格来增强训练图像。具体地涉及7131为了新颖,由我们的方法生成的合成样式应该不仅与源域图像的样式不同,而且与先前生成的合成样式不同,如图1所示。另一方面,为了让人信服,它们不应该偏离真实的图像风格太多。为了有效的样式合成,我们的框架首先采样几个原型,以及代表源图像样式的整个然后,源风格原型和先前合成的小说风格被用来近似的风格,已观察到的模型的分布。为了合成新颖的风格,我们首先通过用随机噪声抖动源图像风格来生成新颖风格的合理候选者,然后对这些候选者的子集进行采样,这些候选者是多样的,并且不能很好地由观察到的风格的近似分布表示。使用(1)存储源图像样式和先前合成的新颖样式的样式队列,以及(2)测量采样的源样式原型和新颖样式的质量的评分特别是,我们采用单调的子模块评分函数,使接近最佳的原型和新颖的风格,可以有效地估计贪婪算法。我们的方法进行了评估,并与以前的工作进行了比较,四个公共基准DG:PACS [21],Of- ficeHome [45]和DomainNet [35]用于图像分类,另一个用于跨域人员re-ID [28,54]。在这些基准上的大量实验表明,我们的方法能够实现最先进的do-main泛化性能。本文的贡献有三个方面:• 我们提出了一种新的领域泛化方法,不断综合新颖的,多样的,和plausi- ble风格,以最大限度地提高风格增强的泛化效果• 我们提出了一个新的框架,基于风格队列和子模块优化维护和生成风格有效和高效。• 我们的方法优于现有的DG技术在四个公共基准,特别是在那些描绘- ING大域差异。2. 相关工作领域泛化。领域泛化的目的是通过多个源领域的训练来泛化到未知领域。受域自适应方法的启发,DG的初始研究进行了域对齐[14,24,26,39,48],以通过减少多个域之间的分布距离来学习域不变特征。具体来说,大多数方法都是通过对抗学习实现的[14,26,39],最小化KL发散[24,48]和最小化最大平均离散度(MMD)[23]。此外,还研究了自监督学习[3],集成学习[37,50]和元学习[22]。最近的研究集中在使用生成器网络的数据增强[25,56,57DDAIG [56]和PDEN [25]分别使用域L2 A- OT [57]增加了模型的泛化能力通过使用条件生成器生成与每个源域不同的伪新颖域图像。然而,这些方法具有新颖域缺乏多样性的问题,因为当学习合成比源域的数量更多的我们的方法不受此限制,因为它允许模型生成的不是图像,而是特征级别的新颖样式特别是,它生成迄今为止尚未观察到的新颖风格,然后使用它们进行风格增强允许模型通过识别不同的新颖风格来提高泛化能力。神经风格表征。 神经风格迁移主要集中在对与内容无关的风格信息的理解上。Gatys等人。 [9]首先研究了图像的风格可以通过CNN的特征统计来捕获。特别是,AdaIN [12]表明特征的通道平均值和标准差也可以代表图像的风格。最近的研究[13,17,33,58]利用风格信息作为领域的特征,并在特征级别上使用风格表示进行领域泛化。MixStyle [58]混合了源实例的特征统计数据以模拟新颖的样式,并将其注入CNN。然而,他们只考虑了有限范围的风格,这些风格是由外部图像[17,51]计算的,或者是由源域中特征统计的线性插值形成的[58]。我们的方法是免费的,从这个限制,因为它合成新的风格,从源风格和以前生成的风格,以增加风格的多样性。最大平均偏差。最大平均离散度[10]是两个分布之间差异的度量。它被广泛用于测量或最小化生成对抗学习[20]分布之间的分歧,并提高数据分布的可解释性[15]。在域适应[29-在我们的方法中也使用了MMD,但是为了测量样式空间中的差异以选择代表源样式分布的原型。3. 方法在DG [17,33,58]之前的工作之后,我们假设域可以由其sam的样式来表征-7132ΣΣH:来自域1的源样式:来自域2的:来自域3的:上一个源样式:以前的小说风格:随机样式:选定原型:精选小说风格(1)En/Dequeue源样式样式存储一种新型队列(2)原型选择(3)随机抖动(4)小说风格选择(5)En/Dequeue款式新颖样式存储源样式队列源样式队列一种新型队列风格空间风格注射图2.建议方法的总体流程。(1)对于训练的每次迭代,通过网络从源域图像计算源样式。然后,我们将它们入队,并将先前的源样式从源样式队列中出列。(2)选择表示源样式队列的样式分布的源样式原型。(3)通过用随机噪声抖动源样式来生成新颖样式的候选者。(4)我们选择新的风格不代表的原型的源域和以前的小说风格。(5)所选择的小说样式被入队,并且先前的小说样式在小说样式队列中被出队。然后,在动态训练过程中,将新样式队列中随机选择的新样式注入到我们的模型中。步骤(2)-(5)在每预定义次数的迭代中执行,以不断地寻找新颖的样式。因此,风格不变的表示将推广到任意看不见的域。在这种情况下,作为DG的解决方案,我们提出了一个新的框架,通过风格增强学习风格不变的模型。关键的想法是不断地为CNN提供训练数据,这些训练数据的风格以前没有被观察过,以最大限度地提高风格增强的效果。为了实现这一想法,我们的框架不断生成合成的但似乎可信的风格,这些风格与在连续迭代中观察到的风格不同,并用这些合成的风格替换训练图像的风格,同时保留图像的语义信息。本节的其余部分概述了我们的框架(第二节)。3.1),详细的算法为新颖的风格综合(节。3.2),和训练策略与新的风格(节。3.3)。3.1. 概述我们的方法通过其特征图Z∈RC×H×W[58]的通道平均值和标准差μ(Z),σ(Z)∈RC来表示图像的风格,如下所示:保持最近观察到的源图像的样式。另一方面,新样式队列存储被合成为与两个队列中的先前观察到的样式不同的新样式请注意,µ(Z)和σ(Z)是分开保存的。当存储的样式数超过限制时,样式将从最早的样式出队。基于这些风格队列,我们通过选择源原型和合成新风格的迭代过程不断寻找新风格二、3.2. 新颖风格合成我们确保新颖的风格符合两个标准:多样性和可兼容性。为了多样性,我们寻求在以前的迭代中没有观察到的风格。同时,它们应该是合理的,即。,不过分偏离真实源样式的分布,以提供真实的样式。为此,我们提出了一种新的风格合成方法,包括三个步骤:原型选择,随机抖动,和新的风格选择。首先,一些代表源风格,所谓的源风格原型,是see-styles-tives,HW选择了有效地识别源样式分布,µ(Z)=1ZHWh=1w=1·,h,w、(1)一个非参数的方式(图。第2条第2款)。此外,新颖风格的候选者是通过用范围抖动源风格来生成的。”。1ΣΣdom噪声(图2(3))。然后是候选人的子集,2是最不同的原型和以前的gener-σ(Z)=、HWh=1w=1 (Z·,h,w−µ(Z)),(2)被选作小说文体(图2(4))。通过重复这些步骤,新颖的风格不同于什么有其中H和W表示特征图的高度和宽度在综合小说风格之前,我们首先近似网络迄今为止观察到的风格分布为了近似和跟踪样式分布,我们的方法部署了两种类型的样式队列:源样式队列和新样式队列。源样式队列可以不断地合成并存储在新样式队列中。本节的其余部分详细阐述了小说风格综合的各个步骤。原型选择。我们选择了能很好地代表源样式队列中存储的源样式分布的mp假设我们有一组源W7133SPS P SPPV V∈ C- -一种||−||SΣSDD∈MMD2(S,P)=·k(s,s)|D|我|P ′|Jsi∈S,pj∈P我 J然后从高斯分布中采样,N0,λ·.款式存储在队列中。让我们成为原型集。受可解释机器学习的采样技术[15]的启发,我们采用和之间的平方最大均值差异(MMD),并使用核函数k来衡量它们之间的差异:设′=为观察到的样式的总集合,其中是小说风格队列为了量化小说风格的质量,我们采用以下见证函数:1ΣK|S|21Σ1Σg(x)=k(x,d)−k(x,p),(6)我 Jdi∈Dpj∈P′si,sj∈S第一项衡量的是与小说的相似性- -一种2Σk(s,p)(三)+1Σ2k(p,p)。见证功能将很好地代表小说的风格,|P|I jpi,pj∈P与此同时,它与观察到的不同。风格. 样本小说风格的评分函数C D为了选择分布接近S的最具代表性的风格P,评分函数被设计为K由下式给出Σ1J b(P)=|S|2k(si,sj)−MMD2(S,P)L(C)=xl∈C g(xl)。(七)si,sj∈S=2μm1k(s,p)−2k(p,p),此外,我们还采用了对数行列式公式。鼓励选择小说的多样性的larizer [15]|S||P|I jsi∈S,pj∈P|P|pi,pj∈PI j(四)在优化的过程中,submodular [19].正则化子形式上由下式给出:其中引入第一个常数项以保证Jb(k)=0,i. e. ,Jb是归一化的得分函数。我们选择原型P使目标最大化:其中,KC,C是具有条目ki,j=Max请注意,|P|≤ mpJ b(P).(五)k(xi,xj)对于所有的xi,xj.最后,我们选择最大化以下评分函数的新颖风格:虽然这个最大化问题通常被认为是棘手的,但已经证明,一个贪婪的过程重新MaxC. C. D,|C|≤ mcL(C)+r(C).(九)对于任何归一化单调子模函数,都是一个近似最优解[34] 。由于Eq. (4)当径向基函数(RBF )核k(xi,xj)=exp(γxixj)是单调的和次模的时,原算法如[15]所证明的那样,可以得到一个新的算法.类型选择通过贪婪前向选择来完成,即,重复采样增加得分函数最多的风格作为原型。随机抖动的风格候选人。 作为新颖样式的候选,通过向源样式S添加随机噪声来生成随机样式D的集合。首先,我们计算了源类型S={s1,s2,. sN}。随机噪声向量diag(σ()),其中λ是标量超参数;高斯分布的标准偏差与σ()成比例设置,用于通过考虑真实源类型分布来采样似然噪声。然后,将采样的噪声添加到源样式中,以构成多样且似然的随机样式。然后,我们在下一步中抽取固定数量新颖的风格选择。为了保证新颖风格的多样性,我们选择了mc新颖风格,这些风格不能很好地由观察到的风格的近似分布来表示。由于Eq.(9)是单调子模的,优化也是通过贪婪算法来完成的,该贪婪算法选择最重复增加函数的新颖风格;然后将采样的新颖风格存储在新颖风格队列中。总之,我们的新风格合成过程包括这3个步骤,并在每个预定义的迭代次数执行,以在整个学习过程中不断寻找新风格对平均值和标准偏差分量单独执行该过程以合成相应的新颖风格。3.3. 用新的风格在训练目标模型的过程中,我们通过动态注入合成的新颖风格来使输入图像的特征图风格在之前的工作[12,17,58]之后,我们首先通过实例归一化[43]来规范化特征图对于特征图ZRC×H×W,该样式注入公式为:StyIn(Z;a,b)=aZ−µ(Z)+b,(10)|S||P|样式候选项,第二项测量与观察到的样式的相似性。一种新颖的风格,7134σ(Z)7135∈◦ceceLS2O奥里斯蒂O2S其中,a、b、R、C分别是针对标准去重和均值的随机新颖风格。它可以应用于网络的多个卷积块,这将在第二节中进一步讨论。四点二。本节的剩余部分描述了包含新风格注入的整体训练过程和损失函数。设f = f(2)f(1)表示目标网络,并假设新颖的风格被注入到f(1)的输出。给定源图像X及其独热标签作为输入向量y,通过最小化普通交叉熵损失来训练网络:Lori=−ylog f(X)。(11)同时,源样式μ(Z)和σ(Z),其中Z =f(1)(X),计算并存储在源样式中排队,分别。然后,我们将相同的图像转发到网络同时向其特征图注入新的风格Z,并将交叉熵损失应用于输出:Lsty=−ylogf(2)(StyIn(f(1)(X))).(十二)优化这两个交叉熵损失使f(2)成为风格不变的和很好的推广。为了进一步提高泛化能力,我们还引入了损失,以强制原始输入的软化预测与样式注入的预测之间的一致性。具体地,损失被公式化为预测之间的Kullback-Leibler(KL)偏差:现实世界(3)DomainNet[35]是一个大型数据集,包含来自六个领域的345个类别的586,575张图像,包括Clipart , Infograph , Painting , Quickdraw , Real 和Sketch。为了与以前的工作进行公平的比较,我们遵循leave-one-domain-out-protocol [49,56,57]。详细地说,我们选择一个域作为测试域,并使用剩余的域作为源域;在所有源域的验证分割上表现出最佳性能的模型评估指标是前1分类准确度。实例检索中的泛化。我们的方法也被评估用于跨域人员重新识别(re-ID)[56该任务的目标是从多个不相交的摄像机中检索目标个体,这些摄像机被认为是不同的域。我们采用Market 1501 [52]和DukeMTMC-reID(Duke)[36,53]数据集。Market 1, 501包含由6台摄像机捕获的1,501个身份的32,668张图像,Duke包含由8台摄像机捕获的1,812个身份的36,411张图像。我们的模型在一个数据集上进行训练,并在另一个数据集上进行测试。在这个任务中,标签空间在训练 和 测 试 身 份 之 间 是 不 相 交 的 。 平 均 平 均 精 度(mAP)和排名准确性用于评估指标。4.2.实现细节图像分类中的泛化。采用在ImageNet [6]上预训练的ResNet [11]作为我们的分类网络。 对网络的第一和第二残差块为PACSO2s常量 =KL(f(X)/τ ||f(2)(StyIn(f(1)(X)/τ),(13)我们的网络由SGD批量训练,Lconst=KL(f(二)(StyIn(f(一)(X))/τ ||f(X)/τ),(14)大小为16,重量衰减为5e-4,时代初始学习率设置为0.001并衰减其中τ是温度超参数。将所有这些结合在一起,总目标由下式给出在总时期的80%时,增加0.1。我们采用[3,49]中使用的增广策略。对于DomainNet,我们使用Adam优化器[18],逆学习率调度如下:Ltotal=(1−w1)Lce+w1Lce+w2(Lconsts2o常量 ),(十五)ing [4],并训练网络20个epoch。对于所有数据集,τ=4,w2=2时,其中w1和w2是平衡h型参数。总之,网络使用等式中的目标进行训练(15),同时将源样式存储在队列中。作为训练进行时,规则地执行新颖风格合成步骤以不断地寻找新颖风格。4. 实验4.1. 评价数据集图像分类中的泛化。所提出的方法进行评估,对三个传统的DG基准图像分类。(1)PACS [21]由四个域组成,即:,艺术绘画,卡通,照片,素描,并包含了9,991图像的7类与大域discredibility。(2)主页[45]包括15,500张图片,来自四个领域,艺术,剪贴画,产品和+L7136在 最 初 的 5 个 时 期 具 有 S 形 斜 坡 [40] 。 对 于OfficeHome,损失平衡权重w1被设置为0.1,对于其他的,损失平衡权重w1被设置为0.5对于小说风格合成,我们将合成周期设置为32次迭代。源样式队列和新样式队列的长度分别为1024和128。对于DomainNet,原型的数量和单个小说风格合成中的小说风格的数量都是32,而对于其他数据集,分别是8和16。实例检索中的泛化。采用了两种不同的网络:ResNet50和OSNet-IBN [55]。在这两种架构中,样式注入被应用于第一和第二残差块的输出。重新ID模型被训练用于分类,其中每个人的身份被认为是一个类。为了与以前的工作进行公平的比较,我们使用OSNet-IBN的l2规范化特征,并通过其公共代码在相同的设置上复制MixStyle [587137∗方法艺术卡通照片草图Avg.ResNet18ResNet50基线84.9476.9897.6476.7584.08MetaReg [1]87.2079.2097.6070.3083.60EISNet [47]86.6481.5397.1179.0785.84DSON [37]87.0480.6295.9982.9086.64事实[49]89.6381.7796.7584.4688.15我们90.35 ±0.6284.20 ±1。43九十六。73 ±0。4685.18 ±0.4689.11表1.PACS上的留一域泛化结果方法艺术剪贴画产品房Avg.基线57.8852.7273.5774.8064.72MMD-AAE [23]56.5047.3072.1074.8062.70[38]第三十八话58.4049.4073.9075.8064.40吉根[3]53.0447.5171.4772.7961.20SagNet [33]60.2045.3870.4273.3862.34DDAIG [56]59.2052.3074.6076.0065.50MixStyle [58]58.7053.4074.2075.9065.50L2A-OT [57]60.6050.1074.8077.0065.60事实[49]60.3454.8574.4876.5566.56我们五十九55 ±0。2155.01 ±0。29七十三。57±0。2875. 52±0。2165.89表2. Leave-one-domain-out泛化结果在Office- Home上。4.3. 图像分类PACS评价 我们和现有方法的定量结果总结在表1中;基线模型仅使用交叉熵损失进行训练。我们的方法始终达到最佳性能的平均精度,无论其骨干网络的类型。详细地说,我们的方法在三个测试领域(艺术,卡通和 素 描 ) 与 ResNet50 中 优 于 现 有 的 方 法 。 当 结 合ResNet18时,我们的方法明显超过了MixStyle [58],这是一种基于已知风格的线性插值的风格增强技术与先前合成新域样本的工作不同,例如L2 A-OT [57]和DDAIG [56],我们的方法既不需要数据生成器也不需要域标签。我们唯一的开销是样式队列的内存占用,这几乎可以忽略不计。虽然更简单,施加更少的开销,我们大大提高了性能,因为它能够有效地学习风格不变的表示,通过合成新颖的和不同的风格上飞。总体而言,这些结果证明了我们的方法在领域泛化方面的有效性,并证明了我们不断寻求不同新颖风格以防止风格偏见的动机。表3.在Domain- Net上的Leave-1-domain-out推广结果方法市场1501→ DukemAP R1 R5 R10Duke→市场1501mAP R1 R5 R10ResNet50基线19.3 35.4 50.3 56.4 20.4 45.2 63.6 70.9MixStyle [58]23.8 42.2 58.8 64.8 24.1 51.5 69.4 76.2我们26.3 46.5 62.4 68.0 27.2 55.0 73.9 85.5OSNet-IBN基线26.7 48.5 62.3 67.4 26.1 57.7 73.7 80.0[38]第三十八话27.1 48.5 63.5 69.5 26.3 56.7 73.5 79.5[58]第五十八话27.7 48.4 62.7 72.1 28.8 59.7 76.7 82.7DDAIG [56]28.6 50.6 65.2 70.3 29.0 60.9 77.1 83.2L2A-OT [57]29.2 50.1 64.5 70.1 30.2 63.8 80.2 84.6我们29.7 50.6 65.4 74.2 32.2 64.7 80.2 89.1表4.跨域person re-ID的泛化结果。(:由官方实现转载)。对OfficeHome的评价。与其他数据集相比,CIMHome由四个域组成,具有较小的域差异。如表2中所总结的,尽管在该基准中存在小的域间隙,这不利于通过合成新颖风格来进行域概括,但我们的方法与最新技术水平相当。特别地,我们的方法在所有域中一致地提高了基线的性能,而大多数现有方法在某些域中表现不佳。请注意,我们的方法在平均准确度方面也优于合成新域样本的方法,如L2 A-OT [57]和MixStyle[58]。对 DomainNet 的 评 价 。 表 3 列 出 了 由 6 个 域 组 成 的DomainNet上的结果,与其他数据集相比差异更大。在这个更具挑战性的基准测试中,我们的方法在平均准确度方面表现出比现有方法更好的性能,并且使用ResNet18和ResNet50主干分别将前1平均准确度提高了1.70%p和0.60%p。虽然我们的方法明显优于基线,但在使用ResNet50主干时,现有方法通常不如基线。此外,在PACS和DomainNet上,我们的方法分别提高了ResNet18和ResNet50模型的性能。方法剪辑.Info.漆.快房草图Avg.ResNet18基线56.5618.4445.3012.4757.9038.8338.25MetaReg [1]53.6821.0645.2910.6358.4742.3138.57DMG [4]我们60.0760.14 ±0. 4818.76十七岁82±0。3244.5346.52 ±0. 231414.16.58 ±0. 1554.7255. 36 ±0。9841.7345.26 ±0. 5339.0039.95ResNet50基线64.0423.6351.0413.1164.4547.7544.00MetaReg [1]59.7725.5850.1911.5264.5650.0943.62DMG [4]我们65.2466.11 ±0. 6622.1521岁42 ±0。1250.0351.36 ±0. 371515.68. 25 ±0。3559.6361岁73 ±0。2349.0251.76 ±0. 2143.63四十基线77.6376.7795.8569.5079.94MetaReg [1]83.7077.2095.5070.3081.70吉根[3]79.4275.2596.0371.3580.51DDAIG [56]84.2078.1095.3074.7083.10L2A-OT [57]83.3078.2096.2073.6082.80EISNet [47]81.8976.4495.9374.3382.15SagNet [33]83.5877.6695.4776.3083.25MixStyle [58]84.1078.8096.1075.9083.70DSON [37]84.6777.6595.8782.2385.11事实[49]85.3778.3895.1579.1584.51我们84. 41±0。6279.25 ±0.9894 93±0。0783.27 ±2。0385.477138RES1标准品RES 1平均值RES2标准0.140.080.02RES 2平均值KMixStyle风格NeophileRes block 1- std Res block 1 - mean表5.使用ResNet18在PACS上对我们方法的每个组成部分进行消融研究。* 表示S2O和O2S两者。4.4. 实例检索我们的方法的有效性也证明了对人重新ID任务。如表4所示,我们的consideration在两个跨域场景中都提高了性能,从Market1501到Duke,反之亦然。我们的方法在使用OSNet-IBN以及ResNet时是有效的。即使在每个摄像机视图被认为是一个域的设置,我们的方法超过以前的(一)(b)第(1)款信道索引0信道索引032第二座-标准64631270 32 63Res块2 -平均值0 64 127在mAP和排名准确性方面对DG进行工作。这些结果表明,我们的方法优于合成新样品的艰苦工作。图3.在PACS上对MixStyle和我们使用ResNet18合成的风格多样性进行实证分析(a)合成样式的逐行偏差。(b)MMD2在源和4.5. 消融研究每个组成部分的影响。在表5中,我们执行一项消融研究,以调查每个成分的影响:风格注入、新风格合成和一致性损失。在原始特征统计中添加随机噪声的风格注入提高了整体准确性。虽然简单的增强策略,每-综合风格8685848382813264128256512 1024 2048 4096队列长度868584838281163264128256512 1024队列长度高斯噪声下的turbs特征统计对DG有一定的应用价值,但仍不如现有方法。通过注入由我们的方法合成的新颖风格而不是随机噪声,这一结果验证了我们的新型风格合成技术对风格增强的有效性;它超过了现有的合成 新 领域 样 本 的 方 法, 如 L2 A-OT [57]和 MixStyle[58]。最后,一致性损失进一步提高了性能,这使得我们的方法明显优于ex-person DG方法。小说风格多样。我们的方法合成新的风格,不仅是不同于源风格,但也是那些先前合成的,这保证了他们的多样性。在图3中,我们通过将我们的方法生成的合成样式与MixStyle [58]生成的合成样式进行比较来展示多样性,MixStyle [58 ]是DG的代表性样式增强方法首先,我们通过图3(a)中的通道偏差来测量它们的其次,为了检验合成风格与源风格的区别,我们估计了它们之间的平方MMD;图3(b)表明,我们生成的风格与源风格更加不同。对队列长度的敏感性 我们的方法引入了(a) 源样式队列(b)新颖样式队列图4.队列长度变化对PACS的影响样式队列和新样式队列来近似观察到的样式的分布,因此在一定程度上受队列长度的影响。我们研究了我们的方法对每个队列的长度有多敏感;在没有一致性损失的情况下进行了实验,以清楚地识别队列长度的影响。图4显示了使用ResNet 18通过改变PACS上每个样式队列的长度测量的平均top-1准确度的结果。在256(64)~ 1024(512)的源(新)型队列长度范围内,性能相当高且稳定因此,我们认为,我们的方法是不敏感的每个样式队列的长度。请注意,在这个实验中,我们遵循我们最终模型的超参数设置;该设置对于这个实验来说不是最佳的,但是我们在该设置中的结果仍然优于或与现有方法相当。小说文体的定性分析 为了证明我们的合成体是新颖的、多样的、合理的,我们对合成体与源体进行了定性的分析和比较。图5(a)显示了训练中期的源和新样式分布的t-SNE [44它表明小说风格几乎是均匀的0.140.080.02Res1标准Res1平均Res2标准Res2平均准确度(%)标准偏差标准偏差准确度(%)花柱注射新颖风格合成勒庞康斯特艺术卡通照片草图Avg.✗✗✗77.6376.7795.8569.5079.94✓✗✗81.8878.0394.6778.9383.38✓✓✗84.3878.2195.0580.1384.44✓✓✓84.4179.2594.9383.2785.477139源文体旧文体新文体原型Res Block 1-平均Res Block 1 -标准品(一)(b)(c)(d)图5. (a)风格向量的SNE可视化。平均值和标准差是从ResNet18的第一和第二残差块的特征图计算的,同时在PACS上进行训练。(b)源样式原型的PACS图像示例。(c)ImageNet [6]图像的示例,其样式在样式空间中最接近源样式原型(b)(d)ImageNet图像的示例,其风格在风格空间中最接近小说风格。分散的(即,,多样性),并经常占据源样式分布不均匀的区域(即,,小说,如预期的),同时不太偏离源风格的分布(即,似是而非)。新颖风格的这些属性也通过ImageNet示例以另一种定性的方式进行了验证,这些示例的风格最接近源代码和风格空间中的新颖风格。请注意,我们使用ImageNet示例进行分析,因为我们的方法不生成图像,而是直接合成可视化不直接的样式。首先,图5(b)和图5(c)分别显示了源样式原型的PACS示例和最接近原型的ImageNet示例,证明了它们之间在样式方面的高度相似性。相比之下,图5(d)中的ImageNet示例,其风格最接近新颖风格,它们之间存在差异,并且与图5(b)和图5(b)中的差异更大。第5(c)段。5. 限制我们的方法有两个局限性。首先,它显示了在特定环境中的性能差异很大。由于我们的方法执行随机抖动步骤中的随机过程的新风格的候选人,它导致的问题。其次,我们的方法在Office- Home上表现相当,其中域之间的差异比其他数据集小得多。如果矛盾是-由于跨域是最小的,我们的策略提供了一个相对边际的性能提升,因为小说风格的影响被削弱了在今后的工作中,我们将在解决这两个问题的同时,提高泛化能力。6. 结论我们提出了一种新的方法来学习风格不变的表示域泛化。它不断寻求新颖,多样和合理的风格,以最大限度地提高风格增强的效益。基于这两种类型的样式队列,我们有效地近似到目前为止已经观察到的样式分布,并生成与观察到的样式不同的新样式,包括源样式和先前合成的新样式。由于该过程被制定为单调子模块优化任务,它可以进行贪婪算法。然后,我们将合成的新颖风格注入到特征图中,这可以减少模型对风格的偏好,提高泛化能力。我们确认,我们不断寻求和利用新的风格是有效的领域推广多个公共基准。谢谢。这项工作得到了三星电子三星研究基金有限公司(IO 201210 -07948-01)。Res Block 2 -平均值Res Block 2 -std7140引用[1] 尤格什·巴拉吉,斯瓦米·桑卡拉纳拉亚南,和罗摩·哲拉帕. Metareg:使用元正则化实现领域泛化.在Proc。神经信息处理系统(NeurIPS),2018年。1、6[2] Gilles Blanchard,Gyemin Lee,and Clayton Scott.从几个相关的分类任务概括到一个新的未标记样本。神经信息处理系统(NeurIPS),2011年。1[3] 法比奥·M·卡卢奇、安东尼奥·德诺森特、西尔维亚·布奇、巴尔巴拉·卡普托和塔蒂亚娜·托马西。解决拼图游戏的 领域 泛化。 IEEE计算 机视 觉与模 式识 别会议(CVPR),2019年。二、五、六[4] PrithvijitChattopadhyay 、 YogeshBalaji 和 JudyHoffman。学习平衡领域内和领域外泛化的特异性和不变性。在欧洲计算机视觉上,第301-318页。Springer,2020年。五、六[5] Sungha Choi,Sanghun Jung,Huiwon Yun,Joanne TKim,Seungryong Kim,and Jaegul Choo. Robustnet:Improvingdomaingeneralizationinurban-scenesegmentation via instance selective whitening. IEEE计算机视觉与模式识别会议(CVPR),2021年。1[6] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. ImageNet:一个大规模的分层图像数据 库 。 在 proc IEEE 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR),2009年。五、八[7] Qi Dou , Daniel Coelho de Castro , KonstantinosKamnitsas,and Ben Glocker.通过语义特征的模型不可知学习的领域泛化神经信息处理系统(NeurIPS),2019年。1[8] 雅罗斯拉夫·甘宁和维克多·伦皮茨基。通过反向传播的无监督国际机器学习会议(ICML),2015年。1[9] Leon A Gatys,Alexander S Ecker,and Matthias Bethge.使用卷积神经网络的图像风格转换。IEEE计算机视觉与模式识别会议(CVPR),2016年。2[10] Arthur Gretton , Karsten Borgwardt , Malte Rasch ,Bernhard Sc hoülk opf,andAl e xSmola. 双样本问题的核方法神经信息处理系统(NeurIPS),2006年。2[11] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习 在proc IEEE计算机视觉和模式识别会议(CVPR),2016年6月。5[12] Xun Huang和Serge Belongie。 任意风格转换 以自适应实 例 规 范 化 实 时 执 行 。 在 Proc. IEEE InternationalConference on Computer Vision(ICCV),2017。二、四[13] Seogkyu Jeon , Kibeom Hong , Pilhyeon Lee , JewookLee,and Hygien-Byun.面向领域泛化的特征风格化和领域感知对比学习。在第29届ACM多时间点,第22-31页,2021年。2[1
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功