没有合适的资源?快使用搜索试试~ 我知道了~
14992BiaSwap:使用偏差定制的交换增强消除数据集偏差Eungyeup Kimeykim94@kaist.ac.krJihyeon Lee*KAISTjihyeonlee@kaist.ac.krJaegulChooKAISTjchoo@kaist.ac.kr摘要深度神经网络通常基于数据集中固有的虚假相关性做出决策,无法在无偏的数据分布中进行泛化。尽管以前的方法预先定义了数据集偏差的类型以防止网络学习它,但识别真实数据集中的偏差类型通常是禁止的。本文提出了一种新的偏置定制的基于扩充的方法,BiaSwap,用于学习去偏置表示,而无需监督偏置类型。假设偏置对应于易于学习的属性,我们根据偏置分类器可以利用它们作为捷径的程度对训练图像进行排序,并以无监督的方式将它们分为偏置引导样本和偏置相反样本。之后,我们将图像翻译模型的风格转换模块与这种有偏分类器的类激活图相集成,这使得能够主要地转换由分类器学习的偏置属性。因此,给定偏置引导图像和偏置相反图像对,BiaSwap生成包含来自偏置相反图像的偏置属性的偏置交换图像,同时保留偏置引导图像中的偏置不相关属性鉴于这种增强的图像,BiaSwap证明了在综合和真实世界数据集上对现有基线进行去偏置的优越性。即使没有仔细的监督的偏见,BiaSwap实现了显着的perfor-曼斯无偏和偏差指导样本,这意味着提高泛化能力的模型。1. 介绍最近的深度神经网络在包括分类和对象检测在内的计算机视觉任务中表现出了卓越的性能。然而,这些模型通常通过错误地依赖与其标签具有虚假相关性的外围特征来实现其目标,即所谓的数据集偏差[1]。例如,当训练图像中的大多数骆驼出现在沙漠中时,想象用于识别骆驼的分类器这种非预期的相关性导致分类器过度依赖沙漠的属性,无法识别站在路上的骆驼。* 表示贡献换句话说,在有偏数据集上训练的分类器经常对没有这种偏置的图像表现出严重的失败,这就对其在无偏图像分类中的泛化能力提出了问题现有方法试图通过在其去偏置策略中使用偏置类型的明确定义来解决这个问题。一些方法[2,3,4]假设图像分类任务中的纹理类似地,文本模态,即,问题和答案被预先定义为视觉问题回答任务中的偏差[5,6],并通过利用仅问题网络来解决然而,假设已知的偏差是非常不现实的,因为偏差属性可以根据训练数据集的组成而变化。此外,与人工指定偏差属性的合成数据集不同,例如,如图2-(a)所示,在有色MNIST中将颜色设置为偏差因此,事先没有定义的无监督去偏是在各种数据集上学习广义表示的合适方法此外,保持对有偏样本以及无偏样本的分类能力需要被认为对于期望的表示是至关重要的,这被先前的研究[6,7]所忽视。本文主要关注1)通过利用偏差定制的交换增强来在没有明确监督的情况下去除数据集偏差,以及2)实现相对于其他基线的偏差相反以及偏差引导样本的卓越性能。 我们提出了一个基于图像翻译的增强框架,BiaSwap,它转移的属性出现在分类器经常利用作为预测的捷径为此,我们首先利用合理的观察,偏置分类器经常学习利用容易学习的属性在早期学习阶段,提出 了 在 南 等 人 。 [7] 这 使 我 们 能 够 获 得 类 激 活 图(CAM)[8],它指示每个图像的偏差相关区域,而不需要提前明确定义偏差类型通过集成CAM14993∈YD ∈ X在图像翻译框架中,我们用另一个范例图像的偏置属性来翻译图像的偏置属性。同时,我们基于相同的假设(即,偏置是容易学习的),用于区分训练集中的偏置引导样本和偏置相反样本。因此,给定对,BiaSwap主要通过转移与偏置对应的特定属性来将偏置引导图像转换为偏置相反图像。这些增强的图像,称为偏差交换,使得偏差引导图像的比例在训练数据集中不那么占主导地位,最终消除了数据集偏差 我们提供了广泛的实验,其表示Bi-aSwap实现了针对来自合成的各种数据集的基线的最先进的去偏置结果(即,着 色 MNIST , 损 坏 CIFAR10 ) 到 真 实 世 界 ( 即 ,BAR,bFFHQ)数据集,即使没有对偏差类型的明确监督。2. 预赛在本节中,我们首先提供数据集偏倚的公式(第2.1节)。之后,我们根据对偏差类型的先验假设对各种现有的去偏差方法进行分类(第2.2节)。2.1. 数据集中不需要的相关性的定义考虑一个训练数据集,其中每个图像x具有其对应的类标签y。每个x可以通过其各种视觉属性(例如形状和颜色)来解释,并且其中一些被图像分类任务中的分类器利用。在这些属性中,假设zg是预测目标标签y所必需的属性,这意味着类y的每个图像必须包含zg。因此,当学习该属性作为线索时,分类器在无偏分布中变得一般化。相比之下,令zb表示不太重要但与目标标签y具有强相关性的属性。此外,当与zg相比分类器更容易学习时,zb通常充当偏置属性。最终,当在有偏差的数据集中训练时,由于过度利用zb而不是zg,模型变得有偏差,无法预测不包含zb的样本。例如,在有色MNIST中,每个类别中的大多数图像都与特定颜色高度相关,如图2-(a)所示。另一方面,无偏测试集包含颜色随机均匀的样本,与其目标标签无关。在这种情况下,属性zg对应于数字,而zb表示每个图像中的颜色。在本文中,我们称之为zb偏导属性,包含zb的图像称为偏导图像。虽然训练分布中具有相同类的大多数样本共享zb,但可能有一小部分样本具有与zb冲突的属性,我们称之z-b例如,在有色MNIST中,虽然类别0中的大多数样本包含红色,但少数样本包含非红色,例如蓝色或绿色。由于这个z−b属性与zb是矛盾的,有偏网络不能再依赖它我们称之为z−b偏反属性,并将具有z−b的图像称为偏反图像。由于具有zb的偏置引导样本占主导地位在训练数据集中,它导致分类器依赖于zb而不是基本属性zg。因此,通过增加具有z−b的偏差相反样本的比例来消除数据集偏差,可以通过防止模型仅依赖于zb进行分类来鼓励模型学习zg我们提出的基于图像平移的增强方法生成的图像,其视觉方面的zb被转移到z−b,同时保持基本特征zg。我们将这个增强的样本称为偏置交换图像。因此,这导致我们的分类器在无偏数据集分布中实现一致的性能,其中大多数样本是偏置相反的。2.2. 现有的去偏方法利用先验知识消除偏差已经提出了几种对偏差类型具有 明 确 标 签 的 方 法 [9 , 10 , 11 , 12 , 13] 。 Li 和Vasconcelos [10]和Kim等人。[9]将特定的RGB值设置为有色MNIST数据集中的偏差提示,其中特定的颜色与每个数字相关Agarwal等人[11]建议通过涉及选择要移除的对象的人工策划的启发式算法来合成具有生成算法的数据此外,Sagawaet al. [12] Goelet al. [13]利用需要对偏置类型进行昂贵监督的偏置子组的聚类。其他方法预先定义偏置类型,并构建偏置定制模块用于解决特定偏置类型[3,2,4,5,6,14,15,16]。Wang等人[2]假设图像分类任务中存在纹理偏差,并提出在潜在空间中的投影方法,以从纹理偏置的特征中学习独立的特征。Geirhos等人[4]提出了一种具有自适应实例归一化的基于风格转移的增强方法[17],该方法增强了对纹理偏差的鲁棒性。Bahng等人[3]分别介绍了捕获图像分类中的纹理偏差和视频动作识别中的静态偏差的能力有限的模型,并提出了对它的统计独立表示的学习然而,这些方法具有局限性,因为假设某种类型的偏差不能保证具有其他类型偏差的数据集中的一般化去偏差由于偏置引导属性Zb是由数据集的特征(诸如图像的组成和属性复杂度)确定的,因此在没有对特定偏置类型的先验假设的情况下学习去偏置表示是必要的。在没有明确监督的情况下消除偏见14994=y其中∈∈Σ以无监督的方式进行去偏表示是一个理想但要求很高的问题。Darlow等人[18]利用分类交叉熵(CE)损失。在我们的设置中,它放大了有偏表示,因为其梯度被写入潜在空间中的对抗性扰动,用于针对分类器学习的偏差来合成图像NamGCE(p,y)∂θpq CE(p,y)∂θpy是概率相关的等人[7]在早期训练阶段观察偏差的一般方面易于学习,并采用广义交叉熵损失[19]来训练有偏网络。在去偏网络的训练过程中,通过加权交叉熵损失对网络不能分类的样本进行加权一个真正的去偏分类器学习广义属性zg,它应该正确地分类无偏以及有偏数据集中的样本。然而,现有的基线[6,7]经常遭受有偏数据集中的显著性能退化(即,偏置引导样品)。这意味着,他们含蓄地学习,以避免响应于目标标签y,q(0,1)是一个超参数,eter,θ表示网络参数。与CE损失相比,GCE损失更重视易于学习的样本由于这些样本在我们的训练数据集中是有偏差的,我们的分类器会有偏差。假设偏置分类器f偏置输出结果logits z=(z1,…z K)最后一个线性层之后的R K,其中K表示目标类的数量。我们首先通过获得正确性和概率最大值之间的绝对差异来定义每个样本x的偏倚得分,描述为偏差引导属性,不完全学习zg。学习得分K.efbias(x)、没有偏见监督的去偏见代表仍然存在具有挑战性,因此相当缺乏探索。我们提出的偏置量身定制的增强有效地消除了(x)=。1argmaxfbias(x)=y−maxj=1 efbias(x)j(.第一章数据集偏差,实现广义去偏差功能在有偏和无偏测试集上。3. 该方法本节提供了区分偏置引导和偏置相反样本(第3.1节)、训练偏置定制交换自动编码器(第3.2节)以及训练具有去偏置表示的分类器(第3.3节)的详细描述。3.1. 偏倚相反样本我们提出了一种简单而有效的方法,将训练样本分为偏差指导组和偏差相反组。该方法根据训练数据集自适应地为图像分配偏差标签,而不需要对偏差进行明确的监督。如第2.1节所述,偏置引导样本具有易于学习的不必要的相关性[7,20],而偏置相反样本则难以学习。因此,一个有偏见的分类器变得更加准确。其中1是指示函数,当满足给定条件时输出1,反之则输出0,max返回softmax运算后的最大概率值,并且f_bias(x)j作为偏置分类器的第j对于包含z b的偏置引导图像,模型正确地预测目标标签y(即,在Eq中的第一项 1变为1)具有高置信度(即,第二项在Eq. 1变高),导致计算出的分数接近0。相反,当模型做出错误的预测(即,在Eq中的第一项1变为0)具有高置信度(即,方程中的第二项1变高),这可能主要是针对偏差相反的样本观察到的。此外,对于分类器正确预测具有低置信度的偏差相反图像的偶然情况,分数将被放置在0和1之间。给定这样的分数,我们确定每个数据的伪偏差标签y~bias(x),其.如果score(x)>1N,则为1score(xi)对偏置引导样本进行训练和校正。相比之下,由于偏置相反样本不包括分类器主要依赖的属性,因此分类器可以是1)确定的或2)不确定的。y~bias(x)=0否则Ni=0、(二)tain和不正确的或2)不确定的偏差相反的样本。基于这些特征,我们引入了一个伪偏差标签,通过观察图像的分类正确性和模型的置信度来为了区分二进制类别(即,更确切地说,我们首先通 过 以 与 Nam 等 人 类 似 的 方 式 利 用 广 义 交 叉 熵(GCE)损失[19]来训练有偏分类器fbias。[7] GCE损失最初被提出作为噪声鲁棒的替代方案其中,y表示地面实况目标标签,N表示训练图像的总数。我们将y~bias=0的图像视为偏置引导,将y~bias=1的图像视为偏置相反。我们采用整个样本的分数的算术平均值我们的经验发现,这样的平均值的分数可以作为一个简单而有效的阈值,用于区分偏置引导图像和偏置相反的图像。在第4.2节中,我们验证了这个简单的标准在本文中使用的各种数据集上的合理表现。作为149952ΣΣXK生成翻译后的图像,其中包含c作为kwk Fk,其中F偏置,k表示全局ΣΣCsx2,同时保持x1的含量。为了确保跨-信道k和w的平均池化表示权重图1:所提出的方法BiaSwap的图示。图(a)示出了交换增强框架的整体流水线,并且图(b)详细描述了补丁采样器和偏置定制补丁鉴别器我们从这个框架中生成偏差交换图像,以增强训练数据集,用于学习去偏差表示。3.2. 偏置定制交换自动编码器如图1-(a)所示,给定使用y轴偏置的一对偏置引导和偏 置 相 反 图 像 , 我 们 将 称 为 交 换 自 动 编 码 器(SwapAE)[21]的最先进的图像到图像转换方法作为我们的骨干网络进行转换。为了使偏置对齐样本中的偏置感知属性的翻译成为偏置相反的,我们提出了一种新的补丁共现鉴别器变体,其主要关注基于偏置分类器的类激活图(CAM)[8]的偏置交换自动编码器SwapAE [21]由将图像映射到潜在特征z的编码器E和从潜在特征z重构图像x的生成器G组成。z. 具体来说,E将图像编码成其内容特征针对具有交换属性的局部图像包含与x2相同的风格,提出了一种斑块共生鉴别器Dpatch.这样的鉴别器强制来自所生成的图像的随机采样的块中的样式与X2中的样式相同。因此,目标函数可以写为Cooccurrence GAN(E,G,Dpatch)=Ex1 , x2X−log ( Dpatch ( cropu ( G ( z1 , z2 ) ) ,cropsu(x2))),(四)其中,cropu和cropsu分别表示在图像中针对单个片和多个片均匀随机地裁剪的操作。为了使生成的图像G(z1,z2)逼真,对抗损失被添加为C szc和样式特征zs,G将它们合成这些图像可以解释。SwapAE首先利用重建损失和对抗损失[22]GAN,swap(E,G,D)=Σ12Σ(五)生成输入图像的真实重建X.两笔损失都写为Ex1,x2X,x1=x2−log(D(G(zc,zs)).L侦察 (E,G)=ExXΣ¨x−G(E(x))¨2Σ,(三)基于CAM的面片采样由于D面片从整个空间分辨率随机采样面片,因此样式例如LGAN,recon(E,G,D)=ExX−log D(G(E(x),其中,D表示训练数据集分布,并且D表示对图像是真实的还是伪造的进行分类的鉴别器。此外,SwapAE学习将一个图像的风格(表示为x1)转换为另一个图像的风格(表示为x2),从而生成转换后的图像。这可以通过从这些图像构造潜在特征的交换对并将它们解码成图像来完成。换句话说,每对(z1,z1)和(z2,z2)分别从x1和x2编码。从面片提取的图像不反映某些属性。相反,由于我们的目标是转移与分类器容易学习的属性相对应的样式因此,我们利用有偏分类器fbias并将其CAM [8](其识别由此类分类器使用的区分区域)集成到D片中的片采样方法中。具体地,给定图像,我们的分类器产生激活图f偏置,k(x,y),其中k表示-k(x,y)中的通道dex和(x,y)是空间位置的坐标然后,公司简介而交换对,即, (z1,z2),被解码为下面的Zhou et al. [8],我们为每个类计算一个logitcLL14996KKXX X∪XCsXΣΣ其将F偏差k映射到每个类别概率中。类c的日志可以写成ΣwcFbias,k=ΣwcΣf bias,k(x,y)(a) 有色MNISTK Kk kx,y(六)=Σ Σw cfbias,k(x,y)。(b) CIFAR10损坏x,yk因此,空间位置(x,y)处的激活图对于通过分类器f偏置对类别c进行分类的重要性可以表示为I c(x,y)= Σw cfbias,k(x,y)。(七)(c) bFFHQK由于分类器是有偏的,Ic(x,y)的大值表明分类器高度获得偏置属性的位置。在这方面,我们将Ic(x,y)转换为块(x,y)的每个空间位置的采样概率P(x,y),并在用于风格提取的判别器D块中利用这种概率,如图1-(b)所示。换句话说,代替等式(1)中的随机裁剪操作。4,我们根据描述为(d) 酒吧图2:我们在论文中使用的每个数据集的示例图像。图(a)和(b)表示在偏差属性和目标类别之间具有强相关性的偏差引导样本。对于行(c)和(d),我们另外用红色框可视化了偏置相反图像,其不包含这种相关性。表示.最后,我们用这些数据集训练分类器fdebias,分类损失为P(x,y)=Σc(x,y)Ic(x,y).x为oh(八)L类=ExXaugΣ−Σcyclogfdebias(x)Σ.(十)这鼓励与图像中的偏置属性相比较而言更频繁地对与图像中的偏置属性相对应的块进行采样因此,方程的目标函数的变体。4经由偏置定制的贴片鉴别器可以被描述为Cooccurrence GAN(E、G、D偏差定制补丁)=Ex1,x2<$X−log(D斑块(作物b(G(z1,z2)),作物b(x2),(九)其中,cropb和cropb表示在等式1的概率下的裁剪操作。8的图像中的单个块和多个块。因此,BiaSwap生成偏置交换图像,其包含来自偏置相反图像的偏置相关属性,同时保留来自偏置引导图像的偏置无关特征,如图1-(a)所示。3.3. 使用增强数据集训练分类器通过添加生成的偏置交换图像偏置交换,我们可以获得我们的增强训练数据集aug=偏置交换。这些合理数量的偏差交换样本减轻了由数据集中的偏差引导图像的主导数量引起的数据集偏差,从而防止模型学习偏差4. 实验和分析在第4.1节中,我们首先介绍了实验设置,包括有偏数据集的细节和实现细节。之后,第4.2节和第4.3节分别提供了我们的方法与合成和真实世界数据集上的现有基线之间的定量和定性比较。4.1. 实验装置我们评估我们的方法以及整个合成数据集的基线,即,着色MNIST和腐蚀CIFAR10 [23],它们在以前的文献中被广泛使用。我们还利用了真实世界的数据集,包括BAR [7]和bFFHQ。数据集如图所示2,有色MNIST是一个MNIST数据集[24],它与某些颜色相关。为了注入颜色偏置,我们选择10种不同的颜色,并将每种颜色注入到具有特定数字标签(例如, 红色用于零标签的图像)。偏置相反样本具有随机均匀采样的颜色。Cor-rupted CIFAR10 是 具 有 纹 理 损 坏 的 CIFAR 10 [25] 数 据 集 , 如Hendrycks和Dietterich [23]中所提出的。与着色MNIST类似,每个纹理损坏与每个对象类都有有害的相关性我们新构建了性别偏见FFHQ数据集(bFFHQ),该数据集具有eL14997数据集%偏导ReBiasLFF无偏ReBiasLFF BiaSwap香草BiaSwap香草95.099.23100.080.3397.9579.5496.2884.7290.85有色MNIST99.099.74100.062.3398.4548.7684.1970.0583.7499.599.4499.972.8598.4932.6762.8261.6185.7695.099.0598.2362.7495.5335.6845.4942.3241.62CIFAR10损坏99.098.7999.1174.7396.9824.5125.0429.2732.5499.598.5699.2980.9096.8223.1220.4927.1029.11表1:两个合成数据集上的偏差指导和无偏测试准确度的定量比较。请注意,每种方法都有不同的监督级别。具有黄色背景的方法预先假设偏置类型,而具有蓝色背景的方法不需要这种类型。我们用粗体表示最佳分数,用下划线表示无监督方法中的最佳分数年龄作为目标标签,性别作为相关偏倚,图像来自FFHQ数据集[26]。这些图像包括占主导地位的年轻女性(即,10-29岁)和老年男性(即年龄40-59岁)。有偏动作识别(BAR)数据集通过与不同位置相关的六个人类动作类进行分类[7]。策划了六个典型的动作-场地组合,分别是(攀岩、攀岩)、(潜水、水下)、(钓鱼、水面)、(赛车、铺砌跑道)、(投掷、运动场)和(跳马、天空)。对于合成数据集上的实验对于bFFHQ,我们利用了99.0%的偏差引导图像。对于BAR,我们使用典型的动作-位置配对图像进行训练,并且偏差相反的图像仅属于评估集。虽然BAR仅包含偏差引导训练样本,但无疑存在相对更容易的样本,即,比其它的更偏向引导,即,更少的偏见指导,在我们提出的框架。评估集为了衡量去偏方法的泛化能力,我们考虑两种类型的评估集,无偏集和偏导集。按照现有研究的评价方案[3,7,18],以偏倚属性随机均匀分布在数据中的方式构建无偏倚评价集,与特定目标标签无任何相关性该集合主要评估去偏方法如何正确分类不包括强相关性的偏反测试样本。请注意,对于真实世界的数据集,我们从无偏测试集中排除了偏差引导样本相比之下,偏置引导集由来自偏置训练数据集的相同分布的偏置引导图像组成这样的评估集使我们能够评估去偏置方法在学习去偏置表示之后如何保持偏置对准的测试图像的分类能力我们认为真正的去偏分类器应该在无偏和有偏的测试集中正确地预测图像的目标标签对于偏置分类器和去偏置分类器,我们使用具有三个隐藏层的MLP用于有色MNIST,并且ResNet-18 [27]分别用于损坏的CI-FAR 10、bFFHQ、BAR数据集。对于Swa-pAE,我们遵循与Park等人中提出的相同的网络架构。[21]为了测量偏差得分,超参数q= 0。7用于GCE损失,并且在50个时期上公平地选择阈值。我们在补充材料的D节中提供了实验细节的详细描述。比较方法我们将BiaSwap与现有方法ReBias [3]和LfF [7]进行比较,这些方法解决了图像分类任务中的数据集偏差问题。在比较中还包括在没有任何去偏过程的情况下训练的香草分类器此外,我们添加了风格化ImageNet(SIN)[4]作为我们的基线,以验证在去偏中利用现实增强的有效性。为了与基线模型进行公平比较,我们使用我们评估的数据集重新实现LfF [7],ReBias [3]和Stylised ImageNet(SIN)[44.2. 定量评价合成数据集,我们验证我们的方法上有色MNIST和损坏的CIFAR10。在表1中,我们报告了具有不同偏倚率的两个数据集的分类准确度,在每个数据集的偏倚指导和无偏倚测试集上进行了评估。偏差越严重,模型越无法对无偏数据进行归纳,而捷径并不存在。相比之下,我们的亲98.099.80100.069.1498.3362.6290.1675.8885.2998.098.9798.6773.4194.8229.6831.5235.2335.2514998数据集有色MNIST97.5492.1294.74CIFAR10损坏60.7087.2866.13bFFHQ精密度(%)召回率(%)F1评分(%)65.5270.6267.70数据集Vanilla ReBias LfF BiaSwapbFFHQ偏导98.6098.0959.8599.13反偏51.0353.6655.6158.87酒吧偏导95.0087.7891.6793.33反偏49.5939.2952.1352.4表2:在两个真实世界数据集上的偏差引导和偏差相反测试准确度的定量比较我们用粗体来表示最好的分数,用下划线来表示无监督方法中的最好分数。提出的方法在无偏测试集上保持了鲁棒的去偏能力,而不管偏置比。此外,观察到ReBias在Colored MNIST中获得最佳分数请注意,与ReBias相比,BiaSwap获得了相当的准确性,即使BiaSwap也不需要对优势中的偏差类型进行任何假设。特别是对于偏差引导样本,我们的方法取得了显着的改善,成功地推广到预期的方向。与LfF相比,其中不需要关于偏差类型的先验知识,如BiaSwap,Bi-aSwap在大多数数据集设置的偏差引导和无偏测试准确度方面优于LfF。至于LfF的降级的偏置引导准确度,我们假设有限数量的偏置相反图像的过采样使得网络在训练期间反而对被淡化的偏置引导图像拟合不足。真实世界数据集为了证明我们的方法在现实场景中的有效性,我们提供了在真实世界图像中包含复杂类型的偏差的bFFHQ和BAR数据集上验证的定量比较。表2证明了BiaSwap相对于这些真实世界数据集上的现有基线实现了优异的去偏置性能。ReBias揭示了那些数据集的偏差相反准确性的显著下降,其中纹理不再导致不必要的相关性。同样地,LfF示出了偏置引导图像中的劣化性能。因此,我们证明了我们的方法代表了去偏方法,在现实世界的数据集上具有广泛的适用性。为了验证所提出的方法,消融研究是表3:经由精确度、召回率和F1得分度量对y~偏置分配的定量评估我们报告了每个数据集99.0%的评估分数,但BAR除外,其中没有偏倚标签。(a) 通过Stylised ImageNet(b) 通过BiaSwap图3:来自(a)SIN和(b)我们的偏差定制交换增强的增强图像之间的定性比较。与SIN相比,BiaSwap生成更真实和更能感知偏差的补充材料A节中提供。对偏置分配的评估我们提供了对所提出的经由等式(1)在偏置引导图像和偏置相反图像上分配伪偏置标签的方法的定量1和2,如表3所示。该表包括具有不同偏倚严重性比率的四个数据集上注意,我们认为识别偏差引导图像和偏差相反图像在我们的框架中同等重要,我们首先计算两种情况下的每个度量然后,我们将它们相加并除以二,以便获得用于分类偏差引导图像和偏差相反图像两者的总体分数。如表3所示,第3.1节中提到的所提出的方法在划分偏置引导和偏置相反图像方面实现了合理的性能因此,提供这些成对的图像集合使得能够在第3.2节中描述的交换自动编码器中有效地生成偏置交换图像。4.3. 定性分析图3-(b)描绘了每行中的有色MNIST、损坏CIFAR10和bFFHQ的一组偏置引导、偏置相反和所生成的偏置交换图像我们观察到,偏置交换的图像包含从偏置交换图像中提取的偏置属性14999彩色MNIST BAR bFFHQ香草48.7649.5974.86罪40.7950.5169.86BiaSwap83.7452.4478.98表4:BiaSwap和SIN之间的无偏测试准确度的定量比较。我们利用99.0%的偏差引导图像进行训练。相反图像,同时保持来自偏置引导图像的偏置无关属性。例如,我们的方法通过反映另一个年轻男性(第二列)的性别属性,将一个年轻女性(第一列)转换为一个年轻男性(第三列)虽然现有的基于增强的方法已经实现了改进的分类性能[28,29,30],但它们可能会产生不切实际的图像。一些方法通常利用简单的图像级增强技术来组合两个不同的图像,从而产生与自然图像相比不真实的图像。最近提出的StylisedImageNet(SIN)[4]利用基于AdaIN的风格转移来增强具有不同纹理的ImageNet图像,以解决纹理偏差。然而,如图3-(a)所示,与原始图像相比,风格化的相比之下,我们的方法以更自然的方式合成了逼真的图像,并且我们相信逼真的增强图像比不现实的图像更有助于debi- asing。为了验证这一点,我们将我们的方法的无偏测试准确度与表4中的有色MNIST、bFFHQ和BAR数据集上的SIN的无偏测试准确度进行了比较。我们观察到,SIN未能学习每个数据集上的去偏表示,并且这可能是由1)不切实际的扩增样本和2)未考虑偏置属性的扩增引起的。具体而言,在图3-(a)中,程式化的粉红色八失去了八的原始形状,并且在性别属性保持不变的情况下改变了一个正面图像的纹理。另一方面,BiaSwap仅替换偏置相对属性并生成视觉上合理的图像,如图3-(b)所示。在图4中从左到右的顺序中,示出了偏置引导样本、偏置相反样本、CAM、在图像(b)上可视化的CAM热图以及从BiaSwap生成的偏置交换图像。(d)中的红色区域对应于与蓝色区域相比更具辨别力的区域。如所预期的,CAM的突出显示的区域主要出现在利用偏置 属 性 的 区 域 中 , 例 如 , 着色MNIST中 的 颜色和bFFHQ中的面。注意,通过利用偏置分类器中的那些被关注区域的属性,我们的偏置-图4:在我们的基于CAM的补丁采样器中使用的CAM的可视化定制块鉴别器考虑偏置相关属性来生成图像。例如,(e)列中的猫包含相同的损坏(即,饱和),同时保持列(a)中cat的整体形状。5. 讨论和结论在本文中,我们提出了一种新的基于图像平移的去偏置方法,该方法增强了现实的偏差相反的图像学习去偏置表示。基于偏见属性是易于学习的假设,我们利用补丁共生鉴别器集成CAM和GCE损失生成的图像与其偏见属性翻译从偏见相反的图像,同时保持其他偏见无关的视觉方面。大量的实验表明,我们的方法能够快速生成真实的偏置相反图像,在不同的数据集上实现了最先进的去偏置性能。我们承认,图像中的偏差的完美转换仍然具有挑战性,特别是当数据集包含偏差属性的复杂组合或训练图像的数量有限时。然而,我们相信,我们的工作可以被视为未来去偏见工作的基石致谢本研究得到了韩国政府(MSIT)资助的信息通信技术规划评估研究所(IITP)的支持(编号:2009)。2019-0-00075,人工智能研究生院项目(KAIST))。这项工作也得到了韩国国家研究基金会(NRF)的支持,该基金由韩国政 府 ( MSIT ) 资 助 ( 编 号 : 2009 ) 。 NRF-2019R1A2C4070420)。 这项工作也得到了&&韩国政府(MSIT)资助的信息通信技术规划评估研究所(IITP)的支持(编号:2021-0-01778,感知阈值以下人类图像合成与辨别技术的发展)15000引用[1] A. Torralba和A. A.埃夫罗斯 无偏倚地看数据集偏倚。CVPR '11,2011。1[2] 作者:王浩涵,何泽学,李志华Lipton和Eric P.邢通过投影表面统计来学习鲁棒表示。在2019年国际学习代表会议上。一、二[3] Hyojin Bahng、Sanghyuk Chun、Sangdoo Yun、JaegulChoo和Seong Joon Oh。用有偏表示学习去偏表示2020年国际机器学习会议(ICML)。一、二、六[4] 放 大 图 片 作 者 : Robert Geirhos , Patricia Rubisch ,Claudio Michaelis,Matthias Bethge,Felix A.Wichmann和Wieland Brendel。ImageNet训练的CNN偏向于纹理;增加形状偏差提高了精度和鲁棒性。2019年国际学习代表会议。一、二、六、八[5] Remi Cadene 、 Corentin Dancette 、 Hedi Ben younes 、Matthieu Cord和Devi Parikh。Rubi:减少视觉问答的单模态偏差。In H. 瓦拉赫H. Larochelle、A. Beygelzimer,F. d'Alché-Buc、E.狐狸和R. Garnett,编者,《神经信息处理系统进展》,第32卷。Curran Associates,Inc. 2019. 一、二[6] Christopher Clark,Mark Yatskar,and Luke Zettlemoyer.不要走捷径:用于避免已知数据集偏差的基于集成的方法。在2019年自然语言处理经验方法会议和第九届自然语言处理国际联合会议(EMNLP-IJCNLP)会议中,第4069- 4082页,中国香港,2019年11月。计算语言学协会。一、二、三[7] Junhyun Nam、Hyuntak Cha、Sungsoo Ahn、Jaeho Lee和Jinwoo Shin。从失败中学习:从有偏分类器训练去偏分类器。在神经信息处理系统的进展,2020年。一二三五六[8] B. Zhou,中国古柏A.科斯拉拉佩德里萨一、A. Oliva和A. 托 拉尔 巴。 学习 深度 特 征以 进行 区分 性 定位 。CVPR,2016年。1、4[9] Byungju Kim、Hyunwoo Kim、Kyungsu Kim、SungjinKim和Junmo Kim。学习不学习:用有偏见的数据训练深度神经网络在IEEE计算机视觉和模式识别会议上,2019年6月。2[10] Yi Li和Nuno Vasconcelos修复:通过数据集重新采样删除代表性偏差。在IEEE计算机视觉和模式识别会议论文集,第9572-9581页,2019年。2[11] V. Agarwal、Rakshith Shetty和M.弗里茨Towards causalvqa : Revealing and reducing spurious correlations byinvari-ant and covariant semantic editing.2020年IEEE/CVF计算机视觉和模式识别会议(CVPR),第9687-9695页,2020年。2[12] ShioriSagawa , PangWeiKoh , TatsunoriBHashimoto,and Percy Liang. 分布式鲁棒神经网络组转移:论正则化对最坏情况推广的重要性。arXiv预印本arXiv:1911.08731,2019。2[13] Karan Goel,Albert Gu,Yixuan Li,and Christopher Re.模型修补:通过数据扩充缩小子组性能差距2021年,在国际学术会议上发表2[14] Rakshith Shetty,B. Schiele和M.弗里茨 不使用汽车来查看人行道-量化和控制上下文在分类和分割中的影响 。 2019 IEEE/CVF 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR),第8210-8218页,2019年。2[15] 认识一下Shah、Xinlei Chen、Marcus Rohrbach和DeviParikh。稳健视觉问答的周期一致性。第6642-6651页,2019年6月。2[16] Arijit Ray、Karan Sikka、Ajay Divakaran、Stefan Lee和Giedrius Burachas。外面阳光明媚还是黑暗?!通过包含的问题生成来提高在EMNLP/IJCNLP,2019。2[17] Xun Huang和Serge Belongie。实时任意样式传输,具有自适应实例规范化。InICCV,2017. 2[18] LukeeDarlow,StanislavawJastrzeZebski,andAmosZebek ey. 潜在对抗性去偏:减轻深度神经网络中的碰撞器偏差。arXiv预印本arXiv:2011.11486,2020。三、六[19] Zhilu Zhang和Mert R Sabuncu.用于训练具有噪声标签的深度神经网络的广义交叉熵损失。arXiv预印本arXiv:1805.07836,2018。3[20] RobertGeirhos , Jörn-HenrikJacobsen , ClaudioMichaelis,Richard Zemel,Wieland Brendel,MatthiasBethge,and Fe-lix A Wichmann.深度神经网络中的快捷学习Nature Machine Intelligence,2(11):665-673,2020。3[21] [10]李文辉,李文辉. Efros和Richard Zhang。交换自动编码器进行深度图像处理。在神经信息处理系统的进展,2020年。四、六[22] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。 在proc TheAdvancesinNeuralInformationProcessingSystems(NeurIPS),第27卷,2014年。4[23] Dan Hendrycks和Thomas Dietterich基准神经网络的鲁棒性常见的腐败和扰动。在学习代表国际会议上,2019年。5[24] 扬·勒昆和科琳娜·科尔特斯MNIST手写数字数据库。2010. 5[25] A. Krizhevsky和G.辛顿从微小的图像中学习多层特征。多伦多大学计算机科学系硕士5[26] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构,用于生成对抗网络。在IEEE/CVF计算机视觉和模式识别会议论文
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功