没有合适的资源?快使用搜索试试~ 我知道了~
15002基于互信息最小化Wei Zhu1,Haitian Zheng1,Haofu Liao*2,Weijian Li1,andJieboLuo 1罗切斯特2亚马逊网络服务{wzhu15,hzheng15,wli69}@ ur.rochester.edu,liaohaofu@gmail.com网站,jluo@cs.rochester.edu摘要深度学习算法从训练数据中挖掘知识,因此可能会继承数据集的偏差信息。因此,在实际应用中,所得到的模型推广性较差,甚至会误导决策过程。我们提出了一种跨样本对抗性去偏(CSAD)方法来去除目标任务误用的偏置信息CSAD明确地提取目标和偏见的功能,从一个特征提取器生成的潜在的表示解开,然后学习发现和删除目标和偏见的相关性测量在对抗性去偏中起着至关重要的作用,并且由交叉样本神经互信息估计器进行。此外,我们提出了联合内容和局部结构表示学习,以提高互信息估计,以获得更好的性能。我们进行了彻底的实验公开,licly可用的数据集,以验证所提出的方法比国家的最先进的方法的优势1. 介绍现代机器学习建立在收集和贡献的数据之上。然而,真实世界的数据不可避免地包含噪声和偏差,并且可能不是良好分布的。这种有缺陷的数据集可能使学习模型不可靠,并且对学习模型对看不见的数据的泛化能力造成威胁这个问题对于医疗和保健相关的应用特别关键[10]。例如,帕金森[2]这项工作是廖浩夫在罗切斯特大学时完成的。图1.CSAD用于颜色偏置二进制分类任务的简要说明我们的目标是获得一个颜色不变的数字分类器。给定第i个训练样本xi为红色“0”,大多数现有方法消除了hi与来自第i个样本(实线)的红色信息之间的相关性,其中hi是提取的特征。相比之下,CSAD可以降低hi与从其他样品提取的各种红色之间的相关性。交叉样本互信息估计器测量与联合内容和局部结构表示的相关性PD患者主要由相关数据集中的老年人组成[41,8,27]。在这些数据集上学习的模型可以通过患者的年龄而不是疾病的症状来因此,年龄偏差使得学习的模型对于现实生活中的疾病诊断和分析几乎没有用处已经提出了几种方法来学习消除数据集偏差[22,1,36,51,30,5]。其中,一些方法通过额外的正则化项来正则化模型以避免学习偏差[30,5],而其他方法则通过对抗学习来消除学习到的偏差信息[22,36,51]。 我们的工作遵循15003后者,并且偏差消除通常通过最小化所提取的特征和偏差标记之间的相关性来进行相关性测量在对抗性去偏中起着关键作用,并且通常由最近提出的神经互信息估计器来填充[17,6,21]。特别地,[22]提出通过在特征提取器和偏置分支之间添加梯度反转层来逆向发现和去除偏置[36]通过最小化潜在表示和偏差标记之间的相互信息,adversarally学习减轻偏差总而言之,它们基本上通过消除目标和来自相同训练样本的偏差信息之间的依赖性来学习从目标分类器中去除偏差信息。因此,这些方法仅限于对每个训练样本进行建模和降低相关性,而完全忽略了丰富的跨样本信息。然而,我们注意到,交叉样本信息对于去偏置是重要的并且是必须考虑的例如,如图2所示。在等式(1)中,给定第i个样本xi为红色“0”,仅仅消除hi和从xi提取的红色表示之间的相关性是不够的,因为hi和从其他红色数字提取的颜色表示之间的相关性将被保留,其中hi是xi的表示。 也就是说,h i可能仍然是高度偏置的,并且与粉红色、玫瑰色、红宝石等相关。忽略将对学习的相关性测量的可靠性构成严重威胁,并且甚至最终导致去偏置的次优性能。此外,尽管局部结构表示被证明有助于相关学习[52,3],但它也难以与现有方法[22,51,1]结合。为了解决上述问题,我们提出了一种交叉样本对抗性去偏置(CSAD)方法,如图2所示1.一、为了能够利用交叉样本和结构信息,受到域适应的最新进展的启发[34,33],CSAD首先明确地解开目标和偏差表示。然后,CSAD依赖于交叉样本神经互信息估计器进行相关性测量,这是在解纠缠的偏差和目标表示上进行的。这也可以避免潜在的问题所造成的域之间的差距潜在的代表性和偏见标签所使用的其他方法[22,36]。CSAD利用交叉样本信息,综合消除了不同样本的目标信息和偏差信息之间的相关性。此外,显式解纠缠使得考虑局部结构表示用于互信息估计。具体来说,我们鼓励偏差和目标表示具有不同的拓扑结构,通过重新启动随机游走[44]捕获,这可以避免某些样本的偏差信息被其邻居猜测。我们强调我们的主要贡献如下:1. 我们提出了一个灵活的和一般的对抗性去偏置框架,可以明确地解开- gle目标和偏见表示。2. 基于该框架,我们提出了跨样本对抗性去偏置(CSAD)。CSAD通过一个跨样本互信息估计器来消除偏差信息,该估计器可以联合使用跨样本内容和结构特征。3. 我们在基准数据集上进行了广泛的实验,与当前最先进的方法相比,我们的方法取得了实质性的改进。2. 相关工作2.1. 去偏见与公平偏见存在于种族,性别和年龄中,它们对不同任务中的机器学习模型构成威胁,例如图像分类[18,38,16,11,46]。表示学习[25,24,29,13],word embed-丁[53,7]和视觉问答[12]。解决这个问题的一种直接方法是收集[32]或合成更多数据以平衡训练集[18,42,37]。然而,无偏差的数据收集起来可能是昂贵的,并且对于一般任务生成是不切实际的其他方法通过学习过程减轻偏差Alvi等人通过最大交叉熵项避免学习偏差[1]。SenSR采用个体公平性的变体作为正则化器,以便学习的模型可以满足个体公平性[48]。类似地,SenSeI通过基于传输的正则化器实现个体公平性[49]。Zafar等人开发了基于决策边界公平性的公平性方法[50]。DRO通过考虑最差组性能来规范模型[40]。Learned-Mixin鼓励模型使用集成框架关注不同的模式[12]。ReBias解决了一个最小-最大博弈,以鼓励网络和有偏预测之间的独立性[5]。此外,对抗性学习也被用于消除偏见,大多数方法利用判别器来预测偏见标签或估计潜在表征与偏见之间15004label.例如,Zhang等人使用目标的软分配训练偏差标签的判别器[51]。Kim等人通过采用梯度反转层[ 22 ]来学习由偏差预测器提取的偏差。Ruggero等人学习最小化潜在表示和偏差标签之间的互信息[36]。这些方法很少考虑我们上面讨论的交叉样本和结构信息。最近,一些作品专注于学习弱甚至没有偏见的监督[23,30,46,23]。从失败中学习(LfF)对失败样 本 的 权 重 更 大 [30] 。 对 抗 性 重 新 加 权 学 习(ARL)[24]对抗性地学习硬样本的分布。这些模型可能不稳健,因为它们也倾向于过拟合噪声样本[24],并且实际意义仍需要验证。2.2. 互信息估计互信息用于度量随机变量之间的相关性。 由于互信息的精确值无法计算大规模数据,因此有几篇论文将神经网络应用于有效的互信息估计[17,6]。 对于随机变量X和Z,我们将边际分布的乘积表示为P X P Z,将联合分布表示为P XZ,并且可以通过训练神经网络M来估计X和Z之间的互信息,以区分从联合分布P XZ中提取的样本和从边际分布P X P Z的乘积中提取的样本,例如, MINE [6]、Deep InfoMax [20]等。 由于我们对互信息的确切值不感兴趣,因此从Jensen Shannon散度导出的互信息的下限可以公式化为[20]。图2.图CSAD的有色MNIST数据集,我们的目标是获得颜色不变的数字分类器。标记y和偏差标记b,目标任务可能依赖偏差信息来实现其目标,并且结果,优化模型将在看不见的无偏差数据上很差地推广。在本文中,我们的目标是删除F提取的偏差信息,同时保留目标任务的性能。作为示例,对于图1所示的有色MNIST数据集。1、不同的dig-其将在训练集中以类似的颜色按类绘制,例如红色表示零,绿色表示一。香草数字分类器可能会学习基于其颜色来预测dig-its。去偏置的目的是使表示h仅包含形状信息而不包含颜色信息。换句话说,数字分类器将依赖于形状而不是颜色来完成任务,从而最终导致更实用的模型。4. 方法我们的方法如图所示(2)并详细说明IJSD(X,Z)= supEPXZ[−sp(−M(x,z))]-EPXPZ[sp(M(x,z))],(一)算法(1).我们的基本思想是最小化解纠缠偏差和目标表示与互信息估计之间的相关性。我们简要其中sp(x)= log(1 + exp(x))是softplus函数,M是神经网络。信息噪声对比估计(Info NCE)[31]也被提出作为归一化互信息估计器[35]。3.问题陈述形式上,给定来自训练数据集的第i个样本为(xi,yi,bi),其中xi是输入数据,yi是用于目标任务的基础事实标签,并且bi是偏差标签,我们首先利用输出潜在基础表示hi的特征提取器F来训练目标分类器,以最大化目标任务的性能。然而,由于目标任务和目标任务之间存在相关性介绍训练过程如下:我们首先预训练由F,Dy和PY组成的目标分类器,直到收敛。F的输出表示为基本表示h,Dy的输出表示为目标表示hy(步骤1),然后通过Db和Pb组成的偏差分类器从h中提取偏差表示hb。注意,我们不针对偏差预测更新F(步骤2);然后,我们通过优化互信息估计器M来学习偏差hb和目标表示hy之间的相关性(步骤3);最后,我们更新F以最小化由M(Adv. 去偏置)。注意 ,特 征提取 器F 仅被 更新 以最小 化由 M(Adv.15005B∈黄蓝∈我−J去偏置)和目标预测损失(步骤1);因此,它被迫生成对于目标任务仍然足够强大的偏置不变特征。结果,在训练之后,由F提取的潜在表示h将包含关于偏差的很少信息。因此,偏置特征分解器Db不能提取有用的信息hb,该有用的信息h b可以使得互信息估计器能够将hy与hb相关联,其中第i个和第j个与现有方法[22,36]具有相同的偏置标签,因为它们直接减少了目标表示和偏置标签之间的互信息相比之下,CSAD在特征级上进行去偏置,并且明确地使目标h_y和偏置h_b表示去纠缠。然后,联合和边际分布的产品可以很容易地定义在一个跨样本的方式去偏。也就是说,第i个样本的正对是一致的。ijy类似的偏见。偏置分支与互信息估计器将在测试时被丢弃。4.1. 交叉样本对抗性去偏我们的方法中最关键的部分之一是测量目标hy(形状)和偏差hb(颜色)表示之间的相关性,这是由神经互信息估计器实现的。为了进行神经估计,我们首先需要定义hy(形状)和hb(颜色)之间的边际分布的联合和乘积。如[45]中所讨论的,互信息估计和度量学习之间存在密切 为了便于展示,我们表示sam-从联合分布Phyhb中抽取的数据为正对,从边际分布PhyPhb的乘积中抽取的数据为负对。根据最近的文献,对结构,即。,定义了P hyhb 和PhyPhb,在相互作用由目标表示h i构造 和偏见代表sentationhj,其中(i,j)Ω是共享类似偏置的一组对,并且i不必等于J.此外,如第4.2.2节所示,解纠缠框架也使得考虑结构表征成为可能。利用正对和负对的定义,我们可以通过现有的估计器进行神经互信息估计,我和JSD然而,这些估计是在假设每个样本只有一个正对的情况下开发的为了考虑每个样本的多个正对,受度量学习[47]的最新进展的启发,我们提出了一个用于对抗性去偏的跨样本互信息估计器,如下所示ICS(hy,hb)= sup−log(1 +E(i,j)∈Ωexp(−M(hy,hb)))-log(1+E(i,j)∈/Ωexp(M(h,h),信息估计[4]。 通常,正对可以通过匹配同一样本的不同表示来直观地构建,而阴性Ij(二)其中M(hy,hb)由神经网络实现I j对是通过匹配不同的样本 例如,Deep InfoMax con-在SEC中详细说明。4.2,其输出表示HY和HB之间的相关性。I j通过匹配来自同一样本的全局特征和局部特征来构造正对[21];对比多视图编码(CMC)将同一样本的不同视图视为正对[43];对比预测编码(CPC)运用连续的顺序数据来构造正对[31]。特别是对于去偏置,通常具有相同样本我们在这里为CSAD提出几点。首先,与现有方法[22,36]相比,CSAD依赖于解纠缠框架,并在特征水平hy和hb上进行相互信息估计,而不是直接使用偏差标签。这使得有可能考虑交叉样本相关性并避免潜在的域间隙。第二,CSAD的正对(联合分布)由hy和hb构造,I j作为积极的对[22,36]。然而,给定第i个样本为红色颜色标签其中(i,j)Ω且i不必等于j。第三,特征级去偏置框架还使得可以考虑每个样本的局部结构以用于互信息估计,如Iyhi和其他类似偏差之间的悬垂性变为“红色”并且可以从其它样品中提取例如,粉红色、玫瑰色、浅红色以及来自其它样品的“红色”的变体在不考虑这些交叉样本信息的情况下训练的去偏置模型将忽略潜在的目标偏置相关性,并最终导致次优性能。然而,数据之间的交叉样本关系尤其难以利用在第4.2.2节中列出,并共同采用内容和结构表示产生更好的性能,如在我们的实验中所示。最后,很容易看出,所提出的ICS是等式(1)中所示的IJSD的下限。(一).证明很简单,并且基于 Jensen再 -请 参 阅 补 充 材 料 以 了 解 详 细 信息。”[15]《易经》云:“君子之道,焉可诬也?有始有卒者,其惟圣人乎!15006i、j我我我我∈∈yy我我我Jyyi、jΣ1yi,j--∈Ij我ijijij但这并不总是导致更好的性能。与IJSD相比,建议的ICS可以自动重新加权训练样本[47],并显示出优越的性能。可以计算为exp(τsy)(五)根据我们的实验在实践中的表现。ei,j=J exp(τsy),4.2. MI估计的表示学习本节提供了具有内容和局部结构表示的互信息估计器M4.2.1内容表征学习我们首先证明了建议的内容表示的ICS我们用两个分支M=My,Mb实现M,并分别通过My和M传递hy和hb,得到M(hy)和M(hb)。然后其中τ是可学习的比例因子,本文中初始化为10。利用获得的图Gy,我们然后应用重启随机游走(RWR)来捕获每个样本的局部结构[52,3]。形式上,RWR的执行方式为:rt+1,y=cEy rt,y+(1−c)ai,(6)其中,r t,yRN是在第t次传播时第i个节点与所有其他节点之间的接近度,E y是边并且定义了传播的转移概率,c是重新开始概率并且被设置为0。5,且ai∈RN是具有第i个B Y B黄蓝其他元素设置为1和0我们从r开始,y=aM(hi,hj)由ii之间的余弦相似度计算My(hy)和Mb(hb)作为MT(hy)Mb(hb)C并递归地执行Eq.(6)直到收敛。封闭式收敛解是[44]ry=(1−c)(I−cE i)−1ai。(七)M(hy,hb)=αs(i,j)=αy ij(3)iijMy(hy)Mb(hb)ry最后,将ri归一化为ri,j=Σjyi、j养一只猫其中α是可学习的比例因子,在本文中初始化为我们称之为Eq。(2)其中M在等式(1)中定义(三)按实例分配向量。 所获得Ry捕获Hy的局部结构。同样,洛-我我作为CSAD内容。cal结构表示rb在相同4.2.2局部结构表征学习时尚B为了获得hy之间的结构相似性s s(i,j)和hb,由于ry和rb是分类向量,我们称-j i j我们进一步引入局部结构表示来丰富M的能力。我们的直觉是,对于第i个样本的目标表示hy,我们希望其偏差不被其邻居猜测。换句话说,我们希望鼓励hy和hb在拓扑结构方面是不同的,而intu-计算它们之间的负对称交叉熵为s s(i,j)=((ry)Tlogr b)+(r b)Tlog r y))。(八)2ij ji我们称之为Eq。(2)其中M在等式(1)中定义(8),即、M(hy,hb)=αss(i,j),作为CSAD-Struc.注意是简单地说,这种约束可以为学习i j提供线索更强的M用于交叉样本互信息估计。为了简单起见,我们只详细说明如何学习hy的局部结构特征,类似的过程也适用于hb首先,我们在训练样本上构造h y的无向图为Gy=< V y,E y>,其中V yRN表示节点,E yRN×N表示边,N是节点的数量。为了获得边Ey的权重,我们首先计算hy中样本之间的成对余弦相似度,如下所示:MT(hy)My(hy)直接用所有训练数据计算图是不可行的,我们用小批量中的样本构造图G4.2.3联合内容和结构表征学习我们联合使用内容和局部结构表示用于我们的互信息估计器M,如下所示:M(h y,h b)= α(s c(h y,s b)+s s(hy,s b)).(九)通过联合采用内容和局部结构表示,我们可以提供更全面yi、j=yi j, ⑷My(h)RS15007i、j互信息的估计。 我们称之为Eq。(二)I j其中M定义在Eq.(9)CSAD。实验再-结果表明,联合表示的性能优于ei-1最大也就是说,ey,它是Ey的第(i,j)个元素,CSAD-内容或CSAD-结构15008--∈4.3. 培训战略我们在算法1中给出了CSAD的伪代码,请参考图1。(2)举例说明。我们省略了所有组件的预训练阶段和训练互信息估计器的算法,请参阅补充材料了解更多细节。在整个论文中,内循环迭代的次数K被设置为10。目标和偏差预测器在本文中使用交叉熵损失进行训练,但可以直接替换为其他损失函数用于一般任务。我们注意到,从算法1,特征提取器F仅被更新以最小化目标预测损失(行4)并且最小化互信息Eq.(2)(行14),并且将永远不会被更新以最小化偏差预测损失并最大化等式(2)(行14)。(二)、因此,在优化之后,由特征提取器学习的表示将仅能够完成目标任务并且具有关于偏差的很少信息在我们的实现中,我们提出了用于步骤4的超参数λ,以实现公平性和准确性之间的平衡。由于偏差分支和互信息估计在测试时将被丢弃,我们的方法不引入额外的成本,推理。算法1学习偏置不变表示输入:训练数据x=(xi,yi,bi);1:不收敛时做2:对小批量数据进行采样;3:#步骤1:更新特征提取器和Tar- get分支4:更新F、Dy和Py以最小化目标预测损失;5:#步骤2:更新偏差分支6:对于k = l,. . . ,Kdo7:更新Db和Pb以使偏差预测损失最小;8:结束9:#步骤3:更新MI估算器10:对于k = l,. . . ,Kdo11:更新M以最大化Eq. (2);12:结束13:#第4步:对抗性去偏见14:更新F以最小化Eq. (2);十五: end while5. 实验在本节中,我们在各种数据集上进行实验,以充分证明所提出的方法的有效性。去偏和公平论文采用的实验设置和数据集是不同的我们有三种不同的说法,分别是:[22,36,1],[30]和[48,49]。我们在有色MNIST [22],IMDBface [39],CelebA [28],mPower [8]和Adult [2]上进行实验。对于有色MNIST,IMDB face和mPower,我们遵循[22,36,1]采用的debi-asing设置,对于CelebA,我们遵循[30]采用的设置,对于Adult,我们遵循[48,49]采用的公平设置。在这些数据集中,Colored MNIST、IMDB Face和CelebA是图像数据集,mPower是时间序列数据集,Adult是表格数据集。我们将所有实验运行三次并报告平均准确度[36]。我们实现了我们的方法与Pytorch和所有的实验上运行的Linux机器与Nvidia GTX 1080 Ti图形卡。5.1. 有色MNIST有色MNIST数据集[22]向标准MNIST数据集[26] 引 入了 颜 色偏 差 , 并且 对 于以 下 训练 集[22],挖掘是按类着色的σ越小意味着训练数据偏差越严重我们比较了CSAD 与其他去baising方法,包括[1],[22]和[36]。其他方法的结果从他们的论文中检索。此外,我们比较我们的方法与我们的方法,即AD-JSD,CSAD内容和CSAD结构的三个消融模型对于AD-JSD,我们采用CSAD的解纠缠框架,但对于互信息估计Eq.(1)代替所提出的ICSEq.(2)具有内容表示Eq.(三)、对于CSAD-内容和CSAD-结构,我们使用内容Eq.(3)结构方程(8)仅用于互信息估计的特征。对于CSAD,我们采用所提出的具有联合特征Eq.(九)、对于此数据集,如果每个通道的颜色之间的差异等于或小于1,则为(i,j)Ω。根据表1,CSAD的所有变体都优于具有不同σ2的现有方法。值得注意的是,我们的模型在严重偏倚的数据集(较小的σ2)上实现了更显著的改进,证明了解纠缠框架的有效性和考虑交叉样本信息的必要性。此外,通过比较AD-JSD和CSAD-内容与AD-JSD,所提出的ICS优于IJSD,显示所提出的互信息估计器Eq.(二)、此外,所提出的CSAD-Struc的性能略优于CSAD-Content,并且具有联合表示的CSAD 与 CSAD-Content 或 CSAD-Struc 相 比 表现 良好,表明1)结构表示可以有益于对抗的学习过程15009∈∈表1.有色MNIST测试集的评价结果训练集上的方差σ2越小,偏差越严重方法色差σ2表2. IMDB人脸数据集上的性别预测评估结果。所有网络都用测试集和另一个训练集进行评估。EB1培训方法EB2培训EB2测试EB1测试基线0.59860.84420.57840.6975Alvi等人[1]第一章0.63740.85560.57330.6990Kim等人[22日]0.68000.86660.64180.7450Ruggero等人[36个]0.68400.87200.63100.7450CSAD(我们的)0.70380.86960.68110.7865表3.对CelebA的评价结果无根据的偏见-冲突方法目标属性:BlondHair基线0.70250.5252[40]第四十话0.84240.8124LfF [30]0.85430.8340CSAD(我们的)0.89360.8753目标属性基线标签:HeavyMakeup0.6200 0.3375[40]第四十话0.64880.5024LfF [30]0.66200.4548CSAD(我们的)0.67880.5344表4. mPower攻丝数据集的评估结果。方法AUCAPF1基线0.7350.4190.553Kim等人[22日] 0.7590.4240.572CSAD(我们的)0.7720.4340.581简单的去偏置和2)联合考虑内容和结构特征可以导致更好的性能。5.2. IMDB脸IMDB人脸数据集[39]是一个人脸图像数据集。在[22,36]之后,图像被分为三个子集,即:极端偏倚1(EB 1):0-29岁女性,40岁以上男性;极端偏倚2(EB 2):40岁以上女性,0-29岁男性;测试集:20%的0-29岁或40岁以上的清洁图像。 因此,EB1和EB2偏向于年龄,因为EB1由年轻女性和老年男性组成,EB2由年轻男性和老年女性组成。我们在ImageNet [15]上采用预训练的ResNet18 [19],然后[36,22]作为特征提取器。此外,我们冻结BN层以稳定训练过程。(i,j)Ω,如 果 它 们 共 享 相 同 的 偏 置 标 签 。 我 们 在 EB1(EB2)上训练我们的模型,并在EB2(EB1)和测试集上评估训练好的模型。表2示出了预测结果。有偏的训练样本对基线方法构成严重威胁,并且使所获得的模型在看不见的数据上泛化较差。相比之下,通过去偏方法获得的模型具有年龄不变的表示,并且所提出的CSAD实现了更好的性能。5.3. CelebACelebA数据集包含人脸图像的40个属性。我们遵循Nam等人。对官方训练(162770个样本)和验证( 19867 个 样 本 ) 集 进 行 实 验 , 以 分 别 预 测BlondHair 和 HeavyMakeup , 其 中 偏 置 属 性 为Male[30]。为了评估性能,我们从原始验证集构造无偏集和偏差冲突集下面[30],使用所有验证数据构建无偏集,我们报告了基于目标偏倚对的加权平均偏置冲突集由具有相同目标值和偏置值的数据构成,例如,BlondHair-男性,因为在训练集中很少有男性具有BlondHair。(i,j)Ω,如果它们共享相同的偏置标签。结果示于表3中。我们采用预训练的Resnet-18作为冻结BN层的特征提取器。我们将我们的方法与组DRO [40]和LfF [30]进行比较。根据结果0.0200.0250.0300.0350.0400.0450.050基线0.4760.5420.6640.7200.7850.8380.870Alvi等人[1]第一章0.6760.7130.7940.8250.8680.8900.917Kim等人[22日]0.8180.8820.9110.9290.9360.9540.955Ruggero等人[36个]0.8640.9250.9590.9730.9750.9800.982AD-JSD(我们的)0.8960.9370.9590.9740.9750.9800.980CSAD-内容(我们的)0.9330.9590.9630.9760.9780.9800.983CSAD-结构(我们的)0.9280.9550.9670.9730.9800.9810.98515010∈∈表5.成人数据集的收入预测* 表示我们用三层MLP再现的结果G R G我们的方法在不同的情况下优于其他方法。5.4. mPower收集mPower,开发基于智能手机的PD患者远程诊断系统。要求受试者进行精心设计的活动,以揭示PD的症状。在这里,我们对手指敲击任务进行对抗性去偏置,其中患者将用两个手指交替地敲击他们的手机。mPower数据在年龄方面存在明显偏倚,详细统计数据见补充材料。我们将我们的方法与基线和[22]进行比较。(i,j)Ω,如果它们共享相同的偏置标签。如表4所示,我们的模型比基线和[22]的结果有所改进,表明我们的方法的学习表示对年龄偏差更稳健。5.5. 成人成人数据集是算法公平性文献中常用的基准[48]。该任务是预测受试者的年收入是否超过5万美元,其属性包括教育,性别,种族等。我们的目标是学习一个对性别和种族不变的收入预测器,这是受保护的属性[48]。我们首先按照[48]对数据集进行预处理,并将数据分为80%的训练和20%的测试。我们将我们的方法与高级公平方法进行了比较 , 包 括 Project [48], CoCL [14] , 对 抗 性 去 偏[51],SenSR [48]和SenSeI [49]。比较方法的结果与[49]中的结果相同,并且使用目标任务的两层MLP获得然而,回想CSAD包含用于目标任务的三个不同模块,包括F、Dy和Py,这使得两层MLP不适用于我们的方法,因此我们构建了具有类似性能的三层MLP,如表5所示。(i,j)Ω,如果它们共享相同的偏置标签。表5中报告的结果是根据[48]对10个不同的序列/验证分割的我们用七个评估指标,除平衡准确度(BA)外,所有这些指标均用于公平性评估[48]。详情参见[48总的来说,根据表5,所提出的CSAD优于用公平性度量专门训练的最先进的公平性方法我们注意到,尽管SenSeI[49]似乎在公平性方面实现了更好的性能,但这是以显著的平衡准确度下降(6.1%)为代价的,因此对于现实生活中的应用可能不太不切实际。相比之下,CSAD在个人和组公平性度量方面获得了最先进 的 性 能 , 具 有 相 对 较 小 的 平 衡 准 确 性 下 降(2.3%)。6. 结论本 文 提 出 了 一 种 对 抗 性 去 偏 置 方 法 CSAD 。CSAD是建立在一个新的disentangle- ment框架组成的六个可学习的模块,可以分别提取目标和偏见的功能,从输入。然后,我们逆向学习挖掘和去除目标和偏差特征之间的相关性,并通过交叉样本互信息估计器测量相关性。我们进一步提高CSAD与联合结构和内容表示。最后,我们给出了一个精心设计的训练策略,以获得去偏模型。为了验证所提方法的有效性,我们在五个数据集上进行了三种去偏基准设置的实验,结果表明CSAD在各种任务上都有较好的性能。在未来,我们将扩展CSAD来处理不完整或嘈杂的标签,并调查的可解释性和公平性准确性的权衡。7. 确认这项研究得到了NIH资助R21 DE 030251 -01,P50 NS 108676和RF 1AG 063811 - 01 S2的部分支持。BA↑ S-Con↑GR-Con↑间隙RMS↓间隙RMS↓间隙最大值↓间隙最大值↓R基线82.9.848.865.179.089.216.105基线 *82.7.844.831.182.087.212.110项目[48]82.7.8681.00.145.064.192.086高级去偏置[51]81.5.807.841.082.070.110.078CoCL [14]79.0--.163.080.201.109SenSR [48]78.9.934.984.068.055.087.067SenSeI [49]76.8.945.963.043.054.053.06415011引用[1] Mohsan Alvi , Andrew Zisserman , and ChristofferNella˚ker.Turningablindeye:Explicitremovalofbiasesand variation from deep neuralnetwork embeddings. 在 欧 洲 计 算 机 视 觉 会 议(ECCV)的会议记录中,第0-0页,2018年。一、二、六、七[2] 亚瑟·亚松森和大卫·纽曼。Uci机器学习知识库,2007年。6[3] 尼古拉斯·阿齐埃和希尼萨·托多罗维奇。使用硬代理的集成深度流形相似性学习。在IEEE计算机视觉和模式识别会议的论文集,第7299-7307页,2019年。二、五[4] Philip Bachman , R Devon Hjelm , and WilliamBuchwal- ter.通过最大化视图间的相互信息来学习表示。神经信息处理系统,第15535-15545页,2019年。4[5] Hyojin Bahng 、 Sanghyuk Chun 、 Sangdoo Yun 、Jaegul Choo和Seong Joon Oh。用有偏表示学习去偏表示在机器学习国际上,第528-539页PMLR,2020年。一、二[6] Mohamed Ishmael Belghazi , Aristide Baratin , SaiRa- jeshwar,Sherjil Ozair,Yoelman Bengio,AaronCourville,and Devon Hjelm.互信息神经估计。在国际机器学习会议上,第531-540页二、三[7] Tolga Bolukbasi ,Kai-Wei Chang,James Y Zou,Venkatesh Saligrama,and Adam T Kalai.男人之于计算机程序员就像女人之于家庭主妇一样?去除字嵌入的偏见。神经信息处理系统的进展,第4349-4357页,2016年2[8] Brian M Bot,Christine Suver,Elias Chaibub Neto,Michael Kellen , Arno Klein , Christopher Bare ,Megan Doerr,Abhishek Pratap,John Wilbanks,ERay Dorsey,et al. mpower研究,帕金森病移动数据收集使用researchkit。Scientific data,3(1):1-9,2016. 1、6[9] 斯蒂芬·博伊德,斯蒂芬·P·博伊德,利文·范登伯格.凸优化剑桥大学出版社,2004年。4[10] Richard Chen,Filip Jankovic,Nikki Marinsek,LucaFoschini , Lampros Kourtis , Alessio Signorini ,Melissa Pugh , Jie Shen , Roy Yaari , VeraMaljkovic,et al.从消费级多模态传感器流开发现实世界中的认知障碍的测量。第25届ACM SIGKDD知识发现数据挖掘国际会议论文集,第2145-2155页,2019年。1[11] 蔡金宇,高晨,约瑟夫·CE·梅苏,黄佳斌.为什么我不能在商场里跳舞?学习减轻动作识别中的场景偏差。神经信息处理系统进展,第853-865页,2019年2[12] ChristopherClark , MarkYatskar , andLukeZettlemoyer.Don’t用于避免已知数据集偏差的ODS 。arXiv预印本arXiv:1909.03683,2019。2[13] ElliotCreager,DavidMadras,Joürn-HenrikJacobsen,Marissa A Weis,Kevin Swersky,Toniann Pitassi,and Richard Zemel. 灵活的公平表示学习。arXiv预印本arXiv:1906.02589,2019。2[14] MariaDe-Arteaga 、 AlexeyRomanov 、 HannaWallach 、 Jennifer Chayes 、 Christian Borgs 、Alexandra Choulde-chova、Sahin Geyik、KrishnaramKenthapadi和Adam Tauman Kalai。bios中的偏倚:高风险环境下语义表征偏差的案例研究。在公平,问责和透明度会议记录中,第120-128页,2019年。8[15] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,Kai Li,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。在2009年IEEE计算机视觉和模式识别上,第248Ieee,2009年。7[16] Prithviraj Dhar , Joshua Gleason , Hossein Souri ,Carlos D Castillo,and Rama Chellappa.一种对抗性学习算法,用于减轻人脸识别中的性别偏见。arXiv预印本arXiv:2006.07845,2020。2[17] Yixiao Ge,Dapeng Chen,and Hongsheng Li.相互教学:伪标签精炼用于人重新识别的无监督域适应。arXiv预印本arXiv:2001.01526,2020。二、三[18] RobertGeirhos , PatriciaRubisch , ClaudioMichaelis , Matthias Bethge , Felix A Wichmann ,and Wieland Brendel.ImageNet训练的CNN偏向于纹理;增加形状偏差提高了准确性和鲁棒性。arXiv预印本arXiv:1811.12231,2018. 2[19] Kaiming He,Xiangyu Zhang,Shaoying Ren ,andJian Sun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议论文集,第770-778页,2016年。7[20] R Devon Hjelm 、 Alex Fedorov 、 Samuel Lavoie-Marchildon、Karan Grewal 、Phil Bachman 、AdamTrischler和Yoshua Bengio。通过互信息估计和最大化学习深度表示。arXiv预印本arXiv:1808.06670,2018。3[21] R. Devon Hjelm 、 Alex Fedorov 、 Samuel Lavoie-Marchildon、Karan Grewal、Philip Bachman
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功