没有合适的资源?快使用搜索试试~ 我知道了~
7971不Ez一核化对抗表示学习的全局最优性密歇根州立大学sadeghib@msu.edu俞润义东地中海大学yu@ieee.org密歇根州立大学vishnu@msu.eduAbstract中文对抗性 表示 学习 是 一个有前途用于获得invari-x数据表示的范例在保留信息的同时,为编写tar g etattri butes所必需的信息。现有的方法通过迭代对抗来解决这个问题,简单的极小极大优化,缺乏理论保证。在本文中,我们首先研究了这个问题的“线性”形式,即,所有参与者都是线性函数的设置。我们表明,由此产生的优化问题是非凸和不可微的。我们通过谱学习获得了全局最优解的精确闭合形式表达式,并在可实现效用和不变性的分析界方面提供了性能保证。然后,我们通过核表示将此解决方案和分析扩展到非线性函数。在UCI、Extended Yale B和CIFAR- 100数据集上的数值实验表明,(a)实际上,我们的解决方案对于向任何有偏的预训练数据表示“赋予”可证明的不变性是理想的,以及(b)与现有基于深度神经网络的方法的迭代极大极小优化相比,“内核”形式的全局最优值可以在效用和不变性之间提供相当的权衡,但有可证明的保证1. 介绍对抗表示学习(ARL)是一种用于训练图像表示模型的有前途的框架,该框架可以控制封装在其中的信息。ARL实际上用于学习各种应用的表示,包括图像的无监督局部自适应[7],从图像中审查敏感信息[6],学习公平和无偏见的表示[17,18],学习对敏感属性可控不变的表示[26]以及减轻意外的信息泄漏[23]等。ARL公式的核心是联合优化三个实体的想法:(i)编码器E,其试图从输入数据中提取信息并保留输入数据,图1:对抗表示学习由三个实体组成,编码器E获得输入数据x的紧凑表示z,预测器T预测期望的目标属性y和试图从嵌入z中提取敏感属性s的对手。在一个实施例中,系统包括:(i)与目标任务相关的信息形成,同时有意地和永久地消除与敏感属性相对应的信息;(ii)试图提取期望的目标属性的预测器T;以及(iii)代理对手A,扮演未知对手的角色,试图提取已知的敏感属性。图1显示了ARL问题的图示。ARL的典型实例通过深度神经网络(DNN)形式的非线性函数表示这些实体,并将参数学习公式化为极大极小优化问题。实际上,通过同时梯度下降来执行优化,其中,在编码器、预测器和代理对手的参数空间中同时采取小梯度步长。因此,获得的解决方案在学习数据表示中具有跨应用的受控不变性,例如图像分类[23],多语言机器翻译[26]和域自适应[7]。尽管其实际前景,上述ARL设置遭受许多缺点:-对抗性环境下的表征学习本身就是一种挑战。的极小极大公式该问题导致了在参数空间中非凸的优化问题,这是由于对抗损失函数以及由于现代DNN的非线性特性。正如我们在本文中所展示的,即使对于每个实体都由7972nFys图2:概述:对抗表示学习的图示,用于将不变性赋予固定的有偏预训练图像表示x=F(x′;ΘF)。编码器E以核映射的形式产生新的表示z。一个目标预测器和一个对手,以线性回归的形式,对这种新的表示进行操作我们从理论上分析这种ARL设置,以获得编码器ΘE的全局最优参数的封闭形式解。可证明的界限之间的权衡表示的效用和公平性也来自。线性函数,该问题在参数空间中保持非凸。类似的观察[22]在生成对抗网络(GANs)[11]中的对抗学习的不同但相关的背景下进行。– 当前解决ARL问题的同步梯度下降范式没有提供可证明的保证,同时存在不稳定性和收敛性差[23,18]。同样,在GAN的背景下也进行了类似的观察[19,22],证明了优化的极小极大公式所带来的困难,并暴露了标准同时优化的局限性。– 在与机器学习模型的公平性、可问责性和透明度相关的ARL应用中,除了其功效的经验证据之外,能够提供性能界限是至关重要的。现有的工作的一个主要缺点是困难和缺乏性能分析和可证明的保证不公平或信息泄漏。在本文中,我们退后一步,分析研究解决方案,我们还确定嵌入空间的最佳维度。然后,我们获得分析边界(上下限)的目标和对手的目标,并预定一个程序,明确控制敏感信息的最大泄漏最后,我们扩展了线性ARL公式,允许非线性函数通过内核扩展,同时仍然享受全局最优解的精确封闭形式在多个数据集上的数值实验表明,ARL的线性和核公式的全局最优解具有竞争力,有时甚至优于通过同时随机梯度下降训练的基于DNN的ARL。实际上,我们还展示了Linear-ARL和Kernel-ARL的实用性,用于将可证明的方差“赋予”任何有偏见的预训练数据表示。图2提供了我们的贡献的概述。我们指的是我们提出的算法,以获得全局最优的频谱ARL和SARL的扩展。符号:标量用规则的小写或希腊字母表示,例如。n,λ。矢量用黑体字表示,例如. x,y。矩阵是黑体字,例如. X.一个k×k单位矩阵表示为Ik或I。居中(减去平均值w.r.t.列)数据矩阵由“n "表示,例如, X~。 假设X包含n列,则X=XD,其中D=In−111T,1表示长度为n的1的向量。 给定ma-M ∈ Rm×m,我们使用Tr[M]表示其迹(即,它的对 角 元 素 的 和 ) ; 它 的 Frobenius 范 数 被 记 为FrobeniusF,其与迹相关为Frobenius2= Tr[MMT]=Tr[MTM]。M的列所张成的子空间记为R(M)或简称为M(在数学上); M的正交补记为M。M的零空间记为N(M)。到 M上的正交投影是PM=M(MTM)<$MT,其中上标“<$“表示Moore-Penrose伪逆[ 16 ]。设x∈Rd是随机向量. 我们称之为expec,E[x]的协方差矩阵,Cx∈Rd×d最简单的版本的ARL问题,从一个优化-Σ作为Cx=E(x−E[x])(x−E[x])ΣT. 同样,十字架-以解决上述问题为目标的观点-x∈Rd和y∈Rr之间的协方差Cxy∈Rd×r为的限制。这样做使我们能够描绘出骗局-表示为CΣxy=E(x−E[x])(y−E[y])ΣT.对于d×dARL中的实体的表现力的分配(即,浅模型对深模型)和优化参数的挑战(即,通过同时梯度下降的局部最优值与全局最优值)。贡献:我们首先考虑ARL的“线性”形式,其中编码器是线性变换,目标预测器是线性回归器,代理对手是线性回归器。我们表明,这个线性ARL导致一个优化问题,这是非凸和不可微的。尽管这一事实,通过减少到一组Stiefel流形上的跟踪问题,我们得到了一个精确的封闭形式的解决方案的全局最优解。作为我们正 定 矩 阵 C≠0 , 其 Cholesky 分 解 得 到 满 秩 矩 阵Q∈Rd×d,使得C=QTQ(1)2. 先前工作对抗表示学习:在图像分类的背景下,对抗学习已被用于获得跨域不变的表示[8,9,25],从而使分类器能够在源域上训练并在目标域上使用。在学习公平和无偏见的陈述的背景下,x′F(x′;ΘF)x∈RdΘz+by yφ(x)z= ΘEφ(x)Θsz+bs7973的方法[6,28,3,26,20,23,1]已经使用和配置[18]用于显式对抗网络作为代理,以模仿试图从编码数据中提取敏感属性的未知对手。除了[23]之外,所有其他方法都被设置为编码器,目标任务和对手之间的极大极小博弈。编码器被设置为通过最大化对手的损失来实现公平性,即,最小化由对手测量的敏感变量的负对数似然。Roy等人[23]识别并解决ARL的零和极大极小公式中优化的不稳定性,并提出一种替代的非零和解决方案,证明了显著改善的经验性能。它们都使用深度神经网络来表示ARL实体,通过同步随机梯度下降来优化其参数,并依赖于经验验证。然而,他们中没有一个试图研究ARL公式本身的性质,即,在解耦模型的表达性的作用和用于学习所述模型的优化工具的收敛/稳定特性方面本文试图通过从全局优化的角度研究ARL的简单形式来弥补这一差距。隐私、公平和不变性:学习数据的公平或不变表示的并行工作包括编码器和目标预测器,但不涉及明确的对手。对手的角色是由一个明确的手设计的目标,通常,与目标任务的竞争。学习公平表示的概念首先由Zemel等人提出。[27],其目标是通过“公平聚类”学习数据的表示在这项工作的基础上,提出了许多技术来学习数据的无偏表示,同时保留其对预测任务的有效性,包括变分公平自动编码器[17]和Moyer等人最近提出的基于信息瓶颈的目标。[21 ]第20段。与上述ARL方法一样,这些方法依赖于经验验证,而不提供任何可证明的保证或从优化角度研究其非凸对象。本部分工作中考虑的各项目标的相互竞争性质尽管scent及其变体已经被很好地理解,但是在对抗性极大极小问题中,关于同时梯度下降的收敛性和稳定性 的 工 作 相 对 较 少 。 最 近 , Meschederet al. [19]和Nagarajanet al. [22]两者都利用非线性系统理论[12]的工具来分析GAN在给定平衡点周围的同步梯度下降的收敛特性。他们表明,如果不引入额外的正则化项的零和游戏的目标,同步梯度下降不收敛。然而,他们的分析仅限于两个玩家的GAN设置,而不关心其全局最优值。在公平表征学习的背景下,Komiyamaet al.[15]考虑在线性回归中强制公平约束的问题,并提供一种解决方案来获得所得到的非凸问题的全局最优解。虽然我们从这项工作中得到了启发,但我们的问题和技术解决方案都与他们有明显的不同。它们的设置不涉及明确的对手,也不涉及负责分解和丢弃数据中的敏感信息的编码器。3. 对抗表示学习令数据矩阵X= [x1,. . .,xn]∈Rd×n是d维数据x∈Rd的n个实现.假设x与敏感属性s∈Rq和目标属性y∈Rp相关联。我们将敏感属性和目标属性的n个实现分别表示为S=[s1,···,sn]和Y=[y1,···,yn]将属性视为向量使我们能够在相同的设置下考虑多类分类和回归。3.1. 问题设置对抗性表示学习问题是以学习嵌入函数E(·;ΘE)的参数为目标进行的,该函数将x映射到z,其中t为w。(i)帮助目标预测器T(·;Θy)准确地从 z 推 断 目 标 属 性 y , 以 及 ( ii ) 防 止 广 告 客 户 A(·;Θs)从z推断感测属性s。ARL问题可以公式化为,min minLy(T(E(x;ΘE);Θy),y)共享相似的非凸目标,我们在本文中研究。虽然这不是本文的重点,但我们在这里进行的分析可能对以下方面有用:ΘEΘyS. t. minLs(A(E(x; ΘE);Θs),s)≥αΘs(二)这些方法。对抗学习的优化理论:从优化的角度来看,非凸性质的ARL配方提出了独特的挑战。实际上,ARL中模型的参数通过随机梯度下降进行优化,联合[6,19]或交替[8],前者是梯度下降的推广而梯度de的收敛性质,其中,Ly和Ls是损失函数(在列车上平均)。对于目标预测器和对手,最小化,α∈[0,∞)是用户定义的值,其确定对手在敏感属性上的最小可容忍损失α,并且约束中的最小化等效于编码器针对最优ad进行操作。周年纪念该问题的现有实例采用深度神经网络来表示E、T和A,并通过同时SGD来学习它们各自的参数{ΘE,Θy,Θs}7974EXEEXX3.2. 线性情况我们首先考虑ARL问题的最简单形式,并从优化的角度分析它。我们将对手和目标预测器建模为线性回归,y=Θyz+by,θs=θsz+bs(3)其中z是x的编码版本,并且y和y是对应于目标和敏感属性的预测我们还通过线性映射对编码器进行建模ΘE∈Rr×d: x <$→z=ΘEx(4)其中r d1是投影空间的维数。虽然现有的基于DNN的解决方案在特定基础上选择r,但我们针对该问题的方法将r确定为给定编码器,Jy(ΘE)与目标预测器的性能有关;而Js(ΘE)对应于对手能够泄漏的敏感信息的量。 注意,T和A的线性模型使我们能够获得给定编码器ΘE的它们各自的最优解。另一方面,当T和A被建模为DNN时,这样做在分析上是不可行的,并且可能是不切实际的。引理1中的正交投影器PM是两个因子的函数,数据相关项Qx和编码器参数ΘE。 虽然前者对于给定的数据集是固定的,但后者是我们感兴趣的对象。追求,我们分解PM,以单独表征这两个因素的影响。设Lx∈Rd×d的列是Qx的列空间的正交基.由于双射GE=L−1QxΘT惠ΘE=GTLTQ−TExx我们解决ARL问题的一部分 对于对手和目标预测因子,我们采用均方误差(MSE)来评估其各自预测的质量,即, Ly (y,y)=E[y−y2]且Ls (s,s)=E[s−s2]。L×GE= Q×ΘT,确定编码器参数ΘE等同于确定GE。投影机PM现在可以用PG来表示,它只依赖于自由参数GE。3.2.1优化问题.PM=M MTMMT=LxPGLT(7)对于任何给定的编码器ΘE,以下引理2给出了线性回归量在协方差矩阵和ΘE方面的最小MSE。下面的引理假设x是零均值,协方差矩阵Cx是正定的。这些假设不是限制性的,因为我们总是可以从x中删除均值和相关特征。其中我们使用等式M=QxΘT,LTLx= I.现在,我们回到ARL设置,看看可以利用上述分解。(2)中的优化问题简化为,最小Jy(GE)引理1. 设x和t是两个随机向量,其中E[x]= 0,E[t]= b,且Cx =0。考虑线性回归,GES. t. J s(GE)≥α(八)t∈ W =Wz+b,其中reW∈Rm×r是矩阵的奇偶性,并且z∈Rr是x对于给定的ΘE的编码版本:x<$→z=ΘEx,ΘE∈Rr×d。通过设计W可以实现的最小MSE为,其中,在(5)和(6)的最小MSE度量中,GE已经取代了ΘE在解决这个优化问题之前,我们将首先从几何角度解释它考虑一个简单的例子,2Σ Σ¨−T2x是白色随机向量,即,Cx=I.在此设置下,最小E[t-t]= TrCW--MQxCxt--Qx=Lx =I和GE= ΘT。因此,优化Td×rd×d(8)中的问题可以替代地根据GE=其中M= QxΘE E ∈RQxE ∈R是TΣ Σ¨ ¨2乔列斯基C因子如(1)所示。ΘE作为Jy(GE)=TrCy— -GCxy- 且Js(GE)=x轴2将此结果应用于目标和对手回归-TrCs --GCxs--F。¨ ¨约束J(G ) ≥α意味着-C¨2 ≤我们得到了它们的最小MSE,.ΣΣ埃克斯湖GxsFTrCs −α它在几何上等同于J y(Θ E)=minLy(T(E(x; ΘE); Θ y),y)ΘyΣ Σ¨ ¨2子空间G在围绕的圆锥之外(或与之相切Cxs。 类似地,最小化Jy(GE)意味着最大化=陈志毅−<$PMQ−TCxy<$(5)2xF-PGCxy-F,这又等价于最小化子空间G和向量Cxy之间的角度。在那里-Js(ΘE)= minLs(A(E(x;ΘE);Θs),s)ΘsΣ Σ¨ ¨2=TrCs−<$PMQ−TCxs<$不F7975(六)因此,(8)的全局最优解是任何超平面G,该超平面G在围绕Cxs的圆锥之外,同时对着Cxy的最小角度。这一观察的一个例子是1当r等于d时,编码器将无法防范可以简单地学习反转ΘE的对手。2我们把所有引理和定理的证明都推迟到补充部分。在图3中,d= 3,r= 2,p=q= 1。约束优化问题,如(8),通常通过其各自的无约束La-7976EEEE问题在下面的定理。定理2. 作为GE∈Rd×r的函数,(9)中的目标函数既不是凸的,也不是可微的.3.2.2学习尽管与(9)中的目标相关的困难,但我们导出了其全局最优解的封闭形式解。我们的关键洞察力在于划分搜索空间Rd×r基于在矩阵GE的秩上。对于给定的秩i,设Si为该集合包含秩i的所有矩阵GE,图3:几何解释:的图示Si= .GE∈RSR..rank(GE)=iΣ,i= 0,1,···,r三维输入空间x和一维目标显然i=0 Si= Rd×r。因此,优化和对手的回归。因此,Cxs和Cxy都是一维的我们把y轴定位在同一个方向(9)中的问题可以通过考虑r最小化来解决问题,一个用于GE的每个可能秩:Cxs的。由约束Js(ΘE)≥α所施加的解GE=ΘT的可行空间对应于围绕、mini∈{1,…r}、min (1−λ)Jy(GE)−(λ)Js(GE)GE∈Si(十)Cxs。问题的非凸性源于这个可行集的非凸性。目标minJy(ΘE)对应于最小化线Cxy与平面G之间的角度。当Cxy在圆锥体之外时,直线Cxy本身或任何包含直线Cxy且不与圆锥体相交的平面都是有效解。当Cxy在锥内时,解要么是一条直线,要么,如我们所见,图示,最接近Cxy的圆锥的切超平面。不可微性源于解可以是平面或直线的事实。我们从(5)、(6)和(7)观察到,(9)中的优化问题仅依赖于子空间G。因此,解GE不是唯一的,因为许多不同的矩阵可以跨越相同的子空间。因此,求解任何跨越最优子空间G的GE就足够了。为了不失去一般性,我们求解一个标准正交基通过将GE∈ Rd×i约束为正交矩阵来生成最优子空间G作为我们期望的解,即,其中i是G的维数。忽略J y和J s中的常数项,对于每个i = 1,. . . ,r,则(10)中关于Si的最小化问题简化为,Grangian [2]公式如下所示、、、minGTGE=Ii Jλ(GE)(11)minGE∈Rd×r(1−λ)Jy(GE)−(λ)Js(GE)(九)哪里J(G)=λLGGTLTQ−TC对于某个参数0≤λ≤1。这种方法提供λ EXEE xxxsF两个主要优点和一个缺点;(a)直接和-(1−λ)LGGTLTQ−TC12岁以下可以得到封闭形式的解(b)框架(9),XEE xxxyFλ和(1-λ)允许在无隐私(λ= 0)和无目标(λ= 0)这两个极端之间进行显式控制。从迹的基本性质出发,我们得到Jλ(GE) =Tr GTBGE其中B ∈ Rd×d是对称矩阵:①的人。 因此,可以证明,对于每个λ∈B=LTQ−T。λCTC— (1−λ)CTCQ−1L(十三)[0, 1]<$α∈[αmin,αmax](证明见在XXX XSXYX公司简介实践中,给定用户指定值αmin≤αtol≤αmax,我们可以通过迭代λ∈[0,1]来求解(8),直到(9)的解产生相同的指定αtol。 (3)副-另一方面反之则不一定成立即,对于给定的容许损耗α,可能没有对应的λ∈[0, 1]。这就是用拉格朗日问题代替约束问题的理论局限性在我们获得拉格朗日公式(9)的解之前,我们先描述优化的性质3实际上,正如我们在补充说明中所示,所有α∈当我们扫描λ∈[0,1]时,[αmin,αmax]似乎是可达的。(11)中的优化问题等价于跟踪min-本文讨论了一类Stiefel流形上具有闭解的极小化问题(见[14]和[5])。鉴于上述讨论,(9)或等价地(10)中的优化问题的解决方案可以在下一个定理中陈述。定理3. 假设(13)中B的负特征值(β)的个数为j。记γ= min{r,j}。然后,(10)中的最小值被给出为:CxsCxyOXzd×r7977β1+β2+···+βγ(14)7978ǁX2最大值其中β1≤β2≤. . . ≤βγ0是γ最小特征值我们可以发现Λ为Λ=GTLTK。这种非线性扩展-Ex x芽孢并且最小值可以通过GE=V获得,其中V的列是对应于所有B的γ负特征值。注意,将对应于B的零特征值的特征向量包括到定理3中的解GE中并不改变(14)中的最小值但是,仅考虑负特征向量导致具有最小秩的GE,从而编码器对扰动更鲁棒一旦GE被构造出来,我们就可以得到我们想要的编码器为,ΘE=GTLTQ−T。回想一下,核化形式的子空间用于研究ARL在编码器具有更大的代表能力的设置下的问题,同时仍然能够获得全局最优值和目标预测器和对手的目标上的界限,如我们接下来所示。补充资料中的算法1提供了求解线性ARL和核ARL公式的详细过程4. 理论性质在本节中,我们确定最小值和最大值-Ex x定理3是在协方差Cx是满秩矩阵的假设在补充中,我们开发了一个解决方案,更实际和一般的情况下,使用电磁矩代替。3.3. 通过核化的非线性扩展我们通过核化将迄今为止研究的ARL问题的我们在ARL问题中将编码器建模为一个线性函数,该线性函数是输入的非线性映射函数,如图2所示。假设数据矩阵X由可能未知的无限维函数φx(·)非 线 性 映 射 到Φx。让相应的再生k-核函数是kx(·,·)。中心化的内核矩阵可以获得为,目标预测器的最小可实现目标值和对手。我们首先注意到,最小Jy(ΘE)和最大Js(ΘE)在λ= 0处获得,即,当编码器在没有对手的情况 下 被 训 练 时 。 类 似 地 , maxJy ( ΘE ) 和 minJs(ΘE)发生在λ= 1处,即,当编码器在没有目标的情况下被训练时。引理4. 设L x的列是K <$x的标准正交基(在线性情况下K<$x=X<$TX<$)。 进一步地,假设Vs的列是对应于S∈Lx的零奇异值的奇异向量,并且V y的列是对应于Y∈ L x的非零奇异值的 奇 异 向 量。然后,用于所述优势和所述目标的MSE在两侧上有界,即,αmin≤J s≤αmax和γmin≤Jy≤ γmax:1¨ ¨2 1K =ΦTΦ=DTΦTΦ D=DTKD(15)γmin=你好nF —1000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000nxxxxx x1¨ ¨2 1¨ ¨2其中Kx是原始数据X上的核矩阵。如果φx(·)的余域是无限维的(例如,γmax=你好nF1英尺2英寸—YnF1¨˜¨2RBF核),则(4)中的编码器也将在-αmin=?Sn¨F −n<$SLxVy<$F有限维即,ΘE∈Rr×∞,直接学习是不可行的。然而,表示定理[24]允许我们将编码器构造为ΦπT的线性函数,即,ΘE=ΛΦT=ΛDTΦT。因此,数据样本x可以α=1?S?T?2nF5. 数值实验X x通过“内核技巧”映射ΘEφ x(x) =ΛDTΦTφ x(x)=ΛDT[k x(x1,x),· · ·,k x(xn,x)] T.因此,设计ΘE等价于设计Λ∈Rr×n。该核-ARL设置及其解的拉格朗日公式与线性情况(9)。目标函数保持非凸和不可微,而矩阵B现在依赖于核矩阵Kx而不是协方差矩阵Cx(参见补充)。我们评估了建议的光谱-ARL(SARL)算法在寻找全局最优解方面的性能,并与基于标准同步SGD优化(以下简称SSGD)的其他ARL基线进行了比较。在所有实验中,我们将我们的“线性”ARL的解决方案称为5.1. 四个高斯的混合我们首先考虑一个简单的例子,以便可视化和比较从不同的7979XB=LT . λS<$TS<$−(1−λ)Y<$TY<$Σ长x(16)ARL解决方案。 我们考虑一个三维问题其中每个数据样本由两个属性(颜色和形状)组成具体地,输入数据X是从其中Lx的列是Kx的标准正交基。一旦通过B的本征分解获得GE,四种不同的高斯分布的混合物对应-归因于属性的不同可能组合即,798044220 0-2- 24 42 20 0-2 - 2-四-4-2 0 2 4-4-2024-4-2 0 2 4-4-2 0 2 4(一)(b)λ= 0(c)λ =0。25(d)λ =0。5(e)λ= 1图4:高斯混合:(a)来自具有两个属性(形状和颜色)的四个高斯分布的数据。(b)-(e)针对不同λ值的线性投影之后的嵌入的可视化,权衡对目标(形状)和敏感属性(颜色)的相对强调在λ= 0时,对手的权重为0,因此颜色仍然是可分离的。随着λ值的增加,我们观察到颜色越来越难分离。{,,×,×},均值为µ1=(1, 1, 0),µ2=(2, 2, 0),µ3=(2,2. 5,0),µ.4=(2. 5,3,0)第二个相同的协方差矩阵Σ = diag 0。320. 320. 32. shape属性是我们的目标,而颜色是敏感属性。ARL问题的目标是学习一个线性编码器,该编码器投影数据,使其保持相对于形状可分离,并且相对于颜色属性不可分离Kernel-SARL解决方案中的线性编码器性能明显优于Linear-SARL和SSGD。图4示出了针对目标和对手目标之间的不同权衡的设置和学习的嵌入空间z5.2. 公平分类我们考虑的任务是学习表示是不变的敏感属性在两个数据集,成人和908070605050 55 6063.2粘附准确度[%](a) 高斯混合100806040200没有隐私SSGD[21]第二十四话:我的世界线性-SARL内核-SARL0 20 4060粘附准确度[%](b) CIFAR-100德语,来自UCI ML库[4]。为了进行比较,除了原始特征X之外,我们还考虑了几个使用DNN并通过同步SGD进行训练的基线;[ 27 ][28][29][23]第二十三话Adult数据集包含14个属性。 在训练集和测试集中分别有30,163和15,060个实例。目标任务是年收入的二元分类,即,大于或小于50K,图5:目标预测器和对手的帕累托前沿。我们对4000个点进行采样,以学习λ∈[0,1]上的线性和非线性(五次多项式核)编码器。为了训练编码器,目标和敏感标签的独热编码被视为回归目标。然后,我们冻结编码器并训练逻辑回归器,针对每个λ的对手和目标任务。我们评估其分类性能的一个单独的一组1000个样本。图5a显示了目标和对手表现的帕累托前沿。我们发现:(1)正如预期的那样,目标任务和对手的准确性都随着λ的增加而下降。(2)当λ= 1时,所有方法对攻击者的准确率都达到50%,这表明通过我们的编码可以完美地隐藏敏感特征。(3)在λ较小时,Linear-ARL的目标接近凸,因此Linear-SARL和SSGD在该区域的Pareto前沿然而,由于SSGD的迭代性质,它无法找到全局解并实现与Linear-SARL相同的权衡(4)非─属性是性别。类似地,德国数据集包含1000个具有20种不同属性的个体实例。其目标是将个人信用分为好与坏,敏感属性是年龄。表1:公平分类绩效(%)成人数据集德国数据集中方法目标(收入)敏感(性别)∆∗目标(信贷)敏感(年龄)∆∗原始数据85.085.017.680.087.06.0LFR [27]82.367.00.472.380.50.5VAE [13]81.966.01.472.579.51.5VFAE [17]81.367.00.472.779.71.3[26]第二十六话84.467.70.374.480.20.8[23]第二十三话84.665.51.972.580.01.0线性-SARL84.167.40.076.380.90.1Kernel-SARL84.167.40.076.380.90.1*对手准确性和随机猜测之间的绝对差异我们在训练集上学习编码器,之后,根据基线,我们冻结编码器并在训练集上训练目标(逻辑回归)和对手(具有64个单元的2层网络)分类器。表1显示了目标和对手在两个数据集上的性能。Linear-SARL和Kernel-SARL都优于所有DNN没有隐私SSGD线性-SARL内核-SARL目标准确度[%]目标准确度[%]7981基于基线。对于这两个任务中的任何一个,Kernel-SARL都没有比Linear-SARL提供任何额外的好处5.3. 光照不变人脸分类该任务涉及扩展Yale B数据集[10]上不同照明条件下的人脸分类它包括在光源的五个不同方向,即右上、右下、左下、左上和前下的38个人的面部图像。目标任务是确定图像中的人的身份,其中光的方向是敏感属性。我们首先遵循谢等人的实验设置。[26]在训练/测试分离策略方面,即,190个样本(每个类别5个令人惊讶的是,我们的全局解决方案能够从嵌入中完全去除照明,导致对手准确率为20%,即,随机的机会为了进一步研究,我们考虑了这个问题的不同变化,翻转目标和敏感属性以及交换训练集和测试集。完整的结果集,包括基于DNN的基线,在表2中报告([EX]对应于交换训练集和测试集)。在所有这些情况下,我们的解决方案能够显著阻碍对手,同时与目标任务的基线竞争。表2:扩展耶鲁B性能(%)方法粘合剂(照明)目标(身份)粘附物(鉴别)目标(照明)原始数据9678--VFAE [17]5785--[26]第二十六话5789--[23]第二十三话4089--线性-SARL2181394线性-SARL [EX]2086397Kernel-SARL2086396内核-SARL [EX]20883965.4. CIFAR 100CIFAR-100数据集由来自100个类的50,000张图像组成,这些类进一步分为20个超类。因此,每个图像都与两个属性相关联,一个“精细”类标签和一个“粗糙”超类标签。我们考虑sider的设置,其中“粗”和“细”标签的目标和敏感属性,分别。对于Linear-SARL,Kernel-SARL(五次多项式核)和SSGD,我们使用从预训练的ResNet-110模型中提取的特征(64维)作为编码器的输入,而不是原始图像。根据这些特征,编码器的任务是帮助目标预测器并阻碍广告。该设置用作示例来说明如何将我们还考虑了两个DNN基线,ML-ARL [26] 和MaxEnt-ARL[23]。 这 里 是 整 个 编 码器,包括我们处理已针对此任务进行了优化。为了进行评估,一旦编码器被学习和冻结,我们将识别器和对手训练为每个具有64个神经元的2层网络。因此,尽管我们的方法在训练中使用线性回归作为对手,但我们在测试时对更强的对手进行评估。相比之下,基线训练和评估对手具有相同的能力。图5b示出了目标预测器和对手之间的准确性的帕累托前沿。我们观察到,(1)Kernel-ARL显著优于Linear-ARL。由于Kernel-ARL隐式地将数据映射到更高维度的空间中,因此敏感特征潜在地被充分地分解,以使该空间中的线性编码器丢弃这样的信息。因此,即使对于较大的λ值,Kernel-ARL也能够同时实现高目标精度,同时保持对手的低性能。(2)尽管Kernel-ARL是针对比训练时更强大的对手进行评估的,但它的性能与DNN基线相当事实上,它在目标任务方面优于ML-ARL和MaxEnt-ARL。(3)SSGD在大多数数据集上都是高度不稳定的,并且经常陷入局部最优,尽管使用不同的超参数和优化器进行了多次尝试,但仍然无法找到好的解决方案6. 总结发言我们研究了对抗表征学习的我们表明,即使对于这个简化版本的优化问题是非凸和不可微的。利用谱学习的工具,我们得到了全局最优解的封闭形式表达式,并推导出了可实现效用和不变性的分析界。我们还通过核化将这些结果扩展到非线性参数化。在多个数据集上的数值实验表明,与基于ARL的深度神经网络的局部最优解相比,ARL的“内核”形式的全局最优解诚然,本文中提出的结果并不直接扩展到基于深度神经网络的ARL公式。然而,我们相信它揭示了ARL优化问题的本质,并有助于我们理解ARL问题。它有助于描述优化算法的作用和嵌入函数的选择,突出了函数的表达能力和我们获得对抗游戏全局最优解的能力之间的权衡。我们认为我们的贡献是控制对抗表示学习中自然出现的非凸性的第一步。7982引用[1] Martin Bertran , Natalia Martinez, Afroditi Papadaki,Qiang Qiu , Miguel Rodrigues , Galen Reeves , andGuillermo Sapiro.用于信息混淆和推理的逆向学习表示。2019年国际机器学习会议。3[2] 伯特塞卡斯。非线性规划第二版(贝尔蒙特,马萨诸塞州:Athena scientific)。1999. 5[3] Alex Beutel,Jilin Chen,Zhe Zhao,and Ed H Chi.对抗性 学 习 公 平 陈 述 时 的 数 据 arXiv 预 印 本 arXiv :1707.00075,2017年。3[4] 迪鲁·杜瓦和凯西·格拉夫。UCI机器学习存储库,2017年。7[5] 艾伦·埃德尔曼,托玛的咏叹调,和圣·弗·T·史密斯。具有正交约束的算法的几何性。SIAM Journal on MatrixAnalysis and Applications,20(2):303- 353,1998. 5[6] 哈里森·爱德华兹和阿莫斯·斯托基。审查对手的陈述。arXiv预印本arXiv:1511.05897,2015年。第1、3条[7] 雅罗斯拉夫·甘宁和维克多·伦皮茨基。通过反向传播的无 监 督域 自 适 应 。arXiv 预 印 本arXiv : 1409.7495 ,2014。1[8] 雅罗斯拉夫·甘宁和维克多·伦皮茨基。通过反向传播的无监督在2015年机器学习国际上。二、三[9] Yaroslav Ganin 、 Evgeniya Ustinova 、 Hana Ajakan 、PascalGermain、HugoLarochelle、FrancçoisLa violette、Mario Marchand和Victor Lempitsky。神经网络的领域对抗机器学习研究杂志,17(1):2096-2030,2016。2[10] Athinodoros S Georghiades , Peter N Belhumeur , andDavid J Kriegman.从少数到多数:可变光照和姿态下人脸识别的光照锥模型 。IEEE Transactions on PatternAnalysis Machine Intelligence,(6):643-660,2001. 8[11] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。神经信息处理系统进展,第2672-2680页,2014年。2[12] 哈桑·卡里尔。非线性系统Printice-Hall Inc,1996年。3[13] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。arXiv预印本arXiv:1312.6114,2013。7[14] Effrosini Kokiopoulou,Jie Chen,and Yousef Saad.降维方 法 中 的 迹 优 化 与 特 征 值 问 题 。 Numerical LinearAlgebra with Applications,18(3):565-602,2011. 5[15] Junpei Komiyama , Akiko Takeda , Junya Honda ,Hajime Shimao.公平性约束下回归的非凸优化。在机器学习国际会议上,第2742-2751页,2018年。3[16] 艾伦·J·劳布科学家与工程师矩阵分析,第91卷。暹罗,2005年。2[17] Christine Louizos , Kevin Swersky , Yujia Li , MaxWelling,and Richard Zemel. 变分公平自动编码器。arXiv预印本arXiv:1511.00830,2015年。一、三、七、八[18] David Madras , Elliot Creager , Toniann Pitassi , andRichard Zemel. 学习对抗性的公平和可转移的表征。arXiv预印本arXiv:1802.06309,2018。一、二、三[19] Lars Mescheder , Sebastian Nowozin , and AndreasGeiger.甘斯的数字。神经信息处理系统的进展,第1825-1835页,2017年。二、三[20] VahidMirjalili,SebastianRaschka,AnoopNamboodiri,Arun Ross.半对抗网络:卷积自动编码器,用于赋予人脸图像隐私。在2018年生物识别国际会议上。3[2
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功