模拟对抗方法发现人脸识别模型的弱点

105 浏览量更新于2023-10-25 收藏 19.77MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

41450人脸识别模型的模拟对抗测试0Nataniel Ruiz波士顿大学0nruiz9@bu.edu0Adam Kortylewski约翰霍普金斯大学0akortyl1@jhu.edu0WeichaoQiu 华为0qiuwch@gmail.com0Cihang Xie加州大学圣克鲁兹分校0cixie@ucsc.edu0Sarah AdelBargal 波士顿大学0sbargal@bu.edu0Alan Yuille *约翰霍普金斯大学0ayuille1@jhu.edu0Stan Sclaroff *波士顿大学0sclaroff@bu.edu0摘要0大多数机器学习模型都是在固定数据集上进行验证和测试的。这可能无法完全展示模型的能力和弱点。这样的弱点可能在实际世界的测试中暴露出来。这种失败所涉及的风险可能是利润损失、时间损失，甚至在某些关键应用中可能是生命损失。为了缓解这个问题，可以使用可解释的参数以精细的方式控制模拟器，以探索语义图像空间。在这项工作中，我们提出了一种使用模拟器以对抗的方式学习如何测试机器学习算法的框架，以在关键场景中部署模型之前发现其弱点。我们将这种方法应用于人脸识别设置中。我们展示了在真实数据上训练的模型的某些弱点可以通过使用模拟样本来发现。使用我们提出的方法，我们可以找到欺骗当代人脸识别模型的对抗性合成人脸。这表明这些模型存在着常用验证数据集无法测量的弱点。我们假设这种类型的对抗性示例并不是孤立存在的，而通常存在于模拟器的潜在空间中的相关空间中。我们提出了一种方法来找到这些对抗性区域，而不是在对抗性示例文献中找到的典型对抗性点。01. 引言0大多数机器学习模型都是在固定数据集上进行验证和测试的。这可能无法完全展示模型的能力和弱点。这样的弱点可能在实际世界的测试中暴露出来。这种失败所涉及的风险可能是利润损失、时间损失，甚至在某些关键应用中可能是生命损失。为了缓解这个问题，可以使用可解释的参数以精细的方式控制模拟器，以探索语义图像空间。在这项工作中，我们提出了一种使用模拟器以对抗的方式学习如何测试机器学习算法的框架，以在关键场景中部署模型之前发现其弱点。我们将这种方法应用于人脸识别设置中。我们展示了在真实数据上训练的模型的某些弱点可以通过使用模拟样本来发现。使用我们提出的方法，我们可以找到欺骗当代人脸识别模型的对抗性合成人脸。这表明这些模型存在着常用验证数据集无法测量的弱点。我们假设这种类型的对抗性示例并不是孤立存在的，而通常存在于模拟器的潜在空间中的相关空间中。我们提出了一种方法来找到这些对抗性区域，而不是在对抗性示例文献中找到的典型对抗性点。0* 同等贡献.0评估机器学习模型可能会有许多陷阱。理想情况下，我们希望知道模型何时会失败，以及以何种方式和程度失败。换句话说，我们希望能够准确估计模型在真实测试数据分布上的风险。0在实践中，实现这三个愿望非常困难。在事先实现模型失败的完美知识方面存在重大的哲学和理论障碍。然而，我们仍然可以获得模型弱点的部分知识和模型失败的预测。然而，仍然存在一些重大障碍阻碍我们前进。0其中一个障碍是测试数据有限，因为收集和标记数据是昂贵的。当模型部署时，它在分配的测试集上表现良好，但在特定的模糊示例上无法泛化是很常见的。第二个重要的障碍是测试数据难以处理。生成测试数据的潜在因素很难控制甚至完全理解。例如，一个难以控制的已知因素是场景的光照。大多数数据集在没有控制这个变量的情况下进行捕捉，因此在这方面呈现出不足的变异性。在一个环境中测试模型可能会得到完美的性能，但在光照变异性更大的环境中失败。即使组装了一个精心控制光照的测试数据集，该数据集的收集成本高且耗时，并且不能保证完全探索所有变异性。0解决这些问题的一种方法是使用模拟器生成测试数据。这种方法可以廉价地生成大量覆盖广泛范围的数据。此外，模拟器可以在一定程度上减少失败。41460模拟器是完全可控的，生成参数是已知的。这使得我们可以仔细探索模型失败的情况。这包括找到生成失败的不可解释因素的可能性，研究这些失败是如何表现出来的（当背景中有绿色时，模型是否将猫分类为美洲虎？），并且检查模型在这些失败模式中的确定度。在模拟测试数据时，我们对模拟器参数拥有完全控制权。因此，我们能够在模拟器参数空间中探索模拟器生成的流形。我们将这个流形称为“语义图像流形”，与传统对抗攻击文献中探索的“对抗图像流形”形成对比。对这个流形的随机探索既低效又不是最具信息量的方法。在这项工作中，我们提出了一种通过以对抗的方式使用模拟来测试机器学习模型的方法，即找到生成欺骗模型的样本的模拟器参数。我们受到了欺骗机器学习模型的对抗样本文献的启发，但与这个研究领域不同的是，我们的模拟器生成的对抗样本在语义上是真实的，这意味着我们不是向图像中添加低幅度噪声以欺骗模型，而是找到在语义上合理的图像配置来生成模型失败。通过这种方式，我们不是研究基于梯度的模型对不真实的有针对性噪声的已知弱点，而是对可能很少见但会误导模型的合理场景进行研究。我们提出了一种使用连续策略高效寻找对抗样本的方法，该策略搜索高维可能性空间。这种工作的一个局限性是，通常模拟器描述的分布与真实世界的分布存在领域转移[7, 14, 20, 39, 54,55]。然而，在我们的工作中，我们能够展示在某些情况下，可以使用模拟数据找到真实模型的弱点。这证实了一个假设，即尽管存在领域转移，模拟样本仍然具有信息量。此外，模拟器在逼真性方面正在快速改进[11, 30, 36,48]。这为将这些想法用于未来提供了更多机会，因为模拟和真实数据分布变得越来越一致。我们假设这些对抗样本不是空间中的孤立点，而是该流形的区域。在传统对抗样本的先前工作中，优化过程找到的对抗样本是图像空间中的点[6,18, 33, 37, 49,53]。与这个研究领域不同，我们提出了一种方法来找到这些对抗区域。这是有价值的，因为理想情况下，我们希望能够完全描述机器学习模型的可靠区域，即模型预测很可能是正确的区域。有了这个知识，用户就能够避免在模型的可靠区域之外进行推理。0本文的贡献有三个方面。我们将它们总结如下：0•我们发现，通过使用模拟样本可以发现在真实数据上训练的模型的弱点。我们在人脸识别网络上进行实验，显示我们可以诊断出在偏见数据上训练的模型的弱点。0•我们提出了一种方法，通过找到对抗的模拟器参数来找到在“语义图像流形”中的对抗模拟样本。我们在当代人脸识别网络上进行了实验，显示我们可以高效地找到被网络错误识别的人脸。0•我们提出了一种方法来找到对抗性区域，以便定位模型预测更容易出错的危险区域。据我们所知，我们是第一个在可解释的模拟器潜空间中探索这些对抗性区域存在的人。02. 模拟对抗性测试框架0在这里，我们使用模拟器来形式化对抗性测试。我们对真实世界和模拟器世界的数据生成过程做出一些假设。然后我们给出了机器学习模型的风险以及找到欺骗机器学习模型的对抗参数的数学公式。我们还介绍了我们的情景与跨领域学习文献之间的一些相似之处。最后，我们描述了我们提出的算法来找到这样的对抗模拟器参数和对抗样本。让我们假设真实世界的数据(x,y)（其中x是数据，y是标签）由分布p(x,y|ψ)生成，其中ψ是一个因果控制数据生成过程的潜变量。例如，ψ包括图像中的对象类型和视角角度，以及生成场景和图像的所有其他参数。对于判别模型f，风险为：0Eψ�a[E(x,y)�p(x,y|ψ)[L(f(x),y)]], (1)0其中a是ψ的分布，L是损失函数。我们可以搜索最大化这个风险的ψ�：0maxψ∈A[E(x,y)�p(x,y|ψ)[L(f(x),y)]], (2)0其中A是所有可能ψ的集合。假设我们有ψ=(ψu,ψk)，将ψ分解为两个潜变量ψu和ψk。此外，假设ψuϵp(h, gp) = Ex∼p[|h(x) − gp(x)|](5)ϵp(h, gp) < ϵq(h, gq) + d1(q, p)+min{Ep[|gq(x) − gp(x)|], Eq[|gq(x) − gp(x)|]},(6)41470图1.我们的方法应用于人脸验证场景。模拟器以策略生成的参数为条件。生成相同身份的图像对。使用要诊断的人脸识别网络对这个图像对进行人脸验证。根据网络的正确或错误预测计算奖励，并相应地更新策略参数。0其中ψk控制图像的已知特征，如相机姿态或物体相对于相机的位置。我们可以将平均风险写成：0Eψu�a[Eψk�b[E(x,y)�p(x,y|ψu,ψk)[L(f(x),y)]]], (3)0其中b是ψk的分布。在大多数情况下，我们无法随意从真实数据分布p中进行抽样，也很难控制已知的潜变量ψk在生成数据时，我们甚至不知道潜变量ψu中隐藏了哪些因素，更不知道如何控制它。使用模拟数据，我们能够完全控制生成过程。模拟器从分布q(x,y|ρ)中抽样数据(x,y)，其中q是模拟数据分布，我们对潜变量ρ有完全的了解。我们能够搜索对抗样本，并使用这个模拟器计算均值和最坏情况风险的估计值。例如，最大化风险的参数ρ�可以写成如下形式：0maxρ∈C[E(x,y)�q(x,y|ρ)[L(f(x),y)]], (4)0其中C是所有可能ρ的集合。我们可以通过抽样（尽管效率低下）找到ρ�的估计值ˆρ�。在我们的情况下，我们工作在一个不那么严格的场景中，因为我们不试图找到全局最大的ρ�，而是试图找到任何一个ρ，其中E(x,y)�q(x,y|ρ)[L(f(x),y)]高于误分类阈值。如果我们假设分布p和q足够相似，我们可以利用在模拟中收集的知识来了解现实世界中的失败可能性。本质上，这是一种不同类型的领域转移问题。在传统的领域之间的迁移学习设置中，我们关心的是通过在源领域上进行训练来最小化目标领域上的风险。在二分类情况下，让我们将一个领域定义为一个由输入X上的分布p和标签函数gp:X→[0,1]组成的对。我们分别考虑真实领域和模拟领域，分别表示为(p,gp)和(q,gq)。0我们还引入了一个假设，即一个函数 h : X → { 0 , 1 }。我们可以将该假设在 p 上的风险写为:0在从模拟到现实的传统领域适应中，我们希望在分布 q上进行学习，并推广到分布 p上。我们希望找到一个假设，通过在 q的样本上进行训练，最小化目标真实世界分布 ϵ p ( h, g p )上的风险。在我们的设置中，我们不训练合成样本。相反，我们希望找到在从分布 q 的样本上测试假设 h 和在从分布p 的样本上测试 h 之间的关系。Ben-David等人的工作中存在关于风险 ϵ p ( h, g p ) 和 ϵ q ( h, g q )的界限结果 [ 4 ]:0其中 d 1 是变分散度。右侧的第二项量化了分布 q 和 p之间的差异，右侧的第三项是跨领域的标签函数之间的差异，预计会很小。由于这个界限刻画了跨领域的泛化误差，并且 ϵ q ( h, g q )通常会被学习算法最小化，因此它对于研究领域之间的迁移学习是有用的。我们的情景与传统的情景有一些不同，因为对于我们来说，h是一个在目标领域上经过训练的固定函数，我们希望讨论的是个别示例，而不是整体分布上的风险。此外，该界限是针对二分类问题证明的，而我们的目标情景可以是多类分类或回归。假设存在一个映射 τ : C → A，将模拟的潜变量映射到真实的潜变量 ψ = τ ( ρ )。为了使模拟器领域中的对抗性示例在真实领域中具有信息量，我们希望∇ωJ(ω) = Eρ∼πω ∇ω log(πω)R(ρ) .(8)L(ω) = 1KK�k=1∇ω log(πω) ˆAk ,(9)41480有一个模拟器，使得:0从 q 中采样 P ( x s ,y s ) ，从 p 中采样 ( x r ,y r ) ，使得 | L ( x s , y s0我们将方程中的 p ( x r , y r | τ ( ρ )) 记为 p ，将 q ( x s , ys | ρ ) 记为 q ，以简洁起见。这里 ϵ 很小， θ ∈ [0 , 1]很大。这样，使用模拟在语义图像流形中找到的高损失示例有很高的概率转移到真实世界中。由于模拟器和真实领域是不同的，这是一个适度强的假设。尽管如此，在我们的实验评估中，我们展示了这个假设成立的情况，详见第 4.3 节。0寻找对抗参数我们的任务是找到 ρ，使得使用这个潜变量生成的样本的损失超过误分类阈值 T。寻找满足这个条件的潜变量的一个主要困难是一般情况下模拟器 q是不可微的。因此，我们转向黑盒优化方法来搜索对抗参数。具体来说，我们使用一种策略梯度方法 [ 57]。我们定义一个由 ω 参数化的策略 π ω ，可以从 π ω ( ρ) 中采样模拟器参数 ρ。我们训练这个策略来生成模拟器参数，这些参数在输入到机器学习模型 f时会产生高损失的样本。为此，我们定义一个奖励 R，它等于负损失 L ，我们希望找到能够最大化 J ( ω ) = E ρ� π ω [ R ] 的参数 ω 。根据 REINFORCE规则，我们得到用于更新 ω 的梯度如下0上述数量的无偏经验估计是0其中 ˆ A k = R ( ω k ) − β 为优势估计值， β为基准值， K 为在一次策略前向传递中采样的不同参数 ρ的数量， R ( ρ k ) 表示在 ( x k , y k ) � q ( x k , y k | ρ k )上评估 f 获得的奖励。我们在算法 1中展示了我们方法的所有步骤，并在图 1中展示了我们方法应用于人脸验证场景的示例。03. 寻找对抗区域0这里我们描述了我们寻找对抗区域的方法。一旦使用算法 1找到对抗模拟器的潜在向量 ρ adv ∈ R n，我们定义一个图 G = ( V, E ) 。V是图的顶点，通过在以间隔 ν的网格中对对抗点周围的空间进行离散化获得。图的边 E连接相邻的向量，每个向量有 2 n个邻居。我们通过遵循算法 2 来找到由 ρ adv种子生成的对抗样本的连通空间 R adv 。0算法 1: 使用策略梯度方法的对抗性测试方法0结果：迭代次数为 1,2,... 的对抗模拟器参数 ρ k和对抗样本 x k0生成 K 个模拟器参数 ρ k � π ω ( ρ k ) ; 生成 K个样本 ( x k , y k ) � q ( x k , y k | ρ k )测试判别模型并获得 K 个损失 L ( f ( x k ) , y k )如果存在 k ∈ { 1 , ..., K } ; L ( f ( x k ) , y k ) >0终止并产生对抗样本 x k 和对抗模拟器参数 ρk 计算奖励 R ( ρ k ) 计算优势估计值 ˆ A k =R ( ρ k ) − β 通过方程 9 更新 ω0end0本质上，我们的方法遵循区域洪泛算法的一般思想[ 31 , 52]，但有两个主要区别。首先，我们离散化了一个 n维的连续空间，而不是在二进制的二维图像上工作；其次，我们通过测试模型损失是否高于对抗阈值 L ( f ( x ) , y ) > T来检查样本是否属于 R adv 。0算法 2: 寻找对抗样本的连通空间0结果：对抗样本的连通空间 R adv0数据：种子对抗模拟器参数 ρ adv R adv = { ρadv } 初始化一个栈 χ。将 ρ adv 的 2 n个邻居推入 χ。对于 i =1,2,... do0从 χ 中弹出 ρ i 从 q ( x i , y i | ρ i ) 中采样 (x i , y i ) 测试判别模型并获得损失 L ( f ( x k ), y k ) 如果 L ( f ( x k ) , y k ) > T 则0R adv = R adv ∪ { ρ i } 将 ρ i的所有未访问过的邻居推入 χ end endIn our experiments we use the CASIA WebFace [59]dataset for training the face recognition models and theLFW [23] dataset for real-world data testing. We use a Con-volutional Block Attention Module (CBAM) [58] ResNet50with the ArcFace [8] loss as our base face recognitionmodel. We also test our method on MobileNet [21] andCBAM-Squeeze-Excitation-ResNet [22] architectures andthe CosFace [56] loss. We use a multivariate Gaussian pol-icy π(ρ) = N(µπ, σ2π) where the variance is fixed σ2π =0.05 × I and µπ is learned. For the random optimizationbaseline we use one Gaussian for each parameter type withstandard deviation σrs = wp10 × I, where wp is the width ofthe parameter domain. For the Gaussian random sampling414904. 实验结果04.1. 可控制的人脸模拟0我们使用FLAME人脸模型[ 29]作为可控制的人脸模拟器，使用Basel纹理模型[ 38]。FLAME使用从3800个人头的3D扫描中训练得到的线性形状空间，并将该线性形状空间与有关的下巴、颈部和眼球的姿态相关的修正混合形状以及额外的全局表情混合形状相结合。通过使用形状和纹理组件，我们可以生成具有不同身份的人脸。我们工作中生成的合成人脸是全新的，不模仿任何现有人物的特征。通过改变姿势和表情组件，我们可以为这些人脸添加变化性。此外，我们对场景的光照、头部和相机姿态和位置具有完全控制。为了渲染我们的场景，我们使用PyTorch3D渲染框架[ 41 ]。我们使用DECA[ 10 ]从CASIAWebFace数据集的真实人脸中提取相应的形状、纹理和表情组件。04.2. 模型、数据集和基础设施02. 我们使用一块具有11GB内存的GeForce RTX 2080GPU执行所有实验。04.3. 测试减弱模型0我们提出了一种验证从模拟弱点中获得的知识是否能够转化为现实世界中的弱点的方法。我们通过在CASIAWebFace数据集上训练，过滤掉展示偏航参数在[-∞,-0.5]和[0.5,+∞]范围内的图像，来减弱两个网络。我们使用DECA提取偏航参数。我们将这些数据集/网络分别称为负偏航过滤（NYF）和正偏航过滤（PYF）数据集/网络。这两个数据集大致有相同数量的样本：负偏航过滤数据集有约440k个训练样本，正偏航过滤数据集有约449k个样本。我们还在未过滤的CASIAWebFace数据集的约491k个样本上训练了一个正常网络。然后，我们测试了正常网络和减弱网络。0通过固定形状、纹理和表情参数，我们在模拟样本上对工作和减弱偏航网络进行了测试。我们生成了同一个人的两张图像，第一张图像是正面图像，第二张图像的偏航分量在[-1,1]范围内变化，其中偏航分量的-1和1分别表示负面和正面的侧面脸，并计算两张图像的嵌入之间的余弦相似度。由于所呈现的两张图像属于同一身份，所以这个余弦相似度应该很大。如果余弦相似度较低，意味着网络对这两张图像显示的是同一个人的信心较低。我们在图2中绘制了这个结果，并观察到每个减弱偏航网络在其相应的减弱区间中对呈现高偏航的图像进行的预测更不准确。请注意，所有网络在正面样本上的表现几乎相同。此外，请注意正常网络几乎总是优于两个减弱网络。这是训练数据增加了10%的自然结果。这个图是通过对第一个纹理和形状组件在[-σ，σ]范围内进行网格采样获得的25个不同身份的平均值。我们计算了[-1.0,-0.5]、[-0.5, 0.5]和[0.5,1.0]区间之间的曲线之间的面积。我们在表1（左侧）中观察到，在[-1.0,-0.5]的偏航范围内，即NYF网络被减弱的地方，Normal-NYF曲线之间的面积较大，Normal-PYF曲线之间的面积较小。相反，在[0.5,1.0]范围内，即PYF被减弱的地方，我们看到Normal-PYF曲线之间的差异较大，Normal-NYF差异较小。此外，在[-0.5,0.5]中，Normal-NYF和Normal-PYF之间的差异几乎相同，这是因为NYF和PYF网络的训练数据较少。我们还计算了Normal、NYF和PYF网络不同人群之间的成对均值差异，并在表1（右侧）中呈现。我们用蓝色突出显示了具有统计学意义的差异。我们得到了与表1（左侧）类似的结果。这些证据表明，当通过过滤真实训练数据集中的关键样本来有意地在网络中创建弱点时，我们可以使用我们的人脸模拟器找到这个弱点。这证实了我们能够在语义图像流形中找到模拟的对抗性示例，从而使我们了解真实世界中的对抗性示例。04.4. 对人脸识别模型进行模拟对抗性测试0在本节中，我们评估了对人脸验证的对抗性测试。具体而言，我们使用FLAME人脸模型生成样本，并使用我们提出的搜索算法来欺骗人脸识别模型。41500曲线之间的面积↓ 模型 / 偏航区间 → [-1.0, -0.5] [-0.5, 0.5] [0.5,1.0]0Normal:NYF 8.69 2.83 4.68 Normal:PYF 2.71 2.76 8.460平均差异 ↓ 模型 / 偏航角 → -1.0 0.0 1.00Normal-NYF 0.18 0.01 0.100Normal-PYF 0.01 0.00 0.160NYF-PYF -0.17 -0.01 0.060表1.对弱化的负偏航滤波器（NYF）和正偏航滤波器（PYF）与正常网络在合成人脸上的评估的定量差异（加粗值以突出显示）。右侧表格中的蓝色值表示差异在统计上是显著的，p < 0.01。0图2.同一身份的两个模拟对（正面和变化的偏航角）之间的识别余弦相似度（对25个不同身份求平均）。与其他两个网络相比，负偏航滤波器网络对高负偏航图像的预测不够准确。正偏航滤波器网络对高正偏航图像的预测不够准确。0我们在CASIA WebFace上训练了一个ArcFaceCBAM-ResNet50模型，进行了20个epoch的训练。该网络在LFW测试集上的人脸验证任务上达到了99.1%的准确率。评估任务是在同一人脸的合成图像之间进行人脸验证，一个是正面图像，一个是侧面图像。我们变化了前15个形状参数和前15个纹理参数，范围从-2σ到2σ，其中σ是每个参数的标准差。我们建议使用随机采样这些参数得到的100个身份进行网络测试，按照均匀分布进行采样。我们还使用我们的对抗性测试算法进行了100次运行（最大迭代次数为200）。在表2中，我们展示了随机采样测试方案的准确率为99%，非常接近网络在LFW测试集上的99.1%的真实准确率。使用对抗性测试，网络的准确率为36%，这是验证性能的显著下降。我们还计算了成对的余弦相似度的平均值，表明对抗性测试生成了高度对抗性的样本（成功阈值T =0.298），而随机样本平均上是非对抗性的。在图3中，我们展示了对抗性测试（上方）和随机采样（下方）生成的样本的子集。我们进行了进一步的模拟对抗性测试实验。0在CASIAWebFace上训练了几种网络骨干（CBAM-ResNet50，CBAM-SE-ResNet50[22]，MobileNet）和人脸识别损失（ArcFace，CosFace）进行了20个epoch的实验。所有网络在LFW测试集上的准确率在（98.85%，99.1%）范围内。我们变化了30个形状参数，30个纹理参数，范围从-2σ到2σ，其中σ是每个参数的标准差。我们还在[-1，+1]范围内变化了偏航姿势参数，对应于[-π/2，+π/2]的变化，以及在[-1/4，+1/4]范围内变化的俯仰姿势参数，对应于[-π/8，+π/8]的变化。因此，在这种情况下，我们的算法必须学习62个参数。我们对我们的对抗性测试算法进行了100次运行（最大迭代次数为200），对使用高斯采样分布的随机优化进行了100次运行，并对均匀随机采样和高斯随机采样进行了1,000次迭代。我们在表3中比较了这些测试方法，并显示网络在随机采样方案和使用随机优化进行测试时都达到了非常高的准确率。使用对抗性测试，所有网络的验证性能都显著下降。成对的余弦相似度的平均值也大幅增加，表明对抗性测试生成了高度对抗性的样本（分别低于成功阈值T =(0.298，0.237，0.292，0.294)），而其他方法平均生成了“简单”的样本。例如，对于ArcFaceCBAM-ResNet50，对抗性测试在12,587次迭代中实现了51个对抗性样本，而随机采样在1,000次迭代中只实现了一个对抗性样本。在这种特定情况下，对抗性测试比随机采样的样本效率高出400%。在我们测试的一些场景中，根据迭代次数的不同，随机采样无法找到任何对抗性样本。这反映在100%的人脸验证准确率上。在图4中，我们展示了几个成功的对抗性测试运行（橙色/红色）和一个随机采样运行（绿色）。不成功的优化尝试通常会收敛到低余弦相似度而不变得对抗性，并停留在高维局部最小值中。最后，我们展示了一个对抗性测试的示例，其中图5中的30个形状、30个纹理和2个姿势参数同时被学习。算法找到了一个对抗性样本。41510表2.CBAM-ResNet50人脸验证准确率在通过均匀随机采样或对抗测试生成的合成数据集上的表现（Adv.Testing）。我们通过改变15个形状参数和15个纹理参数来改变身份。0方法准确率↓ 平均余弦相似度↓0均匀随机 99% 0.518 对抗测试 36% 0.2630图3.使用对抗测试方法获得的人脸模型（上方）和随机参数采样获得的人脸模型（下方）。绿色边框表示成功验证为同一身份的对，红色边框表示验证失败（模型失效）。我们使用对抗测试方法更加一致地获得对抗样本，而不是随机参数采样。对抗性人脸的一些共同特征包括模糊的正面/侧面特征（如长鼻子、收紧的下颌）、苍白/深色的肤色和左/右不对称。0揭示了模型对异常姿势、夸张的面部特征和明显的肤色的脆弱性。04.5. 寻找人脸识别模型的对抗区域0我们使用算法2中描述的方法在模拟器潜在空间中寻找人脸识别模型的对抗区域。我们在正面图像与张开下颌的侧面图像之间的人脸验证场景中进行这样的操作。我们改变第一个形状和纹理参数来找到对抗样本，然后找到与这些种子参数相连的空间。我们还对两个参数进行网格采样，以绘制合成样本表面。我们在图6中展示了所有合成样本（蓝色）的表面，以及对抗区域（红色）和对抗阈值平面（橙色）。当存在对抗区域时，我们成功地找到了对抗区域。当绘制所有测试网络的合成损失函数形态（图7）时，我们发现了一个令人惊讶的事实。在只有2个可变参数的情况下，唯一具有对抗区域的网络是ArcFaceCBAM-ResNet50。尽管所有网络都是0图4.成功对抗测试（红色）和随机参数采样（绿色）的余弦相似度。0图5.一系列经过对抗测试的生成合成样本（从左到右，从上到下）。我们的方法联合搜索所有30个形状、30个纹理和2个姿势参数，以找到对抗性人脸。边界线的颜色表示人脸识别网络是否能够成功验证这些对，红色表示验证失败，绿色表示验证成功。0以相同的方式在相同的数据集上训练，网络的主干和损失函数会显著改变损失函数的形态。一些网络从负形状到正形状有类似的下降斜率，但在一些特定情况下会出现一些特殊情况。令人惊讶的是，ArcFaceMobileNet在这种情况下是所有网络中最稳健的，其损失函数形态远高于误分类阈值平面。损失函数形态也与其他网络完全不同。05. 相关工作0在合成数据上测试计算机视觉模型并不是一个新的想法[24,26, 27, 35, 40,48]，尽管在这个领域的研究相对较少。更常见的是在合成数据上训练模型的研究[9, 12, 16, 17, 28, 34, 42, 43,46]。最近的研究甚至学习调整合成数据的生成分布，以便模型学习更好的表示[2, 3, 13, 25, 32,47]，或者调整合成数据的像素或特征以弥合合成与真实领域之间的差距[7, 14, 20, 39, 54,55]。与这些研究相比，我们提出在模拟器的参数空间中搜索，以对模型进行对抗性测试。有一些非常有趣的研究对模型进行了调整41520均匀随机高斯随机随机优化对抗性测试损失 + 骨干准确率 ↓ 平均CS ↓ 准确率 ↓ 平均CS ↓ 准确率 ↓ 平均CS ↓ 准确率 ↓平均CS ↓0ArcFace CBAM-ResNet50 99.9% 0.766 99.3% 0.695 93% 0.414 49% 0.282 CosFace CBAM-ResNet50 99.9% 0.69699.6% 0.637 86% 0.318 57% 0.281 ArcFace SE-CBAM-ResNet50 99.8% 0.738 97.7% 0.663 73% 0.348 34% 0.305ArcFace MobileNet 100% 0.825 99.8% 0.751 96% 0.454 58% 0.3720表3. 在不同的网络骨干和人脸识别损失组合上比较不同的合成采样技术。我们变化了30个形状参数、30个纹理参数和2个姿势参数。0图6.我们的算法在形状-纹理景观（蓝色）中找到对抗性区域（红色）。我们绘制了初始的学习轨迹（浅红色），得到种子对抗性模拟器参数。我们还绘制了对抗性阈值平面（橙色）。0为了测试模型，我们使用生成分布来测试模型[1, 51,61]。与[51,61]不同的是，我们测试的是在真实数据上训练的计算机视觉模型，这是一个更具挑战性的场景，因为必须描述和克服领域转移问题。与[1, 51,61]不同的是，我们在人脸识别领域而不是目标分类或VQA领域工作，其中包括形状、表情、纹理、光照和姿势参数在内的模拟器参数更多。我们使用连续策略搜索参数空间，该策略同时探索所有参数，这是重要的，因为模型性能不会独立地随每个参数变化（如图6所示），并且参数空间中的离散变化可能导致梯度锐度引起的高损失变化。与传统对抗性攻击的工作[6, 18, 33, 37, 44, 45,53]的最后一个区别是，我们提出了一种不仅找到一个孤立的对抗性示例，而且找到其区域的方法。存在提出定位对抗性示例区域的目标方法[50]。相反，我们探索位于模拟器的潜在空间而不是像素空间中的对抗性区域。06. 结论0在这项工作中，我们提出使用模拟器搜索语义上逼真的对抗性示例来测试机器学习模型。我们提出了一种模拟对抗性测试的框架，以及一种找到模拟对抗性示例的方法。最后，我们提出了一种在潜在变量的语义空间中找到对抗性示例连接空间的方法，并使用人脸模拟器评估我们的方法。0图7. 使用不同的网络骨干和损失函数进行的景观比较。网络在CASIAWebFace上进行训练。0我们发现，由于训练集在姿势方面存在偏差，导致人脸识别网络存在现实世界的弱点，可以使用可控的模拟人脸进行分析，并且可以识别出这些弱点。我们还发现，当使用特定的模拟人脸形状和纹理组合进行测试时，当网络进行对抗性测试时，其准确性与随机测试或在LFW等真实世界测试集上的测试相比大幅下降。我们提供证据表明，这些对抗性示例不是孤立的，而是属于在语义合理图像的流形中的对抗性示例的连接空间的一部分。我们还展示了网络损失景观可以根据网络架构和使用的损失函数的不同而有很大的变化，即使训练数据集是固定的。即使如此，对抗性测试仍然可以有效地找到所有网络的对抗性样本。我们将在未来的工作中研究这一现象。最后，我们在补充材料中对我们的工作的局限性和潜在的负面影响进行了深入讨论。0致谢这项工作部分得到了ONR N00014-21-1-2812和NIHR01 EY029700对Alan Yuille的支持，以及OpenPhilanthropy对Cihang Xie的赠款支持。41530参考文献0[1] Michael A Alcorn, Qi Li, Zhitao Gong, Chengfei Wang,Long Mai, Wei-Shinn Ku, and Anh Nguyen.奇怪姿势使神经网络易受欺骗.IEEE/CVF计算机视觉与模式识别会议, 4845–4854页, 2019年. 80[2] OpenAI: Marcin Andrychowicz, Bowen Baker, MaciekChociej, Rafal Jozefowicz, Bob McGrew, Jakub Pachocki,Arthur Petron, Matthias Plappert, Glenn Powell, Alex Ray等.学习灵巧的手部操作. 国际机器人研究杂志, 39(1):3–20, 2020年. 70[3] Sara Beery, Yang Liu, Dan Morris, Jim Piavis, AshishKapoor, Neel Joshi, Markus Meister, and Pietro Perona.合成样本提高罕见类别的泛化性能.IEEE/CVF冬季计算机视觉应用会议(WACV), 2020年3月. 70[4] Shai Ben-David, John Blitzer, Koby Crammer, AlexKulesza, Fernando Pereira, and Jennifer Wortman Vaughan.不同领域学习的理论. 机器学习, 79(1):151–175, 2010年. 30[5] Joy Buolamwini and Timnit Gebru. Gender shades:商业性别分类中的交叉准确性差异. 公平性、问责性和透明性会议,77–91页, 2018年. 10[6] Nicholas Carlini and David Wagner. 评估神经网络的鲁棒性.2017年IEEE安全与隐私研讨会(SP), 39–57页. IEEE, 2017年. 2, 80[7] Yi-Hsin Chen, Wei-Yu Chen, Yu-Ting Chen, Bo-ChengTsai, Yu-Chiang Frank Wang, and Min Sun. 不再有歧视:跨城市适应道路场景分割器. IEEE国际计算机视觉会议(ICCV),2017年10月. 2, 70[8] Jiankang Deng, Jia Guo, Niannan Xue, and StefanosZafeiriou. Arcface: 深度人脸识别的加性角度边缘损失.IEEE/CVF计算机视觉与模式识别会议, 4690–4699页, 2019年. 50[9] Alexey Dosovitskiy, German Ros, Felipe Codevilla, Anto-nio Lopez, and Vladlen Koltun. Carla:一个开放的城市驾驶模拟器. 机器学习研讨会, 1–16页. PMLR,2017年. 70[10] Yao Feng, Haiwen Feng, Michael J. Black, and TimoBolkart. 从野外图像学习可动态细节的3D人脸模型.ACM图形学交易(SIGGRAPH), 40(4):88:1–88:13, 2021年8月. 50[11] Guy Gafni, Justus Thies, Michael Zollh¨ofer, and MatthiasNießner. 动态神经辐射场用于单目4D面部化身重建.arXiv预印本arXiv:2012.03065, 2020年. 20[12] Adrien Gaidon, Qiao Wang, Yohann Cabon, and EleonoraVig. 虚拟世界作为多目

下载后可阅读完整内容，剩余1页未读，立即下载