没有合适的资源?快使用搜索试试~ 我知道了~
{halo8218, rucy74, sryoon}@snu.ac.krminθE(x,y)∼D12720对抗性顶点混合:朝着更好的对抗性鲁棒泛化方向0Saehyung Lee Hyungyu Lee Sungroh Yoon *首尔国立大学电气与计算机工程学院,ASRI,INMC和工程研究所,韩国首尔088260摘要0对抗性样本会导致神经网络以高置信度产生错误的输出。尽管对抗性训练是对抗性样本最有效的防御形式之一,但不幸的是,在对抗性训练中,测试准确率和训练准确率之间存在很大的差距。在本文中,我们确定了对抗性特征过拟合(AFO)的存在,它可能导致对抗性鲁棒性的泛化性能较差,并且我们展示了对抗性训练在鲁棒泛化方面可能超过最优点,从而导致我们简单的高斯模型中的AFO。考虑到这些理论结果,我们提出了软标签作为解决AFO问题的方法。此外,我们提出了对抗性顶点混合(AVmixup),这是一种用于改善对抗性鲁棒泛化性能的软标签数据增强方法。我们通过在CIFAR10、CIFAR100、SVHN和TinyImageNet上进行实验证明了我们的理论分析,并展示了AVmixup显著提高了鲁棒泛化性能,并减少了标准准确率和对抗性鲁棒性之间的权衡。01. 引言0深度神经网络(DNNs)在各种机器学习任务中取得了令人印象深刻的结果,包括计算机视觉[15]和自然语言处理[10]。然而,神经网络很容易被输入的小的对抗性扰动欺骗,并且对此具有高度的自信度[34]。DNNs的这种脆弱性导致提出了几种防御对抗性攻击的方法[27, 21, 30,41]。尽管有这些尝试,但许多防御方法都被强大的对抗性攻击所击败[16, 18,3],或者最终发现依赖于模糊的梯度[1]。对抗性训练[18]是最有效的对抗性防御方法之一,它用对抗性的方式替代了原始的训练样本。0* 通讯作者:Sungroh Yoon sryoon@snu.ac.kr。0训练样本的例子。给定一个数据集D = {(xi,yi)}ni=1,其中xi ∈Rd是d维输入空间中的一个例子,yi是其相关标签,对抗性训练的目标是通过使用对抗性经验风险最小化[18]来训练模型:0在公式(1)中,max表示最大化,δ ∈S表示对抗者可以应用的扰动集合,SL(x + δ, y;θ)表示在给定输入x和标签y的情况下,模型θ的损失函数。0这里,L(x + δ, y;θ)是对抗性样本上的损失函数,S表示对抗者可以应用于欺骗模型的扰动集合,通常是ℓp-有界扰动的集合。已经报道了许多关于这些对抗性扰动性质的研究。Gilmer等人[6]指出对抗性样本现象的出现是因为数据分布中的大多数高维数据点非常接近可能是对抗性样本的点。Schmidt等人[31]证明了鲁棒训练需要显著更大的样本复杂性,而不是标准训练,假设鲁棒训练的困难源于样本复杂性的增加。Tsipras等人[35]表明在对抗性鲁棒性和标准准确率之间可能存在权衡。他们认为在对抗性训练期间学到的特征与标准训练期间学到的特征不同,并将这种权衡归因于这种差异。最近,Ilyas等人[12]证明了用于训练深度学习模型的特征可以分为对抗性鲁棒特征和非鲁棒特征,并且对抗性样本问题可能源于这些非鲁棒特征。那么,如果对抗性样本是特征而不是错误,那么我们是否可以考虑在对抗性训练中考虑“对抗性特征”之间的泛化性能?如果可以,那么在对抗性训练中,在对抗性扰动下测试准确率和训练准确率之间的巨大差距是否是由于对抗性特征泛化的失败引起的?受到这些问题的启发,我们提出了一个理论模型,证明了在对抗性训练期间鲁棒泛化性能的变化。具体来说,我们yu.a.r.∼{−1, +1}, xi.i.d.∼ N(y · θ⋆, σ2I).(2)̸̸fn,σ = sgn(w⊤x).(3)2730识别对抗训练的泛化问题,并展示了我们提出的方法可以缓解泛化问题。总结起来,我们的论文做出了以下贡献: •我们提出了一种理论分析,展示了特征表示的方差变化对鲁棒泛化的影响程度。 •我们揭示了对抗特征过拟合(AFO)现象,即模型在对抗训练中过拟合对抗特征,导致鲁棒泛化效果差。 •我们提出了对抗顶点混合(AVmixup)方法,一种协同训练的软标签数据增强方法。 •我们通过在CIFAR10、CIFAR100、SVHN和TinyImagenet上的实验结果分析了我们提出的方法,并展示了AVmixup显著提高了最先进的对抗训练方法的效果。02. 背景02.1. 对抗鲁棒泛化0Schmidt等人[ 31]通过构建一个玩具例子,展示了鲁棒泛化的样本复杂度可以远大于标准泛化的样本复杂度:0例子1. (Schmidt等人) 令 θ � ∈ R d 为每类的均值向量,令 σ > 0 为方差参数。那么 ( θ � , σ ) -高斯模型定义如下:0在这里,二元分类任务的难度通过调整方差参数 σ来控制,这意味着两个类之间的重叠程度。为了描述鲁棒泛化,标准和鲁棒分类错误的定义如下(Schmidt等人):0定义1. 令 Q : R d × {± 1 } −→ R为一个分布。那么一个分类器 f : R d −→ {± 1 }的标准分类错误 β 定义为 β = P ( x ,y ) � Q [ f ( x ) � = y ] .0定义2. 令 Q : R d × {± 1 } −→ R 为一个分布,令 S ∈R d 为对手可能应用的扰动集合,那么一个分类器 f : R d−→ {± 1 } 的 S -鲁棒分类错误 β 定义为 β = P ( x ,y ) �Q [ � δ ∈ S : f ( x + δ ) � = y ] .0因此, ℓ � p -鲁棒性被定义为对扰动集合 S = { δ ∈ R d| ∥ δ ∥ p ≤ � } 的鲁棒性。在我们的工作中,我们专注于 ℓ∞ -有界扰动,因为0这是在对抗扰动背景下最常见的类型[ 18 , 16 , 41 , 40]。为了计算鲁棒性和标准泛化的样本复杂度,Schmidt等人使用了以下线性分类器模型:0定义3. (Schmidt等人) 令 ( x 1 , y 1 ) , . . . , ( x n , y n ) ∈0d . 令权重向量 w ∈ R d 为方向为 ¯ z = 1 的单位向量0n � n i =1 y i x i . 那么线性分类器 f n,σ 定义如下:0研究表明,当数据分布的方差较小时,线性分类器可以实现令人满意的泛化性能。在相同条件下,对于一定的 ℓ � ∞-鲁棒分类错误,对抗扰动的上界 ℓ ∞ 也被推导出来。02.2. 鲁棒特征和非鲁棒特征0最近的研究[ 35 , 12]考虑了在鲁棒特征和非鲁棒特征之间存在区别的对抗鲁棒性。他们指出对抗样本可以来自于输入数据的非鲁棒特征,这些特征对于标准分类是有用的,但对于鲁棒分类有不利影响[12]。他们通过展示仅非鲁棒特征就足以进行标准分类但不足以进行鲁棒分类的证据来支持这一假设。他们还证明了在高斯模型中存在标准准确性和鲁棒性之间的可证明权衡。此外,他们强调对抗训练可能会将非鲁棒特征的贡献降低到零,以下引理支持了这一观点:0引理1.(Tsipras等人)最小化对抗经验风险会导致将非鲁棒特征的权重设为0的分类器。02.3. 软标签0Szegedy等人[33]提出了标签平滑作为一种正则化分类器的机制。他们认为最大化正确标签的对数似然可能导致过拟合,而标签平滑可以缓解过拟合问题。Zhang等人[39]引入了一种名为Mixup的新型数据增强方法。Mixup构造虚拟训练样本如下:0˜x = αxi + (1 − α)xj, ˜y = αyi + (1 − α)yj. (4)(8)2740(xi, yi)和(xj, yj)是从训练数据中随机抽取的两个示例,α ∈[0, 1]。他们表明Mixup在各种任务上提高了泛化能力。03. 方法03.1. 理论动机0在本节中,我们从理论上分析了鲁棒泛化的统计方面。首先,使用简单的高斯数据模型来证明了为了实现鲁棒泛化,需要最小化特征表示的方差。然后,我们展示了在鲁棒和非鲁棒特征组成的数据上最小化对抗经验风险的最优模型参数与实现鲁棒泛化的最优模型参数不同。最后,我们通过展示即使在我们的简单高斯数据模型中,当模型过度训练于对抗性示例时,鲁棒泛化性能也会下降,从而证明了大多数深度神经网络并不免于AFO。基于示例1和在定义3中定义的线性分类器,我们证明了以下定理:0定理1.对于方差参数σr和σs(下标r表示鲁棒,s表示标准),令σr= νσs,其中ν ∈ [0, 1]。那么,fn,σs的标准分类错误上界和f0least 1 − 2exp(−d08(σ2s + 1)) ∙ (1 − 2exp(−d08(σ2r + 1))if0� ≤ (2√n − 1)(1 − ν)02√n + 4σs. (5)0(我们工作中所有定理和推论的证明都可以在补充材料中找到。)我们可以看到该定理与我们的直觉是一致的。例如,当ν = 1,即两个方差相等时,对于� >0的鲁棒泛化能力与标准泛化能力相同的概率实际上变为零。因此,为了确保我们的模型在鲁棒泛化方面与标准泛化相同水平,需要比标准学习的特征表示的方差更小。0推论1. 对于方差参数σr和σs,令σr = νσs,其中ν ∈ [0,1]。令f n,σs的标准分类错误上界和fn,σr的ℓ�∞-鲁棒分类错误上界相等。那么,随着σr的减小,�的上界与πn,σs成比例增加,πn,σs的计算公式如下:0πn,σs = 2√n − 10σs(2√n + 4σs). (6)0因此,特征表示的方差越小,模型的鲁棒泛化性能越有效。0接下来,我们展示了在训练模型以最小化对抗经验风险时特征表示方差的变化。具体来说,我们利用鲁棒和非鲁棒特征的概念,并展示了类似于之前使用的模型中对抗训练导致AFO的方式。0例2. 令0 < σA � σB。那么,分布Ψ true 定义如下,其中 (x,y) ∈ Rd+1 × {±1}:0yu.a.r�{−1,+1}且0x1�N(y,σ2A),x2,...,xd+1 i.i.d.�N(ηy,σ2B)。(7)0这里,x1是与标签强相关的鲁棒特征,而其他特征x2,...,xd+1是与标签弱相关的非鲁棒特征。这里,η<1是一个非负常数,它很小但足够大,以使简单的分类器达到较小的标准分类误差。鲁棒学习的困难在于需要显著大的样本复杂度[31]。在这个假设下,我们将示例2扩展为示例3,假设如下:0假设1.假设我们的数据中非鲁棒特征的数量为N。由于在鲁棒学习中缺乏数据样本,N个非鲁棒特征中的M个特征形成一个远离真实分布的样本分布。0在假设1中,我们将M个非鲁棒特征称为“不足”的非鲁棒特征。相反,其他非鲁棒特征被称为“足够”的非鲁棒特征。0示例3.令0
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功