深度学习中的对抗样本及其影响

132 浏览量更新于2023-10-25 收藏 1.72MB PDF 举报

对抗样本

深度学习

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4666对抗样本作者：张晓刚1，张晓刚1，张晓刚1，张晓刚2，张晓刚3，张晓刚3.凯尼恩21宾夕法尼亚州德雷克塞尔大学计算机科学系2洛斯阿拉莫斯国家实验室，新墨西哥州ek826@drexel.edu，jr3548@drexel.edu，twatkins@lanl.gov，gkeynon@lanl.gov摘要虽然深度学习继续渗透到信号处理和机器学习的所有领域，但这些框架中存在一个关键漏洞，并且尚未解决。这些漏洞，或对抗性示例，是一种信号攻击，可以改变类的输出类，通过以难以察觉的量扰动刺激信号来放大。该攻击利用了训练数据中的统计不规则性，其中添加的扰动可以更令人担忧的是，这些攻击可以转移到不同的深度学习模型和架构中。这意味着对一个模型的成功攻击会对其他不相关的模型产生对抗性影响。一般来说，通过扰动进行的对抗性攻击人类和生物视觉也可以通过各种方法被愚弄，即将高频和低频图像混合在一起，通过改变语义相关的信号，或通过充分扭曲输入信号。然而，改变生物感知所需的这种扭曲的数量和幅度要大得多。在这项工作中，我们通过生物学和神经科学的镜头探索了这一差距，以了解人类感知中表现出的鲁棒性我们的实验表明，通过利用稀疏性并在细胞水平上对生物机制进行建模，我们能够减轻对抗性改变对没有可感知意义的信号的影响此外，我们提出并说明了自上而下的功能过程的影响，有助于利用这些属性，使一个更强大的机器视觉系统的背景下，在人类的固有免疫力。1. 介绍近年来，深度学习已经彻底改变了几乎所有的机器学习领域，并对整个社区产生了变革。深度学习在监督学习任务中取得了巨大成功，其中神经网络(a) 救护车（=1.0）(b)火烈鸟（=0.99）(c)花椰菜（=1.0）(d)救护车干扰(e)火烈鸟扰动(f)花椰菜扰动图1：使用投影梯度下降方法[29]针对不同职业的攻击图示。（a）─(c) 是被（d）-（f）中的噪声改变的对抗性示例。ResNet50 [18]将以下图像分类为救护车、火烈鸟和花椰菜，置信水平分别为1.0、0.99和1.0。可以使用反向传播和梯度下降在大量标记的训练数据然而，研究表明，这种人工架构和学习机制可以被对抗性示例所利用[44]。对抗性示例是一种信号攻击，其可以通过以不可感知的量扰动刺激信号来改变分类器的输出类。该攻击利用了训练数据中的统计不规则性，其中添加的扰动可以在图1中可以看到攻击图像及其相应的扰动信号的图示。与机器对抗的例子相反，还有一些例子可以愚弄人类，如图2所示。这些前-4667(a) 混合图像示例(b) 限时示例(c) 类似的功能前。视神经到外侧膝状体核（LGN），然后到大脑枕叶中的初级视觉皮层光传导，将光转化为神经尖峰的概念与机器视觉一次读取和处理每个像素不同，我们随着时间的推移对世界的各个部分进行采样，但仍然能够在我们的脑海中重新创建一个整体表示这可以很容易地得到验证，因为我们有一个盲点，视网膜细胞的轴突通过眼睛返回，但我们在视觉中没有感知到盲点我们还可以追踪各种视网膜细胞的活动和途径，并看到信息在不同时间在不同位置进行处理。正如我们将在我们的方法中描述的那样，我们的模型在细胞水平上模拟了视网膜的功能。的图2：对人类视觉的“攻击”示例。(a)混合图像混合高和低频率[32]。(b)欺骗机器和时间有限的人类的扰动示例[14]。(c)病毒照片，说明了狗和食物之间的相似特征。这些不同的特征依赖于更多的语义转换。从这个例子中可以清楚地看出，卷积神经网络（CNN）用于分类的特征与我们人类用于对象识别的特征不同。此外，改变人类感知所需的扰动尺度通常是几个数量级，并且在语义上是相关的。在这项工作中，我们试图回答几个关于人类和机器之间感知差距的问题。具体来说，是什么让生物视觉如此强大？大脑实际上看到的是什么输入信号？视网膜中发生了什么样的处理过程那么在这个信号的作用下，初级视觉皮层是如何处理和表现这些视觉信息的呢？为了回答这些问题，我们回顾了文献，并研究了人类感知的机制。2. 背景及相关工作2.1. 哺乳动物视觉现代神经科学的创始人Ramo′nyCa jal阐明了哺乳动物视网膜的通路，这对理解我们如何感知光线至关重要。总的来说，光线通过瞳孔和晶状体进入眼睛，并投射到眼睛后部的视网膜上，视网膜是一层组织，排列在眼睛后部并对光做出反应。视网膜由神经元和光感受器组成，其执行光转导（将光转化为动作电位，例如，“神经尖峰”），具体细胞及其功能描述如下。视网膜细胞的类型和功能-第一个与光相互作用的细胞是光感受器，杆和锥。视杆细胞负责探测微弱的光线;而视锥细胞具有色觉能力。这些光感受器将信息传递到双极细胞，双极细胞聚集许多光感受器。在这一点上，两个主要的途径出现，在中心和偏离中心的途径。中心上双极电池被激发，例如，去极化，如果光照射到这个细胞的感受野，例如，如果光照射在感受野的周围区域上，则是超极化的。相反，偏离中心的双极电池以相反的方式反应。当一个黑暗的区域撞击它的感受野中心时，它将变得去极化，当光线照射到周围时，它将变得超极化[41]。下一种类型的细胞是水平细胞。水平细胞与许多视杆细胞、视锥细胞和两极细胞横向相连。它们的主要作用是抑制邻近细胞的活性。这种选择性抑制附近活动的想法被称为侧抑制。通过抑制来自较少照明的光感受器的信号，水平细胞确保只有来自良好照明的光感受器的信号到达神经节细胞，从而改善视觉刺激的对比度和清晰度。无长突细胞也是与双极细胞和视网膜神经节细胞相互作用的抑制性神经元。这些细胞补充水平细胞的作用，但也发挥调节作用，控制视网膜细胞的振荡和放电频率最后是视网膜神经节细胞（RGC）。与其他通过分级反应的视网膜细胞相反，神经节细胞发射电脉冲，例如动作电位，沿着向后延伸到皮层的长轴突。放电率（每秒的尖峰）对应于神经元内的刺激强度。有许多类型的神经节细胞，但我们主要集中在侏儒细胞，这是负责响应4668颜色和对比度。这些细胞连接到相对较少的视锥细胞和视杆细胞（在中央凹中接近一比一的比例），并具有ON/OFF感受野。外侧膝状体中的小细胞层与小细胞层相连。外侧膝状体核（LGN）-从RGC接收的动作电位代表通过外侧膝状体核（LGN）重新放置的神经代码。LGN直接接收来自视网膜神经节细胞的感觉输入以及来自初级视觉皮层的许多反馈连接。这些反馈连接对LGN神经元产生兴奋性和抑制性影响[9]。正如视网膜细胞有许多类型一样，LGN细胞也有许多不同类型。我们专注于小细胞神经元，因为它们与侏儒RGC相连。与侏儒RGCs相似，小细胞神经元对颜色敏感，并且比其他类型的LGN细胞更能区分细节LGN还被认为通过对从左眼和右眼接收的信号求和来在空间上关联信号。LGN将这些信息投射到初级视觉皮层。初级视觉皮层（V1）-初级视觉皮层，例如V1，是大脑最早的皮质视觉区并且已经在神经科学文献中被广泛研究。V1中的神经表征是稀疏的，并且具有许多反馈连接的高度递归性。强有力的证据表明，神经代码既明确又稀疏[15]，其中神经元选择性地对特定刺激进行激发。Hubel和Wibel的早期感受野研究正如在视网膜和LGN中观察到的那样，横向和反馈连接非常重要[39]。几十年前，在视觉皮层的相邻列之间发现了侧抑制[7，8]。V1中的早期视觉神经元并不像人工神经网络那样充当简单的线性特征检测器[37]，相反，它们转换视网膜信号并整合自上而下和横向输入，这些输入传达预测，记忆，注意力，期望，学习和行为背景。这种高级处理从皮层和皮层下源反馈到V1 [30]。稍后，在刺激呈现约100 ms后，V1中的神经元也对场景的全局组织敏感[3]。这些响应特性源于来自更高区域的循环反馈处理。自上而下的反馈也被认为将即将到来的输入的贝叶斯推断传递到V1中，以促进感知并加强V1中奖励刺激的表示[24]。有趣的是，大脑中的反馈连接比前馈连接多得多.2.2. 基本生物学概念生物感知的过程是不可估量的复杂，不是我们希望在这个时候复制的东西。然而，有一些清晰的总体，高层次的概念，似乎是我们可以在我们的模型中合并和探索的愿景的基础。(1) 视网膜传输信号的能力降低。光感受器以1.5亿至150万的倍数向视网膜神经节细胞进行会聚;因此，通信依赖于一种压缩形式[22]。在神经科学的背景下，已经证实这种压缩可能与有效编码方案的存在有关，例如压缩感知[4]。事实上，我们知道的一个概念是，自然刺激，如视觉图像，在某些变换基中是稀疏的[43]。因此，视网膜可以在亚奈奎斯特频率下对世界进行采样，并且仍然可以恢复世界。(2) 神经表征是稀疏和过度完整的。Olshausen [33]已经证明稀疏性是一个理想的属性，因为我们的自然环境可以通过少量的结构基元来描述。稀疏代码在关联神经学中具有很高的表示能力，远远超过了更密集代码可以存储的输入输出对的数量[5]，并且在生物学上，稀疏神经代码在代谢上更有效，并且降低了代码传输的成本[2]。V1的神经连接反映了大脑的过度完整例如，在猫的V1中这些属性支持稀疏和过完备的表示。(3) 反馈是感知的关键组成部分苏塞克斯大学的神经科学家阿尼尔·赛斯说，感知是一种“受控的幻觉”。我们可以从神经回路中看到，横向和自上而下的反馈连接在视觉中起着重要作用。有证据表明，来自更高级别区域（如V4、IT或MT）的反馈，具有更大和更复杂的感受野，可以修改和塑造V1反应，解释上下文或超经典感受野效应[10]。总而言之，视觉是我们认为我们看到的和我们实际看到的可控混合物。2.3. 对抗性示例的背景深度学习分类的根本问题是网络倾向于学习数据中的表面概念，而不是真正学习类和对象的抽象概念。这使得它们很容易受到对抗性干扰的影响 [23]。Shwartz和Tishby [42]表明，深度学习模型中的每个连续层都学会丢弃不用于最小化客观损失的数据。网络正在学习如何4669(a)视网膜模型（b）LGN中继（c）视觉皮层模型图3：生物学启发的感知模型概述。输入图像通过（a）由光感受器、水平、双极、无长突和视网膜神经节细胞组成的视网膜模型。神经节细胞产生两个不同的尖峰序列，对应于中心ON和周围OFF响应。尖峰序列（b）在LGN中被求和和中继。最后，在（c）中，速率编码的尖峰序列由使用侧抑制和自上而下反馈的分层视觉皮层模型稀疏编码。抑制性连接是红色的，而兴奋性连接是黑色的。MNist（虚线内）和ImageNet（虚线外）显示了每个层和卷积字典的维度。数据。网络并不是在学习“苹果”是什么，而是在学习我可以丢弃这个图像的哪些特征，以创建一个更好的对抗性示例的现有防御试图通过使用对抗性示例来增强模型来“修复”深度学习模型，[29，45]或向隐藏的激活添加随机性[12]。或者，防御方可以通过预处理、量化或压缩将输入处理到模型中[47，11，17，19，28]。我们的工作是独特的，并不完全适合这些国防指定之一。我们的贡献可以被归类为解决输入处理和学习模型。首先，我们提出了一个视网膜模型，它类似于通过在空间和时间上采样来预处理输入图像。其次，我们描述了如何使用稀疏编码模型来训练和执行推理，该稀疏编码模型由速率编码输入信号驱动，并使用横向和自上而下的反馈进行调制我们的实验和结果证明了我们的生物启发模型在对抗性例子的背景下的有效性;然而，我们想强调的是，这个模型的影响扩展到一般的感知。所呈现的生物启发元素不适合对抗性防御-但固有地具有这种免疫力。因此，我们最后的贡献和希望是激励社区在这一领域进行进一步的研究。3. 方法我们的框架模拟了感知过程，从数字图像开始，以视觉神经表示结束我们创造了一个解剖学上的灵感模型的视网膜，执行光转导。锋电位序列聚集成通过LGN的微小细胞神经元中继的锋电位的总和。然后使用来自稀疏编码的生成器的训练字典将该信号转换为过完备稀疏表示。这个阶段的神经元对输入刺激的反应方式与初级视觉皮层中记录的神经元相似。最后，我们描述了一个分层模型，使自上而下的反馈驱动模型的较低级别的表示，这是一致的输入图像刺激和自上而下的期望，记忆，或强先验。对于我们对对抗性示例的实验和评估，我们表明我们的模型对对抗性示例表现出固有的鲁棒性，优于其他防御。完整模型的图示如图3所示。3.1. 视网膜模型我们的人造视网膜模型由主要细胞类型组成，例如，光感受器、双极、水平、无长突和神经节细胞。我们的架构扩展了先前描述的视网膜模型，该模型试图解释视网膜神经节细胞之间的同步刺激选择性振荡[25，46]。4670图4：来自ISLVRC 2012 val 1003的视网膜神经节细胞ON（红色）和OFF（蓝色）动作电位，1-28 ms。每个图像帧显示1 ms快照。叠加的蓝色显示了从OFF途径产生的尖峰，红色显示了从ON途径产生的尖峰尖峰在图像上产生我们的模型由一个128x128的相同的本地处理模块阵列组成，这些模块在256x256 RGB输入图像上运行单个处理模块如图3（a）所示其中，τk是时间常数，bk是偏置电流，Lk是光输入（图像像素），Lk= 0，k/= 1。输入-k′输出关系由f（V）定义′），而重量ma-每个模块具有2x2贴片的像素感受野，其中继到外丛状层中的视锥光感受器。视锥细胞被4x水平细胞横向抑制，这些细胞整合了一组视锥细胞的反应。圆锥体驱动在两个途径中的4x双极细胞，ON途径和三元组W（k，k）是计算的可分离高斯函数，在权重矩阵中突触前和突触后列位置之间的距离。对于分次投入产出关系函数，我们k′精细f（V 作为分段线性饱和函数，或者，关闭路径。如果输入信号高于灰色（0-255，灰色=128），则ON路径被激发，OFF路径被激发的值低于128。然后，这些细胞以真实的随机性中继到视网膜神经节细胞，为模型添加了内在的噪声源神经节细胞被两组无长突细胞抑制，即4x小无长突细胞和4x大无长突细胞。小的无长突细胞使神经节细胞的反应更短暂，即。它使神经节能够响应最佳大小的小输入信号，而中等无长突细胞为神经节细胞提供环绕，提供空间对比。我们注意到，小无长突细胞是双分层的（对ON和OFF信号都有反应），以便更快地关闭神经节并使神经节反应更尖锐。在生物学上，视网膜中的大多数细胞可以通过分级信号进行通信，例如，浮点值，因为在短距离上发生最小的信号降级。然而，神经节细胞必须通过长的视神经传递，因此需要动作电位。集成和点火单元的内部状态，即：“膜电位”，充电，当它超过一定的阈值，将激活和发射该神经元。我们将我们模型的细胞实现为分级细胞的漏积分器，或具有与生物过程一致的时间常数的神经节细胞的漏积分和发射神经元在数学上，我们可以对膜电位Vk进行建模，其中k是特定的细胞类型（锥细胞、水平细胞、双极细胞、无长突细胞、神经节细胞），如下所示：Σ1作为尖峰输出情况下的阶跃函数。静息膜电位，阈值标准，不应期，和化学相互作用已被精心调整，以符合生物测量。精确的参数化可以在[25]中找到。ON和OFF尖峰序列可以在图4中看到，尖峰的总和可以在后面的图7（g）中看到。我们的输出结果与文献中视网膜的功能一致。它是由Atick和Redlich[1]视网膜神经节细胞的中心-周围感受野用于使自然视觉输入去相关，输入的“重复”。实验证据表明，在视觉路径的早期阶段确实存在去相关[16]，并且在V1中的电路可以实现稀疏表示之前，它可能是必要的预处理其他非尖峰视网膜模型（图7（f））也显示，在视网膜输出中，平均亮度能量衰减，频谱变白，所有轮廓增强[6]。巧合的是，ZCA白化操作经常被用作深度学习和卷积神经网络中的数据预处理步骤[35]。3.2. LGN模型在我们的模型中，LGN的主要目的是充当从视网膜到初级视觉皮层的中继。然而，由于LGN也通过对双眼信号求和来对信号进行空间在128 ms内将ON和OFF视网膜尖峰序列相加成具有与输入图像相同维度的矩阵。Vsteck=−τkΣVk−bk−Lk′′Σ（1）′T我们可以将这个速率编码矩阵传递到初级皮层，或者在RGB图像的情况下，我们可以使用这个矩阵-W（k，k）·f（Vk）·W（k，k）k′作为加权矩阵。尖峰输出的最终总和为通过逐点乘以权重46711矩阵和原始图像。该过程可以在图3（b）中看到。3.3. 初级视皮层我们框架的最后一个组件是模型初级视觉皮层的变化，如图3（c）所示。管理我们创建一个plausi- ble神经表示的方法的算法是基于深度稀疏编码[26，27]。在数学上，稀疏编码是可以如下定义的重构最小化问题。在稀疏编码模型中，我们有一些输入变量x（n），我们试图从中找到潜在表示a（n）（我们称为“激活”），使得a（n）是稀疏的例如，包含许多零，并且我们可以高保真地重构原始输入x（n）。单层稀疏编码可以定义为，和输入尖峰信号之和，（ΦTΦa m−a m）项（在图3（c）中绘制为红色递归连接）表示来自活动神经元集合的侧抑制信号，与字典元素之间的内积成比例。在这种情况下，−a m是消除自我相互作用。总之，与输入速率编码图像匹配的神经元充电更快，然后通过激活阈值。一旦它们超过阈值，该层中的其他神经元就被抑制，与竞争神经元之间的字典元素的相似程度成比例这防止了相同的图像组件被多个节点冗余地表示。在进一步检查时，可以看到这是一个生成模型，其中目标函数是最小化重建误差。该模型不学习决策边界，也不丢弃信息以最大化分类。网络的目标是重新...ΣNminΦn=1min<$x（n）−Φa（n）<$2+λ<$a（n）<$1（2）a（n）22记住一切，不要忘记。3.4. 自上而下反馈其中Φ是超完备字典y，Φa（n ）=x∈（n），或x（n）的重构。λ项控制稀疏性惩罚，平衡重建与稀疏性项。N是总训练集，其中n是训练的一个元素。Φ表示由跨输入信号共享特征的小内核组成的字典。我们使用局部竞争算法（LCA）[40]来最小化等式2中的均方误差。LCA算法是一种生物信息稀疏求解器，由动力学控制，当出现一些输入刺激时，该动力学会进化神经元该模型中神经元的激活横向抑制层内的单元以防止它们放电。状态的输入电势LCA模型是一种基于能量的模型，类似于Hopfield网络[20]，其中神经动力学可以由非线性常微分方程表示。让我们考虑一个单一的在谷歌大脑最近的一篇论文中，Elsayed et al.[14]表明对抗性的例子可以欺骗有时间限制的人类，但不能欺骗没有时间限制的人类。如果图像被快速地呈现给人类，则人类可能会进行分类误取，但如果给予无限的时间则不会。“一种可能的解释是......没有限制的人类从根本上对对抗性的例子更健壮，并通过自上而下或横向连接来实现这种健壮性。这表明，机器学习安全研究应该进一步探索这些自上而下或横向联系的重要性。在我们的神经网络中，我们可以堆叠稀疏层，其中每一层都试图重建前一层的内部状态，即层N+ 1是在层N处重建的膜势，uN。顶层rN+1的重构的残差或误差可以用作驱动下层的机制的抑制信号，rN+1=uN−ΦN +1aN +1（4）使得层N处的所有神经元的方程被定义为，输入信号，在我们的情况下是尖峰的总和ss。我们定义特定神经元的内部状态m，表示为um，激活系数表示为am=Tλ（um），其中T是激活ustecN=Σ1−uN+（ΦNTτuN−1）−（ΦNTΣΦNaN−aN）−rN+1函数的阈值参数为λ。每个节点的动力学由常微分方程确定（五）在图3（c）中，这种抑制性连接被示为从层V4到层V2以及从层V2到层V1的红色反馈箭头这种联系具有抑制作用ustecm=ΣΣ1−um+（ΦTss）−（ΦTΦam−am）τ（三）在较低层的神经元，不符合高层次的表示。然而，正如生物学中所指出的，反馈连接是−um项泄漏内部状态，τ是时间常数，（ΦTss）项抑制性和兴奋性的。因此，我们创建了从更高级别的兴奋性反馈连接- V4到V2，V2到V1，以及V4到V1，作为稀疏编码的附加驱动器4672（一）（二）（三）（四）（五）（a）（b）（c）（d）（e）（f）看到了。为了说明自上而下反馈的效果，我们使用MNist数据集训练了一个2层（仅V1和V2）稀疏编码网络V1级的重建结果见图5，学习词典见图6。如前所述，我们的网络与Hopfield记忆网络具有相同的属性，后者已被用于对大脑皮层进行建模[36]。当给予兴奋性反馈时，该模型将输入驱动到在模型中的较高层学习的数字的标准形式。如果有更多的时间来在输入不明确的情况下，我们可以通过手动激活V2水平的神经元并增加λ= 10来强制模型产生不同的数字幻觉。图5（4）（5）分别示出了激活“5”个神经元和“8”个神经元的效果。这证实了知觉中“受控幻觉”的概念实际上，心理学-图5：自上而下反馈对输入图像的影响（a）。（b）-（e）显示了内部表征在1000个时间步间隔的演化。列（f）示出了t=4000时的收敛表示。图（1）-（3）说明了自上而下的影响，使图像朝着学习的标准形式移动。图（4）、（5）显示了使用来自层次结构顶层的强先验的不同类别绿色像素表示加法，而红色像素表示减法。(a) Φ1初始化（b）Φ1训练（c）V2活动图6：（a）显示了MNist模型中Φ1的初始化。(b)是训练有素的Φ1。(c)显示了100个神经元的平均触发活动，即在层V2中，激活该神经元的输入的加权和。层.ΦNTuN−1→ΦNT（uN−1+λΦN（ΦN+1aN+1））（6）因此，稀疏编码层不仅受到来自较低层的输入的影响，而且还受到较高层的主动重构的引导。一个重要的警告是，我们在训练过程中不打开兴奋性自上而下的反馈（λ= 0），因为我们希望我们的字典学习它实际看到的刺激，而不是它认为的刺激。4673Erature [38]提出幻觉可以被理解为对知觉的自上而下的影响，由不适当的知觉先验介导。4. 实验和结果在对抗性示例的实验中，我们从ILSVRC 2012验证图像集中随机抽取了1,000张图像，并通过预先训练的ResNet 50[18] 分类器这揭示了前1名的基线准确度为56.0%，前5名的准确度为79.3%。接下来，我们使用最先进的基于梯度的方法，投影梯度下降[29]来攻击图像。由此产生的 top-1 和 top-5 精度分别下降到 9.5% 和17.7%。对于对抗性防御比较，我们使用ART工具箱中的一套方法[31]。应用于受攻击图像的作为另一个比较，我们提出了来自小细胞生物启发视网膜模型的结果[19]。该模型的设计灵感来自于生物学，可以进行纹理分析并增强细节，对输入图像的亮度范围具有鲁棒性。定量结果见表1，定性结果见图7。不显著改变输入图像的方法（如q=75的JPG压缩）保持高精度，但实际上不提供对抗性扰动的保护。相比之下，我们的视网膜模型增强了边缘并使信号变白，而我们的稀疏编码模型则对图像进行了去噪。对于ImageNet，我们自上而下的反馈没有显著的定量效果，但定性地改变了输出。我们将在未来的研究中探索这些影响。总的来说，我们的模型在对抗性扰动方面表现最好，并且最接近于保持原始数据和攻击数据之间的准确性。4674(a) 原始（b）攻击（c）平滑（d）JPG C.（e）TVmin（f）Parvo（g）Spikes（h）SC（i）SC+Top图7：（b）受攻击图像和各种保护方法的输出的定性示例。(c)空间平滑窗口为4，（d）JPEG压缩质量为50，（e）总变差范数为1，（f）小细胞模型水平增益为0.001，（g）来自我们的视网膜模型的尖峰之和，示出了去相关和边缘增强，（h）使用我们的皮层模型稀疏编码的尖峰之和，（i）利用自上而下反馈稀疏编码的尖峰之和。方法T1 T5AT1AT5原始图像56.0 79.39.517.7Spatial Smoothing，Xu et al. [47个]平滑窗口= 3 49.7 70.9 11.6 46.7平滑窗口= 4 44.0 66.4 21.6 55.0平滑窗口= 5 37.1 59.8 23.253.6 JPEG压缩，Das et al.[第十一届]JPEG质量= 7555.879.612.451.6JPEG质量= 5049.774.210.938.0JPEG质量= 2545.970.523.560.7总变差最小化，郭ElAl.[17个]TV norm = 140.8 63.6 25.357.3TV标准= 223.6 44.6 21.041.7小细胞视网膜模型埃尔埃罗埃尔阿尔。[19个]水平增益= 0.000136.261.223.853.2水平增益= 0.00136.061.324.053.2水平增益= 0.0135.260.423.952.1我们的我thod仅限Retina型号46.868.930.262.6视网膜稀疏编码48.870.835.467.7Retina SC Topdown48.270.235.765.4表1：ILSVRC 2012验证集图像子集的前1（T1）和前5（T5）分类准确度。在用对抗性噪声攻击的同一组图像上，AT 1是top1，AT 5是top5。5. 结论在给出我们的框架、模型和结果之后，我们回到最初提出的问题：是什么让生物视觉如此强大？一些研究人员认为，媒体设备（如显示器或印刷媒体）不能以适当的保真度显示扰动，因此或者，Zhou等人[48]提出，人的视觉敏锐度、分辨率和对对比度的敏感度存在生理限制，其根本无法与计算机图像处理的分辨率相匹配。然而，从我们的研究中，我们确信人类甚至看不到大多数对抗性的扰动。这并不是说我们看到了它，却以某种方式忽略了它，而是相反，它可能甚至没有到达皮层。视网膜在空间和时间上对世界进行采样，在细胞反应中表现出固有的随机性，并转换为最佳尖峰代码。即使干扰到达皮层，大脑的稀疏性和生成特性也会填充并消除信号，同时受到横向和自上而下的反馈的调制。我们还得出结论，反馈是人类感知的基础。侧抑制开始于视网膜的早期阶段，自上而下的反馈存在于LGN和皮层的任何地方，但在机器学习模型中经常被忽略。我们的工作开始触及层次模型中抑制性和兴奋性反馈效应的表面，但需要更多的研究。总之，我们创建了一个生物启发的模型，该模型从由人工视网膜模型处理的数字图像开始。视网膜产生一个嘈杂的尖峰序列，该尖峰序列被速率编码并中继到包含横向和自上而下反馈的初级视觉皮层通过这个编码过程，我们证明了所产生的输出本质上不受对抗性示例的影响，我们从生物学和数学上解释了这一结果。最终，这项工作的目标不是成为对抗性攻击的全面的新防御，而是强调对生物启发的视觉模型进行更多研究的好处和必要性。6. 确认本材料基于国家科学基金会在批准号：1954364.4675引用[1] 约瑟夫·J·阿提克和诺曼·雷德利奇。视网膜对自然景物了解多少神经计算，4（2）：196[2] 罗兰·巴德利。视觉感知-v1中的有效代码。自然，381（6583）：560[3] 劳伦·巴霍特。视觉：全局感知上下文变化局部对比度处理更新，包括计算机视觉技术。Scholars[4] VictorJBarranca ， GregorKovacic ， DouglasZhou ，andDavid Cai.感觉系统中的稀疏性和压缩编码。PLoScomputational biology，10（8）：e1003793，2014.[5] Eric B Baum，John Moody，Frank Wilczek。联想记忆的内部表示Biological Cybernetics，59（4-5）：217[6] 艾尔·桑德尔·伯努瓦，爱丽丝·卡普利，巴特·赫利·迪雷特，还有让·尼·赫罗。使用人类视觉系统建模用于生物启发的低级图像处理。计算机视觉和图像理解，114（7）：758[7] 科林·布莱克摩尔，罗杰·HS·卡彭特，还有马克·A·乔治的儿子.人类视觉系统中方向检测器之间的侧抑制。Nature，228（5266）：37[8] 科林·布莱克摩尔和伊丽莎白·托宾。猫视皮层中方位探测器之间的侧抑制。实验脑研究，15（4）：439[9] Javier Cudeiro和Adam M Sillito。回头看：皮层-丘脑反馈和早期视觉加工。神经科学趋势，29（6）：298[10] 我是齐格勒我是温克尔。知觉中的无意识记忆表征：大脑的过程和机制，第78卷。John Benjamins Publishing，2010.[11] Nilaksh Das，Madhuri Shanbhogue，Shang-Tse Chen，Fred Hohman，Li Chen，Michael E Kounavis，and DuenHorng Chau.把坏人挡在外面：使用jpeg压缩保护和接种深度学习。arXiv预印本arXiv：1705.02900，2017。[12] Guneet S Dhillon，Kamyar Azizzadenesheli，Zachary CLipton ， Jeremy Bernstein ， Jean Kossaifi ， AranKhanna，and Anima Anandkumar.用于鲁棒对抗防御的随机激活修剪。 arXiv 预印本 arXiv ： 1803.01442 ，2018。[13] Eric McVoy Dodds，Jesse Alexander Livezey和MichaelRobert DeWeese。视网膜中的空间白化对于v1学习自然场景的稀疏表示可能是必要的。BioRxiv，第776799页，2019年。[14] Gamaleldin Elsayed 、Shreya Shankar、Brian Cheung、Nico- las Papernot、Alexey Kurakin、Ian Goodfellow和Jascha Sohl-Dickstein。对抗性的例子，欺骗了计算机视觉和时间有限的人类。神经信息处理系统的进展，第3910-3920页，2018年[15] 彼得·福迪亚克。灵长类大脑皮层的稀疏编码。脑理论与神经网络手册，2003年。[16] Katrin Franke ， Philipp Berens ， Timm Schubert ，Matthias Bethge，Thomas Euler，and Tom Baden.抑制性装饰与内层视网膜的视觉特征表征相关。自然，542（7642）：439，2017.[17] Chuan Guo ， Mayank Rana ， Moustapha Cisse ， andLaurens Van Der Maaten.使用输入变换对抗性图像。arXiv预印本arXiv：1711.00117，2017。[18] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[19] 让·尼·埃罗。图像、信号和神经网络：视觉感知中的神经处理模型.世界科学，2010年。[20] 约翰·J·霍普菲尔德具有分级反应的神经元具有与双态神经元类似的集体计算性质。美国国家科学院院刊，81（10）：3088[21] David H Hubel和Torsten N Wiesel。猫视觉皮层的感受野、双眼互动与功能架构。生理学杂志，160（1）：106-154，1962。[22] Guy Isely，Christopher Hillar，and Fritz Sommer.解密二次采样数据：自适应压缩采样作为大脑通信的原理。神经信息处理系统，第910-918页，2010年[23] 杰森·乔和约书亚·本吉奥测量cnns学习表面统计规律的倾向。arXiv预印本arXiv：1711.11561，2017。[24] Hulus i Kaf aligonul，Bruno G Breitme yer，andHalukOügBermen.视觉中的前馈和反馈过程。心理学前沿，2015年6月。[25] Garrett T Kenyon、Bartlett Moore、Janelle Jeffs、Kate SDen- ning 、 Greg J Stephens 、 Bryan J Travis 、 John SGeorge、James Theiler和David W Marshak。视网膜神经节细胞高频振荡电位模型。视觉神经科学，20（5）：465[26] 爱德华·金达里尔·汉南加勒特·凯尼恩不变多模态halleberry神经元的深度稀疏编码。在IEEE计算机视觉和模式识别会议论文集，第1111-1120页[27] 爱德华·金、埃德加·劳森、基思·沙利文和加勒特·凯尼恩。使用深度稀疏编码进行预测的时空序列存储器。在第七届年度神经启发计算元素研讨会论文集，第1-7页[28] Edward Kim，Jessica Yarnall，Priya Shah，and Garrett TKenyon. 一种神经形态稀疏编码防御对抗性图像。在神经形态系统国际会议论文集，第12页。ACM，2019年。[29] Aleksander Madry 、 Aleksandar Makelov 、 LudwigSchmidt、Dimitris Tsipras和Adrian Vladu。迈向抵抗对抗性攻击的深度学习模型。 arXiv 预印本 arXiv ：1706.06083，2017。[30] Lars Muckli和Lucy S Petro。网络互动：v1的非膝状体输入。Current Opinion in Neurobiology，23（2）：195[31] Maria-Irina Nicolae、Mathieu Sinn、Minh Ngoc Tran、Beat Buesser 、 Ambrish Rawat 、 Martin Wistuba 、Valentina Zant-edeschi 、 Nathalie Baracaldo 、 BryantChen、Heiko Ludwig、Ian Molloy和Ben Edwards。对抗鲁棒性工具箱v1.0.1. CoRR，1807.01069，2018。4676[32] Aude Oliva，Antonio Torralba，and Philippe G Schyns.混合图像。ACM Transactions on Graphics（TOG），25（3）：527[33] Bruno A Olshausen和David J Field。使用过完备基集的稀疏编码：V1采用的策略？视觉研究，37（23）：3311[34] Bruno A Olshausen和David J Field。我们离理解v1还有多远？神经计算，17（8）：1665-1699，2005。[35] Kuntal Kumar和KS Sudeep。基于卷积神经网络的图像分类在2016年IEEE国际会议上，电子学、信息通信技术（RTE-ICT）的最新趋势，第1778-1781页IEEE，2016.[36] 冈瑟·帕姆。神经联想记忆和稀疏编码。神经网络，37：165[37] Lucy S Petro，Luca Vizioli和Lars Muckli。皮层反馈对初级视皮层感觉加工的贡献。心理学前沿，2014年5月。[38] Albert R Powers III，Megan Kelley和Philip R Corlett。幻觉是对知觉的自上而下的影响。生物精神病学：Cognitive Neuroscience and Neuroimaging，1（5）：393-400，2016。[39] 海蒂·罗巴克，帕特里克·伯克，郭昆。初级视皮层横向和反馈联系在时空规律性加工中的作用。神经科学，263：231[40] Christopher Rozell，Don Johnson，Richard Baraniuk和Bruno Olshausen。稀疏近似的局部竞争算法图像处理，2007年。ICIP 2007。IEEE国际会议，第4卷，第IV-169页。IEEE，2007年。[41] Peter H Schiller，Julie H Sandell和John HR Maunsell。视觉系统的开关通道的功能。Nature，322（6082）：824[42]

下载后可阅读完整内容，剩余1页未读，立即下载