抵抗对抗样本:温度计编码增强神经网络的鲁棒性

2 下载量 130 浏览量 更新于2024-07-14 收藏 2MB PDF 举报
"Thermometer Encoding - One Hot Way To Resist Adversarial Examples - ICLR 2018-计算机科学" 这篇论文是在ICLR 2018会议上发表的,主要讨论了神经网络对抗性示例的问题。众所周知,神经网络容易受到对抗性示例的影响,即那些网络错误分类但与真实数据难以区分的输入。作者Jacob Buckman、Aurko Roy、Colin Raffel和Ian Goodfellow提出了一个名为“温度计编码”(Thermometer Encoding)的简单改进方法,以增强网络对这类攻击的抵抗力。 温度计编码是一种针对神经网络架构的修改,它显著提高了网络对对抗性示例的鲁棒性。该方法的核心思想是将输入数据的每个特征表示为一个“温度计”,其中每个可能的值被分配一个长度不等的热段(用二进制表示),值越大,对应的热段越长。这种编码方式使得网络在处理数据时更难以被误导,因为它增加了对抗性扰动的难度。 论文通过实验验证了温度计编码在MNIST、CIFAR-10、CIFAR-100和SVHN数据集上的效果,结果显示,使用温度计编码的模型在对抗性示例上的准确率有显著提升,且没有降低对正常数据的泛化能力。在最强的已知白盒攻击下,MNIST数据集上的准确率从93.20%提高到94.30%,CIFAR-10数据集上则从50.00%提升至79.16%。 此外,研究还探讨了采用温度计编码的网络特性,提供了证据表明,这种编码方式有助于神经网络更好地识别和抵抗对抗性示例。这可能是由于温度计编码增加了输入的稀疏性,使得网络更容易检测到异常或不自然的模式,从而提高了对潜在攻击的防御能力。 温度计编码是一种有效的增强神经网络安全性的技术,特别是在抵御对抗性攻击方面。通过改变输入数据的编码方式,它可以提高模型的鲁棒性和对异常输入的识别能力,这对于保护深度学习模型免受恶意攻击具有重要意义。