没有合适的资源?快使用搜索试试~ 我知道了~
9651通过在哈希空间肖艳茹Old DominionUniversity Norfolk,VAyxiao002@odu.edu王聪Old DominionUniversity Norfolk,VAc1wang@odu.edu孟菲斯大学田纳西州孟菲斯xgao1@memphis.edu摘要随着视觉内容的快速增长,深度学习哈希算法在图像检索领域越来越受欢迎。虽然它极大地提高了搜索效率,但当网络上的图像被大规模检索并被用作个人信息的富矿时,隐私也处于危险之中。攻击者可以通过从目标类别中查询任何可用模型的相似图像来提取私有图像。基于图像处理的现有方法以牺牲视觉质量为代价来保护隐私在本文中,我们提出了一种基于对抗性示例的新机制,在保持感知相似性的同时将私人图像“隐藏”在深度哈希空间中。我们首先发现,一个简单的方法的汉明距离最大化是不强大的暴力对手。然后,我们开发了一个新的损失函数,最大化的汉明距离,不仅原来的类别,但也从所有的类,划分成各种大小的集群的中心。实验结果表明,该防御方法可以使攻击者的攻击强度提高我们还展示了30-60%的可转移性在哈希空间与黑盒设置。该代码可从以下网址获得:https://github.com/sugarruy/hashstash1. 介绍一幅画胜过千言万语。大规模图像和视频集合的快速增长使得基于内容的图像检索成为可能。Google[1]、Pinterest [2]、Bing [3]和TinEye [4]。在深度学习的支持下,它们越来越多地内置于社交网络[5],电子商务[6,7](例如,来自淘宝的Pailitao [8])和时尚设计[9],以从视觉查询中捕获语义相似性社交媒体,电子商务网站,甚至用户例如,每天有100 M照片和视频上 传 到 Instagram [10]; 超 过1G 的 产 品在 Ebay上 上 市[11]。谷歌还声称,查询和上传的图片可以保存7天* 通讯作者:Cong Wang,c1wang@odu.edu并将其用于进一步分析[12]。虽然法律(如GDPR [13])对个人数据的使用施加了限制,但由于视觉内容的爆炸式增长,所有权的定义仍然模糊,从图像中可以了解什么和不能了解什么之间的法律界限也很薄弱。此外,用户资源丰富的视觉内容可以以任意的方式被利用例如,Facebook已经申请了一项基于图像数据预测家庭人口统计的新应用程序[19]。虽然这些应用程序提高了搜索效率和产品供应,但它们也损害了用户隐私,使大规模的隐私践踏变得更加容易。这些问题超越了社交媒体和搜索引擎:具有基于内容的图像检索的任何平台都具有相同的隐私泄露风险。不幸的是,只要这些平台在立法的灰色地带步履蹒跚,它们实施隐私保障的动力就不大用户总是要保护自己的隐私。以前的方法利用图像处理,如模糊,变暗和遮挡,以逃避人脸识别[20]或解除好友标签[21],牺牲了视觉质量下降。另一项工作是通过可识别的标签建立尊重隐私的协议[22,23],因此任何佩戴隐私标签的人都被排除在图像之外。这些系统的成功依赖于在用户和平台之间建立复杂的、可信的协议,这需要双方的承诺。这些技术在深度学习的眼中可能是脆弱的,深度学习仍然可以从本地描述符中提取有用的信息。最先进的图像检索采用深度哈希进行有效的相似性搜索[24它在训练过程中将数据库中的图像量化为低维二元码,计算查询图像的汉明距离经过良好训练的模型将返回具有高相似性的图像(通常来自同一类别)。具有一些分类信息,例如,从目标类别中收集一些图像,一个广告-9652网络浏览器可以查询数据库并检索所有的图像,包括那些私人的。因此,为了避免检索,隐私保护需要打开深度哈希的盒子,同时保持感知相似性。在本文中,我们的目标是通过引入一个小的,精心制作的扰动原始图像,以最大限度地减少机会的在[29-32]中研究- 可以添加对人眼不明显的扰动原则上,深度哈希应该通过设计继承这些漏洞。最近的一项工作表明,在哈希空间中最大化原始图像的汉明距离可以使系统返回一个与查询无关的图像,可以直接利用该图像来保护隐私图像。然而,通过实施这一战略,我们发现它只能抵御弱小的对手,他们只会利用原有的美食。强大的对手在现实中更常见;它们可以列举所有类别并以蛮力暴露私有图像。为了解决这个问题,我们提出了一种新的基于聚类的加权距离最大化算法,该算法可以将哈希码转换到远离所有类别的子空间中。主要贡献概述如下。首先,我们建议利用对抗性技术来保护隐私,并确定现有方法对强大对手的局限性。其次,我们开发了一种新的机制来隐藏样本到哈希空间,最大限度地提高汉明距离的所有类,同时保持感知相似性。最后,我们在各种数据集上进行了实验,并证明与[33]相比,所提出的机制成功地将攻击力度提高了1-3个数量级,同时实现了最小的感知差异。我们表明,30-60%的受保护的图像可以成功地转移到一个未知的模型在黑盒设置。本文的其余部分组织如下。第二节介绍相关工作。第3节通过定义威胁模型和识别现有方法的局限性来激励本第4节提出了一种新的防御强大的对手。第5节评估了拟议的机制,第6节总结了这项工作。2. 背景及相关作品2.1. 深度图像检索传统的图像检索工作在手工制作的视觉描述符的向量上[34,35],随后是投影和量化的单独过程,以将特征向量编码为二进制代码。在深度学习成功的推动下,新的深度图像检索能够从端到端学习成对相似性[24它将高维实值输入转换为二进制哈希码,通过计算汉明距离有效地进行相似性搜索。这些系统通常由数据库和模型组成。数据库包含一个有限的图像集作为检索结果;该模型接受查询并返回检索到的图像。目标是学习一个非线性哈希函数,将输入x→h(x)∈ {−1,+1}m映射成m位二进制码。 一m的典型范围在16至128之间,这取决于申请要求,这是小于原-最终图像尺寸。除了卷积层和密集连接层之外,还为二值化过程引入了哈希层,以减轻量化误差。它通过符号函数sgn(z)将连续表示z转换为离散散列码。由于符号函数由于非光滑性而与反向传播不兼容,因此关键是建立一个连续逼近的函数。例如,HashNet [26]采用双曲正切函数sgn(z)=limβ→∞tanh(βz)。通过在学习过程中调整尺度参数β,该函数当β→ ∞时,趋于符号函数。类似于浮点格式的深层特征,哈希将相似的图像集中到一个汉明球中。系统通常会...细化检索阈值,使得具有较小汉明距离的任何图像将作为查询结果返回。我们参考调查[28]了解更多细节。2.2. 对抗样本与它们的超人能力相比,神经网络非常容易受到小扰动的影响,其中故意制作的扰动添加到输入中可以使系统在运行时行为不端[29-32]。 一种有效的方法是快速梯度符号法[30]。 它在梯度方向上需要一个大的步骤来最大化损失函数,通过找到一个具有小的加性噪声的扰动图像x ′,使得f(x′)f(x)。x′=x+ε·sgn ( εxL ( θ , x , y ) ) ,(1)其中L( ·)是损失函数。θ是模型参数r。 是梯度。x是数据,y是真实标签。该方法不作一步梯度上升,而是作了推广在[31]中作为基本的迭代方法来应用(1)多次并在约束内剪切图像。实验表明,这些对抗性示例不仅可以2.3. 隐私保护以前保护在线隐私的努力主要集中在网络分析[14,15],移动广告[16,17]和行为跟踪[38,39]。为了平衡隐私和实用性,一种流行的方法是通过差分隐私,该差分隐私将噪声引入到答案中,使得服务提供商无法检测到用户的存在或不存在。尽管这些机制提供了基于统计学的可证明的基础,但是它们并不专门用于保护单个记录的推断随着基于深度学习的搜索方法的广泛采用,隐私问题越来越受到关注。只有9653′M2很少有作品利用对抗性示例来保护隐私。在[40]中,开发了一种基于对抗性示例的策略来禁用对象检测,因此它无法首先识别对象一种敌对#地点:巴黎,艾菲尔铁塔#人:爱丽丝与3个朋友#时间:晚上#对象:休闲服装,品牌手袋3哈希码:(1001011.0101101)[33]中还开发了一种技术来破坏语义关系并使检索系统返回不相关的图像。我们的工作扩展到[33]对付强大和适应性强的对手。6用户:Alice1上传图像4匹配(地点)2图像数据库3. 动机广告商(对手)5检索本节通过定义威胁模型并研究[33]中的防御机制来激发研究3.1. 威胁模型Alice餐厅推广近eiffel塔(4人)社交平台我们首先提出的情况和假设,在本文中。社交网络和搜索引擎等平台通常会收集用户信息,包括个人资料、电子邮件、IP地址,最重要的是图片。该平台部署了一个深度图像检索系统,如HashNet-ResNet 50[26],以匹配视觉查询中的图像内容,用于营销目的。为了盈利,该平台还为第三方广告商或数据经纪人开放了一个接口(通过称他们为对手来升级)[2,4],他们可以从数据库中匹配和检索类似的图像,图 1 : 攻 击 流 程 示 意 图 : 用 户 上 传 照 片 到 社 交 平台;Shame平台将照片添加到数据库中,生成散列码;Shame广告商通过相同的查询来匹配图像; Shame广告商利用来自图像的位置隐私并将附近的促销推送到用户的移动设备上(即使她在她的电话上禁用了位置访问)。m位散列码的输出[41],D(x,x′)=1(m-h(x)h(x′)),h(x)∈{1,−1}1×m准确的广告[38,39]。由于该服务是额定每小时2查询时,平台不对数量施加任何限制-我(二)但是对手有固定的预算。用户(防御者)无法控制隐私策略,因此,他们引入扰动来防止个人图像作为检索结果返回。流程图如图1所示。为了最大限度地提高检索质量,对手收集数据集(攻击集),以类似于数据库。类似地,其中,对于HashNet,i∈[1,m]并且m=48比特。ResNet50架构。 目标是调整x′,使得汉明距离最大化,maxx′L(x,x)=-1h(x)h(x′)ε。这个问题可以重写成一个最小二乘风格的最小化函数[33,41],并将负哈希码移位+1到{0,2}。X-约束保持x和x′之间的感知相似性。用户还收集数据集以促进扰动的生成我们假设两个数据集与训练集是独立同分布的。为minLh(x′,x)=x′mh( x)h( x′)+1000000,(3)简单,在本文中,它是通过从测试集中随机选择来实现的。作为哈希空间中的第一个概念证明,我们假设用户对模型(白盒)有完整的了解[32,33],包括类别,结构,参数,哈希机制和损失函数的信息。然后,我们证明了存在的黑盒可转移性的建议机制在哈希空间,当用户估计的模型结构和参数在最大的努力。3.2. Hamming距离最大化作为一种防御[33]的工作通过对抗性示例欺骗了基于哈希的图像检索系统,这也可以作为一种隐私保护技术。目标是最大化扰动图像和原始图像之间的距离,使得汉明距离超过该类别的检索阈值更正式地说,它通过最大化它们的汉明距离将x变换为x′Dh(x,x′). Dh(x,x′)可以从内积推导出来。S.T. |。|<ǫ.(四)虽然有效的针对琐碎的查询在受保护的图像的原始类别,防御是脆弱的,当对手枚举通过其余类别,并通过暴力提取受保护的图像。这是因为简单地最大化与原始图像的汉明距离可能会无意中将扰动图像推图2可视化了MNIST数据集上t-SNE中的此类情况。可以看出,简单地将私有图像隐藏到一些不相关类别的子空间中仍然容易受到更强大和适应性更强的对手的影响。为了获得更多的见解,我们在图中给出了基于MNIST [42]和CI-FAR 10 [43]的一些初步结果。3.第三章。3.3. 主要意见攻击者可以通过枚举整个攻击集来暴露所有私有图像。由于对手是有限的,他想尽量减少这种努力。因此,在本发明中,私人信息19654观察3. 当类别特征在汉明空间中的分散度越大时,受保护图像越容易落入某些样本的检索阈值。在Fig. 3,因为CIFAR10的类内多样性更高,所以对CIFAR10的攻击需要比MNIST更少的努力。这使得使用汉明距离最大化的防御在现实世界中是脆弱的,其中数据具有复杂和高的类内/类间多样性。从这些观察中我们可以看出,防御正在挑战强大的敌人。与原始类别的朴素最大化不同,优化应在窄子空间内进行引导,以避免:1)从原始类别中暴露出来;2)通过查询其余类别提取; 3)降低视觉质量。为了满足这些要求,我们在下一节中提出了一个新的机制。图2:从MNIST学习的哈希码的t-SNE可视化:汉明距离最大化(意外地)将私有图像驱动到无关类别。当每次从攻击集合中查询一个随机图像时,我们评估用于提取私有图像的广告的平均查询次数如果一个私有图像被映射到大小为N的攻击集中的n个图像的附近,则恢复该图像的概率为n/N。预期查询数为N/n。图3显示了针对强大攻击者的预期查询数量以及生成精心制作的扰动的迭代方面的防御工作[33]。根据最佳的F-1得分和精度来选择检索阈值Th4. 基于聚类的加权距离最大化我们提出了一种新的机制,称为基于聚类的加权距离最大化。该想法与中心损失[44]平行,其旨在增强类间特征的区分度,并将类内特征拉向其中心以进行更好的分类。然而,在这里为了解释类内变异,我们用几个中心代表每个类,而不是一个中心[44]。到中心的汉明距离也表现出不同类别的异质分布。对于某些类别,样本可能在中心周围具有高密度,而对于其他类别,样本可能在中心周围具有高密度。105104103102101100需要利用私有imgMNIST,Th =10MNIST,Th =16CIFAR 10,Th=8 CIFAR 10,Th =15国防预算(迭代与(海明区)50403020100可以更均匀地分散。 因此,优化应该是了解类内分布及其到中心的汉明距离;否则,受保护的图像可能落入高密度区域,其中所有样本具有相似的散列码。攻击者可以很容易地利用这些区域来检索私有图像。我们的机制。 为了解决类内变化,我们进一步通过聚类方法划分哈希码。为20 25 30 35 40 45 50平均汉明距离D(x,x ')0 20 40 60 80 100迭代次数散列代码集{h(x)},我们重新组织它们hii=1,···,N(一)(b)第(1)款分成k个不同的聚类Ci,1≤i≤k。存在-使用聚类技术,如k均值[45]和密度,图3:对[33]的暴力攻击作为防御(a)用于提取私有图像的查询的预期数量;(b)国防预算(#次迭代)。观察1. 随着x和x ′之间汉明距离的增加,攻击力呈抛物线状增加。然而,一个强大的对手仍然可以提取私人图像在100查询的大多数汉明距离。观察2. 平均汉明距离在一定次数的迭代之后难以进一步最大化。例如,如图3(b)所示,在MNIST和CIFAR10上进行100次迭代后,其平均值在40和35左右饱和,从而为m = 48的总散列位留下较大的间隙。基于DBSCAN [46]可以采用(它们的优缺点将在第二节中进行比较。5.1)。在发现簇后,我们开发了一个加权损失函数来表征簇内汉明距离分布。目标是将x'推离聚类中心,使得使用x'的查询返回的样本数量最小化。由于汉明距离是对称的,这相当于我们的初衷,即最大-最小化Dh(x,x′),所以当attac ker从C i查询一个ny图像x时,查询不返回x ′。 Define Fi(d) as the cumulativedistribution of the number of samples with距中心c的距离d 对于总数为k个簇,MNISTCIFAR10查询次数汉明距离(平均值)96552βi2βi220015010050近似距离分布(聚类#6)近似距离分布(聚类#13)70605040302010回归证明了由以下特性概括的经验优势。物业1.二次函数的凸性有利于损失函数的收敛。虽然双曲正切函数和指数函数都更好地拟合分布(对于tanh几乎完美),但它们在训练过程中并不稳定。00 5 10 15 20 2530到聚类中心的(一)00 5 10 15 20 2530到聚类中心的(b)第(1)款对于tanh,大多数聚类的梯度为零,损失函数无法收敛。我们推测失败是由于原始的距离分布图4:集群内sam的最小二乘近似在CIFAR 10上使用双曲正切函数、指数函数和二次函数的多分布和k-均值聚类(a)第6组;(b)第13组。新的目标最小化新的损失函数Lc,具有靠近聚类中心的高浓度样本和梯度几乎等于零的平坦长尾。由于tanh函数完美地拟合了这种分布,因此平尾导致梯度消失,并且没有来自反向传播的后续对于指数函数,当d很小时,它倾向于过拟合(以很小的距离在聚类中心周围我们的测试表明,当minLc(x′)=x′Σki=1.1Fi2′ ⊤Σ2(m-h(x)h(ci))<$2,(5)d→0,Fi(d)→ ∞,这给反向传播过程带来了不稳定性.财产二、表示 的 二次 参数(βi,βi,βi),1≤k≤k,最大汉明距离为-S.T. |。|<ǫ.(六)0 1 2对圆心(半径)的距离为,ri=maxDh(x,ci),x∈Ci。其中h(ci)是第i个聚类中心ci,m的散列码是总哈希位(m=48)。βi如果-10 >ri+Th x映射到x′′使得Lc为优化. 将x′的初始图像设为x,x′可以迭代方式更新,x′= clip。x′+n·nL(θ,h(x′),{h(c)}k)n(7)最小化,保证x 不会被退回,查询结果。βi在图4(a)中,-1是对应于最小距离的距离。0x,x,c我i=1二次函数的最大值,这是最优的。损失函数的梯度可以计算为,目标。如果它大于检索阈值和半径之和,则使用聚类中的任何样本将吉尔·格奥尔格C.′Fi(D(x′,ci))<$D(x′,ci)无法获取x'。 这一情况适用于大多数俱乐部。h(x′)=i=1 2Fi Dh(x,ci)Hdh(x′,ci).ΣHn(x′)这是因为样品往往集中在高密度好吧=−i=1FifiDh(x′,ci)Dh(x,ci)<$Dh(x′,ci)h(ci)。(八)围绕中心。对于其余的集群,如图4(b),虽然优化能够达到最小值(大约30汉明距离),但它必须平衡为了使用基于梯度的优化,Fi(·)应该是不同的。可引用函数我们学习每个聚类1≤i≤k的最小二乘回归,基于到中心的汉明距离j(j∈[1,30])和样本数yj,Σm也受到其他集群的影响。 即最大化到单个簇的距离可能意外地将受保护的图像推到其它簇的附近。我们的损失函数的设计方式,以减轻这种影响的基础上的集群分布。Fi=argminFij=1<$F i(d j)− y j<$2。(九)5. 评价评估的主要目标是调查:1)效果-这些参数可以通过封闭形式的解导出β=(dTd)−1dTy。原始TanhExp二次最小值:-1/20Th原始TanhExp二次数据样本数据样本9656为了检验回归的有效性,我们绘制了图4中CIFAR10的d和y之间的关系(显示为“原始”)。在大多数情况下,图像集中在聚类中心周围(图4(a))。也有一些集群的样本更分散(图4(b))。为了使平方误差最小化,采用高阶多项式以更好地表征是诱人对于训练稳定性,我们采用二次回归,并与图1中的双曲正切和指数非线性回归进行了比较。4.二次拟议机制在白箱和黑箱情况下的有效性;(2)国防预算的计算; 3)与原始图像的感知相似性。数据集。我们在四个数据集上进行实验:CIFAR 10[43],Fashion-MNIST [47],ImageNet [48]和Places 365[49]。Places365模拟了从位置相似性中利用隐私的场景。 在[26]之后,我们随机选择ImageNet和Places365的10%类别。实施详情。我们火车HashNet-ResNet 50用于CIFAR 10/Fashion , HashNet-ResNet 152 用 于 Ima-geNet/Places 365。我们随机选择了500张图片,9657′105弱粘附,Th(最佳f-1评分)104强附着力,Th(最佳f-1评分)108弱粘附,Th(最佳精密度)108强粘附性,Th(最佳精度)104103106106102102101104102104102100CIFAR10时尚ImageNet地方(一)100CIFAR10时尚ImageNet地方(b)第(1)款100CIFAR10时尚ImageNet地方(c)第(1)款100CIFAR10时尚ImageNet地方(d)其他事项图5:暴露具有强和弱对手的私有图像的预期查询数量(较大表示更高的鲁棒性)(b)强劲对手(f-1得分最高的T h);(c)弱对手(具有最佳精度的Th);(d)强对手(精确度最高的T h)。测试集作为要保护的私有映像,并使用测试集的其余部分作为攻击集。当四个数据集分别达到最佳F-1得分(Th=15,16,12,10)和最佳精度(Th=8,6,8,8)时,选择检索阈值Th基线。我们将我们的机制与基线的组合进行比较:无防御和汉明距离最大化[33]对抗弱对手和强对手。弱的对手有一些关于私有图像的知识,所以他只查询原始类别。强大的对手列举了所有类别的整个测试集。指标. 基于威胁模型,攻击者随机地从攻击集中挑选图像以暴露私有图像。基于以下指标对机制进行了全面评估:1)弱对手的预期查询次数Ew,攻击图像E w=.平均# img检索(同类)2)强对手E的预期查询数,攻击图像E s=.avg # img检索(所有类)这些指标量化了攻击者的努力3)使用唯一的NvidiaGTX 1070 GPU在迭代次数和计算时间方面的防御工作4)两种方法在x和x之间的知觉差异,a)均方误差,MSE=(x′−xi)2/N,其中xi,x′这是因为CWDM发现的哈希码距离原始图像并不像HDM那么结果表明,对于强大的对手,CWDM比HDM有效地增强了1-3个数量级的攻击努力,比“无防御”有效地增强了2-7个数量级例如,为了获得最佳精度,平均需要1.1M、58M、0.77M和20K在实践中,攻击者可能并不确切知道私有图像来自哪个类别,因此可行的方法是探索所有可能的类别。在这种情况下,CWDM成功地扩大了攻击力度。聚类技术。我们评估了图6中k均值[45]和DBSCAN [46]之间的聚类技术的影响。对于k均值,我们将CIFAR10/Fashion的聚类数k从15增加到30,ImageNet的聚类数k从150增加到300,Places 365的聚类数k从54增加到108;对于DBSCAN,我们将EPS(两个样本之间的最大距离)从0增加到0。五比三五、随着k值的增大,k-均值算法倾向于产生更紧凑的簇,簇内距离更小,这导致了对强大对手的更高鲁棒性的总体趋势DBSCAN对分 布 密 度 和 EPS 值 ( 例 如 , 当 eps = 2 时 的 浪 涌 。(五)。k-means提供了更好的可预测性,比DBSCAN性能几乎一个数量级。主要原因是DBSCAN将距离大于EPS的样本明确归类为离群值; CWDM不考虑这些离群值,我我我是原始和受保护的归一化像素值图像,N是图像的维数; b)结构相似性指数,其捕获结构相似性以模仿人类视觉[50]。5.1. 攻击努力图 5 比 较 了 基 于 聚 类 的 加 权 汉 明 距 离 最 大 化(CWDM)与汉明距离最大化(HDM)[33]和无防御基线的攻击努力。我们可以看到,在对于弱对手,我们的机制CWDM稍差或与HDM相当优化,从而留下一些风险,如果攻击相同,Ple与异常值相同。Places 365是一个例外,其中所选类别的学习散列代码比ImageNet更集中,离群值更少。这使得DBSCAN比Places 365上的k-均值更好。5.2. 防务努力防御努力是通过在哈希空间中找到对抗性示例的难度来衡量的。HDM只关注原始类别,因此通常应该更容易优化(如图3(b)所示,需要大约20次迭代才能达到平衡另一方面,CWDM平衡了所有类别分布的影响,二次回归引入了额外的分量。无防御HDMCWDM无防御HDMCWDM无防御HDMCWDM无防御HDMCWDM预期质询次数(对数标尺)预期质询次数(对数标尺)预期质询次数(对数标尺)预期质询次数(对数标尺)9658聚类对攻击努力的影响(K-means)104106集群对攻击努力的影响(DBSCAN)2UiJ iQDO,PDJH3HUWXUEHG,PDJH(+D0)第二HUHQFHWR2UiJiQDO(+D0)3HUWXUEHG,PDJH(:D0)第二HUHQFHWR2UiJiQDO(:D0)103104102102(15 150,54)(20,200,72)(25,250,90)(30,300,108)k(CIFAR/FASHION、IMAGENET、PLACES)(一)100Eps=0.5Eps=1.5Eps=2.5 Eps=3.5(b)第(1)款图6:集群技术对攻击努力(a)k-均值;(b)DBSCAN.(一)(b)第(1)款图8:使用HDM,CWDM的扰动图像及其与原始图像的归一化差异。图7:国防预算(收敛)-汉明DIS-A从受保护的图像到不同类别(a)C1-MSE(per pixel10−5)SSIM([0,1])FAR10;(b)ImageNet。HDMCWDMHDMCWDMCIFAR103.40712.00220.89710.9751分摊费用。图7追踪了火腿的收敛时尚2.91072.07570.80380.8907到原始类的最小距离,平均值和最小值ImageNet3.09573.22440.96140.9611距离所有班级。 据观察,CWDM快速Places3652.34703.00310.97210.9628扩大了与原始类的距离,检索阈值(防止从弱广告检索saries)。 它的收敛速度比原来的类慢一点这就解释了为什么来自不相关类的一些样本仍然可以落入检索阈值,并导致强大对手的成功。总的来说,“平均距离”总结了来自所有类的收敛,并且达到大于检索阈值的值,因此大多数查询对于受保护的图像不应返回结果。在计算上,使用Nvidia GTX 1070 GPU,一张图像大约需要4秒,100次迭代,这在实际应用中非常实用。一种加速策略是提高学习率,但代价是降低了生成受保护图像的成功率。5.3. 使用性扰动伪影。我们将引入私有图像的扰动量与图中的8.为了清晰地显示噪声,我们将其值放大四倍,并将0。5提升,以抵消任何负面的对抗价值。我们可以看到,CWDM的噪声为了量化细微差别,我们进一步评估表1中原始图像的平均MSE和SSIM。所以,MSE是AV-表1:通过MSE和SSIM每像素值除以224×224×3。SSIM落在[0,1]的范围内,其中1表示图像与原始图像相同,并且较小的值表示距离。扭曲更高。对于CWDM,MSE比CIFAR 10/Fashion的HDM低37%,SSIM与原始图像几乎相同,得分超过0。平均9岁。这是因为最大化汉明距离的目标将使受保护图像进一步远离散列空间中的原始样本,而CWDM更适度地寻找距离决策边界(检索阈值)不远的子空间。ImageNet/Places 365的噪声略高,因为更分散的样本和聚类使得更难找到要隐藏的子空间,从而需要加强扰动。幸运的是,通过SSIM(最后两列)测量,加性噪声并不显著。分类任务。社交平台还提供自动照片分类、对象和文本识别等这些任务通常采用不同的损失函数(例如,softmax)。由于扰动是全局应用的,我们表明它们不会转移到正常的特征空间,并误导softmax分类。 表2展示了将CWDM样本应用于原始模型时分类任务的准确性损失。第一CIFAR10时尚影像网站365CIFAR10时尚影像网站365CWDM汉明距离(CIFAR10)CWDM汉明距离(ImageNet)302525202015151010Dist.回到原来的班级平均分布到所有的类Min dist.于所有各类Dist.回到原来的班级平均分布于所有各类民区于所有各类55020406080100020406080100迭代次数迭代次数预期质询次数(对数标尺)预期质询次数(对数标尺)汉明距离汉明距离9659原始对抗(CWDM))HashNetSoftmaxHashNetSoftmaxCIFAR100.8700.9040.0970.831时尚0.8960.9360.1910.934ImageNet0.8820.9080.0080.817Places3650.8620.8530.1430.731表2:分类任务的潜在准确性损失评估两列分别是原始检索准确性和softmax 分类的基线( ImageNet 的 100 个 随 机 类 别 ) 。 第 三 列 显 示 了CWDM的有效性,它将检索精度降低到20%以下。当受保护的图像应用于softmax分类时(第四列),结果不会导致显著的准确性损失(与第二列相比)。有趣的是,尽管散列空间扰动对正常特征空间有影响,但神经网络通常可以将它们视为随机噪声,因此它们的存在不应该影响其他智能应用。5.4. 黑盒防御前面的小节评估了用户完全了解服务器上模型的架构和参数(白盒)的场景。在实践中,专有模型通常对用户来说仍然是一个黑盒子,使得他们只能对目标模型进行最佳猜测。经验证据表明,对抗性扰动可以在正常特征空间中跨模型转移[36,37]。在这里,我们展示了我们的机制在哈希空间中的可转移性。我们修复目标模型(服务器端),并使用不同的源模型(用户端)生成受保护的图像。由于源模型和目标模型通常具有不同的决策边界,因此黑盒可移植性是困难的。来自服务器端的强大对手可以进一步利用这种边界中的任何细微差别来暴露受保护的图像。因此,我们认为黑盒场景是成功的,只要存在可以被利用来提取受保护图像的少于n个样本。我们将防御成功率定义为目标模型中检索结果小于n的受保护图像的数量与受保护图像的总数之比。我们在这里设置n=100,因为它要想找到这100个目标,需要对手付出相当大的努力从50 K/60 K/100 K/36 K攻击集的年龄我们采用四个数据集上的不同架构,这是由于与原始HashNet的每一个数据集之间的差距,即,ResNet50和复杂度较低的架构在ImageNet上的准确性要低得多。因此,我们将ResNet 50和ResNet 152分别设置为CIFAR 10/Fashion和ImageNet/Places 365的目标模型,使用ResNet 18,ResNet 34和VGG 16作为CIFAR 10/Fashion的源模型,ResNet 50 , ResNet 101 和 ResNext 101 [51] 用 于ImageNet/Places 365。表3显示了转移到焦油的成功率获取模型(第2 -4栏),并以“无防御”基线作为下限( 第 5 栏 ) 对 结 果 进 行 基 准 测 试 。 对 于 CI-FAR10/Fashion,受CWDM保护的图像可以在ResNet系列中以40-60%的速率成功传输,这可能是由于类似的决策边 界 。 ImageNet/Places 365 的 可 移 植 性 也 约 为 20-40%。VGG16转移的机会较少。因此,在黑盒设置中,如果用户对目标架构做出正确的猜测,则她的图像可以基于先前的白盒实验而几乎完美地保护;如果猜测下降了一点,她仍然享有近30-50%的平均水平,这提供了相当大的改善“没有防御”(上校。(五)。ResN50系列ResN18ResN34VGG16没有def.CIFAR1044.1340.9622.399.8时尚56.9960.3251.855.8ResN152ResN50ResN101ResNext101没有def.ImageNet22.4036.4033.4013.20Places36545.0940.3630.7911.86表3:ResNet50和ResNet152的黑盒迁移到不同架构的防御成功率(%)5.5. 讨论在不知道我们的防御的情况下,攻击者努力收集类似于训练集的数据集,以提取私有的相似图像。我们的机制成功地防御这些攻击者时,他们的攻击集是i.i.d.与训练集。由于篇幅所限,我们将进行更多的实验来评估主动攻击者偏离i.i.d设置时的情况。原始HashNet的准确性也会影响防御的有效性。例如,ResNet 18 -50无法达到令人满意的准确性,无法将语义相似的图像映射到ImageNet/Places 365上相同且学习的代码更加分散,从而挤压优化空间以成功地扰动图像并防止检索。由于服务提供商通常微调他们的模型,我们希望所提出的机制是有效的生产模型具有高精度。6. 结论在本文中,我们描述了保护私人图像免受恶意深度图像检索的努力。我们首先识别和实验验证使用对抗扰动作为哈希空间中的防御的有效性。通过显示对强大的对手的弱点,我们提出了一种新的机制,找到一个替代的子空间,最大限度地提高加权汉明距离的所有类。我们评估的努力,从攻击和防御的角度来看,可用性和黑盒可移植性与广泛的实验结果。7. 确认这项工作得到了美国的部分支持。美国国家科学基金会,资助号CCF-1850045。9660引用[1] Googlehttps://www.google.com/imghp.[2] “https://www.pinterest.com/。[3] “//www.bing.com/。[4] “//www.tineye.com。[5] D. Lu、X.刘,和X。Qian,18,no. 8,pp. 1628[6] D. Shankar,S. Narumanchi,H. Ananya,P. Kompalli,andK. Chaudhury,[7] X. 吉,W.Wang,M.Zhang和Y.杨,ACM,2017,pp.1654-1662年。[8] “http://www.pailitao.com/。[9] “Deepfashion:属性预测数据集”,https://bit.ly/。[10] https://bit.ly/2wnRfJ1“Instagram by the numbers,”[11] https://bit.ly/2NzaEif“Ebay by the numbers,”[12] support.google.com/websearch/answer/1325808“Howgoogle uses the picture you search with,” https://[13] https://eugdpr.org/“Eu[14] R. Chen,中国山核桃A. Reznichenko,P. Francis和J.Gehrke,“To- wards statistical queries over distributed private userdata”,作为第9届USENIX Symposium on Net-worked SystemsDesignandImplementationNSDI12)的一部分提交,2012年,第12页。169-182[15] A. Reznichenko和P.Francis,ACM,2014年,第页。116-128[16] M. Hardt和S. Nath,ACM,2012,pp. 662-673[17] S. Nath,F. X.林湖,澳-地Ravindranath和J. Padhye,“Smartads:将上下文广告引入移动应用程序”,第11届移动系统、应用程序和服务年度国际会议论文集。ACM,2013,pp. 111-124[18] Y. Han和Y.沈,“准确的鱼叉式网络钓鱼活动在网络攻击和早期检测,”在第31届年度ACM应用计算研讨会论文集。ACM,2016,pp. 2079-2086年。[19] W. 布 洛 克 湖 Xu 和 L. Zhou , “Predicting householddemographics based on image data,”Apr. 30 2019,美国专利申请10/277,714。[20] M. J. Wilber,V. Shmatikov和S. Belongie,“我们还能避免自动人脸检测吗?”2016年IEEE IEEE,2016年,第页1-9[21] P. 伊利亚岛Polakis,E.Athanasopoulos,F.Maggi和S.约安-努恩,“面对/关闭:防止社交网络中照片的隐私泄露”,第22
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功