没有合适的资源?快使用搜索试试~ 我知道了~
邻域关系编码的无监督表示学习方法及其在计算机视觉任务中的应用
1基于邻域关系编码的穆罕默德·萨博鲁基础科学sabokro@ipm.ac.irMohammadKhalooeiAmirkabir理工大学khalooei@aut.ac.ir埃赫桑·阿德利斯坦福大学eadeli@cs.stanford.edu摘要在本文中,我们提出了一种新的自我监督表示学习,利用邻近关系编码(NRE)的训练数据。传统的无监督学习方法只专注于训练深度网络来理解视觉数据的原始特征,主要是能够从潜在空间重构数据。他们往往忽视了样本之间的关系,这可以作为一个重要的度量自我监督。与以往的工作不同,新的重建算法旨在保持数据流形上的局部邻域结构。因此,它对离群值不太敏感。我们将我们的NRE组件与编码器-解码器结构相结合,用于学习表示考虑局部邻域信息的样本这种区分和无监督的表示学习方案由于其独立于强烈的注释需求而适用于不同的计算机视觉任务。我们评估我们提出的方法用于不同的任务,包括分类,检测和分割的基础上学习的潜在表示。此外,我们采用了我们提出的方法的自动编码能力,结果证实,我们的方法的性能更好,或者至少与每个特定应用的最新技术相当,但具有通用和自我监督的方法。1. 介绍深度学习方法在计算机视觉中的广泛采用将其成功归功于学习强大的视觉表示[3];然而,这只能通过密集的手动标记工作来实现(这是奢侈的,不可扩展的)。因此,无监督特征学习[7,16,29,30,37,38,59,61,64]最近被广泛采用来提取数据表示,而不需要这样的标签信息。这种表示可以用于图像[26]或视频分类[23]的不同任务。无监督表示学习在图1.来自加州理工学院数据集的五个类别的一些样本(顶部),使用常规AE的潜在空间可视化(即,E(X);左),以及我们提出的对邻域关系进行编码的AE(即,Eφ(X);右)。对于同一分类器,E(X)的分类准确率为92.2%,Eφ(X)的分类准确率为97.5%。深度网络通常通过最小化重建误差来定义[34],例如在自动编码器(AE)中。AE已被证明是各种任务中无监督表示学习的重要工具,包括图像修复[43],特征排名[54],去噪[57],聚类[65],对抗性示例的防御[35]和异常检测[48,52]。尽管AE已经为数据表示带来了深远的成功,但使用重建误差作为表示学习的唯一度量标准仍有一些注意事项:(1)如[ 58 ]所述,它迫使重建输入的所有部分,即使它们与任何给定任务无关或被噪声污染;(2)它导致完全依赖于单点数据抽象的机制,即,AE学会只重建其输入,而忽略其他数据点8010E(X)Eφ(X)百分之九十二点二97.5%8011在数据集中。数据集中相邻样本之间的语义关系具有丰富的信息,可以指导学习更具代表性的特征(在当前AE设置中被忽视)。为了克服上述挑战并增强流行的编码器-解码器网络的性能(即,AE),在本文中,我们提出了一个简单而有效的编码器-解码器架构,使用自监督学习策略。自监督组件对训练集中存在的数据点之间的邻域关系进行这种设置超越了单独查看每个数据点的重构,并且自我监督模型,使得所设想的潜在空间保留适当的局部邻域结构。与大多数旨在保持全局欧几里得结构的先前工作[20,34因此,我们期望NRE对噪声和异常值不太敏感。我们提出的结构包括一个编码器,该编码器还对邻域关系进行编码,由Eφ表示(与到常规AE中的E)和解码器D,它们联合地学习(类似于自动编码器)。因此,E将输入样本X编码到判别潜在空间R中,D必须能够从该判别潜在空间R中检索原始样本。为了学习邻域关系,Eφ需要作为一个核[18]来操作,并在潜在空间中将附近的数据点映射到彼此接近①的人。综上所述,本文的主要贡献如下:(1)通过引入NRE,我们提出了一种新的Encoder-Decoder深度网络学习策略。据我们所知,这篇文章是第一篇提出一个编码网络,它可以同时学习输入中的内核(邻域线索)(2)利用我们的NRE组件注入的自我监督,我们提高了自动编码器的性能,这是一种流行的特征学习工具。(3)我们提出的方案有效地学习了视觉数据中的语义概念,并在不同的应用中取得了最先进的结果,如图像分类,异常检测,和防御对抗性例子的攻击。2. 相关工作通过学习表示空间成功重建样本的无监督学习被广泛用于各种任务,包括分类[26],去噪[57]和绘画[43]。传统的无监督表示学习方法通常基于一个借口任务,如静态图像的重建[38]或 视频 [59]。 学习 重 建数 据 用于 诸 如de-nsoing[57],in-painting [42],用于防御对抗性示例的图像优化[53]以及单类分类器[46,51,52]等任务本文重点介绍了A训练编码器-解码器网络的新方法,包括自监督邻域约束。在下文中,我们简要介绍了最近的无监督/自监督表示学习和学习重构方法。非监督/自我监督表示学习:关于托词任务的学习是非监督表征学习的中心思想。如上所述,学习重建图像是非监督特征学习的常见借口任务[20]。早期的工作是基于精确地重建输入图像。但最近的工作试图在重建图像本身的同时构建其他数据模式。一些示例包括从另一个图像通道构建图像通道[64],对灰度图像进行着色[27,63]和内部绘制[43]。为无监督学习提出的其他类型的借口任务包括理解视频帧的正确顺序[6,36]或预测图像块之间的空间关系[12],例如,Noorozi和Favaro [37]利用拼图游戏解决作为借口任务。在另一项工作中,Norooziet al.[38]提出通过计算图像的原始元素来训练无监督模型Pathak等人[41]提出了一种将图像分割为前景和背景的模型一些方法使用可能随视觉数据自由出现的外部例如,一些方法使用已知的运动线索,如自我运动[2,21]或声音[39]作为自我监督的来源。这些研究大多忽略了样本之间的关系。一些最近的工作[2,41]试图将视频补丁之间的关系建模为借口任务。从概念上讲,这些工作与我们的工作有关,但与我们的方法不同,这些预先训练的网络是为了ad-hoc目的而开发的,并且不能应用于其他计算机视觉任务。此外,我们引入了更全面的邻域线索来发现内在的局部流形。Che等人[9]提出了一种使用相似性感知自动编码器进行无监督特征学习的方法,该方法旨在将相似的样本映射到彼此接近的位置。然而,与我们的方法不同,他们忽略了样本之间的重要关系信息。学习重建:如前所述,重构可以被认为是无监督/自监督表征学习的借口任务。许多计算机视觉任务都依赖于这个简单的想法。有一个广泛的应用,但我们简要介绍了本文中用于评估的任务。Sabokrou等人[51,52]使用重构误差和重构的视频帧用于应用于异常检测的端到端一类分类。他们分析了用于检测异常的重建误差[46]重建(或细化)图像,以更好地区分正常和异常图像[51]。磁体[35]和Defense-GAN [53]作为防御对抗性攻击的两个重要基线,8012������′[0,∞]���输入样本���′=���˜=12检测到102为101图3.在二维空间中重建X的过程示意图。假设我们有两类数据(蓝色C1和红色C2)。 设X ∈ C2,但被错误地归类为C1.图2.概述了自监督特征学习的拟议结构。E+D通过误差的前向路径和反向传播来学习。在前向路径中,X′被检索从输入X,但关系损失(L(X,X0,X∞))被反向传播以训练E+D网络。 N和F是从数据集中标识X0和X∞的模块。对抗性的例子使用重建技术。MagNet使用在正常样本上训练Defense-GAN使用仅在正常图像上训练的GAN生成器来细化对抗性示例生成器将输入示例映射到其潜在空间,并从潜在空间生成希望不受对手攻击的图像。3. 方法我们提出的自我监督表示学习方法由三个重要组成部分组成(1)编码器网络E;(2)解码器网络D;(3)包含邻域关系信息的目标函数。联合网络E+ D被训练为基于所提出的目标函数的编码器-解码器网络。 E提供了一个简化的表示-在最大信息保留的情况下,这使得D能够从R中检索XD的输出用X表 示 。 我们的 目标是训练这种重构,使得X_n不仅与X_n相似,而且与其相邻样本X_0相似,而与其远处样本不相似,即,X∞。 该基础设施包 括 一 个自 监 督 ( 因 此 是无 监 督 ) 表 示 ( E(X)),可用于任何图像或视频分析任务。将邻域关系编码到表示中使得学习的特征空间更加可分离。图2显示了我们的方法的草图E和D被训练来发现样本之间的关系首先,考虑E+D定义自动编码器(AE)的设置,该自动编码器(AE)被预先训练为仅重构输入样本,即,重建X,得到X′。 使用这个预训练的网络,我们提出了一个基于E+D,R的潜在空间来识别X0和X∞的过程,使用两个在这里,我们通过以下方式分析和应用(1)中的损失函数的项:一个. 根据Eq.(1),X被假定转移到(重建为)X′使用1>;第二和第三项(2>和<3>)使X′分别接近X0和远离X∞。如可以看到的,最终重构样本(Xφ=D(Eφ(X)可以被放置在正确的一侧。分别为N和F。然后,我们使用损失函数L(X,X0,X∞)联合优化E和D的网络参数,其中邻域关系信息关于样本X传播。我们将结合用于构建潜在空间的邻域信息的AE编码器表示为Eφ。随着训练的继续,Eφ+D学习更好地将邻域信息编码到R中,因此N和F可以更好地发现附近和远处的样本。在训练网络之后,R(即,Eφ(X))提供了X的判别表示。此外,D( Eφ(X))充当用于通过其邻居对重构的X'进行XX′是X在训练阶段的重构版本,而X_n是使用训练的关系AE的重构版本每个模块和整体培训/测试程序的详细描述见以下小节。3.1. 邻域关系编码传统的无监督表示学习高度依赖于一个前提假设,通常定义在学习特征的重建能力之上。这些方法学习图像内的空间依赖性,因此忽略了数据点之间的相互关系。如在邻域空间中操作的方法所示,例如K-最近邻[10],作为经验法则,在所有样本的空间中邻近跨越的样本往往属于相同的类。此外,核心方法[55]表明,基于(正定)相似性修改表示空间通常会导致更多的二分法和可分离空间。编码器-解码器网络也已经被研究用于这些特性,在[51]中,表明样品可以0���∞���������(���∞0<1>���′���˜编码器解码器8013i=1可以有效地细化并且对于异常分类任务变得更加可分离受以前工作的启发,我们提出了一个编码器-解码器AE深度网络,通过来自计算使用X0= N( X′)= argmaxXi∈X,Xi/=X′S(RA(Xi),RA(X′)),(2)数据流形中的邻域线索。为此,我们迫使D(E φ(X))考虑到它的邻居X 0来重建X,同时试图远离远处的样本X∞。因此,参数和X∞,与X最不相似的样本定义为:X∞=F(X′)= argminS(RA(Xi),RA(X′)). (三)Xi∈X,XiX′Eφ+ D使用以下损失函数学习此外,D(·,·)=1−S(·,·)且S(·,·)是余弦半模。L=λ D( R(X), R(X′))+λ D( R(X′),R(X))larity测量值计算如下:`1AAx `2一电子邮件:info@cn.com.cna·bΣnaibi<1><二>S(a,b)==i=1,(4)+λS( R(X′),R(X)),(1)ana2 nb2`3A A A AA ∞xi=1ii=1i<三>其中ai和bi是向量a的第i个分量,其中X′=D( E(X)),λi∈{1,2,3}尺度正则化B,分别。 不失一般性,我们可以选择一个一组(不止一个)相似和不同的样本。一超参数λ1+λ2+λ3= 1,X0和X∞是分别由N(X)和F(X)计算N(·)和F(·)分别定义了返回最接近和最远样本到其输入的函数(稍后详细D和S是计算两个向量的距离和相似度的度量,E φ(X)是X的新表示. 为了获得样本的相似性和距离,我们使用预训练的AE网络。 我们将该AE的编码器表示为A,将其潜在空间表示为RA。S、D和RA在以下小节中更详细地解释。在训练该网络之后,R=Eφ(X)将是X的表示,其被强制为与最近样本的表示相似而与远样本的表示不同。图图3示出了样本X如何在2D空间中相对于损失函数中的每个项被细化,(一). 可以看出,在细化之后,X更接近其正确类的中心 注意,X0和X∞应该相对于X′而不是X来计算。相邻关系如图2、有两个由几个卷积层、子采样层和全连接层组成。在RA之上有一个ReLU层,它强制其所有输出值为正值。因此,S(RA(Xi),RA(X′))是可逆的.3.2. 培训Eφ+ D这两个网络是联合训练的。训练样本X被馈送到Eφ +D,它创建了一个输出X′。网络使用损失函数L(等式1)进行优化①①)。这将X变成基于邻域编码方案的更具鉴别力的样本(参见3.1小节)。当量(1)仅考虑一个附近样本和一个远处样本,但是为了对抗离群值的鲁棒性和更好地发现样本的关系,可以使用一组这样的样本(多于一个)来训练网络因此,损失函数可以改写为:L=λ1 D( RA(X), RA(X′))ΣT重要模块D和F,其关键作用是为Eφ+ D的联合训练提供辅助信息如前所述,D和F被定义为分别找到最接近或最相似的样本和最远或最不相似的样本。有几种方法可以推断出类似的情况-+λ2+λ3i=1ΣTi=1D(RA(X′),RA(X0i))S( RA(X′),RA(X∞i)),(五)两个样本的量(例如,图像)以无监督的方式。直接的图像相似性方法,如SSIM [60],太高级,通常无法评估图像的语义因此,我们不是直接在原始空间中处理图像,而是在潜在表示空间中比较它们为此,在所有未标记的可用样本上训练编码器网络A,以提供样本的区别性该编码器在无监督的情况下与解码器一起训练形成自动编码器。令X={Xi}i=Z是我们的数据集,大小为Z,RA(Xi)是Xi上使用A的相应表示。在上述设置下,X0,最接近X′的样本为8014其中T是表示所选择的附近/远处样本的数量的超参数。通常,较大的T包含较好的性能,但其副作用是昂贵的训练阶段,并且如果选择非常大的T,则远处和附近样本的集合可能具有共同的元素,这是不期望的。请注意,找到X0和X∞是一项耗时的任务,这与训练集的大小成正比。 为了解决这个问题,我们将训练样本聚类到K个聚类中,并且从X的同一聚类中选择最近邻样本,并且从具有远离X所属聚类的中心的聚类中随机选择远离样本。这801533 3简单的技术大大加快了训练过程。此外,这些网络的权重基于优化的传统编码器-解码器网络进行初始化,而不是从头开始训练Eφ+超参数λi对网络的最终性能具有关键作用,并且可以根据应用进行设置在对Eφ +D进行联合训练后,关于λi∈{1,2,3}的值,网络可以解释为:• ||X− D(E φ(X))||<2001 年,||X0− D(E φ(X))||<22,其中1和2是小的非负标量。但||X∞ −D(E φ(X))||2> 3,其中3比1和2大得多。如前所述,X0和X∞分别接近和远离X。因此,我们可以说X0和X很可能来自同一类,而X∞来自另一类。相应地,D( Eφ(X))被迫靠近来自同一类的样本而远离其他类的样本,从而导致重构空间中更多的可分离样本。• 设Pc是特定分类器将X标记为类c的概率。 我们期望Pc(E φ(X))|1,1,1>Pc(Eφ(X))|100 下标|λ1、λ2、λ3分别表示λ1、λ2和λ3的值。 这是因为E φ被迫将样本X映射到具有足够邻域信息的潜在空间,这将导致更可分离的解码。• 在一个分类问题中,如果X属于类c,并且λ2和λ3 被 选 择 得 足 够 大 , 则 期 望 Pc ( D ( Eφ(X+σ)|λ1、λ2、λ3>Pc(D(Eφ(X+σ)|1,0,0,其中σ表示噪声元素。 我们的模型考虑了样本X与其邻居的关系,使模型对噪声和离群值具有鲁棒性。类似的概念在[19]中进行了研究。这种关系重构的特点是防御对抗性攻击的有效机制。为了保护深度网络免受对抗性示例攻击,使用我们在原始(干净和正常)样本集上训练的编码器-解码器公式来重建对抗性示例是非常有用的。类似的论点可以在最近的防御机制中找到,如MagNet [35]和防御GAN [53]。图4.使用传统AE(第3行)和我们提出的编码器-解码器网络(第2行)从原始MNIST样本(第1行)重建图像的几个示例传统的网络是基于重建误差进行优化的,我们的网络是沿着邻域关系信息(Eq.(一).嵌入因此,它基于语义而不是像素值损失函数来重建数据。我们知道关系信息包含重要的线索,但是对它们给予额外的关注而不是正确地保留样本的上下文(即,重构误差)可能导致不利的结果。通常,除了上下文之外,还利用关系信息作为边信息。因此,为了在这两个信息源之间创建折衷,我们设置λ1> λ2,λ3。4. 实验结果在本节中,在不同的数据集和任务上对所提出的方法进行评估,以展示其可靠性和通用性。性能结果进行了详细分析,并与国家的最先进的技术进行了比较。为了显示所介绍的框架对于广泛应用的适应性和通用性,它被评估为(1)自动编码器(R-AE),(2)自监督(无监督)表示学习方法,(3)作为对抗性示例攻击的防御方法,以及(4)异常检测。我们的研究结果至少与这些领域的最先进的方法相当或更好。4.1. 设置在我们的实验中利用了几个深度网络,在补充材料1中详细解释。网络Eφ+ D的权重基于Adam优化器初始化,学习率设置为0.0001。根据任务,选择λ1、λ2和λ3,• ||X − D(Eφ(X))|2λ1,λ 2=0,λ 3=0||X−||X −由三元组(λ1,λ2,λ3)表示,每个方法都有下标。本节中报告的所有结果都来自我们的简单-D(Eφ(X))|一、零、零||.这意味着,虽然我们 制剂 (即, 学习 到 重构例如,关于邻域和关系信息)并不仅仅关注重建,在训练之后,它仍然能够有效地重建输入样本(见图2)。4).此外,我们的公式并没有过分强调重建损失只和借用信息的邻域使用Tensor-Flow框架[1]和Python在NVIDIA TITAN X上运行。4.2. 使用NRE的无监督学习传统的AE公式被广泛用作无监督特征学习的流行工具在重-1更多详情请访问:https://github.com/Sabokrou/NRE8016表1.我们的方法(NRE)与传统的和广泛使用的自动编码器的准确性的Compensable结果最好的结果用黑体字表示。NRE下标有所选择的超参数(即,NREλ1、λ2、λ3)。分类器L-SVM R-SVM时期数量4010040100[第20话]0.9690.9690.9610.972DAE [57]0.9420.9360.9540.964[42]第四十二话0.9700.9740.9780.981脑裂AE [64]0.9720.9730.9750.979NRE 0. 5,0。2,0。3(我们的)零零七0.9780.9810.98420世纪90年代,出现了新版本的AE,如裂脑[64]、对抗自动编码器[34]和上下文自动编码器[42]。我们在MNIST数据集[28]上评估了我们的方法(NRE)的性能 , 并 将 结 果 与 这 些 不 同 类 型 的 AE 进 行 了 比 较MNIST2数据集包括从'0'到'9'的60,000个手写数字MNIST上的结果为了评估各种版本的AE的性能,针对不同的策略(目标函数)训练自动编码器。在训练这些网络之后,所有训练和测试样本基于训练的自动编码器被映射到AE潜在表示空间同样,对于每个AE,在所代表的训练样本之上训练支持向量机(SVM)[56]分类器,并报告测试集的分类准确度结果示于表1中。可以看出,基于关系编码的分类精度优于其他方法。为了进行公平比较,所有AE均经过40和100个时期的训练分类由线性SVM(L-SVM)和具有RBF核的SVM(R-SVM)完成RBF的超参数设置为0.01,并在所有实验中固定。与传统的AE相比,我们提出的目标函数更复杂,因此当它被训练更多的epoch(甚至超过100 epoch)时,它将获得更好的结果。但为了公平起见,所有方法都训练了相同数量的epoch。4.3. 分类、检测和分割如前所述,无监督或自监督表示越来越多地用于不同的应用,因为它具有不需要标记数据的优点。一个托词任务通常首先被训练来指导最终网络进行适当的初始化,甚至为后续任务创建嵌入空间。我们将我们的方法与最先进的方法进行比较,这些方法都使用AlexNet的变体[26]。我们遵循[64],用于评估和比较我们的方法与其他方法。我们预先训练了2见http://yann.lecun.com/exdb/mnist/表2.我们基于NRE的自监督表示在分类、检测和分割任务中的性能。PASCAL VOC 2007 [14]测试集的分类和快速R-CNN [17]检测结果,以及PASCAL VOC 2012验证集的FCN[32]分割结果Classification、Det和Seg列分别显示分类、检测和分割结果。分类检测分段层FC8 FC 6 -8型所有所有所有AlexNet [26]77.078.878.356.8 48.0Agrawal等人[二]《中国日报》31.231.054.243.9–Pathak等人[第四十二届]30.534.656.544.5 30.0Wang等人[59个]28.455.663.147.4–Doersch等人[12个]44.755.165.351.1–K-means [25]32.039.256.645.6 32.6[第20话]24.816.053.841.9–BiGAN [13]41.752.560.346.9 35.2计算[38]––67.751.4 36.6Owens等人[39]第三十九届––61.344.0–Pathak等人[第四十二届]––61.052.2–Jenni等人[22日]––69.852.5 38.1DeepCluster [7]––73.755.4 45.1[37]第三十七话––67.653.2 37.6NRE 0. 5,0。25,0。25(我们的)55.9七十一点二七十四点四54.751.1网络来学习ImageNet数据集上的关系信息[11]。这个数据集非常大,所以找到X0和X∞非常昂贵和耗时。最后,如3.2节所述,将数据集划分为K=400个聚类,然后只搜索涉及任何特定X的分区,以找到其X0,并从远离X聚类中心的聚类中随机选择X∞。我们评估了PASCAL VOC数据集[15]上的关系表示的性能,作为分类任务的基准集。这个分类任务涉及20个关于20个对象类的存在或不存在的二进制分类决策。我们使用AlexNet架构并将其作为解码器嵌入AE公式中。我们通过将卷积和子采样层转换为解卷积和上采样层来镜像解码器的相同架构。PASCAL VOC上的结果几个分类器通过冻结AlexNet的各个部分进行训练[26]。在第一个实验中,在FC 6和FC 7之上,训练线性分类器。在第二个实验中,所有三个FC6,FC7和FC8层都以监督的方式进行训练,其中所有其他层都被冻结。最后,整个网络是“微调”的表2将我们的结果与最先进的方法进行了比较我们进一步评估了对象检测和分割任务,使用预训练的AlexNet作为初始化,8017图5.FGSM创建的一些对抗性示例[40]攻击(= 0. 2)的情况。第一行:原始图像;第二排:用我们的方法重建对抗性的例子;最后一行:对抗性的例子。快速R-CNN [17]和全卷积网络(FCN)[32]的作用,对象检测和分割任务,重新排序。对于这些测试,我们用我们的自我监督训练网络取代了监督训练的AlexNet[26],作为特定任务的预训练。实验结果表明,该方法可以作为一种有效的自监督特征学习方法。在所有情况下(除了分割任务),我们的结果优于他人的相当大的保证金。4.4. 对抗性攻击防御对抗性示例是欺骗特定计算机视觉的训练网络的手段,是深度网络安全方面的一个具有设F是一个分类器,它已正确地将X标记为Y,即,F(X)=Y。对抗性攻击是通过污染X来完成的,其方式导致创建其等效的对抗性e示例X,其中||X−X||<(标量)和F(X)/=Y。这为分类器F [35,53]。作为一种防御机制,MagNet [35]提出使用自动编码器使用正确类的流形分布来细化对抗性示例。 在这里,我们表明,我们提出的编码器-解码器与NRE性能比MagNet更好。我们评估了我们的方法和MagNet [35]相对于快速梯度符号攻击(FGSM)[40]攻击的不同值。这些实验是在MNIST数据集上完成的。我们选择了50,000个样本作为训练集,150个样本用于训练替代网络,最后9850个样本用于测试。在黑盒攻击中,攻击者无法访问目标分类器的结构和权重。但它是可能的,sible模仿目标分类器的行为,使用替代网络,学习150个样本。我们训练了一个CNN网络作为我们的目标分类器,并获得了98.6%的准确率,除了这个分类器,一个替代的CNN分类器在150个样本上训练,准确率为77%表3. NRE的性能评估,用于改进对抗性示例,作为对抗黑盒FGSM [40]攻击的对抗性攻击的防御策略。每列中的最佳结果以粗体显示。0.01元0.10.20.3[35]第35话 0.7655 0.6140.4242NRE0.6,0。2,0。2 ( 我 们 的 )0.98020.90560.84890.7166防御攻击的结果我们评估了NRE作为对抗性示例的防御方法的性能,并在表3中报告了结果。该表显示了我们与MagNet [35]作为基线的结果,该结果基于重建对抗样本。用于两种方法的自动编码器的架构是相同的,但是用不同的对象函数来学习。使用了具有不同数量的干扰的FGSM攻击。图中显示了几个对抗性的例子和NRE对它们的引用。五、当然,攻击后网络的精度会降低。我们的方法和MagNet应用于对抗性示例,以将其作为分类器的预处理步骤可以看出,我们的方法对于所有的Δ k值的准确性都比MagNet好得多。对抗性攻击有更多类型的攻击和防御策略,例如DefenseGAN [53]。分析所有这些攻击和防御方法需要深入讨论,这超出了本文的范围。在这里,我们简要地将我们的方法与最先进的方法进行了比较,以展示我们方法的效率。4.5. 视频异常检测视频中的异常事件检测(也称为视觉数据中的不规则检测)是计算机视觉应用中的一项重要任务。目前的异常检测方法通常是基于编码器-解码器网络并分析重构误差。由于我们网络的上下文非常接近这些异常检测解决方案,我们也评估了我们在这项任务上的方法我们在UCSD Ped2数据集[8]上评估了我们的方法,这是这项任务的流行数据集我们遵循[51]的评价标准与[51]类似,帧级准确度被报告为性能度量。在帧级测量中,如果帧中的至少一个像素被检测为异常,则该帧被认为是异常的。UCSD数据集有两个子集,称为Ped1和Ped2。它们来自不同的静态相机室外场景,10 fps,分辨率分别为158×234和240×360。这些视频中的移动物体主要是行人,所有其他物体如汽车、轮椅和自行车都被标记为异常。为了与以前在这个数据集上的工作进行比较,我们在Ped2上评估了我们的算法。8018表4. UCSD Ped2上帧级异常检测的等错误率(EER)比较。方法EER方法EERIBC [5] 13%MPCCA [24] 30%[33]第33话Bertini等人[4] 30%[50]第五十话Li等[31] 18.5%[52]第52话RE [46] 15%Ravanbakhsh等人[45] 13%Ravanbakhsh等人[44] 14%Dan Xu等[62] 17%Sabokrou等人[47] 19%[49]第四十九话[51]第51话NRE0. 6,0。2,0。2 17.5%NRE0. 6,0。4.014%异常检测结果对于本实验,我们将视频帧划分为大小为30×30的2D块。从正常帧中提取的所有补丁都被考虑用于我们的训练。请注意,训练数据仅包含正常补丁。我们训练了一个编码器-解码器网络,它的目标函数是所有训练块(见3.2节)。当训练完成后,将提供测试补丁一个接一个地连接到这个编码解码网络 [2016 - 04 -16]第四届全国人大常委会第十六次会议审议通过《关于进一步完善(||X−X||2)用作检测异常的措施。如果这个重建错误大于阈值,则意味着该补丁包含在训练期间没有看到的东西(即,这是一种反常现象)。我们的方法与[ 46 ]非常相似,但有两个主要区别:(1)我们只使用一个自动编码器,[46]开发了两种自动编码器;(2)我们的自动编码器是基于关系信息学习的,而[46]仅基于重建误差进行训练。表4报告了我们的方法和其他基线和最先进方法的结果最后一行显示了我们的方法在λ1、λ2和λ3的两个不同值下的结果。可以看出,我们的方法与最先进的方法相当。NRE是基于重建误差和邻域关系编码的唯一标准的非常简单的方法,而其他方法(例如[47]和[49])基于视频内容的密集时空嵌入实验结果表明了该方法的通用性我们报告我们的结果与不同的值λ1,λ2,λ3,和T=1。5. 讨论结果证实,所提出的用于学习无监督和自监督表示的邻域关系编码方法可以适用于各种计算机视觉和图像分析任务。围绕NRE有几个挑战和有趣的直觉,下面讨论λ的值:目标函数由三项组成,可以根据目标任务进行调整我们的研究结果表明,λ1是非常重要的所有类型的任务 但对于去噪、图像修补和一般增强图像等任务,λ1和λ2比λ 3更重要。对于需要创建区分嵌入空间的分类和聚类任务,λ1和λ2+ λ3的相等值通常会导致更好的性能。超参数T:T是一个非常重要的超参数,用于捕获内在的邻域关系信息。显然,选择的值越大,该方法对离群值的鲁棒性就越强。但是,如果设置得很大,就会失去近邻的概念。因此,应该为每一项具体任务作出妥协。动态λs:在训练过程中安排λ1、λ2和λ3的值可能非常有用,并导致收敛速度加快这可能是未来工作的一个非常有趣的方向,因为设计一个好的调度来逐渐改变这些参数(同时相互交互)并不是一个简单的任务。查找相似或不相似图像的方法:该方法的主要困难在于找到与目标图像相似和不相似的样本。我们测试了广泛的度量,发现潜在空间中的简单余弦在原始空间(像素值)中比较图像并不是一个合适的选择,因为它忽略了图像中嵌入的重要更好的度量可以改善结果,并为特定的应用程序开发6. 结论在本文中,我们提出了一个编码器-解码器网络的学习框架(例如,自动编码器),并将其用于广泛的计算机视觉任务。我们提出的方法编码的邻域关系信息到AE,并把它变成一个内核嵌入,ding框架。因此,除了学习一个recruitc- tion计划,我们的AE保留了当地的几何流形。这导致可以在各种应用中使用的判别邻域引导的自监督表示学习,因为它不需要标签信息进行训练。我们在不同的相关应用中评估了我们的模型,包括用于分类,检测和分割的自监督(非监督)表示学习,以及对抗对抗性结果表明,我们的方法优于,或至少可与,国家的最先进的具体到每个应用程序,而更简单。致谢M.萨伯鲁得到了部分支持,IPM的补助金(编号:CS1396-5-01)。E. Adeli感谢Panasonic的支持。8019引用[1] Mart´ın Abadi, Paul Barham , Jianmin Chen , ZhifengChen , Andy Davis , Jeffrey Dean , Matthieu Devin ,Sanjay Ghe-mawat,Geoffrey Irving,Michael Isard,etal. Tensorflow:一个大规模机器学习系统。在OSDI,第16卷,第265-283页,2016中。5[2] Pulkit Agrawal、Joao Carreira和Jitendra Malik。学习通过移动看到。在ICCV,第37-45页,2015年。二、六[3] Yoshua Bengio Aaron Courville和Pascal Vincent表示学习:回顾与新的视角 。IEEE Transactions on PatternAnalysis and Machine Intelligence , 35 ( 8 ) : 1798-1828,2013. 1[4] 马尔科·贝尔蒂尼,阿尔贝托·德尔宾博,洛伦佐·塞-德纳里。多尺度实时非参数异常检测与定位方法。Computer Vision and Image Understanding,116(3):320-329,2012. 8[5] Oren Boiman和Michal Irani。 检测不规则性图像和视频。国际计算机视觉杂志,74(1):17-31,2007。8[6] Biagio Brattoli,Uta B üchler,Anna-SophiaW ahl,MartinESch w ab,andB joérnOmme r. 用于详细行为分析的Lstm自我监督在CVPR,第2卷,2017年。2[7] 玛蒂尔德·卡隆 彼得·波亚诺夫斯基 阿曼德·朱兰,还有Matthijs Douze用于视觉特征的无监督学习的深度聚类。在ECCV,2018。1、6[8] 安东尼·陈和努诺·瓦斯康塞洛斯康文署行人专用区数据集。IEEE模式分析与机器智能学报(TPAMI),30(5):909-926,2008。7[9] 楚文清和邓才。堆叠相似性感知au-到编码器。第26届国际人工智能联合会议论文集,第1561AAAI Press,2017. 2[10] Thomas Cover 和 Peter Hart 最 近 邻 模 式 分 类 。 IEEEtransactions on information theory,13(1):21-27,1967. 3[11] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,还有李飞飞Imagenet:一个大规模的分层图像数据库。在CVPR,第248-255页中。Ieee,2009年。6[12] Carl Doersch、Abhinav Gupta和Alexei A Efros。不超-通过上下文预测的可视化表示学习在CVPR,第1422-1430页,2015年。二、六[13] Je f fDonahue,PhilippK raühenbuühl,和Tr ev或Darrell。对抗 性 特 征 学 习 。 arXiv 预 印 本 arXiv : 1605.09782 ,2016。6[14] Mark Everingham , SM Ali Eslami , Luc Van Gool ,Christo-pher KI Williams,John Winn,and Andrew Zisserman.PascalVisualObjectClassesChallenge:ARetrospective.International Journal of Computer Vision,111(1):986[15] Mark Everingham , Luc Van Gool , Christopher KIWilliams,John Winn 和 Andrew Zisserman 。 pascal 视 觉 对 象 类( voc ) 的 挑 战 。 International Journal of ComputerVision,88(2):303-338,2010。6[16] Spyros Gidaris,Praveer Singh和Nikos Komodakis。Un-通过预测图像旋转的监督表示学习。在ICLR,2018年。1[17] 罗斯·格希克。快速R-CNN。在ICCV,第1440六、七[18] Jihun Ham,Daniel D Lee,Sebastian Mika,and BernhardSch o?l k opf. 的降维方法的一个核心观点8020流形2004年第21届机器学习国际会议论文集,第47页。2[19] Xiaofei He,Deng Cai,Shuicheng Yan,and Hong-Jiang张某邻域保持嵌入。在ICCV,第2卷,第1208-1213页中。IEEE,2005年。5[20] Geoffrey E Hinton和Ruslan R Salakh
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功