没有合适的资源?快使用搜索试试~ 我知道了~
9327ENCCLSENC基于解纠缠表示学习的滨口龙平、樱田健、中村良介产业技术综合研究所{ryuhei.hamaguchi,k.sakurada,r.nakamura}@ aist.go.jp摘要本文提出了一种新的方法,从图像对的类不平衡数据集的罕见事件检测。事件检测任务的一种直接方法是以端到端的方式从大规模数据集训练检测网络。然而,在许多应用中,如卫星图像上的建筑物变化检测,很少有阳性样本可用于训练。此外,场景图像对包含许多琐碎的事件,例如在illumi中,表示学习阴性样本微调阳性/阴性样本国家变化或背景运动。这些许多琐碎的事件和类不平衡的问题导致了罕见事件检测的错误为了克服这些困难,我们提出了一种新的方法来学习从低成本的负样本解纠缠表示。所提出的方法在一对观测中解开不同的方面:分别代表琐碎事件和图像内容的变量和不变因子。通过对4个变化检测数据集的定量评价,验证了该方法的有效性;定性分析表明,该方法能够获得区分稀有事件和平凡事件的表示1. 介绍在计算机视觉领域,从图像对中进行事件检测作为图像相似性估计得到了广泛的研究图像之间的相似性估计是基本问题之一,其可以应用于许多任务,例如变化检测[11,14,20,25],图像检索和匹配[3,23,33],识别[26,31]和立体匹配[9,34]。由于最近深度特征的成功,图像比较方法有了实质性的进展。然而,一个普遍的缺点是,它们需要大量的数据集来充分利用深度特征的表示能力。在图像相似性估计的背景下,本文考虑了从图像对中检测罕见事件的特定任务,例如检测一对卫星图像上的建筑物变化,或者通过图1.提出的模型的总体概念。从负图像对,表示学习模型(左)学习对平凡事件不变的特征。然后在学习的不变特征上训练罕见事件检测器(右比较产品的图片。任务的一个挑战在于收集训练样本的困难由于寻找稀有样本是一项劳动密集型任务,因此训练数据集通常包含很少的阳性样本。另外,图像对通常包含许多不感兴趣的麻烦事件(例如,照明变化、图像的配准误差、阴影变化、背景运动或海洋变化)。这些大量的小事件和类不平衡问题导致对小事件的错误警报,或忽略罕见事件。为了克服这些困难,我们提出了一种新的网络架构,只使用低成本的负图像对的解纠缠表示学习。图1展示了所提出的方法的总体概念。建议的网络被训练成两个独立的功能,具体和共同的编码每个图像,通过引入图像内容之间的相似性约束。共同特征表示与平凡事件不变的图像内容,而特定特征表示与平凡事件相关的信息的混合(例如,照明、阴影或背景运动)。这种解缠可以仅使用低成本的负样本来学习,因为负样本包含关于琐碎事件的丰富信息。一旦我们获得了共同的特征,我们就可以使用少量的训练样本在学习的表示上构建罕见事件检测器ENCDec相似性ENCDec9328通过对包括野外数据集在内的四个变化检测数据集的定量评价,验证了该方法在类不平衡场景下的有效性.此外,定性分析表明,该方法成功地学习了图像对中稀有事件和平凡事件的去纠缠表示.本文的主要贡献如下:• 我们提出了一种新的解决方案,类不平衡的问题,在罕见事件检测任务,这在过去的文献中没有得到充分的研究。• 我们提出了一种新的表示学习方法,只需要对观察学习解纠缠表示。• 我们从华盛顿特区的开放数据库创建了一个新的大规模变化检测数据集。2. 相关工作在变化检测任务中,有几项工作试图克服数据收集和阻碍的困难-一些琐碎的事件,如前一节所述。为了节省注释的成本,[13]提出了一种弱监督方法,该方法只需要图像级标签来训练它们的变化分割模型。虽然他们的工作节省了像素级注释成本,但仍然需要图像级标签,这仍然难以收集罕见的为了解决琐碎的事件,视频监控任务[4,24]的一些工作利用背景建模技术,其中前景变化被检测为离群值。然而,这些工作假设连续帧作为输入,并且它们的应用限于视频帧中的变化检测。[12]提出了一种半监督的方法来从成对的卫星图像中检测受损区域。在他们的方法中,一个视觉词袋向量是用于分层形状描述符的,并且支持向量机分类器在提取的特征上进行训练。由于他们的方法是基于精心选择的专门用于他们的任务的特征描述符,该方法缺乏在其他领域的应用的通用性。解纠缠表征学习是一个活跃的研究领域。[27]提出了一种生成对抗网络(GAN)框架,以使用编码器-解码器架构来学习面部姿势和身份的解纠缠表示,其中辅助变量插入其潜在代码中[18]提出了一种GAN模型,可以生成以类别标签为条件的合成[22]提出了一种半监督方法,通过在标准变分自动编码器(VAE)的编码器和解码器之间引入图形模型结构来学习解纠缠表示。这些方法的缺点是,在训练期间,要求对目标变异因子进行明确标记。至于无监督方法,[8]提出了一种通过最大化一小部分潜在代码和生成图像之间的互信息来学习解纠缠表示的方法。然而,该方法不能控制解缠,使得期望的变化因素以特定的潜码表示。一些作品利用观察组作为弱监督。[16]在仅包括一个变化因子的[5]和[17]提出了一种方法,该方法使用共享相同类别标签的图像组有效地解开类内和类间我们的工作类似于上面提到的三个工作。不同之处在于,我们的工作假设了较弱的条件;也就是说,我们的方法只需要成对的观测值,不需要对齐的观测值或类标签。最近,在[7]中提出了仅使用成对观察进行特征解纠缠的多视图图像生成方法。与我们的工作最相关的方法是域分离网络(DSN)[6]。DSN将图像分解为两个不同图像域之间的公共因子和特定因子。为了了解解纠缠,DSN会惩罚公共特征边缘之间的距离:D(p(zA)<$p(zB)),其中p(zA)= Ep( xA ) [p ( zA|xA ) ] 和 p ( zB ) = Ep ( xB ) [p(zB|xB)]。虽然该方法对域自适应任务是有效的,但它不适用于图像比较任务,如罕见事件检测。这是因为图像比较任务不假设跨p(xA)和p(xB)的域偏差,这对于DSN学习解纠缠是必不可少的。另一方面,我们的方法惩罚后验之间的距离,而不是边缘;即,D(p(zA|xA)p(zB|xB))。由于损失不涉及p(xA)和p(xB)的期望,因此无论p(xA)和p(xB)之间是否存在主偏差,我们的方法都是适用的。3. 方法3.1. 概述图2显示了拟议模型的示意图。该模型由VAE的两个分支组成,它们彼此共享参数每个VAE提取两种类型的特征表示:共同的和特定的。它们分别表示输入图像对的不同方面,不变因子和变化在罕见事件检测的上下文中,特定特征表示平凡事件,并且共同特征表示对于平凡事件不变的图像内容。为了实现解纠缠,我们在公共特征之间引入了相似性约束该约束促使共同特征位于成对图像的共享潜在空间中。这些共同特征的关键之处在于它们对平凡事件具有不变性,这有助于区分目标事件和平凡事件9329φV AE编码器解码器���������ℎ���������������ℎ������������编码器解码器������图2.所提出的表征学习方法的示意图 该模型将一对图像xA和xB作为输入。 对于每个图像,编码器提取共同和特定的特征,解码器重建输入。该模型的关键特征是相似性损失Lsim。 这种损失限制了公共特征提取xA和xB之间的不变因子。另一个特征是激活损失Lact。 这种损失促使共同特征的均值向量(µ c)被激活,这避免了任何输入的平凡解-(σ c,µ c)=(1,0)。事件在连续的微调阶段中,使用少量的正样本和负样本在学习的共同特征上训练事件检测器。本节内容如下。 在第3.2节中,我们简要介绍了VAE。在第3.3节中,详细解释了所提出的表示学习方法。最后,在3.4节中,解释了事件检测器的微调阶段。3.2. 可变自动编码器变分自动编码器[15,19]是一种深度生成模型,它将输入x∈X和潜在变量z∈Z的联合分布定义为pθ(x,z)=pθ(x|z)p(z)。p(z)通常被设置为高斯分布零均值和单位方差。生成分布pθ(x|z)由深度神经网络(解码器)建模参数θ,模型参数通过以下方式训练:为了使下界在编码器参数方面可微,使用称为重新参数化的技术:z=μφ(x)+σφ(x)其中(2)第一章(1)在这里,表示元素级乘积。在这种情况下,编码器成为一个深度神经网络,输出后验分布的均值和方差。3.3. 表示学习VAE提供了一种无监督的方法来学习潜在表示。给定输入x,潜在表示可以可以使用编码器分布qφ(z)来推断|X)。这里的目标是学习编码器分布qφ(zc,zs|x)其中潜变量被解开,使得zc和分别表示给定图像对中的不变因子和变化因子。 为此,我们建立了一个模型,最大化边际似然pθΣ(x)=zpθ(x,z)。VAE的分支彼此共享参数 作为如图2所示,输入图像xA,xB∈X然而,在pθ(x|z)是一个神经网络,边际可能性变得难以处理。因此,以下是使用变分下限代替:分成不同的VAE分支,并从每个分支中提取潜变量zc和zs使用以下损失函数训练VAE的参数LVAE= Eq(z|x)[log pθ(x|z)]− D KL(qφ(z|x)p(z))≤log pθ(x)(一)一VAEBVAE+λ1L SIM+λ2L 法(三)其中LABV AE 是输入图像的VAE损失xA在上述等式中,qφ(z|x)是另一个深度神经网络-近似后验分布p θ(z)的工作(编码器|X)。Eq的第一项。(1)可以被看作是经典自动编码器的重构误差,并且第二项可以被看作是正则化项。为了和xB。Lsim是相似性损失函数,约束共同特征以表示成对图像之间的不变因子。Lact是一个激活损失函数,它鼓励激活共同特征以避免琐碎的解决方案。 λ1和λ2是相似系数L= L+L,L9330我我和激活损失。以下详细说明损失的各项条款。变分自动编码器损失的联合每个VAE分支的分布成为pθ(x,zc,zs)= pθ(x|zc,zs)p(zc)p(zs)(4)生成分布pθ(x|zc,zs)被设置为高斯分布,其平均值由解码器输出给出。先验p(zc)和p(zs)都是均值为零、方差为单位的然后,推理模型变为qφ ( zc , zs|x ) = qφ ( zc|x ) qφ(zs|x)(5)zc和zs的后验被设置为高斯分布。函数qφ(zc|x)=N(µ c(x),σ c(x))和qφ(zs|x)=图3. 2D情况下的后验分布图示。即使在每个维度D1、D2上的距离相同,由于较小的方差,分布在z 2轴上更远。失活。相似性约束的一个问题是存在平凡解。通过将公共特征的均值向量设置为全零,可以完全满足约束条件。在这种情况下,输入中的所有信息都由特定特征编码,而共同特征不表示任何信息。φ φN(µs(x),σs(x)),其均值和方差由下式给出:信息. 为了避免这种情况,我们引入另一种损失,φ φ编码器网络的输出。然后,损失函数VAE成为鼓励激活通用功能:c s Lact=Lsparsity+Linvmax(9)LV AE=Eq(zc,zs|x)[logpθ(x|z,z)]+ D KL(qφ(zc|x)φ p(zc))+D KL(qφ(zs|(x)p(zs)(六)激活损失由两部分组成:稀疏性损失和非稀疏性损失。Vmax损失:相似性损失。为了使输入图像对中的共同特征编码不变因子,我们引入了以下对之间的相似性损失:L稀疏度= Σdi=1(slogmi+(1−s)log(1−mi))(10)1ΣBLinvmax=(最大|µ k|(11)从xA和xB中提取的共同特征:Lsim=D(qφ(zc|xA)<$qφ(zc|(7 )Biik=1这里,μk是均值向量的第i个元素,k表示在一个小批中发送样本索引 m i是平均值|µ k|其中D定义潜在变量之间的统计距离。存在各种类型的相似性度量,在小批量中,即, m i=ΣBk=1我|.|. L稀疏平均用于D。一个简单的候选是两个后验的质心之间的L2或L1距离µc(xA),µc(xB)。然而,如图3所示,当后验分布沿每个潜在维度具有不同的方差时,质心之间的距离不反映分布之间的因此,我们使用了一种Maha-lanobis距离,如下所示:通过小批量,每个单元都应该被激活,平均值为s(s是超参数),Linvmax表示每个样本至少应激活一个单元3.4. 微调现在,我们已经获得了编码器,用于分别提取共同特征和特定特征。作为下一步,我们在学习到的共同点上构建一个事件检测器网络C1ΣM (µc(x)−µc(x))2从成对的每个图像中提取的特征μc和μcLsim=MiAiBσc(xA)σc(xB)(八)A Bc c c c c c ci=1y=C(µ)哪里µ= [µA,µB](12)这里,µc和σc表示均值的第i个元素,2(122019年12月22日2019( |)( |)101(中国)11φ9331i i这里,[*,*]表示两个向量的级联我们后验分布的标准差,M是潜在变量的维度该度量根据每个潜在维度的方差来测量沿每个潜在维度的缩放距离。实验结果和各种距离度量之间的比较在第4.5节中显示。使用交叉熵损失来在地面真实标签t上训练分类器。L细=tlogy+(1−t)log(1−y)(13)在微调阶段中,联合训练分类器参数Φ和编码器参数Φ因为共同9332特征表示对于平凡事件不变的图像内容,即使使用少量标签也可以有效地训练鲁棒事件检测器在微调阶段期间,负样本被随机欠采样以具有与正样本相同的样本数量。4. 实验在本节中,我们在四个变化检测数据集上验证了我们的方法的有效性:增强的MNIST、ABCD、PCD和WDC数据集。我们使用了AugmentedMNIST来比较我们的方法与Mathieu等人的方法。[17]通常在相对简单的数据集上进行评估(例如,MNIST)。之后,我们在野外数据集(ABCD,PCD和WDC数据集)上评估了我们的方法。虽然所有数据集最初都包含许多阳性样本,但我们限制了可用的阳性样本来模拟类别不平衡的情况。实验中使用的阳性和阴性样品数量见表1。在第4.4节中,我们通过可视化学习特征进行定性评估最后,在第4.5节中,我们研究了我们模型的几种4.1. 数据集增 强 的 MNIST 。 为 了 验 证 所 提出 的 模 型 , 我 们 在MNIST中设置了一个从一对样本中检测数字变化的问题。如果输入图像对中的数字不同,则输入图像对被标记为阳性,如果它们相同,则被标记为阴性。对于源 图 像 , 我 们 使 用 MNIST 的 三 种 变 体 [29] : 旋 转MNIST(MNIST-R),背景杂波(MNIST-B)和两者(MNIST-R-B)。ABCD数据集。ABCD数据集[10]是用于从海啸灾害前后拍摄的任务是对目标建筑物是否被海啸冲走进行分类。预先调整训练和测试块的大小和裁剪,使得目标建筑物位于中心(即,我们使用了PCD数据集。PCD数据集[21]是用于从一对街景全景图像检测场景变化的数据集。对于每一对,提供逐像素变化掩模作为地面实况。在这项工作中,我们解决了变化掩模估计问题进行基于补丁的分类。首先,从原始图像中裁剪大小为112×112的输入块对,然后如果大小为14×14的中心区域是纯变化的像素,则将其标记为正,如果中心区域是纯不变的像素,则将其标记为负在测试阶段,我们以滑动方式,并覆盖分类器输出以创建变化概率的热图。 当时的热图表1.每个数据集中使用的阳性和阴性样本数量。所有的负样本都用于表征学习。在微调中,使用阴性和阳性样本。阴性数量培训阳性数量测试阴性数量阳性数量八月MNIST100,00050 / 500 /32 00050,00050,000ABCD33745 / 50 /3378847845PCD5671850--WDC250,00050 /50019341934表2.与增强的MNIST数据集上的异常检测方法的比较。对于所有模型,在训练期间仅使用阴性样本。MNIST-RMNIST-BMNIST-R-BAE-rec [32]54.2754.4851.36VAE-rec [1]57.2453.2750.7CAE-l2 [2]55.1455.7450.29MLVAE [5]60.7259.7052.75Mathieu等人[17个]58.3460.3152.16VAE w/o sim.54.9556.4452.02VAE w/ sim. (我们的)71.6682.5562.23使用阈值0.5进行二值化,这导致改变掩码估计。WDC数据集。为了在更大规模的数据集上评估我们的方法,我们准备了一个新的变化检测数据集。该数据集用于从华盛顿特区的一对航空图像中检测新建或破坏的建筑物。区该数据集包含多年(1995年、1999年、2002年、2005年、2008年、2010年、2013年和2014年)的图像。2015年)。它们的分辨率为16厘米,每年覆盖面积超过200平方公里。我们通过比较不同年份产生的建筑物足迹来自动注释建筑物的变化。所有图像和足迹均来自哥伦比亚特区政府托管的开放数据库[28]。有关数据集的更多详细信息,请参阅补充材料。4.2. 实验装置基线。为了比较,我们建立了几个基线模型来处理类不平衡问题。(1)随机欠/过采样:类不平衡问题的一种直接方法是对主要类实例进行欠采样或对次要类实例进行过采样对于每个采样方案,我们训练了一个连体CNN(用于图像比较任务的最先进架构(2)迁移学习:迁移学习被认为是有效的,当可用标签的数量是有限的。我们从ImageNet预训练模型中转移权重,并使用欠采样方案对其进行微调。(3)离散表示学习方法:为了与最先进的表示学习模型进行比较,我们尝试[5,17]获取共同特征。在最初的公式中-9333表3.增强MNIST数据集上的更改检测精度阳性样本的数量从50到32 000不等每个结果以使用不同训练子集通过10次训练运行获得的平均值和标准差的形式给出标签数量在样本下。过采样。MLVAE [5]Mathieu等人[17个]VAE w/o sim.VAE w/ sim. (我们的)MNIST-R5050.63(0.31)50.47(0.44)57.22(1.39)61.09(1.20)51.55(0.43)79.65(4.42)50060.05(3.10)61.84(1.37)79.15(0.90)77.78(0.74)64.74(1.31)89.73(0.56)3200094.82(0.21)95.49(0.15)95.68(0.17)95.85(0.23)95.76(0.09)95.94(0.15)MNIST-B5050.69(0.61)50.38(0.16)59.33(2.25)58.79(2.66)52.67(1.44)82.16(0.37)50052.04(1.52)52.27(2.80)72.26(0.96)75.16(1.09)73.56(2.24)84.69(0.42)3200094.92(0.21)93.28(0.15)95.67(0.10)94.47(0.29)96.25(0.06)96.05(0.13)MNIST-R-B5050.30(0.11)50.37(0.08)51.61(0.67)51.19(0.51)50.32(0.28)60.58(1.60)50050.35(0.12)50.47(0.19)56.21(0.27)53.10(0.93)52.39(0.49)62.68(0.46)3200079.04(0.25)75.94(0.80)78.73(0.26)78.55(1.17)80.92(0.41)81.54(0.57)表4. ABCD、WDC和PCD数据集上的更改检测精度。在ABCD和WDC数据集的列上,呈现了不同数量的阳性样本的准确度。在PCD数据集上,报告了三个评估指标(准确度、mIoU和阳性类别的IoU)的性能。用于PCD数据集的阳性样本数量为50。每个结果以使用不同训练子集通过10次训练运行获得的平均值和标准差的形式给出。标签数量5ABCD50所有WDC标签数量50 500Acc.PCDMiouIOU在样本下。61.14(11.61)64.05(17.16)95.24(0.20)53.12(4.56)51.72(3.03)73.28(3.10)56.27(3.32)47.95(2.20)过采样。60.88(13.58)54.05(11.78)92.91(0.39)52.02(3.37)52.09(4.80)80.52(3.48)60.88(3.68)44.92(3.49)转移77.39(7.30)88.17(0.75)96.03(0.19)61.32(1.73)71.07(3.04)75.59(2.58)58.74(2.77)49.60(2.18)MLVAE[5]65.36(5.19)86.31(1.80)95.33(0.19)63.58(1.59)74.70(0.77)76.88(1.22)60.13(1.50)50.55(1.75)Mathieu等人[17个]64.73(5.41)77.66(2.11)91.79(0.21)60.54(2.80)71.55(0.69)73.71(3.55)56.63(3.59)48.02(2.13)VLAE w/o sim.67.32(6.51)86.69(1.79)95.18(0.14)59.41(1.68)74.17(1.05)77.22(1.75)60.49(2.27)50.73(2.70)VLAE w/ sim. (我们的)78.52(5.01)89.70(0.77)95.60(0.14)63.25(0.86)75.70(0.66)78.20(1.96)61.66(2.23)51.77(1.84)在[17]的表达式中,递归需要类标签作为其额外的输入。然而,由于我们无法访问类标签,因此我们使用图像对(即,区分实数生成对和实数-实数对)。(4)异常检测方法:我们还尝试了[1,2,32]中的几种异常检测方法。为了应用这些方法,将每对中的图像连接起来,并将其视为单个数据点。模型仅使用负(即,正常)数据,并且罕见事件被检测为异常值。表示学习的模型架构。 我们构建了两个架构:一个用于增强MNIST数据集,另一个用于其余数据集。对于增强MNIST数据集,编码器具有“C-P-C-P-C-H”的简单架构这里,隐藏层由卷积层的四个分支组成,每个分支提取特定和常见特征的均值和对数方差对于数据集的其余部分,为了对复杂的现实世界场景进行建模,我们使用了[35]中提出的分层潜变量模型,其中特定图像通过具有不同抽象级别的多个潜变量的组合进行建模。具体来说,我们在实验中使用了一个具有5个隐藏层的由于目标事件通常与高层图像内容相关,因此仅在最上面的两个隐藏层上提取共同特征对于上述两种架构,解码器部分被设置为与其编码器对称。有关详细的架构和超参数设置,请参阅9334补充材料。用于微调的模型架构。在微调阶段,我们附加了一个由三个完全连接的层组成的事件检测器。增强MNIST数据集的层的维度为100-100-2,其余数据集的层的维度为2048-2048-2。在微调过程中,预训练编码器部分的学习率被降低了10倍。4.3. 定量结果表3显示了增强MNIST数据集的结果当标签是稀缺的,所提出的方法优于其他模型的一个很大的利润。通过比较具有和不具有相似性损失的模型(和“VAEw/ sim.”),我们可以得出结论,所提出的相似性损失对于学习用于变化检测任务的更好的表示是必要的。对于50个标签,性能改进尤其显著,与基线相比,所提出的模型改进了约20-30%。在表2中,我们还将我们的方法与几种异常检测方法进行了比较。在这种情况下,我们没有训练事件检测器。相反,我们通过将k均值聚类应用于常见特征之间的距离来检测变化事件。在表中,所提出的方法优于其他模型。表4分别显示了ABCD、WDC和PCD数据集的结果此外,对于这些野外数据集,9335(a) 源图像和地面实况(b)估计的变化掩码(c) 源图像和地面实况(d) 估计更改掩码图4.PCD数据集上的掩模估计结果示例从上到下,b列和d列中的数字显示了“样本不足"的结果“Transfer”和“VLAE w/ sim.(我们的)内插通用内插专用(a)(b)第(1)款图5.特征插值分析的结果。(a)插入共同特征。(b)具体特征的内插。CommonSpecific通用特定(a)MNIST-R(b)MNIST-B(c)MNIST-R-B图6.常见和特定特征的t-SNE可视化结果每个图的颜色代表数字类别。所提出的方法优于其他基线。图4比较了基线模型和建议模型的估计变化掩码。我们看到,基线模型对道路或建筑物中的照明变化或配准误差很敏感。很明显,他们遭受了由琐碎事件引起的假警报。另一方面,在所提出的模型的输出中成功地抑制了大部分假警报4.4. 潜在变量在本小节中,我们通过可视化来研究共同特征和特定特征内插:我们通过在成对图像之间线性内插图像表示来生成图像序列。为了独立地研究共同特征和特定特征的习得语义,特征一次插入一个,同时固定其他特征。图5显示了增强MNIST数据集的可视化结果。当共同的特征被插入到不同的-输入数字时,所生成的序列中的数字类相应地逐渐改变,而其它因素(即,旋转、样式和背景)不变。另一方面,当特定特征被内插时,旋转角度或背景图案相应地改变,而数字类保持不变。结果表明,共同特征提取的信息的数字类,但他们是不变的变化观察到在相同的数字对。2D可视化:我们通过t-SNE [ 30 ]可视化学习的特征。图6显示了常见和特定功能的可视化结果在该图中,相同的颜色图对应于相同的数字。我们看到,与特定特征相比,共同特征对数字类的信息量更大。我们还对其余数据集进行了上述可视化。然而,对于现实世界中复杂的场景,很难做到清晰的解缠。具体地说,我们观察到共同特征中的单元的激活退化到一定的值。9336稀疏性+invmax稀疏性w/o激活损失85807570650.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0的稀疏性参数图7.活化损失的影响分析。不同稀疏性参数值的结果显示为红色图(无invmax-loss)和蓝色图(有invmax-loss)。误差条显示了使用不同训练子集4.5. 消融研究激活损失的影响 为了研究激活损失的影响(等式2),(9)),对稀疏性参数和Linvmax的存在性进行了敏感性分析。图7显示了MNIST-R的结果。根据这些结果,我们可以得出几个结论。首先,大约0.5的稀疏性参数似乎是合适的,因为在大于0.5的参数值第二,使用Linvmax提升性能。最后,也是最重要的一点,无论参数选择如何,损耗提高了性能。相似性损失距离函数的选择。在这里,我们研究几个 选 择 的 距 离 函 数 方 程 。 ( 七 ) 、 表 5 比 较 了 在MNIST-R和ABCD数据集上评估的六种类型的距离函数。我们发现Mahalanobis距离和Jeffreys散度都是合适的选择。这个结果支持了我们的直觉,即我们不仅应该考虑潜在分布的均值向量,而且应该考虑分布的形状。重要性的分层潜变量在这里,我们研究了使用分层潜在变量模型进行表征学习的效果。在该分析中,从最低层到最高层依次从所提出的模型中消除隐藏层。图8显示了ABCD数据集上的结果。在图中,具有4个和5个隐藏层的模型表现更好。这一结果表明,提取层次隐变量的重要性,罕见的事件检测的复杂的现实世界的场景。5. 结论提出了一种新的表示学习方法来克服稀有事件检测任务中的类不平衡问题。拟议的网络学习两个分离的95908580751 2 3 4 5隐藏层个数图8.隐层数目的敏感性分析。误差条显示了使用不同训练子集的10次运行的准确度的标准偏差。表5.相似性损失中距离函数的选择比较。MNIST-RABCDL282.16(0.64)90.13(1.31)L179.14(0.90)89.01(1.44)余弦60.94(0.97)89.63(1.51)MMD62.30(0.50)89.69(1.35)杰弗里86.90(0.32)89.85(0.98)马氏89.73(0.56)89.70(0.77)通过在图像内容之间引入相似性约束,仅从低成本负样本中提取与图像内容和其它干扰因素相关的特征在随后的微调阶段中利用学习的特征,其中稳健地学习稀有事件检测器。通过对4个变化检测数据集的定量评价,验证了该方法的有效性为了进行评估,我们使用公开的数据存储库创建了一个大规模的变化检测数据集。此外,对增强MNIST的定性分析表明,该模型成功地学习所需的解开。对于现实世界中的复杂场景,由于在共同特征中观察到的退化解,我们的方法的性能将大大提高与更清晰的特征去纠缠。实现这一目标的下一步可能是通过引入[17]中使用的对抗训练来避免退化的解决方案,或者最大化共同特征和输入图像之间的互信息[8]。此外,在未来,我们打算将学到的不变特征应用于各种类型的事件检测任务,包括变化掩码估计和变化定位。确认本文是根据新能源和工业技术开发组织(NEDO)委 托 的 一 个 项 目 所 获 得 的 结 果 。 我 们 感 谢 NevrezImamoglu对距离度量的讨论和建议此外,我们感谢Motoki Kimura在准备WDC数据集方面的帮助。准确度[%]89.4590.0184.2485.0484.59准确度[%]9337引用[1] J. An和S.小周基于变分自动编码器的重构概率异常检测。新加坡国立大学数据挖掘中心,技术。众议员,2015年。五、六[2] C. Aytekin,X.Ni,F.Cricri和E.阿克苏。使用l2规范化深度自动编码器表示的聚类和arXiv预印本arXiv:1802.00187,2018。五、六[3] A. Babenko、A. Slesarev,A. Chigorin和V. Lempitsky图像检索的神经代码。见《欧洲法院判例汇编》,第584Springer,2014. 1[4] O. Barnich和M.范德罗根布鲁克。ViBe:一种通用的视频 序 列 背 景 减 除 算 法 IEEE Transactions on ImageProcessing,20(6):17092[5] D.布沙库尔河Tomioka和S.诺沃津多级变分自动编码器:从分组观测中学习解纠缠arXiv预印本arXiv:1705.08841,2017。二、五、六[6] K. Bousmalis,G.Trigeorgis,N.Silberman ,D.Krishnan和D.二汉域分离网络。NIPS,2016年。2[7] M.陈湖,澳-地Denoyer和T.阿蒂耶无需视图监督的多视图数据生成。ICLR,2018年。2[8] X. Chen ,Y. 段 河 ,巴 西 - 地Houthooft , J. 舒 尔 曼岛Sutskever 和 P. 阿 比 尔 InfoGAN : InterpretableRepresentationLearningbyInformationMaximizingGenerative Adversarial Nets. NIPS,2016年。二、八[9] Z. Chen,X.孙湖,澳-地Wang,Y. Yu和C.煌立体匹配代价的深度视觉对应嵌入模型在ICCV,2015年。1[10] A.藤田角Sakurada和T.今泉基于卷积神经网络的航空图像损伤检测MVA,2017年。5[11] A.藤田角Sakurada,T.今泉河Ito,S. Hikosaka和R.中村。基于卷积神经网络的航空图像损伤检测。在MVA,2017年。1[12] L. Gueguen和G.街利用卫星图像进行大规模损伤检测。CVPR,2015年。2[13] S.汗,X。他,F. Porikli,M.贝纳蒙F. Sohel,以及R.托涅里学习深度结构化网络进行弱监督变化检测。IJCAI,2017。2[14] S. H.汗,X。他,F. Porikli,M.贝纳蒙F. Sohel,以及R.托涅里学习深度结构化网络进行弱监督变化检测。在IJCAI,2017。1[15] D. P.Kingma和M.威林自动编码变分贝叶斯。ICLR,2014年。3[16] T. Kulkarni、W.Whitney,P.Kohli和J.特南鲍姆深度卷积逆图形网络。NIPS,2015年。2[17] M. Mathieu,J.Zhao,山核桃P.Sprechmann,A.Ramesh和Y.乐坤。使用对抗训练解开深层表征中的变异因素。NIPS,2016年。二五六八[18] A.奥德纳角,澳-地Olah,和J。史伦斯使用辅助分类器GANs 的 条 件 图 像 合 成 。 arXiv 预 印 本 arXiv :1610.09585,2016年。2[19] D. J. Rezende,S. Mohamed和D.维尔斯特拉深层生成模型中的随机反向传播和近似推理。arXiv预印本arXiv:1401.4082,2014。3[20] K. Sakurada和T.冈谷使用CNN特征和超像素分割从街道图像对进行变化检测在BMVC,2015年。1[21] K. Sakurada和T.冈谷使用CNN特征和超像素分割从街道图像对进行变化检测BMVC,2015年。5[22] N.西达斯湾佩吉,J。W. van de Meent,A. Desmai-son,N. D. Goodman,P. Kohli,F. Wood和P. H. S.乇学习解纠缠表示与半-有监督的深度生成模型。NIPS,2017年。2[23] E. Simo-Serra , E. 特 鲁 尔 斯 湖 费 拉 斯 岛 Kokkinos , P.Fua,和F.莫雷诺诺格尔深度卷积特征点描述符的判别学习。在ICCV,2015年。1[24] C. Stauffer和W.E. L. 格里姆森用于实时跟踪的自适应背景CVPR,1999年。2[25] S.斯滕特河盖拉尔迪湾Stenger,和R.西波拉检测多视图、长期表面检测的变化。在BMVC,2015年。1[26] Y. 太阳,Y.Chen,X.Wang和X.唐通过联合识别-验证的深度学习NIPS,第1988-1996页。Curran Associates,Inc.2014. 1[27] L. Tran,X. Yin和X。刘某解纠缠表示学习GAN用于姿态不变人脸识别。CVPR,2017年。2[28] http://opendata.dc.gov/pages/dc-from-above.DC GIS程序。5[29] http://www.iro.umontreal.ca/lisa/twiki/bin/view.cgi/Public/MnistVariations.增强的MNIST。5[30] L. van der Maaten和G.辛顿使用t-SNE可视化数据。Journal of Machine Learning Research,9:25797[31] Y. 温,K.Zhang,Z.Li和Y.乔一种用于深度人脸识别的判别见《欧洲法院判例汇编》,第499-515页。施普林格,2016年。1[32] Y. Xia、X. Cao,F. Wen,G. Hua和J. Sun.学习判别重建无监督离群删除。在ICCV,2015年。五、六[33] S. Zagoruyko和N.小木通过卷积神经网络学习比较图像块。CVPR,2015。1[34] J. Zbontar和Y.乐存。通过训练卷积神经网络来比较图像块的立体匹配JMLR,17(1),2016. 1[35] S. Zhao,J. Song,and S.厄蒙从生成模型中学习层次特征。ICML,2017. 6
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功