图1：对象级变化检测方法及其应用分析

109 浏览量更新于2023-10-15 收藏 1.29MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3993The Change You Want to See安德鲁·齐瑟曼视觉几何组，部门牛津大学工程科学系图1.在此图像对中，6个差异中的5个使用黄色框显示你能找到剩下的一个吗？我们的模型可以。摘要我们生活在一个动态的世界里，事情总是在变化。给定同一场景的两幅图像，自动检测它们中的变化在各种领域中具有实际应用。在本文中，我们解决的变化检测问题的目标是检测“对象级”的变化，在一个图像对，尽管他们的观点和照明的差异。为此，我们做出以下四点贡献：（i）我们提出了一种可扩展的方法，通过利用现有的对象分割基准来获得大规模的变化检测训练数据集;（ii）我们引入了一种基于共同注意力的新体系结构，该体系结构能够隐含地确定图像对之间的对应关系，并以边界框预测的形式找到变化;（iii）我们贡献了四个评估数据集，其覆盖了各种域和变换，包括合成图像变化、3D场景的真实监视图像以及具有相机运动的合成3D场景;（iv）我们在这四个数据集上评估了我们的模型，并展示了零射击和超越训练转换的泛化能力。代码，数据集和预训练模型可以在我们的项目页面找到： https ：//www.robots.ox.ac。uk/cnvgg/research/cyws/.1. 介绍变化就在我们周围。检测图像对或图像序列中的变化是一项自然的计算机视觉任务。它的应用范围从简单的我们在这项工作中研究的问题如下：给定一对图像，确定它们之间的所有变化（如果有的话）。挑战在于确定对于特定应用重要的图像之间的变化，同时忽略不相关的“噪声”或“讨厌”变量。例如，在具有固定摄像机的监视应用中，“滋扰”参数可以是场景的变化的照明、变化的雨、雾）等。这阻止了简单更一般地，可以从完全不同的视点拍摄两个图像，使得除了光度变换之外，在它们之间还可以存在几何变换。在此设置下，确定差异也可以隐含地子化配准问题。我们制定这个问题作为广泛研究的检测问题，其中每个变化是使用边界框划定，而不是计算每像素的变化。3994这使得“对象级”变化预测成为可能，并简化了对两个图像之间变化数量的计数。为了解决这个问题，我们引入了一个简单的连体神经网络架构，该架构在两个具有几何和光度变化的图像上操作，并且被设计为类不可知的，因为它可以检测到与所涉及的对象类无关的变化。我们使用了一种注意机制，类似于[36，33]，它可以隐式地确定图像之间的对应关系，配准它们并检测它们的差异。为了训练这种架构，我们引入了一种可扩展的方法，用于从真实图像生成合成训练数据其关键思想是利用现有的大规模图像数据集，如COCO和KITTI，并使用现成的修复方法来对图像中的各个区域进行修复，以创建修复后的图像与原始版本之间的差异。此外，我们采取措施，防止“作弊”的模型通过检测修补噪声。使用这个数据集，我们介绍了几何和光度变换，我们希望是不变的（即。对应用不重要）。我们证明，仅使用仿射变换和颜色抖动在此合成数据集上训练的模型可以以两种重要的方式进行概括：（i）它可以应用于其他数据集，我们在四个不同的数据集上评估了它的性能，包括不同的域和真实的和合成的情况;和（ii）它可以处理的变换扩展到仿射之外，我们通过包括由于相机运动而具有3D效果的数据集来评估这一点。第一个概括是使用变化的训练数据集的结果，第二个概括是使用注意力来隐式地确定对应关系的结果，而不是显式地计算图像之间的几何和光度变换。总的来说，我们做出了以下四点贡献：(i)我们引入了一种新的变化检测体系结构，作为一个检测（而不是分割）问题，它能够隐式地学习图像之间的对应关系;（ii）我们引入了一种新的可扩展方法，用于从现有的对象分割基准生成大规模的训练图像对数据集;（iii）我们定义了四个评估数据集，涵盖各种领域和转换：通过仿射变换相关的合成修补COCO图像对;以与场景的几何形状一致的方式添加了文本的各种图像; 3D场景的真实监控图像;以及使用Kubric管道的合成3D场景和相机运动;最后，（iv）我们消融了我们的设计选择，并展示了零拍摄和超越训练变换的泛化。2. 相关作品由于“变化”的概念非常广泛，探索场景变化的问题已经在几个不同的设置下进行了研究。在本节中，我们总结了每个类别中相关工作的贡献。更改标题：变化检测问题已经被提出作为一个字幕问题，该模型被期望以自然语言描述一对图像中的差异。Jhamtani等人[13]提出了一个从监控摄像机获得的图像对的点差（STD）数据集，其中包含基于文本的变化注释，并提出了一种通过使用一个潜在变量，用于将不同像素的集群与输出句子对齐。Park等人。[22]关注语义相关的变化，并提出了一种方法，该方法对STD以及新的变化检测数据集执行鲁棒的变化字幕。 Oluwasanmi 等人 [21] 提出了一个完全卷积的CaptionNet，它在STD数据集上的性能优于以前的方法。街景变化分割：大多数现有的作品，试图本地化之间的变化对图像，制定它作为分割问题，特别是在街景设置。Sakurada等人[27]提出了一种使用一对车辆全向图像分割街道场景变化的方法，目的是检测“城市规模”变化。为了实现同样的目标，Alcantarilla et al.[2]提出了一种用于在由车载单目摄像机随时间捕获的街景视频中执行结构变化检测的系统。Saku-rada等人[28]进一步提出了一个新的语义变化检测问题，并提出了一个弱监督的基于轮廓的模型来解决它。最近，雷等。[16]提出了一种方法来定位给定街景图像对之间的变化区域，并证明了优于先前方法的结果。这些方法面临的一个巨大挑战是缺乏大规模和全面标记的变化数据集。在街道等不受控制的设置中手动标记所有更改的像素是一项非常昂贵且容易出错的任务。[27]中提供的TSUNAMI和GSV数据集各包含100个图像对，其中作者报告花费20分钟来注释每个图像对。[28]中提供的PSCD数据集包含500个图像对，其中作者报告平均花费156分钟来注释每个图像对。尽管付出了巨大的努力，但（a）这些数据集相对较小，（b）它们的注释并不全面（通过选择），例如地面道路标志的变化没有计算在内。合成变化检测数据集：收集和标记真实世界图像的另一种方法是使用3995∈·SF联系我们SS·ΣSSSSSSSSS∈∥∥∥可以控制变化的合成数据集。为此，引入了用于零售店变化检测的StandardSim1[19]、用于仓库变化检测的ChangeSim [23]和用于街道场景变化检测的CARLA-OBJCD1在这项工作中，我们采用切线方法，并利用现有的大规模对象检测数据集来训练我们的I2R3×H×W，它们之间存在未知的几何变换，用于定位它们之间变化的模型被分成四个分量。U-Net编码器：首先，我们使用U-Net编码器（CNN）对I 1，I 2进行编码，由ΦE（）表示，以获得多个空间分辨率s的密集特征描述符。具体-模型此外，我们还研究了变化检测我们得到了特征图f1∈Rcs×hs×ws和问题作为基于边界框的检测问题（与分割相反），这使得我们可以相对轻松地策划各种测试集，以可靠地评估我们的模型。变更分类：Fujita等人也将变化检测作为分类问题进行了探索。[7]用于损伤检测和Wu et al.[38]第 3 8 话2Rcs×hs×ws 分别针对图像I1，I2，其中s 1，2，3，在ResNet50 [12]模型中的最后三个块之后。Co-Attention模块：为了预测I1中的变化区域，其特征映射也必须嵌入I2中的信息，反之亦然。因此，我们希望将嵌入在f1和f2中的信息相互传播，以便S s在书的封面上。对应匹配：一个正交的，但相关的，计算出“变化”的内容为了允许这种信息交换，我们使用了共同注意模块[36]。直观地，位置处的每个特征向量改变检测的问题是对应性（x1，y1）inf1关注所有位置的特征向量匹配，其目标是在图像中找到对应点而不是差异。存在大量文献提出了找到一对图像之间的对应点的方法[6，15，29，33，34，35，3，30]。3. 架构概述：给定一对经过几何变换的图像，我们的目标是定位它们之间的变化。（x2，y2）在f 2中，并连接到它们的加权和（反之亦然）。这可以被认为是在空间上扭曲一个图像的特征向量并与另一个图像连接，使得两个图像被配准。形式上，我们获得共同关注特征g1=[f1<$（f1，f2）]和g2=[f2<$（f2，f1）]，其中[]是级联操作（沿着通道c），并且<$（）是交叉关注机制，定义为它们以每个图像的边界框预测的形式。要做到这一点，模型必须具有计算n（fq，fk）CIJ =1000000 国际法学家协会.Vclm（一）在两个图像之间的对应关系，并确定某些区域是否已经改变，同时忽略诸如光度变化的不利因素。因此Lm其中，模型必须同时对两幅图像进行操作，以有意义的方式合并它们的特征图，并定位变化的区域。我们通过首先使用基于CNN的编码器为每个图像并且，在本发明中，Aijlm=Softmax（Qcij.Kclm， dim=l，m）（2）CQ=Wqfq，K=Wkfk，V=fk（3）然后，这些密集特征描述符使用共同注意机制相互制约，该共同注意机制隐含地其中Wq和Wk是可学习的参数。因此，特征图g1和g2以两个图像为提供对应关系。接下来，这些有条件的fea-s真实描述符通过解码器以获得高分辨率的经调节的图像描述符，边界框检测头使用这些图像描述符来定位变化。简而言之，我们采用了一种连体架构，包括一个U-Net模型[25]，用共同关注层[36]和并发的空间和通道挤压激励块（scSE）[26]调制，然后是边界框预测头[39]，如图3B所示。二、在详细说明，给定两图像 I1∈R3×H×W，3996·SS1在撰写本文时，这些数据集尚未公开发布并包含足够的信息来定位变化。U-Net解码器：在此之后，我们使用U-Net解码器（具有来自编码器的跳过连接）对g 1，g 2进行上采样和解码，用scSE块[26]调制，由ΦD（）表示，以分别以原始图像分辨率产生特征图h1和h2。Bbox头部：最后，h1和h2被馈送到CenterNet头部，其最小化如[39]中所述的检测损失函数，以在两个图像中的变化区域周围产生边界框3997图2. 在两个图像I1、I2中，编码器分别以多个分辨率产生特征图f1、f2。一个合作-S s注意模块然后用于计算与另一图像直接配准的条件特征图G1、G2U-Net风格SS然后，将解码器应用于原始特征图和条件特征图，以产生特征图H1、H2。最后，bbox检测器头使用h1、h2来产生关于I1、I2的边界框。对于brevity，我们只显示图像I1的这个管道（它对图像I2是对称的）。请参见Sec。3详情图3.训练数据生成管道：上图说明了我们如何从单个COCO图像中生成具有变化区域的多个图像对给定一个原始COCO图像，我们首先（a）使用一个inpainting方法来计算几个具有修复区域的图像。然后（b）给定原始图像和修复后的图像，我们随机采样一个图像对进行训练，以及它们的真实边界框，如图所示。请注意，图像对可能具有无效更改的已修复区域。这可以防止模型崩溃到简单地学习噪声模式。请参见Sec。4了解详情。4. 无变更检测数据集？没问题深度学习方法最近的成功大部分归功于具有可靠注释的大规模训练数据集的可用性。然而，目前还没有公开的数据集的变化检测问题，制定这项工作。为了避免管理和手动标记数千个图像对的变化，我们提出了一个程序，以利用现有的大规模图像数据集和最先进的图像修复方法，ODS模拟视觉上真实的“变化”。完整的训练数据处理管道如图所示。3，我们在下面描述细节。已修复的更改：在这项工作中，我们使用了COCO数据集[18]，它为每个图像中的各种对象提供了边界框和分割掩码。给定COCO图像以及其中各种对象的二值分割掩模，我们使用最先进的图像修复方法LaMa对所39982×联系我们66∈ −∈ ∈ −[32] ，以使对象“消失”。得到的修复图像与原始COCO图像一起构成了一个变化的图像对（消失的对象），我们有地面实况注释（原始COCO图像中对象的边界框）。消除修复噪声：尽管修复产生了看似真实的变化，但我们注意到，修复区域往往具有“噪声”（如文献[17，37]中的其他作品所观察到的）。为了阻止模型简单地学习这种修复噪声，而不是学习图像之间的实际变化，我们采用了以下两种策略：•对于每个COCO图像，我们获得多个修复图像，每个图像具有不同的修复对象子集，我们从中随机抽取两个。例如，考虑具有3个对象的图像：A，B，&C。假设我们获得两个已修复的图像：I1只有对象A（B& C已被修复），I2只有对象B（A&C已被修复）。在这种情况下，模型必须预测每个图像的两个边界框（B不存在于I1中，A不存在于I2中，因此每个图像有两个变化区域）。同时，模型必须学会忽略C的补漆噪声，该噪声在两个图像中都消失了，因此不是有效的变化。因此，我们迫使模型学习实际的视觉显著变化。•除了修复的变化，我们还将随机对象“粘贴”到图像中（从不同的随机COCO图像中获取）以模拟变化。虽然这些插入的对象在视觉上看起来不切实际，但它需要模型预测训练数据集：我们从COCO火车子集中随机选择60000张图像作为我们的“原始”图像。对于每个原始图像，我们使用LaMa [32]生成n个1，2，3图像，每个图像都有不同的对象子集，如上面的流水线所述。然后，我们随机分裂这60000个样本（每个与Cn+1图像对）到训练和验证集分别由57000和3000个样本。每个图像的大小调整为256 -256像素（由于计算限制），以及适当的缩放其地面实况变化边界框。给定一个图像对，我们应用随机仿射变换（scale[0.八，一。5]，翻译[ 0. 2，0。2]和旋转[π，π]），并适当调整地面实况边界框。此外，我们应用随机颜色抖动，使我们的模型不受光度变化的影响。我们注意到，变更注释是类不可知的，因为它们不能访问COCO类标签，而唯一的分类是边界框的尺度发生了变化。验证集严格用于选择最佳模型（具有最低损失）进行评估，并且不会以任何其他方式通知训练。5. 实验给定两个图像，在一些几何变换下，我们的目标是定位变化的区域，同时对光度变化保持不变。本节描述了我们用来测试模型的数据集和各种实现细节，以及结果。5.1. 评价数据集为了评估我们模型的性能，我们提供了四个测试数据集，如下所述。请参见图4例如图像对。COCO-Inpainted：我们从COCO测试子集中策划了一个基于inpainting的测试集。我们根据修复对象的大小（小，中，大，如[1]中定义）将此测试集分为3类。使用相同的方法，如第二节所述。4，我们为小的1655个图像对，中等的1747个图像对和大的1006个图像对策展，为这个测试集提供了总共4408个图像对。此外，我们将随机仿射变换与颜色抖动一起应用于图像。由于仿射变换和裁剪，将存在图像的一些区域在另一图像中不具有对应性。请参见图中的第一个示例对。4参考。Synthtext-Change：我们使用[10]中描述的流水线将随机文本合成添加到“背景”图像中，并以与其几何结构一致的方式生成5000个具有基于文本的变化的图像对。我们不再进一步增强图像，即图像具有同一几何和光度变换。请注意，为了简化定量评估，生成的文本是不同大小的合理间隔的字母。这避免了必须处理字母级、单词级和段落级预测，其中模型将空间上接近的小字母分组到单个边界框中，但为更大的字体大小预测每个字母的边界框VIRAT-STD：为了检测室外场景的变化，我们从STD数据集中随机选择1000个图像对[13]。这些图像对最初取自VIRAT视频数据集[20]，该数据集具有每个视频帧中几个对象的边界框注释。由于STD没有为更改提供地面实况边界框注释，因此我们使用尽力而为的自动化管道来获得地面实况（其中一小部分由人工验证）。因为摄像机是静态的，3999图4. 定性结果：我们在所有测试集上显示模型的边界框预测（实线），以及地面实况（虚线）。由于检测头每幅图像输出100个边界框（见第5.2），为了可视化的目的，我们显示了5个最有信心的预测。在多个边界框有明显重叠的情况下，我们保持最自信，抑制其他边界框。请注意COCO-Inpainted中的显著光度变化，Kubric-Change中的3D几何效果（注意第2行第3-4栏中的杯子内部），VIRAT-STD中非常小的物体的检测（甚至拾取不属于地面实况的有效变化例如第5行，第5-6列）和Synthtext-Change中非常微妙的字母我们建议读者放大单个图像对进行检查。在图像之间存在恒等几何变换（尽管可能存在由于风等引起的相机的小运动），但是光度条件可能由于一天中的时间、天气条件等而改变。Kubric-Change：我们使用最近推出的Kubric数据集生成器[8]，以管理1605个具有受控变化的逼真图像对。场景由一组随机选择的3D对象组成，这些对象位于随机纹理的地平面上。对于一个给定的场景，我们迭代地从中删除对象，并捕获“之前”和“之后”的图像对。与上面的数据集不同，4000图5. 共同注意力地图：给定I1（QUERY）中的一些预定区域，我们从模型的（空间最高分辨率）COAM层可视化I 2（REFERENCE）中的交叉参与区域。左边的例子显示了Q个UERY区域的不同形状和大小，包括单个像素的对应关系。右侧的示例显示了所选查询区域在右侧没有对应关系的情况（因为对象丢失）很明显，该模型不仅学会了在两个图像之间建立对应区域，而且还学会了细粒度的点对点对应关系。主干#attn模块attn类型scSE几何变换coco-inpainted测试集（AP）（列车试验）小介质大所有ResNet182COAM✗仿射0.080.160.260.11ResNet183COAM✗仿射0.320.490.490.37ResNet503Noam✗仿射0.150.320.490.21ResNet503COAM✗仿射0.460.740.700.58ResNet503COAM✓仿射0.460.790.850.63ResNet503COAM✓身份0.600.890.940.73ResNet503Noam✓身份0.680.930.950.79表1. 消融研究：我们消融我们的模型的各种组件，并报告了两个变体（仿射，身份）的COCO-修复测试集的AP。请注意，由于应用几何变换时的越界裁剪，仿射和恒等测试集不一定具有相同的更改次数，并且在一个上训练和测试的方法不应直接与另一个进行比较图像之间的平面几何变换（仿射或恒等），对于这些图像对，相机中心移动。由于场景是3D的，因此图像对之间可能存在视差和遮挡/去遮挡变化。5.2. 执行我们使用ResNet 50 [12]作为U-Net模型的编码器（具有ImageNet预训练的权重），具有5个块（1-5），其中我们将共同注意力模块应用于块3-5的特征U-Net解码器还具有深度为（256，256，128，128，64）的5个块以及scSE块[26]。CenterNet头的实现方式如[39]其隐藏通道维度为64，并且被配置为预测每个图像100个整个模型有49.5M可训练参数，在2个P40 GPU上训练200个epoch，使用DDP训练策略，批量大小为16。我们使用Adam [14]来优化总体目标，学习率为0。0001，权重衰减为0。00055.3. 评估指标为了定量评估我们的模型，我们计算了[5]中定义的平均精度（AP）指标，这是标准的。我们强调这样一个事实，即对于每个图像对，模型输出两个图像的变化区域的边界框，并进行评估。5.4. 消融为了研究我们的方法的各个模块的效果，我们烧蚀我们的模型的不同组件，并显示其性能的3个子集（小，中，大）的COCO-Inpainted测试集。从表1中可以看出，使用更多的注意力模块（3个而不是2个），使用更大的模型（ResNet50而不是ResNet18）以及添加scSE块[26]都可以改善结果。此外，给定仿射变换下的两个图像，我们认识到，如果它们的变换矩阵是已知的，则可以将它们因此，如果我们先验地知道图像被配准，我们注意到它是正的，4001∈SSSS∈∈测试集COCO-补漆Synthtext-ChangeVIRAT-STD库布里克-尚热类型修复合成房逼真模拟固定摄像机✓✓✓✗几何变换仿射没有一没有一3D#图像对4408500010001605结果（AP）0.630.890.540.76表2. 定量结果：我们在各种测试集上报告了我们的模型（ResNet50，3个COAM层，带有scSE块）的AP。可以用简单模块（我们称之为无注意模块（NOAM））替换共同注意模块（COAM），其简单地连接来自两个图像的特征图，即，在等式中，f（f q，fk）=f k。1.表1的结果表明，当图像经过恒等变换时， COAM与NOAM几乎相当，而在几何变换时，NOAM比COAM差得多5.5. 结果我们将我们的模型（ResNet50骨干，3个COAM层，带有scSE块）在第二节中描述的数据集上训练4（具有仿射变换），并在4个测试集上对其进行评估，而无需任何进一步的训练/微调。我们在图中展示了模型的一些定性预测4，并在表2中报告平均精密度值。据我们所知，没有使用基于边界框的方法来解决变化检测问题的现有工作，这使得难以将我们的方法与现有技术进行比较。我们的研究结果表明，我们的方法不仅能够检测极端仿射变换和颜色抖动的COCO-Insained测试集下的变化，但它也能够推广零拍摄到改变图像对pro-cured从非常不同的数据分布。特别是，我们注意到，尽管我们的模型只使用仿射变换进行训练，但它在Kubric-Change测试集上产生了令人印象深刻的结果，其中由于相机中心的移动以及场景中的对象是3D的事实，改变的图像对不再与单应性相关在图5中，我们显示了来自共同注意力模块的注意力地图的可视化。具体地说，给定图像I1和I2的特征映射f1RC×I×J和f2RC× L × M，我们用公式ARI×J×L × M得到图像I1和I2的特征映射f2 RC × L ×M。2.然后，对于f 1中的一组查询位置q，共同注意力图G，由下式给出：Glm= maxAijlm，（4）（i，j）∈q表示f2中的参与位置。从可视化中可以明显看出，模型已经学会了在两个图像之间建立对应关系，这是找到变化的逻辑步骤。6. 结论人类很难发现场景中的变化-这就是为什么我们倾向于发现“发现差异”的任务是相当具有挑战性的。在这个已经困难的问题上增加视点和摄影测量的变化，进一步增加了它的困惑。在这项工作中，我们解决了自动检测的问题，在一些几何变换下，在同一场景的两个图像中的变化，而忽略讨厌的因素，如光度变化。我们研究了这个问题的一个新的提法，并把它作为一个边界框为基础的检测问题。由于缺乏针对此问题的大规模训练数据集，我们提出了一个训练数据生成管道，该管道利用了前向数据集（或任何任意图像集合）和现成的图像修复方法。最后，我们提出并训练了一种新的神经网络（使用标准检测损失[39]的端到端方式），并证明它能够在几个新的基准测试中成功地零触发检测变化（无需任何微调或sim2real训练）。局限性：在这项工作中提出的方法主要集中在检测事物而不是材料的变化（如[4]中定义的）。虽然经过训练的模型很可能有能力检测到内容的变化，但我们还没有对此进行研究此外，由于训练模型是变化检测器而不是对象检测器，因此它可以将若干重叠的变化对象分组到单个边界框中（作为单个变化最后，由于训练数据的性质，该模型主要在具有轻度遮挡/不遮挡的相对平坦的场景上进行测试接下来，对于一般的双视图场景，相机姿态的显著变化和诸如视差和严重遮挡/不遮挡的挑战是未来工作的自然方向。鸣谢：我们要感谢Charig Yang、Laurynas Karazija、Luke Melas-Kyriazi、Aleksan- darv（Suny）Shtedritski和Yash Bhalgat对本文的校对。这项研究得到了EPSRCProgramme Grant VisualAI EP/T028572/1和英国皇家学会的支持。搜索Professorship RP\ R1\ 191132。4002引用[1] COCO检测评估，https://cocodataset.org/#detection-eval。[2] 巴勃罗湾阿尔坎塔里拉，西蒙·斯坦特，德国罗斯，罗伯托·阿罗约，里卡多·盖拉尔迪.用去卷积网络进行街景变化检测。在机器人程序：科学与系统，安阿伯，密歇根州，2016年6月。[3] Connelly Barnes，Eli Shechtman，Adam Finkelstein，andDan B Goldman. PatchMatch：一种用于结构图像编辑的随机对应算法。ACMTransactions on Graphics（ToG），第28卷，第24页。ACM，2009年。[4] Holger Caesar Jasper Uijlings和Vittorio Ferrari可可-东西：上下文中的事物和东西类。在IEEE计算机视觉和模式识别会议论文集，第1209-1218页[5] Mark Everingham，Luc Van Gool，Christopher KIWilliams，John Winn，and Andrew Zisserman.pascal视觉对象类（voc）的挑战。International Journal ofComputerVision，88（2）：303[6] Mohammed E Fathy，Quoc-Huy Tran，M Zeeshan Zia，Paul Vernaza和Manmohan Chandraker。2D和3D几何对应的分层度量学习和匹配。Proc. ECCV，2018。[7] Aito Fujita、Ken Sakurada、Tomoyuki Imaizumi、RihoIto、Shuhei Hikosaka和Ryosuke Nakamura。基于卷积神经网络的航空图像损伤检测2017年第十五届IAPR机器视觉应用国际会议（MVA），第5-8页[8] Klaus Greff，Francois Belletti，Lucas Beyer，CarlDoersch，Yilun Du，Daniel Duckworth，David J Fleet，DanGnanapra- gasam，Florian Golemo，CharlesHerrmann，et al. Kubric：可扩展的数据集生成器。在IEEE/CVF计算机视觉和模式识别会议论文集，第3749-3761页[9] 莱昂内尔·盖冈和拉菲·哈米德。利用卫星图像进行大规模的损害检测。2015年IEEE计算机视觉和模式识别会议（CVPR），第1321-1328页[10] Ankush Gupta，Andrea Vedaldi，Andrew Zisserman.用于自然图像中的文本定位的合成数据2016年在IEEE计算机视觉和模式识别会议上发表[11] 滨口龙平，岩濑俊，横田理央，松雄丰，肯 Sakurada等人用于场景变化检测的核线引导深度目标匹配。arXiv预印本arXiv：2007.15540，2020。[12] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习在IEEE计算机视觉和模式识别会议论文集，第770-778页[13] 哈什·贾姆塔尼和泰勒·伯格-柯克帕特里克。学习描述相似图像对之间的差异。在2018年自然语言处理经验方法会议（EMNLP）的会议记录中，2018。[14] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。[15] Zihang Lai，Erika Lu，and Weidi Xie. MAST：记忆增强的自我监督跟踪器。在Proc. CVPR，2020中。[16] Yinjie Lei，Duo Peng，Pingping Zhang，Qiuhong Ke，and Haifeng Li.分层成对通道融合网络用于街景变化检测。IEEE Transactions on ImageProcessing，30：55[17] Ang Li，Qiuhong Ke，Xingjun Ma，Haiqin Weng，Zhiyuan Zong，Feng Xue，and Rui Zhang.噪音不会说谎：向通用检测深度修复。Zhi-Hua Zhou，编辑，第三十届国际人工智能联合会议论文集，IJCAI-21，第786人工智能组织国际联合会议，2021年8月。主轨道。[18] 作者：Michael Maire，Serge J. Belongie，James Hays，PietroPerona，Dev aRamanan，PiotrDol la'r，andC.劳伦斯·齐尼克。微软coco：上下文中的公用对象。2014年，在ECCV[19] 克里斯蒂娜·马塔，尼克·洛卡西奥，穆罕默德·阿泽姆·谢赫，肯尼·基哈拉和丹·菲切蒂。Standardsim：零售环境的综合数据集。图像分析与处理国际会议，第65-76页施普林格，2022年。[20] Sangmin Oh，Anthony Hoogs，Amitha Perera，NareshCun-toor，Chia-Chih Chen，Jong Taek Lee，SaurajitMukherjee，JK Aggarwal，Hyungtae Lee，LarryDavis，et al.监控视频中事件识别的大规模基准数据集。CVPR 2011，第3153-3160页。IEEE，2011年。[21] 放大图片作者：Ariyo Oluwasanmi，Enoch Frimpong，Muhammad Umar Aftab，Edward Y. Baagyere，Zhiguang Qin，and Kifayat Ul-lah.完全卷积字幕：注意力模型。IEEE Access，7：175929-175939，2019。[22] Dong Huk Park Trevor Darrell和Anna Rohrbach。抢劫犯换字幕。在2019年IEEE/CVF计算机视觉国际会议（ICCV）上，第4623[23] Jin-Man Park，Jae-Hyuk Jang，Sahng-Min Yoo，Sun-Kyung Lee，Ue-Hwan Kim，and Jong-Hwan Kim.Changesim：面向工业室内环境的端到端在线场景变化检测。2021年IEEE/RSJ智能机器人和系统国际会议（IROS），第8578-8585页IEEE，2021。[24] 朱莉娅·帕特里阿奇和布拉德利·埃里克森脑连续成像研究中自动检测变化的综述。J.数字。Imaging，17（3）：158-174，Sept. 2004年[25] Olaf Ronneberger，Philipp Fischer，and Thomas Brox. U-net：用于生物医学图像分割的卷积网络。在医学图像计算和计算机辅助干预国际会议上，第234241.施普林格，2015年。[26] Abhijit Guha Roy、Nassir Navab和Christian Wachinger。全卷积网络中的并发空间和信道医学图像计算和计算机辅助干预国际会议，第421-429页Springer，2018.4003[27] 樱田健和冈谷隆之。基于cnn特征和超像素分割的街道图像对第61.1-61.12页[28] Ken Sakurada，Mikiya Shibuya，and Weimin Wang.基于弱监督轮廓的语义场景变化检测。2020年IEEE机器人与自动化国际会议（ICRA），第6861-6867页[29] Nikolay Savinov，Lubor Ladicky，and Marc Pollefeys.匹配神经路径：从识别过渡到对应搜索。NeurIPS，2017。[30] JohannesLutzSchoünberger， EnliangZheng ， MarcPollefeys，and Jan-Michael Frahm.用于非结构化多视图立体的逐像素视图选择。在Proc. ECCV，2016中。[31] SimonStent，RiccardoGherardi，BjoérnStenger，andRobertoCipolla.检测变化，进行多视角、长时间的表面检测。谢祥华、马克·W. Jones和Gary K.L. Tam，编辑，英国机器视觉会议（BMVC）论文集，第127.1-127.12页BMVA Press，September 2015.[32] Roman Suvorov，Elizaveta Logacheva，AntonMashikhin，Anastasia Remizova，Arsenii Ashukha，Aleksei Silvestrov，Naejin Kong，Harshith Goka，Kiwoong Park，and Victor Lempitsky.分辨率稳健的大掩模修补与傅立叶卷积。在IEEE/CVF计算机视觉应用冬季会议论文集，第2149-2159页[33] Carl Vondrick、Abhinav Shrivastava、Alireza Fathi、Sergio Guadarrama和Kevin Murphy。通过对视频进行着色来实现跟踪。Proc. ECCV，2018。[34] Qianqian Wang，Xiaowei Zhou，Bharath Hariharan，andNoah Snavely.使用相机姿势监督学习特征描述符。Proc.ECCV，2020。[35] Xiaolong Wang，Allan Jabri，and Alexei A Efros.从时间的周期一致性中学习对应。在proc CVPR，2019年。[36] Oli viaWiles，塞巴斯蒂安·厄哈特，和Andre wZisse r-man. Co-attention for conditioned image matching. 在IEEE/CVF 计算机视觉和模式识别会议论文集，第15920-15929页[37] 吴海伟，周建涛，田金宇，刘军。在线社交网络共享图像的鲁棒图像伪造检测。在IEEE/CVF计算机视觉和模式识别会议论文集，第13440- 13449页[38] 吴俊辉、叶韵、雨晨、智翁。通过对象检测发现差异，2018年。[39] XingyiZhou，DequanWang，andPhilippKr¨henb ¨ hl. 对象作为点。arXiv预印本arXiv：1904.07850，2019。

下载后可阅读完整内容，剩余1页未读，立即下载