多变化字幕检测与定位的变压器方法

57 浏览量更新于2023-10-16 收藏 12.64MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Yue Qiu1*, Shintaro Yamamoto1,2*, Kodai Nakashima1, Ryota Suzuki1,Kenji Iwata1, Hirokatsu Kataoka1, Yutaka Satoh1{qiu.yue, yamamoto.shintaro, nakashima.kodai, ryota.suzuki,kenji.iwata, hirokatsu.kataoka, yu.satou}@aist.go.jp19710使用变压器描述和定位多个变化01日本高级产业科学技术研究所（AIST），2早稻田大学0摘要0变化字幕任务旨在检测在场景变化之前和之后观察到的图像对中的变化，并生成变化的自然语言描述。现有的变化字幕研究主要集中在单个变化上。然而，在图像对中检测和描述多个变化的部分对于适应复杂场景是必不可少的。我们从三个方面解决上述问题：（i）我们提出了基于模拟的多变化字幕数据集；（ii）我们在多变化字幕上对现有的最先进的单变化字幕方法进行了基准测试；（iii）我们进一步提出了多变化字幕变压器（MCCFormers），通过密集地相关不同图像对中的区域，并动态确定与句子中的单词相关的变化区域。所提出的方法在多变化字幕的四个传统评估指标上获得了最高分。此外，我们提出的方法可以为每个变化分离注意力图，并在变化定位方面表现良好。此外，所提出的框架在现有的变化字幕基准测试CLEVR-Change上的性能超过了以前最先进的方法很多（BLEU-4上+6.1，CIDEr得分上+9.7），表明它在变化字幕任务中具有普适能力。代码和数据集可在项目页面1上获得。01. 引言0在不同时间检测和描述场景中的变化部分在各种场景中都是必不可少的，例如城市化分析[1, 2, 3]，资源管理[4, 5, 6, 7,8]，更新用于导航的街景地图[9, 10]，损坏检测[11,12]，视频监控[13]等。0* 平等贡献 1 https://cvpaperchallenge.github.io/Describing-and-Localizing-Multiple-Change-with-Transformers0之前0之后0变化之前的0小绿色橡胶球改变了它的位置。0大紫色金属球放弃了它的位置给一个大棕色金属球。0大红色金属立方体不再存在。0一个小黄色橡胶立方体取代了一个大紫色金属立方体。0之后0图1.给定一个场景的两个图像，观察到多个变化之前和之后（第一列），我们为每个场景变化生成变化字幕，并显示了指示变化对象区域的注意力图（第二和第三列）。0和机器人应用[14,15]。最近，Jhamtani和Berg-Kirkpatrick[13]提出了变化字幕任务，用于描述从场景变化之前和之后的图像对中的变化。描述变化对于提取语义内容和向人类传达信息是有用的。0已经提出了几种用于变化字幕的方法[13, 16, 17, 18,19]。大多数现有的工作都集中在描述单个变化上。实际上，一个图像对中可能会出现多个变化。Jhamtani和Berg-Kirkpatrick[13]研究了具有多个变化的场景变化字幕，然而，他们解决的问题是已知变化数量的问题，而在实际问题中并没有提供这个信息。实际上，在没有关于变化的先验信息的情况下检测和描述场景变化对于向用户提供信息更有用。我们解决了多变化字幕的问题，其中定位了变化区域，并从一对图像生成了场景变化的语言描述，这对于具有未知数量变化的图像对来说是非常有用的，如图1所示。0变化字幕生成需要捕捉图像对之间的关系，定位变化区域，并生成语言描述。19720生成语言描述。在本研究中，我们引入了一种简单而有效的框架Multi-Change Captioning Transformers(MCCFormers)，基于在自然语言处理中表现良好的编码器-解码器Transformer[20]。编码器Transformer捕捉两个图像中局部区域之间的关系以检测场景变化。然后，解码器Transformer对变化的区域进行注意并生成变化的语言描述。与现有方法生成静态注意力图[16，17]不同，解码器Transformer为每个生成的单词更改了空间注意力。因此，解码器Transformer可以区分不同的变化并避免将它们混淆在一起。为了评估多变化字幕生成和定位能力，我们构建了一个新颖的CLEVR-Multi-Change数据集，其中包含包含多个变化、变化字幕和变化区域的图像对。我们将提出的MCCFormers模型与几种最先进的方法在多变化设置下进行了比较。实验结果表明，所提出的方法在变化字幕生成和定位方面表现良好。我们的工作有三个贡献：(i)我们解决了一种新颖的多变化字幕生成任务，并提出了一个用于该任务的数据集，其中在变化前后的图像中存在多个变化，变化的数量未知；(ii)我们提出了MCCFormers，它由编码器-解码器Transformer组成，可以捕捉图像之间的关系，并将图像区域与单词密切相关；(iii)所提出的MCCFormers在四个传统的图像字幕生成评估指标上优于现有方法，并在多句子变化字幕生成的定位方面显示出有希望的能力。02. 相关工作02.1. 变化检测0从不同时刻捕获的场景中进行变化检测已经在各个研究领域进行了研究。[14，15，21]讨论了从室内场景进行变化检测。还有一些现有的研究讨论了灾害管理[11，12]、资源监测[6，7]和车辆导航[9]的变化检测。在现有的研究中，[14，15，21]提出了基于规则的方法来检测一组3D地图中的变化部分。[6，7，9，11，12]讨论了生成用于指示图像对之间变化区域的像素级别地图。与变化检测不同，我们处理的是定位和描述变化。02.2. 图像字幕生成0图像字幕生成是计算机视觉和自然语言处理交叉领域中一个研究得较多的主题。Vinyals等人[22]提出了编码器-解码器架构，其中编码器提取图像特征，解码器生成图像描述。0生成图像的描述。Xu等人[23]引入了注意机制，将每个单词与图像中相关区域对齐。受人类视觉系统的启发，Anderson等人提出了一种结合了自下而上和自上而下注意机制的方法[24]。在自然语言处理中，transformer-based方法已经被引入到图像字幕生成中[25，26，27]。与为单个图像生成字幕的图像字幕生成不同，我们处理需要捕捉两个图像之间关系的变化字幕生成。02.3. 变化字幕生成0几项研究集中在描述两个不同时刻的两幅图像之间的变化的标题。Jhamtani和Berg-Kirkpatrick[13]构建了包含13,192个场景变化图像对的Spot-the-Diff数据集。每个图像对平均有1.86个变化描述句子。然而，他们解决了已知变化数量的问题。相比之下，我们研究了多变化标题任务，其中场景变化的数量未知。Park等人[16]引入了CLEVR-Change数据集，以克服Spot-the-Diff数据集的几个限制，包括缺乏视点变化和定位的真实性。[28]和[29]的作者讨论了从多个视点观察到的图像对的变化标题。本研究解决了未知变化数量的多变化标题问题，并开发了CLEVR-Multi-Change数据集来评估定位能力和标题生成能力。Jhamtani和Berg-Kirkpatrick[13]提出了DDL算法，它计算图像对之间的像素级差异，限制了处理视点变化的能力。相比之下，DUDA[16]利用特征级别的差异增强了对视点变化的鲁棒性。Oluwasanmi等人[18，19]提出了Siamese差异标题模型。M-VAM[17]通过评估图像对的不同补丁的相似性将视点变化与语义变化分离开来。DUDA和M-VAM中使用的空间注意力是静态的，这限制了它们区分不同变化的能力。在本研究中，我们构建了基于Transformer的编码器-解码器模型来进行多变化标题。编码器Transformer使用多头注意力计算图像对之间的补丁级别相似性，捕捉不同类型的变化。解码器Transformer对来自编码器的图像补丁执行多头注意力，捕捉生成的单词与图像区域之间的关系，从而可以区分不同的变化。03. CLEVR-Multi-Change数据集0现有的变化标题研究主要集中在单一变化上。然而，识别和区分同时在图像中表现出来的多个变化区域是一项挑战。19730之前0变化标题0之后0标题1：大灰色橡胶球消失了。（删除）0标题2：大青色金属立方体不再存在。（删除）0标题3：大棕色金属球从原来的位置移动了。（移动）0标题4：小黄色橡胶圆柱体被小红色橡胶球替换了。（替换）0图2.CLEVR-Multi-Change数据集的示例。变化的对象通过与相关变化标题相同颜色的边界框进行突出显示。更多数据集示例请参见补充材料。0数据集多视角定位总计0变化变化图像对0Spot-the-Diff [13] � 13,192 CLEVR-Change [16] � � 79,606CLEVR-Multi-Change � � � 60,0000表1. 变化标题数据集比较。01个变化 2个变化 3个变化 4个变化0图像对 15,137 14,873 14,988 15,002 标题 75,685 74,36574,940 75,010 边界框 22,775 44,495 67,329 89,7440表2. CLEVR-Multi-Change数据集统计。0由于频繁的人类活动，对图像对进行变化区域定位是必要的。此外，变化区域定位在各种应用中也是至关重要的。例如，对于机器人操作应用程序，定位目标对象是必不可少的。为了解决这些问题，我们提出了CLEVR-Multi-Change数据集，用于诊断涉及多个变化的图像对中的变化定位和标题生成能力，该数据集基于CLEVR引擎[30]和CLEVR-Change数据集[16]。图像对生成。为了生成各种场景，我们将具有随机形状（立方体、球体、圆柱体）、颜色（红色、蓝色、黄色、绿色、棕色、青色、灰色、紫色）、大小（大、小）和材料（金属、橡胶）的对象放置在模拟环境中。我们考虑了四种原子变化类型，即“添加”、“删除”、“移动”和“替换”对象。我们设置了一个虚拟摄像机，通过观察场景变化操作之前和之后的场景来创建图像对。我们还对相机进行了随机位置变化。我们在图像对中生成包含一到四个变化的每个场景。我们还记录了变化对象的边界框，以进行定位评估。消除场景变化的歧义。与CLEVR-Change数据集不同，我们添加了两个具有纯色背景的“墙壁”，以减少由于缺乏摄像机信息而导致的图像之间的歧义对应关系。我们0之前之后0真实情况：大灰色橡胶球被一个大紫色橡胶立方体替换。小绿色橡胶立方体位于不同的位置。小红色橡胶圆柱体不再存在。0DUDA：小绿色橡胶立方体被一个大紫色橡胶立方体替换。有一个新的小绿色橡胶立方体。小红色橡胶圆柱体消失了。大灰色橡胶球消失了。0图3.描述多个变化的DUDA初步研究。错误的标题以红色字体显示。0删除了图像中物体关系的描述（例如，左边的）以避免问题的不确定性。为了消除变化组合的歧义（例如，“用蓝色圆柱体替换红色立方体”等于“删除红色立方体”，然后“添加蓝色圆柱体”），我们限制每个对象和区域的最大变化数量为1。标题生成。根据记录的场景变化信息和预定义的变化句子模板，自动生成变化标题。我们为每个图像对创建五个具有不同句子模板的标题。对于两个、三个和四个变化的图像对，句子顺序是随机确定的。我们在表1中与两个现有数据集进行了比较。我们的数据集的统计数据和示例分别在表2和图2中提供。我们将数据集分为2/3、1/6和1/6进行训练、验证和测试。有关数据集生成过程的更多详细信息，请参见补充材料。任务定义。给定变化前和变化后的图像Ibef和Iaft，它们之间有N个场景变化。现在，我们定义Si（i∈[1,∙∙∙,N]）为第i个变化的描述，由一系列单词（wi1,∙∙∙,wiM）组成，最大长度为M。多变化标题生成任务旨在从Ibef和Iaft生成所有Si，其中变化的数量N未知。我们考虑将所有句子预测为单个序列，例如（w11,∙∙∙,w1M,，w21∙∙∙）。在我们提出的框架中，空间注意力与每个单词动态关联，因此可以通过对每个单词的注意力图进行平均来计算每个变化的定位。初步研究。我们在这个数据集上评估了一种先进的方法DUDA，图3显示了一个示例结果。尽管DUDA可以确定变化的区域，但它在多个变化上感到困惑，并生成部分正确的变化标题。例如，DUDA生成了“小绿色橡胶立方体被一个大紫色橡胶立方体替换了”，但真实情况是“大灰色橡胶球被一个大紫色橡胶立方体替换了”，这表明DUDA在不同的真实情况中关注了错误的物体。・・・・・・・・・・・・・・・・・・・・・・・・19740� bef0� aft0�0�0CNN0� bef0� aft0位置0嵌入0线性0变换0a. 特征提取0CNN0线性0变换0Transformer0编码器0Transformer0编码器0Transformer0编码器0b. 变化编码器0b-ⅰ. MCCFormers-D（编码器）0� �0� �0�0�0�0词嵌入0缺少小的蓝色橡胶圆柱体小的青色...0位置0嵌入0c. 段落解码器0Transformer0解码器0�0线性和Softmax0小的蓝色橡胶0缺少圆柱体小的青色金属...0�0�0�0�′0�′ bef0�′ aft0�′ bef0�′ aft0b-ⅱ. MCCFormers-S（编码器）0图4.MCCFormers的整体框架：（a）使用CNN提取图像特征。我们尝试了两种编码器：（b-i）MCCFormers-D（编码器）和（b-ii）MCCFormers-S（编码器）。然后将编码器的表示输入到解码器（c）中进行字幕生成。最佳查看颜色。0在识别变化时，需要在变化前后的不同图像区域之间进行密集的相关性。此外，为了区分和生成每个变化的字幕，变化区域与句子之间的相关性至关重要。04. 方法0图4显示了提出的多变化字幕Transformer（MCCFormers）。给定多个变化之前和之后的两个图像（I bef和Iaft），MCCFormers生成一段描述图像对中变化的描述。类似于DUDA [16]和M-VAM[17]等现有方法，我们首先使用CNN结构提取图像特征fbef和f aft。然后将这些特征输入到基于Transformer[20]的编码器-解码器模型中。Transformer编码器密集地相关每个变化前后的图像补丁，解码器进一步将每个单词与图像补丁相关联，生成多个变化的描述。04.1. 变化编码器0在涉及多个变化的场景中，有必要区分和分离不同的变化区域，需要在图像对之间对不同区域进行密集的相关性。为了获得图像对中不同图像补丁之间的关系，需要一种比较和相关每个图像补丁的机制。M-VAM通过引入特征的内积操作来相关特征对。与内积相比，基于Transformer编码器引入的多头注意力机制计算多种类型的0注意力来相关不同的补丁。因此，我们考虑采用基于Transformer的编码器。与最近用于计算机视觉任务的基于Transformer的模型（如DETR[31]）以单个图像作为输入不同，变化字幕任务输入两个图像。给定具有维度R W × H ×D（其中W、H和D分别是特征的宽度、高度和通道）的图像特征对f bef和faft，我们考虑两个编码器的变体：多变化字幕Transformer-Dual（MCCFormers-D）和多变化字幕Transformer-Single（MCCFormers-S）（图4（b-i）和（b-ii））。对于这两个变体，我们首先将f bef和f aft转换为具有维度R W × H× d encoder的f ′ bef和f ′aft。为了实现这一点，我们使用线性变换并添加位置嵌入，如下所示：0f′(x, y) = Wltf(x, y) + blt + pos(x, y) (1)0其中Wlt和blt是线性变换的可学习参数，pos(x,y)是可学习的位置嵌入。MCCFormers-D。在这个变体中，我们使用共享权重的两个Transformer编码器。为了捕捉两个图像的局部区域之间的相关性，我们采用了协同注意机制[32]。与原始的协同注意机制不同，原始协同注意机制将语言标记和图像中的对象提议作为输入，我们考虑一组变化前和变化后图像的补丁作为输入。给定变化前和变化后图像的两个特征图f′bef和f′aft，我们考虑查询特征来自变化前或变化后图像，而键和值特征来自另一个图像。经过N_e层的编码器处理后，我们将来自特征g bef和19750g aft在特征维度上为g∈RW×H×2dencoder。MCCFormers-S。与MCCFormers-D不同，我们使用MCCFormers-S来捕捉两个图像之间以及图像内部对之间的图像补丁关系。我们首先将f′bef和f′aft连接到f′∈R2W×H×dencoder。然后将f′传递给标准的Transformer结构，类似于BERT模型[33]，它将两个句子的序列作为输入。与MCCFormers-D相比，该结构还捕捉了变化前后图像补丁之间的相关性。04.2. 段落解码器0在多变化字幕任务中，由于多个变化的共存，区分不同的变化区域并在生成不同句子过程中动态关注不同区域是至关重要的。Transformer解码器通过在生成过程中关注来自不同补丁的信息来实现这一点。因此，我们采用标准的Transformer解码器生成字幕。我们首先使用一个词嵌入层将输入句子转换并添加一个可学习的位置嵌入。接下来，通过一个掩码自注意力和前馈网络处理句子特征。然后计算句子与编码器输出特征之间的交叉注意力，并通过前馈层进一步处理。解码器层迭代N_d层。Transformer解码器在句子生成过程中对每个单词的图像特征进行注意力计算。因此，可以通过对句子中每个单词的注意力图进行平均来计算每个句子的图像注意力。相比之下，DUDA和M-VAM为整个段落计算单个空间注意力图。04.3. 学习过程0从观察到的场景变化之前和之后的图像输入（I bef和Iaft），解码器生成一个长度为T的词序列。我们将目标序列表示为（w�1，...，w�T）。我们采用交叉熵损失进行网络训练，其中θ表示可学习参数：0LXE =0t =1 − log(pθ(w�t|(w�1，...，w�t−1)，I bef，Iaft)) (2)05. 实验05.1. 实验设置0实验和数据集。我们在多变化和单变化设置上进行了实验。我们还0方法 BLEU-40DUDA [16] 76.1 DUDA编码器+Transformer解码器 79.1M-VAM [17] 62.9 M-VAM编码器+Transformer解码器65.80MCCFormers-D（在补丁上进行连接）80.1MCCFormers-D（在特征维度上进行连接）82.3MCCFormers-S（在补丁上进行连接）80.6MCCFormers-S（在特征维度上进行连接）83.30表3.对CLEVR-Multi-Change数据集应用不同方法的BLEU-4评估结果。（concat.：连接）0我们在原始论文中提出的模型的基础上实现了没有模型修改的DUDA和M-VAM，并评估了这些方法在段落生成上的性能。我们还报告了这些方法在之前的两个数据集上的性能，即Spot-the-Diff（包含多个和单个变化设置，其中我们在多变化设置中采样了四个变化内的实例）和CLEVR-Change数据集（单个变化）。评估指标。我们采用常规的图像字幕和变化字幕评估指标进行性能比较：BLEU-4[34]、CIDEr[35]、METEOR[36]和SPICE[37]。这些指标从不同的方面评估生成的句子与真实标注之间的相似度。我们还评估了多句子生成中句子数量的准确性。我们计算准确性来衡量生成序列的句子数量是否正确，并计算平均绝对误差（MAE）来评估与真实标注之间句子数量的差异。我们为每个图像对准备了五个不同句子顺序的真实标注段落。因此，句子顺序对评估结果的影响较小。为了评估多变化字幕的定位能力，我们引入了基于PointingGame[38]的评估指标。我们记录了变化对象的边界框，并使用双线性插值将得到的注意力图转换为原始图像尺寸。然后，我们选择具有最大值的前K个像素在注意力图中，并计算在所有变化区域中检测到的变化区域（前K个像素位于变化区域的边界框内）的数量。整体准确率是对测试数据中包含的所有变化求平均。我们将K设置为1用于添加和删除，将K设置为2用于移动和替换，因为由于场景变化，对象的边界框可能不同。0实现细节。与[16,17]类似，我们使用在ImageNet数据集[40]上预训练的ResNet-101[39]从分辨率为224×224的图像中提取图像特征。得到的特征图维度为14×14×1024。我们为编码器和解码器都实现了两层和四个头的transformer。维度MCCFormers-D82.398.482.979.280.6539.352.171.7MCCFormers-S83.396.582.681.880.0523.351.570.0MCCFormers-D92.599.494.881.993.90.075MCCFormers-S92.497.995.991.983.70.075rror19760方法 BLEU-4[34] CIDEr METEOR SPICE0整体 1个变化 2个变化 3个变化 4个变化 [35] [36] [37]0DUDA[16] 76.1 94.7 76.3 73.1 70.9 480.1 47.4 66.6 M-VAM[17] 62.9 79.0 61.7 59.9 57.9 338.1 41.3 55.90表4. CLEVR-Multi-Change数据集的结果。0方法准确率 MAE 所有 1个变化 2个变化 3个变化 4个变化0DUDA[16] 83.3 96.8 84.8 74.4 76.0 0.169 M-VAM[17] 69.9 91.2 68.4 56.5 62.00.3170表5. CLEVR-Multi-Change数据集上的句子数量准确率（%）和平均绝对误差（MAE）。0输入特征到编码器d encoder和解码器ddecoder的维度分别为512和1024。对于前馈网络，编码器和解码器的维度分别为4d encoder和4ddecoder。我们将学习率设置为0.0001，并使用Adam优化器[41]在所有实现中训练模型40个epochs。基线方法。我们在实验中使用DUDA和M-VAM进行比较，以及transformer网络的两个变种。我们将所有LSTM结构的隐藏状态维度都设置为512，包括DUDA和M-VAM（有关DUDA和M-VAM实现细节，请参见补充材料）。05.2. CLEVR-Multi-Change数据集0消融研究。我们评估了不同的变化编码器和解码器结构选择（表3）。DUDA和M-VAM的BLEU-4分别得分为76.1和62.9。我们去除了特征的空间区域上的求和操作（DUDA）和平均池化操作（M-VAM），这些操作在将特征提供给解码器之前应用。然后，我们用transformer解码器替换了解码器。使用transformer解码器改善了这两种方法的性能。接下来，我们对MCCFormers进行了实验。在将特征提供给解码器之前，我们以两种方式连接了变化前后图像的特征：在补丁上的连接操作（输入到解码器：g∈R2W×H×d编码器）和在特征维度上的连接操作（输入到解码器：g∈RW×H×2d编码器）。所有的方法在BLEU-4方面都优于之前的方法。在相对较小的视角变化的情况下，将两个图像中同一区域的补丁连接起来，可以提高性能。MCCFormers-D和MCCFormers-S在特征维度上的连接效果最好。0在特征维度上进行连接的有效性。我们将在未来的工作中研究对视角变化（尤其是较大的变化）的鲁棒性。在剩余的实验中，我们使用MCCFormers-D和MCCFormers-S进行特征维度上的连接。句子生成。不同评估指标的实验结果如表4所示。无论是MCCFormers-D还是MCCFormers-S在所有指标上都优于先前的方法。MCCFormers-S的BLEU-4得分最高，比先前的方法高出7.2。对于单个变化实例，提出的方法与先前的方法之间的差异相对较小。对于具有多个变化的实例，两种提出的方法表现出更好的鲁棒性。Transformer编码器学习了变化图像对的所有局部区域之间的密集相关性，解码器模型进一步将每个单词与图像区域相关联，使模型更擅长区分不同的变化。句子数量准确性评估。表5显示了句子数量准确性和MAE的结果。与表4中的结果类似，与先前的方法相比，提出的方法在句子数量上获得了更高的准确性，并在区分变化方面取得了有希望的结果，MCCFormers-D方法的准确性为92.5%。MAE的结果显示，所有方法生成的句子数量的平均误差都小于1。所有方法在单个变化句子上都获得了最高分数，MCCFormers-D模型的准确性达到了99.4%。对于两个、三个和四个变化实例，先前方法的准确性下降，而两种提出的方法在具有多个变化的场景中表现出有希望的稳定性。定性结果。我们在图5中展示了一个示例结果。这个示例包含四个变化。DUDA预测了三个变化，MCCFormers的两个变体在变化数量和变化内容方面生成了正确的句子。此外，DUDA生成的两个标题包含了错误的变化类型，而两种提出的方法为每个变化生成了正确的标题。DUDA为每个给定的图像对生成一个注意力图。因此，网络可能会遇到困难。020406080119770Ground Truth:“小蓝色橡胶立方体已经移动。”0MCCFormers-D:“小蓝色橡胶立方体改变了位置。”0MCCFormers-S:“小蓝色橡胶立方体从原来的位置移动了。”0Ground Truth:“小绿色金属立方体改变了位置。”0MCCFormers-D:“小绿色金属立方体改变了位置。”0MCCFormers-S:“小绿色金属立方体从原来的位置移动了。”0Ground Truth:“有一个新的大蓝色金属球。”0MCCFormers-D:“出现了一个大蓝色金属球。”0MCCFormers-S:“添加了一个大蓝色金属球。”0Ground Truth:“不再有一个大棕色橡胶球。”0MCCFormers-D:“大棕色橡胶球不再存在。”0MCCFormers-S:“大棕色橡胶球消失了。”0DUDA: “小蓝色金属立方体改变了位置。”0“大棕色橡胶球在不同的位置。”“小绿色橡胶立方体被小蓝色橡胶立方体替换了。”0MCCFormers-D0之前0MCCFormers-SDUDA0之后之前之前之前之后之后之后0图5.CLEVR-Multi-Change数据集中的一个示例的可视化。我们展示了提出的方法和DUDA以及生成的句子的注意力图。错误的标题以红色字体显示。我们用黑色边框突出显示更改的区域。0DUDAMCCFormers-D0DUDAMCCFormers-D0变化数量变化类型0图6. CLEVR-Multi-Change数据集上不同变化数量（左）和类型（右）的指向游戏准确率（%）。0难以从注意力图中区分出每个变化部分，限制了其在多变化理解方面的能力。MCCFormers-S生成的注意力图倾向于关注无关的区域以及变化的物体区域。这种结构指的是图像对之间的内部和内部图像对的补丁，可能削弱了注意力图的可解释性。MCCFormers-D为每个句子获取了单独的注意力图，并关注变化的区域。更多示例结果请参考补充材料。指向游戏评估注意力图。我们评估了MCCFormers-D和0DUDA（图6）。由于DUDA为每个图像对生成一对注意力图，我们使用相同的注意力图来评估每个变化。MCCFormers-D在变化定位方面的整体准确率为53.9％，DUDA为40.0％。在两种方法中，随着变化数量的增加，定位性能下降。DUDA在一个变化上获得了更高的定位准确率，而我们的方法在两个、三个和四个变化上优于DUDA，表明MCCFormers-D在检测多个变化方面的有效性。在不同的变化类型中，两种方法对替换变化的准确率最高，对移动变化的准确率最低。移动变化涉及两个图像位置，这对于定位来说是具有挑战性的。05.3. Spot-the-Diff数据集0Spot-the-Diff数据集包含图像对中的多个变化。我们首先提取包含一到四个变化的所有实例，并在表6中报告DUDA和MCCFormers的结果（前三行）。对于这个数据集，MCCFormers与DUDA获得了可比较的结果。我们在图7中进一步展示了一个示例。对于包含两个变化的示例，这两种方法都正确生成了两个相关的句子。DUDA [16]47.3112.333.924.5M-VAM [17]50.3114.937.030.5M-VAM + RAF [17]51.3115.837.830.7MCCFormers-D52.4121.638.326.8MCCFormers-S57.4125.541.232.419780方法 BLEU-4 CIDEr METEOR SPICE0多个变化（一到四个变化）0DUDA [16] 5.4 24.8 10.6 12.90MCCFormers-D 6.2 28.8 10.2 17.8 MCCFormers-S 5.8 18.210.5 10.10单个变化0DUDA [16] 8.1 34.0 11.5 - FCC [18] 9.9 36.8 12.9 - SDCM [19]9.8 36.3 12.7 - DDLA [13] 8.5 32.8 12.0 - M-VAM [17] 10.138.1 12.4 14.0 M-VAM + RAF [17] 11.1 42.5 12.9 17.10MCCFormers-D 10.0 43.1 12.4 18.3 MCCFormers-S 9.8 41.612.3 16.30表6. Spot-the-Diff数据集上的结果。0之前之后0之前之后0真实值："银色的车停在建筑物的角落附近。"0MCCFormers-D："车停在停车场里。"0MCCFormers-S："停车场里有一辆车。"0真实值："现在停车区域有两个人在走动。"MCCFormers-D："停车场里有两个人站着。"MCCFormers-S："停车场里的人们稍微移动了一下。"0MCCFormers-D0MCCFormers-S0图7.在Spot-the-Diff数据集上提出方法的示例可视化（多个变化）。我们用绿色边界框突出显示变化的区域。0句子。然而，与真实值句子相比，生成的标题缺乏详细的属性信息，例如车的颜色是"银色"，详细的位置是"建筑物的角落"。我们还发现，对于MCCFormers-D，生成的注意力图可能会关注相关区域，但突出显示了许多无关的图像区域。MCCFormers-S无法指出相关区域，并且在识别详细变化方面遇到困难。我们在表6中展示了单个变化设置的结果。0(底部八行). 提出的方法获得了0方法 BLEU-4 CIDEr METEOR SPICE0表7. CLEVR-Change 数据集上的结果.0与最先进的方法M-VAM相比，所提出的方法获得了可比的分数。与所提出的数据集相比，Spot-the-Diff数据集包含的图像较少，这可能限制了基于transformer的方法的性能，因为它们往往需要大量的训练数据。未来的研究需要进一步探索大规模实际图像上的变化字幕。05.4. CLEVR-Change 数据集0我们在之前的单变化数据集CLEVR-Change上比较了不同的方法，结果如表7所示。CLEVR-Change数据集要求理解每个图像内的对象关系（例如在前面），而这些关系在所提出的数据集中没有包含。因此，与MCCFormers-D相比，MCCFormers-S获得了最高分数，因为MCCFormers-S可以捕捉同一图像内图像块之间的关系。MCCFormers在这个数据集上的表现优于以前的方法，从而表明了所提出结构在关联变化图像对中的不同区域，并进一步将变化区域信息与句子中的单词联系起来的能力。06. 结论0在本文中，我们提出了一种新颖的多变化字幕任务和CLEVR-Multi-Change数据集。为了解决这个新颖的任务，我们提出了一种基于transformer的框架MCCFormers，它在图像对和单词之间密集地关联不同的图像区域。MCCFormers在多变化和单变化字幕数据集上都取得了最先进的性能，表明了MCCFormers在变化字幕任务中的有效性。0致谢0我们要感谢Yoshitaka Ushiku、Seito Kasai、HikaruIshitsuka和TomomiSatoh在研究讨论期间给予的有益意见。本文基于JPNP20006项目的结果，该项目由新能源和产业技术发展机构（NEDO）委托开展。使用了由国家先进工业科学技术研究所（AIST）提供的AI Bridging Cloud Infrastructure(ABCI)的计算资源。19790参考文献0[1] Qiaofeng Zhang, J Wang, X Peng, P Gong和P Shi.使用多时相LandsatTM数据中的道路密度和光谱信息进行城市建成土地变化检测.Interna- tional Journal of Remote Sensing ,23(15):3057–3078, 2002. 10[2] Limin Yang, George Xian, Jacqueline M Klaver和BrianDeal. 使用遥感数据进行城市土地覆盖变化检测.Photogrammetric Engineering and Remote Sensing ,69(9):1003–1010, 2003. 10[3] Ibrahim Rizk Hegazy和Mosbeh Rashed Kaloop.使用GIS和遥感技术监测埃及达卡利亚省的城市增长和土地利用变化. International Journal of Sustainable Built Environ- ment ,4(1):117–124, 2015. 10[4] Pol R Coppin和Marvin E Bauer.使用遥感图像进行森林生态系统的数字变化检测. RemoteSensing Reviews , 13(3-4):207–234, 1996. 10[5] Robert E Kennedy, Philip A Townsend, John E Gross, War-ren B Cohen, Paul Bolstad, YQ Wang和Phyllis Adams.自然资源管理的遥感变化检测工具:了解景观监测项目设计中的概念和权衡. Remote Sensing ofEnvironment , 113(7):1382–1396, 2009. 10[6] Salman H Khan, Xuming He, Fatih Porikli, andMohammed Bennamoun.使用深度神经网络在不完整的卫星图像中进行森林变化检测. IEEETransactions on Geoscience and Remote Sensing ,55(9):5407–5423, 2017. 1 , 20[7] Sudipan Saha, Francesca Bovolo, and Lorenzo Bruzzone.高分辨率遥感图像中无监督的深度变化向量分析用于多变化检测.IEEE地球科学与遥感学报, 57(6):3677–3693, 2019年. 1 , 20[8] Rodrigo Caye Daudt, Bertr Le Saux, and AlexandreBoulch. 用于变化检测的全卷积孪生网络.在2018年IEEE国际图像处理会议(ICIP)论文集中, 第4063-4067

下载后可阅读完整内容，剩余1页未读，立即下载