使用跨模态交互进行领域自适应动作识别的方法

102 浏览量更新于2023-10-25 收藏 13.98MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

{yang-lj,hyf,sugano,ysato}@iis.u-tokyo.ac.jp147220在对齐之前进行交互：利用跨模态知识进行领域自适应动作识别0杨丽金，黄一飞*，菅野祐介，佐藤洋一，东京大学工业科学研究所0摘要0无监督领域自适应视频动作识别旨在使用仅具有域外（源）注释的模型来识别目标领域的动作。视频的固有复杂性使得这个任务具有挑战性，但也为利用多模态输入（例如RGB、Flow、音频）提供了基础。大多数先前的工作通过单独对齐每种模态或通过跨模态自监督学习表示来利用多模态信息。与先前的工作不同，我们发现首先使用跨模态交互可以更有效地进行跨领域对齐。跨模态知识交互允许其他模态补充缺失的可转移信息，因为存在跨模态的互补性。此外，通过跨模态一致性可以突出显示数据的最可转移的方面。在这项工作中，我们提出了一种新颖的模型，同时考虑了这两个特征，用于领域自适应动作识别。我们通过实现两个模块来实现这一目标，第一个模块通过语义空间在模态之间交换互补的可转移信息，第二个模块通过所有模态的一致性找到最可转移的空间区域。大量实验证明，我们提出的方法在多个基准数据集上，包括复杂的细粒度数据集EPIC-Kitchens-100上，可以显著优于现有方法。01. 引言0无监督领域自适应（UDA）模型旨在学习源数据集上的特征，这些特征也可以在目标数据集上使用。由于其在减少大规模标注的必要性方面的潜力，UDA已经在图像识别[33, 49, 52, 58]、语义分割[3,64]和目标检测[5,8]等任务中得到广泛探索。视频数据具有一个额外的时间维度，无监督领域自适应视频动作识别旨在使用仅具有域外（源）注释的模型来识别目标领域的动作。视频的固有复杂性使得这个任务具有挑战性，但也为利用多模态输入（例如RGB、Flow、音频）提供了基础。大多数先前的工作通过单独对齐每种模态或通过跨模态自监督学习表示来利用多模态信息。与先前的工作不同，我们发现首先使用跨模态交互可以更有效地进行跨领域对齐。跨模态知识交互允许其他模态补充缺失的可转移信息，因为存在跨模态的互补性。此外，通过跨模态一致性可以突出显示数据的最可转移的方面。在这项工作中，我们提出了一种新颖的模型，同时考虑了这两个特征，用于领域自适应动作识别。我们通过实现两个模块来实现这一目标，第一个模块通过语义空间在模态之间交换互补的可转移信息，第二个模块通过所有模态的一致性找到最可转移的空间区域。大量实验证明，我们提出的方法在多个基准数据集上，包括复杂的细粒度数据集EPIC-Kitchens-100上，可以显著优于现有方法。0* 通讯作者。0图1.与现有的直接对齐多模态输入的UDA方法不同（a），我们发现首先通过跨模态交互增强每种模态的可转移性，然后进行跨领域对齐更加有效（b）。0比图像数据更复杂，并且领域差距不仅存在于环境的外观差异中，还存在于不同人执行相同动作时的运动差异中。这使得无法将基于图像的领域自适应方法直接应用于领域自适应动作识别任务[6,20]。解决这种复杂性的一种方法是使用附加的模态信息（例如光流、音频）。除了直接组合多模态输入[38]，最近的工作还通过添加自监督模态对齐来隐式学习源数据和目标数据的属性[24, 36,47]。然而，由于跨模态对齐和跨领域对齐的目标并不完全一致，同时对齐模态和对齐领域可能会分散学习目标，即最小化领域差异。0由于不同的特征，每种模态的可转移性（即特征在不同领域之间的不变性）存在不同且互补的视角。例如，对于目标领域上的一个动作“洗杯子”，由于水的声音在不同领域中相似，音频模态更具可转移性，可以确定动作的动词“洗”。同时，尽管在目标领域上，RGB在识别动词方面不能像音频那样表现得好，但它可以基于其具有领域可转移的外观知识很好地识别目标领域上的名词“杯子”。如果147230这两种模态可以相互交互并交换它们独特的领域可迁移知识，它们都可以增强它们的可迁移性并最终准确确定动作“洗杯”。基于这一观察，我们利用这种跨模态互补性，并提出了一种互补性模块（MC模块），允许每种模态通过吸收其他模态的可迁移知识来改进其特征，从而增强所有模态的可迁移性。多模态带来的另一个方面是跨模态一致性。由于领域转移通常伴随着场景背景的变化，找到并关注更具可迁移性的前景对象至关重要。我们不像以前的工作[27,55]那样应用空间注意力，引入额外的参数，这些参数也会受到领域差异的影响，而是使用无参数的基于相关性的空间一致性操作。利用多模态特征，我们通过开发跨模态空间一致性（SC）模块，找到并强调在不同模态之间共享一致性的可迁移区域。与空间注意力相比，我们提出的一致性操作在实验中被证明更适用于领域自适应。我们在标准的UCF-HMDB数据集和EPIC-Kitchens-55数据集上进行了实验。我们的实验表明，通过跨模态知识交互，我们提出的方法可以显著优于最先进的方法。我们还展示了我们的方法在包含具有挑战性的细粒度动作的EPIC-Kitchens-100数据集上可以带来显著的增强效果。我们的贡献可以总结如下：0•我们提出了一种新颖的模型来增强领域自适应动作识别的多模态特征。据我们所知，这是第一个考虑跨模态交互以增加特征在不同领域之间可迁移性的工作。0•我们提出使用基于相关性的操作来评估空间位置的可迁移性，与领域自适应的背景下的空间注意力相比，这被证明是简单而有效的。0•我们提出的模型在多个数据集上取得了最先进的性能，包括具有细粒度动作的具有挑战性的EPIC-Kitchens-100数据集。02. 相关工作0无监督领域自适应（UDA）不仅限于动作识别。为了解决在各种应用中普遍存在的领域差异问题，如物体识别[13, 41,49]，图像分割[3, 14, 17, 60, 64]和自然语言理解[39, 44,51]，领域自适应在近年来得到了广泛研究。领域自适应的目标是提高0使用在源领域上训练的模型来提高目标领域上的性能。一些工作尝试通过修改源输入使其与目标领域相似，例如图像到图像的转换[2,37]。另一个方向是通过最大均值差异（MMD）[34]或对抗训练[52]在表示级别上解决这个任务。最近，自监督训练成为领域自适应的一个新方向[3, 22,50]。Kang等人[22]提出了在源像素对和目标像素对之间建立像素级循环关联的方法，用于领域自适应语义分割任务。最近研究了在情感识别和图像检索任务中使用多模态的UDA[40]。他们使用单模态和多模态鉴别器与跨模态注意力，表明使用多模态可以比单模态更能抵抗领域转移。动作识别及其UDA。动作识别在深度学习的帮助下取得了巨大的进展[4, 12, 19, 28, 35,57]。最近的方法使用RGB帧、光流和音频等多种模态作为输入，并展示了每种模态的优势[23]。除了动作识别的快速发展，领域自适应动作识别也得到了相当多的研究关注。大多数研究工作集中在跨视角领域自适应[25]。这些工作旨在适应同一环境中相机的几何变换，可选择性地使用人体姿势[31]和时间对应关系[45]等附加信息。另一方面的研究集中在不同环境中的无监督领域自适应动作识别。这些方法包括使用手工特征对齐源领域和目标领域[11,63]的方法，以及基于深度神经网络的最新工作[1, 7,32]，使用RGB模态。最近的一些工作[36, 38, 46,59]探索了多模态（RGB和光流）在领域自适应动作识别中的应用。在[38]中，作者独立地对每种模态进行时间对齐，并仅在推理过程中融合模态。在[24, 36,47]中，采用了自监督的模态对齐。然而，自监督的模态对齐与领域自适应具有不同的学习目标，同时学习具有两个目标的模型会分散模型的主要任务-减小领域差异。在这项工作中，我们允许跨模态交互通过重新评估基于其他模态信息的语义可迁移性，并使用跨模态空间一致性来找到最具可迁移性的区域。与以前的方法[24, 36,47]不同，我们的跨模态交互不会增加自监督损失，因此交互可以被优化以仅改善领域可迁移性。147240图2.所提出的CIA模型的概述。我们展示了RGB、Flow和Audio三种模态作为输入，但可以轻松扩展以添加其他模态，如深度。在图中，⊕表示逐元素求和，�表示逐元素乘法，�表示在每个空间位置上计算皮尔逊相关系数的相关操作。03. 方法0为了有效利用跨模态互补性和跨模态一致性进行领域自适应动作识别，我们提出了一种跨模态交互对齐（CIA）模型，该模型首先通过相互语义细化来补充每个模态的跨模态可迁移知识，然后通过利用多个模态的一致性来强调可迁移区域。图2描述了所提出的CIA模型的概述。在源域S和目标域T中，对于RGB、Flow和Audio的每个模态，我们首先使用骨干网络（在图中省略）将输入编码为帧级特征F S RGB，F SFlow，f S Audio，F T RGB，F T Flow和f TAudio。在本节的后续部分中，当操作在两个域上相同时，我们省略域标识符的表示。然后，我们使用两个模块，即互补性模块（MC）和空间一致性模块（SC），允许特征相互作用，以利用跨模态互补性和跨模态一致性。MC模块通过使一种模态接收其他模态的可迁移语义知识来利用跨模态互补性，利用两个门控函数（第3.1节）。然后，SC模块通过多尺度相关操作（第3.2节）强调在所有模态之间共享一致性的可迁移空间区域。最后，我们采用对抗性特征对齐来最小化源域和目标域之间的差异。03.1. 互补性模块（MC）0不同的模态在感知输入方面具有独特的视角，MC模块旨在利用这种跨模态互补性，通过选择和吸收其他模态的领域可迁移知识来增强每个模态的可迁移性。0可迁移的语义知识存在于特征通道中[62]，但是模态之间的差距阻碍了直接的逐通道融合方法，如最大池化或求和。在我们提出的MC中，我们使用“总结和重新评估”操作来利用跨模态可迁移信息。图3展示了模态M的MC的工作流程。MC的输出是模态M的经过可迁移知识精炼的特征F rM ∈ R2 c × h × w，它由两部分组成：跨精炼特征FcM和自精炼特征F sM。FcM表示通过其他模态的可迁移知识对模态M进行精炼的特征。为了获得FcM，我们首先对其他模态的特征进行全局平均池化，并将它们连接起来以获得跨模态知识表示f in M。利用f inM，我们总结领域可迁移知识，并通过交叉门控函数[16]重新评估模态M的语义可迁移性：0t cM = σ(W in 2 (δ(W in 1 f in M))), (1)0F cM = F M ∙ t cM, (2)0其中W in 1和W in2是权重矩阵，∙表示逐通道乘法，σ和δ分别表示sigmoid和ReLU激活函数。这里t cM是通过使用跨模态知识对模态M进行重新评估的语义可迁移性。t cM 充当其他模态对F M通道进行逐通道乘法加权的“建议”。尽管这种门控机制很简单，但它可以学习通道之间的非线性交互，并允许在重新评估过程中强调多个通道。这有助于门控操作首先总结领域可迁移知识（使用W in 1），然后利用总结的知识重新加权F M 的通道（使用W in 2和逐通道乘法）。tsM = σW M2 (δ(W M1 fM)),FsM = FM · tsM,(3)To summarize domain-transferable knowledge whilepreventing the domain adaptation model from overfitting onthe source domain, the MC only introduces a small numberof model parameters by leveraging bottleneck during gat-rFrM = Concat(FsM, FcM).(4)Ck,(i,j) =Hk,(i,j)rR∗Hk,(i,j)rF∥Hk,(i,j)rR∥2×∥Hk,(i,j)rF∥2 , Ck ∈ Rw2k × h2k(5)147250图3. 使用模态M展示的互补性模块（MC）。M可以是RGB、Flow和Audio的任何模态，也可以扩展到其他可用的模态，例如深度。0当从其他模态接收到互补的知识时，对于模态M来说，保留其自身的独特信息和模态特征也很重要。因此，除了交叉门控之外，我们还使用自门控操作对模态M进行自我重新评估：0r . 最后，通过连接两个经过改进的特征F sM和FcM，我们得到了模态M的可转移性改进特征：0我们在补充材料中展示了模型参数和计算复杂性的分析。03.2. 空间共识（SC）模块0为了进一步增强特征的可转移性，集中在最可转移的空间区域（例如前景对象），以前的工作主要使用空间注意机制[18，27，55]。然而，这会引入额外的模型参数，这些参数也会受到领域转移的影响。与空间注意不同，我们提出了一个空间共识（SC）模块，以突出在模态之间共享共识的可转移区域。我们找到可转移位置的想法是让多个模态以“集体智慧”的方式共同工作。由于特征F rR和FrF编码了不同的信息，我们首先将这些特征映射到相同的潜在空间中，从自己的角度获得可转移性估计。然后，我们使用相关操作计算特征相似性，以衡量两个模态是否持有相同的观点0关于空间可转移性。对于每个位置，只有当两个模态都认为该位置是可转移的时，特征相似性才会很高。由于可转移区域在不同样本中的大小不同，我们计算不同尺度上的特征图的相关性[30]：特征H rR和H rF首先被2k倍下采样，得到两组特征图{ H 0 rR , H 1 rR , ... H k rR ,}和{ H 0 rF , H 1 rF , ..., H k rF ,}。对于每个尺度k，我们在每个空间位置(i,j)上计算皮尔逊相关系数：0其中�表示点乘。SC模块只包含少量参数非常重要，这样大部分表示都是在MC中学习的，同时也可以防止过拟合。为此，我们选择使用相关性而不是空间注意[56]。最后，所有的相关性图{ C 0 , C 1 , ..., C k }都被上采样到与FrR的大小相匹配，然后相加形成一个共识图C。共识图C然后被用作F rR和FrF的加权平均池化的空间权重图。我们还按照[15，53]添加了残差连接，形成特征向量f rR和frF。由于MC已经涉及音频信息，而frA不包含空间维度，因此在此模块中不使用frA。在训练过程中，SC模块将鼓励网络提取特征，使得对于领域对齐更有帮助的位置的空间相关性更高。03.3. 对抗领域对齐0我们分别在三个增强的可转移性特征f rR，f rF和frA上应用对抗领域对齐。将基于两层MLP的判别器表示为D，判别器损失可以写成：Lfd =(6)147260M ∈{ rR,rF,rA }0f M ∈ S,T - d log( D M (f M ))0- (1 - d) log(1 - D(f M))0其中d是二进制域标签，S，T分别表示源域和目标域，fM表示{ f rR , f rF , f rA}中的一个特征。我们对逐帧特征进行平均，形成视频级特征v rR ，v rF和v rA，并将它们融合为v mm。视频级特征v rR，v rF和v rA上也进行域对齐，其损失表示为Lvd。在源域上，我们对融合的视频级特征vmm应用标准分类损失：0L y = -�0v mm ∈ S y log P(G M (v mm)), (7)0其中GM表示相应特征的线性动作分类器。因此，我们的完整损失函数是L y ，L fd和L vd的组合：0L = λ y L y + λ fd L fd + λ vd L vd (8)04. 实验04.1. 数据集和实施细节0我们在三个代表性的领域自适应动作识别数据集上验证了我们提出的CIA模型：UCF-HMDB [26,48]（U-H）是一个广泛使用的包含12个动作类别的数据集。我们在实验中使用了完整版本[6]。H →U表示源数据集为HMDB，目标数据集为UCF，反之亦然。我们还使用EPIC-Kitchens-55（E55）作为另一个基准数据集。为了与[24, 36,47]进行公平比较，我们遵循了与[36]相同的设置。在这两个数据集上，使用逐类动作识别准确率作为评估指标。此外，EPIC-Kitchens-100[10]（E100）是一个新发布的数据集，其中包含来自第一人称视角的细粒度动作。该数据集非常具有挑战性，因为（1）源域和目标域的动作由不同的个体在不同的厨房中执行。（2）第一人称视角通常使动作发生在非显著区域，（3）注释是细粒度的。源域/目标域分别有16115/26115个训练视频，目标验证集有7906个剪辑。97个动词类别，300个名词类别共3369个细粒度动作类别。由于EPIC-Kitchens-100的大规模和细粒度特性使其更适合分析模型性能，我们在该数据集上进行了进一步的实验。按照[10]的协议，我们使用动词、名词和动作的准确率作为评估指标。实施细节为了公平比较，我们使用两个主干网络进行特征提取：在Kinetics上预训练的I3D[4]和在Kinetics上预训练然后在相应数据集的源培训集上微调的TBN [23]。0模态主干网络方法 U → H H → U0RGB0R-TRN TA 3 N [6] 78.33 81.79 R-TRN TCoN[38] 87.24 89.06 I3D SAVA [9] 82.20 91.20I3D-TRN TA 3 N [6] 82.78 91.770Flow I3D-TRN TA 3 N [6] 82.50 90.890R+F0I3D Avg � 83.61 91.07 I3D G-blend [54]84.72 91.24 I3D MMTM [21] 85.83 92.47I3D MM-SADA [36] 84.20 91.10 I3D STCDA[47] 83.10 92.10 I3D Kim et al. [24] 84.7092.80 I3D CIA仅源域 � 86.11 92.47 I3DCIA（本文方法）� 88.33 94.050I3D Concat � 86.11 92.99 I3D CIA仅源域 �85.83 93.52 I3D CIA（本文方法）� 90.5694.220I3D-TRN TA 3 N [6] � 89.17 92.81 I3D-TRNCIA（本文方法）� 89.72 93.17 I3D-TRN CIA +TA 3 N � 91.94 94.570I3D CIA仅目标域 � 96.83 99.120表1.UCF-HMDB（U-H）数据集上的性能比较。�表示对每个模态分类器的输出进行平均，�表示连接不同模态的特征。0MC处理具有维度c = 1024的特征，门控瓶颈的比例为r =16。根据数据集的不同，我们使用平均或连接作为后期融合方法。对于所有实验，我们在4个NVIDIA-V100GPU上训练模型。其他特定于数据集的细节可以在补充材料中找到。04.2. 与最新技术的比较0我们将我们的CIA模型与以下方法进行比较：0•多模态UDA动作识别方法。我们与最近的三种方法MM-SADA [36]、STCDA[47]和Kim等人[24]进行比较。这些方法在UDA动作识别任务中表现出了最新的性能。0• 单模态UDA动作识别方法[6,9,20，33，38，42]。0为了更好地比较，我们按照[10]的方法，将TA3N[6]与多模态输入结合，并在时间特征融合方面使用TRN[61]作为骨干。0•其他任务的多模态融合方法。为了更好地评估我们的CIA模型在域自适应范围内利用多模态信息的能力，除了直接使用平均值（Avg）或连接（Concat）进行融合，我们还与之前的多模态融合方法G-blend [54]和MMTM[21]进行比较。由于[21,54]最初并不是为域自适应而设计的，我们将它们的方法与我们的方法在相同的对抗对齐框架上进行公平比较。147270方法 D1 → D2 D1 → D3 D2 → D1 D2 → D3 D3 → D1 D3 → D2 平均0我们的源域准确率为43.2 42.5 43.0 48.0 43.0 55.5 45.9，MMD [33]为46.6 39.2 43.1 48.5 48.355.2 46.8，AdaBN [29]为47.0 40.3 44.6 48.8 47.8 54.7 47.2，MCD [42]为46.5 43.5 42.151.0 47.9 52.7 47.3，DAAA [20]为50.0 43.5 46.5 51.5 51.0 53.7 49.4，MM-SADA[36]为49.5 44.1 48.2 52.7 50.9 56.1 50.3，Kim等人[24]为50.3 46.3 49.5 52.0 51.5 56.351.0，STCDA [47]为52.0 45.5 49.0 52.5 52.6 55.6 51.2，CIA（我们的方法）为52.5 47.8 49.853.2 52.2 57.6 52.20我们的目标只有71.6 73.6 63.3 73.6 63.3 71.6 69.50表2. 在EPIC-Kitchens-55（E55）数据集上的性能比较。0在U-H数据集上的结果如表1所示。从表中可以看出，由于视频数据的固有难度，多模态方法通常优于单模态方法[6,9,38]。与此同时，之前的多模态融合方法G-blend[54]和MMTM[21]在域自适应设置中表现不佳，这表明我们提出的CIA模型更适合域自适应任务。我们的方法在U-H和H-U上的准确率分别从84.70提高到88.33和从92.80提高到94.05。这表明我们的CIA模型在利用多模态交互方面优于自监督学习。0我们还通过比较平均值�和连接�来验证不同的后期融合方法。我们发现使用连接进行后期模态融合更有帮助。使用TRN[61]作为更复杂的时间聚合方法，我们的方法在两个数据集上都优于TA3N。由于我们的方法可以灵活地适应任何域自适应框架，我们可以通过添加我们的模型进一步增强TA3N，在这两个数据集上实现91.94和94.57的准确率。0在E55数据集上的结果如表2所示。我们将各个模态分类器的输出进行平均，作为后期融合方法，以便与之前的工作进行公平比较。使用跨模态自监督、MM-SADA、STCDA和Kim等方法无法像我们提出的方法那样表现出色。这证明了我们的假设，即同时优化跨模态对齐和跨域对齐可能会分散模态的注意力，从而无法最小化域差距。然而，通过在对齐之前进行交互，我们的方法可以更好地利用跨模态互补性和跨模态一致性，从而将平均准确率提高了1%，相比之前的最新技术水平。0在E100数据集上的结果如表3所示。我们在实施方法时，将每个模态的得分进行平均，以进行后期融合。0模态主干方法动词名词动作0R+F0I3D仅源 39.28 22.28 11.62 I3D MM-SADA [36] 40.4123.92 12.80 I3D仅源 40.17 22.89 12.27 I3DCIA（我们的方法）42.35 24.49 14.250TBN仅源 42.41 27.26 16.03 TBN DAAA [20] 42.9927.38 16.32 TBN仅源 42.98 27.49 16.44 TBNCIA（我们的方法）43.93 27.54 17.010TBN-TRN仅源 43.78 26.65 16.70 TBN-TRN TA 3 N [6]44.88 27.41 17.39 TBN-TRN仅源 44.12 27.12 16.86TBN-TRN CIA（我们的方法）45.23 27.75 18.020R+F+A0TBN-TRN仅源 46.67 27.57 19.00 TBN-TRN TA 3 N [6]47.43 28.40 19.42 TBN-TRN仅源 47.69 28.48 19.61TBN-TRN CIA（我们的方法）48.34 29.50 20.300TBN仅源 47.10 28.30 18.66 TBN DAAA [20] 47.9629.08 19.19 TBN仅源 48.22 29.86 19.73 TBNCIA（我们的方法）49.08 30.36 20.490表3.在EPIC-Kitchens-100（E100）验证集上的性能比较。R，F和A分别表示RGB，Flow和音频模态。我们将每种方法与其仅源性能一起显示在上面的行中。0在I3D主干上，我们使用串联方法，而在其他主干上，我们使用连接方法。使用RGB和Flow模态以及相同的主干，我们提出的方法在动作准确性方面比最先进的方法MM-SADA[36]提高了1.45％。当使用RGB，Flow和音频模态时，我们的方法在动词，名词和动作指标上都能显示出更显著的改进。04.3. 可视化0为了更好地理解提出的CIA模型，在图4中，我们展示了MC模块进行交叉模态特征精炼之前和之后的Grad-CAM[43]可视化。从这些案例中，我们可以清楚地看到与其他模态的特征交互的好处：在（a-1）和（a-2）中，其他模态帮助RGB模态(a)(b)her147280Flow精炼Flow RGB精炼RGB0图4. MC进行交叉模态特征精炼之前和之后的Grad-CAM[43]可视化。地面实况动作是：（a-1）拿勺子，（a-2）移动勺子，（b-1）拿大蒜，（b-2）拿油。（a-1）和（a-2）显示了RGB激活图（左）和由其他模态精炼的RGB模态的激活图（右）。类似地，（b-1）和（b-2）描述了仅Flow模态的激活图和由其他模态精炼的Flow的激活图。0经过SC之后的RGB精炼RGB精炼Flow Flow0图5.SC之后的RGB，精炼RGB，Flow，精炼Flow和融合模态的Grad-CAM[43]可视化。地面实况动作标签是：（a）打开橱柜，（b）放下勺子。0通过抑制对其他物体的关注，将更多的注意力放在手上。在（b-1）中，经过精炼的Flow模态将其注意力从脚转移到手上，在（b-2）中将其注意力从左手转移到右手。这些例子强烈证明了跨模态可转移知识如何帮助每个模态在目标领域上表现更好。我们还可视化了SC模块之后的激活图，以定性评估其有效性。在图5（b）中展示的动作“放下勺子”中，RGB模态受到其他模态的引导，忽略了水龙头，而经过精炼的Flow特征在中心更加聚焦。最后，我们的SC模块可以通过利用所有模态的共识找到最佳焦点。04.4. 消融研究0在本节中，我们对E100验证集进行了消融研究，以检验每个模块带来的贡献。我们测试了不使用MC或SC模块的方法，并且还测试了在MC模块内使用自我或交叉精炼特征的方法。结果可以在表4中看到。与基准设置（第一行）相比，自我精炼（第二行）和交叉精炼（第三行）都受益于“总结和重新评估”操作，同时结合自我和交叉精炼。0MC SC 动词名词动作0× × 47.96 29.08 19.19 自我细化 × 48.01 29.3119.56 交叉细化 × 48.48 29.48 19.67 � × 48.6229.96 19.98 × � 48.66 29.79 19.83 � � 49.08 30.3620.490表4.我们的CIA模型中互补性模块（MC）和空间共识模块（SC）的消融研究。0设置模块动词名词动作0仅源域 Avg 47.10 28.30 18.66 Att [56] 47.32 28.8519.21 SC 47.85 29.18 19.550领域自适应0Avg 47.96 29.08 19.19 Max 48.1129.59 19.48 Att [56] 48.08 29.4619.39 TADA [55] 47.79 29.69 19.59SC† 48.39 29.70 19.62 SC 48.6629.79 19.830动作识别0Avg 72.43 51.36 40.90 Att [56]72.89 53.00 42.20 SC 73.09 52.5042.280表5. 我们的SC模块与其他方法在E100验证集上的性能比较。0细化我们的MC（第4行）在准确率上有更明显的提高。这强烈证明了自我细化和交叉细化相互促进，利用多模态可迁移信息进行更好的领域自适应。仅使用MC或SC，性能不如它们的组合版本有利，表明我们的MC和SC可以很好地合作，利用交叉模态互补性和共识来减小领域差距。0SC的不同设计选项我们还测试了我们提出的SC的不同设计选项。SC模块旨在根据每个位置的可迁移性对特征进行空间重新加权。我们与最广泛采用的特征融合方法进行比较：空间最大池化（Max）和平均池化（Avg）。除了这些直接融合方法，我们考虑了两种基于空间注意机制的方法，一种用于通用目的（Att[56]），一种用于领域自适应（TADA[55]），用于为每个模态生成空间注意图。根据注意图使用加权平均值来融合特征。SC†是我们的SC的简化版本，它仅在单个尺度上计算特征图的相关性。表5显示了在E100验证集上的比较结果。在领域自适应设置中，仅将SC替换为每个空间位置上的最大池化或平均池化会对性能产生负面影响。这表明最大池化和平均池化在将焦点放在可迁移区域上效果不佳。020406080020406080147290拿放洗打开关闭插入打开（电器）切断（电器）倒入搅拌扔干燥调整填充0轻拍勺子盘子橱柜刀子平底锅锅盖碗抽屉海绵玻璃手冰箱杯子瓶子洋葱切菜板液体盒子炉灶0RGB与音频交互 RGB与光流和音频交互 RGB与光流交互0（a）动词类0（b）名词类0图6. E100验证数据集中几个最常见的动词（a）和名词（b）的每类准确率。0年龄池化在将焦点放在可迁移区域上效果不佳。与单尺度相关性相比，多尺度相关性的有用性得到了证明，因为SC可以胜过SC†。在没有充分利用多模态知识的情况下，Att和具有对抗性对齐的TADA无法像我们的SC那样找到好的可迁移区域。在仅源域和领域自适应设置中，我们的SC在这些选项中获得了最佳性能，表明模态之间的空间共识更具领域不变性。由于目标域缺乏标签，我们无法展示仅目标域的结果。相反，我们展示了在源域上训练和测试模型的“动作识别”设置。从表5中可以看出，由于可以在不存在领域差距时学习模态特定的空间权重，Att在名词准确率上优于我们的SC。从不同设置下的比较可以看出，当领域差距阻碍了空间权重的学习时，生成模态特定的空间权重变得更加具有挑战性。在这种情况下，我们基于共识的SC显示出突出的优势，可以突出显示可迁移区域。然而，当不存在领域差距时，我们的SC变得次优，因为我们无法为不同的模态强调不同的区域，显示了我们方法的局限性。04.5. 不同模态的贡献0为了验证每个模态的贡献，在表6中0我们展示了在与其他模态交互之前和之后，每个模态的结果。从表中可以清楚地看到多个模态之间信息交互带来的好处。我们还可以看到不同的模态对动词和名词有不同的影响。例如，在表6的底部块中，RGB在名词准确性方面为音频带来了更大的改进，而Flow则指导音频模态更好地分类动词。为了进一步验证模态交互带来的增强效果，可以参考图6中RGB模态与不同模态交互的每个类别的准确性（参考表6的第1、2、4、5行）。在图6（a）中，对于“洗涤”、“打开”和“关闭”等动词，RGB模态与音频模态的交互可以显著提升性能。我们认为这是因为洗涤等动词的独特声音0模态模块动词名词动作0RGB - 30.88 22.98 10.23（与Flow交互）MC 39.17 24.9413.88（与Flow交互）MC + SC 40.69 25.2214.63（与音频交互）MC 40.48 25.6415.51（与Flow、音频交互）MC 45.38 27.2517.43（与Flow、音频交互）MC + SC 45.21 27.85 17.800Flow - 42.02 21.15 12.90（与RGB交互）MC 42.52 24.5415.32（与RGB交互）MC + SC 42.90 25.34 15.81（与音频交互）MC46.57 23.37 15.95（与RGB、音频交互）MC 46.02 26.1417.68（与RGB、音频交互）MC + SC 46.28 26.30 17.750音频 - 33.34 14.82 8.64（与RGB交互）MC 40.10 22.2613.80（与Flow交互）MC 43.80 21.2014.26（与RGB、Flow交互）MC 45.11 24.66 16.270表6.在E100验证集上显示了与不同模态交互之前和之后的单一模态的结果，以验证每个模态的贡献。0源域和目标域中的RGB和Flow模态在动词类别的区分上非常相似。Flow模态的信息有助于RGB模态区分“打开”、“切割”和“混合”等动词。这是预期的，因为Flow包含了更多关于运动的可转移信息，从而补充了RGB模态在预测动词方面的不足。从名词类别的表现，如“轻拍”和“海绵”，也可以得出类似的结论。05. 结论0在这项工作中，我们提出了一种新颖的多模态领域自适应动作识别CIA模型。我们的CIA模型使用两个模块来实现跨模态特征交互，既利用了跨模态互补性，又利用了跨模态一致性，准确地学习源域和目标域之间最具可转移性的特征。我们的方法在多个数据集上相对于以前的方法取得了显著的改进。我们提出的方法在其他领域自适应任务中也具有很大的潜力，这是我们将来要探索的。0致谢：本工作得到JSTAIP加速研究资助，编号JPMJCR20U1，JSPSKAKENHI资助，编号JP20H04205，以及东京大学SpringGX计划的支持。147300参考文献0[1] Nakul Agarwal，Yi-Ting Chen，BehzadDariush和Ming-HsuanYang。无监督的时空动作定位领域自适应。BMVC，2020年。20[2] Konstantinos Bousmalis, Nathan Silberman, David Dohan,Dumitru Erhan, and Dilip Krishnan.无监督像素级领域自适应与生成对抗网络。在计算机视觉和模式识别IEEE会议论文集中，第3722-3731页，2017年。20[3] Minjie Cai，Feng Lu和YoichiSato。在自我中心视频中使用不确定性引导的模型自适应进行手部分割的泛化。在计算机视觉和模式识别IEEE/CVF会议论文集中，第14392-14401页，2020年。1，20[4] Joao Carreira和Andrew Zisserman. Quovadis,动作识别？一种新模型和动力学数据集。在计算机视觉和模式识别的IEEE会议论文集中，页码为6299-6308，2017年。2, 50[5] Chaoqi Chen, Jiongcheng Li, Zebiao Zheng, Yue Huang,Xinghao Ding和Yizhou Yu.双二分图学习：一种用于领域自适应目标检测的通用方法。在计算机视觉和模式识别的IEEE/CVF国际会议论文集中，页码为2703-2712，2021年。10[6] Min-Hung Chen, Zsolt Kira, Ghassan AlRegib, JaekwonYoo, Ruxin Chen和Jian Zheng.用于大规模视频领域自适应的时间注意力对齐。在计算机视觉和模式识别的IEEE/CVF国际会议论文集中，页码为6321-6330，2019年。1, 5, 60[7] Min-Hung Chen, Baopu Li, Yingze Bao, GhassanAlRegib和Zsolt Kira.具有联合自监督时间领域自适应的动作分割。在计算机视觉和模式识别的IEEE/CVF会议论文集中，页码为9454-9463，2020年。20[8] Yuhua Chen, Wen Li, Christos Sakaridis, Dengxin Dai和LucVan Gool. 用于野外目标检测的领域自适应FasterR-CNN。在计算机视觉和模式识别的IEEE/CVF会议论文集中，页码为3339-3348，2018年。

下载后可阅读完整内容，剩余1页未读，立即下载