双途径运动引导的注意力融合识别视频中的交互

51 浏览量更新于2023-10-14 收藏 1015KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13076运动引导的注意力融合识别视频中的交互乔纳森·琼斯Gregory D.约翰霍普金斯大学北纬3400度。Charles St，Baltimore，MD{tkim60，jdjones，hager} @ jhu.edu摘要我们提出了一个双途径的方法，从视频识别细粒度的相互作用。我们建立在先前的双流方法的成功的基础上，但通过引入单独的运动和对象检测途径，明确了对象的静态和动态表示及其相互作用然后，使用我们新的运动引导注意力融合模块，我们融合了自下而上的运动路径中的功能，从对象检测捕获的功能，以学习动作的时间方面我们表明，我们的方法可以有效地概括我们使用Something-Something-v2数据集的组合动作识别任务来验证我们的方法，在该数据集中，我们的表现优于现有的最先进的方法。我们还表明，我们的方法可以推广到现实世界的任务通过展示在IKEA-ASM数据集上识别人类组装各种宜家家具的最先进性能1. 介绍近年来，这样的方法使用两个不同的神经模块来处理视频流，所述两个不同的神经模块的分数被融合以产生最终预测。每个模块都有自己的用途：典型的是，一个模块捕获关于场景中运动的时间信息，而另一个模块捕获关于相关对象、演员以及可能的背景环境的外观的空间信息。虽然在它们的公式中并不总是明确的，但双流模型捕捉到了这样的想法，即行为从根本上描述了人与环境之间的组合交互。这些相互作用由原子动作（动词）组成，原子动作（动词）可以采用各种论证（类似于句法分析，主语或宾语）。例如，拿起一个杯子可以表示为图1：当前的视频模型是否有能力重新识别一个看不见的互动定义的实例，使用的组合，看到的组件？我们表明，这是可能的，通过指定的动态结构的动作使用一系列的对象检测在一个自上而下的时尚离子。当自上而下的结构与双途径自下而上的方法相结合时，我们表明该模型甚至可以推广到看不见的相互作用。三位一体（人、接物、杯子）。由于这种组合性，视频中的人类对象交互的自动识别因此面临标签集合在组合上很大的基本挑战。因此，枚举所有可能的描述来训练端到端方法[32，6，15，49，24]是不切实际的。如图1所示，交互的组合性质最终需要一个视觉系统，该视觉系统可以概括为具有先前可见的结构的动作，但可以用可能看不见的组件组合来实例化。为了应对这一挑战，已经有人尝试施加一个明确的自上而下的结构，以将动作分解为它的演员（对象）和时空关系，他们使用对象检测[48，36，25，26]。然而，这种方法并没有表现出明确和明显的改善，除非与端到端的RGB13077模型在测试时间[36]或关于角色-对象关系的基础事实知识由一个or-cle [26]提供给模型。这表明，强制执行自上而下的结构并不能完全捕获相互作用之间的变化范围此外，独立训练的模型的集合始终优于用于识别交互的RGB+对象特征融合方法[36]的事实表明，来自两个域的特征在训练期间没有有效地融合尽管如此，使用对象检测的动机仍然很强，因为对象本质上定义了交互的结构，并且现成的对象检测[21，41]已经变得足够鲁棒，可以原样使用以定义复杂的动作[28]。在本文中，我们提出了一种混合的方法，重新识别细粒度的互动，借用自下而上，双流动作识别和自上而下，结构化的人与物体的交互检测的想法。我们的方法背后的关键思想是利用一系列的对象检测来指导学习以对象为中心的视频特征，捕获静态关系和动态移动模式的对象。然后使用基于注意力的运动引导注意力融合（MGAF）机制将学习到的以对象为中心的表示转移到运动路径。MGAF模块引导来自运动路径的RGB表示以开发动作的动态方面的表示。在本文的其余部分，我们评估模型的能力，概括了对象的外观时，recognizing相互作用。我们表明，我们的方法导致一个视频模型，可以识别看不见的互动（新的动词-名词组合物）在测试时间比现有的ap-proaches。我们使用Something-Something-V2数据集的Something-Else任务[36]来评估我们的[18] 在那里我们建立了一个新的艺术状态此外，我们表明，我们的框架是一个一般的概念，并很容易转移到一个新的域。使用最近发布的Ikea-ASM数据集[3]，我们表明我们的模型准确地识别了人类与众多部件的交互，以组装各种宜家家具，并为数据集的主要任务设定了新的最先进的基准。此外，我们提出的第一个结果的组成任务使用IKEA-ASM数据集，其中一个模型进行测试，对新的动词-名词组合。总之，本文的主要贡献是：1. 利用对象的动态关系的双路径方法2. MGAF：使用以运动为中心的对象特征来指导RGB特征学习过程的特征融合策略3. 在多个基准测试（包括合成任务）上的最新识别性能。2. 相关工作视频中的动作分类：随着用于动作分类的大规模视频数据集的引入[13，19，27]，已经提出了许多深自下而上的架构来从视频中提取强大的表示[4，6，15，16，24，32，44，49]。然而，[51，36]中的研究结果表明，这种预训练模型更关注外观，而不是动作的时间结构我们实际上是建立在这种外表偏见的基础上，来学习外表通路中有用但静态的视觉特征。与捕获相同交互的动态方面的运动路径并行地学习关于交互的静态分量的这种表示我们通过利用对象检测来引导运动路径来明确这一点。具有对象的视频的自顶向下结构化模型越来越多的工作线使用从视频中提取的结构化信息，例如对象检测和场景图，以改进动作的细粒度分析[1，25，17，49，49]。48、35、42、26、36]。这些方法不是仅从视频中学习特征，而是通常结合从对象检测器定义的感兴趣区域提取的特征，例如[41，21]。然后，以对象为中心的表示可以用于学习对象[36，35，1]之间、对象和全局上下文[49，42，17，36]之间以及指定的图结构[48，26]内的成对关系，以改进动作分类。我们还使用对象检测来提供交互的结构。然而，我们采取了一种更数据驱动的方法来从一系列对象中学习结构，而不是以纯粹的自上而下的方式指定它们。然后，我们的方法使用学习到的以对象为中心的概念来指导运动路径，以从视频中学习更多以运动为中心的特征。人机交互：从静止图像检测人-物体交互（HOI）是研究的活跃领域[8，7，20，43]。有关基于图像的HOI文献的更多综述，请参见最近的最新HOI论文[43]。我们从根本上不同于基于图像的方法，因为我们处理一系列图像，并专注于建模的动态方面的相互作用。在视频领域，[37]的作者定义了虽然该方法没有用于识别视频中的动作，但它提供了证据，证明该模型可以正确计算未出现在训练集中的对象的AF。早期用于识别交互的工作还利用了对象检测所提供的自上而下的结构。然而，鉴于成对对象属性的手动设计性质，手动指定的方法（诸如[12]）不能很好地扩展。[52]的作者提出了一种扩展，其中通过沿对象轨迹提取描述符来隐式地指定结构然而，我们后来在我们的实验中表明，结合对象水平的运动信息13078∈∈∈VVVV. 有许多公认的骗局--X1y1X2y 2LL与静态视觉信息的交互导致最好的结果。我们的贡献包括我们如何使用基于注意力的MGAF模块合并两种模态之间的信息。注意力的使用最近的论文研究了自然语言处理领域[46，5，11，34，50]的自我注意力公式如何推广到图像领域[2，40，10]以及基于视频的应用[47]。非局部神经网络[47]通过使用作为自注意单元[46]的泛化的非局部算子来我们的关键观察结果是，注意力操作导致信息融合，无论是在模型的时空特征图[ 47 ]内我们调查是否可以使用的注意力机制，nism引导RGB表示，以更专注于动态方面的行动，通过融合信息，从对象的功能。体系结构：众所周知的双流体系结构[16]已被修改并采用在最先进的视频识别模型中，例如[6，15]。原始双流方法的关键思想是将光流场作为输入的流我们的方法来指导运动路径表示与对象功能共享相同的理念。然而，我们强加了一个自上而下的结构，它与交互中对象关系的建模更相关。更现代的慢快[15]架构也使用两个RGB来构建“显形”途径。设XRT×H ×W ×C是具有C个通道的视频，其中T个帧具有空间维度H和W。出现路径可以是具有以下形式的任何前馈神经架构VV（X）=v L（v L−1（. . . v2（v1（X）（1）其中第l个中间表示由网络的子模块v1 ：l计算，并且V（X）∈RTL×HL ×WL ×CL我们的方法包括使用满足上述条件[6，32，15，16，45]的进化神经架构，并且我们的一般框架支持使用任何这样的模型。由于外观路径的目标是捕获动作的静态组件，因此我们使用低采样率对视频进行子采样方便地，大多数前述3D卷积架构[6、32、15、39、14、45]已经遵循这样的视频采样策略。3.2.使用对象检测我们的方法的主要见解是，随着时间的推移编码的相互作用的特征运动模式的对象。假设我们可以在具有T帧的给定视频中检测至多D个对象令Z（X）RT×4D是使用对象检测定义的视频X我们将帧Z（X，t）R4D定义为检测到的对象的D边界框坐标的级联，使得：Z（X，t）=[〇1，〇1，〇1，〇1，. . . ，o D，o D，o D，o D]（2）流来学习具有不同时间粒度的x1y1X2y2x1y1X2y2通过对每个流以不同的时间采样率处理视频来连接。相反，我们使用相同的框架来明确地专用于学习与动作的动态和静态方面相关的特征的路径。我们使这种分离更加明确，利用提取的对象检测的时间特征3. 方法我们描述了我们的双通道的组件，用于识别视频的交互。两个路径，外观（第3.1节）和运动（第3.3节），都作为输入RGB视频，但只有运动路径融合信息，使用对象检测。我们描述了我们如何学习高层次的运动线索使用对象检测（第3.2节）与一个简单的时间模型。最后，我们介绍了运动引导的注意力融合（MGAF）模块（第3.4节），该模块使用多模态注意力操作将运动路径的特征与以对象为中心的特征3.1. 外观途径：学习静态内容我们利用现代3D卷积模型的外观偏差[36，51]，如[6]，以我们的优势和使用其中〇d，〇d，〇d，〇d对应于第d个对象类别的边界框坐标。在实践中，我们将D设置为常数，并且当场景中的对象少于D当存在多于D个对象时，我们基于它们的预测置信度得分来选择D个给定帧级对象检测的时间序列，令U是前馈架构，使得：U（X）= u L（u L−1（. . . u2（u1（Z（X）（3）其中ul是U的一个子模，1≤l≤L且U（X）∈RTU×CU.我们的框架不要求V和U的深度相同;它仅要求U包含执行时间特征提取的可训练层的序列。例如，每个ul可以被实现为具有1D卷积的时间卷积层，随后是非线性操作[30] 、诸如 [23 ， 9] 的递归层、基于自注意的Transformer编码器[46]或这些组件的任何混合。当我们优化U以从对象检测的时间序列预测交互标签时，通过设计，U包含关于对象之间的关系及其随时间的动态的信息。我们方法的关键方面是13079∈LLLLM× ××Ml−1MLLl−1MUMMMMULLMMLMLl图2：我们的方法使用两种捕获交互的不同方面的途径来处理视频外观路径仅使用从视频采样的几个帧来从视频学习静态视觉线索。该运动路径通过利用从对象检测中提取的时间特征来从视频中明确地捕获动作的动态信息运动引导注意力融合（MGAF）模块有效地融合了由对象检测提供的自上而下的结构信息，以指导运动路径的表示学习过程。将从u1：L学习的以对象为中心的特征转移到我们接下来描述的基于RGB的运动路径。3.3. 运动路径：从对象和视频中学习动态结构“运动”路径假定输入视频XRT×H ×W ×C与“外观”路径相同。“运动”路径的目标是从融合，我们选择由一组时间卷积产生的表示fl与Ul−1融合。为了学习仅合并相关的运动信息，我们引入了运动引导注意力融合（MGAF）来融合视觉表示fl与对象特征Ul-1。我们相应地修改模块ml为：fl=σ（F（Ml−1;θf））X通过学习融合U提供的物体运动特征。假设运动路径M是具有L个模块m1：L的前馈架构。给定的输出fusedl=MGAF（fl，Ul−1）gl=σ（G（fusedl;θg））ml（Ml−1，ul−1）=Ml−1+gl（五）前一层M∈RTl−1×Hl−1×Wl−1×Cl−1，每个MMMM模块m_l被定义为具有时间卷积操作和随后的空间卷积的残差块[45]fl=σ（F（Ml−1;θf））图3可视化了运动路径中的块内的操作。我们描述了我们如何使用MGAF模块执行多模态特征融合。3.4. 运动引导的注意力融合gl=σ（G（fl;θg））ml（Ml−1）=Ml−1+gl（四）一种常见的特征融合策略是沿着信道维度连接两个表示。重合假设两个特征的所有通道重合。其中F是时间3D卷积运算，其中θf中的每个滤波器具有大小t×1×1×Cl−1，G是空间3D卷积运算。θg的大小为1×同样的致敬相反，我们希望仅增强捕获相关运动模式的通道。为此，我们允许RGB特征f参与k k Cl-1，σ是归一化运算，之后是非线性，t，k是时间/空间滤波器维度。假设模块可以访问运动特征以对象为中心的表示Ul-1，并有效地重新经由交叉模态注意操作来校准F1的通道。U∈RTl−1×Cl−1作为具有给定f∈RTl×Hl ×Wl×Cl，我们首先进行spa-相同的时间长度和一些每帧特征尺寸Cl-1。我们后来在实验中表明，Ul−1在哪里以及以最好地保留时态信息具有大小为Hl的窗口的样本池化×W l使得pool（f）=z（f）∈RT× C.为了符号简洁，我们去掉下标，将z（fl）表示为z，将Ul−1表示为U。然后，我们允许空间折叠的视觉表示卷积运算，其中每个滤波器L13080UMCl−1×CR∈MUOU⭢L∈∈(a) 仅RGB（b）具有MGAF的图3：（a）：运动路径中的第l个模块的图示，该模块学习视觉特征M l−1的特征以产生M l。(b)同一模块增强了运动引导注意力融合（MGAF），其将RGB特征Ml-1与对象特征Ul-1融合，以产生更以运动为中心的表示。z，以通过以下方式来关注对象特征U：（zWz）（WT UT）Az= softmax（√C）UWU（6）其中W zRC× C和WR，U是 MGAF 模块的可学习参数，并且C是超参数。彼得。然后注意A特征用于重新加权图4：运动引导注意力融合模块。我们融合来自运动路径的空间折叠的RGB特征z（fl）与对象特征Ul-1之间的信息。我们使用自注意机制来实现这种多模态特征融合。从对象检测的时间序列导出的特征的融合对于模型明确地学习关于相互作用的运动模式的表示是必要的如图2所示，我们保持相对特征维度与[15]中的原始公式一致，其中运动路径的卷积核减少了β=1/8。我们也不改变两者[15]中的RGB路径，以保持比较简单和公平。最后，我们学习通过最小化以下损失来为所有模块联合找到最佳的可训练参数集，从而对交互进行L=−Σ（λrynlog（y（n）+λoynlog（y（n）（8）z通道签署人：zUN其中yn是第n个训练样本的真实交互标签，yn是使用RGB特征的预测MGAF（fl，Ul−1）=σ（α（AzU）Wuz）fl（7）nr其中α是遵循的归一化（层范数）操作yo是利用对象特征的预测，并且λr、λo是用于控制对每个交叉熵通过激活操作，WuzRC×Cl是一个可学习的届转换，σ是S形函数，是元素-4. 其他方面的实验明智的乘法项σ（α（ASV）Wuz）充当- 门控机制，以基于RGB和对象特征之间的注意力操作来重新校准fl的通道和时间维度3.5. 实例化图2显示了我们的方法的总体架构。我们使用受[15]启发的双流架构。类似地，我们为每个路径使用单独的帧速率：“外观”路径处理帧速率非常低的视频，“运动”路径从帧速率较高的视频中提取视觉特征（高出α=8倍）。我们后来在我们的实验中表明，帧速率的差异并不一定导致运动和外观的解耦表示，这限制了模型我们证明了在Something-Something-V2 [18]数据集中发现的标签具有组合结构，其中动词和名词（对象）的组合定义了动作。数据集包含总共174个动作类别，其中众包工作者上传捕获动作类别（动词）与对象（名词）的任意组合的视频。因此，数据集包含一组非常多样化的动词-名词组合，涉及12，554个不同的对象描述。最近发布的Something-Else任务[36]是对原始任务的扩展，具有新的对象注释和合成动作识别任务。4.1. 组合动作分类任务新的组合分割假设可用于训练的动词-名词对的集合与集合不相交。13081--{A B}{BA}{AB}在推理时给出。设有两组不相交的名词（宾语）、、和两组不相交的动词（动作）1、2。目标的组成动作识别任务是识别新的动词-名词组成在测试时间。模型可以观察集合1中的实例+2但是将使用来自1+ 2的实例进行测试。在该设置中，有174个动作类别，具有54，919个训练和57，876个验证实例。该模型使用标准分类设置进行评估，并且我们以前1和前5的准确度测量性能。4.2. 实现细节所提出的框架是通用的，并且可以使用最新的最先进的模型来实例化每个组件。我们扩展了SlowFast [15]架构，给出了其双路径实现和大规模动作分类基准测试的最新结果我们采用[15]中的慢路径作为我们的外观，采用快路径作为运动路径。给定视频样本，外观和运动路径分别子采样8和32帧我们使用地面实况对象检测和跟踪提供的数据集发布。对于使用预测对象检测的结果，我们使用与[36]的作者相同的检测框，这些检测框来自具有特征金字塔网络（ FPN）[33]和 ResNet- 101 [22]主干的训练Faster-RCNN [41 对象检测器输出一组人（手）和通用对象定位以及置信度分数。在基于对象的时间模型方面，我们使用非常轻量级的5层时间卷积神经网络[31，29]。我们不执行任何池化操作的时间维度，直到最后的全球平均池化层。所有时间卷积滤波器的长度为9，步长为1。所有实验均使用Py-torch [38]框架进行。补充材料中报告了重新生成我们的结果所需的其他详细信息，包括优化设置、硬件规格和训练参数。4.3. 与最新技术对于仅RGB基线，我们使用流行的I3D [6]模型作为我们的单通路（SP）架构，使用SlowFast [15]模型作为双通路（DP）基线。在表1中，我们首先评估当训练期间可用的动词-名词组合的集合与测试期间发现的集合不相交（* 混合）时模型的性能。我们观察到SP和DP模型的性能下降约25%。这是用于自下而上视频分类的当前方法在不同的动词-名词组合中不能很好地推广的有力证据。纯自下而上的模型可能模型输入评价RGB对象top-1top-5SP*OOoo61.783.5DP*64.990.1[ 36 ]第54.079.6我们的 *55.179.9SP [6]O46.872.2DP [15]O49.677.9[36]第三十六话O51.479.3STINOO54.679.4STINOO58.183.2我们的（仅对象）O52.377.5MGAF（SP，目标）OO60.584.3MGAF（DP，目标）OO68.088.7表1：与使用地面实况对象的合成动作分类任务上的其他方法的比较。SP：单通路。DP：双途径。MGAF：运动引导注意力融合. *-过于偏向于动作的外观，并且不能跨交互中涉及的对象外观进行一般化。使用对象检测提供的自上而下的结构，我们在表1中显示，仅使用对象检测的模型（例如STIN [36]和我们的仅对象时间模型）已经优于纯自下而上的仅RGB模型。这表明对象检测提供了识别交互所需的强结构线索。与其他最先进的模型（如STIN [36]）相比，我们的方法的关键区别在于我们如何利用从对象检测中提取的自上而下的结构表1提供了最先进的模型（STIN）与我们的方法的头对头比较。为了学习视频和对象的联合模型，STIN将基于对象的特征与从I3D模型提取的视觉特征相所得STIN-concat模型比仅对象STIN基线提高2.8个点。相比之下，MGAF（SP，Obj）模型反而使用MGAF模块来融合来自对象检测的特征和相同的我们观察到一个显着更大的增益8.2点，超过我们的对象只有基线模型。这实际上甚至优于多模态方法的集合（STIN集合）。MGAF（SP，Obj）实例化仍然仅使用单个路径从视频我们可以通过使用双通路公式使运动和外观表征的解耦更明确。如方法部分所述，我们仅将运动路径与基于对象的特征融合。再-13082仅对象模型组件 #参数STIN [36]51.4 4.288Mv1 52.3 0.838Mv2 53.6 4.150M(a) 与STIN相比，我们的仅对象模型的变体Top-1 Acc.A仅只有A + M（双通道）46.839.449.6O仅Concat（A，O）Concat（A + M，O）52.354.758.8MGAF（A，O）60.5MGAF（M，O）55.8M + MGAF（A，O）63.8A + MGAF（M，O）68.0(b) 使用Something-Else组合任务对模型组件进行消融第一块：仅RGB分量的比较。第二块：将对象特征（0）与RGB特征（A和M）融合的朴素级联方法。第三块：MGAF模块的不同输入组合的比较。A：外观路径。M：运动路径。0：对象路径表2：使用Something-Else数据集的组成分割的模型组件的各种消融。结果MGAF（DP，Obj）模型导致性能的显著改进，导致68.0 top-1精度的最新性能。当使用预测的对象检测而不是地面实况定位时，我们观察到对象位置中的噪声导致MGAF（DP，Obj）的性能下降到61.2和83.3的前1和前5精度。这仍然比当前技术水平[ 36 ]提高了9.3和6.2个点，当前技术水平[36]的精度为51.5 top-1和77.1 top-5。4.4. 消融在表2a中，我们比较了从一系列对象检测中学习的简单时间模型的变化。我们希望它尽可能快速和轻量级，以便为视频模型增加最小的开销v1和v2对象模型都具有相同的深度（5个时间卷积层），但每层的滤波器数量不同。我们在所有其他实验中使用v1模型，因为它仍然优于最先进的STIN，其可学习参数比STIN或我们的v2变体少20%在表2b中，第一行块比较对照组和对照组。仅给出RGB视频的DP的每个路径的分配。我们表明，外观（A）和运动（M）路径的组合是必要的，以提高识别性能的相互作用中发现的其他东西的数据集。表2b的第二块示出了经由来自两个域的特征的级联来组合RGB和对象检测的模型的性能。Concat（A，O）本质上是来自SP和对象（O）模型的多模态特征的后期融合我们观察到O提供的自顶向下结构有助于将模型在仅对象基线上提高2.4个点，在仅RGB基线上提高7.9个点。当对象特征O与仅RGB双通道（A+M）模型的输出连接时，我们发现一致的行为与Concat（A，O）模型相比，使用MGAF模块的可比模型MGAF（A，O）实现了相当高的精度（54.7 vs.60.5）。这将外观特征直接与对象特征融合，而不使用单独的运动路径。假定存在两个RGB路径（A和M），MGAF模块可以用于将以对象为中心的表示0与任一路径融合。我们发现，将O与运动路径M融合，然后与A合并，会产生最佳结果（68.0）。我们相信运动路径输入的更精细的时间粒度保留了视频的更多动态信息，从而更有效地与O.5. IKEA Assembly数据集在本节中，我们使用IKEA As- sembly数据集测试我们的模型识别现实人类对象交互与Something-Else数据集相比，IKEA数据集包含以更细粒度发生的真实交互图5清楚地说明了两个数据集之间的视点、对象比例和遮挡水平的差异。我们表明，我们的方法转移到这个现实的域。IKEA-Assembly数据集中的标签由动词的组合定义（即自旋）和对象（即，一条腿）。数据集中有12个动词和7个宾语。这导致总共33个定义的交互。相互作用的组成结构产生严重不平衡的标签集。例如，存在754个旋转腿的训练示例，而不是仅20个躺下腿的样本。因此，我们报告了每类召回（宏观召回）的微观平均准确率和平均值，以评估模型。复制我们的结果所需的实现细节将在补充材料中详细说明。5.1. 原始任务我们在数据集的原始任务上评估我们的方法。在训练期间可用的动词-名词组合也出现在该设置中的测试时间这就相当于--13083图5：IKEA-Assembly和Something-Else数据集之间的差异包括比例，运动粒度，视点和遮挡程度。模型模态评价RGB对象宏观微SP（I3D [6]）OOO41.874.6DP（慢速快速[15]）43.973.5仅对象18.957.8Concat（SP，Obj）OO44.276.2Concat（DP，Obj）OO46.076.5MGAF（DP，目标）OO47.778.8表3：IKEA-Assembly数据集的原始任务的结果SP：单通道DP：双途径。Concat：特征的一致性。运动引导的注意力融合模型混合组成宏观微宏观微SP（I3D [6]）44.866.427.045.1仅对象24.737.422.442.1Concat（SP，Obj）45.668.728.343.1DP（慢速快速[15]）48.872.929.454.7Concat（DP，Obj）49.073.232.053.7MGAF（DP，目标）49.172.437.655.6表4：Ikea-Assembly数据集的组成任务的结果。SP：单通道DP：双途径。Concat：功能的连接。运动引导的注意力融合与“混合”成分设置相同，如4.第一章在表3中，我们首先报告了仅RGB基线、单通道I3D [6]）和双通道SlowFast [15]的性能。在这个数据集中，我们发现SP和DP模型之间没有显着的性能差距这表明DP中的额外运动路径贡献不大。我们认为这是由两个因素共同造成的首先，IKEA-Assembly数据集比Something-Else数据集小得多（约5 k训练实例与50k），因此是纯自下而上的DP13084模型可能没有完全学会分离运动和外观。第二，给定实验设置，许多交互可以仅使用静态线索（即。放置腿与拾取架）。我们发现，由对象检测给出的自上而下的结构有助于缓解第一个问题。例如，Con_cat（DP，Obj）实例化将仅RGB DP基线改进了2.1。当使用MGAF模块将融合定位到运动路径时，我们获得了额外的1.7分然而，如上所述，在该设置中，模型可以不必显式地接下来，我们描述了组合任务，其中模型必须能够明确地推理交互的动态和静态组件。5.2. 合成任务我们介绍了宜家组装数据集的合成任务。这里的设置与Something-Else数据集中的compo- sitional任务相同本质上，我们正在测试模型识别“推桌面”实例的能力，该实例在训练期间通过观察“推腿”和“翻转桌面”样本在这导致了动词的六向分类我们在补充材料中提供了如何拆分操作标签以形成成分拆分的详细信息在表4中，我们观察到仅RGB模型（SP和DP）在混合任务和组合大的性能下降（17.5为SP和19.4或DP的宏观召回）表明，目前的模型在其原始形式不一般化以及看不见的相互作用。相比之下，我们看到混合模型的两个分割之间的性能差距较小最后，我们看到了明确的经验证据，即MGAF模块帮助模型学习更强的表示，以识别视频中的交互，在这两项任务中表现优于所有其他模型。6. 结论我们提出了一种方法，利用自上而下的结构隐含在一系列的对象检测，以指导视频模型学习表示，捕捉动态方面的复杂的人类对象的相互作用。我们已经表明，自下而上的双通道方法与运动引导注意力融合模块相结合，实现了这一目标，并导致一个视频模型，甚至可以识别人类与以前看不见的对象交互。我们验证了我们的方法上的东西，其他和IKEA-Assembly数据集，我们实现了最先进的性能，识别成分的行动。13085引用[1] Fabien Baradel 、 Natalia Neverova 、 Christian Wolf 、Julien Mille和Greg Mori。视频中的对象级视觉推理。在ECCV，2018。二个[2] I. 贝洛湾Zoph，Q.Le，A.Vaswani和J.史伦斯注意增强卷积网络。在ICCV，第3285- 3294页，2019年。三个[3] Yizhak Ben-Shabat ， Xin Yu ， Fatemehsadat Saleh ，Dylan Campbell，Cristian Rodriguez-Opazo，HongdongLi，and Stephen Gould.宜家asm数据集：通过动作、物体和姿势来理解人们组装家具。IEEE计算机视觉应用冬季会议，2021年。二个[4] Lubomir Bourdev，Rob Fergus，Lorenzo Torresani，andManohar Paluri. 用3d卷积网络学习时空特征。在通信，信息和计算技术国际会议，第4489-4497页，2015年12月。二个[5] 汤姆湾Brown，Benjamin Mann，Nick Ryder，MelanieSub biah ， Jared Kaplan ， Prafulla Dhariwal ， ArvindNeelakan-tan ， Pranav Shyam ， Girish Sastry ， AmandaAskell ， Sand- hini Agarwal ， Ariel Herbert-Voss ，Gretchen Krueger ， Tom Henighan ， Rewon Child ，Aditya Ramesh ， Daniel M.Ziegler 、 Jeffrey Wu 、Clemens Winter、Christopher Hesse、Mark Chen、EricSigler、Mateusz Litwin、Scott Gray、Benjamin Chess、Jack Clark、Christopher Berner、Sam McCandlish、AlecRadford、Ilya Sutskever和Dario Amodei。语言模型是很少机会的学习者。arxiv，2020。三个[6] J. Carreira和Andrew Zisserman。你怎么看，动作识别？新模型和动力学数据集。2017年IEEE计算机视觉和模式识别会议（CVPR），第4724-4733页，2017年。一二三六八[7] Yu-Wei Chao，Yunfan Liu，Xieyang Liu，Huayi Zeng，and Jia Deng.学习检测人机交互。在2018年IEEE计算机视觉应用冬季会议上。二个[8] Yu-Wei Chao ， Zhan Wang ， Yugeng He ， JiaxuanWang，and Jia Deng. HICO：识别图像中人与物体交互的基准。 IEEE International Conference on ComputerVision，2015。二个[9] Junyoung Chung，Caglar Gulcehre，Kyunghyun Cho，and Yoshua Bengio.门控递归神经网络对序列建模的经验评估在NIPS 2014深度学习研讨会，2014年12月，2014年。三个[10] Jean-Baptiste Cordonnier 、 Andreas Loukas 和 MartinJaggi。自我注意与卷积层的关系。在2020年国际学习代表会议上。三个[11] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。BERT：用于语言理解的深度双向变换器的预训练。在计算语言学协会北美分会2019年会议论文集中：人类语言技术，第1卷（长论文和短论文），第4171-4186页，明尼苏达州明尼阿波利斯，2019年6月。计算语言学协会。三个[12] 维克多·埃斯科西亚和胡安·卡洛斯·尼布尔斯用于视频中动作识别的时空人机交互。 IEEE InternationalConference on Computer Vision （ ICCV ） Workshops ，2013年6月。二个[13] Bernard Ghanem Fabian Caba Heilbron、Victor Escorcia和Juan Carlos Niebles。Activitynet：用于人类活动理解的大规模视频法律程序中IEEE Conference onComputer Vision and Pattern Recognition ，第 961-970页，2015。二个[14] 克里斯托夫·费希滕霍夫。X3d：扩展架构以实现高效的视频识别。 IEEE/CVF计算机视觉和模式识别会议（CVPR），第200- 210页，2020年。三个[15] Christoph Feichtenhofer ， Haoqi Fan ， Jitendra Malik ，and Kaiming He.用于视频识别的慢速网络国际计算机视觉会议，第6202一二三五六八[16] 克里斯托夫·费希滕霍夫，阿克塞尔·平茨，安德鲁·齐瑟曼.卷积双流网络融合视频动作识别。在IEEE计算机视觉和模式识别会议（CVPR），2016年，第1933一、二、三[17] RohitGirdhar ， Joa oCarreira ， CarlDoersch ， andAndrewZis-serman.视频行动Transformer网络。在CVPR，2019年。2[18] R. Goyal，S. E. Kahou，V. Michalski，J. Materzynska，S. Westphal ， H. Kim ， V. Haenel ， I. Fruend ， P.Yianilos，M. Mueller-Freitag，F.霍普角图劳岛Bax，和R. 梅米-塞维克。用于学习和评估视觉常识的“某事”视频数据库。在 2017 年 IEEE 国际计算机视觉会议（ICCV），第5843-5851页，2017年。二、五[19] 顾春晖，孙晨， David A.Ross ， Carl Von- drick ，Caroline Pantofaru ， Yeqing Li ， Sudheendra Vijaya-narasimhan ， George Toderici ， Susanna Ricco ， RahulSuk- thankar ， Cordelia Schmid ， and Jitendra Malik.Ava：时空局部原子视觉动作的视频数据集。在IEEE计算机视觉和模式识别会议论文集，2018年6月。二个[20] 索拉布·古普塔和吉坦德拉·马利克。视觉语义角色标注。CoRR，abs/1505.04474，2015。二个[21] K. 他，G. Gk i oxari，P. Doll a'r和R. 娘娘腔。面具r-cnn。2017年IEEE国际计算机视觉会议（ICCV），第2980-2988页二个[22] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在2016年IEEE计算机视觉和模式识别会议（CVPR），第770- 778页，2016年。六个[23] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。NeuralComputation，9（8）：1735-1780，1997. 三个[24] Noureldien Hussein，Efstratios Gavves，and Arnold WMSmeulders.复杂动作识别的时间感受。在CVPR，2019年。一、二[25] Ashesh Jain，A. Zamir，S. Savarese和A.萨克塞纳结构-rnn：时空图的深度学习。2016年IEEE计算机视觉和模式识别会议（CVPR），第5308-5317页，2016年。一、二13086[26] Jingwei Ji，Ranjay Krishna

下载后可阅读完整内容，剩余1页未读，立即下载