没有合适的资源?快使用搜索试试~ 我知道了~
32420通过可学习的马尔可夫逻辑网络进行复杂视频动作推理0杨进1,2,朱林超3,牟亚东1*01 北京大学,2 百度研究,3 ReLER实验室,AAII,悉尼科技大学0jiny@stu.pku.edu.cn,linchao.zhu@uts.edu.au,myd@pku.edu.cn0摘要0受益于深度卷积网络的进步,当前最先进的视频动作识别模型取得了显著的进展。然而,大多数现有模型在预测动作时缺乏解释性。受到观察到的时间配置的人-物互动经常作为许多动作的关键指标的启发,本研究构建了一个动作推理框架,通过基于马尔可夫逻辑网络(MLN)的概率逻辑推理来实现。关键是,我们提出通过逻辑规则来编码动作,这些规则对应于视频中视觉关系的时间变化。本研究的主要贡献有两个方面:1)与现有的黑盒模型不同,所提出的模型通过在视频中将MLN的逻辑规则与动作的时间边界定位和动作类别识别相结合来实现。每个规则关联的权重还提供了置信度的估计。这些共同使得我们的模型更具解释性和鲁棒性。2)我们不使用传统MLN中的手工逻辑规则,而是开发了一种数据驱动的MLN实例化方法。具体而言,我们提出了一种混合学习方案,它结合了MLN的权重学习和强化学习,使用前者的结果作为后者训练的自我评判。此外,通过将动作视为逻辑谓词,所提出的框架还可以与深度模型集成,以进一步提高性能。对两个复杂视频动作数据集(Charades和CAD-120)的全面实验清楚地证明了我们所提出的方法的有效性和可解释性。01. 引言0动作识别是视频理解中的一项基本任务,在过去几年中引起了广泛关注。最近,由于深度学习的迅猛发展,三维卷积网络(3D CNNs)0* 通讯作者:牟亚东。杨进在百度研究实习期间完成了部分工作。0时间动作:“有人在床上醒来”0人0床的图0人0床的图0人0床0躺在0在下方0在上方坐着0在下方0站在旁边0在旁边0图1. 来自Action Genome[22]的示例说明。它展示了动作通常可以分解为演变的时空场景图(即,人与周围物体的交互随时间的变化,例如人躺在床上到人坐在床上)。受此启发,我们提出使用数据驱动的马尔可夫逻辑网络来建模这种演变模式。0深度卷积网络的进步[4, 7, 8, 10,23]使得这个研究领域发生了革命。通过各种精心设计的神经架构和端到端学习算法,它已经成为视频动作识别的一个重要范式。与基于低级特征(如轨迹、关键点)的早期工作[21, 33, 55, 56]相比,3DCNNs的强大表示能力使它们能够更好地捕捉视频帧之间的复杂长程语义依赖关系。尽管在现代视频动作理解任务中广泛采用这些深度神经网络,但它们仍然存在一些固有的缺陷。通常,3DCNNs接收一个视频片段并通过多层计算输出一个表示每个动作类别置信度的分数。这种黑盒预测机制并没有明确提供关于动作的有力证据,例如动作发生的时间/地点/原因。缺乏可解释性也使得深度神经网络容易受到对抗性攻击的影响,这限制了它在许多具有严格安全要求的实际场景[2]中的应用。因此,近年来,越来越多的研究工作致力于可解释的深度学习[45,62]。所有上述事实都强烈促使我们追求一个既具有准确性又具有令人信服的可解释性的动作推理框架。32430我们的动机也建立在一些认知科学和神经科学的发现上[43,49],即人们通常将视觉事件表示为原子单元的组合。[22]中的研究揭示了复杂动作可以分解为时空场景图,描述了一个人如何随时间与周围物体进行交互。以图1中显示的“床上醒来”动作为例。为了完成这个动作,一个人可能最初躺在床上,然后醒来并坐在床上。这个过程可以通过人-物关系的时间演化来描述,即从�人,躺在,床上�到�人,坐在,床上�。这使得模型能够通过检测视觉关系的转变来明确识别动作的发生,从而显著提高其可解释性和鲁棒性。为了实现这个想法,我们需要解决两个关键挑战:自动从数据中学习时空演化模式,而不是使用手工制定的规则,并在真实数据中的噪声信息下进行高置信度的推理,这些信息会污染上述学习到的模式。为了解决上述问题,引入了一种新颖的可解释的动作推理框架来识别未修剪的视频中的动作。具体而言,我们采用一阶逻辑[1]来编码复杂动作的语义级状态变化。在每个逻辑规则中,视觉关系作为原子谓词。这些规则包含足够的信息,并且可以由一个循环策略网络从头开始生成。这个过程通过逐步添加与动作相关的关系谓词来进行。由于这些规则是以数据驱动的方式生成的,而不是由领域专家生成的,它们容易出错。为了解决这个问题,我们采用马尔可夫逻辑网络(MLN)[44],这是一种将一阶逻辑和概率图模型[30]相结合的统计关系模型。它为每个逻辑规则分配一个权重,以合理处理其不确定性:权重越大,规则越可靠。因此,将噪声规则分配较低(甚至负)权重将减轻它们的不足。最终,通过在MLN上进行概率逻辑推理,确定每个动作的发生概率。我们的框架的整体训练方案包括两个阶段:规则探索和权重学习。第一阶段通过利用强化学习来完成。至于第二阶段,可以通过监督学习(即最大化视频中动作的似然)来更新每个规则的权重。值得注意的是,权重学习的评估结果可以作为指导规则探索的评判标准。本文的技术贡献可以总结如下:(1)与普遍使用的深度3D卷积网络相比,所提出的框架具有显著的可解释性,因为加权逻辑规则可以传达清晰的关于特定动作的证据。此外,我们的框架自然地支持同时识别动作的类别和定位它们的时间边界,从学习到的时空演化模式中受益。(2)通过我们提出的规则探索机制,可以自动从数据中利用逻辑规则来编码复杂动作,这优于一些早期方法[3, 35, 54,70],这些方法依赖于手动设计的规则来进行动作推理。(3)在两个具有挑战性的视频基准(Charades[47]和CAD-120[31])上进行的综合实验表明,我们的方法获得了出色的性能。此外,它还可以在与深度模型集成时进一步提高准确性。令人惊讶的是,我们的框架仅利用有限数量的训练样本仍能取得出色的性能。0此外,我们的框架自然地支持同时识别动作的类别和定位它们的时间边界,从学习到的时空演化模式中受益,为特定动作提供了清晰的证据。(2)通过我们提出的规则探索机制,可以自动从数据中利用逻辑规则来编码复杂动作,这优于一些早期方法[3, 35,54, 70],这些方法依赖于手动设计的规则来进行动作推理。(3)在两个具有挑战性的视频基准(Charades[47]和CAD-120[31])上进行的综合实验表明,我们的方法获得了出色的性能。此外,当与深度模型集成时,它还可以进一步提高准确性。令人惊讶的是,我们的框架仅利用有限数量的训练样本仍能取得出色的性能。02. 相关工作0视频动作识别。人类动作理解和分析是过去几十年来的一个活跃研究领域。由于深度学习的出现,特别是卷积神经网络(CNNs)的工程定制[32],在动作识别方面取得了重大发展。例如,像[12,48]这样的双流方法将RGB和光流作为输入,并在网络的不同分支中分别处理它们,这超过了以前的工作。3D-CNNs的普及[4,17,52]使它们成为这个领域的主流范式。大多数工作[5,9,11]主要关注设计有效的神经架构,从视频中提取丰富的时空信息。[60]中的一项相关工作还采用图形结构来利用视频中对象区域提案之间的隐含关系,并通过图卷积网络[29]进行推理。与它们不同的是,我们采用加权逻辑公式来明确编码视觉关系,并利用MLN处理不确定性,这有助于弥补深度模型的低可解释性。概率逻辑推理。这个研究领域[6,13]旨在将概率推理与一阶逻辑和机器学习相结合。一阶逻辑规则可以系统地概括领域知识,因此已被广泛应用于推理,例如专家系统[61]。由于逻辑的硬约束,研究人员试图将其与概率结合起来,这导致了近年来基于图形模型的方法的发展,包括贝叶斯逻辑程序[27]、马尔可夫逻辑网络[44]等。它们已被用于早期的人类活动识别工作[35,54]。例如,Liao等人[34]根据GPS传感器提供的位置信息,在展开的马尔可夫网络上进行概率推理。在[37]中,…………P(X = x) =� F�,(1)In this section, we present the technical details of ourmethods. As previously mentioned, complex actions canusually be decomposed into temporal transitions of human-32440规则策略网络(RPN)动作:有人正在吃0滑动窗口0拿着0食物0场景图0预测器0坐在0桌子0携带盘子0看着0食物0�� 1 �� 20��0�� 3 �� 40��0�� 1 = 1.2 �� 2 = 0.70动作的概率:0.820推理0马尔可夫逻辑网络(MLN)0生成公式0场景图0图2.我们提出方法的计算流程。给定特定的动作类别,规则策略网络首先根据学习到的分布自动生成相关公式,这些公式用于构建马尔可夫逻辑网络。然后,我们应用场景图预测器对滑动窗口产生的短视频片段进行处理,提取时空场景图。通过对这些场景图进行概率逻辑推理,得到动作的最终概率。0作者将预定义的知识(例如,玩家和物体的轨迹)融入到马尔可夫逻辑网络中,进行多智能体事件识别。尽管这些相关工作利用基于规则的知识来识别视频事件,但由于低级特征的表示能力不足,它们的可解释性仍然有限。此外,编码动作的规则需要领域专家进行精细标注。相反,我们提出的方法采用高阶视觉关系作为原型单元,并从视频数据中自动挖掘规则,从而能够巧妙地捕捉复杂事件的语义信息,而无需繁重的人工劳动。场景图生成。场景图[25]是对静态图像中视觉内容的结构化表示,其中每个唯一对象定义一个节点,两个对象之间的关系对应于一条边。由于增强许多下游视觉推理任务的潜力[24,65],这个任务引起了研究人员的极大关注。通过利用消息传递机制[63],最近的方法[51,64,67]能够充分利用全局视觉上下文并预测令人满意的场景图。在这项工作中,我们将其应用于视频领域,并生成视频片段中的时空场景图,以表示复杂动作的语义信息。0Z exp0i ω i n i ( x )0i ω i n i ( x))。更多细节请参见[44]。0在本节中,我们介绍我们方法的技术细节。如前所述,复杂动作通常可以分解为人-物互动在视频帧之间的时间转换。04. 提出的方法T�t=1Rt → AorT�t=1Rt ⇔ A,(2)32450受到这一观察的启发,我们根据视觉关系的演变模式(如�人-躺在床上�到�人-坐在床上�)开发了一个可解释的推理框架,用于复杂动作识别。如图2所示,所提出的方法由两个主要组件组成。第一个组件是一个规则策略网络,旨在生成一个近似最优的公式集F,其中每个公式f∈F明确表示一个特定的转换模式。另一个组件是一个动作推理模块,通过一个马尔可夫逻辑网络[44]执行概率逻辑推理,计算每个动作的概率,该网络是根据生成的F构建的。接下来,我们将详细阐述每个组件的实现细节以及整体框架的相应训练算法。04.1. 规则策略网络0与早期使用手工制作的逻辑公式不同[34,37],我们的目标是在不依赖任何人工劳动的情况下自动产生适用于每个感兴趣的动作的公式。在这项工作中,我们使用逻辑形式指定人-物互动模式的演变模式:R1∧...∧Rt...∧RT,其中R1:T表示不同帧中的关系谓词,T表示这些谓词的总数。然后,与复杂动作a相关的公式f可以表示为:0其中A是动作a的谓词形式。给定特定的动作谓词A,只有f中的左部分需要指定。由于方程2中的�Tt=1Rt只包含合取操作(∧),它可以进一步表示为线性序列lf={Rt}Tt=1。依靠上述转换,f的生成变成了一个顺序决策过程,目标是预测每个动作最适合的lf。我们使用一个策略网络π来建模这个过程,该网络被训练以逼近概率分布π(f|a;θ)关于a的所有可能的公式f。这里θ是分布参数。一旦θ确定,我们可以从π(f|a;θ)中抽取多个样本来获取公式集F。为此,π由一个门控循环单元网络完成,可以表示为:0ht = GRU(xt, ht−1),(3)0其中xt是第t步谓词Rt的嵌入特征,ht−1表示在π中维护的隐藏状态,聚合了所有过去的谓词{R1, ...,Rt−1}的信息。在初始步骤中,将动作谓词A的特征向量x0输入到π中,然后计算其概率为0计算每个谓词Rt的生成概率:0p(Rt | R1, ..., Rt−1, A) = softmax(Wph t),(4)0其中Wp是从数据中学习的参数。在训练过程中,我们可以通过从分布Eq. 4中采样相应的序列lf ={Rt}Tt=1来获得一个公式f。因此,公式f的概率为:0p(f | A) = 0Rt∈lfp(Rt | R1, ..., Rt−1, A)。(5)0在训练策略网络π后,我们利用波束搜索策略从π(f | a;θ)中对每个动作a采样k个最佳序列作为学习到的公式集合F。04.2. 概率动作推理0本节介绍了动作识别的详细概率推理过程。推理模块主要包含三个步骤(见图2)。接下来,我们将分别描述这些步骤。0使用滑动窗口生成片段。给定一个未修剪的视频v,首先对v应用滑动窗口机制以生成几个视频片段。鉴于不同的动作在时间上的持续时间通常存在较大的变化,我们的滑动窗口的核心设置为多个尺寸。此外,对于具有核心大小L的滑动窗口,每个片段与其相邻片段有L/2帧重叠。采样的片段集合U作为视频v中潜在动作的时间提议。0场景图预测。对于每个片段u∈U,我们使用预训练的场景图预测器来利用视频帧中的高级视觉信息。具体而言,预测器提取帧中的所有对象,并预测它们与演员之间的视觉关系。生成的场景图可以表示为G = (O, E)。这里,O = {o1, o2,...}是与演员p交互的对象集合,E = {{e11, e12, ...}, {e21,e22,...}}表示它们之间的关系,其中eij表示演员p和第i个对象oi之间的第j个关系。由于视觉交互的多样性,每个演员和对象之间可能存在多种类型的关系。注意,每个三元组rij = �p, eij,oi�可以被视为对应关系谓词在视频片段上的实例化。此外,实例化rij的置信度得分srij由以下公式给出:0srij = sp ∙ seij ∙ soi,(6)0这里,sp,soi,seij分别是预测的演员p、对象oi和它们之间关系eij的置信度分数,由场景图预测器给出。TT�,(8)K�1N32460考虑到对象之间的视觉关系在几个连续的帧中几乎不会改变,如果我们为每个片段的每一帧生成场景图,那将是多余的。因此,从片段u∈U中均匀采样M帧来进行上述预测。0概率推理。给定训练好的马尔可夫网络M = {�fi,ωi�}Fi=1,可以相应地推断出视频上每个动作a的概率。为此,根据公式1,需要确定在片段u上关于公式fi的真实实例化数量ni(x)。注意,MLN中的逻辑公式操作的是二元谓词,只能取0或1的值。然而,我们的关系谓词的实例化采用了在公式6中指定的取值范围为[0,1]的实数值。这种特性使得确定一个公式实例化是否绝对为真变得困难。为了确保与一阶逻辑中的逻辑操作(例如∨,∧,¬)兼容,我们使用Łukasiewicz逻辑[14]将布尔变量上的操作松弛为在连续变量上定义的函数。松弛的合取(˜∧),析取(˜∨)和否定(˜¬)可以定义为:X˜∧Y = max(0, X+ Y − 1),X˜∨Y = min(1, X + Y)和˜¬X = 1 −X。使用这样的公式,可以有效地计算公式1中的ni(x)。以公式2左侧的公式为例。根据一阶逻辑中的转换准则,这样的公式可以首先转换为Horn子句[19]:0t =1 Rt → A �0t =1 ¬Rt ∨ A, (7)0它们是正面或否定文字的析取。然后,基于预测的场景图u,每个接地f i (x)的值为:0f i (x) = min0� T �0t =1 (1 − srt) + xa, 10其中srt是通过Eq.6获得的置信度得分。xa是一个二进制变量,值为0或1,表示是否发生了动作a。因此,ni(x)通过将所有接地的值f i(x)相加而获得。然后,视频片段上动作a的概率由以下公式给出:0P(a = xa | MBx(a0exp��Faiωini(x[a=xa])�0exp��Fai=1ωini(x[a=0])�+exp��Fai=1ωini(x[a=1])�,0(9)其中Fa是与a相关的公式数量,MBx(a)表示a的马尔可夫毯,即与所有公式一起出现的三元组。整个视频v的最终结果通过对其片段集U进行最大池化得到。04.3.混合训练算法0我们的目标是从训练数据中学习最合适的马尔可夫网络M ={�fi,ωi�}Fi=1。为此,训练方案包括两个主要阶段:规则探索和权重学习。由于其离散性质,无法直接通过基于最终任务损失的反向传播来学习策略网络π。因此,我们提出使用混合学习策略,其中规则探索阶段通过强化学习中的策略梯度方法进行优化,生成的规则的权重通过监督学习进行优化。假设我们通过从π(f|a;θ)中采样获得一个公式f,那么我们可以通过最大化期望奖励来训练规则策略网络:0J(θ) = Ef∽π(f|a;θ)�H(f)�. (10)0这里H(f)是识别性能评估指标,如mAP。然后,梯度�θJ将被表示为:Ef∽π(f|a;θ)[H(f)�θ logπ(f|a;θ)],可以通过蒙特卡洛采样来估计:0�θJ ≈ 10� H(fk)�θ log π(fk|a;θ)�, (11)0其中K是采样次数。受[42]的启发,我们引入了一个基线b,它是最近H(fk)的指数移动平均值。然后,Eq.11中的原始奖励被H(fk)−b替换。此外,为了鼓励规则探索的多样性,我们还在最终损失上添加了对π(f|a;θ)的熵正则化。权重学习阶段旨在学习生成的公式的适当权重,这通过最大化对数似然来实现:0L(f) =0i=1 log(Pi(a = xa | MBx(a))) , (12)0其中N是一批视频的大小,如果动作a存在于第i个视频vi中,则xa为1,否则为0。整个训练过程将在规则探索和权重学习之间交替执行。首先,我们通过初始化的规则策略网络π生成的公式集F进行权重训练,然后固定权重,根据Eq.11估计的梯度更新π的参数。之后,我们为由更新的π生成的新的F进行权重训练。这两个阶段将交替进行多次。04.4.与深度模型的整合0一个未修剪的视频通常涉及多个动作,其中可能存在一些潜在的关系。以Charades[47]中的一个视频实例为例,其中有32470一些合理的动作之间的联系,例如拿着扫帚,把扫帚放在某个地方和在地板上整理东西:当一个人在地板上整理东西时,他可能会拿着扫帚,然后在整理后把扫帚放回原位。因此,我们提出的框架可以作为深度模型输出之后的推理层,以增强对难以检测的动作(例如在地板上整理东西)的预测,基于易于检测的动作(例如拿着扫帚)。特别地,我们的框架可以用来学习一些逻辑公式和相应的权重,以表示动作之间的联系。在推理过程中,给定深度模型的输出置信度分数,我们将具有高置信度的动作视为观察到的证据,并对其他动作进行概率推理。05. 实验05.1. 数据集和评估指标0数据集。在整个实验中,使用了两个大规模视频数据集。(1)Charades[47]。这是一个由约9.8k个未修剪的视频组成的大型数据集,其中7,985个用于训练,1,863个用于测试。这些视频包含157个复杂的日常活动,涉及267个人的15种室内场景。平均而言,每个视频包含6.8个不同的动作类别,通常在同一帧中有多个动作,这使得识别变得极具挑战性。为了训练场景图预测器,我们利用了Action Genome[22],它为Charades中的视频提供了帧级关系注释。总体而言,它包括了1.7M个25种关系类别的实例。(2)CAD-120[31]。这是一个关注日常生活中人类活动的RGB-D数据集。它包含551个视频剪辑,约32,327帧,涉及10种不同的高级活动(例如用餐,整理物品)。在这里,我们采用了[70]提供的重新注释版本,其中包括视频帧的详细关系和属性。评估协议。对于Charades,我们的目标是在未修剪的视频中识别多个复杂动作。由于具有多标签属性,我们计算所有类别的平均精确度(mAP)来评估性能。而对于CAD-120,采用了[70]中的平均召回率(mAR)指标,以衡量模型是否成功识别出执行的动作。05.2. 实现细节0我们首先训练一个场景图检测器来为视频帧生成场景图。为了实现这一目标,我们使用具有ResNet-101[18]骨干的Faster RCNN[41]检测器来提取每个检测到的对象的2,048维RoI(感兴趣区域)特征。然后,我们使用Motifs [50,66]进行关系预测,该模型是在ActionGenome上通过遵循训练/验证拆分进行训练的。0表1.Charades基准测试中不同方法的动作识别实验结果。根据模态和预训练骨干类型进行分组的模型。0方法 模态 预训练 mAP(%)0Two-stream [48] RGB + Flow ImgaeNet 18.6 ActionVLAD[15] RGB + IDT ImageNet 21.0 TRN [68] RGB ImgaeNet25.2 I3D [4] RGB Kinetics-400 32.9 Timeception [20] RGBKinetics-400 37.2 3D R-101 + NL [59] RGB Kinetics-40037.5 GHRM [69] RGB Kinetics-400 38.3 SlowFast [10] RGBKinetics-400 42.1 X3D [8] RGB Kinetics-400 43.40SlowFast-R50 [10] RGB Kinetics-400 38.9我们+SlowFast-R50 RGB Kinetics-400 40.10我们的 RGB ImageNet 38.4 我们的(Oracle) RGBImageNet 62.80作为Charades的一部分。对于规则策略网络,我们使用具有512个隐藏单元的门控循环单元(GRU),通过对其词嵌入[38]进行简单平均来将逻辑谓词投影到一个200维的向量中。在混合训练之前,我们对策略网络进行预热预训练。可以通过从训练数据中随机采样一些关系转换序列,并将它们作为监督来指导我们的规则策略。通过这个过程,它学习到了一个合适的参数初始化,作为一个与频率相关的先验,并使我们的混合训练能够更快地收敛。预训练进行了三个时期,学习率为0.001,并使用交叉熵损失。之后,我们进行混合训练来更新策略网络。具体来说,我们使用Adam优化器[28]进行优化,其中β1=0.9,β2=0.999,学习率lr=0.0005,并在公式11中设置K=5。权重学习通过最大化小批量数据中的对数似然来实现,其中批量大小设置为256。05.3. 主要结果0为了充分展示我们提出的模型的优势,我们在上述视频数据集上设计了两个关键的实验设置,包括动作识别和动作时间定位。05.3.1 复杂动作识别0该任务要求模型预测视频级别的动作标签作为最终的识别结果。我们采用ResNet-101[18]作为场景图预测器的骨干,并与几种最近的竞争方法进行比较(注意,在使用K400预训练骨干的mAP分数被认为是过高估计,因为Kinectics和Charades中的动作类别部分重叠)。表1总结了Charades上的结果。可以看到,我们的模型达到了38.4%的mAP,并超过了强大的3D CNN。ion32480模型,这表明我们的模型可以通过生成的公式和它们的MLN权重充分利用时间信息,而只使用2D场景图在单个视频帧上(而不是像I3D中那样使用更丰富的短片段)。由于在大型视频基准Kinetics[26]上的预训练,最先进的3D模型(例如X3D)的性能高于我们的模型,但我们的方法仅超过在ImageNet上预训练的深度模型([15]中的38.4%对比21.0%)。由于场景图预测器的限制,我们遵循[22]并设计了我们方法的Oracle版本,该版本利用了帧上的关系的真实关系。如表1的底部所示,我们的Oracle版本在mAP性能上取得了显著的改进(约24%),并且大大超过了所有深度模型,这证明了我们方法的强大潜力。我们还评估了与SlowFast(R-50)的模型集成(第4.4节)。通过利用不同动作之间的关系,我们的模型可以进一步提升深度模型的性能(表1中mAP高1.3%)。对于CAD-120数据集,我们按照[70]中的设置将长视频序列划分为小片段,每个片段只包含一个动作,并对每个动作评估平均召回率指标。如表2所示,我们的模型在mAR方面取得了最佳结果。尽管[70]也采用了可解释的框架,但他们只是通过观察由领域专家定义的两个连续帧之间的特定状态转换来执行动作推理。我们的模型利用了从真实数据中学习到的MLN,这更加通用和优秀(0.83对比0.80)。05.3.2 动作时间定位0我们的模型通过依赖可解释的公式来识别复杂动作,从而提供了显示进行此类预测的原因的有力证据。因此,通过知道这些证据出现的时间戳,可以定位动作的时间边界。首先,通过之前描述的滑动窗口机制从整个视频中生成几个视频片段。然后,我们对每个片段进行动作推理,并选择具有最高概率的片段作为相应动作的时间位置。我们与Charades上的几种先进的深度模型进行比较。如表3所示,我们的模型取得了显著的动作定位结果。与仅在ImageNet上预训练的模型[46,57]相比,我们的性能最好(20.9%mAP对比[57]的14.2%mAP)。此外,我们仍然与在Kinetics上预训练的模型(例如[39])取得了可比较的结果。尽管在mAP性能上稍逊于[10],我们的定位预测更具可解释性。由于CAD-120没有提供基准真值,我们没有报告其结果。0表2. 在CAD-120上进行动作识别任务的实验结果。0方法 模态 mAR0时间段 [ 58 , 70 ] RGB 0.42 Flow 0.71 RGB + Flow0.770可解释的AAR-RAR [70] RGB 0.80 我们的RGB 0.830Charades基准测试的视频时序动作定位的实验结果。0方法 模态 预训练 mAP(%)0ATF [46] RGB ImageNet 12.9 SVMP(VGG) [57] RGB+IDTImageNet 14.20I3D [4] RGB K-400 15.6 双流I3D [4] RGB + Flow K-400 17.23D ResNet-50 [53] RGB K-400 18.6 X3D [8] RGB K-400 18.9I3D + SP [40] RGB + Flow K-400 19.4 X3D-L [8] RGB K-40020.0 I3D + TGM [39] RGB + Flow K-400 21.5 SlowFast det(X3D) [10] RGB K-400 22.30我们的RGB ImageNet 20.905.4. 消融研究0模块组合。为了探索我们的规则策略网络(RPN)和概率动作推理模块中的权重学习(WL)的效果,我们进行了一些相关的消融研究。具体而言,我们提出了三个调整:1)用基于共现频率生成公式的频率诱导基线替换规则策略网络。2)利用我们的规则策略网络生成的公式,并直接采用公式中的概率作为MLN推理的最终权重。3)直接使用从频率诱导基线生成的公式,并将频率值视为权重而不进行额外学习。定量结果如表4所示。可以观察到取消任何两个关键模块都会削弱识别性能。此外,与权重学习相比,规则策略网络对整体性能的贡献更大(Charades上的mAP减少5.3%,而不是8.6%),这证明了从真实视频数据中利用合适的公式的有效性。不同数量的训练数据。直观地说,属于同一动作的人-物交互模式在不同的视频中应该是相似的。因此,人们可以通过仅几个示例来学习这种特定模式。为了验证这个假设,我们在Charades上进行了一个实验,探索在不同数量的训练示例下的识别性能。具体而言,我们仅使用每个动作类别的k个正例来训练我们的模型。结果报告在表5中。正如预期的那样,我们的模型在不同数量的训练示例下的性能表现良好。1.78- 0.29- 0.642.71- 0.73ion32490动作:整理地板上的东西0拿着扫帚 -> 站在地板上 -> 看着地板0看着毛巾 -> 看着扫帚 -> 不确定的地板00.99站在地板上 -> 在吸尘器前面 -> 拿着吸尘器0坐在椅子上 -> 站在地板上 -> 看着地板0动作:在笔记本电脑上工作/玩耍0触摸笔记本电脑 -> 在笔记本电脑前面 -> 触摸笔记本电脑0看着笔记本电脑 -> 触摸笔记本电脑 -> 坐在椅子上01.52坐在床上 -> 拿着手机 -> 在笔记本电脑前面0- 0.14拿着食物 -> 坐在椅子上 -> 在笔记本电脑前面0图3.所提出的混合训练算法学习到的一些公式和相应的权重的示例。每个公式都可以从π(f|a;θ)中绘制,具有相应的权重。我们用绿色突出显示支持公式,用黄色突出显示其他公式。0该框架仍然实现了竞争力的识别性能。特别是对于Oracle版本,仅使用10个示例就显示了53.8%的mAP,进一步证明了我们的模型在捕捉特定动作中涉及的关系动态方面具有很大的潜力。0表4.在Charades和CAD-120基准测试上的消融研究。�表示特定组件包含在实验中。RPN是规则策略网络,WL是权重学习。0Charades上的RPN WL mAP(%)CAD-120上的mAR026.2 0.76 � 33.1 0.77 � 29.8 0.81 � � 38.4 0.830表5.在Charades基准测试中,视频动作识别任务中不同数量示例的消融实验。0方法1-示例5-示例10-示例0我们的 15.3 22.8 30.6 我们的(Oracle)31.6 47.553.805.5.可视化和用户研究0为了展示生成规则的可解释性和多样性,我们在图3中举例说明了学习到的公式和权重。可以观察到,权重较高的公式通常为感兴趣的动作提供更好的推理。例如,观察到持有扫帚→站在地板上→看着地板的结果,清晰地表明了整理地板上的东西的动作。此外,我们还进行了关于可解释性的用户研究。公式权重的范围被均匀地分为三等分,相应地将规则标记为好、中性和差。对于20个动作的子集0A(好)0C(差)0B(中性)0A0A0A0B C0B C0B C0图4.关于学习公式的可解释性(即人类友好性)的用户研究统计数据。根据其权重,候选项被分类为好、中性或差。每一行都描述了从所有抽样规则中聚合的与其他类别的混淆。0Charades,我们从每种类型中随机抽样1个公式。我们征求了21个受试者对打乱的公式进行排名,根据其与动作的相关性进行排名。统计数据如图4所示。观察到,结果显示学习到的权重与人类常识之间存在高度一致性(例如,78.75%的好规则仍被标记为好)。06.总结0我们提出了一个用于复杂视频动作识别的可解释性行动推理框架。受到复杂动作可以分解为原型化的场景图等原子单位的事实的启发,我们基于马尔可夫逻辑网络(MLN)进行概率逻辑推理。用于推理的公式都是从数据中自动学习的。与基于黑盒深度卷积网络的现有方法不同,我们的模型能够解释动作在视频中何时/何地/为什么发生。广泛的实验证明了模型的有效性和可解释性。致谢:本工作得到了中国国家重点研发计划(2018AAA0100702)和北京市自然科学基金(Z190001)的支持。32500参考文献0[1] Jon Barwise。一阶逻辑导论。在《逻辑研究与数学基础》(Studies inLogic and the Foundations ofMathematics)第90卷,第5-46页。Elsevier,1977年。20[2] Mariusz Bojarski,Davide Del Testa,Daniel Dworakowski,BernhardFirner,Beat Flepp,Prasoon Goyal,Lawrence D Jackel,Mathew Monfort,UrsMuller,JiakaiZhang等。自动驾驶汽车的端到端学习。arXiv预印本arXiv:1604.07316,2016年。10[3] William Brendel,Alan Fern和SinisaTodorovic。基于概率事件逻辑的基于区间的事件识别。在CVPR2011中,第3329-3336页。IEEE,2011年。20[4] Joao Carreira和Andrew Zisserman。Quo vadis, actionrecognition?一个新模型和kinetics数据集。在IEEE计算机视觉和模式识别会议论文集中,第6299-6308页,2017年。1,2,6,70[5] Chun-Fu Richard Chen,Rameswar Panda,KandanRamakrishnan,Rogerio Feris,John Cohn,Aude Oliva和QuanfuFan。基于CNN的时空表示的深度分析用于动作识别。在2021年IEEE/CVF计算机视觉和模式识别会议论文集中,第6165-6175页。20[6] Luc De Raedt and Kristian Kersting.概率归纳逻辑编程。在《概率归纳逻辑编程》中,第1-27页。Springer,2008年。20[7] Ali Diba, Vivek Sharma, Luc Van Gool, and Rainer Stiefelhagen.动态动作和运动网络Dynamonet。在《计算机视觉》IEEE/CVF国际会议论文集中,第6192-6201页,2019年。10[8] Christoph Feichtenhofer.X3d:扩展用于高效视频识别的架构。在《计算机视觉和模式识别》IEEE/CVF会议论文集中,第203-213页,2020年。1,6,70[9] Christoph Feichtenhofer.X3d:扩展用于高效视频识别的架构。在《计算机视觉和模式识别》IEEE/CVF会议论文集中,第203-213页,2020年。20[10] Christoph Feichtenhofer, Haoqi Fan, Jitendra Malik, and KaimingHe.用于视频识别的Slowfast网络。在《计算机视觉和模式识别》IEEE/CVF国际会议论文集中,第6202-6211页,2019年。1,6,70[11] Christoph Feichtenhofer, Haoqi Fan, Jitendra Malik, and KaimingHe.用于视频识别的Slowfast网络。在《计算机视觉和模式识别》IEEE/CVF国际会议论文集中,第6202-6211页,2019年。20[12] Christoph Feichtenhofer, Axel Pinz, and Andrew Zisserman.用于视频动作识别的卷积双流网络融合。在《计算机视觉和模式识别》IEEE会议论文集中,第1933-1941页,2016年。20[13] Lise Getoor and Lilyana Mihalkova.从关系数据中学习统计模型。在《管理数据的2011年ACMSIGMOD国际会议论文集中,第1195-1198页,2011年。20[14] Robin Giles.Łukasiewicz逻辑和模糊集理论。《人机研究国际期刊》,第8卷第3期,第313-327页,1976年。50[15] Rohit Girdhar, Deva Ramanan, Abhinav Gupta, Josef Sivic, andBryan Russell.Actionvlad:学习用于动作分类的时空聚合。在《计算机视觉和模式识别》IEEE会议论文集中,第971-980页,2017年。6,70[16] Ian J Goodfellow, Jonathon Shlens, and Christian Szegedy.解释和利用对抗样本。arXiv预印本
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- ASP.NET数据库高级操作:SQLHelper与数据源控件
- Windows98/2000驱动程序开发指南
- FreeMarker入门到精通教程
- 1800mm冷轧机板形控制性能仿真分析
- 经验模式分解:非平稳信号处理的新突破
- Spring框架3.0官方参考文档:依赖注入与核心模块解析
- 电阻器与电位器详解:类型、命名与应用
- Office技巧大揭秘:Word、Excel、PPT高效操作
- TCS3200D: 可编程色彩光频转换器解析
- 基于TCS230的精准便携式调色仪系统设计详解
- WiMAX与LTE:谁将引领移动宽带互联网?
- SAS-2.1规范草案:串行连接SCSI技术标准
- C#编程学习:手机电子书TXT版
- SQL全效操作指南:数据、控制与程序化
- 单片机复位电路设计与电源干扰处理
- CS5460A单相功率电能芯片:原理、应用与精度分析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功