局部一致性可变形卷积网络用于细粒度动作检测

23 浏览量更新于2023-10-13 收藏 1003KB PDF 举报

特征空间

动作分割

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1在特征空间中学习运动：用于细粒度动作检测的局部一致性可变形卷积网络科伊阮角放大图片作者：Michael A.叶1，熊进军2，罗杰里奥S. Feris2，Minh N. Do11 University ofIllinois at Urbana-Champaign，2IBM Research AI1{knmac，yeh17，minhdo}@ illinois.edu，2{djoshi，jinjun，rsferis}@us.ibm.com摘要细粒度的动作检测是机器人和人机交互中的现有方法通常利用两阶段方法，包括提取局部时空特征，然后进行时间建模以捕获长期依赖性。虽然最近的论文都集中在后者（长时间建模），在这里，我们专注于生产功能，能够更有效地建模细粒度的运动。我们提出了一种新的局部一致的可变形卷积，它利用在接收场的变化，并强制执行一个局部相干性约束，以有效地捕捉运动信息。我们的模型联合学习时空特征（而不是使用独立的空间和时间流）。从特征空间而不是像素空间学习时间分量e.g.光流所产生的特征可以与其他长时间建模网络结合灵活地使用，例如：ST-CNN、DilatedTCN和ED-TCN。总的来说，我们提出的方法在两个细粒度动作数据集上的表现优于原始的长时间模型：50份沙拉和GTEA，分别达到80.22%和75.39%的F1得分。(a) 时间t-1的帧（b）时间t处的帧。（c）未找到运动矢量（d）在背景区域上找到运动矢量。移动区域。（e）的人在时间t-1（f）运动的可视化1. 介绍（蓝色）和t（绿色）。特征空间动作检测，也称为动作分割，解决了将给定视频的每个帧（包含多个动作片段）分类为固定数量的定义类别（包括未知动作的类别）中的一个这与动作识别的更简单的任务相反，其中给定的视频被预先分段并保证是所提供的动作类之一[13]。细粒度动作是一类特殊的动作，只能通过运动模式的细微差异来区分。这种行为的特点是高类间相似性[20，23]，即。即使对于人来说，仅仅从观察单个帧来区分两个不同的动作也是困难的不像一般的动作检测，它可以在很大程度上图1：自适应感受性fields for action cutting lettuce in 50 Salads dataset ：（a）和（b）是两个连续帧;（c）和（d）是背景和移动区域处的运动矢量（绿点指示激活位置，红色箭头指示运动矢量）;（e）是该人的手动定义的面罩，（f）是特征空间中的运动场的能量，其通过在时间t-1和t中所有可变形卷积层。依赖于视频帧中的“什么”来执行检测，细粒度动作检测需要关于对象“如何”跨若干视频帧移动的在这项工作中，我们考虑细粒度的动作检测设置。62826283细粒度动作检测的流水线一般包括两个步骤：（1）时空特征提取和（2）长时建模。第一步骤通过查看几个连续帧来对空间和短期时间信息进行建模。传统的方法通过在不同的特征提取器中解耦空间和时间信息，然后用融合模块组合两个流来解决这个问题。光流通常用于这种短期时间建模[8，9，21，23，24]。然而，光流通常在计算上是昂贵的，并且可能遭受由数据压缩引入的噪声[15，16]。其他方法使用改进的密集轨迹（IDT）或运动历史图像（MHI）作为光流的替代方案[5，16，28]。最近，已经尝试使用3D卷积的变体对视频中的运动进行建模[1，12，27]。在这种情况下，运动建模在某种程度上受到标准卷积滤波器[11，29，30]的接收场的限制。第二步骤对提取的时空特征在整个视频上的长期依赖性进行建模。e.G.双向LSTM [23]、具有分割模型的时空CNN（ST-CNN）[16]、时间卷积网络（TCN）[15]和时间可变形残差网络（TDRN）[17]。最近专注于长期依赖性建模的工作通常依赖于现有特征[15，16，17]。在这项工作中，我们创建高效的短期时空特征，这是非常有效的建模细粒度的运动。而不是建模的时间信息与光流，我们学习的时间信息的特征空间。这是通过利用我们提出的局部一致性可变形卷积（LCDC）来实现的，LCDC是标准可变形卷积的扩展[2]。在高层次上，我们通过评估自适应感受野中随时间的局部移动来对运动进行建模（如图所示）。①的人。自适应感受野可以聚焦于帧中的重要部分[2]，因此使用它们有助于关注感兴趣区域的运动。另一方面，传统光流跟踪所有可能的运动，其中一些可能不是必需的。此外，我们强制执行的自适应感受野的局部一致性约束，以实现时间的一致性。为了证明我们的方法的有效性，我们在两个标准的细粒度动作检测数据集上进行评估：50沙拉[25]和佐治亚理工学院自我中心活动（GTEA）[7]。我们还表明，我们的功能，没有任何光流指导，是强大的，优于功能，从原来的网络。此外，我们使用消融研究对学习到的运动进行定量评估，以证明我们的模型在捕获时间信息方面的能力。我们的主要贡献是：（1）使用自适应感受野随时间的变化在特征空间中建模运动，而不是像传统光学系统中那样依赖于像素空间。基于物理流的方法。据我们所知，我们是第一个提取时间信息的接收领域。（2）引入局部一致性约束，增强运动的一致性。该约束减少了冗余的模型参数，使运动建模更加健壮。（3）构建骨干单流网络，共同学习时空特征。该骨干网络是灵活的，并且可以与其他长时间模型一致地使用。此外，我们证明了网络是能够表示的时间信息的行为相当于光流。（4）在不牺牲性能的前提下，利用局部一致性约束显著降低了模型复杂度。这种减少与可变形卷积层的数量成比例。我们的单流方法在计算上比传统的双流网络更有效，因为它们需要昂贵的光流和多流推理。2. 相关工作大量的文献存在的功能，时间poral建模，和网络架构的上下文内的动作检测。在本节中，我们将回顾与我们的方法相关的最新相关论文。时空特征时空特征在视频分析领域中至关重要。通常，特征由空间线索（从RGB帧中提取）和短时间段内的时间线索光流[18]常用于模拟时间信息。然而，由于视频压缩，它被发现受到噪声的影响，并且不足以捕获小的运动[15，16]。它通常在计算上也是昂贵的。对时间信息进行建模的其他解决方案包括利用多个连续帧的差异的运动直方图图像（MHI）[5]，以及结合HOG [3]、HOF [28]和运动边界直方图（MBH）描述符[4]的改进密集轨迹（IDT）[28]为了结合空间和（短）时间分量， Lea 等人[16][17][18][19] 将其放入类似VGG的网络中以产生特征（他们称之为SpatialCNN特征）。Simonyan和Zis-serman [21]提出了一种双流网络，结合了来自单独外观（RGB）和运动流（堆叠光流）的分数。在[8，9]中，通过更先进的融合改进了原始方法。另一种思想流派使用3D卷积的变体（包括[27]中提出的C3D）对运动进行建模。在[1]中提出了膨胀3D（I3D）网络，其在双流设置内利用3D卷积。为了应对由头戴式摄像机捕获的以自我为中心的运动，Singh等人在[24]中引入了第三个流（EgoStream），捕获手、头和眼睛运动的关系。[23]还在多流网络（MSN）中使用了四个流（两个外观和两个运动流）。每个域（空间和时间）都有一个全局视图（整个帧）和一个局部视图6284（0）v（T −1）v（由运动跟踪器裁剪）。长时间建模。虽然通常在短时间段内提取时空特征，但是执行某种形式的长时间建模以捕获整个视频内容内的长期依赖性. （ 0）（0）.（吨）（吨）v（吨）. （T −1）（T第一章执行动作序列。在[15]中，引入了时空CNN（ST-CNN ）以使用跨越长时间段的 1D 卷积来组合SpatialCNN特征。Singh等人使用双向LSTM从MSN特性（四流）中学习了长期依赖性[23]。最近，[15]提出了两种时间卷积网络（TCN）：DilatedTCN和编码器-解码器TCN（ED-TCN）。这些网络融合了SpatialCNN特征，并通过在时域中卷积它们来捕获长时间模式。在[17]中提出了时间可变形残差网络（TDRN），用于对长ΔL.（0）Δl+1.（0）Δl+2XL（0）Xl+1（0）Xl+2（0）Xl+3ΔL.（吨）Δl+1.（吨）Δl+2XL（吨）Xl+1（吨）Xl+2（吨）Xl+3ΔL.（T −1）Δl+1.（T −1）Δl+2XL（T −1）Xl+1（T −1）Xl+2（T −1）Xl+3通过在时域中应用可变形卷积来计算时间信息TCN模型还进一步改进了多级TCN（MS-TCN）中的多级机制[6]。网络架构。用于图像分类的预训练架构，例如VGG、Inception、ResNet [10，22，26]是性能的最重要决定因素的主要下游视觉任务。许多论文都致力于通过对网络架构的创新来提高识别准确率。在标准卷积中，卷积响应总是来自局部区域。已经引入了扩张卷积，通过用一些扩张模式改变感受野的形状来克服这个问题[11，29，30]。2017年，Daiet al. [2]介绍了具有自适应感受野的可变形卷积网络。该方法更灵活，因为感受野依赖于输入，并且可以近似于任意对象我们利用[2]的进步，特别是模型的自适应感受野来捕获特征空间中的运动。我们进一步增加了一个局部相干性约束的感受野，以确保运动场是一致的。该约束在降低模型复杂性方面也起着重要作用。3. 局部一致的可变形卷积网络我们的架构建立在可变形卷积网络和底层ResNetCNN的基础上。虽然可变形卷积网络已被证明在对象检测和语义分割的任务中取得了然而，我们观察到可变形卷积层有一个副产品，即自适应感受野，它可以非常自然地捕捉运动。在高水平上，可变形卷积层中的自适应感受野可以被视为重要像素的聚合，因为网络具有改变每个卷积采样的灵活性。某种程度上图2：拟议LCDC跨越多个帧V（t）。外观信息来了而运动信息直接从特征空间中的变形Δ中从一个单独的光流流。权重随时间在帧之间共享。自适应感受野执行某种形式的关键点检测。因此，我们的假设是，如果关键点在帧之间是一致的，则我们可以通过在时间上取得自适应感受野的差异来由于可变形卷积可以端到端训练，因此我们的网络可以学习在网络的隐藏层对运动进行建模。将其与空间特征组合导致强大的时空特征。我们在图中说明了我们的方法的直观性。1.一、这里的运动是使用多个特征空间而不是像光流中的像素空间上的自适应接收场中的差异来计算的两个连续的动作帧从50沙拉数据集切割生菜如图所示1a和图1b. 图图1e示出了人的面具，以说明动作如何发生。我们还示出了对应于图1中的不同区域的运动矢量。图1c和图1d。红色箭头用于描述运动，绿点用于显示相应的激活单元。为了视觉化，我们抑制了具有低值的运动矢量在图1c中，激活单元位于背景区域（碗内的切好的配料）上，因此没有记录运动，因为背景区域的两个自适应接收场之间的差异然而，我们可以在图中找到运动1d（红色箭头的区域）因为激活单元位于移动区域上I.E.手臂区域。所有激活单元处的运动场见图1B。1f，其中场的能量对应于每个位置处的运动矢量的长度。运动场在运动区域（手臂）周围被激发，而在背景中被抑制。因此，这高度表明，我们提取的运动信息可以用作光流的替代解决方案。的示意图外观信息运动信息时空特征−6285氮钾氮钾t-1时的感受野时间t时的感受野标准卷积扩张卷积可变形卷积感受野通过时间图3：通过在2D中的单个位置处的感受野的差异建模的时间信息的图示。只有可变形卷积可以捕获时间信息（用红色箭头显示）。与Eq有关（2）和当量（3），n是红色方块，n+k是绿色圆点，∆¨n，k是黑色arro ws，n+k+∆¨n，k为蓝点，¨r为红色arro ws。建议的网络架构如图所示。二、3.1. 可变形卷积我们首先简要回顾可变形卷积层-图4：带有融合模块的网络架构的更详细视图。外观信息来自最后一层的输出，而运动信息来自多个层的聚集提取。最终fc层的输出可以灵活地用作任何长时间建模网络的特征。场通过时间，我们表示为：¨r（t）=F¨（t）−F¨（t−1）=∆¨（t）−∆¨（t−1）。（三）可以看出，位置n+k被取消，从t−1到t在等式中。（3）只留下变形偏移量的差异给定T个输入空间特征图维数H×W，我们可以构造T微分Δ¨（t）|T−1，在具体描述建筑物之前产生T−1个运动场<$r（t）|T−2t=0网络体系结构。设x是输入信号，使得x∈RN。标准卷积定义为：Σy[n]=w[−k]x[n+k]，（1）K其中w∈R，K是卷积核，n和k是信号和核指数（n和k可以被视为多维指数）。提出的可变形卷积在[2]中定义为：t=0，具有相同的spa-最终尺寸因此，我们可以模拟不同的运动在不同的位置n和时间t。图3进一步说明了不同类型卷积的2D中¨r（t）的含义红色方块显示当前激活位置，绿色点显示标准感受野，蓝色点显示添加变形偏移后的感受野。在最后一行中，红色箭头显示了从时间t-1（褪色的蓝点）到时间t（实心蓝点）的感受野读者应该注意到y[n]= Σw[−k]xK.Σn+k+∆¨n，k、（二）对于标准卷积和扩张卷积没有红色箭头，因为偏移量要么为零要么相同。红色箭头仅出现在可变形卷积中，其运动在哪里∈RN×K表示时态信息的vates建模。可变形卷积这些偏移是从具有X的另一个卷积解学习的，即。 ∆¨n，k=（hk*x）[n]，其中h是不同的k。注意，我们使用参数（ ·）代替等式中的X的括号[·]。（2）因为ind e xn+k+∆¨n，k需要插值，因为∆¨是分数的。3.2. 基于自适应感受野的时间信息我们定义一个变形卷积在时刻t的自适应感受野为F¨（t）∈RN×K，其中F¨（t）=n+k+∆¨（t）。为了从适应性感受野中提取运动信息，我们采用了不同的感受野3.3. 局部一致变形卷积直接使用运动建模不是非常有效的，因为不能保证反射中的局部一致性原始可变形卷积公式中的可接受域。这是因为在两个位置上都定义了n，k（η）和内核（k）索引，其基本上对应于x[m]，其中m=n+k。然而，有多种方法来分解m，即m=n+k=（n-l）+（k+l），对于任何L。因此，一个单一的x[m]被多个Δ¨n−l，k+l变形，其中i是不同的l。当我们在等式中对l¨r（t）进行模化时，这产生了不一致的c y。（3）由于可能存在多个.（t−1）Δ.（t−1）L1ΔL−ΦL.（吨）rL−1长时相建模（t-第一章yLx（t−1）L时空特征WL.（吨）.（吨）ΔL−.（吨）Concat损失ΦLconv3D conv3DFCFC（吨）yL融合（吨）减法运算XL外观信息加法运算WL卷积运算运动信息6286对应于相同位置的运动矢量而地方6287∆∆D{x}=D{x}nn虽然一致性可以作为训练过程的副作用而被学习，但是它仍然没有在原始可变形卷积公式中被明确地公式化。为了增强一致性，我们提出了局部一致的可变形卷积（LCDC）：Σ。Σy[n]=w[−k]xn+k+∆n+k、（四）1.提案假设两个输入x（t-1）和x（t）通过运动场相关，即x（t）（s）=x（t−1）（s−o（s）），（9）其中o（s）是在位置s∈R2处的运动，x（t）被假定为局部变化的。则相应的LCDC输出w0：为K∈RN。LCDC是可变形卷积的一个特例。y（t）=（D（t）{x（t）}）*w，y（t−1）=（D（t−1）{x（t−1）}）*w解决方案Where一致，即y（t−1）=y（t），当且仅当n，∆¨=∆，n，k.（五）（吨）（吨）.（t−1）Σ（吨）氮钾n+Krstecn =10000 −∆n =on+∆n.（十）我们称之为本地一致性约束。LCDC的解释是，代替如在Eq.（2），我们可以对输入信号进行变形。具体地，等式中的LCDC（4）可以改写为：Σy[n]=w[−k]x~[n+k]=（x~*w）[n]，（6）K哪里注意，在像素空间中，X是输入图像，并且〇（s）是s处的光流。在潜在空间中，x是中间特征映射，o（s）是特征的运动。证据利用LCDC与标准卷积的连接，在假设w/= 0的情况下，我们有：y（t）=y（t−1）（t）（t−1）（t）x~[n]=（D∆{x}）[n]=x.Σn+∆n（七）x（t）.∆Σn+单位（t）∆=x（t−1）.Σn+∆（t−1），n.是x的变形版本，* 是标准卷积（D∆{·}被定义为f f set∆的变形操作）。将LHS代入等式2中的运动关系（9）我们得到以下等价条件n：∆¨和∆都是通过一个connv olutionlaye r学习的。记得了Σ。Σ这是=（h其中x∈RN且∆¨∈RN×K。x（t−1）n+∆（t）−o（n+∆（t））=x（t−1）n+∆（t−1）n，k kn n n∆˙isconstructedsimilarl y，i. e.∆∆n=（Φx）[n]，（8）n.nΣon+∆n=∆（t）−∆（t−1）=r（t）。其中，∈RN。自∆¨起和共享相同的空间无无无无无无无（因为x（t）是局部变化的）。尺寸N，它们可以应用于不同的时间帧，Δ也可以在不同的位置和次上述结果表明，通过在帧之间强制一致的输出和共享权重w，学习到的变形地图∆（t）编码运动信息，如此外，RNN只需要一个内核Φ，而RNN需要一个内核Φ。多个HK。因此，LCDC更有内存效率，因为我们可以将内存成本降低K倍。在实现方式上，g iv en输入特征映射 x∈RH×W×C ，则 Δ¨∈R（ H× W ） × （ G× Kh×Kw×2），其中G是分解的数目。其中，Kh和Kw是核的高度和宽度，并且2指示偏移是2D向量。然而，f集合Δ的LCDC的维数仅为RH×W×2。我们还减少了可变形组G的数量，因为我们想要对两个时间帧之间的一种单一类型的运动进行建模。因此，在这种情况下的减少是G×Kh×Kw倍。参数减少与可变形卷积层的数量成比例，该可都被使用了。我们现在证明，LCDC可以在单个网络中有效地对表观和运动信息进行建模，因为差异r（t）=∆（t）−∆（t−1）具有行为等式涉及由光流产生的运动信息6288Ln当量（十）、因此，我们可以有效地在一个单一的网络与LCDC的外观和运动信息建模，而不是使用两个不同的流。3.4. 时空特征为了创建空间-时间特征，我们进一步跨通道维度将来自多个层的学习到的运动信息r（t）与外观特征（最后一层y（t）的输出）连接。我们在图中说明了这个过程。4.第一章为了对融合机制进行建模，我们使用了两个3D卷积，然后是两个fc层。每个3D控制器卷积单元之后是批量归一化、ReLU激活和3D最大池化以逐渐减小时间维度（同时保留空间维度）。最终fc层的输出可以灵活地用作任何长时间建模网络的特征，例如ST-CNN [16]，Dilated-TCN [15]或ED-TCN [15]。62894. 实验4.1. 实现细节我们使用ResNet50实现了我们的方法，其中可变形卷积作为主干（在 [2]中的层 conv5a， conv5b 和conv5c在所有现有的可变形卷积层上添加局部相干约束对于融合模块，我们使用大小为3且步幅为1的空间核;以及具有大小4和步幅2的时间内核。我们还在3D最大池化中使用了size 2和stride 2的池化。时间维度通过平均而被折叠。网络以两个完全连接的层结束。采用标准交叉熵损失法和权重正则化法对模型进行优化。在训练之后，提取LCDC特征（最后的fc层）并将其并入到长时间模型中。所有数据交叉验证分割均遵循[15]的设置。将帧的大小调整为224x224，并使用随机裁剪和平均值去除进行增强。每个视频片段在采样之后包含16个帧对于训练，由于运动速度不同，我们在50个沙拉上下采样到6fps，在GTEA上下采样到15fps，以确保一个视频片段包含足够的信息来描述运动。为了测试，特征以与用于比较的其他论文相同的帧速率下我们使用常见的动量优化器[19]（动量为0.9），并遵循超参数搜索的标准过程。每个训练程序由30个时期组成;学习率初始化为10-4，每10个epoch衰减一次，衰减率为0。九十六。4.2. 数据集我们在两个标准数据集上评估了我们的方法，即50沙拉数据集和GTEA数据集。50沙拉数据集[25]：该数据集包含来自多个传感器的50个沙拉制作视频。我们在工作中只使用RGB视频。每个视频持续5-10分钟，包含多个动作实例。我们报告了中期（17个动作类）和评估粒度级别（9个动作类）的结果，与[15，16，17]中报告的结果一致佐治亚理工学院自我中心活动（GTEA）[7]：该数据集包含7个动作类的28个视频，由4个受试者执行该数据集中的相机是头戴式的，因此引入了更多的运动不稳定性。每个视频大约1分钟长，平均有大约19个不同的动作4.3. 基线我们将LCDC与几个基线进行比较，包括(1)不涉及长时间建模的方法，其中比较是在时空特征级（SpatialCNN）和（2）具有长时间建模的方法（ST-CNN、DilatedTCN和ED-TCN）。SpatialCNN [16]：一种类似VGG的模型，通过将RGB帧与相应的MHI（差值为-0.001）进行堆叠来学习空间和短期在短时间段内补间帧）。MHI用于50 Salads和GTEA数据集，而不是光流，因为观察到光流受到小运动和数据压缩噪声的影响[15，16]。SpatialCNN特征还用作ST-CNN、DilatedTCN、ED-TCN和TDRN的输入ST-CNN [16]、DilatedTCN [15]和ED-TCN [15]：长期建模框架。长期依赖-使用ST-CNN中的1D卷积层、DilatedTCN中的堆叠扩张卷积和DilatedTCN中的堆叠扩张卷积来建模dency。在ED-TCN中具有池化和上采样的编码器-解码器。所有这三个框架最初都是以SpatialCNN特征作为输入提出的。我们将LCDC功能到这些长时间的模型，并与原来的结果进行比较。我们从[14]中获得了ST-CNN，DilatedTCN和ED-TCN的公开实现。在将LCDC功能整合到这些模型中时，我们观察到从头开始的训练可能会对随机初始化变得敏感。这可能是因为这些长时间模型具有低复杂度（即只有几层），并且输入特征不被增强。我们运行每个长时间模型（具有LCDC特征）五次，并报告多个指标的平均值和标准差。为了完整性，我们还包括了来自TDRN的原始结果（其中输入也是SpatialCNN特征）[17]。然而，TDRN4.4. 结果我们使用[15，17]中报告的三个标准指标对我们的方法进行基准测试：逐帧准确性，分段编辑评分和重叠10%的F1评分（F1@10）。由于编辑和F1得分惩罚过分割，因此准确度度量更适合于评估短期时空特征（SpatialCNN和LCDC）的质量所有提到的指标都足以评估长时间模型（ST-CNN，DilatedTCN，ED-TCN和TDRN）的性能。我们还指定了空间和短期时间分量的输入，以及每个设置中的长期时间模型（表1）。1和Tab。2）的情况。选项卡. 1显示了两个粒度级别上50 Salads数据集的结果。LCDC设置的整体性能，与长时间的模型，优于他们的同行。我们强调我们的LCDC + ED-TCN设置，因为它们提供了比其他基线最显著的改进。与使用Spa-tialCNN特征的原始ED-TCN相比，我们的方法在F1@10、编辑分数和准确性方面在中级水平上增加了 5.75% 、 7.14% 、 7.42% ，在评估水平上增加了3.72%、2.36%、5.5%选项卡. 2显示了GTEA数据集上的结果，并以类似于Tab的方式组织。1.一、我们实现了最佳的性能时，将LCDC功能与ED-TCN框架了6290M模型空间复合时间补偿（短）长时相F1@10编辑ACCSpatialCNN [16]RGBMHI-32.324.854.9（SpatialCNN）+ ST-CNN [16]RGBMHI一维转换55.945.959.4（SpatialCNN）+ DilatedTCN[15]RGBMHI扩张TCN52.243.159.3D（SpatialCNN）+ ED-TCN [15]RGBMHIED-TCN68.059.864.7我（SpatialCNN）+ TDRN [17]RGBMHITDRN（72.9）（66.0）（68.1）LCDCRGB习得变形-43.9933.3867.27LCDC + ST-CNNRGB习得变形一维转换60.01±0.4251.35±0.1268.45±0.15LCDC +扩张TCNRGB习得变形扩张TCN58.21±0.5948.54±0.5269.28±0.25LCDC + ED-TCNRGB习得变形ED-TCN73.75±0.5466.94±1.3372.12±0.41空间CNN [16]RGBMHI-35.025.568.0（SpatialCNN）+ ST-CNN [16]RGBMHI一维转换61.752.871.3（SpatialCNN）+ DilatedTCN[15]RGBMHI扩张TCN55.846.971.1Val（SpatialCNN）+ ED-TCN [15]RGBMHIED-TCN76.572.273.4ELCDCRGB习得变形-56.5645.7777.59LCDC + ST-CNNRGB习得变形一维转换70.46±0.4162.71±0.4677.84±0.26LCDC +扩张TCNRGB习得变形扩张TCN67.59±0.4258.97±0.5578.29±0.29LCDC + ED-TCNRGB习得变形ED-TCN80.22±0.2174.56±0.7078.90±0.25表1：50份沙拉数据集的结果（中间和平均值）. 学习变形为∆由方程式（八）、平均值和标准对于具有长时间模型的LCDC，报告了超过五次运行的偏差。基线的结果直接从其原始出版物中报告。请注意，由于TDRN的实施尚未公开，因此LCDC功能未纳入TDRN，因此TDRN结果（括号内）无法与LCDC结果直接比较。模型空间复合时间补偿（短）长时相F1@10编辑ACCSpatialCNN [16]RGBMHI-41.8-54.1（SpatialCNN）+ ST-CNN [16]RGBMHI一维转换58.7-60.6（SpatialCNN）+ DilatedTCN [15]RGBMHI扩张TCN58.8-58.3（SpatialCNN）+ ED-TCN [15]RGBMHIED-TCN72.2-64.0（SpatialCNN）+ TDRN [17]RGBMHITDRN（79.2）（74.1）（70.1）LCDCRGB习得变形-52.4245.3855.32LCDC + ST-CNNRGB习得变形一维转换62.23±0.6955.75±0.9458.36±0.45LCDC +扩张TCNRGB习得变形扩张TCN62.08±0.8555.13±0.7958.07±0.30LCDC + ED-TCNRGB习得变形ED-TCN75.39±1.3372.84±0.8465.34±0.54表2：GTEA数据集的结果表格格式遵循与Tab中相同的约定1.一、三个基线。LCDC + ED-TCN在两种报告的指标上也优于原始SpatialCNN + ED-TCN：F1@10和准确度分别提高了3.19%和1.34%。我们进一步示出了来自50个沙拉的测试视频的分割结果（在中等粒度上）（图1B）。5a）和GTEA数据集（图第5b段）。在图中，第一行是地面实况分割。接下来的四行是使用SpatialCNN特征的不同长时间模型所有这些分割结果都直接从[15]中提供的特征中检索，无需任何进一步的训练。最后一每一行的右边也有其各自的精度。在50沙拉数据集上，图。图5a示出了LCDC + ED-TCN相对于原始ED-TCN实现了4.8%的改善。在GTEA数据集上，Fig.图5 b示出了LCDC相对于ED-TCN的强烈改善，在准确度方面为9.2%。我们还实现了更高的精度上的时间边界，即。动作实例的开始和结束接近于地面实况的开始和结束。4.5. 消融研究我们进行了消融研究（表1）。3）在分割1上和50沙拉数据集的中级粒度，以将LCDC与SpatialCNN和双流框架进行比较。对于每个设置（表中的每一行），我们显示输入对于空间和短期时间分量，其融合方案、逐帧精度、模型的参数总数以及与可变形卷积相关的参数的数量（在适用的情况下）。由于该实验侧重于比较短期特征，因此准确度度量更合适。我们还报告组件是否需要单个或多个帧作为输入。我们对以下设置进行评估：（1）SpatialCNN：第4.3节中描述的[ 16 ]中的特征。它的输入是堆叠RGB帧和MHI。（2）NaiveAppear：使用ResNet50的逐帧类预测（在此设置中不涉及时间信息）。（3）NaiveTempAp-pear：来自常规双流框架的外观流使用单个帧输入和VGG骨干。因此，将LCDC与上述比较并不直接。我们创建了一个具有多个输入帧和ResNet50主干的外观流，以便与LCDC进行更好的时间分量通过aver-time建模6291GroundTruthACCACCSVM65.067.3ST-CNN77.269.3膨胀-TCN88.870.9ED-TCN90.271.9LCDC+ED-TCN(a) 50沙拉数据集（中级）。95.0(b) GTEA数据集。81.1图5：在两个测试视频（50个沙拉和GTEA数据集各一个）上跨不同方法的分割结果的比较SVM、ST-CNN、DilatedTCN和ED-TCN是具有SpatialCNN特征的原始结果。LCDC特征与最后一行中的ED-TCN长时模型结合使用。报告每个设置的逐帧精度。模型空间复合时间补偿（短）融合方案ACC总参数变形参数SpatialCNNRGB（单）MHI（多）堆叠输入60.99--NaiveAppearRGB（单）--68.4538.9M-NaiveTempAppear RGB（多）平均特征帧（多帧）-71.5238.9M-OptFlowMotion-OptFlow（多个）-25.67134.1M-TwoStreamNetRGB（多）OptFlow（多个）平均分数71.82173.0M-DCRGB（多）学习变形（无局部相干性）（多）3D转换72.2545.7M995.5KLCDCRGB（多）学习变形（多）3D转换73.7742.7M27.7K表3：50个Salads数据集的消融研究（分割1，中等水平）。“Single” and “multi” indicate the amount of input framesfor spatial/temporal老化特征帧（在使用ReLU馈送到两个fc层之前）。此模型与NaiveAppear相同，不同之处在于每个视频片段有多个帧。（4）OptFlow-运动：使用VGG-16对时间分量进行建模的运动流（以堆叠的密集光流作为输入）。这类似于常规双流网络的运动分量。（5）TwoStreamNet ：通过平均来自 NaiveTem-pAppear 和OptFlowMotion的分数获得的双流框架。我们遵循传统双流网络中使用的融合方案[21]。（6）DC：使用可变形卷积网络（具有骨干ResNet50）的接收场来对运动建模，但是没有局部相干性约束。（7）LCDC：所提出的LCDC模型，其另外对感受野实施局部相干性约束。与SpatialCNN相比，NaiveAppear具有更高的准确性，因为SpatialCNN特征是使用VGG类模型提取的，而NaiveAppear使用ResNet50。通过在NaiveTempAppear中对多个特征帧进行平均，准确率进一步提高了3.07%。注意，NaiveAppear和NaiveTem-pAppear的参数数量是相同的，因为唯一的区别是用作输入的帧数（求平均值不需要参数）。OptFlowMotion的精度低于其他模型，因为50Salads中的运动很难使用光流捕获。这与[15，16]中的观察一致，即光流对于数据集是低效的。在TwoStreamNet中将OptFlowMotion与NaiveTem- pAppear结合使用可略微提高性能。然而，由于OptFlowMotion的复杂性，参数的数量显著增加。这使我们无法拥有更大的批处理大小或训练两条溪流在一起。我们的DC和LCDC框架，其模型的时间组件作为不同的感受野，执行双流方法TwoStreamNet具有显着较低的模型复杂性。DC直接使用来自原始可变形卷积的自适应感受野，将准确率提高到72.25%。LCDC进一步提高了准确性73.77%，甚至更少的参数。这种复杂性降低是因为LCDC使用较少的参数用于变形偏移。这意味着DC的额外参数对于时空特征建模是不必要的，因此可以被去除。此外，如果我们仅考虑与可变形卷积相关的参数，则DC将需要比LCDC多36倍的参数。36x的减少与我们在3.3节中的推导一致，其中Kh=Kw=3且G=4。减少的参数的数量与可变形卷积层的数量成比例。5. 结论我们引入了局部一致的可变形卷积（LCDC），并创建了一个单流网络，可以通过利用自适应感受野中的运动来联合学习时空特征。该框架是显着更紧凑，可以产生强大的时空特征，而不使用传统的运动提取方法，例如。光流LCDC功能，当被纳入几个长期的网络，优于其原始的实现。在未来的工作中，我们计划将长期建模直接统一到框架中。致谢：本材料基于部分由C3SR支持的工作。Rogerio Feris通过DOI/IBC合同号D17 PC 00341得到IARPA的部分支持。6292引用[1] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在计算机视觉和模式识别会议（CVPR），2017年。2[2] Jifeng Dai，Haozhi Qi，Yuwen Xiong，Yi Li，GuodongZhang，Han Hu，and Yichen Wei.可变形卷积网络。2017年国际计算机视觉会议（ICCV）。二三四六[3] Navneet Dalal和Bill Triggs。用于人体检测的定向梯度的直方图计算机视觉与模式识别会议，2005年。2[4] Navneet Dalal、Bill Triggs和Cordelia Schmid。使用流量和外观的定向直方图进行人体检测。欧洲计算机视觉会议（ECCV），2006年。2[5] James W. Davis和Aaron F. Bobick使用时间模板表示和识别动作Transactions on Pattern Analysis and MachineIntelligence（TPAMI），2001. 2[6] Yazan Abu Farha和Jurgen Gall。MS-TCN：用于动作分割的多级时间卷积网络。在计算机视觉和模式识别会议（CVPR），2019年。3[7] Alireza Fathi，Xiaofeng Ren，and James M.瑞格学习在自我中心的活动中识别物体。计算机视觉与模式识别会议（CVPR），2011年。二、六[8] Christoph Feichtenhofer，Axel Pinz，and Richard Wildes.用于视频动作识别的时空残差网络。神经信息处理系统会议（NeurIPS），2016年。2[9] ChristophFeichtenhofer、AxelPinz和AndrewZisserman。卷积双流网络融合视频动作识别。在计算机视觉和模式识别会议（CVPR），2016年。2[10] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习在计算机视觉和模式识别会议（CVPR），2016年。3[11] Matthias Holschneider，Richard Kronland-Martinet，JeanMorlet，and Philippe Tchamitchian.利用小波变换进行信号分析在Wavelets，1990中。二、三[12] Kai Kang，Hongsheng Li，Junjie Yan，Xingyu Zeng，Bin Ya

下载后可阅读完整内容，剩余1页未读，立即下载