没有合适的资源?快使用搜索试试~ 我知道了~
1基于分组时空聚合的高效动作识别陈旭罗阿兰·尤耶约翰霍普金斯大学计算机科学系,巴尔的摩,MD 21218,美国{chenxuluo,ayuille1}@ jhu.edu摘要时间推理是视频分析的一个重要方面。3D CNN通过以无约束的方式联合探索时空特征表现出良好的性能,但它也增加了大量的计算成本。以前的工作试图通过解耦的空间和时间的过滤器,以减少复杂性在本文中,我们提出了一种新的分解方法,分解的特征通道到空间和时间组并行。这种解构可以使两组人分别关注静态线索和动态线索。我们称之为分组时空聚集(GST)。这种分解是更有效的参数,使我们能够定量分析的空间和时间特征在不同层的贡献。我们验证了我们的模型在几个动作识别任务,需要时间推理,并显示其有效性。1. 介绍随着卷积神经网络在图像分类中的成功[20,10],动作识别也从传统的手工制作的特征(例如:IDT[27])到基于深度学习的方法。随着大规模数据集[19,3,8]和更强大的模型[3,29]的引入,基于深度网络的方法已成为视频分类任务的标准。时间推理在视频分析中起着重要的作用。然而,用于动作识别的常见视频数据集,如UCF101 [21]和Kinetics [3],不需要太多的时间推理。数据集中的大多数类只能基于静态场景或对象进行识别[13]。此外,一些作品甚至表明,打乱时间顺序,准确性几乎保持不变[33]。这表明在这些数据集上训练的模型可能不一定利用时间线索。最近,已经发布了几个需要时间建模的数据集[8,4,13]。 例如图1显示了Something-Something数据集的两个例子[8]。仅看到单个帧不足以确定类别。这两个例子在图1.来自something-something数据集的示例[8]。这两个视频的基本事实是这需要时间信息来正确区分这两个类。开始(第一列)但在结束时有不同的结果(见第二列)。这些数据集强调动作识别中的时间方面。然而,这并不意味着每个帧中的静态信息没有帮助。外表为时间推理提供了丰富的线索。例如,在图1中,我们可以通过只看到单个帧来缩小可能的解释范围。并且我们可以通过观察状态变化从稀疏采样的帧中推断出动作现有的时空网络,如C3D [25]和I3D [3],以无约束的方式联合学习空间和时间特征。虽然它们可以实现良好的性能,但它们也引入了大量的导致计算负担的参数。一些作品[23,17,26,33]试图通过将3D卷积内核分解为空间和时间部分来降低成本。然而,它仍然不确定如何在网络中利用空间和在本文中,我们提出了沿通道维分解,而不是表明它是更参数有效的比以前的方法。我们的方法受到广泛使用的群卷积的启发。这里的直觉是,一些通道可能与空间特征更相关,而一些通道更关注运动特征,551255131x1x13x1x11x3x31x1x1通过类比神经元的不同功能(例如,细小细胞和大细胞)。在以前的方法中,空间和时间特征跨通道纠缠在一起。并且在所有信道上直接应用相同的算子可能不是最优的和有效的。因此,我们建议将特征图分解为空间组和通道组,并分别应用不同的操作。在此基础上,我们在每个残差块中设计了一个双路径模块。不同于以往的工作,其中的群体是对称的,我们使用一个路径来模拟空间信息和其他路径来探索时间信息。在此基础上,对时空特征进行了整合。我们称之为分组时空聚合C2d1x1x11x3x31x1x1C3d1x1x13x3x31x1x1P3d(GST)。与P3D中使用的级联分解像网络[17]一样,我们的方法以并行方式实现它,这可以以更有效的方式利用特征。这种时空分解不仅减少了参数,而且有利于网络学习不同的方面(即,静态和动态信息)和时间多尺度特征。与以前的工作,模型的时空信息在一个不受约束的方式,我们的分解使我们能够分析网络如何利用空间和时间的功能,在不同的层。有趣的是,我们发现,当网络在时间建模任务上进行训练时,低级特征更多地关注静态线索,而高级特征更多地关注动态线索网络可以自动学习软选择,而无需任何进一步的约束。所提出的模块可以很容易地插入到任何常见的2D网络中,例如ResNet [10]。我们在几个需要时间信息的数据集我们的模型可以用更少的计算成本优于现有的方法。总之,我们的贡献包括:(a)我们提出了一种新的3D卷积核分解方法,该方法可以显式地分别有效地对空间和时间信息进行建模;(b)我们定量分析了不同层中空间和时间特征的贡献;(c)我们在几个需要时间建模的数据集上以更少的计算成本实现了最先进的结果。2. 相关作品用于动作识别的数据集UCF 101 [21]或Kinetics [3]等流行的数据集具有较强的静态偏差,并且不太关注时间顺序[13,33,35]。Li等[13]定量评估对静态表示的偏见这种偏见分散了研究人员探索更好的时间模型。目前还不确定在这些数据集上训练的模型是否真的学习了动作本身,或者只是利用了偏见。近年来,群体行为和细粒度数据集[8,19,4,7]受到越来越多的青睐和关注。这些(a)(b)(c)第(1)款图2.三种常见网络类型的比较。(a) 显示了一个2D网络,TSN [28]和TRN [35]属于这一类。(b)显示了C3D类型的网络。(c)示出了P3D块(也称为S3D或R(2+1)D),其解耦空间和时间滤波器。新收集的数据集对动作识别提出了新的挑战。特别是细粒度的视频数据集,如Something-Something [8,16],Jester,Diving 48 [13]需要广泛的时间建模。例如,在something-something [8]中的两个类随着深度神经网络在视觉识别方面的成功,人们已经做了很多工作来将其扩展到视频分类。早期的工作简单 地 将 2D 卷 积 应 用 于 单 个 帧 , 然 后 进 行 融 合 。Karpathy等人[11]提出了几种帧聚合的融合策略。后来,TSN [28]提出了一种新的采样策略,并使用后期融合策略来聚合每帧的TRN [35]通过引入多尺度MLP进行时间聚合来改进这一点两者都采用后期融合策略.尽管这些2D网络在UCF 101 [21]或Kinetics [3]等数据集上表现良好,但它们在需要广泛时间推理的数据集上显示出不太令人满意的结果[8,13]。在另一个分支中,3D网络(例如,C3D [25]、I3D[3]、 P3D [17]) 最 近 受 到 关 注 。 第 一 个 三 维 网 络(即。C3D [25])有大量的参数,很难训练。I3D [3]建议通过权重复制将ImageNet预训练模型膨胀Res3D[9]系统评价了几种常见的膨胀结构。ECO [37]在2D网络 之 后 添 加 了 3D-ResNet , 用 于 进 行 时 间 融 合 。SlowFast [6]使用两种不同的架构,在不同的时间频率上运行。我们的工作explores静态和运动功能的渠道方面。5514C3D等效GST-大号GSTConcat3x 3x 3,1-双3x3x3,1x1x11x1x1Concat3x3x3,1x3x3,1- 101x1x11x1x11x3x3,1-103x3x3,Concat1/21/2(a)(b)(c)(d)图3.概述我们提出的方法。(a)显示了C3D的等效网络。(b)示出了将一个路径替换为仅空间卷积,表示为GST-Large。(c)示出了我们的方法,并且(d)示出了所提出的GST模块。在我们的GST模块中,输入特征图被分成两组;一组用于空间建模,另一组用于时间建模。这两条路径使用相同数量的参数并连接在一起。光流用于动作识别从双流网络的开创性工作开始[20],光流已被广泛用于运动表示。大多数作品发现,他们的模型可以更好地执行时,结合光流除了RGB作为输入。然而,计算光流可能是耗时的并且独立于网络。一些工作尝试联合优化光流估计和分类网络[36,5],或者在RGB网络中隐式地建模光流[24]。高效的时间建模标准3D网络(如C3D [26])包含大量难以训练的参数。Sun等人[23]通过解耦空间和时间内核来减少参数。P3D [17]和S3D [32]进一步探索了不同的架构。R(2+1)D [26]表明,这可以用与3D卷积相同数量的参数实现更好的结果图2显示了这些常见结构之间的比较。TSM [15]用移位模块替换时间滤波器。这种简单的方法不会引入新的参数,并且可以在时态建模任务中表现得非常好。3. 方法我们所提出的方法的概述如图3所示,输出通道分为两组,一个用于空间建模,另一个用于时空建模。空间部分只是标准的2D卷积。对于时间部分,使用3D卷积。然后将空间-时间特征连接在一起。这样我们可以使用比标准2D网络(如ResNet-50 [10])更少的参数,但可以显着提高其时间建模的能力。在下面的章节中,我们将详细描述我们的新颖的分组时空聚合(GST)模块。3.1. 3D卷积核的考虑具有Ci输入通道和Co输出通道的3D卷积核。T、H、W分别是沿着时间和空间维度核的大小为Co×Ci×T×H×W,比其2D对应物大T鉴于现代CNN例如ResNet [10]通常具有大量通道,这显著增加了成本。有很多作品试图通过对卷积核进行因式分解来减少参数。一种广泛使用的方式是将空间和时间部分解耦[23,17,26,33]。这里的基本假设是空间和时间内核彼此正交。在数学上,我们可以将这种分解写为w=wt×ws(1)其中W ∈RCo× Ci×1× H × W W T ∈RCo×Ci×T ×1×1是的空间和时间kernels分别R(2+1)D [26]表明,这种分解可以在与3D卷积相同的参数数量下实现更好的性能。1x1x1GST1x1x155153.2. 分组时空分解组卷积已广泛用于图像识别,例如ResNext [32],ShuffleNet [34]等。然而,在视频任务中,它的探索较少。大多数现有的工作只是简单地用群卷积代替原始卷积,例如Res3D [9]。然而,如实验中所示,直接以平凡的方式应用群卷积,这导致对称群,不能带来改进。因此,我们提出了沿信道维度以非对称方式分解大型3D卷积滤波器。由于外观和运动对于动作识别都是有用的,因此一些特征通道可以更关注静态外观,而其他通道可以更关注动态运动特征。因此,分别对它们建模是有效和高效的。基于这一假设,我们提出用两组特征分别表示空间和时间信息图3(a)显示了C3D(图2(b))的等效网络架构在我们的GST设计中,我们只应用空间卷积(即,二维卷积)的第一组功能和时空卷积(即,3D Convs)到另一组。我们将其表示为GST-大,如图3(b)所示。为了进一步减少参数的数量,我们将输入通道分解为空间和时间两组,并应用2D和3D卷积重建。这可以鼓励每个组中的通道分别集中于静态语义特征和动态运动特征,从而更容易训练。因此,静态和动态特征可以以自然的方式组合。形式上,我们的分解模块GST可以写成wGST=wgswgt(2)其 中 , wgs∈RCos×Cis×1×H×W 用 于 空 间 路 径 ,wgt∈RCot×Cit×T×H ×W用于时间路径。这里,os和is是输出的数量,以相同的方式,空间路径的输入声道和时间路径的输入 声道我们的方法使多尺度的时间建模在一个单一的层。在实验中,我们表明,这种时空分解享有更好的参数利用率,可以有效地减少参数的数量,同时导致更好的性能。3.3. 空间和时间路径的计算成本为了控制GST的复杂性,我们引入了两个参数来指定空间和时间分支的复杂性。我们使用α来指定时间输出通道的比例,使用β来指定空间和时间特征的输入通道的数量。对于输出通道, =αCo数量通道用于时间路径,其余通道用于空间路径,因此空间和时间路径的参数总数为:(1−α)HWC 是 Co,αTHWC是Co。α值越大,变化越大。时间建模和因此更高的计算成本。而较小的α意味着较 低 的 时 间 路 径 容 量 , 从 而 较 低 的 复 杂 度 。 如SlowFast [6]中所指出的,较低的信道容量意味着较弱的表示空间语义的能力。分别在α=1/2、1/4、1/8时进行了实验。经验上,我们发现,更少的时间通道有利于降低计算成本,而不损害性能。在第4.6节中,我们定量分析了空间和时间通道在每个块中的对于输入通道,如果我们设置β=1,则Cis=Cit=Ci以及空间和时间路径两者都将全 功 能 地 图 我 们 将 该 模 型 表 示 为 GST-大 型 ( 图 3(b))。与图3(a)中的模型(相当于3D卷积)相比,我们替换了一条路径进行空间建模。这允许在单个层中的多尺度时间建模在实验中,我们表明,这不仅减少了参数,但也提高了性能。对于更高效的架构,我们设置β=1/2,因此Cis=Cit=Ci/2。这些模型如图3(c)和(d)所示一组用于空间建模,另一组用于时间建模。在常用的核大小H=W=T=3的情况下,我们的GST模型与具有适当设计的时空通道分解的2D网络相比具有大致相同或甚至更少的参数。然而,我们的模型包含足够的时间交互,因此具有更高的时间建模能力比仅仅使用2D网络。总之,我们在表1中列出了不同架构的参数数量。模型#参数C2DC3DP3DC3D(组=g)GST-大型GSTH·W·Ci·CoT·H·W·Ci·Co(H·W+T)·Ci·CoT·H·W/g·Ci·Co(1−α+αT)HWCiCo(1−α+αT)HWCiCo/2表1.每个空间-时间块的参数数量的比较3.4. 网络架构建议的GST模块是灵活的,可以很容易地插入到大多数当前的网络。更具体地说,我们用GST模块替换每个3×3卷积层最后的预测是对每一个的简单平均池化5516frame.我们表明,这已经可以实现良好的结果,因为空间-时间的功能经常聚集在每个中间块。这与后期融合方法TRN [35]相反,后者需要对高级特征进行操作的复杂4. 实验4.1. 数据集我们评估我们的方法上的五个视频数据集,要求时间建模。Something-SomethingSomething v1 [8]和v2 [16]是两个用于动作识别的大规模视频数据集。总共有大约110k(v1)和220k(v2)的视频,用于174个具有不同对象,背景和观点。细粒度级别类需要广泛的时间推理来区分它们,如图1中的示例所示我们主要在这两个数据集上进行实验并Diving48Diving48 [13]是一个新发布的数据集,包含48个潜水课程的超过18K的视频剪辑。这需要更多地关注姿势和运动动力学。事实上该数据集旨在最大限度地减少对静态帧的偏差我们报告官方列车/列车分离的准确性。以自我为中心的视频数据集我们还评估了我们的模型在两个以自我为中心的视频任务,以表明我们提出的模型是通用的各种任务。我们最近用了两个收集的自我中心数据集,Epic Kitchen [4]和EGTEAGaze+[14]。对于Epic Kitchen,我们使用与[1]相同的分割来报告动词分类结果EGTEA Gaze++是最近收集的数据集,包含106个活动类别的大约10K个样本。我们使用第一个分割作为[14],其中包含8299个训练和2022个测试实例。4.2. 实现细节我们在Pytorch中实现了我们的模型。我们采用在Imagenet [18]上预训练的ResNet- 50 [10]作为主干。时间路径的参数被随机初始化。对于时间维度,我们使用TSN [28]中描述的稀疏采样方法。对于空间维度,将输入帧的短边调整为256,然后裁剪为224×224。我们在训练期间进行随机裁剪和我们在2个GPU上以24的批量训练网络,并使用SGD 进 行 优 化 , 初 始 学 习 率 为 0.01 , 持 续 约 40 个epoch,并每10个epoch衰减10倍。总的训练时期大约是60。如[30]中所示,在推理过程中,我们对每个片段的中间帧进行采样,并对每个帧进行中心裁剪。除非另有说明,否则我们报告单次收获4.3. 关于Something Something数据集我们首先在v1和v2数据集上评估模型的每个组件。消融研究我们进行了几项消融研究,Something-Something V1和V2验证集[8]。对于所有模型,我们使用与TSN [28]相同的采样方法对8帧进行采样,并使用ResNet-50 [10]作为骨干网络。结果示于表2中。我们将我们的模型与三个基线进行比较,基于ResNet50的C3D,具有组卷积的C3D和P3D。对于C3D和P3D,我们使用图1所示的架构2(b) 和(c),对于C3D,组为2,我们将每个3×3×3卷积设置为组大小为2的组卷积我们还比较了具有不同空间和时间通道比(α=1/2、1/4、1/8,如第3.3节所述)的网络。方法#paramsv1 v2表2. Something v1和v2确认集的消融研究。对于所有模型,我们使用基于ResNet-50的主干,并为每个视频片段采样8帧。首 先 , 对 于 我 们 的 GST-Large 模 型 , 我 们 设 置α=1/4。这导致与组大小为2的P3D或朴素3D组卷积相似数量的参数。然而,我们的模型在这两个数据集上都优于其他方法。即使与更大的C3D模型相比,它仍然表现得更好。这表明,我们的并行分解可以更好地利用参数比级联的方式,如P3D。此外,与原始的3D卷积相比,GST-Large仅使用部分通道进行时间建模,从而显著降低了计算成本。然而,我们的模型通过将信道空间分解为空间和时间,比C3D更好地推广。其次,对于更高效的模型,我们提出的GST使用与2D ResNet-50相似的参数,但性能比2D模型好得多。这表明我们的模型更有效地分配了参数空间与3D群卷积相比,我们证明了用仅空间卷积替换其中一个群是有益的。即使与C3D网络相比,我们的模型结合了空间和时间线索,在v1和v2数据集上仍然表现得更好。这表明3D网络C3D3×3×342.5Mtop146.2top575.6top160.9top587.0C3D组=229.6M45.174.059.986.5P3d29.4M45.775.059.885.8GST-大号(1/4)29.6M47.776.462.087.5C2d23.9M20.448.130.561.2GST(α=1/2)23.9M46.776.261.487.3GST(α=1/4)21.0M47.076.161.687.2GST(α=1/8)19.7M46.775.760.786.65517模型骨干#框架GFLOPSTop1Top5[35]第三十五话BN-inception8-42.0-[37]第一届中国国际航空航天博览会表3.与Something V1验证集的最新结果进行比较我们主要考虑只将RGB作为输入的方法对于每个模型,我们报告其前1名和前5名的准确性以及其FLOP。方法框架骨架确认测试前1前5前1前5TRN [35]8BN-inception48.877.650.979.3[第15话]8ResNet-5059.1*85.6*--[第15话]16ResNet-5059.4*86.1*60.4*87.3*消费税(我们的) 8ResNet-5061.687.260.04*87.17*消费税(我们的) 16ResNet-5062.687.961.18美元 *87.78美元 *[35]第三十五话8BN-inception55.583.156.283.2TSM-2stream [15]16ResNet-5063.588.664.390.1表4.与something-something v2数据集上的最新结果进行比较* 表示5种作物的结果包含冗余,并且根据经验,我们发现通过分离空间和时间通道,网络更容易训练和更好地推广。我们还研究了时间通道容量的影响。我们使用不同的时间通道比(α=1/2,1/4,1/8)进行实验。我们发现,降低的时间- poral通道的比例这表明时间建模可能需要较低的信道容量。在第4.6节中,我们详细研究了时间信道容量如何影响时空建模。在后面的实验中,我们将α=1/4和β=1/2作为默认值,因为它在精度和效率之间有很好的折衷与最先进技术的比较结果对v1和v2分别见表3和表4在v1数据集上,我们的模型仅采样8帧,已经优于大多数当前方法。我们的方法我们的模型可以使用更少的帧来执行S3D,甚至优于复杂的模型,如具有图形卷积的非局部网络[29][30]。与v1相比,v2大两倍,标签歧义更少。我们在验证集和测试集上进行了测试。我们的模型再次实现了最先进的结果。特别是,我们的单流模型绝对优于双流TRN [35] 5%。尽管我们的模型只采用RGB作为输入,但与双流网络相比,我们的16帧模型提供了有竞争力的结果。4.4. Diving48数据集我们在Diving48 [13]数据集上测试了我们的模型该数据集需要对细微的身体运动进行建模,以便正确分类,而背景和对象线索似乎几乎毫无用处。我们从每个视频片段中抽取16帧。在表5中,我们给出了这个数据集的定量结果与以往的工作相比,我们的方法优于所有其他同行,如R(2+1)D网络,由一个大的margin。特别是,通过只使用轻量级的主干ResNet-18,我们的模型已经可以超越以前的最先进技术。这表明我们的模型可以有效地捕捉重要的时间线索。我们相信利用姿态估计可以有助于识别潜水动作,但这超出了本文的范围。尽管如此,我们的通用模型已经可以超越当前的方法。166441.4-MFNet-C50 [12]ResNet5010-40.370.9MFNet-C101 [12]ResNet10110-43.973.1[29]第二十九话3D ResNet-5032×2个夹子168×244.. 476.0荷兰I3D+GCN [30]3D ResNet-5032×2个夹子-46.176.8[第15话]ResNet-5083343.473.2[第15话]ResNet-50166544.874.5S3D [33]BN-inception6466.3847.378.1S3D-G [33]BN-inception6471.3848.278.7消费税(我们的)ResNet-50829.547.076.1消费税(我们的)ResNet-508×2个夹子29.5×247.676.6消费税(我们的)ResNet-50165948.677.95518方法预训练精度C3 D(64帧)(来自[14])-27.6R(2+1)D(来自[2])动力学28.9R(2+1)D+DIMOFS [2] Kinetics + PoseTrack 31.4C3 D-ResNet 18(我方实施)ImageNet 33.0P3 D-ResNet 18(我方实施)ImageNet 30.8GST-ResNet 18(我们的)ImageNet34.2C3 D-ResNet 50(我们的实施) ImageNet 34.5P3 D-ResNet 50(我们的实施) ImageNet 32.4GST-ResNet 50(我们的)ImageNet38.8表5.Diving48数据集上的结果[14]4.5. 关于自我运动动作识别为了表明我们提出的模型是通用的各种动作识别任务,我们还测试了两个最近发布的自我运动视频数据集,即。Epic-Kitchen [4]和EGTEA Gaze++ [14]。 这两个数据集都侧重于活动在厨房因此,对场景的偏见较少。对于Epic Kitchen数据集[4],共有125个动词类,每个动词可以作用于不同的对象。我们使用与[1]相同的分割来报告验证集的结果我们只对以下动词类预测进行评估[1]因为本文的主要目的是时间行为识别而不是对象识别。对于EGTEA Gaze++数据集,它包含106个类和19个不同的动词。我们使用split-1报告结果,如[14]所示。我们使用与Something-Something数据集上的实验相同的设置,并为每个剪辑采样8帧,结果列于表中。6和7个回复。对于Epic-Kitchen数据集,所有模型都使用ResNet-50作为主干。我们的模型再次取得了更好的结果。在EGTEA Gaze++数据集上,我们还尝试了一个浅层网络ResNet-34作为主干,与以前的作品进行公平的比较没有花里胡哨,我们的模型甚至可以这表明,我们提出的模块是通用的时间建模。4.6. 时空特征分析为了理解空间和时间信息如何在每个层中编码,我们仔细检查每个GST模块后BN层的权重BN层的输入是空间和时间特征图的级联,并且BN层中的每个通道的缩放因子可以用于近似地估计该通道的重要性对于每个瓶颈块,我们计算对应于空间或时间通道的每个通道的缩放因子的直方图,并在图4中显示它们。BN层中的缩放因子的统计表明,两组通道编码固有不同的线索。该网络可以在单层中分别学习静态和动态特征,并隐式地学习软方法[1]第一章LFB [31]消费税(我们的)前1名(前5名)40.89(-)54.4(81.8)56.50(82.72)表6. Epic-Kitchen动词分类任务验证集的结果,使用与[1]方法视频访问[14](I3D-2stream)53.3[22](R34- 2流)62.2P3 D-R34(我方实施)58.1GST-R34(我们的)62.2P3 D-R50(我方实施)61.1GST-R50(我们的)64.4表7.使用分割1的EGTEA Gaze++结果每个块中的加权动态信道选择。首 先 , 在 左 列 中 , 我 们 展 示 了 在 Something-Something 上 训 练 的 具 有 不 同 时 间 通 道 比 α 对 于α=1/2,在块3中,空间权重和时间权重不太可区分,这表明太多的时间通道可能编码额外的静态信息。这就解释了为什么减少时间通道的数量可以提高精度。而对于α=1/8,它可能没有足够的时间建模能力。我 们 还 可 视 化 了 在 Epic- Kitchen , Diving 48 和Kinetics上训练的模型的统计数据对于需要时间信息的数据集,我们可以看到,在低层特征中,空间信息更重要,而在高层特征中,时间信息比空间信息更重要。这可能是由于单个帧中的对象线索不足以确定动作。因此,时间通道编码抽象的运动特征,而不是帮助识别动作的静态特征。然而,对于动力学,空间和时间特征不太明显。这表明学习的时间特征可能包含一些静态特征。因此,通过分离空间和时间特征通道,我们可以定量地评估每个部分的贡献这让我们深入了解空间和时间线索是如何从低级特征编码到高级特征的,这可能有利于未来的网络设计。我们在图5中展示了Something v2 val set中的一些示例。在每个示例中,我们显示了每个中间时间戳中的网络预测。具体地,最终预测是每个帧的预测的平均值我们检查每一个中间帧的输出.有趣的是,状态转换可以只通过视频级别的标签来学习。在第一个例子中,预测从“把东西撕成一小块”到“把东西撕成两块”,这对应于整个动作的状态变化。同样,网络可以在看到瓶子被移回后改变为“假装在某件事后面的某件事”。这表明静态帧的状态变化对于识别完整的动作可能是至关重要的。5519把什么东西撕了一点把东西撕成两半一些-东西=1/4=1/2=1/8第一座第二座第三座第四座。第一座第二座第三座第四座。史诗=1/4潜水=1/4动力学=1/4图4.空间和时间信息的贡献在每个GST模块之后,我们绘制了分别对应于空间组和时间组的每个BN层中的权重直方图更高的权重意味着该通道中的信息更重要。2009年12月31日把某物放在后面假装把某物放在表面而不掉下来把某物放在后面0.4657 0.9952 0.9765 0.6794 0.9998 0.9974把东西扔到空中然后让它掉下来把东西扔0.5044 0.5615 0.8974 0.9999 0.3775图5.示例显示了预测如何随时间演变。我们使用在Something v2数据集上训练的16帧模型。我们在每个视频剪辑中只显示六个典型的帧。我们在平均池化之前计算每个帧的预测,并显示每个帧的预测标签和置信度得分绿色条显示整个视频剪辑的正确预测有趣的是,状态变化可以在没有强有力的监督的情况下被发现。5. 结论在本文中,我们提出了一个简单而有效的时间建模网络。GST模块将特征通道分解为静态和动态两部分,分别进行空间卷积和时间卷积这种分解可以有效地降低计算量并促进网络并行地探索空间和时间特征。进一步的诊断可以深入了解这两个组件如何对整个网络做出贡献。致谢本工作部分由智能高级研究项目活动(IARPA)通过内部/内部商业中心(DOI/IBC)合同号D17 PC 00345的开发提供支持。5520引用[1] Fabien Baradel 、 Natalia Neverova 、 Christian Wolf 、Julien Mille和Greg Mori。视频中的对象级视觉推理。在欧洲计算机视觉会议(ECCV),2018年9月。[2] Gedas Bertasius , Christoph Feichtenhofer , Du Tran ,Jianbo Shi, 和 洛伦佐 托雷萨尼 学习 通过检测来区 分 运 动 特 征 。 arXiv 预 印 本 arXiv : 1812.04172 ,2018。[3] Joao Carreira和Andrew Zisserman。你好,动作识别?新模型和动力学数据集。在IEEE计算机视觉和模式识别会议的论文集,第6299-6308页[4] DimaDamen , HazelDoughty , GiovanniMariaFarinella , Sanja Fidler , Antonino Furnari , EvangelosKazakos , Davide Moltisanti , Jonathan Munro , TobyPerrett,Will Price,et al.缩放自我中心的愿景:epic-kitchens数据集。在欧洲计算机视觉会议(ECCV)的论文集,第720-736页[5] Lijie Fan , Wenbing Huang , Chuang Gan , StefanoErmon,Boqing Gong,and Junzhou Huang.用于视频理解的运动表示的端到端学习。在IEEE计算机视觉和模式识别会议(CVPR)上,2018年。[6] Christoph Feichtenhofer , Haoqi Fan , Jitendra Malik ,and Kaiming He.用于视频识别的慢速网络arXiv预印本arXiv:1812.03982,2018。[7] David F Fouhey,Wei-cheng Kuo,Alexei A Efros,andJi- tendra Malik.从生活方式到日常互动。在IEEE计算机视觉和模式识别会议论文集,第4991-5000页[8] Raghav Goyal,Samira Ebrahimi Kahou,Vincent Michal-ski , Joanna Materzynska , Susanne Westphal , HeunaKim,Valentin Haenel,Ingo Fruend,Peter Yianilos,Moritz Mueller-Freitag,et al.学习和评估视觉常识的“某事某事”视频数据库。在ICCV,第2卷,第8页,2017年。[9] 原贤章片冈广胜佐藤丰时空3d cnns能回溯2d cnns和imagenet的历史在IEEE计算机视觉和模式识别会议论文集,第6546-6555页[10] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition,第770-778页[11] Andrej Karpathy , George Toderici , Sanketh Shetty ,Thomas Leung,Rahul Sukthankar,and Li Fei-Fei.使用卷积神经网络进行大规模在IEEE计算机视觉和模式识别会议(CVPR)中,2014年6月。[12] Myunggi Lee 、 Seungeui Lee 、 Sungjoon Son 、 GyutaePark和Nojun Kwak。运动特征网络:修正了动作识别的运动过滤器。在欧洲计算机视觉会议(ECCV)的会议记录中,第387- 403页[13] Yingwei Li,Yi Li,and Nuno Vasconcelos.回响:无表征偏差的行为识别在Pro-欧洲计算机视觉会议(ECCV),第513-528页,2018年。[14] Yin Li,Miao Liu,and James M.瑞格在旁观者的眼中:第一人称视频中凝视和动作的联合学习在欧洲计算机视觉会议(ECCV)上,2018年9月[15] 纪林、闯乾、宋涵。 用于高效视频理解的时间移位模块。arXiv预印本arXiv:1811.08383,2018。[16] Farzaneh Mahdisoltani , Guillaume Berger , WaseemGhar-bieh,David Fleet,and Roland Memisevic.迁移学习中任务粒度的有效性研究。arXiv预印本arXiv:1804.09235,2018。[17] 赵凡秋,姚婷,陶梅。用伪三维残差网络学习时空表示。在IEEE计算机视觉国际会议论文集,第5533-5541页[18] OlgaRussakovsky , Jia Deng , Hao Su , JonathanKrause , San- jeev Satheesh , Sean Ma , ZhihengHuang , Andrej Karpathy , Aditya Khosla , MichaelBernstein , et al. 图 像 网 大 规 模 视 觉 识 别 挑 战 。International Journal of Computer Vision,115(3):211[19] GunnarASigurdsson、Gu¨lVarol、XiaolongWang 、AliFarhadi、 Ivan Laptev 和 Abhinav Gupta 。 好 莱 坞 之家:众包数据收集活动的理解.欧洲计算机视觉会议,第510-526页。施普林格,2016年。[20] Karen Simonyan和Andrew Zisserman双流卷积网络用于视频中的动作识别。在Advances in neural informationprocessing systems,第568[21] Khurram Soomro、Amir Roshan Zamir和Mubarak Shah。Ucf101:来自野外视频的101个人类动作类的数据集arXiv预印本arXiv:1212.0402,2012。[22] Swathikiran Sudhakaran和Oswald Lanz。注意力是我们所需要的:确定以物体为中心的注意力,以进行自我中心活动识别。在BMVC,2018年。[23] Lin Sun,Kui Jia,Dit-Yan Yeung,and Bertram E Shi.使用因子化时空卷积网络的人类动作识别在IEEE计算机视觉国际会议论文集,第4597-4605页[24] 孙树阳,邝章辉,卢胜,欧阳万里,张伟。光流引导功能:一种用于视频动作识别的快速鲁棒运动表示方法。在IEEE计算机视觉和模式识别会议(CVPR),2018年6月。[25] Du Tran 、 Lubomir Bourdev 、 Rob Fergus 、 LorenzoTorresani和Manohar Paluri。用3d卷积网络学习时空特征。在Proceedings of the IEEE international conferenceon computer vision,pages 4489[26] Du Tran,Heng Wang,Lorenzo Torresani,Jamie Ray,Y
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功