视频图形表示与图卷积网络：节省计算资源，高效视频理解

181 浏览量更新于2023-12-01 收藏 1.21MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文GraphVid：只需要几个节点就能理解一个视频EitanKosman[0000−0002−5538−0616]和Dotan Di CastroBosch Center of AI，Haifa，以色列{Eitan.Kosman，Dotan.DiCastro}@ bosch.com抽象的。我们提出了一种简洁的视频表示，将感知有意义的特征编码到图中。通过这种表示，我们的目标是利用视频中的大量冗余并节省计算。首先，我们通过将超像素视为图形节点来构建基于超像素的视频图形表示然后，我们利用图卷积网络来处理这种表示并预测所需的输出。因此，我们能够用更少的参数训练模型，这意味着训练周期短，计算资源需求减少在公开数据集Kinetics-400和Charades上进行的综合实验研究它将计算要求降低了10倍，同时获得了与最先进方法相当的结果。我们相信，所提出的方法是一个有前途的方向，可以打开大门，解决视频理解更有效地和使更多的资源有限的用户在这个研究领域蓬勃发展。1介绍由于视频的日益普及，视频理解领域已经变得突出在每个新上传的视频上，可以执行各种任务，例如标记[18]，人类行为识别[37]，异常检测[46]等。新的视频处理算法正在不断开发，以通过完美地完成上述任务来自动组织网络。如今，深度神经网络是视频理解的事实上的标准[35]。然而，每次向训练集添加新元素（即，完整的训练视频），都需要更多的资源来满足巨大的计算需求。一方面，数据量的指数级增长引起了人们对我们未来处理数据能力的担忧。另一方面，它也激发了一个高度创造性的研究领域，旨在寻找减轻这一负担的方法在第一代视频处理方法中，由于其计算效率，采用2D卷积神经网络（CNN）的方法[43]。其他人将3D卷积[14，56]分解为更简单的运算符，或者将复杂的神经网络拆分为轻量级网络的集合[9]。然而，视频理解从那时起已经有了很大的发展，arXiv：2207.01375v2 [cs.CV] 2022年7+v：mala2255获取更多论文2E. Kosman和D. Di Castro[2019 - 04 - 15][2019 - 04 - 15][2019 - 04 - 15] 除了准确性之外，最新一代方法的一个突出优势是它们处理原始数据，即不经过任何高级预处理的视频帧。与此同时，追求新的视频表示并结合预先计算的特征来加速训练是一个有前途的方向，需要更广泛的研究。(a) 原始图像（b）平均超像素图1：像素和平均超像素表示之间的视觉比较。左边是原始图像。在右边，我们展示了通过使用SLIC生成超像素区域并使用其平均颜色填充每个区域而在深度学习复兴之前[29]，人们对视觉特征生成进行了大量研究两种突出的视觉特征生成方法是超像素1和光流2。这些技术超像素提供了一种方便、紧凑的图像表示，对于计算要求很高的问题非常有用，而光流提供了关于运动的提示。我们依赖于这些方法来构建一种新的视频表示，该视频表示对视频理解的足够信息进行编码：1）相邻像素以超像素的形式被分组在一起，以及2）时间关系和邻近度通过图连通性来表达。图1中描绘的示例提供了对用于场景理解的超像素表示它包含通过SLIC[2]获得的超像素区域，每个区域都填充有平均颜色。人们可以清楚地分辨出在两个图像中弹吉他的人描述超像素之间关系的另一种方式是用节点表示超像素的图[33，11，5]。这种表示具有对旋转和翻转不变的优点，这表明需要进一步增强。我们在这里演示了这种表示如何减少处理视频的计算要求。近年来，图形神经网络（GNN）的使用激增。[26] 在涉及图像[33，11，5]、音频[12，61]和其他数据形式[54，55，1]的任务中。在本文中，我们提出了GraphVid，这是一种简洁的视频图形表示，可以通过GNN进行视频处理。GraphVid构建视频的图形表示1超像素技术通过考虑使用感知特征定义的相似性度量将图像分割成区域。2光流是由于物体或摄像机的运动而导致的图像中物体在两个连续帧之间的明显运动的模式。+v：mala2255获取更多论文GraphVid：只需几个节点就能理解视频3随后通过GCN进行处理以预测目标。我们打算利用图形的力量进行有效的视频处理。据我们所知，我们是第一个利用基于图形的视频表示来提高效率的公司。GraphVid戏剧性地减少了模型的内存占用，使大批量能够转换为更好的泛化。此外，它利用了一个数量级的参数比当前的国家的最先进的模型，同时保持预测能力的模型。概括而言，我们的贡献是：1. 我们提出GraphVid-一个简单直观，但足够的视频剪辑表示这种简单性对于提供效率至关重要。2. 我们提出了一个专用的GNN来处理所提出的表示。提出的架构与传统的GNN模型进行了比较，以demonstrate的GraphVid的每个组件的重要性。3. 我们提出了4种直接应用于视频图表示的新增强方法。一个彻底的烧蚀研究，他们的配置，以证明各自的贡献。4. 我们进行了彻底的实验研究，并表明GraphVid在效率方面大大优于以前的方法-首先，本文利用GNN进行有效的视频理解。我们表明，它成功地减少了计算，同时保留了最先进的方法，利用计算要求高的模型的性能。2相关工作2.1深度学习视频理解CNN在视频处理中有许多应用[32，49，59]。这些包括基于LSTM的网络，其执行每帧编码[44，50，59]和2D卷积到时间维度的扩展，例如，，3D CNN，如C3D [48]，R2D [43]和R（2+1）D [49]。Transformer模型[51]的成功导致了视觉任务的基于注意力的模型的发展，通过用于对图像中的空间依赖性建模的自我注意力模块NLNet[53]是第一个在CNN中使用自我关注的网络。有了这种新的注意力机制，NLNet可以对像素之间的长距离依赖性进行下一个要开发的模型是GCNet[7]，它简化了NL模块，因为它需要更少的参数和计算，同时保持其性能。从CNN到Transformers的一个更突出的转变是Vision Transformer（ViT）[13]，这促使了旨在提高其在小数据集上的有效性的研究，例如Deit [47]。后来，视觉转换器被改编为视频任务[34，4，6，15，30，31]，现在被加冕为当前最先进的技术，在该领域的排行榜上名列前茅。图表示在视频理解中的使用稀疏地发生在Wang的工作中[54]。他们使用预先训练的Resnet变体[22]在每个帧上生成感兴趣的对象边界框这些边界框稍后用于构建时空图，该图描述对象如何通过+v：mala2255获取更多论文4 E. Kosman和D. Di Castro时间，并使用图卷积神经网络在时空图的顶部执行分类[26]。然而，我们注意到，使用一个大的主干来生成对象边界框对性能是有害的。我们打算通过提出一个更轻的图形表示来减轻这一点。结合专用的GNN架构，我们的表示在所有指标上都大大优于[54]2.2视觉数据超像素是一组感知相似的像素，可用于创建视觉上有意义的实体，同时大大减少后续处理步骤的基元数量[45]。所获得的表示的效率导致了许多图像超像素生成算法的发展[45]。这种方法通过构建超体素[36]适用于体积数据，超体素是对深度的平凡扩展。这些方法通过将时间维度视为深度来调整以用于视频[57]然而，这导致性能下降，因为关于3D空间中的相邻点的固有假设不适用于具有不可忽略运动的视频。最近专门设计用于处理视频的方法Xu等人。[58]提出了一种基于分层图的分割方法。这是其次是工作的张等人。[8]，他建议时间超像素（TSP）可以通过使用双边高斯过程对帧之间的流进行建模来使用时间超像素来表示视频。2.3图卷积神经网络在[26]中介绍，图卷积网络（GCN）已被广泛用于图相关任务[60，28]。基本的GCN使用聚合器，例如平均和求和，以获得给定其邻居的节点表示。这种基本形式被迅速扩展到更复杂的架构，具有更复杂的聚合器。例如，图注意力网络[52]使用基于点积的注意力来计算边的权重关系GCN[41]通过考虑多种边缘类型（即关系（如时间和空间关系））以及通过单层中的单独权重聚合每个关系的信息来添加到该框架最近，GCN已被用于涉及音频[12，61]和图像[33，11，5]的任务。在图模型成功地有效地执行基于图像的任务之后，我们渴望展示我们将图像图表示扩展到视频。3GraphVid-一种视频图形表示在本节中，我们将介绍GraphVid的方法。首先，我们提出了我们的视频图形表示生成的方法，如图2所示，并在算法1中描述。然后，我们提出了利用这种表示的训练方法。最后，我们讨论了GraphVid的好处，并提出了几个增强。+v：mala2255获取更多论文∈∈∈∈R {}G G V ERV{|∈∈}EEEE∈∈不Qi、jEE EQpQpGraphVid：只需几个节点就能理解视频5图2：GraphVid的流程。给定一个视频片段，我们使用SLIC为每个帧生成超像素。超像素被用来构造帧的区域邻接图，其中超像素作为节点。然后，图序列通过时间邻近度连接以构建动态图，该动态图随后被馈送到GNN中进行预测。3.1概述在我们的框架中，我们处理的视频剪辑是T个视频帧vRT×C×H×W的序列。我们的目标是将v转换为一个图，它对进一步处理有足够的信息。为了实现这一点，我们使用SLIC [2]在每帧上生成S分割区域，称为超像素。我们将每个分割区域表示为Rt，i，其中t[T]表示时间帧索引，并且i[S]表示超像素分割区域索引。以下是我们如何利用超像素来构建我们的视频图形表示的描述。图形元素-我们定义无向图作为3元组 =（，，），其中=R t，it[T]，i[S]是表示分割区域的节点的集合，是标记的边的集合（将在下文中定义），并且=空间的，时间的[41]这是一组关系，如[41]中定义的。每个节点R t，i与一个属性相关联Rt，i.cR3表示该分割区域中的平均RGB颜色。另外，我们将Rt，i.y和Rt，i.x称为超像素的质心的坐标，我们使用该坐标来计算超像素之间的距离。这些距离（稍后将用作图的边属性）的计算方法如下：t→t. .R t，i.y − Rt，j.y <$2H. R t，i.x − R t，j.x <$2W这里，t，q，t，p[T]表示帧索引，并且i，j[S]表示针对对应帧生成的超像素索引。边缘集合由以下各项组成：1）帧内边缘（表示为空间边缘）-对应于同一帧中的超像素的节点之间的边缘。我们将这些称为空间边缘。2）帧间边缘（表示为时间）- 对应于两个连续帧中的超像素的节点之间的边缘我们将边缘称为时间边缘。最后，完整的边缘集=空间时间。下面是我们如何构建这两个组件的描述。空间边缘-与[5]类似，我们为每个帧生成区域邻接图，边缘属性描述超像素质心之间的距离。符号E空间是指连接对应于以下的节点的空间边的集合：DP=+.（一）+v：mala2255获取更多论文i、j∈Ni、jS时间t=1不i、jt=1时间t→t+16 E. Kosman和D. Di Castro，并且E空间=STE空间。每个边e tE空间是与描述帧t中的两个超像素质心i和j之间的欧几里德距离（即，dt→t）的属性相关联。这些距离提供关于超像素之间的关系的此外，距离对于旋转和图像翻转是不变的，这消除了对这些增强的需要请注意，需要对超像素的质心坐标进行归一化在图3中，我们演示了裁剪图像的空间边缘生成过程，该过程导致整个图像的部分图形。每个超像素与节点相关联，该节点经由边缘连接到其他相邻节点（其中超像素的质心之间的距离图3：空间边缘生成。首先，生成超像素每个超像素被表示为节点，该节点经由其边缘连接到帧内的其他这样的节点每个节点被分配相应分割区域的平均颜色，并且每个边缘被分配由该边缘连接的超像素质心之间的距离。时间边缘-在建模时间关系时，我们的目标是连接倾向于描述后续帧中相同对象的节点。为此，我们依赖于这样的假设：在随后的帧中，这样的超像素被赋予相似的颜色和相同的空间接近度。为了实现这一点，对于每个超像素Rt，i，我们构建包含来自其后续帧的超像素的邻域t，i，所述超像素的质心相对于欧几里得距离具有至多d接近度（0，1]的然后，我们找到这个邻域中颜色最相似的超像素作为结果，第t帧与对时间模型化的边缘集合E与其后续框架的关系，正式：t→t+1Nt，i ={Rt+1，j |dt→t+1

下载后可阅读完整内容，剩余1页未读，立即下载