SPELL：长时空图学习主动说话人检测

5 浏览量更新于2023-12-01 收藏 2.52MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文学习长时时空图的主动说话人检测Kyle Min1分，Sourya Roy2分，Subarna Tripathi1分，Tanaya Guha3分，Somdeb Majumdar1分1英特尔实验室，2加州大学河滨分校，3格拉斯哥大学{kyle.min，subarna.tripathi，somdeb.majumdar} @ intel.com抽象的。多说话人视频中的主动说话人检测（ASD）是一项具有挑战性的任务，因为它需要在长时间窗口上学习有效的视听特征和时空相关性。在本文中，我们提出了SPELL，一种新的时空图学习框架，可以解决复杂的任务，如ASD。为此，视频帧中的每个人首先被编码在该帧的唯一节点跨帧的与单个人对应的节点被连接以对它们的时间动态进行编码帧内的节点也被连接以编码人际关系。因此，SPELL将ASD简化为节点分类任务。重要的是，SPELL能够在所有节点的长时间上下文上进行推理，而不依赖于计算昂贵的全连接图神经网络。通过在AVA-ActiveSpeaker数据集上的大量实验，我们证明了基于图的学习表示由于其明确的空间和时间结构，可以显著提高主动SPELL优于所有以前的国家的最先进的方法，同时需要显着降低内存和计算资源。我们的代码是公开的：https://github.com/SRA2/SPELL1介绍尽管最近在其他几个领域取得了突破，但野外的整体场景理解仍然是计算机视觉的一个挑战。一个场景代表了跨越复杂的视觉和听觉信息的真实生活事件，这些信息通常是交织在一起的。主动说话人检测（ASD）是场景理解中的一个关键组成部分，并且是一个固有的多模态（视听）任务。这里的目标是，给定视频输入，识别每个帧中哪些人在说话这有许多实际应用，从语音增强系统[1]到人机交互[33，32]。早期的ASD研究由于无法获得大型数据集、强大的学习模型或计算资源而取得了有限的成功[7，8，9]。随着AVA-ActiveSpeaker[28]的发布，一个大型且多样化的ASD数据集，一个数量-已经开发出了许多有前途的方法，包括纯视觉作者贡献相等†在英特尔实验室arXiv：2207.07783v2 [cs.CV] 2022年7+v：mala2255获取更多论文2K. Min等图1.一、 SPELL将视频从视听输入数据转换为规范图，其中每个节点对应于帧中的一个人，并且边表示节点之间的空间或时间交互。所构造的图足够密集以用于通过在时间上遥远但相关的节点上传递消息来对长期依赖性进行建模，但足够稀疏以在低存储器和计算预算内进行处理主动说话人检测（ASD）的任务是作为一个二元节点分类在这个长距离的时空图。和视听方法。由于仅视觉方法[8]无法区分语言和非语言嘴唇运动，最近的方法集中在视听信息的联合建模视听方法[2，39，35，19，18]通过首先对视频中的视觉（主要是面部）和音频特征进行编码，然后对融合的多模态特征进行分类来解决该任务这种模型通常具有多阶段框架[2，19，39，18]，并显示出良好的检测性能。然而，现有技术的方法依赖于复杂的架构来处理具有高计算和存储器开销的视听特征例如，TalkNet[35]建议使用Transformer风格的架构[36]来对来自视听输入的跨模态信息进行建模。ASDNet[18]是领先的最先进的方法，使用复杂的3D卷积神经网络（CNN）来提取更强大的特征。这些方法是不可扩展的，并且可能不适合于具有有限的存储器和计算预算的现实世界的情况。在本文中，我们提出了一个有效的基于图的框架，我们称之为SPELL（空间Temporl图L学习）。图1展示了我们框架的概述。我们从视听数据中构建一个多模态图，并将主动说话人检测作为一个图节点分类任务。首先，我们创建一个图，其中每个节点对应于每个帧中的每个人，边缘表示它们之间的空间或时间关系。初始节点特征是使用简单且轻量级的2D CNN而不是复杂的3D CNN或Transformer构建的。接下来，我们执行二进制节点类-+v：mala2255获取更多论文SPELL用于活动扬声器检测3通过学习每个具有少量参数的三层图神经网络（GNN）模型，可以在该图上识别在我们的框架中，图是专门为编码不同的面部身份之间的空间和时间的依赖关系。因此，GNN可以利用这种图结构并对语音中的时间连续性进行建模以及长期的时空上下文，同时需要低的存储器和计算。虽然所提出的图结构可以从视听特征中建模长期的时空信息，但是在特征编码的过程中可能会丢失一些短期信息。这是因为我们使用的2D CNN与Transformer或3D CNN相比不太适合处理时空信息。为了对短期信息进行编码，我们采用了TSM[20]-一种2D CNN的通用模块，能够在不引入任何额外参数或计算的情况下对时间信息进行我们的经验验证，SPELL可以受益于补充TSM提供的短期信息和我们的图结构建模的长期信息。我们通过在AVA-ActiveSpeaker数据集上进行广泛的实验来证明SPELL的有效性[28]。使用我们的时空图形框架上的TSM启发的特征编码器，SPELL优于所有以前的国家的最先进的方法。关键是，与ASDNet[18]（13.2 GFLOPs，48.6M参数）相比，SPELL需要更少的硬件资源用于视觉特征编码（0.7 GFLOPs，11.2M #Params），这是领先的最先进的方法。此外，SPELL在AVA中获得第二名ActivityNet 20221的ActiveSpeaker挑战，也展示了有效的我们的方法的有效性（请参阅技术报告[23]）。本文的主要贡献有三点：• 我们提出了一种基于图的方法来解决长时间支持的主动说话人检测任务，将其转换为节点分类问题。• 我们的模型SPELL从视频中学习，对短期和长期的时空信息进行建模。具体来说，我们建议构造图的TSM启发的视听功能。这些图足够密集，可以在时间上遥远的节点之间传递消息，但又足够稀疏，可以在严格的内存和计算约束条件下对它们的交互进行建模。• 在主动说话人检测基准数据集AVA-ActiveSpeaker上，SPELL以较低的内存和计算复杂度显著优于现有方法2相关工作我们讨论了两个相关领域的相关工作：GNNs在视频场景理解和主动说话人检测中的应用。1https://research.google.com/ava/challenge.html+v：mala2255获取更多论文4公里。Min等GNN用于场景理解。CNN、长短期记忆（LSTM）及其变体长期以来一直主导着视频理解领域。近年来，两种新的模型在视觉信息处理的许多领域越来越受欢迎：变形金刚[36]和GNN。它们不一定与以前的模型竞争，但已经证明它们可以增强基于CNN/LSTM的模型的性能。特定GNN模型在视频理解中的应用包括视觉关系预测[22]、对话建模[11]、视频检索[34]、情感识别[30]和动作检测[40]。还提出了基于GNN的通用视频表示框架[3，24，26]，可用于多个下游任务。例如，在Arnab等人[3]中，以滑动窗口的方式在视频帧的前景节点上构建全连接图，并且前景节点连接到其相邻帧的其他上下文节点。在完全连接的时空图上传递的消息在计算时间和存储器方面是昂贵的。因此，在实践中，这种模型最终使用一个小的滑动窗口，使他们无法处理更长的时间-术语序列。SPELL也对前台节点进行操作-特别是面。然而，图结构不是完全连接的。我们构建了图使得它仅在空间上的相关节点之间实现交互，时间该图保持足够稀疏，使得长期上下文可以可以容纳在相对较小的存储器和计算预算内。主动扬声器检测（ASD）。Cutler等人[7]关于主动说话者检测的早期工作使用时间延迟神经网络检测相关的视听信号。随后的工作仅依赖于视觉信息，并考虑更简单的设置，专注于嘴唇和面部表情[8]。最近，高性能ASD模型依赖于大型网络-开发用于捕获视听信号的时空变化，通常依赖于集成网络或复杂的3D CNN特征[2，35]。 Sharma等人[29]Zhang etal.[38]两者都使用大型3D CNN架构进行视听学习。Active Speaker in Context（ASC）模型[2]使用带有LSTM的非本地注意力模块来模拟由双流ResNet-18网络编码的音频和视觉特征之间的时间交互。TalkNet[35]通过使用3D CNN和几个变压器[36]实现了卓越的性能，从而产生了一个有效的大型模型。另一个最近的工作，ASDNet[18]，使用3D-ResNet 101编码视觉数据和SincNet[27]音频。统一上下文网络（UniCon）[39]提出了基于卷积层的关系上下文模块来捕获视觉（空间）和视听上下文。多这些进步的原因是AVA-ActiveSpeaker数据集的可用性[28]。以前可用的多模态数据集（例如[4]）要么较小，要么受到约束，要么缺乏数据的可变性。Roth等人的工作。[28]还介绍了一个具有竞争力的基线以及大型数据集。他们的基线涉及共同学习端到端可训练的视听模型。该模型中的音频和视觉分支是基于CNN的，它使用深度可分离技术。+v：mala2255获取更多论文VVVSPELL用于活动扬声器检测5MAAS[19]提出了一种不同的多模态图方法。我们的工作在几个方面与MAAS不同，主要区别在于对时间上下文的处理虽然MAAS专注于短期时间窗口来构建其图形，但我们专注于构建长期视听图形。更具体地，在MAAS中，不同的面仅在连续帧之间连接。相比之下，SPELL直接连接由时间阈值超参数τ（在3.2节中定义）控制的长期邻域中的面。此外，SPELL通过使用时域中的所有前向/后向/无向边缘来利用面部轨迹的时间排序模式。在SPELL中，根据节点的数量，每个图可以跨越13到55秒的视频（参见第4.2节）这明显大于MAAS，其中时间窗口大小固定为1.59秒。在推理过程中，SPELL执行单个前向传递，而MAAS执行多个前向传递。3方法在本节中，我们将详细描述我们的方法。图2示出了SPELL如何从输入视频构造图，其中每个节点对应于在视频的时间窗口内的面部。SPELL在从视频构建图形的规范方式方面是独一无二的。该图能够在所有节点的长时间上下文上进行推理，而不是完全连接的。这是减少内存和计算开销的重要设计选择。图中的边仅在消息传递所需的相关节点之间，从而导致可以在小的存储器和计算预算内容纳的稀疏图。在将视频转换为图之后，我们训练了一个轻量级的GNN来对这个图进行二进制节点分类。模型架构如图3所示。该模型使用三个独立的GNN模块分别用于前向图、后向图和无向图。每个模块都有三层，第二层的权重由以上三个模块。更多细节和设计选择背后的直觉在第3.4节中描述。3.1符号设G=（V，E）是一个图，其结点集为V，边集为E.对任意v∈V，我们定义Nv为v在G中的近邻集.我们假设图具有自循环，即，v∈Nv. 此外，令X表示给定节点特征的集合{xv}v∈V，其中xv∈Rd是与节点v相关联的特征向量。给定在这种设置中，我们可以将k层GNN定义为一组函数F={fi}i∈[k]，其中每个fi：V→Rm（m将取决于层索引i）。所有的fi都是由一组可学习的参数参数化。此外，Xi={xv}v∈V是第i层的特征集，其中xv=fi（v）。这里，我们假设fi可以访问图G和最后一层Xi-1的特征集。• SAGE-CONV聚合：这种聚合是由[12]提出的，并且具有计算效率高的形式.给定一个d维特征集Xi−1，+v：mala2255获取更多论文. ΣV. Σ6公里。Min等（b）第（1）款图二. （a）：我们的图构造过程的说明。上面的帧在时间上从左到右排序蓝色、红色和黄色三种颜色表示框架中存在的三种身份。图中的每个节点对应于帧中的每个面SPELL将同一帧中的所有身份间面与无向边连接起来SPELL还通过跨帧的前向/后向/无向边连接相同的身份。在该示例中，相同的标识通过前向边缘跨帧连接，前向边缘被定向并且仅在时间上向前的方向上行进。(b)创建向后图和无向图的过程是相同的，除了在前一种情况下，相同恒等式的边在相反的方向上，而后者没有有向边。每个节点还包含这里未示出的音频信息。对于i≥1，函数fi：V → Rm定义如下：f（v）=σw∈NvMixw其中xw∈Xi−1，Mi∈Rm×d是可学习的线性变换，并且σ：R→R是逐点应用的非线性激活函数• EDGE-CONV聚合：EDGE-CONV [37]通过对与每个节点发出的所有边缘相关联的边缘特征应用通道对称聚合操作，对全局和局部结构进行建模。聚合函数fi：V→Rm可以定义为：fi（v）=σw∈Nv吉岛xvxw其中，n表示级联，gi：R2d→Rm是一个可学习的变换。gi通常由MLP实现。EDGE - CONV的参数数量大于SAGE-CONV。这赋予了EDGE-CONV层更强的表达能力，但代价是更高的复杂性和可能的过拟合风险。对于我们的模型，我们将gi设置为具有两层线性变换和非线性的MLP我们在第4节中描述了细节。（一）+v：mala2255获取更多论文∈∼∈◦| |∈ ×∈SPELL for Active SpeakerDetection 73.2视频作为多模态图我们表示一个视频作为一个多模态图，是适合主动说话人检测的任务我们假设每帧中每个人脸区域的边界框信息是按照问题设置给出的为了简单起见，我们假设整个视频由单个图表示-如果视频中有n个面，则图将有n个节点。在我们的实际实现中，我们对视频中所有人脸的集合进行时间排序，将它们划分为连续的集合，然后为每个这样的集合构建一个图。设B是从输入视频裁剪的所有面部图像的集合（即面部裁剪）。然后，每个元素b B可以由元组（Box，Time，Id）表示，其中Box是面部裁剪在其帧中的归一化边界框坐标，Time是其帧的时间戳，并且Id是共享相同身份的所有面部裁剪所共有的唯一字符串。换句话说，B可以由一组节点[n]表示，其中n=B是视频中出现的人脸总数。Box被视为映射，使得Box（i）由第i个面的边界框坐标定义，i∈[n]。类似地，Time（i）和Id（i）分别对应于第i个面的时间和身份。通过这种设置，G=（V，E）的节点集是V=[n]=B，并且对于任何（i，j）[n] [n]，如果满足以下两个条件之一，则我们有（i，j）E：• Id（i）= Id（j），|时间（i）-时间（j）|≤ τ• 时间（i）=时间（j）其中τ是具有相同身份的节点之间的最大时间差的超参数本质上，我们连接两个节点（面），如果它们共享相同的身份并且在时间上接近，或者如果它们属于同一帧。因此，不同说话者之间的交互和同一说话者的时间变化可以联合建模。为了将主动说话人检测任务视为节点分类问题，我们还需要指定每个节点的特征向量。我们使用如[28，2]中的双流2D ResNet[13]架构来提取每个面部裁剪的视觉特征和每个帧的音频特征。然后，一个特征向量定义为x v=[v_visual] v_audio]，其中v_visual是面部裁剪v的视觉特征，v_audio是v的帧的音频特征，其中表示级联。最后，我们可以写G=（V，E，X），其中X是节点特征的集合。3.3ASD作为节点分类任务在前一节中，我们描述了我们的图构造过程，该过程将视频转换为图G=（V，E，X），其中每个节点都有自己的视听特征向量。在训练过程中，我们可以访问所有面部裁剪的地面实况标签，这些标签指示每个面部裁剪是否是活跃的说话者。因此，主动说话人检测的任务可以很自然地提出+v：mala2255获取更多论文≤| ≤|−≤−≥ − ≥ −八千。Min等图3. 我们提出的双向（A.K.A.）用于主动说话人检测的双方向GNN模型在这里，我们有三个单独的GNN模块，分别用于前向图、后向图和无向图。每个模块有三层，其中第二层的权重由所有三个图模块共享。第二层放置在实线框内以指示重量分担，而第一层和第三层使用虚线。E-CONV和S-CONV分别是EDGE-CONV和SAGE-CONV我们使用颜色编码：蓝色和红色来表示输入帧中的不同身份。第三层的输出被加在一起，然后传递到预测层。它将sigmoid函数应用于每个节点的求和特征，并产生节点分类概率。作为所构造的图G中的二进制节点分类问题，节点是否在说话。具体来说，我们为这个分类任务训练了一个三层GNN。网络中的第一层使用EDGE-CONV聚合来学习节点之间的成对交互。对于最后两个层，我们观察到使用SAGE-CONV聚合提供了比EDGE-CONV更好的性能，这可能是由于EDGE-CONV的过效率倾向.3.4法术我们现在描述我们的图构造和嵌入策略如何考虑时间排序。具体来说，当我们使用标准：Time（i）Time（j）τ来连接跨帧具有相同身份的节点时，结果图变得无向。在这个过程中，我们失去了节点的时间顺序为了解决这个问题，我们解释性地结合时间方向，如图2（b）所示。无向GNN增加了另外两个并行网络;一个用于时间向前，另一个用于时间向后。更准确地说，除了无向图之外，我们还创建了一个前向图，其中我们连接（i，j）当且仅当0Time（i）Time（j）τ。类似地，（i，j）在向后图中连通当且仅当0Time（i）Time（j）τ。这给了我们三个独立的图，每个图都可以模拟节点之间不同的时空关系。此外，每个图的第二层的权重在三个图之间共享。这种权重共享技术可以在+v：mala2255获取更多论文--SPELL for Active SpeakerDetection 9不同的信息建模的三个图，以及减少数量的参数。对于本文的其余部分，我们将把这个网络称为双向或双向图。所提出的三层Bi-dir如图3所示。我们注意到，就在应用Bi-dir之前，音频和视觉特征分别由两个可学习的MLP层（具有ReLU激活的线性变换）进一步编码，然后添加以形成图节点的融合特征。融合后的特征经过第一层和第二层处理后，第三层聚合所有信息并将特征维数降为1。这些来自三个独立图的1D特征被添加并应用于sigmoid函数，以获得每个节点的最终预测得分。3.5特征学习与ASC[2]类似，我们使用双流2D ResNet[13]架构进行视听特征编码。该网络将k个连续的面部裁剪作为视觉输入，并将沿着用于视觉流的面部裁剪的持续时间切片的音频波的Mel谱图作为音频输入虽然2DResNet需要比3D CNN计数器或变压器式架构显著更低的硬件资源[36]，但它并不是专门设计用于处理时空信息，而时空信息对于理解视频内容至关重要。为了更好地编码时空信息，我们使用TSM[20]增强了视觉特征编码器，这为2D CNN提供了对短期时间信息建模的能力，而无需引入任何额外的参数或计算。这种额外的使用TSM可以大大提高质量的视觉功能，我们经验性地建立，SPELL受益于补充的短期信息。来自两个流的视听特征被连接为节点特征xv。数据扩充。可靠的ASD模型应该能够检测到说话信号，即使音频中存在噪声。为了使我们的方法对噪声具有鲁棒性，我们在训练特征提取器时使用数据增强方法。受TalkNet[35]的启发，我们通过负采样来增强音频数据。对于一个批次中的每个音频信号，我们从整个训练数据集中随机选择另一个音频样本，并在将其音量降低一个随机因子后添加它该技术通过从整个训练数据集中选择负样本来有效地增加特征提取器的训练样本量。空间特征。由2D ResNet编码的视觉特征没有关于每个人脸在每个帧中的空间位置的任何信息，因为我们在视觉特征编码中只使用裁剪的人脸区域。在这里，我们认为，扬声器的空间位置可以是另一种类型的归纳偏见。为了利用每个面部裁剪的空间信息，我们将对应于每个面部的空间特征作为附加输入合并到节点特征，如下所示：我们将由归一化的中心位置、高度和宽度（x，y，+v：mala2255获取更多论文××一万。Min等表1. 在AVA-ActiveSpeaker数据集的验证集上与其他最先进方法进行性能比较[28]。我们报告mAP（平均平均精度）。SPELL优于所有以前的方法。3DConv表示附加用途一个或多个3D卷积层。注意，TSM[20]不会增加内存使用量或计算成本。方法特征编码网络mAP（%）Roth等人[28日][第14话]79.2Zhang等人[38个]3D ResNet-18+VGG-M[5]84.0MAAS-LAN[19]2D ResNet-18[1]85.1Chung等人[6]美国VGG-M[5] +3D Conv85.5美国空军[2]2D ResNet-18[1]87.1[19]第十九话2D ResNet-18[1]88.8UniCon[39]2D ResNet-18[1]92.0TalkNet[35]2D ResNet-18/34[13] + 3D Conv92.3ASDNet[18][27]第27话我的世界93.5SPELL（我们的）2D ResNet-18-TSM[13，20]94.2SPELL+（我们的）2D ResNet-50-TSM[13，20]94.9h，w）到使用单个全连接层的64-D特征向量。然后将得到的空间特征向量连接到每个节点处的视觉特征4实验我们在大规模AVA-ActiveSpeaker数据集上进行实验[28]。该数据集源自好莱坞电影，带有许多活跃和不活跃扬声器及其音频信号的面部轨迹。它对面部轨迹的广泛注释是其前身所缺少的关键功能实施细节。继ASC [28]之后，我们利用具有ResNet [13]骨干的双流网络用于视听特征编码器。在训练过程中，我们执行视觉增强，包括水平翻转，颜色抖动和缩放以及音频增强，如第3.5节所述。我们提取每个面部裁剪的编码音频，视觉和空间特征来制作节点特征。对于视觉特征，我们使用11个连续面部裁剪的堆栈（分辨率：144 144）。我们使用PyTorch Geometric库实现SPELL [10]。我们的模型由三个GCN层组成，每个层都有64维过滤器。第一层由使用两层MLP进行特征投影的EDGE-CONV层实现第二和第三GCN层是SAGE-CONV类型，并且它们中的每一个使用单个MLP层。我们将节点数n设置为2000，τ参数设置为0.9，这确保每个图完全跨越每个面部轨迹。我们用批量大小训练SPELL使用Adam optimizer [16]。学习率从5开始10- 3和遵循余弦退火时间表衰减[21]。整个70个epoch的训练过程使用单个GPU（TITAN V）需要不到一个小时。+v：mala2255获取更多论文SPELL用于活动扬声器检测11表2. 上下文推理与最新方法的性能比较。没有TSM的SPELL[20]证明了与其他基于2D CNN的方法相比，方法第1阶段mAP最后地图AmmAPMAAS-LAN[19]79.585.15.6美国空军[2]79.587.17.6[19]第十九话80.288.88.6Unicon[39]84.092.08.0ASDNet[18]88.993.54.6SPELL（我们的）88.094.26.2SPELL（Ours）w/o TSM82.692.09.44.1与最新技术水平的比较我们在表1中总结了SPELL与其他最先进方法在AVA-ActiveSpeaker数据集[28]验证集上的性能比较。我们想指出的是，SPELL显著优于所有以前使用双流2D ResNet-18的方法[13]。至关重要的是，SPELL的视觉特征编码具有显着较低的计算和内存开销（ 0 。 7 GFLOPs和 11.2M参数）与ASDNet[18]（13.2 GFLOPs，48.6M #Params）相比，这是领先的最先进的方法。一个并行且密切相关的工作MAAS[19]也使用基于GNN的框架。MAAS-LAN使用在短视频剪辑上生成的图形。为了提高检测性能，MAAS-TAN对MAAS-LAN进行了扩展，将时间上的图连接起来，使得13个时间上相连的图的跨度约为1.59秒。这个时间跨度比SPELL相对短，因为SPELL图跨度约为13- 15秒。55秒，如下一节所述。此外，SPELL要求当MAAS为每个推理过程执行多个前向传递时，单个前向传递。4.2情境推理能力大多数以前的方法都有多阶段的框架，其中包括一个特征编码阶段的视听特征提取，其次是一个或多个上下文推理阶段的建模长期的相互作用和上下文信息。例如，SPELL具有单个上下文推理阶段，其使用三层双向GNN来建模长期时空信息。在表2中，我们比较了上下文推理阶段与以前方法的性能。具体来说，我们分析的检测性能时，只使用的特征编码阶段（阶段1 mAP）和最终的性能。这两个分数之间的差异可以提供对上下文推理模块的能力的很好的洞察由于ASDNet[18]使用3D CNN，因此很可能在特征编码阶段已经包含了一定程度的时间上下文，这导致了较低的上下文推理性能。西姆-+v：mala2255获取更多论文一万二。Min等表3. 上下文推理阶段的复杂性比较。SPELL实现了最佳性能，同时需要最低的内存和计算消耗。方法#参数（M）大小（MB）mAP（%）美国空军[2]1.134.3287.1[19]第十九话0.160.6388.8ASDNet[18]2.569.7793.5SPELL（我们的）0.110.4594.2类似地，使用TSM[20]在特征编码阶段提供了短期上下文信息，这导致阶段1和最终mAP之间的分数差较小因此，我们还估计了没有TSM的SPELL的性能。在这种情况下，SPELL的上下文推理性能优于所有其他方法，这表明我们的方法具有更高的上下文推理能力，这要归功于长期的上下文建模。请注意，尽管ASC[2]、 MAAS[19]、 Uni-con[39]和SPELL使用相同的2D ResNet-18[13]，但由于输入分辨率、面裁剪数量和训练方案的不一致性，它们的第1阶段mAP可能不同。长期的时间背景。请注意，SPELL中的τ（在我们的实验中= 0.9秒）对时间上遥远的节点之间的直接连通性施加了额外的连续时间戳上的人脸身份总是相连的。下面是SPELL的有效时间上下文大小的估计。AVA-ActiveSpeaker数据集包含3个。6500万帧和5. 300万张带注释的脸，结果是1。每帧45个面。平均1。每帧45个面，具有按排序的时间顺序的500到2000个面的图跨越345到1379帧，其对应于25 fps视频的13到55秒。换句话说，图中的节点可能具有大约1分钟，SPELL能够在有限的内存和计算预算内对长期时间窗口进行推理，这要归功于所提出的图结构的有效性。值得注意的是，MAAS [19]中的时间窗口大小为1。9秒，TalkNet[35]使用长达4秒作为长期序列级时间上下文。4.3上下文推理阶段在表3中，我们比较了SPELL与ASC [2]，MAAS-TAN [19]和ASDNet [18]的上下文推理阶段的复杂性。这些方法发布了它们模型的源代码，因此我们使用官方代码来计算上下文推理阶段的参数数量和模型大小ASC的参数和模型大小比我们的多10倍然而，SPELL达到了7。比ASC高1%。SPELL的参数数量比MAAS-TAN少，即使达到5。4%的mAP。与领先的最先进的方法ASDNet相比，SPELL的计算效率高出一个数量级。+v：mala2255获取更多论文SPELL用于活动扬声器检测13表4. 不同消融设置的性能比较：TSM [20]、Cx-原因（仅使用无向图进行上下文推理）、Bi-dir（使用正向/反向图进行增强）、Audio-aug（音频数据增强）、Sp-feat（空间特征）。TSMCX-原因比迪尔Audio-augSp-featmAP（%）-----80.2---✓-82.6✓--✓-88.0✓✓-✓-92.4✓✓✓✓-93.9✓✓✓✓✓94.2(a)（b）第（1）款见图4。研究两个超参数的影响，即τ（当n设置为2000时）和n（当τ固定为0.9时）。4.4消融研究我们进行了一项消融研究，以验证各个组件的贡献，即TSM，Cx-原因（上下文推理只有一个无向图），Bi-dir（增强上下文推理的前向/后向图），音频-aug（音频数据增强），和Sp-feat（空间特征）。我们在表4中总结了主要贡献。我们可以观察到TSM，双向图结构和音频数据增强在提高检测性能方面发挥了重要作用。这意味着1）在特征编码阶段保留短期信息是重要的，2）使用我们的图结构处理时空信息是有效的，3）负采样音频使我们的模型对噪声更具鲁棒性。此外，空间特征也带来了有意义的性能增益。此外，我们分析了两个超参数的影响：τ（第3.2节）和图嵌入过程中的节点数。τ控制图构造中的连通性或边密度。具体来说，较大的τ值允许我们对较长的时间相关性进行建模，但会增加节点的平均度，从而使系统的计算成本更+v：mala2255获取更多论文一万四千。Min等表5. 比较不同滤波器维数下的检测性能和模型大小。过滤器尺寸#参数（M）大小（MB）mAP（%）160.020.1093.5320.050.2193.9640.110.4594.21280.291.1494.12560.883.3894.1在图4中，我们可以观察到连接太远的面部裁剪会降低检测性能。这背后的一个潜在原因可能是，由于高度的连接性，聚合过程变得过于平滑有趣的是，我们还发现更多的节点并不总是带来更高的性能。这可能是因为在某个点之后，大量的节点会导致过度拟合。我们进行了额外的实验与不同的过滤器尺寸的边缘-CONV和SAGE-CONV。在表5中，我们显示了检测性能和模型大小如何我们可以观察到，当模型大小显著增加时，将滤波器维度增加到64以上不会带来任何性能增益。我们还对输入模态进行了消融研究。当仅使用视觉特征时，检测性能从94.2%显著下降到84.9% mAP（当仅使用音频时：55.6%），这表明音频和视频模态对于该应用都很重要。4.5定性分析在补充材料中，我们展示了几个检测实例，以提供定性分析。选定的帧具有多个面，并且具有约5-10秒的长时间跨度。在所有提供的例子中，拼写正确地分类所有发言者时，对方未能做到这一点。定性分析表明，SPELL是有效的，它是良好的时空长期信息建模。5结论我们提出了SPELL -一种有效的基于图的方法来检测视频中的其主要思想是捕捉长期的空间和时间之间的关系，通过一个图形结构，知道的时间顺序的面孔裁剪。SPELL优于所有以前的方法，并需要显着更少的硬件资源相比，领先的国家的最先进的方法。我们提出的模型也是通用的-它可以用于解决其他视频理解任务，如动作定位和音频源定位。+v：mala2255获取更多论文SPELL用于活动扬声器检测15引用1. Afouras，T.，Chung，J.S.，Zisserman，A.：对话：深度视听语音增强。arXiv预印本arXiv：1804.04121（2018）2. Alcazar，J.L.，海尔布隆足球俱乐部马伊湖，Perazzi，F.，Lee，J.Y.，Arbelaez，P.，Ghanem，B.：语境中的活跃发言人。In：Proc. IEEE Conf.Comput.目视图案不规则。第12465-12474页3. Arnab，A.，孙角，澳-地Schmid，C.：视频理解的统一图结构模型. arXiv预印本arXiv：2103.15662（2021）4. Chakravarty，P.，Tuytelaars，T.：跨模态监督用于学习视频中的主动说话人检测。ArXivabs/1603.08907（2016）5. Chatfield，K.，Simonyan，K.，Vedaldi，A.，Zisserman，A.：中的魔鬼回归细节：深入研究卷积网络。在：英国机器视觉会议论文集。BMVAPress（2014）6. 钟俊升：Naver参加Activitynet Challenge 2019-任务B主动扬声器检测（AVA）。CoRRabs/1906.10555（2019），http://arxiv.org/abs/1906.105557. 卡特勒河，戴维斯，L.：看看谁2000年IEEE International Conference onMultimedia and Expo。ICME 2000。诉讼快速变化的多媒体世界的最新进展（目录号00TH8532）。第3卷，第1589-1592. IEEE（2000年）8. Everingham，M.，Sivic，J.，Zisserman，A.：你好啊！你好！我叫... buffy在：BMVC.卷2，p.第六届会议（2006年）9. Everingham，M.，Sivic，J.，Zisserman，A.：从电视视频中的角色自动命名中吸取教训。图像和视觉计算27，54510. Fey，M.，Lenssen，J.E.：用pytorch geometric进行快速图形表示学习在： ICLR 图形和流形表示学习研讨会（ 2019 ），http://arxiv.org/abs/1903.0242811. 耿，S.，Gao，P.，Hori，C.，Le Roux，J.，Cherian，A.：用于视频对话的时空场景ArXiv电子打印页。ArXiv12. 汉密尔顿，W.，Ying，Z.，Leskovec，J.：大图上的归纳表示学习。神经信息处理系统的进展30（2017）13. 他，K.，张，X.，Ren，S.，Sun，J.：深度残差学习用于图像识别。在：IEEE计算机视觉和模式识别会议论文集。pp. 77014. 霍华德，A.G.，Zhu，M.，陈伯，Kalenichenko，D.，王伟，Weyand，T.，安德里托，M.，亚当，H.：Mobilenets：用于移动视觉应用的高效卷积神经网络。arXiv预印本arXiv：1704.04861（2017）15. Ioffe，S.，Szegedy，C.：批量归一化：通过减少内部协变量偏移来加速深度网络训练。arXiv预印本arXiv：1502.03167（2015）16. 金玛，D.P.，Ba，J.：Adam：一种随机优化方法ArXiv预印本arXiv：1412.6980（2014）17. 科普克卢岛，Kose，N.，Gunduz，A.，Rigoll，G.：资源高效的3d卷积神经网络。在：IEEE/CVF计算机视觉研讨会国际会议论文集。pp. 018. KüopuükluüO.，M，你是K，Rigoll，G.：如何设计一个三阶段架构的视听主动说话人检测在野外。In：Proc.计算机视觉内部会议（2021年6月）19. Leon-Alcazar ， J. ，海尔布隆足球俱乐部 Thabet ， A. ， Ghanem ， B. ：MAAS：用于主动说话人检测的多模态Asynchronous。在：计算机视觉内部会议（2021）+v：mala2255获取更多论文一万六。Min等20. Lin，J.，Gan，C.，Han，S.：时间移位模块，用于高效的视频理解.IEEE/CVF计算机视觉国际会议论文集。pp. 708321. 洛希洛夫岛哈特，F.：Sgdr：带热重启的随机梯度下降。国际学习表征会议（ International Conference on Learning Representations ， ICLR ）（2017）22. Mi，L.，Ou，Y.，Chen，Z.：视频中的视觉关系预测。arXiv预印本arXiv：2107.01181（2021）23. Min，K.，罗伊，S.，Tripathi，S.，Guha，T.，Majumdar，S.：英特尔实验室参加Activitynet Challenge 2022：Spell for long term active speakerdetection（2022）24. Nagarajan，T.，李，Y.，Feichtenhofer，C.，格劳曼，K.：自我拓扑：来自自我中心视频的环境启示。IEEE/CVF计算机视觉和模式识别会议论文集。pp. 16325. Nair，V.，Hinton，G. E.：修正线性单元改进了受限玻尔兹曼机。第27届机器学习国际会议（ICML-10）论文集。pp. 80726. Patrick，M.，浅野，Y.M.，黄，B.，米斯拉岛，Metze，F.，Hen

下载后可阅读完整内容，剩余1页未读，立即下载