野外环境下的视听主动说话人检测技术设计及优化

131 浏览量更新于2023-10-14 收藏 1.39MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1193如何设计一种用于野外OkanKo¨ pu¨ klu¨1，MajaTaseska2，GerhardRigoll11慕尼黑工业大学2微软公司摘要成功的活动说话者检测需要三阶段流水线：（i）针对剪辑中的所有说话者的视听编码，每个帧内的参考说话者和背景说话者，以及（iii）对参考说话者进行时间建模。该流水线的每个阶段对于所创建的架构的最终性能都起着重要基于一系列的控制实验，这项工作提出了一些实用的视听主动说话人检测的指导方针相应地，我们提出了一种新的架构，称为ASDNet，它实现了一个新的国家的最先进的AVA-ActiveSpeaker数据集的mAP为93.5%，超过形成第二个最好的4.7%的大利润率。我们的代码和预训练模型是公开的1。1. 介绍音频和视频模态的融合已被证明为长期存在的挑战性问题提供了有前途的解决方案其中包括说话人日记[16]，生物识别[7]和动作识别[15，38]。与其他任务类似，视听主动说话者检测（AV-ASD）也在文献中被长期研究[9，10]。这个问题的一个特别具有挑战性的味道是AV-ASD在野外，其中语音被检测到，并分配给一个可能的多个活跃的发言者在每个时刻的时间。显然，融合来自音频和视频模态的互补的区别性信息是至关重要的：仅视觉方法很容易被其他面部/嘴部运动（诸如进食、打哈欠或情绪表达）所误认为仅音频方法虽然能够执行源聚类和分离[18，46]，但这对于在声学不利条件下的单个麦克风输入尤其具有挑战性，通常在实践中遇到。1https://github.com/okankop/ASDNet图1.视听有源扬声器检测流水线。任务是确定帧t处的参考说话者是在说话还是不在说话。流水线从剪辑中的每个扬声器的视听编码开始。其次，在每个帧内应用说话人间关系建模。最后，时间建模用于捕获自然会话中的长期关系。示例来自AVA-ActiveSpeaker数据集[42]。最近，AVA-ActiveSpeaker数据集[42]提供了第一个大规模的标准基准，用于在野外进行视听最近的研究[1，32]表明，在野外主动说话人检测需要(i) 为每个发言者整合视听信息(ii) 捕获说话者间关系的上下文信息，以及（iii）利用自然对话中的长期关系的时间建模。在本文中，我们将1194巩固这三个阶段的流水线音频视觉扬声器检测，如图2所示。1，并详细研究每个阶段的重要性。捐款. 我们提出了一种新的三阶段流水线在野外视听主动扬声器检测。我们的架构名为ASDNet，在AVA-ActiveSpeaker数据集上设置了一个新的最先进的结果，具有93.5%的mAP，并以4.7% mAP的大幅度超过了第二好的方法[32]（第4.5节）。作为ASDNet的一部分，我们建议(1) 用于视听编码器的音频和视频主干的架构（第3.2节），其(2) 一个简单而有效的说话者间关系建模机制（第3.3节）;(3) 此外，我们还提供了详细的消融研究和调整ASDNet所有组件的该研究包括与上述两个新组件的最新技术水平的比较，以及对用于时间建模的各种递归神经网络（RNN）架构的评估（第4.2节）。2. 相关工作我们提出了两个部分的相关工作：（i）在各种应用中的视听特征提取，和（ii）contribu-tions，解决主动说话人检测在野外和它的挑战。2.1. 音视频特征提取音频. 在不同应用中的语音和音频研究中提取特征的常见方法是使用卷积神经网络（CNN）和RNN，其中log-Mel或短时傅里叶变换（STFT）频谱图作为输入[13]。这些固定变换的流行是由于它们在传统语音和音频处理中的成功以及它们从第一原理提取相关信息的事实。此外，频谱图的图像状配置允许采用从计算机视觉应用中众所周知的网络架构特别地，在AV-ASD中，这允许使用类似的音频和视频骨干架构[1，32]。基于将CNN解释为数据驱动的滤波器库，研究人员已将CNN直接应用于音频波形，以捕获手头任务的判别信息[12，30]。在AV-ASD的上下文中的这种方法已经用于[2]中的音频骨干然而，这些方法需要更多的数据和计算资源，利用频谱图。为了从两个世界中充分利用最好的东西，研究人员已经提出了可学习但受约束的原始音频数据转换。例子包括用于音乐标记的Harmonic CNN和SincNet架构在[41]中提出。后者成功地用于几个音频应用[27，33，36]。据我们所知，这种有前途的架构视频. 仅使用视频模态的主动说话人检测可以被视为动作识别任务。在CNN之前，动作识别研究主要是手工制作的特征[28，29，49]，结合Fisher Vector表示[39]或Bag-of-Features 直方图[8]。自从AlexNet [26]赢得ImageNet Challenge [43]以来，手工制作的特征大多被放弃，转而支持CNN提取的特征。这种趋势也扩展到视频分析任务，包括动作识别。最初，由于缺乏大规模视频数据集，动作识别的架构可以从非常大的ImageNet数据集上的预训练中受益[11]。第一种直观的方法是将视频帧视为2D-CNN的多通道输入[21，45]。其他方法包括用2D-CNN提取帧级特征，然后是空间时间建模机制[23]。随着大规模视频数据集的可用性，如Kinetics [3]，Moments-in-Time [37] 和 Jester [34] ， 2D-CNN 被 3D-CNN取代，以更好地捕获视频帧内的节奏信息和运动模式。3D-CNN架构首先由Ji等人在[20]中提出。从那时起，许多用于视频识别任务的3D-CNN架构随之而来，例如C3 D [47]，I3 D [3]，P3 D [40]，R（2+1）D[48]，SlowFast [14]等。在[17]中，针对几种3D-CNN架构研究了数据集大小对性能的影响。在[24]中，针对视频分类任务分析了流行的资源高效2D-CNN架构在这项工作中，我们探索了用于AV-ASD任务的3D-CNN的变体。融合。所提取的模态特定特征可以在数据级[25]、特征级[35]或决策级[45]进行组合。我们在这项工作中应用的融合可以被认为是特征级融合，因为我们在说话人间关系建模和节奏建模机制之后继续处理融合的特征2.2. 野外主动说话人检测视听活动说话者检测是源分离的特定情况[4，50]，其中音频和视觉信号被联合利用以将语音段分配给其说话者。对于这项任务，初始方法[9，10]使用在受控环境中收集的数据集。随着AVA-ActiveSpeaker数据集[42]的可用性，研究社区能够转向野外的主动说话者检测视听特征提取是用于主动说话者检测的高性能框架中的第一步[1，6，32，42，54]。双主干方法已经建立了它-1195∈LX{}X2L2图2. ASDNet中的三级管道概述自作为一个标准的架构，由于其多功能性[45]。通过良好的视听特征提取和基于RNN的时间建模，[6]中的作者在AVA-ActiveSpeaker数据集上实现了具有竞争力的性能。节奏建模构成了最近的有源扬声器检测流水线[1，6，42，54]的组成部分。经常被忽视的是上下文信息，可以通过建模说话人之间的关系。研究人员最近才提出了利用上下文信息的方法[1，32]。3. 方法从最近的研究中的见解汲取灵感通过为每个组件设计适当的架构，我们能够超越AVA-ActiveSpeaker数据集上的最先进性能3.1. 符号和概述令K表示给定剪辑中的扬声器的总数在时间t处可用于主动说话者检测系统的数据是集合t=Xt，1，Xt，2，. . . Xt，K，xt，其中Xt，kRn×3×dh×dw是对应于第k个说话人的面部裁剪的张量。面部裁剪的高度和宽度由d_h和d_w表示，3是RGB通道，并且η是对中时刻t的连续面部裁剪的数量。向量Xt包含对应于视频输入的持续时间的音频轨道的样本。给定输入数据，目标是产生二进制向量zt，其中如果第k个说话者在时间帧t被检测为说话，则zt[k]= 1，否则zt[k]= 0。将原始数据t映射到预测zt的流水线的高级概述在图1中示出二、接下来，在SEC。在图3.2-3.4中，我们放大三个管道组件的设计节中 3.5中，我们讨论了实现端到端推断的训练策略：从面部裁剪和音频波形，到预测视频剪辑中每个说话者的说话或不说话。图3.视听编码器架构。视觉输入Xt，k和音频输入Xt被馈送到相应的主干以产生特征vt，k和at。级联特征向量vt，k的t被馈送到全连接层，该全连接层产生讲话者k是否在时间t讲话的预测。预测头部在训练之后被移除二、3.2. 视听编码器架构我们的视听编码器如图所示。3.第三章。面部缩略图Xt ， k 的堆叠由n 个帧X t-n ， k ，. . . ，Xt ，k，.. . ，X t+n-1，k，并且音频输入向量Xt的大小由视频帧的数量、视频帧速率和音频信号采样速率确定。编码器通过连接特定于模态的嵌入来产生嵌入向量vt，k=f v（Xt，k;w v），at=fa（xt;wa），（1）其中fv和fa分别是具有可训练参数wv和wa的神经网络级联特征vt，kat被馈送到一个完全连接层以获得最终预测。为了训练视听编码器，我们在预测和地面实况标签之间应用交叉熵损失。为了确保从两个模态中提取一致的判别特征，我们在每个主干之后应用辅助分类网络，遵循先前的工作[1，32，42]。辅助网络也用交叉熵损失来训练最终损失变为L_final= L_av+ L_a+ L_v。训练后完成时，丢弃监督头，并且仅使用视听主干来提取所有说话者和时刻的特征Vt、k和At。虽然所描述的高级架构类似于现有的视听编码器[1，32，42]，但我们的贡献在于接下来讨论的视频和音频骨干的选择和设计。视频主干。嘴部和面部肌肉的运动指示主动说话。因此，为了充分利用可用的视频数据，重要的是准确地对运动模式进行建模。为此，我们提出使用3D-CNN作为视觉编码器函数，与应用2D-CNN的现有技术方法[1，6，32，42，54]相反。作为我们研究的一部分，我们实验了各种资源高效和高性能的3D-CNN。1196联系我们图 4. 使用 Sinc 卷积（ SincConv ）和深度可分离卷积（DSConv）的音频编码器。卷积参数c、k、s分别对应于输出通道数架构[24]，并发现3D-ResNeXt-101是我们的视频骨干网的最佳性能候选者。我们的调查的进一步见解在第4.1节中讨论。音频骨干。对于音频编码主干，大多数现有AV-ASD方法[1，6，32，42，54]从原始信号中提取Mel频率倒谱系数（MFCC），并使用MFCC作为2D-CNN的输入相比之下，我们提出使用经由sinc卷积直接对原始音频信号进行操作的音频骨干架构[41]。以这种方式，系统在现有方法中情况并非如此在sinc卷积之后，我们应用对数压缩，即，y=log（abs（x）+1）。这种非线性在其他原始音频处理任务中也是有效的[27，53]。通过 sinc-convolutions 提取的特征被用作具有Leaky-ReLU非线性的深度可分离卷积（DSConv）块的输入 [52] 。我们的完整音频编码器架构，称为SincDSNet，如图所示。4.第一章提取全局平均池化之后的特征作为音频特征at。在第4.1节中通过实验证明了所提出的原始音频骨干相对于现有的基于特征的骨干的优势。3.3. 说话人间关系建模视听编码器分别提取每个单独扬声器的特征一一扬声器k的特征不包含来自帧中其余扬声器的视觉信息然而，属于背景说话者的特征包含改善系统性能的补充信息，如[1]所示。在本文中，我们提出了一种方法来聚合信息从后面-图5.说话者间关系建模架构。对于时刻t处的参考说话者k，我们通过使背景说话者的级联特征通过一层MLP来提取背景特征bt，k然后将提取的特征连接到参考扬声器视频特征和音频特征。扬声器有效地。考虑在时间t处场景中的参考扬声器k和m个背景扬声器。用于参考说话者的视听编码器的输出是[vt，k，at]。为了从背景说话者中整合信息，我们提出使用单层感知器提取附加特征向量bt ，k，如图所示。五、MLP的输入是在时间t来自所有背景说话者的级联视听嵌入。注意，从系统的角度来看，数量m是固定的：如果在时间t有少于M个背景说话者，则编码器特征用零矢量填充。如果存在多于m个扬声器，则仅随机选择m以这种方式，MLP的输入维度是固定的。最终特征向量[vt，k，at，bt，k]被馈送到时间模型。在第4.2节中提供了所提出的ISRM的实验研究以及与[1]中方法的比较。3.4. 时间建模说话是在时间上连贯的动作：如果一个人在先前或将来的时刻讲话，则很可能该人在当前时刻讲话。这也适用于保持沉默的行动。因此，时间建模是准确的主动说话人检测的关键。我们实验了几种基于RNN的时间建模架构：长短期记忆（LSTM）[19]，门控递归单元（GRU）[5]，简单递归单元（SRU）[31]及其双向版本。对于单向方法，参考系在输入的末端，而对于双向方法，参考系在输入的中心。递归块在参考帧处的隐藏状态向量被馈送到一个完全连接的层以产生二进制输出zt[k]0、1（即活性发言人或不）。在扬声器的特征对于所选时间窗口不可用的情况下在所有的方法中，Bidirectional-GRU的性能最好，成为我们在时间建模阶段的最终选择。3.5. 培训详细信息培训视听编码骨干。我们使用ADAM优化器[22]训练我们的视听编码器1197×个×个×个∈∈∈音频骨干网视频骨干网地图2D-ResNet-182D-ResNet-1879.02D-ResNet-183D-ResNet-1883.9SinDSNet2D-ResNet-1880.8SinDSNet3D-ResNet-1886.1表1.不同音视频骨干网的性能比较。8帧的输入长度用于所有评估。音频骨干参数MFLOPSinDSNet0.15M13.82D-ResNet-1811.2M19.2表2.不同音频主干的复杂度比较70个纪元。批量大小被选择为适合不同主干的单个NVIDIA Titan XP GPU然而，在进行反向传播之前，梯度被累积达到192的有效批量大小。学习率初始化为3 10-4，每30个epoch下降10倍。对于视频输入，我们在训练时应用随机裁剪、随机水平翻转和颜色变换作为数据增强。最后，视频输入被整形为160 - 160的分辨率。音频信号以16kHz采样。3D-CNN在Kinetics上进行预训练[3]，2D-CNN使用ImageNet进行预训练[11]，SincDSNet从头开始训练一旦训练完成，则丢弃预测头部，并且将特征vt 、kR512和atR160用于训练ISRM和时间模型。训练ISRM和时态建模。我们使用ADAM优化器与交叉熵损失来训练ISRM和时态模型。我们训练了10个epoch，批量大小为256。学习率初始化为3 10-6，在第5个epoch时下降10。ISRM中的MLP独立于背景扬声器的数量提取特征bt，kR128对于时间模型，我们使用了两个隐藏状态维度为128的递归层，实验证明这对我们的系统是最佳的。我们的最终架构ASDNet在Py-Torch中实现，并且使用单个NVIDIA Titan Xp GPU执行所有实验。4. 实验数据集。AVA-ActiveSpeaker数据集[42]是第一个在野外收集的视听活动扬声器数据集。它包含262个来自好莱坞电影的15分钟视频，以25-30 fps录制，其中120个用于训练，33个用于验证，109个用于测试。这些视频由365万个人类标记的帧组成，其中对同一说话者的人脸作物被聚合以创建人脸视频骨干参数GFLOP mAP32-f3D-ResNeXt-1013D-ResNet-1848.6M33.2M13.210.388.987.416-F3D-ResNeXt-1013D-ResNet-1848.6M33.2M14.111.288.987.58-F3D-ResNeXt-10148.6M13.286.73D-ResNet-1833.2M10.386.12D-ResNet-1811.2M0.980.83D-MobileNetV1 2.0x13.9M0.681.63D-MobileNetV2 1.0x2.1M0.785.13D-ShuffleNetV1 2.0x4.6M0.785.03D-ShuffleNetV2 2.0x3.9M0.684.2表 3. 不同剪辑长度的视频主干比较音频骨干网采用SincDSNet，人脸裁剪分辨率为160×160。轨道，并且每个面部裁剪用说话或不说话标签来注释这导致具有相应音频信号的38.5小时的面部轨迹视频中说话者的数量是随时间变化的，并且很大一部分面部裁剪的分辨率小于100像素，这使得数据集具有相当大的挑战性。评估指标。我们使用官方的ActivityNet评估工具，计算平均平均精度（mAP）。除非另有说明，否则我们使用AVA-ActiveSpeaker验证集进行评估。4.1. 视听编码器评估在本节中，我们研究了所提出的音频和视频骨干的优点，与在最先进的有源扬声器检测系统中使用的骨干相比。编码器架构是最重要的：AV-ASD流水线的总体性能只能与所提取的特征一样好。对于这些实验，不使用ISRM和时间建模。应使用哪种编码器架构？根据最近的工作[1，6，32，42，54]，我们采用2D-ResNet-18架构作为基线编码器的音频和视频骨干。到视频主干的输入是堆叠的面部裁剪，并且到音频主干的输入是MFCC，对应于八帧的长度。该基线达到79.OmAP，如表1所示。为了证明应用3D卷积核的好处，我们保留了基线音频主干，并将2D-ResNet-18替换为3D-ResNet-18。仅这一变化就带来了超过基线的4.9mAP的改善。改进的实现完全是由于3D卷积核捕捉视频数据中的运动模式的能力。类似地，为了评估SincDSNet作为建议的音频主干的好处，我们保留基线视频-1198电话：+86-021 - 88888888mAP92.6 93.193.4 93.4 93.4 93.3表4.不同数目背景说话人的说话人间关系建模的性能。方法时间模型地图非本地[1]87.2非本地[1]✓92.8ISRM（我们的）89.0ISRM（我们的）✓93.4表5.说话人间关系建模方法比较将“MFCC + 2D-ResNet-18”音频骨干替换该变化带来了超过基线的1.8mAP的改进，这归功于SincDSNet对原始音频数据进行操作的部分可学习重要的是，SincDSNet的参数比2D-ResNet-18少75倍，并且需要更少的浮点运算（FLOPs），如表2所示。最后，我们的视听编码器使用 3D-ResNet-18 和SincDSNet作为主干，实现了超过基线的7.1mAP改进。我们可以使用资源高效的视频编码器吗？人们可以将3D-ResNet- 18主干实现的性能提升归因于其增加的参数和FLOP数量。因此，我们使用了几种资源高效的3D CNN [24]作为视频骨干。我们在表3的底部报告了它们的性能。值得注意的是，所有3D CNN架构都实现了比2D-ResNet更好的性能。18.例如，虽然3D-MobileNetV 2 1.0x包含的参数数量要少得多（约为1.0x）。与2D-ResNet-18 相比，它的FLOP更少，性能提高了约4 mAP我们还尝试了更深入和计算成本更高的 3D-ResNeXt-101架构，以检查性能可以提高多少。当使用8帧输入时，3D-ResNeXt-101示出了相对于3D-ResNet-18的0.6mAP改进。剪辑长度如何影响性能？虽然我们使用8帧剪辑来训练我们的视听骨干，但更长的剪辑将提供更大的时间背景。在表3中，我们比较了性能最佳的3D-ResNeXt-101和3D-ResNet-18视频主干的8帧、16帧和32帧的剪辑长度。为了保持类似的复杂性，我们删除了8帧输入的初始时间下采样，并插入一个额外的时间下采样到32帧输入的初始卷积层。应用16帧剪辑长度比8帧剪辑背景特征mAP仅参考帧93.49帧的相邻窗口93.5表6.当利用背景扬声器在不同数目的帧处的特征时的性能比较3D-ResNet-18和3D-ResNeXt-101的长度。使用32帧剪辑长度与使用16帧相比，没有显示相同的性能改进。我们怀疑插入额外的时间下采样会阻碍主干捕获运动模式的能力。4.2. 说话人间关系建模评价在本节中，我们研究了所提出的ISRM的性能，并将其与现有的上下文建模方法[1]进行比较。这些实验包括完整的ASDNet流水线（编码器、ISRM和时间模型），其中时间模型（如果存在的话）是序列长度为64的双向GRU。ISRM要使用多少个背景扬声器？我们针对ISRM用不同数量的背景扬声器进行了实验，并且结果报告在表4中。通常，增加背景扬声器特征的数量会ISRM增加了性能由0.8 mAP的情况下，其中只有参考-参考扬声器的功能与时间建模（0背景扬声器的情况下）相比在其余的实验中，我们在ISRM模块中使用三个背景扬声器。我们的ISRM与现有方法相比如何？在表5中，我们提供了我们的ISRM方法与[ 1 ]中提出的NonLocal [51]方法的比较。NonLo- cal捕获剪辑内所有扬声器之间的关系，而我们的ISRM方法捕获的关系之间的扬声器只在参考系。当单独使用时，在视听骨干之后，NonLocal和我们的 ISRM 方法都没有带来显着的性能改善（NonLocal甚至降低了性能）。然而，ISRM贡献额外的0.8 mAP相比，仅使用时间建模的系统。ISRM能从相邻帧中获益吗？在ISRM中，我们不必仅在参考系中使用背景扬声器相对于参考帧的相邻帧因此，我们在9帧的相邻窗口处使用了背景说话者对于本文的其余部分，我们在ISRM处使用9个相邻帧。1199方法序列长度mAP#发言人音频ISRM时间地图表7.时态建模方法的性能比较表9.每个组件对最终性能的贡献表8. 使用不同序列双向情报组的训练时间编码器ISRM和地图4.3. 时态建模评估哪种RNN架构最适合？表7示出了用于时间建模的不同RNN块的性能比较。所有单向方法将32帧特征作为输入，并且最后的输出用作最终fc层的输入（参考帧被放置到输入序列的最后）。对于双向方法，我们使用64帧特征作为输入，并且中心输出用作最终fc层的输入（参考帧被放置在输入序列的中心）。与其双向版本相比，单向方法的性能约为0.7 更糟。在所有方法中，双向GRU实现了最佳性能。输入序列的长度应该是多少？我们已经用不同的序列长度进行了实验，并在表8中报告了结果。通常，使用较大的序列长度不会损害最终性能。然而，在序列长度64之后，性能收敛到93.5mAP。(a)（b）第（1）款图6.还应用了在时间建模和ISRM之后针对每个说话者的说话概率的网络预测（a），仅在视听编码之后（b）说话和不说话类的地面真值分别用绿色和红色直角表示。表10.编码器剪辑长度对最终性能的影响。SincDSNet和3D-ResNeXt-101分别用于音频和视频主干。4.4. 分量分析各组成部分对性能的贡献如何我们在表9中研究了每种组分对最终性能的贡献。我们强调几个发现：（i）在没有ISRM和时间建模的情况下，合适的主干单独实现88.9mAP，这优于任何其他现有技术的方法;（ii）当ISRM和时间建模单独应用时，它们分别将性能提高0.7mAP和3.7mAP，这表明了流水线中两个阶段的重要性;（iii）在表9的第6和7行中，我们通过在不使用参考发言者视频特征的情况下评估性能来研究ISRM阶段的重要性。因此，即使不看参考扬声器这表明ISRM是我们管道中不可缺少的一部分;（iv）当ISRM和时态建模一起应用时，我们的架构以93.5mAP实现最佳性能。时间建模和ISRM阶段的贡献在图中直观地示出。六、在图1中，仅使用视听编码，独立地分析每个说话者，并且在没有上下文和长期时间信息的情况下进行说话概率的预测。第6（a）段。在应用时间建模和ISRM阶段之后，ASDNet对不说话的说话者的说话概率的预测下降并且说话者增加，如图所示。第6（b）段。Seq. 长度地图8 16 32 64 12892.0 92.893.393.5双向GRU6493.5视频Feat.壮举.壮举.建模双向LSTM6493.41✓78.8双向SRU6493.22✓49.3GRU3292.83✓ ✓88.9LSTM3292.74✓ ✓92.6SRU3292.75✓ ✓89.66✓✓64.57✓✓✓67.88 ✓✓✓✓93.5剪辑长度时间建模8帧✗86.716帧✗88.98帧✓93.416帧✓93.51200∞方法mAP方法面数表12.通过每帧上的可见面数进行性能比较。表11.与AVA-ActiveSpeaker数据集上最先进的方法进行比较。mAP结果使用官方评估工具计算，如[42]所述。剪辑长度如何影响性能？如果不应用ISRM和时间建模，增加的编码器剪辑长度（使用3D-ResNeXt-101视频主干的16帧而不是8帧）将性能提高2.2 mAP然而，在完整的流水线中，这种改进反映了最终性能的边际0.1mAP改进，如表10所示。这示出了增加的编码器剪辑长度改变了本可以通过对编码器的时间建模提供的改进。如果复杂度在架构的设计中是重要的，则这可能是不期望的，因为编码器剪辑长度加倍意味着复杂度加倍。ISRM可以放在时态建模之后吗？如果必要，可以改变ISRM和时间建模的顺序，这仅导致0.1mAP性能下降。我们能让整个管道成为因果关系吗？通过将参考帧放置到编码器和时间建模阶段的输入的最后一个位置，可以使完整的流水线成为因果关系;以及通过在ISRM处不使用相邻帧背景扬声器的特征。因此，没有未来信息用于当前帧的活动说话者检测因果流水线达到90.6mAP，这仍然优于任何最先进的方法。4.5. 与最新技术水平的ASDNet与最先进的方法相比如何？我们在表11中比较了ASDNet与几种最先进方法的性能。对于最终的ASDNet，我们在视听编码阶段使用了16帧剪辑，在ISRM阶段使用了3个背景扬声器和9个相邻窗口，并且使用了具有64帧序列的双向GRU。方法面大小S M LASDNet（我们的）74.3 89.8 96.3MAAS [32] 55.2 79.4 93.0ASC [1] 56.2 79.0 92.2基线[42] 44.9 68.3 86.4表13.按面部大小进行性能比较在时间建模阶段的序列长度。ASDNet在验证集上以4.7mAP优于第二好的方法，在AVA-ActiveSpeaker数据集的测试集上以3.9mAP优于第二好的方法。面的数量如何影响性能？人脸数量的增加使得说话人检测任务更具挑战性，对ISRM的性能提出了更高的要求。如表12所示，ASDNet对于所有不同的面数优于所有其他现有技术方法。ASDNet的优越性变得更加显着，随着面孔数量的增加。脸的大小如何影响性能？表13中示出了针对面部大小的性能比较，面部大小针对[0，64）像素被设置为小，针对[64，128）像素被设置为中等，并且针对[128，）像素被设置为大。ASDNet优于所有其他国家的最先进的方法，为所有不同的脸大小。ASDNet的优势对于较小的脸变得更加重要。5. 结论在本文中，我们仔细研究了视听主动说话人检测的任务，并提出了一个三阶段的架构，称为ASDNet。利用所提出的视听编码器和说话者间关系建模机制，ASDNet在AVA-ActiveSpeaker数据集的验证集和测试集上分别以显著的4.7 mAP和3.9 mAP优于先前的最先进技术。为了做出ASDNet的最终设计和超参数选择，我们遵循了精心设计的实验的见解，每个实验都针对系统的特定方面。这些实验中的每一个都在论文中进行了讨论。我们相信，这些见解可以是有用的其他复杂的视听任务，以及需要上下文和时间建模。验证集ASDNet（我们的）93.5因果ASDNet（我们的）90.6MAAS-TAN [32] 88.8Chung等人[6] 87.8ASC [1] 87.1Zhang等人[54] 84.0Sharma等人[44] 82.0Roth等人[42] 79.2测试集ASDNet（我们的）91.7Chung等人[6] 87.8美国标准学会[1] 86.7Zhang等人[54] 83.5Roth等人[42] 82.1123ASDNet（我们的）95.792.483.7MAAS [32]93.385.868.2美国空军[1]91.883.867.6基线[42]87.971.654.41201引用[1] JuanLe o'nAlc a'zar， FabianCaba ， LongMai ， FedericoPerazzi，Joon-YoungLee，PabloArbela'ez，andBernardGhanem.在上下文中积极发言。在IEEE/CVF计算机视觉和模式识别会议论文集，第12465-12474页，2020年。一二三四五六八[2] I.阿里亚夫和我科恩使用波网编码器和残差网络的端到端多模式语音活动检测。IEEE Journal of Selected Topicsin Signal Processing，13（2）：265-274，2019。二个[3] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在IEEE计算机视觉和模式识别会议的论文集，第6299-6308页，2017年。二、五[4] Punarjay Chakravarty，Sayeh Mirzaei，Tinne Tuytelaars和Hugo Van hamme。你是谁？视频中活动说话者的音频监督分类。在2015年ACM关于多模式交互的国际会议的会议记录中，第87-90页，2015年。二个[5] KyunghyunCho，BartVanMerrieenboer，DzmitryBahdanau，and Yoshua Bengio.关于神经机器翻译的特性：编码器-解码器方法。arXiv预印本arXiv：1409.1259，2014。四个[6] 郑俊善 Naver在activitynet挑战赛2019-任务B主动扬声器检测（ ava ）。 arXiv 预印本 arXiv ： 1906.10555 ，2019。二三四五八[7] Joon Son Chung ， Arsha Nagrani ， Andrew Zisserman.Voxceleb2：深度说话人识别。Proc. Interspeech 2018，第1086-1090页，2018年。一个[8] Gabriella Csurka，Christopher Dance，Lixin Fan，JuttaWillam o wski，andCe´dricBra y. 可视化的关键点包的猫进化在计算机视觉统计学习研讨会上，ECCV，第1卷，第1布拉格，2004年。2[9] 罗斯·卡特勒和拉里·戴维斯看看谁在说话：使用视频和音频相关的说话人检测。2000年IEEE国际多媒体会议暨博览会。ICME2000。诉讼多媒体快速变化世界的最新进展（Cat. No. 00 TH 8532），第3卷，第1589-1592页。IEEE，2000年。一、二[10] 特雷弗·达雷尔约翰·W·费舍尔和保罗·维奥拉。视听分割与鸡尾酒会效应。在国际多模式接口会议上，第32Springer，2000年。一、二[11] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。二、五[12] Sander Dieleman和Benjamin Schrauwen。音乐音频的端到端学习。2014年IEEE声学、语音和信号处理国际会议（ICASSP），第6964-6968页。IEEE，2014。二个[13] Ariel Ephrat，Inbar Mosseri，Oran Lang，Tali Dekel，Kevin Wilson，Avinatan Hassidim，William T. Freeman和Michael Rubinstein。在鸡尾酒会上聆听：一种用于语音分离的与说话人无关的视听模型。ACM事务处理图表，2018年7月。二个[14] Christoph Feichtenhofer ， Haoqi Fan ， Jitendra Malik ，and Kaiming He. 用于视频识别的慢速网络。在IEEE/CVF计算机视觉国际会议论文集，第6202-6211页，2019年。二个[15] Ruohan Gao ， Tae-Hyun Oh ， Kristen Grauman ， andLorenzo Torresani.听听看：通过预览音频识别动作。在IEEE/CVF计算机视觉和模式识别会议论文集，第10457-10467页一个[16] Israel D Gebru，Sileye Ba，Xiaofei Li，and Radu Horaud.基于时空贝叶斯融合的视听说话人日志化。IEEETransactionsonPatternAnalysisandMachineIntelligence，40（5）：1086-1099，2017。一个[17] 原贤章片冈广胜佐藤丰时空3d cnns能回溯2d cnns和imagenet的历史在IEEE计算机视觉和模式识别会议论文集，第6546-6555页二个[18] John R Hershey，Zhuo Chen，Jonathan Le Roux，andShinji Watanabe.深度集群：用于分割和分离的判别嵌入。在2016年IEEE声学、语音和信号处理国际会议，第31-35页。IEEE，2016. 一个[19] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算，9（8）：1735-1780，1997。四个[20] 水忘机、魏旭、明阳、开宇。用于人体动作识别的三维IEEE Transactions on Pattern Analysis and MachineIntelligence，35（1）：221-231，2012. 二个[21] Andrej Karpathy ， George Toderici ， Sanketh Shetty ，Thomas Leung，Rahul Sukthankar，and Li Fei-Fei.使用卷积神经网络进行大规模在IEEE计算机视觉和模式识别会议的论文集，第1725-1732页，2014年。二个[22] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。四个[23] OkanK？ p？ kl？u？，FabianHerzog，andGerhardRigoll.基于cnn的视频时空推理比较分析。arXiv预印本arXiv：1909.05165，2019。二个[24] Okan Kopuklu ， Neslihan Kose ， Ahmet Gunduz ， andGerhard Rigoll. 资源高效的 3d 卷积神经网络。在IEEE/CVF计算机视觉研讨会国际会议论文集，第0-0页，2019年。二、四、六[25] Okan Kopuklu、Neslihan Kose和Gerhard Rigoll。运动融合帧：用于手势识别的数据级融合策略。在IEEE计算机视觉和模式识别研讨会会议集，第2103-2111页二个[26] Alex Krizhevsky，Ilya

下载后可阅读完整内容，剩余1页未读，立即下载