多模态分配下的主动说话人检测

96 浏览量更新于2023-10-14 收藏 1.22MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

265MAAS：用于主动说话人检测的多模态分配Juan Le o'n Alc a'zar1，Fabian Caba Heilbron2，Ali K.Thabet1 Bernard Ghanem11阿卜杜拉国王科技大学（KAUST），2Adobe Researchjc. uniandes.edu.co，caba@adobe.com，ali. kaust.edu.sa，bernard. kaust.edu.sa摘要主动说话人检测需要多模态线索的有意识的整合。目前的方法集中在建模和融合的短期视听功能，为个别发言者，往往在帧级。我们提出了一种新的方法a）个体分析b）整体分配涉及直接解决问题的多模态性质并提供直接策略的活动说话者检测，其中场景中的独立视觉特征（说话者）被分配给先前检测到？语音事件？语音事件语音事件演讲事件我们的实验表明，一个小的图形数据结构，从本地信息可以近似的瞬时视听分配问题。此外，该初始图的时间扩展在AVA-ActiveSpeaker数据集上实现了新的最先进性能，mAP为88.8%。1. 介绍主动说话人检测的目的是从任意视频中的一组候选人脸检测中识别当前说话人（如果有的话）。这个研究问题是一个固有的多模态任务，需要微妙的面部运动模式和语音的特征波形的整合。尽管它的多种应用，如扬声器diarization [3，44，46，48]，人机交互-动作[16，58]和生物度量[34，40]，在野外的活动扬声器的检测仍然是一个开放的问题。用于主动说话者检测的当前方法基于递归神经网络[41，43]或3D卷积模型[1，6，60]。他们的主要重点是联合建模的音频和视频流，以最大限度地提高性能的单扬声器预测短序列。这种方法适合于单个扬声器场景，但是对于一般（多扬声器）情况过于简化一般（多扬声器）场景具有两个主要挑战。首先，多个说话者的存在允许不正确的面部-语音分配。例如，当面部姿势与说话时观察到的运动模式非常相似时，就会出现错误的肯定（例如，当面部姿势与说话时观察到的运动模式非常相似时）。笑，咧嘴笑）。第二，它必须对多模态数据强制执行时间一致性，这些数据会随着时间快速演变，例如当活动扬声器在流畅的对话期间切换时在本文中，我们解决了一般的多扬声器问题-图1. 用于活动说话者检测的视听分配。主动说话人检测是高度模糊的。即使我们分析联合视听信息，不相关的面部姿势也可以很容易地类似于说话时嘴唇的自然运动在a）中，我们示出了来自序列的两个面部裁剪，其中检测到语音事件。手势、照明和捕获角度使得难以评估哪个面部（如果有的话）是活动的说话者。我们的策略b）集中于视频中的语音片段的归属如果检测到语音事件，我们会全面分析每个说话者以及音轨，以发现最有可能的活跃说话者。以有原则的方式。我们的关键见解是，而不是优化活动扬声器预测在个别audiovisual嵌入，我们可以共同建模的一组视觉表示，从每个扬声器在场景中，随着一个单一的音频表示提取的共享audio轨道。虽然简单，这种修改允许我们映射到一个分配问题，其目标是匹配多个视觉表示与单例音频嵌入的主动扬声器检测任务。图1说明了主动说话者检测中的一些挑战，并为我们的方法提供我们的方法被称为在这个框架中，我们定义的积极发言人的本地视觉表示与最高的亲和力的音频嵌入。我们的实证研究结果强调，改革-拉托问题成一个多模态分配问题带来了相当大的改善，目前国家的最先进的266方法.在AVA Active扬声器基准测试中，MAAS的性能至少比所有其他方法高出1.7%。此外，与分析短时间跨度的方法相比捐款. 本文提出了一种新的主动说话人检测策略，该策略通过跨模态共享信息来显式学习音频和面部手势之间的多模态关系。本文的工作主要有以下几个方面的贡献：（1）提出了一种新的主动说话人检测方法。它明确地将来自多个说话者的视觉特征匹配到场景的共享音频嵌入（第3.2节）。（2）我们经验性地表明，该分配问题可以通过图卷积网络（GCN）来解决，该图卷积网络（GCN）赋予图结构灵活性并且能够实现最先进的结果（第4.1节）。（3）我们提出了一个用于主动说话人检测的新数据集，称为为了确保可重复的结果和促进未来的研究，该项目的所有资源，包括源代码，模型权重，官方基准测试结果和标记的数据将公开。2. 相关工作在多模态学习领域，不同的信息源被融合在一起，目的是建立更有效的表征[36]。在视频域中，常见的多模态范例涉及组合来自视觉和音频特征的表示[4，8，22，33，34，37，49]。这种表示允许探索新的方法来解决已经建立的问题，例如人的重新识别[33，25，55]，视听同步[1，25]，以及其他问题。9，10]，说话人日记[44，48，59]，生物计量学[34，40]，和视听源分离[4，22，37，41，49]。主动说话者检测是视听源分离的一个特殊实例，其中源是视频中的人，目标是检测语音片段并将其分配给这些源之一[41]。活动扬声器检测。卡特勒等人的工作。[12]在21世纪初开创了主动说话者检测的研究。它通过延时神经网络检测相关的视听信号[47]。后续工作[14，42]仅依赖于视觉信息接近任务，严格关注面部姿势的演变这种仅视觉建模是可能的，因为它们解决了单个候选发言者的问题的简化版本。最近的工作[5，10]已经接近更一般的多说话者场景，并且依赖于融合来自个体说话者的多模态信息一项平行的工作集中在视听功能对齐上，这导致了依赖于音频作为主要功能的方法监督源[4]，或者作为联合训练深度视听嵌入的替代[8，10，35，45]。Roth等人的工作。[41]介绍了AVA-ActiveSpeaker数据集和基准测试，这是用于主动说话者检测任务的第一个大规模视频数据集。在 2019 年的 AVA-ActiveSpeaker挑战赛中，Chung等人[6]提出了他们先前工作[10]的改进架构，该架构训练大型3D模型，需要大规模视听预训练[35]。Zhang等人[60]还利用了具有大规模预训练的混合3D-2D架构[10，11]。该方法在使用 [18]一种对比的损失。后续工作集中在对面部轨迹上的注意力过程进行建模，其中注意力是从音频对齐[1]或从扬声器特征的集合[2]估计的。我们以更有原则的方式处理主动说话者问题，因为我们超越了来自多个说话者的上下文信息的聚合，并且提出了一种明确地寻求对共享音频嵌入与视频中的所有潜在说话者的对应关系进行建模的方法。用于活动说话者检测的数据集。除了 AVA-ActiveSpeaker基准测试的开发之外，很少有针对此问题的公共数据集。最知名的替代方案是哥伦比亚数据集[5]，其中包含来自小组讨论的87分钟标记语音。它比AVA小得多，也不那么多样化现代视听数据集[35，10，7]已适用于一些主动扬声器方法的大规模预训练[6]。然而，这些数据集是为相关任务设计的，在本文中，我们提出了Talkies数据集作为一个新的基准，从社会媒体剪辑收集的主动说话人检测。它包含800，000个手动标记的面部检测，并包括包含多个扬声器、遮挡和屏幕外语音的挑战性场景图卷积网络（GCN）。GCN [27]最近受到欢迎，因为对非欧几里得数据的兴趣更大。在计算机视觉中，GCN已成功应用于场景图生成[23，32，39，53，57]，3D理解[17，30，50，52]和视频中的动作识别[21，54，56]。在MAAS中，我们设计了一个类似DeepGCN的架构[28，29，31]，它解决了一个特殊的场景，即视听数据的多模态性质我们依赖于众所周知的EdgeConv操作器[50]来对跨多个帧识别的图节点的不同模态之间的交互进行建模。这使我们能够在一个单一的图形结构中的多模态关系和时间依赖性建模。3. 多模态主动说话人分配我们的方法基于一个简单的想法。而不是评估个人视听267×× ×--联系我们a）视听特征编码b）多模态图网络c) 本地语音分配d) 时间分配Vj， 1Vj， 2VjVj，3Vk，3Vj，2Vk，2Vj，1Vk，1一一静态流帧j帧k图2. MAAS管道概述。a）：我们的方法从采样独立的音频和视频特征开始。视频特征（青色）是从属于单个人的面部裁剪的堆叠中提取的。音频特征（黄色）从音频频谱图中提取，并在帧级共享b）：我们创建了两个特征图：一个具有静态连接，该静态连接对音轨和可见人物之间的局部时间关系进行建模;同时，我们允许网络中的次级流在给定估计的特征嵌入的情况下发现关系c）：我们估计视觉节点与本地音频节点之间的帧级亲和度，使得活动说话者将具有与音频节点的最高亲和度d）：最后，我们通过对更长的时间窗口进行建模来扩展网络我们共同优化本地的亲和力，同时执行时间一致性。我们选择活跃的说话者（绿色边界框）作为最有可能产生语音事件序列的说话者。模式属于活跃的说话者，我们直接对本地音频与场景中存在的所有个体的面部姿势之间的对应关系进行建模。这种方法的动机是由活跃的扬声器问题的性质，首先确定是否存在任何语音模式，然后将这些模式的属性到一个单一的扬声器。总的来说，我们的方法同时解决了三个子任务。首先，我们检测语音事件在一个短期的tempo- ral窗口。其次，我们在单个帧中迭代所有可见的第三，我们沿着时间维度扩展这种帧级分析，利用视频数据固有的时间一致性来提高帧级预测。图2说明了我们的MAAS方法的概述。3.1. 帧级视频功能根据最近的工作[41，60]，我们从双流卷积编码器中提取初始帧级特征。视觉流将维度的张量 Hw（3c）作为输入，其中H和W是图像宽度和高度，并且c是从单个轨迹片段采样的时间连续面部裁剪的数量。类似于[41]，我们将原始音频波形转换为Mel频谱图，并将其用作音频流的输入。我们的方法依赖于独立的音频和视频功能。为了获得这些独立的特征（并与最先进的技术进行公平的比较），我们训练了一个联合模型，如[41]所述，但在推理时放弃了最后两层这些层负责特征融合和最终预测。在时间t，我们的特征编码器的前向传递产生具有N个可能的说话者（检测到的人）的帧的N + 1个特征向量。一个共享音频嵌入（at）和N个独立视觉描述符vt=v t，0，v t，1，… vt，n−1，N个可见人各一个（见图2-a）。我们将（st）定义为时间t处的局部特征集，使得st= atvt。特征集st用于优化MAAS（本地分配网络）中的基本图形结构，如下面所述3.2. 本地分配网络（LAN）我们通过在特征集ST上生成有向图来建模局部分配问题。我们的局部图包括一个音频节点和一个视频节点的每个潜在的发言者。我们创建一个双向连接之间的音频节点和每个视觉节点，从而利用GCN，从ST生成的有向图上操作。图3（左）示出了该图结构。我们称这种图结构为本地分配图，并且在其上操作的GCN为本地分配网络（LAN）。LAN的目标有两个方面：（i）检测本地语音事件，（ii）如果存在语音事件，则从候选集合中指定最可能的说话者。我们通过对局域网中的每个节点进行全面的监控来实现这两个目标。视觉节点由对应说话者的地面实况（ground- truth）l_tv监督。另一方面，每个音频节点接收指示是否存在至少一个活动说话者的二进制地面实况标签。I.E. max（{1 t，0，1 t，1，… lt，n-1}）;否则，存在静默。a我Vj，1X一个jVj，2XVj，3一个k语音事件a我一一Vj，3Vk，3Vj，2Vk，2Vj，1一动态流一Vk，1Vk，2Vk，268--×个本地分配图（LAN）a0级V0.2V0.1V0，0本地发言人分配a0级的时间分配图（TAN）a2a3一V0.2V1、2V3.2V3.2V4.2V0.1V1，1V2.1V3.1V4.1V0，0V1.0V2.0V3.0V4.0临时活动扬声器分配（扬声器1）无活动扬声器分配图3. 分配图。MAAS的基本静态图由多模态节点、视觉节点（青色）和音频节点（黄色）组成。局部分配图（左）定义各个要素的帧级连接。时间分配图（右）由多个局部图（图中的5个）组成，并定义了帧级关系的时间扩展（我们用浅灰色描绘局部关系以避免视觉混乱）。而局部图解决了瞬时分配问题。时间图优化节点的子集，从而将时间信息并入各个局部图中。LAN的任务是在帧级（即帧的长度）发现活动的说话者。t是固定的）。3.3. 时态分配网络虽然局域网是有效的，在寻找本地correspons-dences之间的音频模式和可见的面孔，它的模型信息采样从短视频剪辑（ST）。这种采样策略可能导致来自噪声或模糊的局部估计的不准确的预测（例如，音频噪声、模糊的面部、模糊的面部姿势等）。因此，我们扩展我们提出的方法，包括从相邻帧的时间信息。我们通过在以时间t为中心的时间窗口（w）上采样st来扩展LAN中的局部图。w=[i，i +1，…t，...j]，并定义时间特征集bw=[si，si+1，… st，... sj]。根据3.2中列出的LAN结构，我们可以从bw中构建（j i）个独立的局部图结构（每个时间步长一个）。我们增加这组独立的图形，通过添加时间的链接之间的时间相邻的帧级功能的表示我们遵循两条规则来建立这些连接：我们在时间相邻的音频节点之间创建时间连接，并且我们在时间相邻的视频节点之间创建时间连接，只要它们属于同一个人。不建立额外的跨模态连接。我们将得到的图称为时间分配图，其允许时间相邻的音频和视频特征之间的信息流，从而允许音频和视频模态的时间一致性图3（右）示出了该图结构。我们建立一个GCN的扩展图拓扑结构，并称之为时间分配网络（TAN）。TAN允许我们直接将语音片段识别为音频节点上的连续正预测。同样，它检测活动的语音段连续预测相同的扬声器视频功能。3.4. 动态流全局预测最后，我们考虑到潜在的连接模式，超越了我们最初的见解。我们增强了我们的架构，并定义了第二个流，它将对与静态流（包括多个时间戳）相同的数据进行操作。然而，我们不为该流定义固定的连接模式。相反，我们的目标是创建一个动态的图形结构的基础上，在特征空间中的节点分布。在该流中，我们允许GCN通过计算每个节点的特征空间中的K个最近邻居，并通过基于这些相邻节点建立边缘来估计任意图形结构在实践中，我们复制静态流，放弃静态图的定义，并使用边缘卷积的动态版本[50]，允许在每一层进行独立的动态图估计。最终的预测是通过缓慢融合实现的[24，54]。在每个GCN层，我们将来自动态层的特征集与来自静态层的特征集最终的预测是通过使用共享的全连接层和softmax激活每个节点来实现的。该架构如图4所示。3.5. 培训和实施详情在[41]之后，我们基于在ImageNet [13]上预训练的ResNet-18架构[19]实现了一个双流特征编码器。我们在第一层执行相同的修改，以适应扩展的输入张量（面部裁剪和频谱图的堆栈）。我们使用Pytorch库[38]使用ADAM优化器[26]使用交叉熵损失训练网络端到端100个epoch。我们使用3 10−4作为初始学习率，它随着γ = 0的接近而降低。1在时期40和80。我们根据经验设置c=11，并通过随机翻转和角落裁剪来增强输入视频。与其他方法不同，MAAS不需要任何大规模的视听预训练。我们还将[2]提出的采样策略纳入训练-269×个L L→→时间图4. MAAS中的GCN架构。我们的图神经网络实现了一个两个流架构。第一流（顶部）使用边缘卷积算子并在静态局部和时间图上操作。第二流（底部）依赖于动态边缘卷积，并且借助于缓慢融合来补充由静态流发现的特征在每个GCN层之后，我们融合来自动态和静态流的特征，并将其用作下一层的输入。以减轻过度拟合。在训练期间，我们遵循[41]概述的监督策略，其中采用两个额外的辅助损失函数（a，v）来监督音频和视频流的最后一层。这有利于从两个流中估计有用的特征。训练MAAS在优化特征编码器之后，我们使用PyTorch几何库实现了MAAS（LAN和TAN网络）[15]。我们选择边缘卷积[51]来传播节点之间的邻居信息。我们的网络模型在两个流上都包含4个GCN层，每个层都有64维的过滤器。我们应用降维映射功能从原来的512维到64使用一个完全连接的层。我们发现，这种降维有利于最终的性能，并大大降低了计算成本。由于我们处理来自不同模态的数据，因此我们使用两个不同的降维层，一个用于视频特征，另一个用于音频特征。我们使用相同的过程和一组超参数来训练MAAS-LAN和MAAS-TAN网络我们使用亚当优化器，初始学习率为310-4，训练4个epoch。两个GCN都是从随机权重训练的，并使用预激活[20]线性层（批量归一化ReLU线性图层）来映射连接边缘卷积内的节点特征。4. 实验验证在本节中，我们提供了我们提出的MAAS方法的实证分析。我们专注于大规模AVA-ActiveSpeaker数据集[41]，以评估MAAS的性能，并提供Talkies的其他评估结果表1. AVA-ActiveSpeaker的最新技术比较。我们将MAAS与AVA-ActiveSpeaker验证集上的最先进方法进行使用[41]发布的官方评估工具测量结果。我们报告了1.7%的mAP比目前最先进的改进。本节分为三个部分。首先，我们比较MAAS与最先进的技术。然后，我们对我们的建议进行了分析，以分析其所有单独的设计选择。最后，我们在已知的具有挑战性的情况下测试MAAS，以探索常见的故障模式。AVA-ActiveSpeaker数据集。AVA-ActiveSpeaker数据集[41]是第一个用于主动说话者检测的大规模测试平台它由262部好莱坞电影组成：其中120个在训练集上，33个在验证集上，其余109个在测试集上。AVA-ActiveSpeaker数据集包含530万张人脸的标准化边界框，所有这些都是从自动检测中手动策划的。面部检测跨时间手动链接以产生描绘单个身份的面部轨迹（轨迹片段）。每个面部检测被标记为正在说话、正在说话但听不见、或未说话。本文中报告的所有AVA-ActiveSpeaker结果都是使用数据集创建者提供的官方评估工具测量的，该工具使用平均精度（mAP）作为评估的主要指标。4.1. 最新技术水平比较我们开始我们的分析比较MAAS国家的最先进的方法。MAAS-TAN报告的结果是从由13个时间链接的局部图组成的双流模型获得的，其跨度约为1.59秒。我们将动态流中最近邻居的数量设置为K=3，并将视频节点的数量限制为每帧4个。MAAS-LAN报告的结果是从双流模型获得的，该模型包括单个时间戳和4个视频节点。对于具有5个或更多可见扬声器的序列，我们确保一个视频节点包含ConcatConcat共享线性层边转换层动态边转换层边转换层动态边转换层方法地图验证集MAAS-TAN（我们的）88.8Alcazar等[二]《中国日报》87.1Chung等人（时间卷积）[6]85.5Alcazar等（时间语境）[2]85.1Chung等人（LSTM）85.1MAAS-LAN（我们的）85.1Zhang等人[60个]84.0Sharma等人[四十三]82.0Roth等人[41个]79.2测试集[6]第六届全国政协委员88.3Naver Corporation [6]87.8活动扬声器上下文[2]86.7中国科学院大学[60]83.5谷歌基线[41]82.1270网络深度mAP图层mAP中的过滤器动态静止nNighbors mAP1层88.03288.5图图mAP288.52层88.26488.8✓66.5388.83层88.412888.6✓ 87.9488.44层88.825688.1✓ ✓88.8588.45层87.5a) 按网络深度划分的b) 按网络宽度划分的c) 单个流d) 邻居的mAP表2.MAAS中的架构选择。我们消融我们提出的基于GCN的MAAS-TAN网络的设计选择。我们分析了a）中的网络深度，并根据经验发现更深的网络有利于最终结果，但在4层饱和我们还分析了b）中每层的滤波器数量，并发现最佳值为64。从c），我们观察到静态流本身比动态流更有效;然而，后一个流仍然包含补充的信息，从而导致整体改进。在d）中，我们凭经验找到动态流中最合适的邻居数量并将其设置为3。从活动的说话者的特征，并随机采样其余三个。如果不存在活动扬声器，则我们仅随机采样4个扬声器而不替换。在推断时间，我们将扬声器分成4个不重叠的组，并执行多个向前传递。验证集中的结果总结见表1。我们最好的模型MAAS-TAN在AVA-ActiveSpeaker验证集上排名第一。我们强调这些结果的两个方面。首先，在88.8%mAP下，MAAS-TAN比该数据集上报告的最佳结果高至少1.7%。必须注意的是，一些最先进的方法[6，60]依赖于大型3D模型和大规模听觉预训练，而MAAS仅对两个流使用标准的ImageNet初始化。其次，虽然MAAS-LAN网络没有达到最先进的性能，但它优于不依赖于长期时间处理的所有其他方法[41，60]。它还与仅依赖于长期上下文[6，2]的那些方法保持竞争力，仅被[2]的时间版本以0.6%的幅度优于，并且落后于[2]的完整方法（时间上下文和多说话者）2.1%。4.2. 消融分析在评估我们的MAAS方法对国家的最先进的技术的性能后，我们烧蚀我们最好的模型（MAAS-TAN），以验证每个设计选择的个人贡献，即：网络深度，网络宽度，独立流的贡献，和neighh- bors的动态流的数量网络体系结构我们开始通过消融的建议，提出的体系结构。我们探索的影响，改变网络的深度，层的大小，和邻居的数量（K）的动态流。我们还控制每个流的单独贡献。我们在表2中总结了MAAS-TAN网络的消融结果。在2-a）中，我们将网络的深度确定为其性能的相关超参数。浅层网络表现不佳，但随着深度的增加而越来越更深层次的网络有更好的估计使用的能力-完整的特征，并且有机会在大量连接的节点上传播相关特征，而不仅仅是直接的邻居。在2-b）中，我们表明更宽的网络具有有益的效果，但在使用64个或更多个过滤器时会迅速超过该大小，网络不会以额外的网络复杂性为代价而产生在2-c）中，我们展示了MAAS中两个流方法的互补性质。虽然静态流具有最佳的个体性能，但动态流能够找到超出我们用于创建静态图结构的洞察力的关系，从而将最终性能提高了0.9%。最后，2-d）示出了动态流上所选择的簇的数量如何有趣的是，邻居的最佳数量（K=3）与活动说话者问题（具有语音的音频，活动说话者）、（具有语音的音频，无声说话者）和（具有无声的音频，无声说话者）中的有效类别的数量相匹配。图形结构在评估了架构中的设计选择之后，我们继续评估所提出的图形结构。在这里，我们测试的增量添加到一个TAN图，分析N个时间戳的LAN图此外，我们测试在训练时链接到音频节点的视频节点的最大数量。表3总结了这些结果。总体而言，我们注意到，MAAS受益于建模较长的时间序列或建模更明显的扬声器。我们将此解释为我们的建模策略的结果，该策略侧重于分配本地一致的视觉和音频模式，同时保持与建模长期时间序列的主流方法兼容。4.3. 数据集属性我们按照[41]的评估方案继续我们的分析，在表4中，我们根据可能的发言者的数量提供了MAAS结果的细分总的来说，当将MAAS与AVA基线[41]进行比较时，我们看到了显著的性能提高，并且在所有场景中都有改进271×个×× ××× ××个每个LAN视频节点LAN数量123451八十284.384.9八十五1855八十五487岁187岁387岁487岁3986岁。687岁887岁988岁388岁51387岁188岁188岁488.888岁51587岁187岁988岁288岁588岁4表3. MAAS中的图结构我们消融的MAAS-TAN网络的大小，这是我们的方法的核心数据结构。我们凭经验发现同时对多个说话者建模是有益的同样，较长的时间采样有利于性能，但随着序列长于13帧而减弱。MAAS AVA基线面数[41]ASC[2]193.387.991.8285.871.683.8368.254.4 67.6表4. 按面数进行性能评估。我们根据视频帧中可见的人脸数量来评估MAAS。虽然性能随着更多可见的人而降低，但我们的方法优于AVA基线和当前最先进的方法。面部尺寸MAAS AVA基线[41]ASC[2]S55.244.956.2M79.468.379.0长93.086.4 92.2表5. 通过面部尺寸进行性能评价。我们在另一个具有挑战性的场景中评估MAAS：分别覆盖小于128 × 128像素和64 × 64像素的小尺寸和中等尺寸的面部。我们观察到，在大多数情况下，MAAS优于当前最先进的技术。当与[2]的多扬声器堆叠相比时。显然，多说话人的情况下仍然是相当具有挑战性的，但改进突出表明，我们的语音分配为基础的方法是特别有效的，当两个或两个以上的可能的扬声器存在。在表5中，我们提供了根据面裁剪的大小的MAAS结果的细分。我们遵循[ 41 ]的评估程序并创建3组面：（S）表示小于64 × 64像素的脸，（M）表示在64 × 64和128 × 128像素之间的脸，（L）表示大于128 × 128像素的任何脸。虽然MAAS没有明确地解决具体的脸大小，我们观察到一个大的性能差距相比，AVA基线，我们改善了在大多数情况下相比，Alcazar等人的方法。[2]的文件。我们认为这种性能的提高是相关面孔更好预测的结果，即。通常在具有多个其他可见个体的杂乱场景中看到较小的面部，因此我们的方法通过整合来自其他说话者的更可靠的信息来改进对这些较小面部的预测。5. Talkies数据集鉴于野生的活跃说话人数据集的稀缺性Talkies包含从421，997个标记帧中提取的23，507个面部轨迹，这些标记帧总共产生799，446个个体面部检测。相比之下，Columbia数据集[5]约有150，000个面部裁剪，而AVA-ActiveSpeaker [41]约有530万个（验证中有760，000个）。虽然AVA-ActiveSpeaker有大量的个人样本，我们认为Talkies是一个有趣的，互补的基准有三个原因。首先，Talkies更专注于具有挑战性的多扬声器场景，平均每帧有2.3个其次，Talkies不像AVA-ActiveSpeaker（好莱坞电影）那样专注于单一的视频源。因此，Talkies包含更多样化的演员和场景，演员很少在剪辑之间重叠。这与好莱坞电影形成了鲜明的对比最后，屏幕外语音（主动说话者检测的另一个挑战）在好莱坞电影中并不常见有关Talkies的更多详细信息，请参见补充材料。培训MAAS AVA基线[41]ASC[2]AVA79.171.5 77.4AVA增强79.7不适用不适用表6. 在Talkies上的表演我们在Talkies数据集上评估MAAS性能。在没有对Talkies进行任何微调的情况下，MAAS（在AVA-ActiveSpeaker上预先训练）的性能比基线高出7.6%，比最先进的性能高出1.7%。在AVA- ActiveSpeaker训练期间，针对屏幕外语音的简单增强可直接改善Talkies的挑战性场景。现在，我们评估在 AVA-ActiveSpeaker 上训练的MAAS方法到Talkies数据集的可移植性。在这种情况下不执行微调。在表6中，我们将我们的最佳模型（MAAS-TAN）的结果与[41]的AVA基线和[2]的集成模型在我们的新数据集上进行了比较。MAAS分别比这些模型高7.6%和1.7%。这些结果表明，MAAS中提出的核心策略不是特定于领域的，并且可以应用于不同的场景而无需微调。此外，我们探讨了一个有趣的属性的Talkies，即屏幕外的讲话。为此，我们在AVA-ActiveSpeaker上增强MAAS的训练，使得我们用包含语音的轨道随机替换无声音频轨道（其对应的帧不示出任何活动扬声器）这模拟了屏幕外的语音场景。这种人工替换仅在训练期间进行，并且概率为20%。这种增强并不增加训练时的监督量2720.03s0.26s0.5s 0.63s 0.90s地面实况基线Maas选定的动态连接图5. 定性结果。MAAS-TAN包括从特征空间中的最近邻居估计图结构的动态流。这个流中的连接模式非常多样化，并且经常创建静态图中不存在的边。我们发现，这样的连接允许信息流之间的遥远的音频剪辑（洋红色），跨多个时间戳的扬声器之间的关系，和跨模态弧，涉及节点在不同的帧（橙色）。为了便于可视化，我们只显示所有动态连接的子集。对AVA-ActiveSpeaker上的MAAS性能没有经验影响，因为屏幕外语音在好莱坞电影中并不然而，这种增强策略确实在Talkies上带来了0.6%的改进，表明MAAS可能足够灵活，可以处理比AVA-ActiveSpeaker更一般的场景5.1. 定性分析我们的结论是我们的评估MAAS简要地看，ING在连接模式估计的动态流。在图5中，我们示出了来自Talkies数据集的复杂片段，在该片段中，扬声器4是唯一的活动扬声器。事实上，他讲述了这个剪辑的第一帧。这种情况（屏幕外语音）使得基线很难在第一帧上生成准确的预测，从而导致一些假阳性预测（参见扬声器2）。另一方面，MAAS的性能明显更好，减少了误报，并有效地检测到活跃的发言者。根据经验，我们发现该剪辑mAP从64%（基线）增加到97.9%（MAAS）。我们认为这种改善可以由两个因素来解释首先，MAAS为单个扬声器建立更一致的时间关系，因为其图形结构在时间维度上执行一致的分配。第二，动态流允许非常规但有用的连接模式。我们在图5的底行中示出了这些图案中的一些。蓝色部分突出显示了扬声器之间的连接时间戳这些连接不是静态图结构的一部分，并且可以潜在地对面部裁剪之间的语义关系进行编码。在洋红色中，我们突出显示音频到音频连接，这些连接超出了我们最初链接相邻音频剪辑的范围。我们认为这些连接允许音频剪辑之间的长期时间一致性。这种一致性是解决复杂场景的关键，就像所选剪辑中的旁白一样。最后，我们以橙色突出显示不同时间戳的节点的跨模态连接。这些连接也不同于我们的静态图中建模的那些，并且它们反映了MAAS的视听嵌入中的语义相似性。6. 结论我们介绍了MAAS，一种新的多模态分配技术的基础上，图卷积网络，主动说话人检测任务。我们的方法聚焦于直接优化同时检测语音事件并估计最佳源（活动说话者）的图。此外，我们提出了Talkies，一个具有挑战性的场景主动说话人检测，这是一个具有挑战性的转移数据集，为未来的研究，一个新的基准。致谢。这项工作得到了阿卜杜拉国王科技大学（ KAUST ）赞助研究办公室通过视觉计算中心（VCC）资助的支持。音频音频音频扬声器1扬声器2扬声器3扬声器40.0080.0240.0340.0170.0170.0260.0070.5120.0680.2410.0080.0030.0430.5640.0100.0040.0120.1120.0430.1090.480.569273引用[1] Triantafyllos Afouras ， Andrew Owens ， Joon SonChung，and Andrew Zisserman.视频中视听对象的自监督学习arXiv预印本arXiv：2008.04237，2020。一、二[2] Juan Leon Alcazar、Fabian Caba、Long Mai、FedericoPerazzi 、 Joon-Young Lee 、 Pablo Arbelaez 和 BernardGhanem。在上下文中积极发言。在IEEE/CVF计算机视觉和模式识别会议论文集，第12465-12474页，2020年。二四五六七[3] Xavier Anguera 、 Simon Bozonnet 、 Nicholas Evans 、Corinne Fredouille、Gerald Friedland和Oriol Vinyals。说话人分化：近期研究综述IEEE Transactions on Audio，Speech ， and Language Processing ， 20 （ 2 ）： 356-370，2012. 一个[4] Punarjay Chakravarty，Sayeh Mirzaei，Tinne Tuytelaars和Hugo Van hamme。你是谁？视频中活动说话者的音频监督分类。2015年国际多模态交互会议（ICMI）。二个[5] Punarjay Chakravarty，Jeroen Zegers，Tinne Tuytelaars等人。2016年国际多式联运会议（ICMI）。二、七[6] 郑俊善 Naver在activitynet挑战赛2019-任务B主动扬声器检测（ ava ）。 arXiv 预印本 arXiv ： 1906.10555 ，2019。一、二、五、六[7] Joon Son Chung 、 Jaesung Huh 、 Arsha Nagrani 、Triantafyl- los Afouras和Andrew Zisserman。现场对话：在野外演讲。arXiv预印本arXiv：2007.01216，2020。二个[8] Joon Son Chung ， Arsha Nagrani ， Andrew Zisserman.Voxceleb2 ：深度说话人识别。arXiv预印本 arXiv：1806.05622，2018。二个[9] Joon Son Chung ， Andrew Senior ， Oriol Vinyals 和Andrew Zisserman。在野外读唇语句子。在CVPR，2017年。二个[10] Joon Son Chung和Andrew Zisserman。超时：在野外自动对口型。InACCV，2016. 二个[11] 郑秀焕郑俊松康洪国完美匹配：改进了用于视听同步的跨模态嵌入IEEEInternational Conference on Acoustics，Speech and Signal Processing（ICASSP），2019年。二个[12] 罗斯·卡特勒和拉里·戴维斯看看谁在说话：使用视频和音频相关的说话人检测。2000年国际多媒体与博览会会议。二个[13] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。CVPR，2009。四个[14] Mark Everingham，Josef Sivic，and Andrew Zisserman.在电视视频中自动命名角色的问题。图像和视觉计算，27（5）：545-559，2009。2[15] Matthias Fey和Jan E.伦森使用PyTorch Geometric进行快速图形表示学习在ICLR关于图形和流形表示学习研讨会，2019。五个[16] Daniel Garcia-Romero 、 David Snyder 、Gregory Sell、Daniel Povey和Alan McCree。使用深度的神经网络嵌入2017年IEEE声学、语音和信号处理国际会议（ICASSP），第4930-4934页。IEEE，2017年。一个[17] Georgia Gkioxari Jitendra Malik和Justin Johnson 网格r-cnn。arXiv预印本arXiv：1906.02739，2019。二个[18] Raia Hadsell，Sumit Chopra，and Yann LeCun.通过学习一个不变映射来降低维数. CVPR，2006。二个[19] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。四个[20] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.深度剩余网络中的身份映射。在欧洲计算机视觉会议上，第630-645页。施普林格，2016年。五个[21] Ashesh Jain ， Amir

下载后可阅读完整内容，剩余1页未读，立即下载