语境中的主动说话人多模态建模及其应用

33 浏览量更新于2023-10-25 收藏 1.17MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12465语境中的积极发言者Juan Leo' n Alca' zar1*、Fabian Caba Heilbron2、Long Mai2、FedericoPerdini2、Joon-YZhao Lee2、Pablo Arbela' ez1和Bernard Ghanem31安第斯大学，2奥多比研究所，3阿卜杜拉国王科技大学，1{jc.leon，pa.arbelaez}@ uniandes.edu.co;2{caba，malong，perazzi，jolee}@ adobe.com;3{bernard.ghanem}@kaust.edu.sa摘要当前用于主动说话人检测的方法集中于对来自单个说话人的视听信息进行建模。这种策略对于解决单个说话者的情况是足够的本文介绍了主动说话者上下文，一种新的表示模型之间的关系，多个扬声器在很长一段时间内。我们的新模型从结构化的集合中学习成对和时间关系（一）短期分析参考时间扬声器A扬声器B（b）语境中的积极发言者长期多说话人分析……参考时间视听观察。我们的实验表明，结构化的特征集成已经有利于主动说话人检测性能。我们还发现，所提出的主动扬声器上下文改进了AVA-ActiveSpeaker数据集上的最新技术，实现了87.1%的mAP。此外，消融研究证实，这一结果是我们长期多扬声器分析的直接结果。1. 介绍主动说话人检测是一个多模态的任务，依赖于仔细整合的视听信息。它旨在通过分析微妙的面部运动模式并仔细调整其特征语音波形，在一组可能的候选人中识别活跃的说话者。尽管它在计算机视觉中有很长的历史[11]，尽管它有许多应用，如扬声器日记或视频重新取景，但在野外检测活动扬声器仍然是一个悬而未决的问题。为了实现这一目标，最近发布的AVA主动扬声器基准[31]提供了一个足够的实验框架来研究这个问题。最近用于主动说话者检测的方法[5，39]专注于开发复杂的3D卷积模型，以融合局部视听模式，该模式估计短期序列上的二元标签。这些方法在单个说话者的情况下表现良好，但当存在多个说话者时，它们会我们认为，这种限制源于音频的不足*在Adobe Research图1. 语境中的活跃发言人。我们的目标是在参考时间识别活跃的说话者。让我们假设我们只能访问来自单个扬声器的简短视听样本（a）。通过观察说话者的嘴唇，很难判断他是否在说话，但音频表明当时有人在说话。我们别无选择，只能提供一个有根据的猜测。为了增加我们成功预测的机会，让我们利用多说话者上下文（b）。我们现在在长时间内观察场景中的所有说话者。从这个丰富的观察，我们可以推断出两件事。首先，说话者B没有在整个序列中说话，相反，他在听说话者A。第二，看着说话人A（例如，他的嘴唇）长期帮助我们消除局部不适。我们提出了一种新的表示，主动扬声器上下文，它学习多个扬声器之间的长期关系，使准确的主动扬声器检测。线索，以充分解决问题，并从高度模糊的视觉线索时，孤立考虑[31]。在多说话人场景中，适当的消歧策略将利用从每个候选说话人提取的丰富的、长期的、上下文信息。图1说明了当存在多于一个候选说话人时主动说话人检测中的挑战直觉上，我们可以融合来自多个说话者的信息，以消除单个说话者预测的歧义。例如，通过长时间分析说话者，我们可以消除来自短填充词的错误语音活动预测。同样地，共同观察多个候选说话者，使我们能够理解会话模式，例如。自然的两个说话者的对话由说话者的话语的交错序列12466在本文中，我们介绍了主动扬声器上下文，一种新的表示模型，在野外视频多个扬声器之间我们的方法估计积极发言人的分数，整合视听线索，从每个扬声器存在于一个对话（或场景）。它利用双流架构[6，9，10]对从对话中的扬声器采样的短期视听观察进行编码，从而创建丰富的上下文集合。我们的实验表明，这种情况下，本身，有助于提高主动说话人检测的准确性。此外，我们建议通过自我注意学习成对关系[33]并通过使用序列到序列模型[17]对时间结构进行建模来细化计算的上下文表示。我们的模型不仅提高了最先进的水平，而且在场景中包含多个扬声器的具有挑战性的场景捐款. 在这项工作中，我们设计并验证了一个模型，学习多个扬声器之间的视听关系为此，我们的工作带来了两个贡献。1(1) 我们开发了一个模型，可以在长时间内学习多个说话者之间的非本地关系（第3节）。(2) 我们观察到，该模型将AVA-ActiveSpeaker数据集中的最新技术水平提高了1。6%，并且这种改进是建模长期多说话者上下文的直接结果（第4节）。2. 相关工作多模态学习旨在融合多个信息源以建立联合表示，这比孤立的任何单一来源更好地模拟问题[27]。在视频领域，科学界越来越感兴趣的一种形式的模态融合涉及联合视听表示的学习[3，7，19，25，28，34]。此设置包括人员重新识别[20，24，37]、视听同步[8，9]，扬声器日记[38]，生物计量学[25，30]，和视听源分离[3，7，19，25，28，34]。主动说话人检测是音视频信号源分离的一个具体实例，其中的源是视频中的人（候选说话人），目标是将一段语音分配给一个主动说话人，或者不分配任何可用的源。几项研究已经为使用视听线索进行主动说话人检测铺平了道路[3，4，9，11]。卡特勒和戴维斯在21世纪初开创了这项研究[11]他们的工作提出了一个时间延迟的神经网络来学习语音活动的视听相关性。或者，其他方法[13，32]选择仅使用视觉信息，特别是嘴唇运动来解决任务。1为了实现可重复性和促进未来研究，代码已在以下网址提供：https://github.com/fuankarion/最近，已经重新探索了音频和视觉信息之间的丰富对齐，方法是利用音频作为监督[3]，或者联合训练视听嵌入[7，9，26]，从而实现更准确的主动说话者检测。尽管这些先前的方法对该领域具有开创性，但是缺乏用于训练和基准的大规模数据限制了它们在电影或消费者视频中的野外主动说话者检测的应用。为了克服缺乏多样性和野外数据，Rothet al. [31]，介绍了AVA-ActiveSpeaker，这是一个为主动说话者检测任务设计的大规模视频数据集。随着数据集及其基线的发布-一个学习在多任务设置中检测活跃说话者的双流在2019年的AVA-ActiveSpeaker挑战赛中，Chung等人[5]通过添加3D卷积和大规模视听预训练改进了他们之前工作的核心架构[9]。Zhanget al.[39]还依赖于混合3D-2D架构，在两个多模态数据集上进行大规模预训练[9，10]。当使用对比损失细化特征嵌入时，他们的方法实现了最佳性能[15]。这两种方法都改善了单个说话人的表示，但忽略了来自共现说话人关系的丰富上下文信息，以及从对话中出现的内在时间结构。我们的方法从双流模态融合的基线开始，但探索了正交的研究方向。我们的目标不是提高短期架构的性能，而是对说话者的会话语境进行建模，即。从长期的说话人间关系中利用积极的说话人语境上下文建模在计算机视觉任务中得到了广泛的研究，例如对象分类[23]、视频问答[40]、个人重新识别[22]或动作检测[14，36]。尽管存在许多利用上下文来改进计算机视觉系统的作品据我们所知，我们的工作是第一个解决主动说话人检测的任务，在野外使用上下文信息从多个扬声器。3. 语境中的积极发言者本节描述了我们的主动说话人检测方法，重点是学习长期和说话人之间的关系。在其核心，我们的策略估计一个活跃的扬声器得分为个人的脸（目标脸），通过分析目标本身，当前的音频输入，和多个在当前时间戳检测到的脸。我们的模型不是对长时间范围和多说话者交互进行整体编码，而是遵循自下而上的策略学习关系，首先聚合细粒度的观察（视听剪辑），然后映射12467图2. 活动扬声器上下文。我们的方法首先将视频数据分成由一堆人脸组成的短片段（τ秒），作物及其相关音频。它使用双流架构（短期编码器）对这些剪辑中的每一个进行编码以生成低维视听编码。然后，它将来自所有剪辑和在以参考时间t为中心的大小为T（T > T）的窗口内采样的所有扬声器的高级视听特征进行堆叠。我们将该特征堆叠表示为Ct。然后，使用自我注意力，我们的方法通过学习所有元素之间的成对注意力来改进表示。最后，LSTM挖掘细化特征之间的时间关系这个最终的输出是我们的活动说话者上下文，我们使用它来对候选人在时间t的语音活动进行分类。将这些观察结果嵌入到允许分析剪辑之间的全局关系的嵌入中。一旦估计了各个嵌入，我们就将它们聚合成一个上下文丰富的表示，我们将其表示为ActiveSpeaker Ensemble。然后对该集合进行细化以显式地对成对关系进行建模，并且显式地对剪辑上的长期结构进行建模，我们将该细化的集合命名为活动发言者上下文。图2展示了我们的方法的概述。3.1. 聚合本地视频信息我们的建议从分析视听资料开始-从短视频剪辑。视觉信息是从时间间隔τ采样的k个连续面部裁剪2的堆叠。音频信息是在相同τ间隔上采样的原始波形。我们将这些剪辑称为元组cs，τ={vs，aτ}，其中vs是扬声器s的裁剪堆栈，并且aτ是对应的音频。对于每个剪辑cs，τin对于视频序列，我们使用短期编码器Φ（cs，τ）计算嵌入us，τ，短期编码器Φ（cs，τ）的作用是双重的。首先，它创建了一个低维表示，融合视听信息。其次，它确保了嵌入式表示对于主动说话人检测任务是足够有区别的。短期编码器（Φ）。在最近的工作[6，31，39]之后，我们通过双流卷积架构来近似Φ。我们没有像[5，39]那样使用计算密集型3D卷积，而是在两个流中选择2D视觉流以一个张量v∈RH×W× （3k ）作为输入，其中H和W是k个面作物的宽度和高度。在音频流上，我们将2我们的方法在训练和测试时利用预先计算的人脸轨迹（连续的人脸裁剪）。将原始音频波形转换为表示为a∈RQ×P的Mel频谱图，其中Q和P取决于间隔τ的长度。在前向传递中，视觉子网络估计视觉嵌入uv∈Rdv，而音频子网络计算音频嵌入ua∈Rda。我们通过连接每个流的输出嵌入来组成视听特征嵌入u∈Rd结构化上下文包围。一旦的夹特征u∈Rd已经被估计，我们继续将这些特征组装成编码上下文信息的集合，第我们将该集合表示为有源扬声器包围圈。为了构造该集合，我们首先定义以参考时间t为中心的长间隔T（T > τ），并且将在t处出现的说话者之一指定为参考说话者，并且将每个其他说话者指定为上下文说话者。我们继续计算每个说话者s=1，. - 是的- 是的，S在整个时间窗T上的L个不同τ间隔上存在于t处。该采样方案产生维度为L×S×d的张量Ct，其中S是所分析的说话者的总数图3包含一个详细的示例在取样过程中。我们把视频中所有可能的t集合起来由于时间结构在主动说话人问题中至关重要，因此我们严格保留采样特征的时间顺序。由于Ct是针对参考说话者定义的，因此我们可以生成与在时间t存在的说话者一样多的集合Ct。在实践中，我们总是将参考说话人的特征集定位为沿着Ct的S轴的第一个元素。上下文扬声器沿着S轴上的剩余位置随机堆叠。这使得我们能够直接监督参考说话人的标签，而不管上下文说话人的数量或顺序。tSte...Softmax音频CNN不宽度：1x1x1Wβ：1x1x1转置宽度：1x1x1LSTM.可视化宽δ：1x1x1活动说话者.CtCtzz1 2zi.短期编码器（STE）成对精化时间细化t + T/2Ste......时间12468不不不不′不窗T.我们避免在低级或中级特征上使用这种策略，因为不需要将片段的空间或时间域上的分布式信息相关，即在主动说话者检测任务中，有意义的信息紧密地定位在视觉（嘴唇区域）和音频（语音片段）域上。我们实现了一个自我注意模块，它首先估计一个维度为LS×LS的成对亲和矩阵B，然后使用其归一化表示作为输入Ct的权重：图3. 构建上下文张量。我们建立一个上下文ensem- ble给定一个参考扬声器（扬声器1在这个例子中），和参考时间t。首先，我们定义包含以时间t为中心的L + 1个剪辑的长期采样窗口T，T={0，1，.，t，... L−1，L}。我们选择与t处的参考说话者（说话者2和3）重叠的那些作为上下文说话者。最后，我们在整个采样窗口T中从参考说话者和被指定为上下文的所有说话者采样剪辑级特征ul如果说话人的时间跨度不完全匹配的interval T，我们填充它与初始或最终的扬声器功能。例如，扬声器2在0和i之间不存在，因此我们向左填充ui。同样，对于扬声器3，我们用uk向右填充。请注意，根据我们的定义，扬声器2和扬声器3可以交换位置，但扬声器1必须保持在堆栈的底部。3.2. 上下文细化在构建上下文集合Ct之后，我们剩下其任务是对指定的参考说话者的说话活动进行一种简单的方法是用二进制输出类来微调Ct上的全连接层，即。说话和沉默。尽管这样的模型已经利用了片段之外的全局信息，但我们发现它往往不会对说话者及其时间模式之间的有用关系进行编码，这些关系来自会话结构。这种局限性启发我们设计了我们的新的主动说话人上下文（ASC）模型。ASC由两个核心组成部分组成。首先，它实现了一个多模态的自我注意机制，以建立成对的视听观察之间的相互作用。其次，它采用了一个长期的时间编码器，利用时间结构的对话。成对优化。我们从多模态上下文集成Ct开始，并且在Ct中的观测之间建立成对的亲和力模型，而不管它们的时间顺序或它们所属的扬声器。我们通过遵循与Vaswani等人类似的策略来进行这种改进。[33 ]第33段。我们计算长期序列和任意数量的候选发言人的自我注意力。在实践中，我们采用非局部框架[35]中成对注意力的核心思想来处理多模态高级特征，从而在采样中包含的全部剪辑集上估计密集注意力图B=σ（（Wα<$Ct）·（Wβ<$Ct）<$）（1）C†=Wδ（B·（WγCt））+Ct（2）其中，σ是softmax运算，{Wα，Wβ，Wγ，Wδ}是可学习的1×1×1权重，可根据需要调整信道尺寸，公式2中的第二项（+Ct）表示残差连接。输出C†是一个与输入Ct（L×S×d）具有相同维度的张量，但它现在编码了成对关系。时间精炼。这一长期合并步骤的目标是双重的。首先，通过直接关注它们的时间结构来细化C†其次，将最终嵌入的维度降低到d′（d > d′），允许我们使用更小的全连接预测层。考虑到任务的固有顺序结构，我们使用LSTM模型实现这种细化[17]。我们通过挤压扬声器来投射它的输入，时间维度Ct转化为（L × S）× d;因此我们输入LSTM时间步长t i∈ {1，. - 是的- 是的，L × S}，其特征向量zi∈Rd.在实践中，我们使用一个d′= 128的单向LSTM单元，并在它经过序列时保留LSTM内存。因此，我们在张量Ct∈ R（L×S）×d和我们的最终主动说话者上下文表示ASCt∈R（L×S）×d之间创建序列到序列映射。我们的最后一步是估计一个积极的发言者给予ASCt。我们采用一个简单的全连接层，具有二进制输出（主动扬声器和静音）。我们使用软最大运算符在输出上建立最终的置信度分数，并选择说话类的值。3.3. 培训和实施详情我们使用基于Resnet-18架构的双流（视觉和音频）卷积编码器[16]进行短期特征提取（STE）。在[31]之后，我们通过将输入层上的权重复制N次来重新调整视频流以接受N个面部裁剪的堆栈。音频流输入是从音频片段计算的Mel频谱图，其精确地匹配由视觉堆栈覆盖的时间间隔。由于Mel频谱图是2D张量，因此我们重新使用音频流12469通过在输入层平均通道特定权重来接受L×P×1张量训练短期编码器我们使用Pytorch库[29]训练STE 100个epoch。我们选择ADAM优化器[21]，初始学习率为3×10−4，学习率退火γ=0。每40人中有1人时代我们将每个面裁剪调整为124×124，形成随机翻转和均匀的边角裁剪视觉输入堆栈。我们放弃了[5]的大规模多模态预训练，支持标准Imagenet [12]的初始化预训练。由于我们希望有利于两个流上的鉴别特征的估计，因此我们遵循Roth等人提出的策略。[31]并添加两个辅助监督源，并在特征融合操作之前将它们放置在两个流的顶部，这创建了两个辅助监督源。线性损失函数 La ， Lv. 我们的最终损失函数是L=Lav+La+Lv。我们对所有三项都使用标准的交叉熵损失我们还使用Pytorch库和ADAM优化器优化了ASC，初始学习率为3×10−6，学习率退火γ=0。每10个epoch1个。我们从头开始训练完整的ASC模块，包括批量正常-[2018 - 12 -18 ]第18话最快的速度与STE类似，我们使用交叉熵损失来训练ASC，但在这种情况下，损失由单个项Lav组成。ASC处理固定数量的扬声器S以进行控制。structCt.假定不是每个参考时间t包含相同数量的说话者检测，则对于J个重叠说话者存在三个sce，并且存在大小为S.如果J≥S，我们随机抽取S-1个上下文说话者（其中一个已经被指定为参考）。如果是，我们认为-选择一个参考，并从剩余的J-1个说话者中随机抽取（替换）S-1个上下文说话者。在J=1的极端情况下，参考扬声器被复制S-1次。4. 实验本节评估我们的方法的能力，检测主动扬声器在未修剪的视频。我们使用大规模AVA-ActiveSpeaker数据集进行实验[31]。我们将实验分析分为三个部分。首先，我们将我们的方法与现有的最先进的方法进行比较。然后，我们消融我们的方法，并检查其每个核心组件的贡献。最后，我们做一个性能分解，并分析成功和失败的模式。AVA-ActiveSpeaker数据集。AVA-ActiveSpeaker数据集包含297部好莱坞电影，其中133部是人脸（2.6M训练，0.76M验证和2.0M测试）从每部电影中检测到超过15分钟的片段。这些检测以大约20 fps的速率发生，并随着时间的推移手动链接以产生描绘单个身份（演员）的面部轨迹。数据集中的每个人脸检测都增加了说话或不说话的属性。因此，推理时的任务是产生一个置信度分数，该分数指示每个给定的面部检测的说话机会。在我们的实验中，我们使用数据集官方评估工具，该工具计算验证集（可用的地面实况）和测试集（保留的地面实况）的平均精度（mAP）度量。除非mentioned，否则，我们评估主动扬声器检测的AVA-ActiveSpeaker验证子集。训练时的数据集采样。正如Roth etal. [31]，与具有可比大小的自然图像数据集相比， AVA-ActiveSpeaker的可变性要小得多对于STE的训练，我们通过从每个面部轨迹随机采样具有k次连续裁剪的单个片段来防止过拟合，而不是密集采样轨迹子中大小为k的每个可能的时间连续片段。因此，我们的历元大小与人脸跟踪的数量相关，而不是人脸检测的数量。为了训练我们的上下文细化模型，我们在训练集上使用标准的密集采样，因为我们在这个阶段没有观察到任何显著的过拟合。4.1. 与最新技术我们将我们的方法的性能与最先进的方法进行比较我们设置L=11，S=3进行实验。我们报告了验证和测试子集的结果。后者在ActivityNet挑战中用于AVA-ActiveSpeaker任务[2]。我们观察到，我们的方法优于所有现有的approaches在验证子集。这一结果非常有利，因为其他方法依赖于3D卷积和大规模预训练，而我们的模型仅依赖于从2D模型构建的上下文信息。现有的最佳方法，Chunget al. [5]，获得85分。百分之五即使他们的方法使用大规模多模态数据集进行预训练，我们的上下文建模也比他们的解决方案好1。百分之六。如表1所示，我们的方法在测试子集中获得了有竞争力的结果。尽管我们的模型放弃了3D卷积和模型集成[5]，但我们在AVA-ActiveSpeaker 2019排行榜3中排名第二。AVA-ActiveSpeaker验证和测试子集的总体结果验证了我们empir- ically证明，它提高了国家的最先进的，但一个问题仍然存在。是什么让我们的方法强大？我们接下来通过消融研究来回答这个问题。其中33个用于培训，33个用于验证，131个用于测试。的数据集提供了530万个标准化边界框3http://activity-net.org/challenges/2019/evaluation.html12470方法mAP验证子集有源扬声器Contex（我们的）87.1Chung等人（时间卷积）[5] 85.5Chung等人（LSTM）[5] 85.1Zhang等人[39] 84.0ActivityNet挑战排行榜2019[5]第五届全国人大代表Active Speakers Context（Ours）86.7中国科学院大学[39]八十三点五谷歌基线[31] 82.1表1. 与最先进技术的比较。我们报告了AVA Active Speaker-ers验证和测试子集中最先进方法的性能。验证集中的结果使用 [31] 发布的官方评估工具获得，测试集度量使用ActivityNet挑战评估服务器获得在验证子集中，我们将以前方法的性能提高了1。6%，未采用大规模多模态预训练。在测试子集中，我们实现了86。7%，在排行榜上排名第二，没有使用3D卷积，复杂的后处理算法或组装多个模型。上下文细化mAP79.第一次约会584.第八十四章485.第85章我的世界285.第85章我的世界385.第八十五章7ASC87. 1表2. 上下文细化的效果。我们消除了我们的方法的核心组件的贡献。我们从不包括任何上下文的基线开始，达到79。百分之五然后，通过简单地利用线性预测层的上下文，我们观察到4的显着提升。9%。此外，我们发现，添加成对和时间细化进一步提高了每平方0。8%和1. 分别为3%。只有当两个细化步骤都包括在内时，才能实现ASC最佳性能。4.2. 消融分析上下文细化有帮助吗？我们首先评估我们方法的核心组成部分的有效性。表 2比较基线的性能网络（无上下文），编码一个单一的发言人在短时间内，一个天真的上下文预测使用一个单一的线性层（上下文+无细化），和三个消融的变种，我们的方法，这些变种中的两个验证的个人贡献的两个ASC细化步骤（上下文+成对细化和上下文+时间细化），第三个（上下文+成对细化+MLP）具有两层感知器产生与ASC大约相同数量的参数，测试增加的性能是否来自网络大小的增加是有用的。虽然上下文张量的初始组装已经提高了基线性能，但我们的结果表明，上下文细化带来了互补的收益。也就是说，主动说话人检测任务不仅受益于上下文中存在的附加剪辑信息，而且还受益于直接建模说话人关系和时间结构。我们观察到，我们的整个上下文细化过程导致平均值为4。73%的mAP增加了上下文张量和朴素预测。这些结果验证了我们通过成对和时间细化模块提取上下文的设计选择。是否有替代方案，时间精炼？现在，我们将时间细化策略与时间细化的基线策略进行在最近的ActivityNet挑战中，Chunget al. [5]探索了移动平均策略，报告增加了1。3%mAP，使用中值滤波器超过预测分数。一个关键的区别是[5]处理短期窗口（0。5s），而我们考虑2的窗口。25秒。我们发现平滑长时间窗口会对我们方法的性能产生负面影响。表3显示，有一个可以忽略不计的增加（+0。02%）使用短期平均值，（-11。64%）使用长期平均值。无时间细化+ 移动平均（0.5s）+ 移动平均线（2.25s）+时间细化85.21%+0.02%-11.64%+1.9%表3. 移动平均线与时间细化（mAP）。当用移动平均替换所提出的时间平滑步骤时，我们只观察到边际效益，事实上，当平滑较长的采样窗口时，该上下文大小重要吗？我们通过分析上下文大小对我们的方法的最终性能的影响来继续消融。表4总结了该分析的两个维度，其中我们改变了时间支持（即，从1到11个剪辑改变L），或者改变上下文扬声器的数量（即，从1到3个扬声器变化S）。总体而言，扩展的时间上下文和更多的共现说话人在训练时间有利于我们的方法的性能。这些结果表明，所提出的方法利用两种类型的上下文来消除歧义的预测为一个单一的发言者。我们观察到在一到两个扬声器之间切换时性能上的较大差距（1. 8%的平均值）比在2和3之间切换时（0. 平均15%这种行为可能是由于在训练时包含三个以上说话者的样本相对稀缺关于时间支持，我们观察到通过增加L逐渐改善。然而，一旦L达到11，我们就会看到收益递减，这似乎与训练子集中人脸轨迹的平均长度相关。这里进行的上下文大小分析支持我们的中心假设，即从长时间的视野和多个扬声器的上下文是至关重要的，使准确率主动扬声器检测。12471临时发言者数量（S）支持（L）↓S= 1S= 2S= 3L=179。 5831829L=383。184685. 0L=584。385.8859表4. 上下文大小的影响。我们研究了不同的时间支持的大小和用于构建我们的上下文表示的扬声器的数量的影响。为此，我们报告通过不同上下文大小配置获得的mAP我们10080604020010080604020086.492.268.379.044.956.2观察到这两种类型的上下文在提高性能方面起着至关重要的作用使用我们最长的时间支持，L=11（2.25秒），我们的方法改进了基线（L=1/S=1）1 2 3面数大中小面部大小了6. 百分之一。此外，当结合来自多个说话者的上下文时，即。L=11/S=3，我们实现了额外的提升1。5%，最好的成绩是87。百分之一。总之，我们的研究结果揭示了长期抽样背景的重要性地平线和多个扬声器。采样失真类型无周围的时间顺序mAP77.884.587. 1表5. 上下文采样失真的影响。我们观察到我们的方法损失了2。6%mAP时，上下文扬声器在视频中随机采样。它也大幅下降（-9。3%）时，上下文时间顺序被打乱。这些结果验证了采样上下文在右周围和保持其时间顺序的目标脸的重要性。上下文采样重要吗？我们现在评估的效果时，建设-INGCt回火的时间结构。我们还评估了“语境中”说话人信息的有效性我们研究对“脱离上下文”的说话者进行采样是否会降低我们的方法的性能。对于第一个实验，我们完全按照第3.3节中的概述构建Ct，但随机打乱所有扬声器的时间序列，除了参考时间t的剪辑。在第二个实验中，我们用一组从随机时间t′采样的说话人替换上下文说话人，使得t′/=t。我们在表5中报告了结果。让我们一次分析两个采样失真首先，消融结果突出了时间结构的重要性。如果这样的结构被改变，我们的方法的有效性下降到低于基线的77。百分之八第二，同样重要的是要强调，在我们的管道中加入上下文外的说话者比只使用参考说话者更糟糕（84。5% vs.87. 1%）。换句话说，时间结构和周围的说话者提供了独特的上下文线索，这些线索很难用从视频中采样的随机信息来代替。图4. 业绩细目。我们分析了基线方法（w/o上下文）和我们提出的方法（主动说话人上下文）在两个不同的视觉特征的样本在推理时间：数量的面孔（左）和脸的大小（右）。对于面的数量，我们将数据集分成三个排他的桶：一个、两个和三个面，它们总共覆盖了>90%的数据集。类似地，我们将数据集分为三种面部大小：小（S ），中（M ），大（L ），对应于宽度=64，>64但=128，>128像素。在所有情况下，我们观察到，这种方法的效果优于基线，在具有挑战性的情况下，这些收益更加明显。例如，当我们比较它们在三（3）个面孔上的表现时，我们的方法提供了一个13的大幅提升。百分之二。此外，对于小的硬案例，面（S），我们实现了11的改进。超过基线3%4.3. 结果分析性能分解。根据最近的工作[1]，我们根据AVAActive Speaker数据集的相关特征（即人脸数量和人脸大小）分解了我们的模型我们还分析了语音中噪声的影响，发现我们的方法和基线都对语音质量的改变具有相当的鲁棒性;图4（左）中面数的性能分解揭示了基线方法的缺点和ASC的优点。我们根据帧中的人脸数量将验证帧分成三个互斥的组。对于每组，我们计算基线和我们方法的mAP。虽然两者都遵循类似的趋势，随着人脸数量的增加，性能会下降，但我们的方法更具弹性。例如，在具有挑战性的三张脸的情况下，我们的方法比基线高出13。百分之二。这种增益可能是由于我们的方法在训练时利用了来自多个说话者的信息，使其能够意识到基线所看不到的会话模式和时间结构处理小脸是主动说话人检测方法的一个挑战[31]。图4（右）显示了基线和我们的ASC方法如何受到面部大小的影响。87.991.883.871.667.654.4最大平均接入点（%）基线我们L=784.986岁。486岁。6L=9八十五586岁。786岁。9最大平均接入点（%）12472图5. 定性结果。成对细化步骤中的注意力具有一些特征性的激活模式。我们在黄色边界框中突出显示参考扬声器，并使用从浅蓝色（无注意力）到红色（最高注意力）的热图表示注意力得分第一行示出了两个无声扬声器的典型激活模式注意力模型在参考时间只关注参考说话者（以黄色突出显示）。在存在活动发言者（第二行）的情况下，注意力在延长的时间间隔内集中在参考发言者在第三排，参考说话人也是活跃的，但在这种情况下，他的面部表情是模糊的;因此，注意力也看上下文说话者。我们将验证集分为三个部分：（S）宽度小于64像素的小脸，（M）宽度为64和128像素的中等脸，以及（L）宽度大于128像素的大脸。主动说话人检测的性能与人脸大小之间存在相关性。较小的脸通常很难被标记为活跃的说话者。然而，我们的方法表现出更少的性能退化比基线的脸大小减小。在最具挑战性的情况下，即。小脸，我们的方法优于基线11。百分之三。我们假设，我们的方法通过时间上下文聚集来自较大人脸的信息，这增强了对小人脸的预测。定性结果。我们分析建立在矩阵Ct上的成对关系，该模型只训练了两个扬声器。图5示出了以参考时间t为中心的三个样本序列，每个样本序列包含两个候选说话者。我们用黄色突出显示参考说话者，并用从浅蓝色（无注意力）到红色（最高注意力）的热图表示注意力得分。总的来说，我们注意到三个有趣的模式。首先，标记为silent的序列生成非常稀疏的激活，集中在特定的时间戳上（见顶行）。我们假设，识别语音的存在是一个更简单的任务比检测实际的积极发言者。因此，我们的模型只需要在很短的时间内做出可靠的决定。第二，对于具有活跃说话者的序列，我们的成对细化倾向于在整个时间窗口中将注意力分配给单个说话者（参见第二行）。此外，注意力得分往往在参考时间附近具有较高的值，并且随着时间间隔的极限而缓慢下降。第三，我们发现许多情况下，我们的模型在场景中关注多个这种行为通常发生在参考说话人的面部特征难以观察或高度模糊时。例如，第三行中的参考扬声器由于场景中的不足照明和面部取向因此，网络同时关注参考说话者和上下文说话者。5. 结论我们已经引入了一个上下文感知的主动说话人检测模型，该模型利用了来自共同出现的说话人和长时间视野的线索。我们已经表明，我们的方法优于国家的最先进的主动说话人检测，并在具有挑战性的sce-narios时，许多候选人的扬声器或只有小脸在屏幕上的作品非常好。我们已经减轻了现有的缺点，并希望我们的方法铺平了道路，更准确的主动说话人检测。未来的探索包括使用说话人身份作为监督源，以及学习检测人脸和他们的语音属性联合。致谢。本出版物是基于阿卜杜拉国王科技大学（KAUST）赞助研究办公室（OSR）在第2009/2009号奖项下支持的工作。OSR-CRG 2017 -3405和Uniandes-DFG授权编号P17.85312212473引用[1] Humam Alwassel ， Fabian Caba Heilbron ， VictorEscorcia，and Bernard Ghanem.诊断时间动作检测器中的错误。在ECCV，2018。[2] Fabian Caba Heilbron Victor Escorcia Bernard Ghanem和胡安·卡洛斯·尼布尔斯Activitynet：人类活动理解的大规模视频基准。CVPR，2015。[3] PunarjayChakravarty，SayehMirzaei，TinneTuytelaars，and雨果·范·哈姆。你是谁？视频中活动说话者的音频监督分类。2015年国际多模态交互会议（ICMI）[4] Punarjay Chakravarty，Jeroen Zegers，Tinne Tuytelaars，et al.基于视听协同训练的主动说话人检测。2016年国际多式联运会议（ICMI）。[5] 郑俊善Naver在activitynet挑战2019任务B活动说话者检测（AVA）。arXiv预印本arXiv：1906.10555，2019。[6] Joon Son Chung、Amir Jamaludin和Andrew Zisserman。你这么说的？arXiv预印本arXiv：1705.02966，2017。[7] Joon Son Chung ， Arsha Nagrani ， Andrew Zisserman.Voxceleb2 ：深度说话人识别。arXiv预印本 arXiv：1806.05622，2018。[8] Joon Son Chung 、 Andrew Senior 、 Oriol Vinyals 和Andrew齐瑟曼。在野外读唇语句子。在CVPR，2017年。[9] Joon Son Chung和Andrew Zisserman。超时：自动-在野外进行对口型表演InACCV，2016.[10] 郑秀焕郑俊松康洪国完美匹配：改进了用于视听同步的跨模态嵌入IEEEInternational Conference on Acoustics，Speech and Signal Processing（ICASSP），2019年。[11] 罗斯·卡特勒和拉里·戴维斯看看谁在说话：扬声器使用视频和音频相关性的检测2000年国际多媒体与博览会会议[12] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，还有李飞飞Imagenet：一个大规模的分层图像数据库。CVPR，2009。[13] Mark Everingham，Josef Sivic，and Andrew Zisserman.德-在电视视频中自动命名角色的问题。图像和视觉计算，27（5）：545[14]Rohit Girdhar，Joao Carreira，Carl Doersch，andAndrew Zis-瑟曼视频动作Transformer网络。在CVPR，2019年。[15] Raia Hadsell，Sumit Chopra，and Yann LeCun.通过学习一个不变映射来降低维数. CVPR，2006。[16] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。[17] SeppHochreiter和JürgenSchmidhube r. 长短期记忆神经计算，9（8）：1735[18] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。arXiv预印本arXiv：1502.03167，2015。[19] Arindam Jati和Panayiotis Georgiou。神经预测使用卷积神经网络进行编码以进行说话者特征的非监督学习。IEEE/ACM音频、语音和语言处理刊27（10）：1577[20] Changil Kim、Hijung Valentina Shin、Tae-Hyun Oh 、Alexan- dre Kaspar 、 Mohamed Elgharib 和 WojciechMatusik。学习面孔和声音的联系。在ACCV，2018年。[21] D Kinga和J Ba Adam。一种随机优化第2015年

下载后可阅读完整内容，剩余1页未读，立即下载