SPELL：主动说话人检测的时空图学习框架

70 浏览量更新于2024-06-19 收藏 2.52MB PDF 举报

"SPELL：长时空图学习主动说话人检测" 在计算机视觉领域，尤其是在多说话人视频的理解中，主动说话人检测（ASD）是一项重要的任务。它涉及到识别视频帧中哪个或哪些人物正在说话，这对于语音增强、人机交互等应用场景至关重要。随着数据集和技术的发展，ASD的研究取得了显著的进步。 SPELL（时空图学习）是一种新提出的框架，专为解决像ASD这样的复杂任务设计。SPELL的核心思想是将视频帧中的人物编码为图中的节点，这些节点不仅在帧内相互连接以表达人物间的关系，还在跨帧之间建立联系，从而捕捉时间动态。通过这种方式，SPELL能够捕获视听特征和时空相关性，将ASD问题转化为节点分类问题。 SPELL的一大优势在于，它可以在所有节点的长时间上下文中进行推理，而且不需要使用计算成本高昂的全连接图神经网络。这使得SPELL在保持高精度的同时，显著降低了内存和计算需求，提高了效率。在实验中，SPELL在AVA-ActiveSpeaker数据集上的表现超越了现有的所有先进方法。这个数据集为ASD提供了丰富的训练和测试素材，促进了各种深度学习模型的开发。SPELL的开源代码可在GitHub上找到，这为研究人员和开发者提供了实现和改进该方法的机会。 SPELL的贡献在于它提出了一种新颖的图学习策略，这种策略利用了明确的空间和时间结构来增强多模态信息的处理。通过在复杂场景中精确地定位说话者，SPELL为整体场景理解打开了新的可能，推动了计算机视觉在真实世界应用中的发展。未来的工作可能会进一步探索SPELL在其他视听任务中的应用，以及如何优化图结构以适应不同的场景和任务需求。

+v：mala2255获取更多论

文

4公里。Min等

GNN

用于场景理解。

CNN、长短期记忆（LSTM）及其变体长期以来

一直主导着视频理解领域。近年来，两种新的模型在视觉信息处理的许

多领域越来越受欢迎：变形金刚[36]和GNN。它们不一定与以前的模型

竞争，但已经证明它们可以增强基于CNN/LSTM的模型的性能。特定

GNN模型在视频理解中的应用包括视觉关系预测[22]、对话建模[11]、视

频检索[34]、情感识别[30]和动作检测[40]。还提出了基于GNN的通用视

频表示框架[3，24，26]，可用于多个下游任务。例如，在Arnab

等人

[3]

中，以滑动窗口的方式在视频帧的前景节点上构建全连接图，并且前景

节点连接到其相邻帧的其他上下文节点。在完全连接的时空图上传递的

消息在计算时间和存储器方面是昂贵的。因此，在实践中，这种模型最

终使用一个小的滑动窗口，使他们无法处理更长的时间- 术语序列。

SPELL也对前台节点进行操作-特别是面。然而，图结构不是完全连接

的。我们构建了图使得它仅在空间上的相关节点之间实现交互，时

间该图保持足够稀疏，使得长期上下文可以可以容纳在相对较小的

存储器和计算预算内。

主动扬声器检测（

ASD

）。

Cutler

等人

[7]关于主动说话者检测的早期

工作使用时间延迟神经网络检测相关的视听信号。随后的工作仅依赖于

视觉信息，并考虑更简单的设置，专注于嘴唇和面部表情[8]。最近，高

性能ASD模型依赖于大型网络-开发用于捕获视听信号的时空变化，通常

依赖于集成网络或复杂的3D CNN特征[2，35]。 Sharma

等人

[

29]Zhang

al.

[38]两者都使用大型3D CNN架构进行视听学习。Active Speaker in Context

（ASC ）模型[2]使用带有LSTM 的非本地注意力模块来模拟由双流

ResNet-18网络编码的音频和视觉特征之间的时间交互。TalkNet[35]通过

使用3D CNN和几个变压器[36]实现了卓越的性能，从而产生了一个有效

的大型模型。另一个最近的工作，ASDNet[18]，使用3D-ResNet 101编码

视觉数据和SincNet[27]音频。统一上下文网络（UniCon）[39]提出了基于

卷积层的关系上下文模块来捕获视觉（空间）和视听上下文。多这

些进步的原因是AVA-ActiveSpeaker数据集的可用性[28]。以前可用的多模

态数据集（例如[4]）要么较小，要么受到约束，要么缺乏数据的可变

性。Roth等人的工作

。

[28]还介绍了一个具有竞争力的基线以及大型数据

集。他们的基线涉及共同学习端到端可训练的视听模型。该模型中的音

频和视觉分支是基于CNN的，它使用深度可分离技术。

剩余18页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

SPELL：主动说话人检测的时空图学习框架

说话人识别系统

double-spell:双拼练习

retext-spell:插件检查拼写

spell:Shell命令配置器终端用户界面

Spell:自动提取日志文件中的密钥

SPELL:卫星过程执行语言和库-开源

norvig-spell:Norvig 拼写检查器的不同实现

Silent-Spell:官方的寂静法术游戏资料库

Spell:Android开发教程-辅助拼写练习的应用程序

fin-spell:基于Voikko的Firefox拼写检查（实验性）

最新资源