SPELL:主动说话人检测的时空图学习框架

0 下载量 70 浏览量 更新于2024-06-19 收藏 2.52MB PDF 举报
"SPELL:长时空图学习主动说话人检测" 在计算机视觉领域,尤其是在多说话人视频的理解中,主动说话人检测(ASD)是一项重要的任务。它涉及到识别视频帧中哪个或哪些人物正在说话,这对于语音增强、人机交互等应用场景至关重要。随着数据集和技术的发展,ASD的研究取得了显著的进步。 SPELL(时空图学习)是一种新提出的框架,专为解决像ASD这样的复杂任务设计。SPELL的核心思想是将视频帧中的人物编码为图中的节点,这些节点不仅在帧内相互连接以表达人物间的关系,还在跨帧之间建立联系,从而捕捉时间动态。通过这种方式,SPELL能够捕获视听特征和时空相关性,将ASD问题转化为节点分类问题。 SPELL的一大优势在于,它可以在所有节点的长时间上下文中进行推理,而且不需要使用计算成本高昂的全连接图神经网络。这使得SPELL在保持高精度的同时,显著降低了内存和计算需求,提高了效率。 在实验中,SPELL在AVA-ActiveSpeaker数据集上的表现超越了现有的所有先进方法。这个数据集为ASD提供了丰富的训练和测试素材,促进了各种深度学习模型的开发。SPELL的开源代码可在GitHub上找到,这为研究人员和开发者提供了实现和改进该方法的机会。 SPELL的贡献在于它提出了一种新颖的图学习策略,这种策略利用了明确的空间和时间结构来增强多模态信息的处理。通过在复杂场景中精确地定位说话者,SPELL为整体场景理解打开了新的可能,推动了计算机视觉在真实世界应用中的发展。未来的工作可能会进一步探索SPELL在其他视听任务中的应用,以及如何优化图结构以适应不同的场景和任务需求。