没有合适的资源?快使用搜索试试~ 我知道了~
2237事件特定视听融合层:视频理解的一种新视角Arda Senocak1金俊植2吴泰贤3李丁泽宇4在苏权11KAIST2哈佛大学3系。EE,POSTECH4 Adobe Research摘要为了理解我们周围的世界,我们的大脑在任何给定的时刻都被来自外部世界的多感官信息及其复杂的相互作用所淹没虽然处理这些信息对人类大脑来说似乎毫不费力,但建造一台可以执行类似任务的机器是具有挑战性的,因为复杂的交互不能用单一类型的集成来处理,而是需要更复杂的方法。在本文中,我们提出了一种新的简单的方法来解决视频理解中的多感官整合。与以往的作品中使用单一的融合类型不同,我们设计了一个多头模型与个别事件特定的层来处理不同的视听关系,使不同的方式的视听融合。实验结果表明,我们的事件特定层可以发现视频中视听关系的独特属性,语义匹配的时刻和节奏事件。此外,虽然我们的网络是用单个标签训练的,但我们的多头设计可以为视频输出额外的语义上有意义的多标签作为一个应用,我们证明,我们提出的方法可以暴露流行的基准数据集的事件特征的程度。1. 介绍我们周围的真实世界事件由不同的多感官信号及其相互之间的复杂交互作用组成。现实生活中的事件和时刻的野外视频捕捉了丰富的多模态及其复杂的交互。因此,利用多感官信息来更好地理解视频是至关重要的,但它们的多样性和复杂性使其具有挑战性。例如,即使音频和视觉信号是一致的,*同等缴款。谢谢。T.- H. Oh获得了韩国政府(MSIT)资助的信息通信技术规划评估研究所(IITP)资助的部分支持(No.2021-0-02068,人工智能创新中心,50%; No.2022-0-00124,人工智能技术开发以提高自我能力感知学习能力,50%)。图1. 先前的方法和我们的特定事件融合之间的概念差异。多模态事件可以基于野外视频中的各种形式;虽然某些事件可能在视觉变化和伴随的音频之间具有连续的时间对应性,但是其它事件可能具有有节奏的、重复的视听事件或一些孤立的瞬间,例如,一个人随着背景音乐的节奏有节奏地打响指,空调一直在吹,或者是画面中的火山尽管有这些困难,现有方法使用单一类型的一刀切的融合方法,几乎不考虑不同的事件类型。相比之下,我们使用多个事件特定的层来更好地理解视频。关系是不同的。 所有这些事件具有不同类型的特征(例如仅视觉和仅音频的单模态类型,以及连续、瞬时、有节奏等的多模态类型,如图1所示),我们称之为事件类型。也就是说,理解视频内容需要正确处理这种多样且复杂的关联和关系。然而,令人惊讶的是,这被先前的视听识别研究所忽视人们已经做出了巨大的努力,[28、40、53、59、26、31,62],以实现用于多模态视频分析的机器感知。视听学习的融合方法[4,65,28,59,20]中的一个常见范例是在整个序列上全局汇集两种模态。他们对多模态融合机制进行建模,假设2238所有视听事件在整个视频中是高度相关的、在时间上对齐的并且是连续的一旦将基于全局池的融合用作架构中的设计选择,此假设就被固有地注入到模型这种统一的假设在模拟真实世界的多感官事件的能力上是有缺陷的,2它平滑了稀疏的重要时刻并导致错误的预测。在比赛中,如果我们认为,不同的跨模态的关系被忽视,在这些现有的方法使用一种单一类型的一刀切的融合机制,视听视频事件具有多标签的性质。我们提出了一个新的视角,结合多种类型的视听关系,以提高视频理解。 我们的发展受到人类感知世界的方式的推动:人类能够自发地组合来自相同事件或对象的相关异质信号,或者如果信号的源事件不同,则能够将信号彼此区分开。这种多感觉整合在认知科学中得到了广泛的研究[25,49,50]。受这项研究的启发,我们提出了一种简单的方法,包括多种类型的融合层:个人的模态层和视听事件特定的层。然而,确定和发展所有可能的整合类型是一项挑战因此,我们假设,大多数现有的事件可以有效地跨越由先前的认知研究确定的几个主导事件类型的组合每一层都旨在寻找视频中不同的跨模式交互和特征,例如仅音频,仅视觉,连续,开始和即时事件层。这导致我们的多头设计由简单的特定于事件的层组成,并根据跨模式交互提供适当我们的实验结果表明,我们的方法提高了视频分类性能,也使可靠的多标签预测的多头设计。此外,我们提出的模型导致更好的可解释性的视频,如理解音频和视觉信号独立或联合的基础上的事件的特征,以及提供朴素的模态置信度分数。这使我们能够对现有数据集和潜在应用进行有趣的分析,例如多标签,分类和分类事件特征分析以及声音本地化。我们将主要贡献总结如下:•我们提出了一种新的视听融合方法,2让我们考虑图3中的汽车视频。一群观众在记录赛车经过前的场景时长时间交谈,但唯一对视听整合有用的时刻是赛车经过的短暂时刻,即,即时相关通过用统一的假设来捕捉其全局上下文,无法正确理解该事件。多感觉事件的其他关联类型如图1所示。简单的事件特定层,以使模型能够理解视听事件的不同特性。• 我们的分析验证了每个事件特定的层捕获的视听事件的不同属性,从而导致视频分类的性能改进。• 凭借简单性,我们证明了我们提出的事件特定层的可解释性,这在各种应用中是有用的:数据集事件特征分析,缺失标签检测和数据集重定向。• 我们将发布用于多标签评估的多标签VGGSound数据集,这是由12个主题注释的约1200个视频的部分子集2. 相关工作视听表征学习。近年来,视听学习取得了重大进展,有些人将视听信息用作另一种信息的监督信号[7,42,41]或两者兼而有之在自我监督学习中学习一般表示,假设它们之间存在自然的对应关系[4,5,22,8,28,40,36,32,45,44,2]。自我-监督学习方法使用不同的任务,如对应[4,5,8],同步[28,40]或聚类[3]。此外,其他一些方法使用视听多模态信号作为自我监督来对未标记的视频进行聚类或标记[6,3]。这些现有的方法假设多传感器数据总是语义相关和时间对齐。因此,他们应用简单的融合技术,如级联或平均池化。然而,在现实世界的视频中,多传感器数据并不总是自然共存的。我们的工作调查更多样化的多感官关系,并提出了不同的整合方法在视听事件。不同于其他现有的作品,Morgadoetal.[34]在对比学习中探索错误的否定和肯定样本,这些样本是语义上不对应的样本,以获得更高的表示质量。我们的工作涉及事件级的时间对应,这与[34]中研究的实例级视听活动识别。已 经 提出了各种深度学习方法,通过将音频作为补充模态来提高动作识别的准确性[31,29,26,62,19,59]。虽然大多数的ex-american作品只是简单地连接音频和视觉功能,蒸馏为基础的作品[19,11]使用多模态的concatenation。Gao等人[19]使用从视频模型到图像-音频模型的多模态蒸馏来进行动作识别。Chen等人[11]提出将知识从单模态图像和音频网络提取到视频网络以用于视频分类。由于视频网络仅输入图像序列而不输入音频,因此多模态融合不是2239××必需的.除了这些现有的作品,王等。[59]研究由于固有的模态偏差,朴素方法可能不是训练多模态分类网络的最佳解决方案。他们建议通过添加两个单独的单峰分支并进行加权混合来使用联合我们的学习机制在多任务联合训练方面与这种方法类似,但我们的训练方案适用于多个事件特定层,以解决适当的多感觉整合。由于变压器的日益普及[57],最近的作品[37,46]设计了具有音频和视频信号输入的变压器架构。与这些基于重型Transformer的方法相比,我们的工作考虑了与轻型骨干网络的多种类型的跨模态交互,并适用于简单识别任务之外的深入视频理解。更广泛的视听学习任务。最近关于视听学习的著作使用听觉和视觉信号之间的自然对应关系进行不同的任务,而不是表征学习和动作识别,包括视听声音分离[13,14,15,17,18,1,69,66,声源定位[47,5,48,55,23],音频生成[70,35,16,68,64]和视听事件本地化[30,53,61]。与所有这些作品不同,我们专注于将音频和视觉形式的多感官整合,而不假设它们总是对应的。认知科学我们的设计是基于大量生物学、心理学和认知科学研究中关于大脑多感觉整合的发现[51,49,50,25,38,39,9]。基本上,它们表明,在音频和视频信号的所有时间步长处的完全成对对应不是最佳的,因为这些信号包含不同的关系[25,49,50];即,依赖于简单连接或全局池化的单个机制仅解决有限的情况。这些研究的证据还表明,大脑在感知中解决了两个问题:1)根据不同的感觉形式是来自共同的还是独立的事件,将它们结合或分离;(2)如果它们走到一起,就设计出适当的方法将它们结合起来。这些研究表明,人类大脑在整合不同的感觉信号时,使用不同类型的感知因素,如时间、空间、语义和结构在我们的工作中,我们从这些研究中获得灵感,并通过设计多感觉事件特定层来正式确定多感觉绑定与3. 方法我们模型的目标是从每个多感官层的角度理解和预测代表视频的准确标签。大多数现有的作品[31,29,26,62,59]使用剪辑级别分类器,该分类器采用短剪辑(1或2秒)。然后计算视频级预测图2. 我们的多感官系统。该模型由提取视频级特征zV和zA的视频和音频骨干网络组成。这些特征被输入到特定事件层,以实现多感官整合。每个层单独处理特征并预测类别标签。通过平均每个片段的分类分数。这些片段分类器是通过利用简单的融合(例如,级联,随后简单平均)视听特征,其中假设音频和视觉信号是相关的并且在时间上对准。如第1节所述,可以通过考虑更复杂的关联来改进现有的视频分类和理解首先,视频中的音频和视觉事件可能不会一直以紧密关联的方式发生。它们也可以在每个单独的模态中单独发生。其次,这些视听对应可以具有不同的特征,例如连续的,有节奏的或孤立的即时事件[49,51]。我们提出的架构解决了这些问题,通过使用各种多感官事件特定的层。骨干网络。给定视频剪辑V及其相应的音频A,我们的骨干网络提取每个模态的特征。我们使用两个流架构,分别利用每种形式,类似于其他现有的视听学习作品。我们的主干网络需要整整10秒。视频和音频帧,并为每种模态提取每帧我们使用一个可管理的大小架构,MCx,作为时空视频流骨干,通过以下[54]进行广泛的实验。它将T帧的视频V作为输入,并生成具有维度T D的视频嵌入zV。我们的音频流骨干是[1]中使用的音频网络的修改版本。最小的修改,对于几个层,不同的核和步幅大小被应用于音频网络,以使音频嵌入和视觉嵌入的时间维度相同。我们的音频流主干采用10T帧的对数梅尔频谱图A,并提取具有类似于视频特征的维度T D的音频嵌入zA因此,每个视频特征都有对应的音频特征,并且我们不需要任何复制或平铺操作来匹配音频和视频特征维度。2240O·|O|不不不t=1不不|K|不不不不·KK3.1. 多感觉事件特异性层为了处理不同的多模态事件类型,我们将专家层设计为视听网络的多头(见图1)。2)的情况。将i定义为每个层的索引,该层从骨干网络获取zV和zA,并输出视频级预测Oi。我们在下面详细解释每一层。请注意,所有呈现的层本身都是无参数的连续事件层。该层是音频和视频信号的通用集成方法,通过对来自两种模态的每组帧特征执行时间聚合,并假设音频和视频信号在整个视频中是时间相关和对齐的并且在舞蹈、乐器和鸟叫事件中重复,因为它们在与视觉信号对准的音频模态中具有突出的特性。起始事件层旨在利用音频起始,其提供有关节奏和节拍[12,58],音符以及音频事件开始的信息[43,27]。在图3中,视觉事件(打字条击中屏幕)与开始时刻(粉红色的点)同时发生。此外,几乎相等的时间间隔之间的开始时刻表明,这一事件是有节奏的。我们计算zonset如下:z起始=1Hzconcat(zV,zA),(3)在认知科学[49,50],但也在视听学习作品[40,53,28,21]作为一个占主导地位的范式。集成的视听功能。计算如下:其中= onset(A)表示音频起始时刻。 我们使用音频来计算起始时刻,因为与 复杂的视觉数据。我们可以简单地实现z. =1μTconcat(zV,zA),(1)开始(·),例如,通过测量音频信号的幅度,但是其中concat()表示两个向量的级联,并且t表示视频时间步长。 连续层的特征是z。通过平均池化在所有时间步长T上的时间聚合来获得即时事件层。另一种经常发生的视听事件是稀疏和孤立的即时事件。当音频和视觉信号在语义上相关并在短时间内同步为几个重要时刻而不是长时间持续时,这些有趣的动作就会发生该层的分配任务是通过找到在音频和视觉特征zV和zA之间分别具有最高相关性分数的时间步长(时刻)来图3示出了具有最高分数的时刻仅位于视频的最后部分中,其中汽车出现在场景中并且其与汽车声音相关(可视化为彩色帧)。这提供了音频和视觉事件之间的良好关联的时刻。视频的其余部分对视听整合没有用处,因为它只显示了一条空的道路。为了找到这样的时刻,在同一时间步长通过音频和视觉嵌入之间的成对点积计算相关性得分[21,1],然后使用得分来计算视听特征zinst. 如下所示[33]第33话,一个人的幸福。这将返回一组起始点存在于{1,···,T}范围内的时间索引。视觉事件层。到目前为止,我们的多感觉层受到人类多感觉整合的认知能力的启发,如果它们是相关的,则将多模态信号结合起来考虑到有些动作是无声的(或者某些场景具有不相关的声音,则将这些不相关的声音信号整合到视觉特征中充当有害的因此,视觉事件层被设计为仅从视觉角度识别事件。它执行为每个视觉帧特征分配零值音频特征并应用Eq.(1)输出z视觉。音频事件层。类似于视觉事件层,场景可能具有在视野之外但仍然可听到的事件,或者视觉信号可能与伴随的音频完全无关。此外,一些视频可能具有较差的视觉信号。为了使我们的网络仅使用音频模态,音频事件层将零值视觉特征分配给每个音频帧特征,并应用等式(1)计算z音频。3.2. 培训zinst.=1μmconcat(zV,zA),(2)有了主干和事件特定层,我们可以-从每个层中获取不同的表示,哪里表示根据高相关性分数的前k个时间步长的集合as=top-k(Sav),并且分数列表Sav[t]=zVzA。也就是说,通过对前k个时间步长处的特征求平均来获得发作事件层。另 一种类型的视听事件可以在规则时间点的事件发生上被集成,即,节奏[51,9]。例如,声音有节奏地发生相同输入,即,音频和视频功能的骨干网络。为了使每个层产生最终的C类预测输出Oi,令i为每个层的索引,如图2所示使用单独的全连接层。采用多任务联合学习的方式,对整个网络进行多头训练。我们将相同的损失施加到具有监督标签的各个层,其中相同视听信号之间的这种时间一致性不仅对视听感觉整合起着关键作用,t∈O为了更好地定位起始点,我们使用标准音频li-t∈K2241·E{} L·×|K|ΣP图3. 视听事件层的采样位置。 我们展示了视听事件特定层如何执行基于时间索引的池化操作。a)即时事件层挑选音频和视觉特征高度关联的时刻,由中间行中的AV对应热图突出显示b)起始事件层仅将音频起始时刻(波形上的粉红色点)池化到特征计算中。c)连续事件层采用传统的均匀采样的全局平均池化来获取全局上下文信息。粉红色的点表示音频开始时刻,并且仅出于参考目的在(a)和(c)中可视化。在标题上给出单个标签,如:Dataset Audio Only Vision Only Naive AV OursLmulti=i∈E Li(Oi,y),其中Oi= FCi(zi),(4)=0.,仪器,onset、visual、audio,()是交叉熵损失,FC()是全连接层,O和y分别是预测输出和标签。我们同样重视每一个损失。强加的损失可能看起来是多余的,但在之前的多模态学习研究[59]中已经证明是有效的,其中对特定模态头部的主导可以通过这种类似的在我们的案例中,我们通过鼓励尽可能多地拥有超视相关信号来平衡事件类型4. 实验我们首先评估我们的方法,视频级分类的四个视听数据集。然后,我们展示了我们提出的方法的其他弱监督特征:从单标签训练和声源定位任务中预测多标签的能力,而无需任何额外的训练。我们还分析了事件特定层的特征。最后,我们表明,所提出的层可以对现有数据集进行事件特征分析,这些数据集可能与许多潜在的应用程序有关。4.1. 设置数据集。 我们在五个视频数据集上实验了我们的方法:VGGSound [10]和Kinetics-400 [24]用于动作识别数据集,前者是专门为视听学习设计的。Kinetics-Sound[4]是用于视听学习任务的子采样的Kinetics的子集,AVE[53]用于视听事件定位,LLP[52]是用于视听视频解析的实施详情。更多详情请参见补充材料。我们遵循用于音频预处理的现有技术[1,62]对于所有实验,我们以16kHz采样率对音频进行采样,并且所有输入音频长度被修剪为10秒。我们将音频转换为大小为1000×80的log-mel频谱图,表1. 我们提出的模型和基线的视频级分类性能。一个修改过的音频网络[1]。MC 3 -18 [54]被用作视频网络,它需要T=100帧的大小112112输入。 我们为即时事件设置=10分层计算我们对每个数据集应用相同的训练过程,如下所示。首先,我们用给定的目标数据集从头开始训练音频骨干网络。视频骨干网络通过使用在Kinetics- 400上预训练并在目标数据集上微调的MC 3 -18进行初始化最后,我们通过使用这些预先训练的骨干网络作为初始化,以端到端的方式使用特定于事件的层来训练我们的多任务模型4.2. 视频理解任务分析视频分类是一个用单一标签对视频进行分类的任务。由于我们的模型从特定于事件的层输出多个预测,因此我们通过多数表决将它们整合,以输出单个预测,vote=arg maxkiI(p i=k),其中p i是来自第i个事件特定层的预测标签,定义为argmaxjO ij,j是向量O i的索引,I是指示符函数,对于真语句返回1,否则返回0。 在不存在多数共识的层之间的不一致的情况下,选择来自最置信层的标签。我们进行了一系列实验,以显示我们的模型预测视频级标签的效果我们将模型的性能与表1中不同数据集的基线进行了比较。请注意,我们的目标不是在分类准确性上与任何其他昂贵的视频识别模型竞争相反,我们表明,我们的事件特定层从模态和事件特征方面的独特视角分析视频,这导致了改进VGGSound47.040.957.159.1动力学-声音64.280.586.188.3Ave79.176.186.087.8动力学21.461.066.667.02242定义为P=PargmaxjOi,j. 用这种简单的方式图4. VGGSound上的单到多标签预测。原始注释是单个标签,而典型的视频包含多个事件,动作或类别。我们的多头设计预测了多标签,使视频的描述更加全面分类。表1中的单模态网络的准确度描绘了用单流模态训练的骨干网络的准确度。朴素视听模型(朴素AV)表示利用后期融合方法(简单concat.和全局池化)用于如在先前的工作[59,28,31]中所使用的最终如表1所示,我们的方法在基准数据集中提供了整体性能的改进。我 们的模型在视 听对应的数 据集上更有 效,VGGSound、Kinetics-Sound和AVE,以及周围的改进百分之二。 我们的业绩-动力学证明不太显著,这是一致的与[37],因为它是一个视觉主导的数据集,其中许多视频我们的多头设计是否具有多标签预测能力?通常,大规模视频数据集,VGG-Sound和Kinetics,使用主导事件的单个标签进行注释。因此,注释忽略可能在视频中共同发生的其他事件。我们的网络由多个事件特定的层组成,每个层都输出自己的标签预测。作为一种提取多个输出的简单方法,我们收集每个层的最有信心的预测,直接形成一个多标签预测集。具体地,令Pi是来自第i个事件特定层r的预测标签。 你好。,一组标记的预测P可以是我数据集我们的朴素AV上一页-1上一页-2上一页-3上一页-4上一页-5LLP0.720.66 0.70 0.63 0.560.50表2. 通过F1评分测量的多标记预测。我们将我们的结果与作为基线的Naive-AV模型的前K结果进行top-K naive方法输出K个预测,而我们的模型根据事件特定层的共识动态输出多标签预测。在表2中,我们表明我们的方法确实具有更好的能力来预测Top-K基线上的正确多标签,尽管每个视频片段仅使用单个标签进行训练。此外,它显示了我们的多标签预测的一个有利特征。 虽然Top-2的性能与我们的相当,但我们的方法可以自适应地决定输出标签的数量(K),而基线Top-K无法决定实际使用的K,因为地面真实多标签的数量是未知的。例如,图4的第2行中所示的视频包含演奏两种以上乐器的人。在这种情况下,Top-2只输出两个预测,而我们的模型输出两个以上的预测。另一方面,当只有一个主导事件时,我们的模型倾向于只输出一个预测,而Top-2基线仍然强制输出两个预测。要回答第二个问题,用一个标签标注我们还进行聚合多个预测,我们可以分析,特定于事件的层使我们能够从不同的视角看到视频的内容这种多标签分析可用于回答“我们的网络的多标签预测正确吗?”的问题或者“像VGGSound这样的现有数据集是否在视频中包含多个事件,但仅用单个标签进行注释?“. 为了回答第一个问题,在表2中,我们对LLP数据集进行了一个实验,因为它包含每个视频的多个标签(每个视频的平均标签数为1。81),这允许评估我们的网络预测的多标签的正确性。我们在LLP上训练我们的模型,但是每个视频只有一个标签,这样我们就可以测量我们的多头层预测正确的多标签的能力,尽管是单标签训练。多标签检查评估。 然而,没有多-标签VGGSound数据集的地面实况。相反,我们会根据给定的视频内容,检查我们网络的总预测中有多少实际上与 人类答案 相匹配。 在这个测 试中,我 们从VGGSound数据集中抽取了近1200个视频的部分子集,并要求12名受试者评估我们的模型获得的预测标签。当我们的网络在VGGSound数据集上进行评估时,不同预测标签的平均数量是2。21岁3用户研究表明,所有预测标签中有62%与人类选择匹配,这意味着我们的网络输出1。平均每个样品4个正确标签。 图4定性地显示了多个3由于我们利用五种类型的层,因此预测集的基数为1≤| P|≤ 5。2243不不∈V ∈V·∨ ∧¬图5. 声源定位。 我们的骨干网络在空间和时间上正确地定位声音,作为模型的自然结果,而无需任何明确的声音定位训练。数据集连续即时发作(Ins.Ons.)(续)VGGSound 354 407 230 778动力学-声音1818934Ave74312LLP25472274动力学366567258985表3.正确预测视频的逐层统计。标签与人类受试者和我们的网络保持一致。这项研究将证明VGGSound确实是一个多标签数据集,单个标签不足以正确描述视频。通过这种方式,我们注释了VGGSound数据集中近1200个视频的部分子集,称为多标记VGGSound。细节在supp里。材料我们的学习特征是可解释的吗? 我们的事件特定层旨在以不同方式选择视听相关时刻:例如,即时事件层捕捉高度相关的视听时刻。因此,为了更好地理解这些时刻和分析,我们可视化声音定位响应α,其中α= tzA,tRH′×W′×D是来自视频骨干网络最后一个连接层的视觉动作,zARD是时刻t的音频嵌入[48,1]。请注意,这不需要任何单独的额外培训。我们在图5中定性地显示,尽管没有针对该任务进行单独的训练,但来自骨干网络的特征可以可靠地定位声源。只有当女孩吹长笛时,定位反应才会激活,否则就会失效。这证实了我们的模型不仅在空间上关注源出现在视频中的位置,而且还关注事件声音何时发生。请参阅supp。材料更多的结果。因此,我们的习得性表征是训练有素的,它充分地定位了事件的来源。事件特定层是否互补?为了说明这一点,在表3的前三列中,我们首先计算连续层、即时层和起始层中的一个将其分类为真实类的唯一视频样本,而其余两个层预测不同的类。有趣的是,每层的那些样品的数量是相当的。这表明,每个层确实在视频中寻找不同的在最后一列中,我们对连续层(传统融合层)失败但即时或起始层正确预测的它表明与由连续层唯一捕获的样本相比,瞬时层和起始层捕获大量的也就是说,我们新提出的层,即时层和起始层,对连续层的贡献明显,并且确实是互补的。对于视频中的典型事件,对于一些视频,信息时刻(特征)的数量可能少于无信息时刻(特征)的数量因此,使用时间步长特征的信息子集,即,瞬时或开始,可以提高这些视频的准确性,因为忽略了不相关的特征。此外,在同一个“汽车”示例中也可以看到即时事件层和起始事件层之间的差异。起始事件层使用起始时刻,即,粉红色的点,它们被分组在真实动作开始之前的部分中,而即时事件层捕获视频的即时的、高度视听相关的时刻,即,蓝色虚线框。相比之下,连续事件层从每个时间步汇集两种模态的特征的信息,而不考虑它们的显然,单一类型层不是多模态融合的最佳方式,因为音频和视觉事件具有不同的关系。我们表明,我们的事件特定的层是互补的,这来自于设计的时刻选择机制(参见方程。1、2和3)。因此,我们展示了我们的模型可以更深入地解释视频。层可视化。为了更好地了解每个事件特定层学习了什么,我们在图6中可视化了一些被每个视听层最大程度激活的视频。瞬时事件层具有短周期、高强度的类模式;起始事件层捕获类节律模式;而连续事件层示出时间上恒定的类事件。我们还可视化了每一层的预测。对应于视频的事件类型的事件特定层输出正确的预测,而其余的事件特定层失败。数据集的事件特征分析。我们应用我们的方法来理解数据集的事件特征。每个数据集具有不同的事件属性,例如大部分视频可能主要包含特定的事件类型[60],即,动力学是一个视觉上有偏差的数据集[37]。我们提出的问题是通过分析每个视频来找到给定数据集中最主要的我们的方法可以很容易地检测出主导事件类型2244图6.从事件特定层中可视化代表性特征。每一层都捕捉到一个独特的视听特征。请注意,我们的多感官模型不仅可以正确检测事件类型,还可以在层内进行准确的类别预测。数据集连续即时发作视听总计VGGSound6239684199309动力学-声音251311031Ave10491428LLP4563725动力学7389691672400表4.数据集的事件特征。 我们报告了分配给每个多感觉层的类别数量。通过检查哪个事件特定层在地面真值类y上具有最高分数,如arg maxi0i,y,通过这种技术,我们可以找到每个类别和每个数据集的事件特征。为了找到具有主导事件类型的类别,我们对每个类别应用多数投票规则,并将投票最多的事件类型标签分配给该类别。通过这种方式,我们可以获得数据集中类别的事件类型在我们的测试中,诸如“保龄球撞击”或“溅水”的类别与即时层相关联,或者“空调噪声”被分配给连续层。请参阅补充资料,了解按类别分配事件类型的结果。表4显示了为数据集分配给每个层的类别数量的汇总。我们的分析表明,与这些数据集的先验知识一致的结果。结果清楚地表明,动力学是visually占主导地位的类别分配给视觉层的数量AVE是为视听学习而策划的,我们的方法通过AV层的主导地位来验证它LLP [52]报告说,大多数注释事件是音频事件。我们的分析也证实了倾向于音频模态。此外,我们进行了一个实验,看看有多少类别的动力学声音匹配的视听categories,我们的方法发现动力学。这表明66%的动态声音类别是匹配的。因此,我们的事件类型选择给出了与人类选择一致的结果请看supp。材料的细节。5. 总结发言我们提出了一个多感官模型与事件特定的层,结合不同的视听关系,并证明了我们的模型在五个不同的视频数据集与不同的视频集的功效与先前的视听模型不同,我们的事件特定层输出多个预测。这为视听理解带来了新的未来研究方向。最后,我们讨论了我们工作的潜在应用,并在补充材料中提出了潜在应用。 我们的方法可以打开有用的潜在应用- 1)模态级视频理解:在单个视频剪辑中,不同的模态可能在不同的时间戳在视频理解中发挥关键作用。我们的方法可以使用每个层的置信度来判断依赖哪种模态来理解视频中正在发生的事件与类别预测相反,这种模态级别的视频理解将是至关重要的,并且是对现有方法的补充,2)缺失标签检测:此外,凭借我们方法的多标签预测属性,我们的方法可以发现潜在的标签,因此可以用于通过检测缺失标签来建立更全面的数据集,以及3)数据集重定向/重定向:我们的方法可以进一步用于对每个视频进行模态/事件级分类的重定位或清理,以便我们可以轻松创建特定于应用程序的子数据集。这些将在集成到视频注释系统中时改进视频注释系统补充材料中讨论了更详细的情况2245引用[1] Triantafyllos Afouras , Andrew Owens , Joon SonChung,and Andrew Zisserman.视频中视听对象的自监督学习欧洲计算机视觉会议(ECCV),2020年。[2] Hassan Akbari,Liangzhe Yuan ,Rui Qian ,Wei-HongChuang , Shih-Fu Chang , Yin Cui , and BoqingGong.Vatt:用于从原始视频、音频和文本进行多模式自监督学习的转换器。神经信息处理系统进展,2021年。[3] Humam Alwassel 、 Dhruv Mahajan 、 Bruno Korbar 、Lorenzo Torresani、Bernard Ghanem和Du Tran。跨模态音 视频 聚类 的自 监督 学 习神 经信 息处 理系 统进 展(NeurIPS),2020年。[4] Relja Arandjelovic 和 Andrew Zisserman 看 , 听 , 学 。IEEEInternationalConferenceonComputerVision(ICCV),2017年。[5] Relja Arandjelovic和Andrew Zisserman会发出声音的物体。在欧洲计算机视觉会议(ECCV),2018。[6] Yuki M浅野,帕特里克·曼德拉,克里斯蒂安·鲁普雷希特和安德烈·维达尔迪。通过多模式自我监督从头开始标 记 未 标 记 的 视 频 。 神 经 信 息 处 理 系 统 进 展(NeurIPS),2020年。[7] 尤 瑟 夫 · 艾 塔 卡 尔 · 冯 德 里 克 安 东 尼 奥 · 托 拉 尔 巴Soundnet:从未标记的视频中学习声音表示神经信息处理系统(NeurIPS)的优势,2016年。[8] 尤瑟夫·艾塔卡尔·冯德里克安东尼奥·托拉尔巴看,听,读:深度对齐表示。arXiv预印本arXiv:1706.00932,2017。[9] 安德鲁·布雷姆纳,大卫·卢科维奇,查尔斯·斯宾塞。多感官发育牛津大学出版社,2012年。[10] 陈洪烈,谢伟迪,安德烈·维达尔迪,安德鲁·齐斯瑟曼 。 Vggsound : 一 个 大 规 模 的 视 听 数 据 集 。IEEEInternational Conference on Acoustics,Speech,andSignal Processing(ICASSP),2020年。[11] Yanbei Chen,Yongqin Xian,A Koepke,Ying Shan,and Zeynep Akata.通过组合对比学习提炼视听知识IEEE计算机视觉和模式识别会议,2021。[12] 亚伯·戴维斯和曼尼什·阿格拉瓦拉视觉节奏和节拍。ACMTransactions on Graphics ( SIGGRAPH ) , 2018年。[13] Ariel Ephrat、Inbar Mosseri、Oran Lang、Tali Dekel、Kevin Wilson、Avinatan Hassidim、William T Freeman和Michael Rubinstein 。 Looking to Listen at the CocktailParty : A Speaker-Independent Audio-Visual Model forSpeechSeparation.ACMTransactionsonGraphics(SIGGRAPH),2018年。[14] Chuang Gan,Deng Huang,Hang Zhao,Joshua B.泰南-鲍姆和安东尼奥·托拉尔巴。音乐手势用于视觉声音分离。IEEE计算机视觉和模式识别会议(CVPR),2020。[15] Ruohan Gao,Rogerio Feris,and Kristen Grauman.通过观看未标记的视频来学习分离物体的声音。欧洲计算机视觉会议(ECCV),2018年。2246[16] Ruohan Gao 和 Kristen Grauman 。 2.5D 视 觉 声 音 。 在IEEE计算机视觉和模式识别会议(CVPR),2019年。[17] Ruohan Gao和Kristen Grauman。共同分离视觉对象的声音。IEEEInternational Conference on Computer Vision(ICCV),2019。[18] Ruohan Gao和Kristen Grauman。视觉之声:具有跨模态一致性的视听语音分离。在IEEE计算机视觉和模式识别会议(CVPR),2021年。[19] Ruohan Gao , Tae-Hyun Oh , Kristen Grauman , andLorenzo Torresani.听听看:通过预览音频识别动作。IEEE计算机视觉和模式识别会议(CVPR),2020。[20] Bernard Ghanem、Juan Carlos Niebles、Cees Snoek、Fabian Caba Heilbron 、 Humam Alwassel 、 VictorEscorcia、Ranjay Krishna、Shyamal Buch和Cuong DucDao。activitynet大型活动识别挑战赛2018总结。arXiv预印本arXiv:1808.03766,2018。[21] Tavi Halperin,Ariel Ephrat,and Shmuel Peleg.语音到嘴唇的动态时间对准。IEEEInternational Conference onAcoustics,Speech,andSignalProcessing(ICASSP),2019年。[22] 胡迪,聂飞平,李雪龙。用于无监督视听学习的深度多 模 态 聚 类 在 IEEE 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR),2019年。[23] Di Hu , Rui Qian , Minyue Jiang , Xiao Tan , ShileiWen,Errui Ding,Weiyao Lin,and Dejing Dou.通过自监督视听匹配的有区别的神经信息处理系统进展(NeurIPS),2020年。[24] Will Kay 、 Joao Carreira 、 Karen Simonyan 、 BrianZhang、Chloe Hillier、Sudheendra Vijayanarasimhan、Fabio Viola、Tim Green、Trevor Back、Paul Natsev、Mustafa Suleyman和Andrew Zisserman。人体动作视频数据集。arXiv预印本arXiv:1705.06950,2017。[25] Christoph Kayser和Ladan Shams。大脑中的多感官因果推理。PLoS Biol,13(2):e1002075,2015.[26] Evangelos Kazakos、Arsha Nagrani、Andrew Zisserman和Dima Damen。Epic融合:以自我为中心的动作识别的 视 听 时 间 绑 定 。 IEEEInternational Conference onComputer Vision(ICCV)
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功