视听分割：声音与视觉之间的桥梁

189 浏览量更新于2023-11-30 收藏 2.96MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文音频-视频分割周金星1， 2，王建元3，张佳一2， 4，孙伟轩2， 3，张静3，斯坦·伯奇菲尔德5，郭丹1，孔令鹏6， 7，王梦1，钟怡然2， 71合肥工业大学，2商汤科技，3澳大利亚国立大学、4北京航空航天大学、5英伟达、6香港大学、7上海人工智能实验室{eric.mengwang，zhongyiran} @ gmail.com抽象的。我们建议探索一个新的问题，称为视听分割（AVS），其中的目标是输出的对象（S），在图像帧的时间产生声音的像素级地图。为了促进这项研究，我们构建了第一个视听分割基准（AVSBench），为可听视频中的声音对象提供像素级注释使用该基准研究了两种设置：1）具有单个声源的半监督视听分割和2）具有多个声源的全监督视听分割为了处理AVS问题，我们提出了一种新的方法，使用一个时间像素明智的视听交互模块注入音频语义作为指导的视觉分割过程。我们还设计了一个正则化损失，以鼓励在训练过程中的视听在AVS-Bench上的定量和定性实验将我们的方法与相关任务中的几种现有方法进行了比较，表明所提出的方法有希望在音频和像素视觉语义之间建立桥梁代码可在www.example.com上获得https://github.com/OpenNLPLab/AVSBench。关键词：视听分割，多模态，AVSBench。1介绍人类不仅可以根据物体的视觉外观，还可以根据它发出的声音来例如，当我们听到狗叫或警笛声时，我们知道声音分别来自狗或救护车这些观察证实，视听信息是相辅相成的。到目前为止，研究人员已经从一些简单的场景中研究了这个问题。一些研究人员研究了视听对应（AVC）[2，3，4]问题，其目的是确定音频信号是否平等贡献。通讯作者。这项工作是在周金星（Jinxing Zhou）在商汤科技（SenseTime Research）实习时完成的。arXiv：2207.05042v2 [cs.CV] 2022年9+v：mala2255获取更多论文2J. Zhou等人音频视频SSLAVSFig. 1. 建议的AVS任务与SSL任务的比较。声源定位（SSL）估计一个粗略的位置的声音对象在视觉帧，在补丁的水平。我们建议AVS估计像素的分割掩模为所有的发声对象，无论可见的发声对象的数量。左：狗叫声的视频右：视频有两个声源（人和钢琴）。和视觉图像描述同一场景。AVC基于这两个信号通常同时发生的现象，一只狂吠的狗和一辆嗡嗡作响的汽车。其他人研究了视听事件定位（AVEL）[21，23，40，44，46，47，31，32，9，53]，它将视频片段分类为预定义的事件标签。类似地，一些人还探索了视听视频解析（AVVP）[39，43，22，48]，其目标是将视频划分为若干事件并将其分类为可听、可见或两者。由于缺乏像素级注释，所有这些场景都被限制在帧/时间级别，从而将问题减少到可听图像分类的问题一个相关的问题，被称为声源定位（SSL），旨在定位与声音对应的帧内的视觉区域 [2 ， 3 ， 37 ， 8 ， 29 ， 5 ， 18 ， 30 ， 19] 。与AVC/AVEL/AVVP相比，SSL的问题寻求补丁级场景理解，即，结果通常由热图表示，热图通过可视化音频特征和视觉特征图的相似性矩阵或通过类别激活映射（CAM）[52]获得，而不考虑发声对象的实际形状。在本文中，我们提出了像素级的视听分割（AVS）问题，它要求网络密集地预测每个像素是否对应于给定的音频，从而生成发声对象的掩码图1示出了AVS和SSL之间的差异。AVS任务比以前的任务更具挑战性，因为它要求网络不仅定位可听帧，而且描绘发声对象的形状。为了促进这项研究，我们提出了AVSBench，第一个像素级的音频-视觉分割基准，提供地面真实标签的声音对象。我们将AVSBench数据集分为两个子集，具体取决于视频中发声对象的数量（单源或多源）。利用AVS-Bench，我们研究了两种视听分割设置：1）半监督单声源分割（S4）和2）全监督多声源分割（MS 3）。对于这两种设置，目标是从产生声音的视觉帧中分割对象我们测试了六种方法人谈话人谈话男人说话，弹钢琴弹钢琴弹钢琴狗叫狗叫狗叫狗叫狗叫+v：mala2255获取更多论文音频-视频分割3从AVSBench上的相关任务中，提供了一种新的AVS方法作为强基线。后者利用标准的编码器-解码器架构，但具有新的时间逐像素视听交互（TPAVI）模块，以更好地引入用于指导视觉分割的音频语义。我们亦建议损失函数利用视听信号的相关性，这进一步增强了分割性能。我们的贡献可以总结如下：1）我们提出了AVS作为一个细粒度的视听场景理解任务，并介绍AVSBench，一个新的数据集提供像素级的注释AVS; 2）我们设计了一个端到端的AVS框架，它采用了一个新的TPAVI模块编码时间像素级的视听交互，和正则化损失，以进一步利用视听相关性;和3）我们进行了广泛的实验，以验证考虑音频信号的视觉分割的好处。我们还比较了几个相关的方法，以显示我们提出的方法在这两种设置的优越性2相关工作声源定位（SSL）。与我们最密切相关的问题是SSL，它旨在定位视觉帧中负责声音的区域。SSL的预测通常是从学习的音频特征和视觉特征图的相似性矩阵计算的[2，3，37，8，29，5]，显示为热图。SSL也可以根据声源的复杂程度分为两种设置，即：单个和多个声源定位。在这里，我们专注于多个声源的挑战性设置，这需要在多个潜在候选者中准确定位真正的声源[18，1，30，19]。在开创性的工作中，Huet al. [18]将音视频特征划分为多个聚类中心，以中心距离为监督信号对配对的音视频信息进行排序。Qian等人[30]首先训练视听对应模型以提取音频和视觉信号的粗略特征表示，然后使用Grad-CAM[36，38]来可视化用于定位的类特定特征。此外，Huet al. [19]采用两阶段的方法，首先学习单声源条件下的视听语义，利用这些学习到的知识来帮助多声源定位。Rouditchenko等人[34]通过在神经网络中解开类别概念来解决这个问题。这种方法实际上与声源分离的任务更相关[51，12，50，13]，并且在视觉定位方面表现出次优性能尽管这些现有的SSL方法指示图像中的哪些区域正在发出声音，但结果并不能清楚地描绘对象的形状。相反，通过从低分辨率对视听相似性矩阵进行上采样来计算位置图。此外，上述方法在捕获发声对象的形状时都依赖于无监督学习，这在一定程度上受到缺乏注释数据集的影响。为了克服这些限制，本文提供了一个具有像素级地面真实标签的视听分割数据集，这使得能够实现更准确的分割预测。+v：mala2255获取更多论文4 J. Zhou等人。#视频350300250200150100500图二. AVSBench的整个单源子集的统计数据。文本表示类别名称。例如，“直升机”类别包含311个视频样本。视听数据集。据我们所知，没有公开可用的数据集为具有音频信号的声音视觉对象提供分割掩模。在这里，我们简要介绍了视听社区中流行的数据集。例如，AVE[40]和LLP[39]数据集分别收集用于视听事件定位和视频解析任务。它们仅具有视频帧的类别注释，因此不能用于像素级分割。对于声源定位问题，研究人员通常使用Flickr-SoundNet[37] 和 VGG-SS[5] 数据集，其中视频分别从大规模 Flickr[4] 和VGGSound[6]数据集中采样作者提供了边界框来概述目标声源的位置，这可以作为补丁级的监督。然而，这仍然不可避免地遭受不正确的评估结果，因为发声物体通常在形状上是不规则的，并且边界框内的一些区域实际上不属于真实声源。这就是为什么目前的声源定位方法只能粗略地定位发声对象，但不能学习它们的准确形状，这抑制了从音频信号到细粒度视觉线索的映射。3AVSBench3.1数据集统计数据AVSBench专为像素级视听分割而设计。我们使用VGGSound[6]中介绍的技术收集视频，以确保音频和视频剪辑符合预期的语义。AVSBench包含两个子集-单源和多源-取决于声音对象的数量。所有视频都是从YouTube上下载的，具有Creative Commons许可证，每个视频都被修剪到5秒。单源子集305299293298260249311277247222180220197205196122916281149200192276+v：mala2255获取更多论文音频-视频分割5表1. AVSBench统计。视频分为train/valid/test。aster- isk（）表示，对于单源训练，每个视频提供一个注释;所有其他注释每个视频包含5个注释。（由于每个视频有5个剪辑，因此每个剪辑有1个注释。）这些一起产生总的注释帧。子集类视频训练/有效/测试注释帧单一来源234,9323，452/740/74010,852多源23424296/64/642,120表2.现有视听数据集统计。每个基准都显示了视频和注释帧的数量。最后一列指示是否通过类别、边界框或像素级掩码来标记帧基准视频帧类类型注释AVE[40]4,14341,43028视频类别LLP[39]11,84911,84925视频类别[37]第三十七话5,0005,00050图像bboxVGG-SS[5]5,1585,158220图像bboxAVSBench（我们的）5,35612,97223视频像素包含超过23个类别的4，932个视频，包括来自人类，动物，车辆和乐器的声音图2，我们显示类别名称和每个类别的视频编号为了收集多源子集，我们选择了包含多个声音对象的视频，例如，一段婴儿大笑，男人说话，然后女人唱歌的视频。具体来说，我们从Single-source子集中随机选择两到三个类别名称作为关键词来搜索在线视频，然后手动过滤视频，以确保1）每个视频都有多个声源，2）发声对象在帧中可见，3）没有欺骗性的声音，例如，罐装的笑声总的来说，该过程在六千多个候选数据中产生了多源子集的424个视频。训练/验证/测试分割百分比的比率设置为70/15/15如表1所示。图3中显示了几个视频示例，其中红色文本表示发声对象的名称。此外，我们在表2中将AVSBench与其他流行的视听基准进行了比较。AVE[40]数据集包含4，143个视频，涵盖28个事件类别。LLP [39]数据集由 11 ， 849 个 YouTube 视频剪辑组成，涵盖 25 个类别，从AudioSet [14]收集。AVE和LLP数据集都是通过视听事件边界在帧级别上标记的。同时，Flickr-SoundNet[37]数据集和VGG-SS[5]数据集被提出用于声源定位（SSL），通过边界框在补丁级别进行标记。相比之下，我们的AVSBench包含5，356个视频，其中包含12，972个像素级注释帧。该基准测试旨在促进细粒度视听分割的研究此外，它为声源定位提供了准确的地面实况，这有助于+v：mala2255获取更多论文6 J. Zhou等人。救护车警报器八哥鸟鸣割草机马蹄声吉他与ukulele小提琴和钢琴的人婴儿与狗钢琴手(a) （b）多源子集中的视频示例图3. AVSBench示例。 AVSBench数据集包含单源子集（左）和多源子集（右）。每个视频分为5个片段，如图所示。带注释的剪辑由棕色框架矩形表示;发声对象的名称由红色文本表示。请注意，对于单源训练集，只有每个视频的第一帧被注释，而所有其他集合都注释了5帧SSL方法的培训，并作为该问题的评估基准。3.2注释我们将每个5秒的视频分为5个相等的1秒剪辑，并为每个剪辑的最后一帧提供手动像素级注释。对于该采样帧，根据相应时间的音频，地面实况标签是指示发声对象的像素的二进制掩码。例如，在多源子集中，即使跳舞的人在空间上显示剧烈的运动，只要没有发出声音，就不会被标记。在对象不发出声音的剪辑中，对象不应被掩蔽，例如，图3b的最后一行的前两个片段中的钢琴。类似地，当多于一个对象发出声音时，所有发出声音的对象都被注释，图3b中第一行的吉他和尤克里里琴。而且，当视频中的发声对象动态变化时，难度进一步增加，例如，图3b中的第二、第三和第四行。目前，对于大型对象，我们只注释其最具代表性的部分。例如，我们给钢琴的键盘贴上标签，因为它足够容易识别，而钢琴的橱柜部分往往变化太大。我们使用两种类型的标记策略，基于单源和多源子集之间的不同困难。对于单源的训练分割中的视频，我们只注释第一个采样帧（假设来自一次性注释的信息是足够的，因为单源子集随着时间的推移具有单个且一致的声音对象）。+v：mala2255获取更多论文ASPPt=1不t=1不 t=1编码器宽×宽 ×宽WWWW型号1：100×4×4×�� 100产品型号：100×100×100产品编号��：10000000��电话：+86-21 -6666666传真：第一阶段第二阶段第三阶段第四阶段视觉编码器视觉编码器视觉编码器视觉编码器中文100秒123$音频编码器123$第四阶段第三阶段第二阶段第一阶段解码器WWWW产品编号：P$：100×200×200P3：1000×4000��×P2：1000×��800P1：��16 ×16×16×16TPAVITPAVITPAVITPAVIASPPASPPASPPASPP视听分割7见图4。基线概述，它遵循分层编码器-解码器流水线。编码器将视频帧和整个音频片段作为输入，并输出视觉和音频特征，分别表示为Fi和A。每个阶段的视觉特征图Fi进一步发送到ASPP [7]模块，然后发送到我们的TPAVI模块（在第2节中介绍）。4）。ASPP提供了不同的感受野识别视觉对象，而TPAVI侧重于时间像素的视听交互。解码器通过四个阶段逐步放大融合的特征图，并最终生成用于发声对象的输出掩码M。该假设通过表3所示的定量实验结果得到验证。对于更具挑战性的多源子集，所有剪辑都被注释用于训练，因为发声对象可能会随时间而变化。请注意，对于验证和测试分割，所有剪辑都被注释，如表1所示。3.3两个基准设置我们为AVSBench数据集提供了两个基准设置：半监督单声源分割（S4）和全监督多声源分割（MS3）。为了便于表达，我们将视频序列表示为S，其由T个不重叠但连续的剪辑{Sv，Sa}T，其中Sv和Sa是视觉和音频分量，并且T = 5。在实践中，我们在每秒结束时提取视频帧。半监督S4对应于单源子集。它被称为半监督的，因为在训练期间只给出了部分基础事实（即，视频的第一采样帧），但是所有的视频帧都需要评估期间的预测。我们将逐像素标记表示为Ys∈RH×W，其中H和W分别是框架高度和宽度。Ys是二进制矩阵，其中1指示发声对象，而0对应于背景或无声对象。完全监督的MS3处理多源子集，其中每个视频的所有五个采样帧的标签可用于训练。地面+v：mala2255获取更多论文t=1∈∈∈8 J. Zhou et al.真值表示为{Ym}T，其中Ym∈RH×W 的二进制标签第t个视频剪辑。t t=1t这两种设置的目标都是通过利用音频和视觉提示，即，Sa和Sv.通常，期望Sa指示目标对象，而Sv提供信息用于细粒度分割。预测值表示为{Mt}T，Mt∈RH×W。半监督和全监督设置都以类别不可知的方式进行，使得模型适用于一般视频。4A基线我们提出了一种新的基线方法，用于像素级视听分割（AVS）任务，如图4所示。我们在半监督和全监督设置中使用相同的框架。遵循语义分割方法的惯例[25，33，41，45]，我们的方法采用编码器：我们独立提取音频和视觉特征。给定一个音频片段Sa，我们首先通过短时傅立叶变换将其处理为频谱图，然后将其发送到卷积神经网络VGGish [17]。我们使用在AudioSet [14]上预训练的权重来提取音频特征ART×d，其中d=128是特征维度。对于视频帧Sv，我们利用流行的基于卷积或基于视觉Transformer的主干提取视觉特征。我们在实验中尝试了两种选择，它们显示出相似的性能趋势。这些主干在编码过程中产生分层视觉特征图，如图4所示。我们将这些特征记为FiRT×hi×wi×Ci，其中（hi，wi）=（H，W）/2 i+1，i=1，. . .，n.在所有实验中，水平数设定为n=4。跨模态融合：我们使用Atrous空间金字塔池（ASPP）模块[7]来进一步后处理视觉特征 Fi 至 ViRT×hi×wi×C，其中C=256。这些模块采用不同速率的多个并行滤波器，因此有助于识别具有不同感受野的视觉对象，不同大小的移动物体。然后，我们考虑引入音频信息，以建立视听映射作为-识别发声物体。这对于有多个动态声源的MS3设置尤其重要。我们的直觉是，尽管听觉和视觉信号可能不会同时出现，它们通常存在于一个以上的视频帧中。因此，整合-图五. 的TPAVI模块以第i阶段视觉特征Vi和音频特征A作为输入。彩色框表示1× 1× 1卷积，而黄色框表示重新整形操作。符号+v：mala2255获取更多论文∈Σ∈L× × ××⊙音频-视频分割9使整个视频的音频和视频信号同步应该是有益的。受[42]使用非局部块来编码时空关系的启发，我们采用类似的模块来编码时间逐像素视听交互（TPAVI）。如图5所示，当前视觉特征图Vi和整个视频的音频特征A被发送到TPAVI模块中。具体地，首先通过线性层将音频特征A变换到具有与视觉特征Vi然后，它在空间上被复制hiwi次，并被重新整形为与Vi相同的大小。我们将这种处理过的音频作为一个角色。接下来，期望找到视觉特征图Vi的那些像素其具有对通过电子视频传输的音频信道A的高响应。这样的视听交互可以通过点积来测量，然后在第i阶段的更新的特征图Zi可以被计算为，Zi=V i +µ（αig（Vi）），其中αiθ（Vi）（A）=N（一）其中θ、θ i、g和µ是111卷积，N=Thiwi是归一化因子，αi表示视听相似性，并且ZiRT×hi×wi×C。每个视觉像素通过TPAVI模块与所有音频进行交互。我们稍后在图10中提供了TPAVI中视听注意力的可视化，其示出了与SSL方法的预测类似的“ 外观 ” ，因为它构造了像素到音频的映射。解码器：我们在这项工作中采用Panoptic-FPN [20]的解码器，因为它的灵活性和有效性，尽管可以使用任何有效的解码器架构。简而言之，在第j级，其中j=2，3，4，来自级Z的输出5-j和编码器的最后一级Z6-j用于解码过程。然后将解码的特征上采样到下一阶段。解码器的最终输出是MRT×H×W，由sigmoid激活。目标函数：给定预测M和逐像素标签Y，我们将二进制交叉熵（BCE）损失作为主要监督函数。此外，我们使用一个额外的正则化项AVM来强制视听映射。具体来说，我们使用Kullback-Leibler（KL）分歧，以确保掩蔽的视觉特征具有与相应的音频特征相似的换句话说，如果一些帧的音频特征在特征空间中接近，则预期对应的发声对象在特征空间中接近。总目标函数L可以计算如下：L= BCE（M，Y）+λLAVM（M，Z，A），（2）nLAVM=（KL（avg（Mi=Zi），Ai）），（3）i=1其中λ是平衡权重，表示逐元素乘法，并且avg表示平均池化操作。在每个阶段，我们通过平均池化将预测M下采样到Mi，以具有与Zi相同的形状。向量Ai是A的线性变换，其具有与Zi相同的特征维度。对于半监督S4设置，我们发现视听正则化损失没有帮助，因此我们在此设置中设置λ+v：mala2255获取更多论文10 J. Zhou等人。5实验结果5.1实现细节我们对建议的AVSBench数据集进行训练和评估，其中包括基于卷积和基于变换的主干，ResNet-50 [16]和Pyramid Vision Transformer（PVT-v2）[41]。骨干已经在ImageNet [35]数据集上进行了预训练。所有视频帧的大小调整为224× 224的形状。对于ResNet-50和PVT-v2，四个阶段的通道大小分别为C1 ： 4=[256， 512， 1024， 2048]和C1 ： 4=[64，128， 320， 512]该ASPP模块的通道大小设置为C=256。我们使用VGGish模型来提取音频特征，这是一个在AudioSet[14]数据集上预训练的类似VGG的网络[17]音频信号被转换为一秒分裂作为网络输入。我们使用Adam优化器进行训练，学习率为1 e-4。对于半监督S4和全监督MS3设置，批次大小设置为4，训练时期的数量分别为15和30。方程中的λ（2）根据经验设定为0.5。5.2与相关任务的方法比较我们比较了我们的基线框架与三个相关任务的方法对于每个任务，我们报告了AVSBench数据集上两种SOTA方法的结果，即，[2019 -05-15]我们-选择这些方法，因为它们是各自领域的最新技术：1）LVS使用发声物体的背景和最可信区域设计通过计算视听相似度来获得视听表示学习和定位图的对比度损失。2)MSSL是一种两阶段的多声源定位方法，由Grad-CAM获得[36]。3）3DC采用完全由强大的3D卷积构建的架构来编码视频帧和预测分割掩码。4)SST引入了一个Transformer架构来实现时空域中特征的稀疏注意。5)iGAN是一种基于ResNet的显著性检测生成模型，考虑到显著性检测的内在不确定性。6)LGVT是一种基于SwinTransformer [24]的显著性检测方法，其远程依赖建模能力导致更好的全局上下文建模。我们采用了这些方法的架构，并将它们适合于我们的半监督S4和全监督MS3集。为了进行公平的比较，这些方法的主干都是经过预训练的在ImageNet上[35]。AVS与SSL/VOS/SOD的定量比较。我们使用Jaccard指数J[11]和F分数F作为评估指标1，其中J和F1 J计算预测分割的交集，真相面具F同时考虑查准率和查全率：Fβ=（1+β2）×查准率×查全率，其中β2在我们的实验中设置为0.3。β2×查准率+查全率+v：mala2255获取更多论文MMMM视听分段11表3.与相关任务中的方法进行比较报告了在S4和MS3设置下的评估度量MJ和MF的结果。指标设置SSL VOS SOD AVS（我们的）LVS[5]MSSL[30]3DC[27]SST[10]iGAN[28]LGVT[49] ResNet 50 PVT-v2电话：+86-21 - 8888888传真：+86-21-88888888MJMS3.295.261.369.426.429.407.479.540S4.510.663.759.801.778.873.848.879MFMS3.330.363.503.572.544.593.578.645音频原始图像地面实况LVSMSSLAVS（我们的）图第六章 SSL方法和我们的AVS框架的定性示例，在完全监督的MS3设置下。SSL方法（LVS[5]和MSSL[30]）只能生成粗略的位置图，而AVS框架可以准确地分割发声物体的像素，并很好地勾勒出它们的形状。分别测量区域相似性和轮廓精度定量结果如表3所示，其中J和F表示整个数据集的平均度量值。SSL方法的结果和我们的基线之间存在很大的差距，主要是因为SSL方法不能提供像素级的预测。此外，我们的基线框架在半监督S4和全监督MS3设置中显示出与VOS和SOD方法一致的优越性。值得注意的是，在单源集下，最先进的SOD方法LGVT [49]略优于我们基于ResNet50的基线（J：0.749 vs. 0.728），这主要是因为LGVT使用了强大的SwinTransformer主干[24]。然而，当涉及到多源设置时，LGVT的性能明显低于我们基于ResNet50的基线（J：0.407 vs. 0.479）。这是因为SOD方法依赖于数据集先验，并且不能处理声音对象改变但视觉内容保持不变的情况（如图2的左侧示例所示7）。相反，音频信号引导我们的AVS方法来识别要分割的对象，从而获得更好的性能。此外，如果还使用Transformer-吉他吉他小提小提小提小提琴、钢琴小提琴、钢琴小提琴、钢琴小提琴、钢琴小提琴、钢琴+v：mala2255获取更多论文M12 J. Zhou等人。音频原始图像地面实况SSTLGVTAVS（我们的）图第七章在完全监督的MS3设置下，VOS、SOD和我们的AVS方法的定性示例。我们选择最先进的VOS方法SST[10]和 SOD法LGVT [49]。如左例所示，SST或LGVT无法捕捉发声对象的变化（从“ ba b y ” 到 “ ba b y an d do g ” ），而 AV S 在音频信号的引导下准确地进行预测。基于骨干，我们的方法是强于LGVT在这两种设置。此外，我们注意到，虽然SSL方法同时利用音频和视频信号，但它们的性能无法与仅使用视觉帧的VOS或SOD方法相匹配指出了逐像素场景理解的重要性在半监督S4设置下（J约为0.7），所提出的AVS基线获得了令人满意的性能，这验证了单次注释对于单源情况是足够的。AVS与SSL/VOS/SOD的定性比较。我们提供了一些定性的例子来比较我们的AVS框架与SSL方法，LVS [5]和MSSL [30]。如图6的左侧样本所示，LVS位于发声对象小提琴上方。同时，MSSL无法找到正确样本的钢琴。这两种方法的定位结果都比较模糊，不能准确定位目标。相反，建议的AVS框架不仅可以准确地分割所有的发声对象，而且很好地勾勒出对象的形状。此外，我们还展示了AVS与VOS和SOD的最新方法相比的一些定性结果，即，[10][10][11][12][13][14]如图7所示，SST和LGVT可以以逐像素方式预测其感兴趣的对象。然而，他们的预测依赖于视觉显着性和数据集先验，这不能满足我们的问题设置。例如，在图7的左侧样本中，狗在前两帧中保持安静，不应被视为我们问题设置中的感兴趣对象。我们的AVS方法正确地遵循音频信号的指导，即，准确地分割婴儿，小提琴、钢琴小提琴、钢琴小提琴、钢琴小提琴、钢琴小提琴、钢琴婴儿宝贝宝贝，狗+v：mala2255获取更多论文M视听分段13表4. 与两阶段基线方法（TwoSep）进行比较，该方法首先通过现成的Mask R-CNN生成实例分割图，然后结合音频信号进行最终的发声对象分割。性能不受分割质量（具有不同的Mask-RCNN主干）的影响，但很大程度上受音频信号的影响。即使使用音频，我们的AVS方法也远远优于这种两阶段方法。两个月。音频TwoSep w. 音频AVS度量设置Res50 ResNeXt101Res50 ResNeXt101-S40.696.670点七一七点七一八.787MJMS3点四七三点四七四点五零三点五零二.540前两帧和后三帧的发声物体，其形状完整。相反，VOS方法SST在最后三个帧错过了吠叫的狗。 SOD方法LGVT在所有帧上掩盖了婴儿和狗，主要是因为这两个对象通常倾向于“突出”，这在本示例中是不希望的。当涉及到图的正确样本7，我们可以观察到LGVT几乎无法捕捉到小提琴，因为小提琴相对较小。VOS方法SST可以找到小提琴的粗略位置，在时间运动的信息的帮助下。相比之下，我们的AVS框架可以准确地描绘小提琴和钢琴的形状和位置与两阶段基线比较。AVS任务可以通过两个阶段来解决：在第一阶段，现成的分割模型，例如，在COCO数据集上预训练的Mask R-CNN [15]用于提取实例分割图。然后，这些对象地图和视觉特征从第一阶段与音频连接，并输入到PVT-v2结构中，以预测最终结果。我们将该方法表示为TwoSep，结果如表4所示。这表明视听分割任务不受第一阶段分割质量的影响，因为如果使用更强的Mask R-CNN（从ResNet 50到强大的ResNeXt 101的主干），最终性能几乎不变，例如，MJ为0.503，MS3设置为0.502。相反，没有或有音频将在很大程度上影响性能，例如，J= 0.473对0.503。这再次反映了音频信号的积极影响，特别是在MS3的设置。我们提出的框架始终优于这一基线的大幅度。5.3核心部件分析音频信号和TPAVI的影响。如示于图5.TPAVI模块用于从时间和像素级制定视听交互，引入音频信息来探索视觉分割。我们进行了一项消融研究，以探索其影响，如表5所示。两行示出了所提出的具有或不具有TPAVI模块的AVS方法+v：mala2255获取更多论文⊕M14 J. Zhou等人。表5. 音频信号和T PAVI的影响。使用和不使用TPAVI模块的A VS b的结果（MJ）。中间一行表示直接添加音频和视频功能，这已经提高了MS3设置下的性能。TPAVI模块进一步增强了所有设置和主干的结果AVS方法S4ResNet50 PVT-v2MS3ResNet50PVT-v2无TPAVI.701.778.436.482使用AAVV和TPAVI.705.728.777.787.457.466.516.531而“A V”指示直接将音频添加到视觉特征。应该注意的是，将音频特征添加到视觉特征在S4设置下不会导致明显的差异，但在MS3设置下会导致明显的增益。这与我们的假设一致，即音频对具有多个声源的样本特别有益，因为音频信号可以指导分割哪些对象此外，利用我们的TPAVI模块的强大功能，我们可以实现时间和像素映射。使用TPAVI，每个视觉像素听到当前声音和其他时间的声音，同时与其他像素进行交互。物理解释是，与相同声音具有高相似性的像素更可能属于一个对象。TPAVI有助于进一步增强各种设置和骨干的性能，当使用ResNet50 作为 S4 设置下的主干时， J 为 0.728 vs. 0.705 ，而当使用ResNet50作为S4设置下的主干时，J为0.531 vs. 如果在MS 3设置下使用PVT-v2，则为0.516。此外，值得注意的是，TPAVI模块中的卷积块允许将输入的视觉和音频特征投影到潜在空间，适用于注意力计算。例如，在S4设置下并使用ResNet50作为骨干，如果放弃TPAVI模块中的四个卷积块，则MJ将从0.728显著下降到0.592。我们还可视化一些定性的例子，以反映TPAVI的影响。如图8所示，具有TPAVI的AVS方法更好地描绘了探测对象的形状，例如，在左视频中的吉他，而它只能分割几个部分的吉他没有TPAVI。这种益处也可以在MS3设置中观察到，如图9所示，该模型使得能够忽略具有TPAVI的人手的那些像素。更重要的是，使用TPAVI，模型能够分割正确的发声对象，并忽略实际上不发出声音的潜在声源，例如，图中钻井平台上的那个人。八、还有，“AVSW。TPAVI”具有更强的多声源捕获能力。如图9的右侧所示，唱歌的人几乎失去了TPAVI。这些结果显示了利用音频信号的优势，这有助于分割更准确的视听语义对应像素。+v：mala2255获取更多论文LLLLLL MM视听分段15音频原始图像地面实况AVS wo.TPAVIAVSw.TPAVI图八、半监督S4设置下的定性结果。预测由基于ResNet50的AVS模型生成。通过引入音频信号（TPAVI）注意到两个好处：1）学习发声对象的形状，例如，视频中的吉他（左）; 2）根据正确的声源进行分段，例如，枪，而不是人。此外，我们还可视化视听注意矩阵，以探讨TPAVI的跨模态融合过程中发生了什么。详细地，注意力矩阵是从等式中的αi（1）第四阶段TPAVI。我们对它进行上采样，使其具有与视频帧相同的形状。这在视觉上类似于这些SSL方法的定位热图，但只是我们的AVS方法中的中间结果。如图10，高响应区基本上与探测对象的区域重叠。这表明TPAVI建立了从视觉像素到音频信号的映射，这是语义一致的。AVM的有效性。我们希望构建音频和视觉特征之间的映射将增强网络识别正确对象的能力。因此，我们提出了一个LAVM损失来引入软约束进行训练。我们只在完全监督的MS3设置中应用AVM，因为发声对象的变化只发生在那里。如表6所示，我们探索了AVM丢失的两种变体。AVM-AV是在Eq.（三）、它鼓励被分割结果掩盖的视觉特征以统计的方式与相应的音频特征相一致，即，都描绘了发声物体。或者，AVM-VV首先为每个候选音频找到最接近的音频伙伴，然后计算对应的视觉特征（也被掩蔽）的KL距离根据分割结果）。这是基于这样的想法：如果两个剪辑共享相似的音频信号，则它们的发声对象的视觉特征也应该相似。如表6所示，两种变体都实现了明显的性能增益。例如，AVM-AV将J提高约1%，将F提高约2%。这表明了引入这种视听限制的好处。我们使用LAVM-AV，因为LAVM-VV不方便地需要排序操作。不同阶段的跨模态融合。TPAVI模块是一个插件架构，可以应用于跨模态融合的任何阶段。所示弹吉他弹吉他弹吉他弹吉他弹吉他枪射击枪射击枪射击枪射击枪射击+v：mala2255获取更多论文M16 J. Zhou等人。音频原始图像地面实况AVSwo.TPAVIAVSw.TPAVI见图9。在完全监督的MS3设置下的定性结果。预测结果由基于PVT-v2的AVS模型得到。注意，AVS与TPAVI使用音频信息在以下方面执行得更好：1）滤除与音频不对应的分散注意力的可视像素，即，人手（左）; 2）在视觉帧中分割与音频更精确匹配的正确声源，即，歌唱的人（右）。表6.左AVM的有效性。与仅使用标准BCE损耗相比，L AVM的两种变体都带来了明显的性能增益。对象函数MS3（MJ）MS3（MF）ResNet50 PVT-v2 ResNet50 PVT-v2LBCE.466.531.558.626LBCE+L AVM-VV.467.538.577.644LBCE+L AVM-AV.479.540.578.645表7，当TPAVI模块用于不同的单级时，分段性能波动。对于基于ResNet50主干的变体，当在S4和MS3设置下在第三阶段采用TPAVI模块时，模型实现了最佳性能。对于基于PVT-v2的模型，最好分别在S4和MS 3设置中的第二或第四阶段使用TPAVI模块。我们将其归因于第一阶段的视觉特征具有有限的语义。由于我们的解码器架构采用跳跃连接，因此在多级中应用TPAVI模块将是有益的，如表7的右侧部分所验证的。例如，在MS3设置下，在所有四个阶段应用TPAVI模块将使度量J从0增加。490比0 540，涨幅5%。这表明该模型具有融合和平衡多阶段特征的能力。T-SNE可视化分析。我们还可视化的视觉功能，或没有TPAVI模块，以分析网络是否已经建立了音频和视觉功能之间的连接。具体而言，在多源集的测试分割上，我们使用基于PVT-v2的AVS模型来获取视觉特征。由于多源集没有类别标签（其视频可能包含多个类别），因此我们使用主成分分析（PCA）吉他，尤克里里吉他，尤克里里吉他，尤克里里吉他，尤克里里吉他，尤克里里小提小提小提弹钢琴，人唱人唱人唱人们歌唱人们歌唱+v：mala2255获取更多论文M视听分段17音频地面实况视听注意图10. 来自第四阶段TPAVI的视听注意力地图。颜色越亮表示响应越高。这样的热图通常被采用作为SSL任务的最终结果，而它们只是我们的AVS框架中的TPAVI模块的中间输出。这些结果表明，TPAVI有助于模型更专注于视觉区域的语义对应的音频。表7. 跨模态融合在各个阶段，测量MJ。在S4和MS3设置中，当TPAVI模块用于所有四个阶段时，模型实现了最佳性能。设置编码器的第i12343,42,3,41,2,3,4S4ResNet50.686.696.713.670.713.720.728PVT-v2.783.786.780.777.782.785.787MS3ResNet50.416.424.430.423.448.460.479PVT-v2.462.488.474.490.498.505.540将音频特征划分为K= 20个聚类。然后，我们将音频聚类标签分配给相应的视觉特征。在这种情况下，如果音频和视觉特征是相关的，则视觉特征也应该被聚类。我们使用t-SNE可视化来验证这一假设。如图在图11 a中，在没有音频信号的情况下，学

下载后可阅读完整内容，剩余1页未读，立即下载