没有合适的资源?快使用搜索试试~ 我知道了~
从视频中学习对象的声音:共同分离训练目标下的音频源分离
1视觉对象高若涵UT奥斯汀rhgao@cs.utexas.edu克里斯汀·格劳曼UT Austin和Facebook AI Researchgrauman@cs.utexas.edu摘要从视频中学习对象的声音是具有挑战性的,因为它们通常在单个音频通道中严重重叠。用于视觉引导的音频源分离的当前方法通过利用人工混合的视频剪辑进行训练来回避该问题,但是这对训练数据收集施加了笨拙的限制,并且甚至可能阻止学习“真实”混合声音的特性。我们引入了一个共同分离的训练范式,允许学习对象级的声音从未标记的多源视频。我们的新训练目标要求深度神经网络的我们的方法在真实的测试视频中解开声音,即使在训练过程中没有单独观察到物体的情况下。我们获得了MUSIC、AudioSet和AV-Bench数据集的视觉引导音频源分离和音频去噪1. 介绍多模态感知对于捕获对象、场景和事件的真实世界感官数据的丰富性是重要的。物体发出的声音,无论是主动产生的还是偶然发出的,都提供了关于它们的物理特性和空间位置的有价值的信号--钹在舞台上碰撞,鸟在树上鸣叫,卡车在街区里加速,银器在抽屉里叮当作响。物体通常在与周围其他物体共存或相互作用时产生声音。因此,我们不是孤立地观察它们,而是听到它们与来自其他来源的声音交织在一起。同样,真实的视频记录了具有单个音频通道的各种对象,该单个音频通道将它们的所有声学频率混合在一起。自动分离视频中每个对象的声音具有很大的实际意义,其应用包括音频去噪、视听视频索引、乐器均衡、音频事件混音和对话跟随。而传统的方法假设访问多个一致可识别的图1:我们提出了一个共同分离训练目标,用于从包含多个声源的未标记视频中学习音频源分离我们的方法学习将一致的声音与成对的训练视频中相似的对象相关联。然后,给定一个新颖的视频,它为每个对象返回一个单独的音轨。图片来源:[1,2]中所述。麦克风或仔细监督的干净音频样本[22,48,9],最近的方法使用“混合和分离”范例来解决音频(视觉)源分离问题也就是说,这种方法随机地混合音频/视频片段,并且学习目标是恢复原始的未混合信号。例如,人们可以创建目前的培训战略有两个主要限制。首先,它隐含地假设原始真实训练视频由包含一个主要声音制造者的单源剪辑主导。然而,收集大量这种干净的3879大提琴吉他小提琴吉他3880比如说话的人和乐器。第二,它隐含地假设记录中的源是独立的。然而,正是真实声源(对象)之间的相关性使得源分离问题在测试时最具挑战性。这种相关性可能无法被人工混合的训练片段捕获。为了解决这些缺点,我们引入了一种新的学习分离音频源的策略。我们的关键见解是一种新颖的共分离训练目标,它从自然发生的多源视频中学习。1在训练过程中,我们的共分离网络考虑成对的训练视频,而不是简单地分离它们的人工混合音轨,它还必须生成在所有训练样本中在对象级别上一致可识别的音轨特别地,使用来自未标记的训练视频的噪声对象检测,我们设计了一个损失,要求在单个训练视频内,每个单独的音轨应该是可区分的,作为其适当的对象。例如,当两个训练实例都包含吉他和其他乐器时,需要使分离的吉他音轨一致地可识别。见图1.一、我们将我们的想法称为请注意,我们的共分离只在训练期间起作用;与共同分割不同,在测试时,我们的方法对单个视频输入执行分离。我们的方法设计提供了以下优点。首先,共分离允许使用“在野外”的声音混合进行训练它有可能受益于未标记的多源视频的可变性二是加强了对“混业经营”之外的监管。通过在对象级别上强制分离单个视频,我们的方法使学习者暴露于声源之间的自然相关性。最后,来自不同视频的具有相似外观的对象可以彼此合作以共同分离它们的声音,从而使学习过程规则化通过这种方式,我们的方法能够很好地从多源视频中学习,并且即使在训练期间从未单独观察过对象,也可以成功地分离测试视频中的对象声音。我们在三个基准数据集上进行了实验,并展示了上述优点。我们的方法在分离和去噪方面产生了最先进的结果。最值得注意的是,当从嘈杂的AudioSet [14]视频中学习时,它的性能大大优于先前的方法和基线。全面协同分离是从多源视频中学习视听分离的一个很有前途的方向。1在全文中,我们使用2. 相关工作仅音频源分离分离在信号处理中具有丰富的历史。虽然许多方法假设由多个麦克风捕获的音频,但一些方法解决了单通道音频的ing [20,18,44].混合和分离风格训练现在通常用于仅音频源分离,以创建人工训练示例[21,18,50]。我们的方法采用了混合和分离的想法。然而,与上述所有不同的是,我们利用视觉对象检测来指导声源分离。此外,如上所述,我们的共分离框架在训练数据方面更加灵活,并且可以推广到多源视频。视听源分离早期的视听源分离方法集中在互信息[10],子空间分析[42,34],矩阵分解,[39][3最近的方法利用深度学习来分离语音[8,31,3,11],[12]音乐的声音[13],[14],[15]。与仅音频方法类似,几乎所有方法都使用相比之下,我们在对象级别执行源分离,以显式地对来自视觉对象的声音进行建模,并且我们的模型在训练期间在视频中强制分离。与我们的工作最相关的是“像素声音”(SoP)[52]和多实例学习(AV-MIML)[12]方法。AV-MIML [12]也专注于从未标记的视频中学习对象声音模型,但其两阶段方法依赖于NMF来执行分离,这限制了其性能和实用性。此外,虽然AV-MIML只是使用图像分类来获得视频帧上的弱标签,但我们的方法检测本地化的ob-bits,并且我们的端到端网络与音频流一起学习视觉对象表示。SoP [52]为每个像素输出声音,而我们在预先训练的对象检测器的帮助下预测视觉对象的声音。更重要的是,当有干净的独奏视频可用于执行视频级的“混合和分离”训练时,SoP效果最好。相反,我们的方法在单个训练视频中分解了对象的混合声音,允许使用多源数据进行更灵活的训练(尽管与[52]不同,我们确实需要对象检测步骤)。定位视频帧中的声音定位需要识别视频声音来自的像素,但不能分离音频[25,19,10,4,40,45]。与所有这些方法不同,我们的目标是从单通道信号中分离出多个物体的声音我们通过对象检测定位潜在的声源,并使用本地化的对象区域来指导分离学习过程。3881n=1+从视频生成声音声音生成方法从视觉输入合成音轨[32,54,6]。给定视觉输入和单声道音频,最近的方法生成空间(双耳或立体混响)音频[13,30]。与上述任何一种不同,我们的工作旨在分离现有的真实音轨,而不是合成看似合理的新声音。3. 方法我们的方法利用本地化的对象检测,以视觉引导音频源分离。首先,我们将我们的对象级视听源分离任务形式化(第二节)。第3.1节)。然后,我们介绍了我们的框架,用于从未标记的视频中学习对象声音模型,以及我们的CO-SEPARATION深度网络架构(第二节)。3.2)。最后,我们提出了我们的训练标准和推理程序(第二节)。3.3)。3.1. 问题公式化给定具有伴随音频x(t)的未标记视频剪辑V,我们将在视频帧中检测到的N个对象的集合表示为V={01,. . . ,0 N}。我们把每个物体看作一个潜在的声源,x(t)= ∑Nsn(t)是观测到的这些声源的单通道线性混合,其中sn(t)是每个物体的时间离散信号。对象级视听源分离的目标是从x(t)中分离出每个对象On的声音Sn(t)。在[21,18,50,52,31,13,8]之后,我们从普遍采用的“混合分离”思想,以自我监督源分离。给定两个训练视频 V1和V2以及相应的音 频x1(t)和 x2(t),我们使用预先训练的对象检测器来找到两个视频中的对象。然后,我们混合两个视频的音频,并获得混合信号xm(t)=x1(t)+x2(t)。将混合音频xm(t)变换为幅度谱图XM∈RF×N由F个频率仓和N个短时傅立叶组成STFT(英语:STFT)[15]帧,它编码信号的频率和相位内容随时间的变化我们的学习目标是将每个物体发出的声音与以局部物体区域为条件的xm(t)分离。例如图图3示出了将两个视频V1和V2与在V1中检测到的两个对象O1、O2和在V2中检测到的一个对象O3混合的场景。目标是分别从混合信号xm(t)中分离对象O1、O2和O3的s1(t)、s2(t)和s3(t)为了执行分离,我们预测每个对象的频谱图掩模Mn我们使用实值比率掩码并获得预测的幅度,通过软掩模混合物谱图的Tude谱图:Xn =XM×Mn。最后,我们使用逆短时傅里叶变换(ISTFT)[15]来重建每个对象源的波形声音。超越视频级混合和分离,图2:我们的视听分离器网络将混合音频信号和从其伴随的视频中检测到的对象作为输入,并执行联合视听分析以分离负责输入对象区域的声音部分。我们的方法甚至可以从多源训练视频中学习对象声音模型。我们新的协同分离框架可以捕获声源之间的相关性,并能够从嘈杂的网络视频中学习,如下所述。3.2. Co分离框架接下来,我们提出了我们的CO S分离训练框架和我们的网络结构来执行分离.对象检测首先,我们为C对象的词汇表训练对象检测器。一般来说,这个检测器应该覆盖可能出现在训练视频中的任何潜在的发声对象类别。我们的实现使用Faster R-CNN [36]对象检测器,其中ResNet-101 [17]主干使用Open Images [26]进行训练。对于每个未标记的训练视频,我们使用预先训练的对象检测器自动在所有视频帧中找到对象。然后,我们收集所有对象检测跨帧,以获得视频级池的对象.参见补充有关详细信息视听分离器我们使用检测到的对象区域来指导源分离过程。图2示出了我们的视听分离器网络,其执行视听特征聚合和源分离。在[13,30,31]中还使用了用于多模态特征融合的相关设计,用于音频空间化和分离。然而,与那些模型不同,我们的分离器网络结合了局部对象区域的视觉特征和混合音频的音频特征来预测用于源分离的幅度该网络将检测到的对象区域和混合音频信号作为输入,并分离负责对象的声音部分我们使用ResNet-18网络来提取第4个ResNet块后的视觉特征,(H/32)×(W/ 32)×D,其中H、W、D表示帧和信道尺寸。然后我们将视觉特征通过1 ×1卷积层来减少信道干扰,我们的方法是同时执行SEPA,在对象级别的单个视频内的定量。这使得2没有手动对象注释用于共分离训练/测试。检测到的对象掩模ResNet-181x1转换瓷砖FC频谱图ISTFTSTFT混合音频分离的音频跳过连接concatenate3882一致性损失一致性损失=()共分离损失=()一致性损失图3:共分离培训管道:我们的对象级共分离框架首先自动检测一对视频中的对象,然后在视频级混合音频,并分离每个视觉对象的声音。通过最小化在第二节中定义的共分离和对象一致性损失的组合来训练网络。3.2.mension,并且使用全连接层来获得聚集的视觉特征向量。在音频方面,我们采用了U-NET [37]风格的网络-对所有对象的分离声音求和的每个视频应当理想地重构该视频的音频信号。即在密集预测任务中的有效性,类似|V1||V2|[52,31,13]。 该网络采用幅度谱-x1(t)=∑s i(t)且x2(t)=∑si(t),(1)gXM作为输入,并将其通过一系列con-ii卷积层提取音频特征的维度(T/128)×(F/ 128)×D.我们复制视觉特征向量(T/128)×(F/ 128)次,将它们平铺以匹配音频特征维度,然后将音频和沿着通道维度的视觉特征图。然后,对级联的视听特征图执行一系列上卷积以生成乘法谱图掩码M。我们发现频谱图掩模比直接预测频谱图或原始波形哪里|V1|和|V2|是检测到的对象的数量,V1和V2。 为了简化符号,我们推迟了现在的-我们将在本节后面讨论如何处理背景声音(那些无法归因于检测到的物体的声音因为我们在频域中操作,所以由于相位干扰,上述关系将仅近似地保持作为替代,我们近似Eq。(1)通过在预测的幅度谱图上执行以下关系:对于源分离,确认[49,8,13]中的报告。的|V1||V2|通过以下步骤获得输入对象的分离谱图:X V1<$∑X i和XV2≈ ∑Xi,(2)将所述掩模与所述混合au-Vii的频谱图dio:X=XM× M。最后,将ISTFT应用于频谱图以产生分离的实时信号。共分离我们 提出CO-分离 框架-其中X1 和x2 是宇宙中x1(t)和x2(t)。因此,我们在分离的幅度谱图上最小化以下共分离损失工作首先检测对象在一对视频,然后混合他们的|V1||V2|音频在视频级,最后分离的声音L共分离spect = ||∑Xi − XV1||1个以上||∑Xi − XV2||第一条、第三条i=1i= 1对于每个检测到的对象类。如图3、对于每个视频对,我们随机采样一个高置信度的对象窗口中检测到的每一个视频类,并使用其近似于最小化在其预测比率掩模上的以下损失用于引导音频源分离的局部化对象区域|V1||V2|L共分离 mask=||∑Mi−MV1||1个以上||∑Mi−MV2||1、视听分离器网络对于每个对象On,我们预测一个掩码Mn,然后生成相应i=1i=1(四)星等谱图设V1和V2表示两个其中,MV1和MV2分别是两个视频的地面实况频谱图比率掩模。即视听分离器视听分离器混合音频STFT视听分离器3883视频. 我们想把它们的声音分开-从V1和V2的音频混合中响应对象。为MV1=XV1V V和 MV2 =XV2VV.(五)X1+ X2X1+ X23884在实践中,我们发现计算掩码上的损失(与频谱图)使网络更容易学习。我们假设,视听分离器最后一层之后的S形曲线限制了遮罩,使其与声谱图相比更加受约束和结构化简而言之,所提出的共同分离损失向网络提供监督以仅分离负责输入视觉对象的音频部分,使得可以重建输入视频对中的每个的对应音频。除了强制分离的共分离损失之外,我们还为每个预测的音频频谱图引入对象一致性损失直觉是,如果源被很好地分离,则分离频谱图的预测“类别”应该与最初引导其分离的视觉对象的类别一致。具体地,对于每个对象的预测频谱图,我们引入另一个ResNet-18音频分类器3,其目标是输入视觉对象的弱标签。我们使用以下交叉熵损失:1| V 1|+| V 2|C同一可视对象的任何实例的声音都可可靠地识别为该声音。我们强调,我们的模型实现了后者,而无需任何预训练的音频模型,也无需对象类的任何单源音频示例。对象一致性损失只知道相同对象的声音在训练网络后应该是相似的,而不是任何给定对象的预期声音。3.3. 训练和推理我们最小化以下组合损失函数并训练我们的网络端到端:L=L共分离掩码+ λ L对象一致性,(7)其中λ是对象一致性损失的权重。我们使用每像素L1损失作为共分离损失,通过所述混合音频的所述频谱图的幅度来对所述梯度进行该网络使用加权梯度来执行反向传播,从而强调对频谱图的更多信息部分的预测。在测试过程中,我们的模型需要一个单一的现实多-L对象一致性=|V 1|+的|V 2|∑i=1∑−yi,clog(pi,c),c=1(六)源视频以执行源分离。 同样我们首先通过使用预先训练的对象检测器来检测视频帧中的对象。 对于每个检测到的对象类,我们其中C是类的数量,yi,c是二进制指示符取决于c是否是预测频谱图Xi的正确类别,并且pi,c是类别c的预测概率。我们强调,这些音频并非视频中的所有声音都可归因于视觉检测到的对象。为了解释环境声音、屏幕外声音和噪音,我们合并了一个C+1“可适应”的音频类,如下所示在训练过程中,我们将每个视频与视觉场景特征以及来自预训练对象检测器的检测到的对象一则广告-负责场景上下文的掩码Madapt也在等式2中预测(4)对于V1和V2都是最优的联合起来。这一步骤为网络配备了灵活性,以将噪声或不相关的声音分配给“可适应”类,从而更清晰地分离检测到的这些适应性强的物体(理想情况下是周围的声音、噪音等)被共同指定为具有这些适应性对象的分离的光谱图也被训练为通过等式中的对象一致性损失来匹配它们的类别标签(六)、总之,在训练期间,网络需要发现多源视频的分离,其1)最小化共分离损失,使得两个源视频3ResNet-18音频分类器是ImageNet预训练的,以加速收敛,但没有预训练音频分类。我们的共分离训练旨在自动发现音频类。使用最可信的对象区域作为视觉输入,以将负责该对象类别的声音部分与其伴随的音频分离。我们使用一个滑动窗口的方法来处理视频段一段一段的小跳的大小,并平均所有重叠部分的音频预测。我们对10秒的视频片段进行视听源分离,并将视频帧中检测到的所有对象因此,我们的方法假设在这10秒的时间段内检测到的每个对于被检测到但根本不发出声音的物体,我们将其视为学习噪声,并期望我们的深度网络通过从大规模训练视频中学习来适应。我们把它作为未来的工作,明确无声的视觉对象建模。4. 实验现在,我们验证我们的视听源分离的方法,并与现有的方法进行比较。4.1. 数据集音 乐这 个MIT数 据集 包 含通 过关 键 字查 询 抓取 的YouTube视频[52]。它包含685个未经修剪的音乐独奏和二重奏视频,其中536个独奏视频和149个二重奏视频。该数据集是相对干净的,并且是为了训练视听源分离模型而收集的。包括手风琴、木吉他、大提琴、单簧管、二胡、长笛、萨克斯管、小号、大号、小提琴和木琴等11种乐器。根据作者3885将每个类别中的第一个/第二个视频作为验证/测试数据,其余的作为训练数据。在训练和测试期间,我们将 所 有 视 频 分 为 10 秒 的 片 段 , 总 共 分 别 为 8 ,928/259/269个训练/验证/测试片段。AudioSet-未标记的AudioSet [14]由10秒的视频剪辑组成,许多质量很差,包含各种声源。在[12]之后,我们过滤数据集以提取15种乐器的视频剪辑我们使用来自“不平衡”分割的视频AudioSet-SingleSource 由 [12] 只 包 含 单 个 发 声 对 象 的AudioSet视频组成的数据集。我们使用的15个视频(从AV-Bench该数据集包含之前关于视觉引导音频去噪的研 究 [12 , 34] 中 使 用 的 基 准 视 频 ( ViolinYanni ,Wooden Horse和Guitar Solo)在MUSIC和AudioSet上,我们按照标准实践[5,52,31,12]-通过混合来自两个单源视频的音频来组成测试集。这确保了地面实况分离的声音对于定量评估是已知的。对于MUSIC和AudioSet,分别有550和105个这样的测试配对对于定性结果(补充),我们将我们的方法应用于真实的多源测试视频。在任何一种情况下,我们都用多源视频训练我们的方法,如下所述。4.2. 实现细节我们的C O-SEPARATION深度网络是在PyTorch中实现的。 对于所有实验,我们以11kHz对音频进行子采样,并且输入音频样本约为6s久了STFT使用Hann窗口大小1022和跳长256计算,产生512× 256时频音频表示。然后在对数频率标度上对频谱图进行重新采样,以获得T=256,F= 256的T×F幅度频谱图[52]这是一个公平的比较。我们的对象检测器是在Open Images数据集的C = 15个对象类别的图像上训练的[26]。我们过滤掉每个视频的低置信度对象检测,并保留前两个4检测类别。参见补充有关详细信息在共分离训练期间,我们为每个批次随机抽取64对视频。我们对每个类别的置信对象检测进行采样,作为其输入视觉对象,并与从ADE数据集采样的随机场景图像配对[53]as the adaptive适应object对象.对象窗口的大小调整为256× 256,并随机裁剪224× 224区域。4这是在大多数训练视频中检测到的对象数量;放宽此限制不会改变整体结果(参见附录)。用作网络的输入。我们使用水平翻转,颜色和强度抖动作为数据增强。在等式中λ被设置为0.05。(七)、该网络使用Adam优化器进行训练,权重衰减为1×10−4,开始时将学习率设置为1× 10−4。 我们用一个较小的启动ResNet-18视觉特征提取器的学习率为1× 10−5,因为它是在 ImageNet上预先训练的。4.3. 源分离的定量结果我们比较以下基线:• [52]第五十二话:我们使用作者公开的代码5来训练基于1帧的模型,并使用比率掩码进行公平比较。默认设置用于其他超参数。• AV混合和分离:一个“混合和分离”的基线使用相同的视听分离网络作为我们的模型做视频级分离。我们使用多标签铰链损失来加强视频级一致性,即,每个分离的频谱图的类别应该与该训练视频中存在的对象一致。• AV-MIML [12]:现有的视听源分离方法使用从未标记的视频学习的音频库来监督NMF分离过程。音频库是从深度多实例多标签(MIML)学习网络学习的。我们将[12]中报告的结果用于AudioSet和AV- Bench;作者未报告SDR中的结果,也未报告MUSIC的结果。• NMF-MFCC [43]:一种现成的仅音频方法,其使用Mel频率倒谱系数(MFCC)执行基于NMF的源分离。该非学习基线是用于仅音频源分离的完善管道的良好表示[47,23,24,16]。• AV-Loc [34]、JIVE [28]、稀疏CCA [25]:我们使用[12]中报告的结果与音频去噪基准AV-Bench的这些方法进行比较。我们使用广泛使用的mir eval库[35]来评估源分离并报告标准指标:信号失真比(SDR)、信号干扰比(SIR)和信号信噪比(SAR)。分离结果。 表1和表2显示了以下的结果: MUSIC和AudioSet数据集。表1呈现了作为训练源的函数的关于MUSIC的结果:单源视频(独奏)或多源视频(独奏+二重唱)。我们的方法在分离精度方面始终优于所有基线,如SDR和SIR度量所捕获的6虽然SoP方法[52]运行良好5https://github.com/hangzhaomit/Sound-of-Pixels6请注意,SAR测量分离信号中存在的伪影,但不测量分离精度。因此,一个不太好分离的信号可以实现高(更)SAR值。事实上,单纯地复制原始输入两次(即,完全不进行分离)在我们的设置中导致SAR为 803886单一来源多源SDR先生特区SDR先生特区[52]第五十二话7.3011.911.96.059.8112.4AV混合和分离3.166.748.893.237.019.14NMF-MFCC [43]0.925.686.840.925.686.84CO-S分离(我们的)7.3813.710.87.6413.811.3表1:在保持的MUSIC测试集上的平均音频源分离结果我们展示了我们的方法的性能和仅在单源视频(solo)和多源视频(solo+ duet)上训练时的NMF-MFCC是非学习的,因此其结果在训练集之间不会变化。对于所有指标,越高越好。注意SDR和SIR捕获分离精度; SAR仅捕获伪影的缺失(因此即使分离较差,SAR也可能很高)。所有指标的标准误差约为0.2。SDR SIR SAR表2:AudioSet测试集的平均分离结果。标准误差约为0.3。当仅在独奏视频上训练时,它不能利用附加的二重奏,并且当在多源视频上训练时,它的性能降低。相比之下,我们的方法实际上在独奏和二重奏的组合训练时有所改善,达到了最佳性能。这个实验恰恰突出了混合和分离训练范例在呈现多源训练视频时的局限性,并且它表明我们的共分离思想可以成功地克服该局限性。我们的方法也优于所有基线,包括表3:玩具实验,以展示学习分离声音的对象从来没有单独听到在训练期间。在训练中单独观察。我们在以下四个类别上训练我们的模型和最佳基线[52]:小提琴独奏,萨克斯管独奏,小提琴+吉他二重奏,和小提琴+萨克斯管二重奏,并通过随机混合和分离小提琴,萨克斯管和吉他测试独奏剪辑进行测试。表3显示了结果。 我们可以看到,虽然我们的系统没有受过任何吉他独奏训练,它可以从包含吉他和其他声音的多源视频中学习得更好。我们的方法在所有三种组合上都表现良好,而[52]只在小提琴+吉他混合上表现良好。我们推测原因是它可以通过混合大量的小提琴独奏和吉他独奏来[52]在进行独奏训练时。 与AV混合和分离基线相比,我们的准确性更高,[52]表明我们的对象级共分离思想至关重要。NMF-MFCC基线只能返回未接地的分离信号。因此,我们评估两种可能的匹配,并采取最佳结果(基线的优势)。此外,即使我们给出[52]时间池在3帧上的优势,我们的收益也是相似的总的来说,我们的方法实现了很大的增益,并且还具有将分离的声音与视频中的语义上有意义的视觉对象相匹配的益处。表2显示了在AudioSet-Unlabeled上训练和在AudioSet-SingleSource混合上测试的结果。我们的方法在这个具有挑战性的数据集上远远优于所有先前的方法和它证明了我们的框架可以更好地从AudioSet的嘈杂和较少策划的“野外”视频中学习,AudioSet包含许多多源视频。参见补充以获得关于去除每个视频两个对象的限制的附加结果接下来,我们设计了一个实验来明确测试我们的方法可以学习如何将声音与它没有的物体在二重唱中的时刻执行分离,但它失败了以解开其它声源相关性。我们的方法在SAR方面得分更差,SAR再次测量伪影,但不测量分离质量。参见补充对于另外的实验,我们只在二重奏上训练,以及消融研究,以隔离每个损失项的影响去噪结果。作为我们的视听源分离系统的副产品,我们还可以使用我们的模型来执行视觉引导的音频去噪。如第3.3,我们使用一个额外的场景图像来捕捉周围/看不见的声音和噪音等。因此,给定一个带有噪声的测试视频,我们可以使用视频中检测到的顶部视觉对象来指导我们的系统分离出噪声。表4显示了AV-Bench [34,12]的结果虽然我们的方法只从未标记的视频中学习,并且没有像[34]中那样明确地对噪声的低秩性质进行建模,但我们在3个视频中的2个上获得了最先进的性能[34]的方法在手动分割的区域中使用运动[52]第五十二话CO-SE 分离(我们的)SDR先生特区SDR先生特区小提琴/萨克斯管1.521.4812.98.1011.711.2小提琴/吉他6.9511.215.810.616.712.3萨克斯/吉他0.570.9016.55.087.909.34[52]第五十二话1.66 3.5811.5AV-MIML[12]1.83--AV混合和分离1.68 3.3012.2NMF-MFCC [43]0.25 4.195.78CO-S分离(我们的)7.07年13.0388799999999999999999999999999999999999999999999999999999999999999999999999999999999999999999999999999999999999999999999999999999999999999999999999999999991:班卓琴555555555555555555555555555559999999999999999999999999999999999999999999999999999999999999999999999999999999999999999999999999999999999999999999 999999999999999955 555555555555555555555555555555555555555555999999999999999999999999999999999999999955555555555555555555555555555555599999999999999999999999999999999999999991999599195999999999999999999999999999999999999999999999999999915999999999999999999977755555555555555555555555555555555555955555555555555555555555555555555555555555555555555555555555555555555559999999999999999991119555995555555555555555555555555555555555555555555555555555555555555555555555599999999999999999999999999999555555555555555555555555555555555555555555555555555559999999999999999999999999999911511195559999999999999999999999999199995199991111555955591199919959599977777977777777777777777199129391555555555555555555555555555555555555 5555555555555555555555555555555555555555555555559999999999994911111144411441411114111114141444111414144444111111111144414444155555555555555555555555555555555555555555599499999994111114444411114444141144141115511515111155555555555555555555555555555555555999999999999999991444555555599999999991144144141414145555555555555555555555555559999999999999141414141414555555555555555555555545555555555555555555555555555555555555511441114445555555555555555555555559999997911414111141444111444411111144411141144414144111155515511115155551111555511552221222222222122222222222222222222222222222222141111444141144141 411414142222222222222222222222222222114411414111444111441411111 444411114444141414111141444 144 1411551111155551551511155115515151155552222222222222222221112222225555554445555551111111114441111114444441111111114444444441114444441111114444441111114441111114441114444444441111111114444444444441114441111111114441114444441111555511555111 555111555555555555554445555555555555555555555555555555551111144444111111411114444444141441111141141111114144444414114111411444141411144441111144141144441111115555515151511111115551555111155115115155151511555557999999999111144414444114111444144411441414111414144444111414144441115111555555111111555555115551111511515515111555155555555555555555555555555555511111141444441414141141444114411141114444411141444141444411444141414441414111155511515551555511111115555111155551111511151551414144441411141411414141144144411111414444141111141444411115555111111155555551511515511151111155555111444111444141114441141414144411114441411141444111441114444441155111111111555155155511111111155555555515111155555552222222222222222222222222222222222222222222222224222222222222222222212122228111441111111444441411444111441 4114114422222222222222222222222222222222222222222222222222222221421414141111114444444441141144144114448411 411444414414111141444414444411111444411414141511111115111555555551111115115155555555111551 511115555515522222222222222222222222222222222222121 4111111414441144144111414411141 411444444144111 4441113444151515111155551115155222222222222222222222222222222221411141411414144144181444111444411444141111414441111111441111114444444314151 511551 55111551111555511515555511111555115515312222212422222222222222222241211411122221212121144441114411144444141444441114411111141114111414444441115111111155511114111114444 4144111441111444444151511 551151555515111411414411114411444111441111111414111444144441111144444155141115551111154444415151514141111515155555151515115551555555111155515151555515555515515151111151155515155555115155151511151555511115511151151515111155515511511555555555555554444444444444444444444444444444441141444414111111115111155551555511 1111151 5115115555511111555151151111111555551115511111115551111555155515511151555555555555544444444444444444444444511114111 44411414444111491515111115555111115555511111155555511511155111111155515555555111151111555551515111555551551555151115151115558888888888888888888888888888888888888884444444444444444444444444444
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功