基于运动的声音分离

134 浏览量更新于2023-10-12 收藏 1.22MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1运动的声音Hang Zhao1，Chuang Gan2，Wei-Chiu Ma1，AntonioTorralba11 MIT2 MIT-IBM Watson AI Lab{hangzhao，chuangg，weichium，torralba}@mit.edu摘要声音来源于物体的运动和周围空气的振动。受人类能够从物体的视觉移动中解释声源的启发，我们提出了一种新的系统，该系统明确地捕获了声音定位和分离任务的运动线索。我们的系统是由一个端到端的可学习模型称为深度密集轨迹（ DDT ），和一个curriculum- lum学习计划。它利用了来自大量未标记视频的视听信号的固有一致性。定量和定性的评估表明，与以前的模型，依赖于视觉出现的线索，我们的运动为基础的系统提高了分离乐器的声音的性能。此外，它将声音成分从同一乐器的二重奏中分离出来，这是一个以前没有解决过的具有挑战性的问题。1. 介绍在一个炎热的下午，你在树荫下放松你会注意到树枝在震动，你会听到一种嗡嗡的声音。不用第二个想法，你就意识到声音是由树叶互相摩擦引起的。尽管时间很短，但人类具有连接和整合来自不同模态和感知输入的信号的非凡能力事实上，感觉之间的相互作用是人类大脑中最古老的感觉组织方案之一[44]，也是理解物理世界复杂相互作用的关键有了这样的灵感，研究人员一直在努力开发能够有效利用不同模态信号的模型以视听学习为例，已经提出了各种方法，如声音识别[3，1，26]，声音定位[22，24，33，2，12]等。在这项工作中，我们对声源分离的任务特别感兴趣[12，53，17]，其目标是区分声音的分量并将其与相应的对象相虽然目前的源分离方法在以下方面取得了不错的结果：马扎斯小提琴二重奏作品38之一我们能把每把小提琴的声音分开吗？(a) 单个帧不运动轨迹(b) 单帧+运动图1.动议事项：当观看小提琴二重奏视频时，我们可以将旋律与和声分开。（a）然而，不看或只看一眼就很难说出(b)再观察一会儿，我们就可以通过将第一小提琴手和第二小提琴手的动作与音乐的节奏联系起来，来区分谁在拉第一小提琴，谁在拉第二小提琴。在这项工作中，我们从人类的启发，消除歧义和分离的声音从多个来源，探索运动线索。在各自的任务中，他们经常忽略运动提示，而仅仅依赖于静态视觉信息。然而，运动信号对于视听学习至关重要，特别是当发出声音的物体是可见的时。17351736盟友相似。考虑两个人演奏小提琴二重奏的情况，如图1所示。人类几乎不可能通过在单个图像上达到峰值来将他们的旋律与和声然而，如果我们看到每个人的运动一段时间，我们可能会猜测根据运动和音乐节拍的时间重复。这一例证突出了运动线索在复杂多模态推理中的重要性。我们的目标是通过计算模拟对视觉、音频和运动信号之间的协同作用进行推理的能力。我们建立我们的模型在以前的成功赵等。[53]。而不是依赖于图像的语义，我们显式地考虑视频中的时间运动信息。特别是，我们提出了一个端到端的可学习的网络架构，称为深度密集轨迹（DDT），学习必要的视听声音分离的运动线索。由于不同模式之间的相互作用非常复杂，我们进一步制定了一个课程学习计划。通过从不同的仪器开始，然后移动到相同的类型，我们迫使模型利用运动线索进行区分。我们在最近提出的两个乐器数据集MUSIC [53]和URMP [28]上证明了我们模型的有效性。实验表明，通过显式建模的运动信息，我们的方法改进了现有技术的视听声源分离的任务。更重要的是，我们的模型能够处理极具挑战性的场景，例如相同设备的二重奏，以前的方法明显失败。2. 相关工作声源分离。声源分离是一个具有挑战性的经典问题，在语音领域被称为基于非负矩阵分解（NMF）的算法[47，10，43]是解决这个问题的主要方法。最近，已经提出了几种深度学习方法，其中Wanget al. [48]这一系列的方法。Simpson等人[42]和Reynnaet al. [8]使用CNN来预测用于音乐源分离和增强的时频掩模。为了解决语音分离中的识别置换问题，Hershey等提出了一种新的识别置换算法. [21]提出了一种基于深度学习的聚类方法，Yuet al. [52]提出了一种说话人独立的训练方案。虽然这些解决方案令人鼓舞，但我们的设置与之前的设置不同，因为我们使用额外的视觉信号来帮助声源分离。1我们鼓励读者观看视频https://www.youtube.com/watch?v=XDuKWUYfAU，以更好地了解此任务的难度。视听学习。学习视觉与声音之间的对应关系是近年来的一个热门话题。其中一项工作是从视听训练中探索表征学习。Owens等人[35]使用声音信号作为视觉模型训练的监督; Ay- taret al.[3]使用视觉作为声音模型的监督; Arandjelovic等人[1]和Korbaret al. [26]联合训练视觉和声音模型，取得优异的效果。另一项工作探索了视觉输入中的声音定位[23，22，2，40，53]。最近，研究人员使用语音和面部进行生物特征匹配[32]，为视频生成声音[56]，生成说话的面部[55]，联合分割的图像和音频[39]，并从视频中预测立体声[18]或360高保真度立体声[31尽管最近的一些论文已经证明了视觉线索如何有助于音乐分离[53，17]，但它们的视觉线索主要来自外观，可以从单个视频帧中获得。我们的工作区别于那些，我们明确地建模运动线索，以充分利用视频输入。声音和动作视觉和听觉方面的早期作品探索了声音和运动之间的密切关系。Fisher等人[14]使用最大互信息方法和Kidron等人。[24，23]提出了典型相关方法的变化来发现这种关系。嘴唇运动是语音处理领域中的一个有用的线索，Gabbay等人。[15]将其用于语音去噪; Chung等人[9]演示了从面部视频中读取唇语Ephrat等人[12]和欧文斯等人。[34]演示了从视频中分离和增强语音。与我们最相关的工作是[4]，该工作声称听觉和视觉起始信号之间存在紧密联系，并使用这些信号来执行视听声音属性。在这项工作中，我们通过学习对齐的声音分离视听表示来概括他们的想法。视频的运动表示。我们的工作部分与视频的运动表示学习有关，因为我们正在研究动作视频。传统技术主要使用手工制作的时空特征，如时空兴趣点[27]，HOG3D [25]，密集轨迹[49]，改进的密集轨迹[50]作为视频的运动表示。最近，工作已经转向使用深度神经网络来学习表示。有三种成功的架构来捕获视频中的运动和时间信息：（1）双流CNN [41]，其中通过将光流帧作为网络输入来对运动信息进行建模;（2）3DCNN [46]，其在时空视频体积上执行3D卷积;（3）在顶部具有时间模型的 2D CNN ，例如 LSTM [11]，Attention [29，5]，Graph CNN [51]等。最近，研究人员提出，1737视频帧震动台网密集轨迹轨迹特征外观特征THW KTHW KA跟踪可学习流网络密集流视觉特征声音分离网络T KV混合光谱图时间对齐逐行变换不谱图掩模音频输出混合波形TF KS融合模块外观网络视频帧图2.模型架构概述。我们的框架由四个部分组成：运动网络、外观网络、融合模块和声音分离网络。运动网络获取帧序列并输出轨迹特征;外观网络提取第一帧视频并输出外观特征;融合模块融合外观和轨迹特征;声音分离网络分离以视觉特征为条件的输入音频。学习动作识别的运动/轨迹表示[13，54，16]。与动作识别或本地-在训练过程中，我们随机选择N个视频片段，配对的视频帧和音频{Vn，Sn}，然后混合我们的目标是找到声音之间的对应关系，他们的音频形成合成混合物S混合ΣNn=1 S n.视频中的组件和动作3. 方法在这一节中，我们首先介绍我们用于视听声音分离的混合和分离框架。然后，我们提出的模型架构，我们用于学习ING运动表示的视听场景分析。最后，我们介绍了更好的声音分离效果的课程训练策略。3.1. 混合和分离自监督学习我们的方法采用了混合和分离框架[53]用于视觉引导的声音分离。通过混合来自不同视频片段的音频信号来获得混合和分离的音频地面真值。然后，我们的模型的任务是分离的音频轨道从混合条件下，其相应的视觉输入。重要的是，虽然神经网络是以监督的方式训练因此，训练管道可以被认为是自监督学习。给定N个视频片段中的一个，我们的模型f将提取用于源分离的视觉特征和音频特征问题S_n=f（S_m_x，V_n）. 我们模型的直接输出是将应用于输入混合声谱图的二进制掩码，其中第n个视频的地面实况掩码由目标声音是否是混合中的主导分量来确定，Mn（ u ， v ） = ¢Sn （ u ， v ） ≥Sm（ u， v ））， m =（1，…，N），（一）其中（u，v）表示频谱图S中的时间-频率坐标。该模型使用每像素二元交叉熵损失进行训练。3.2. 使用深度密集轨迹学习运动我们使用像素轨迹作为我们的运动特征，因为它在动作识别任务中表现出优越的性能[50]。给定视频，在时间t处的视频的每个帧的密集光流被表示为ωt=（ut，vt），并且我们=1738将每个跟踪像素的坐标位置表示为Pt=（xt，yt）。然后相邻帧中的像素可以关联为Pt+1=（xt+1，yt+1）=（xt，yt）+ω|（xt，yt），并且像素的完整轨迹是其坐标随时间的级联（Pt，Pt+1，Pt+2，. ）的情况。我们使用位置不变的位移矢量作为轨迹表示T=（πPt，πPt+1，πPt+2，. ），其中，（xt+1−xt，yt+1−yt）。我们注意到，上述运营商都是不同的，因此，它们可以适应可学习的神经网络模型。鉴于基于CNN的光流估计的最新进展，我们将最先进的光流模型PWC-Net [45]纳入我们的系统。所以我们的整个系统是一个端到端的可学习的像素跟踪模型，我们轨迹特征THWKT繁殖级联卷积空间池外观特征HWKA空间注意1充气TH KA深度密集轨迹网络（DDT）在以前关于轨迹的工作中[50]，人们通常对像素轨迹进行子采样，平滑和归一化以获得视觉特征TKV额外的鲁棒性。我们不执行这些操作，因为我们假设密集的噪声信号可以由学习系统处理。为了避免跟踪漂移，我们首先对输入的未修剪视频进行镜头检测，然后在每个视频镜头内进行跟踪。3.3. 模型架构我们的完整模型如图2所示。它包括由四部分组成：运动网络、外观网络、融合模块和声音分离网络。我们在下面详细介绍它们。中国移动通信网. 运动网络被设计为捕获输入视频中的运动特征，声音分离输出以该运动特征为条件。我们在这里介绍深度密集轨迹（DDT）网络，这是一个端到端的可训练像素跟踪网络。滴滴涕网络由三个步骤组成：(i) 密集光流估计。该步骤使得能够进行后续轨迹估计，并且其可以通过现有的基于CNN的光流网络来实现。我们选择了最先进的PWC-Net [45]，因为它的轻量级设计和快速速度。PWC-Net估计特征金字塔中每一层的光流，然后使用估计的光流在下一层扭曲特征并构造成本体积。(ii) 密集轨迹估计。该步骤将密集光流作为输入以形成密集轨迹。如第3.2节所述，下一个时间戳处的每个像素的位置被估计为当前光流场加上的当前位置。因此，整个轨迹估计迭代跟踪点根据光流场。在我们的神经网络模型中，这个过程被实现为迭代可微网格采样过程。具体-图3.融合模块的模型如图2所示。从外观特征的空间at-tension地图被用来门轨迹特征。通常，我们从第一帧的规则2D网格G0开始;然后对时刻t的每一帧，根据当前网格Gt对其光流场ω t进行采样，估计下一时刻的网格， Gt+1=Gt+gridsample（ω t，Gt）。跟踪之后，我们的密集轨迹由下式给出：T =（P0，.，你好，... ）=（网格样本（ω0，G0），.，网格样本（ω t，Gt），. ）的情况下，其中 t= （ 1 ， ... ， T ）。轨迹 T 的维数为T×H×W×2，其中最后一个维数表示x和y方向上的位移。(iii) 密集轨迹特征提取。进一步应用CNN模型来提取这些轨迹的深层特征在这里，我们使用I3D模型，它在捕获时空特征方面表现出良好的能力[7]。它是一种紧凑的设计，将2D CNN膨胀到3D，以便3D滤波器可以从预训练的2D滤波器自举外观网络外观网络从输入视频中提取语义信息。在架构方面，我们使用ResNet-18 [20]，在空间平均池化后删除层。我们只取第一帧作为输入，使得轨迹特征图与外观特征图严格重合。然后融合外观和轨迹特征以形成最终的视觉特征。1739基于注意力的融合模块为了融合外观和轨迹特征，我们首先从RGB特征预测空间注意力图，并使用它来调制轨迹特征。如图3所示，根据外观特征，我们预测由sigmoid激活的单通道标测图，大小为H×W×1。它在时间和特征维度上膨胀，并与轨迹特征相乘来自Motion Network。然后，外观特征也在时间上膨胀，并与调制的轨迹特征连接。在几个卷积层之后，我们执行最大池化以获得最终的视觉特征。这种注意力机制有助于模型关注重要的轨迹。声音分离网络声音分离网络接收声音的频谱图，这是2D时频表示;并预测以视觉特征为条件的频谱图掩模。声音分离网络的架构采用U网的形式[38]，因此输出掩码大小与输入相同。在U-Net的中间部分，其中特征图最小，插入来自视觉特征的条件信号整合视觉特征的方法是：（1）将视觉特征和声音特征在时间上对齐;（2）在声音特征上应用逐行线性调制（Film）[36]。Film指的是一种特征仿射变换，形式上FilLM（fs）=γ（fv）·fs+β（fv），（2）其中fv和fs是视觉和声音特征，γ（·）和β（·）是单个线性层，其在声音特征依赖于视觉特征。在对网络输出进行S形激活之后获得输出频谱图掩码。然后将其阈值化并与输入谱图相乘以获得预测谱图。最后，应用逆短时傅立叶变换（iSTFT）来获得分离的3.4. 课程学习由于我们对每个类别的训练样本数量有限，因此在单个类别的乐器上直接训练声音分离会受到过拟合的为了弥补这一缺陷，我们提出了一个3阶段的课程训练，通过引导模型与简单的任务，以获得良好的初始化，使其更好地收敛于主要任务。详情概述如下：(i) 不同乐器混合时的声音分离。它与第4.2节的设置相似，在第4.2节中，我们从整个训练集中随机采样两个视频镜头，混合它们的声音作为模型输入进行分离;(ii) 同种仪器混合使用时的声分离.从训练在步骤1中，我们只使用来自相同仪器的混合物来训练模型，例如，两个大提琴视频;(iii) 从同一个视频的混合声音分离。为了形成混合，我们从同一个长视频中采样两个不同的视频这是最困难的阶段，因为这些视频的语义和上下文线索可能完全相同，唯一有用的线索是动作。请注意，由于其具有挑战性，我们将仅在同一乐器声音分离任务中使用此课程学习4. 实验4.1. 数据集我们在两个视频数据集的混合上执行视觉引导的声音分离任务：[53]音乐和URMP [28]。MUSIC是来自Youtube的通过关键字查询的鳄鱼独奏和二重唱的未标记视频数据集; URMP是一个小规模的高质量的多仪器视频数据集记录在演播室。为了防止模型过度拟合，我们通过从网络视频中收集大量的音乐乐器类别来扩大MUSIC [53]数据集。除了 MUSIC 数据集中定义的 11 种乐器类别： ac-cordion，原声吉他，大提琴，单簧管，二胡，长笛，萨克斯管，小号，大号，小提琴和木琴外，我们还包括其他10种常见乐器类别：风笛、班卓琴、巴松管、康加斯、鼓、电贝司、古筝、钢琴、琵琶及尤克里里琴。我们按照[53]的程序收集视频。具体来说，我们构造了一个关键字，既有一个额外的我们将生成的数据集命名为MUSIC-21，它包含1365个未经修剪的音乐独奏和二重唱视频，我们将它们分为1065个视频的训练集和300个视频的测试集。由于我们基于概率的表示对镜头变化敏感具体来说，我们对视频帧进行密集采样，并计算相邻帧随时间的颜色直方图变化，然后我们使用双阈值方法[6]来找到镜头边界。经过处理后，我们总共获得了5861个视频镜头4.2. 不同乐器的声音分离为了验证学习运动表示对声音分离的有效性，我们首先评估了模型在从不同种类的乐器中分离声音的任务中的性能，这在其他作品中已经进行了探索[47，8，53，17]。1740N方法SDR先生特区NMF [47]2.012.089.363[53]第五十三话3.658.778.48我们的RGB+轨迹4.879.489.24NMF [47]0.93-1.019.014[53]第五十三话1.216.584.19我们的RGB+轨迹3.058.507.45表1.基线和我们的模型在不同输入方式下的声源分离性能（N= 2混合）。与Sound of Pixels相比，我们的模型具有更好的声音分离效果。4.2.1实验配置在训练过程中，我们从数据集中随机抽取3秒的视频片段，然后以8 FPS的速度对RGB帧进行采样，得到24帧，并以11 kHz的频率对音频进行采样。运动网络采用24个RGB帧作为输入。其中的流网络（PWC-Net）估计了23个稠密光流场;轨迹估计器进一步提取长度为23的轨迹;然后利用I3 D提取轨迹特征。输出要素地图的大小为T×H×W×Km.外观网络取剪辑的第一帧，并输出尺寸为1×H×W×Ka的外观特征。该特征通过融合模块与轨迹特征进行融合，空间池化后得到大小为T×Kv的表观特征。声音分离网络以3秒的混合音频片段作为输入，并通过短时傅立叶变换（STFT）将其转换为帧大小为1022、跳数为172的声谱图。然后将频谱图馈送到具有6个卷积层和6个去卷积层的U-网络中。在声音分离网络的中间，视觉特征与声音特征对齐，并且胶片模块以视觉特征为条件调制声音特征U-Net在sigmoid激活和阈值化后输出二进制掩码。为了获得最终分离的音频波形，应用具有与STFT相同的参数的iSTFT。我们使用具有0.9动量的SGD优化器来训练模型。声音分离网络和融合模块使用1 e-3的学习率;运动网络和外观网络使用1 e-4的学习率，因为它们在ImageNet上采用预训练的ResNet和I3 D，在MPI Sintel上采用预训练的PWC-Net。表2. N=3，4混合声的分离性能我们将我们的模型与像素之声进行比较，以显示运动特征的优势。我们的模型不断提高分离指标，并在高度混合的情况下表现出色。4.2.2结果我们用不同的变体来评估我们的模型的声音分离性能RGB+Trajectory 是我们在 3.3 中描述的完整模型 ;RGB+Flow是没有跟踪模块的完整模型，因此从光流中提取运动特征; RGB多帧进一步去除了流网络，运动特征直接来自RGB帧序列; RGB单帧图像是一个没有运动网络的模型，视觉特征仅来源于外观网络.同时，我们重新实现了4个模型进行比较。NMF[47]是一种基于矩阵分解的经典方法，它使用地面真值标签进行训练;Deep Separation[8]是一种CNN变体监督学习模型，它也采用地面真值标签进行训练;MIML[17]是一种结合NMF分解和多示例多标记学习;像素声音[53]是最近提出的一种自监督模型，它将声音和视频帧用于源分离。为了进行公平的比较，所有模型都使用从N= 2个输入音频混合的3秒音频进行训练和测试，并且依赖于视觉的模型采用24个视频帧。模型的性能进行评估的验证集与256对声音的混合。我们使用开源mir eval[37]库中的以下指标来量化性能：信号失真比（SDR），信号干扰比（SIR）和信号信噪比（SAR）。单位为dB。定量结果见表1。我们观察到，即使只使用外观信息，以前的方法在声音分离中也实现了合理的性能[53]。它表明，基于外观的模型已经是这项任务的强大基线。相比之下，我们的RGB多帧，RGB+Flow和RGB+Trajectory模型优于所有基线方法，显示了在视听源分离任务中编码运动线索的有效性。其中，RGB+Trajectory是最好的，比最先进的Sound of Pixels模型的性能高出100倍。8分贝。它表明，在这些莫-方法SDR先生特区NMF [47]2.786.709.21[8]第八话4.757.0010.82MIML [17]4.256.2311.10[53]第五十三话7.5213.0111.53我们的，RGB单帧7.0412.1011.05我们的，RGB多帧7.6714.8111.24我们的RGB+Flow8.0514.7312.65我们的RGB+轨迹8.3114.8213.111741Pred. 声音2G.T. 声音2输入混音仪器1运动Pred. 声音1G.T. 声音1仪器2运动输入混音仪器1运动仪器2运动Pred. 声音1G.T. 声音1Pred. 声音2G.T. 声音2输入混音仪器1运动仪器2运动Pred. 声音1G.T. 声音1Pred. 声音2G.T. 声音2图4.在同类乐器上的声音分离结果我们的模型可以捕获视频中的运动信息，以分离声音。此可视化仅用于定量模型评估。在声音表示中，轨迹与声音具有最强的相关性。我们进一步实验的任务，分离大量的声音混合，其中N= 3，4。结果报告于表2中。我们观察到，在这些高度混合的情况下，我们最好的模型在更大的范围内表现出像素之声。N = 3时为2 dB，且N =1。N= 4时为8dB。4.3. 相同乐器的声音分离在本节中，我们评估了模型在从同类乐器中分离声音方面的性能，这在以前很少被探索。4.3.1实验配置为了评估我们的模型的性能，我们选择了5种声音与运动密切相关的乐器：小提琴、大提琴、康加、二胡和木琴。所有培训设置与第4.2节相似，除了我们使用第3.4节中提到的课程学习策略。4.3.2结果首先，我们评估我们提出的课程学习策略的有效性。使用固定的验证集，我们将直接在相同乐器的混合物上训练的单阶段策略与我们的3阶段训练策略进行比较。在课程阶段1中，训练模型分离不同类别乐器的声音混合;在课程阶段2中，任务是分离来自同一种乐器的声音混合;在课程阶段3中，任务是分离来自同一种乐器的声音混合。附表SDR先生特区单级1.915.738.83课程第一3.147.5213.06课程第二5.7213.8911.92课程第三5.9314.4112.08表3.根据建议的课程学习时间表提高绩效。第二和第三阶段。SDR的总改善为104 dB。然后，我们将我们的模型的性能与在同一乐器分离任务上的像素模型的声音。为了进行公平的比较，Sound of Pixels模型使用相同的课程进行训练。SDR度量的结果报告于表4中。我们可以看到，与我们的模型相比，像素声音模型给出的结果要差得多，差距>3dB。定性比较如图5所示，其中我们显示了像素级的声音嵌入。为了在空间上恢复声音，我们在测试时删除了图3中融合模块中的空间池操作，然后将每个空间位置的视觉特征馈送到声音分离网络因此，我们能够得到H×W的分离的声音分量的数量。我们把这些声音投射到-使用PCA将（矢量化的频谱图值）转换为3维空间，并以颜色将其可视化。热图中的不同颜色表示不同的声音。我们表明，我们的模型可以告诉从二重奏相同的乐器的区别，而像素的声音模型不能。第三阶段，目标是从同一个长视频中分离不同片段的声音混合。最终模型验证集上的参数如图4所示。表3中的结果表明，课程学习大大提高了绩效：它优于课程第一阶段的单阶段模型，并进一步提高了4.3.3人工评价由于流行的指标（例如，SDR、SIR和SAR）进行声音分离可能不能反映声音分离结果的实际感知质量，我们进一步在Amazon Me上比较了这两种方法的性能1742仪器像素之声我们小提琴38.75%61.25%大提琴39.21%60.79%congas35.42%64.58%二胡44.59%55.41%木琴35.56%64.44%表5.同一乐器混合声源分离的人的评价结果。图5.像素级声音嵌入结果。为了将像素级的声音分离结果可视化，我们将声音特征投影到低维空间中，并将其可视化在RGB空间中。不同的颜色意味着不同的声音。我们的模型可以分辨出相同乐器的二重奏，而像素之声模型不能。仪器像素之声我们小提琴1.956.33大提琴2.625.48congas2.905.21二胡1.676.13木琴3.566.50表4.同一乐器二重奏的声源分离性能。我们在每个工具上显示SDR度量。我们的方法始终优于以前的作品。机械土耳其人（AMT）与主观的人的评价。具体来说，我们从每个仪器收集了100个测试视频，并得到了像素基线[53]和我们最好的模型的声音分离结果。图6.探测目标定位。叠加的热图显示每个像素位置处的预测音量。该模型倾向于预测人们与之交互的乐器部件。无声乐器（如墙上的吉他）不会被检测为发声对象。4.4. 探测目标定位作为进一步的分析，我们探讨了我们的最佳模型的探测目标定位能力。我们恢复的声音在空间上类似于我们在第4.3.2节中所做的。然后我们计算每个空间位置的音量，并将其显示在热图中，如图6所示。我们观察到：（1）模型对探测物体的位置给出了大致正确的预测，但没有覆盖整个仪器。有趣的是，它关注的是人类与之交互的部分;（2）我们的模型正确地预测了无声乐器，例如墙上的吉他，它表明发声对象定位不仅是我们还提供了参考的地面实况结果埃伦斯。到避免捷径，我们随机打乱两个模型的顺序，并提出以下问题：哪种声音分离结果更接近地面实况？工人们被要求选择一个最好的声音分离结果。我们为每个工作分配3名独立的AMT工作人员。结果如表5所示，我们提出的基于运动的模型始终优于所有五种乐器的像素系统的声音。其原因主要有两个方面：（1）运动信息对于乐器的声音分离至关重要;（2）Sound of Pix-els模型不能有效地捕捉运动线索，而我们的模型通过设计更好。基于视觉外观，也基于音频输入。5. 结论在本文中，我们提出了运动是视听任务中的重要实验结果表明，与以往的基于外观的模型相比，本文提出的方法能够更好地实现不同乐器的音视频源分离，并且可以通过课程学习分离出同类乐器的声音，这是单纯基于外观的方法所无法实现的。像素之声我们输入视频1743引用[1] Relja Arandjelovic和Andrew Zisserman。看，听，学。2017年IEEE国际计算机视觉会议（ICCV），第609-617页。IEEE，2017年。一、二[2] Relja Arandjelovic和Andrew Zisserman会发出声音的物体。arXiv预印本arXiv：1712.06651，2017。一、二[3] 尤瑟夫·艾塔卡尔·冯德里克安东尼奥·托拉尔巴声音网络：从未标记的视频中学习声音表示. 神经信息处理系统的进展，第892-900页，2016年。一、二[4] Zohar Barzelay和Yoav Y Schechner。和谐的运动。《计算机视觉与模式识别》，2007。07年CVPR。IEEE会议，第1-8页。IEEE，2007年。2[5] 边云龙、甘闯、刘晓、李富、向龙、李延东、齐恒、周杰、温石磊、林元庆.重新审视大规模视频分类的现成时间建模方法的有效性 arXiv 预印本 arXiv ：1708.03805，2017。2[6] 约翰·坎尼。边缘检测的计算方法。IEEE Transactionson Pattern Analysis and Machine Intelligence，（6）：679-698，1986. 5[7] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在Computer Vision and PatternRecognition（CVPR），2017 IEEE Conference on，第4724-4733页中。IEEE，2017年。4[8] 普里蒂什·科维纳，马里乌斯·米龙，乔迪·贾纳，和艾米莉亚·戈麦斯。使用深度卷积神经网络的单声道音频源分离在ICLVASS，第258-266页，2017年。二、五、六[9] 郑俊山，老安德鲁，奥里尔·维尼亚和安德鲁·齐瑟曼.在野外读唇语句子在CVPR中，第3444-3453页2[10] Andrzej Cicloviki，Rafal Zdunek，Anh Huy Phan，和Shunichi Amari.非负矩阵和张量分解：探索性多路数据分析和盲源分离的应用。John Wiley Sons，2009年。2[11] JeffreyDonahue 、 LisaAnneHendricks 、 SergioGuadarrama、MarcusRohrbach、SubhashiniVenugopalan、Kate Saenko和Trevor Darrell。用于视觉识别和描述的长期递归卷积网络在ICCV，第2625-2634页2[12] Ariel Ephrat、Inbar Mosseri、Oran Lang、Tali Dekel、Kevin Wilson、Avinatan Hassidim、William T Freeman和Michael Rubinstein。在鸡尾酒会上聆听：一种用于语音分离的与说话人无关的视听模型。arXiv预印本arXiv：1804.03619，2018。一、二[13] 范立杰，黄文兵，甘创，龚伯庆，黄俊洲.用于视频理解的运动表示的端到端学习在CVPR，2018年。3[14] 约翰·W·费舍尔三世，特雷弗·达雷尔，威廉·T·弗里曼和保罗·A·维奥拉。学习视听融合和分离的联合统计模型。NIPS，2001年。2[15] 艾维·加贝，阿里尔·埃弗拉特，塔维·哈尔佩林，什穆尔·佩莱格.透过噪音：使用视觉导出语音的说话人分离和增强。arXiv预印本arXiv：1708.06767，2017。2[16] Chuang Gan ， Boqing Gong ，Kun Liu ， Hao Su ，andLeonidas J Guibas.用于自监督视频表示学习的几何引导CNN。2018. 3[17] Ruohan Gao，Rogerio Feris，and Kristen Grauman.通过观看未标记的视频学习分离物体声音。在ECCV，2018。一、二、五、六[18] Ruohan Gao和Kristen Grauman。2.5 d视觉声音。arXiv预印本arXiv：1812.04204，2018。2[19] 西蒙·海金和陈哲。鸡尾酒会的问题神经计算，17（9）：1875-1902，2005。2[20] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。4[21] John R Hershey，Zhuo Chen，Jonathan Le Roux，andShinji Watanabe.深度集群：用于分割和分离的判别嵌入。在 Acoustics ， Speech and Signal Processing（ICASSP），2016年IEEE国际会议，第31-35页中。IEEE，2016. 2[22] John R. Hershey和Javier R.莫维兰音频视觉：使用视听同步来定位声音。In S. A. 索拉T. K. Leen，andK. Müller，编辑，《神经信息处理系统进展》12，第813-819页MIT Press，2000. 一、二[23] Hamid Izadinia，Imran Saleemi，and Mubarak Shah.多模态分析用于运动发声物体的识别和分割。 IEEETransactions on Multime-dia ， 15 （ 2 ）： 378-390 ，2013。2[24] Einat Kidron，Yoav Y. Schechner和Michael Elad。像素的声音。在2005年IEEE计算机协会计算机视觉和模式识别会议（CVPR'05）的会议录华盛顿特区，美国，2005年。IEEE计算机协会。一、二[25] Alexander Klaser ， Marcin Marszałek ， and CordeliaSchmid.一种基于三维梯度的时空描述子。在BMVC，第275-1页，2008中。2[26] Bruno Korbar，Du Tran，and Lorenzo Torresani.来自自监督时间同步的音频和视频表示的arXiv预印本arXiv：1807.00230，2018。一、二[27] 伊万·拉普捷夫关于时空兴趣点。国际计算机视觉杂志，64（2-3）：107-123，2005。2[28] Bochen Li ， Xinzhao Liu ， Karthik Dinesh ， ZhiyaoDuan，and Gaurav Sharma.为多模态音乐分析创建多轨古典音乐演奏数据集：挑战、洞察和应用。IEEETransactions on Multimedia ， 21 （ 2 ）： 522-535 ，2019。二、五[29] Xiang Long ， Chuang Gan ， Gerard de Melo ， JiajunWu，Xiao Liu，and Shilei Wen.注意群组：基于纯注意力的局部特征融合视频分类。在CVPR，2018年。2[30] 乔什·麦克德莫特。鸡尾酒会的问题当代生物学，19（22）：R1024-R1027，2009。2[31] Pedro Morgado、Nuno Nvasconcelos、Timothy Langlois和Oliver Wang。360度视频空间音频的自我监督生成在1744NIPS，2018年。21745[32] Arsha Nagrani，Samuel Albanie和Andrew Zisserman。看到声音和听到面孔：跨模态生物特征匹配。arXiv预印本arXiv：1804.00326，2018。2[33] Jiquan Ngiam 、 Aditya Khosla 、 Mingyu Kim 、 JuhanNam、Honglak Lee和Andrew Y. Ng.多模态深度学习。第28届国际机器学习会议论文集，ICML'11，第689-696页，2011年。1[34] Andrew Owens和Alexei A Efros。具有自我监督多感官特征的视听场景分析。 arXiv 预印本 arXiv ：1804.03641，2018。2[35] Andrew Owens 、 Jiajun Wu 、 Josh H McDermott 、William T Freeman和Antonio Torralba。环境声音为视觉学习提供监督。欧洲计算机视觉会议，第801-816页。施普林格，2016年。2[36] 伊桑·佩雷斯，弗洛里安·斯特鲁布，哈姆·德·弗里斯，文森特·杜莫林，和亚伦·库维尔胶片：视觉推理与一般条件反射层。arXiv预印本arXiv：1709.07871，2017年。5[37] Colin Raffel 、 Brian McFee 、 Eric J Humphrey 、 JustinSala-mon、Oriol Nieto、Dawen Liang、Daniel PW Ellis和C Colin Raffel。mir eval：通用mir指标的透明实现。在第15届国际音乐信息检索学会会议论文集中，ISMIR。Citeseer，2014. 6[38] Olaf Ronneberger，Philipp Fischer，and Thomas Brox. U-net：用于生物医学图像分割的卷积网络。医学图像计算和计算机辅助干预国际会议，第234施普林格，2015年。5[39] Andrew Rouditchenko，Hang Zhao，Chuang

下载后可阅读完整内容，剩余1页未读，立即下载