视觉声音分离：基于身体运动线索的新模型的有效性

13 浏览量更新于2023-10-23 收藏 1.59MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1用于视觉声音分离的庄干1，2，邓煌2，赵航1，Joshua B。Tenenbaum1，Antonio Torralba11 MIT，2MIT-IBM Watson AI Lab图1：我们建议在音乐表演中利用显式的身体动力学运动线索进行视觉声音分离。我们表明，我们的新模型可以很好地执行异构和同质音乐分离任务。摘要最近的深度学习方法在视觉声音分离任务上取得了然而，这些方法大多建立在像运动特征表示的外观和光流上，这限制了发现音频信号和视觉点之间的相关性的能力，特别是当分离相同类型的多个乐器时，例如场景中的多个小提琴为了解决这个问题，我们提出了我们首先采用一个上下文感知的图网络来整合视觉语义上下文与身体动态，然后应用一个视听融合模型来关联身体动作与相应的音频信号。三个音乐表现数据集的实验结果显示：1）对异性音乐分离任务的基准度量的强改进（即，不同的工具）;2）对于钢琴、长笛和小号二重奏的有效的同调音乐分离的新能力，据我们所知，这从未用替代方法实现。1. 介绍音乐表演是一项深刻的体力活动。身体和乐器以微妙的姿态相互作用，产生独特的声音[21]。演奏时，钢琴家可能会在较低的音域敲击琴键，或者在高音上“挠象牙”;小提琴演奏者可以在一个进奏中有力地移动，而另一个演奏者则在旋律的基础上轻轻地摇摆;长笛演奏者按下一组键来产生一个特殊的音符。作为人类，我们有非凡的能力来区分不同的声音，并将我们听到的声音与音乐家身体姿势的相应视觉感知联系起来受这种人类能力的启发，我们提出了1047810479视觉表示利用身体运动线索进行声源分离。我们的模型是建立在混合和分离的自我监督训练过程最初提出的赵等。[56]。我们考虑利用视频中明确的人体和手部运动，而不是纯粹依赖视觉语义线索[56，17，19，52]或低级别的光流运动表示[55为了实现这一目标，我们设计了一个新的框架，它由视频分析网络和视听分离网络组成。视频分析网络从视频帧中提取乐器的人体动力学和语义背景。然后，视听分离网络负责基于视觉上下文分离每个为了更好地利用人体的动态运动进行声音分离，我们在视听分离网络的中间设计了一个新的视听融合模块，以视觉特征为条件调整声音特征。我们在三个乐器数据集上证明了我们的模型的有效性，URMP [31]，MUSIC [56]和AtinPiano [35]。实验结果表明，通过基于关键点的结构化视觉表示对身体动力学进行示例性建模，我们的方法在异性音乐和同性音乐分离任务上都优于最先进的方法。总之，我们的工作做出了以下贡献：• 我们开辟了一个新的研究方向，利用身体动态运动与结构化的关键点为基础的视频表示，以指导声源分离。• 我们提出了一种新的视听融合模块，将人体运动线索与声音信号相关联。• 我们的系统优于以前的国家的最先进的approaches对异性音乐分离任务的大幅度提高。• 我们表明，基于关键点的结构化表示开辟了新的机会，以解决钢琴，长笛，小号二重唱2. 相关工作声音分离。声音分离是音频信号处理领域的核心问题[33，22]，而其分类解决方案基于非负矩阵分解（NMF）[51，11，47]。这些都不是很有效，因为它们依赖于信号中的低水平相关性。近年来，基于深度学习的方法正在接管。Simpson等人[46]和Reynnaet al.[9]提出了CNN模型来预测用于音乐源分离和增强的时频掩码。语音分离中的另一个挑战性问题是身份置换：语谱图分类模型不能处理任意数量的说话者同时讲话的情况。解决Hersheyet al. [24]提出了深度聚类和Yu等人。[54]提出了一个独立于说话人的训练框架。视觉声音分离。我们的工作属于视听分离的范畴.早期的作品[5]利用听觉和视觉起始信号之间的紧密联系来进行视听声音归因。最近，Zhaoet al.[56]提出了一个框架，该框架从未标记的视频中学习，以在视觉语义线索的帮助下分离和定位声音。Gao等人[17]将深度网络与NMF相结合，用于声音分离。Ephrat等人[12]和欧文斯等人。[37]提出利用视觉来提高语音分离的质量。Xu等[52]和Gaoet al. [19]进一步改进了具有递归模型和共分离损失的模型。这些作品都证明了语义现象如何有助于语音分离。然而，这些方法具有有限的能力来捕获运动线索，从而限制了它们的适用性，以解决更难的声源分离问题。最近，Zhaoet al.[55]提出利用时间运动信息来改善视觉声音分离。然而，该算法尚未看到广泛的applicability声音分离的实际混合。这是因为他们使用的轨迹和光流等运动我们的工作克服了这些局限性，因为我们使用基于结构化关键点的结构化表征来研究视听学习的外显身体运动线索，这在视听声音分离任务中从未被探索视听学习。随着深层神经网络的出现，不同模态的桥接信号变得更加容易。在过去几年中，出版了一系列关于视听学习的著作。通过学习- 将音频模型和图像模型联合地或单独地通过蒸馏，可以实现良好的音频/视频表示[38，4，2，32，14，30]。另一个有趣的问题是发声对象定位，其目标是在空间上关联视觉输入中的声音[26，25，3，43，56]。其他一些有趣的方向包括生物特征匹配[36]，视频声音生成[57]，听觉车辆跟踪[16]，情感识别[1]，视听共同分割[42]，视听导航[15]，以及360/来自视频的立体声[18，34]。音频和身体动态。有许多作品探索言语和面部运动之间的联系[7，6]。从面部和语音中提取的多模型信号已被用于使用语音进行面部动画[28，49]，从音频中生成高质量的说话面部[48，27]，分离多个语音信号的混合语音信号10480Σ图2：我们的模型架构的概述。它由两个部分组成：视频分析网络和视听分离网络。视频分析网络首先获取视频帧以提取全局上下文和关键点坐标;然后应用GCN将身体动态与语义上下文相结合，输出一个潜在表征。最后，一个视听分离网络分离源从混合音频的视觉特征的条件。扬声器[12]，开/关屏幕音频源分离[37]和来自原始视频的唇读[10]。相比之下，身体姿势与声音之间的相关性较少被探索。与我们最相关的是最近关于从音乐中预测身体动力学[44]和从语音中预测身体节奏[20]的工作。这与我们使用身体动态线索分离声源的目标相反混合物取决于其相关的视觉环境。具体而言，我们的框架包括两个主要组成部分：视频分析网络和视听分离网络（见图2）。在训练过程中，我们随机选择N个具有配对视频帧的视频剪辑，音频信号{Vk，Sk}，然后通过音频输入的线性组合来混合它们的音频以形成合成混合。N实际Smix=k=1Sk.给定一个视频片段Vk，3. 方法我们首先将视觉声音分离任务形式化，并在第3.1节中总结我们的系统管道。然后，我们提出了用于学习结构化表示（第3.2节）和视听分离模型（第3.3节）的视频分析网络。最后，我们在3.4节中介绍了我们的训练对象和推理过程。3.1. 产品线概述我们的目标是将人体动力学与音频信号相关联，用于声源分离。我们采用[ 56 ]中介绍的常用的这个训练过程的主要思想是通过混合来自不同视频剪辑的任意声源来创建合成训练数据。然后学习目标是将每个声音从分析网络从视频中提取全局上下文和身体动态特征。然后，视听分离网络负责将其音频信号Sk与以相应的视觉上下文Vk为条件的混合音频Smix分离。值得注意的是，我们以监督的方式训练神经网络，但它从未标记的视频数据中学习因此，我们将训练管道视为自监督学习。3.2. 视频分析网络我们提出的视频分析网络集成了基于关键点的结构化视觉表示，以及全局语义上下文特征。视觉语义和关键点表示。为了从视频帧中提取全局语义特征，我们使用ResNet-50 [23]来提取最后一个空间10481s v vs从每个视频剪辑的第一帧的平均池化层。因此，我们为每个视频片段获得2048维上下文特征向量。我们还旨在通过关键点表示来捕获人体部位和手指的显式运动。为了实现这一目标，我们采用AlphaPose工具箱[13]来估计人体关节的2D位置。为了估计手部姿势，我们首先应用预先训练的手部检测模型，然后使用OpenPose [8]手部API [45]来估计手部关键点的坐标。结果，我们提取了18个人体关键点和21个关键点，每只手。由于视频中的关键点估计在野外是有挑战性和噪声的，所以我们保持每个估计的关键点的2D坐标（X，Y）上下文感知图CNN。从原始视频中提取视觉语义特征和关键点后，采用上下文感知的图CNN（CT-GCN）融合乐器和人体动力学的语义上下文。该体系结构是针对非网格数据而设计的，适合于对人体和手部的不同关键点之间的时空关系进行显式建模。网络架构设计的灵感来自于先前关于动作识别[53]和人体形状重构[29]的工作。类似于[53]，我们首先在人类上构造一个无向时空图G={V，E}骨架序列在这个图中，每个节点vi∈ {V}cor-响应人体的关键点;边缘反映natural connectivity of bodykeypoints.每个节点的输入特征表示为2D坐标和检测到的关键点随时间T的置信度得分。为了模拟时空身体动力学，可以是其他模型设计选项。我们把这个留给未来的工作。3.3. 视听分离网络最后，我们有一个视听分离网络，它将视频分析网络产生的具有视觉表示的混合音频的频谱图作为输入，以预测频谱图掩码并生成所选视频的音频信号。中国广播电视网. 我们采用了U-Net 风格 architecture[41]，即具有用于音频网络的跳过连接的编码器-解码器网络。它由4个扩张卷积层和4个扩张上卷积层组成。所有膨胀卷积和上卷积都使用3× 3空间滤波器，步幅为 2 ，膨胀为 1 ，然后是 BatchNorm 层和 LeakyReLU。音频网络的输入是混合声音的2D时频频谱图，并且输出是相同大小的二进制频谱图掩模。我们将视觉特征融合到U-Net的中间部分，用于指导声音分离。视听融合。为了更好地利用身体动态线索来引导声音分离，我们采用基于自我注意[50]的跨模态早期融合模块来捕获身体运动与声音信号之间的相关性。如图3所示，每个时间步长t处的融合特征zt定义如下：ht=Softmax（ft·ftT）ft+ft，（2）zt=MLP（ht）+ht，（3）其中ft∈RF×Ds和ft∈RN×Dv表示视觉和我们首先应用图卷积网络来编码sv在每个时间步独立地摆姿势。 Then, we perform astandard temporal convolution on the resulting tensor tofuse the temporal information. 编码姿态特征 fv定义如下：fv=A<$XWsWt，（1）其中X∈RN×T×Dn是输入特征，Ws和Wt是空间图卷积和二维卷积的权矩阵，A∈RN×N是图的r-归一化邻接矩阵，N表示关键字个数点;Dn表示每个输入节点的特征维度。受先前工作[53]的启发，我们基于身体和手指的关节连接定义邻接矩阵GCN的输出是每个关键点节点的更新特征为了进一步结合视觉语义线索，我们将视觉外观上下文特征连接到每个节点特征，作为视频分析网络的最终输出。上下文感知图CNN能够对语义上下文和身体动态进行建模，从而提供强大的视觉线索来指导声音分离。那里时间步长t处的声音特征。 F、Dv和Ds表示自由度。声谱图的频率基、视觉特征的维度和声音特征的维度。softmax计算是沿着视觉特征通道的维度。视觉特征然后通过注意力矩阵加权并与声音特征连接我们进一步添加了一个多层感知器（MPL）与剩余的连接，以产生输出功能。 MLP是图3：图2中模型的视听融合模块。10482它由两个具有ReLU激活功能的全连接层实现。这种注意力机制迫使模型更多地关注有区别的身体关键点，并将它们与声谱图上的对应声音分量相关联。3.4. 训练和推理我们的模型的学习目标是估计一个二元掩模Mk。计算第k个视频的地面真实掩模是否目标声音是幅度谱图S上的输入混合声音中的主导分量，即，Mk（t，f）=<$Sk（t，f）≥ Smix（t，f）），<$Sk =（1，.，N），（四）其中（t，f）表示声谱图中的时间-频率坐标。通过最小化估计掩码和地面真实二进制掩码之间的每像素S形交叉熵损失来训练网络然后将预测的掩模阈值化并与输入的复STFT系数相乘以得到预测的声谱图。最后，我们将具有相同变换参数的逆短时傅立叶变换（iSTFT）应用于预测的频谱图以重建分离的声音的波形。在测试过程中，我们的模型采取了一个单一的现实多源视频执行声源分离。我们首先在视频帧中定位人。对于每个检测到的per-son，我们使用视频分析网络来提取视觉特征，以将属于该音乐家的声音部分从混合音频中分离出来。4. 实验在本节中，我们将讨论我们的实验，实施细节，比较和评估。4.1. 数据集我们在三个视频音乐表演数据集上进行实验，即MUSIC-21[55]，URMP [31]和AtinPiano [35]。MUSIC-21是一个未修剪的视频数据集，通过关键字查询从Youtube上抓取。它包含属于21个类别的音乐表演。该数据集是相对干净的，并且是为了训练和评估视觉声源分离模型而收集的。URMP [31]是在工作室中录制的高质量多乐器视频数据集，并为每个声源提供地面真实标签AtinPiano [35]是一个数据集，其中钢琴视频记录是以相机向下看键盘和手的方式拍摄的4.2. 音乐剧《分离》我们首先评估模型在分离不同乐器声音的任务中的性能，音乐数据集基线和评估指标我们考虑5个最先进的系统进行比较。• NMF[51]是一种基于矩阵分解的纯音频源分离的成熟管道;• Deep Separation[9]是一种基于CNN的纯音频源分离方法;• MIML[17]是一种结合NMF分解和多示例多标签学习的模型;• Sound of Pixels[56]是一项利用视觉进行声源分离的开创性工作;• Co-separation [19] devices a new model that incor-porates an object-level co-separation loss into the mix-and-separate framework [56];• 运动之声[55]是最近提出的一种利用轨迹运动线索的自我监督模型。我们采用盲分离的指标，包括信号失真比（SDR），信号干扰比（SIR）定量比较的声音分离的质量。本文报道的结果是通过使用开源mir eval[40]库获得的。实验设置按照Zhao等人的实验方案。[55]，我们将MUSCI数据集上的所有视频分为训练集和测试集。我们使用mix-2和mix-3样本训练和评估我们的模型，这些样本包含2个和3个不同乐器的混合声源。由于MUSIC数据集上具有多个声音的真实混合视频数据没有用于定量评估的地面实况标签模型性能的结果在具有256对声音混合的验证集上报告，与[55]相同。我们还对MUSIC和URMP数据集上的真实混合进行了人类研究，以衡量人类实现细节我们使用Pytorch实现我们的框架。我们首先使用ResNet-50 [23]从视频剪辑中提取全局上下文特征，并使用Open-Pose [8]和AlphaPose [13]提取每个帧的身体和手部关键点的坐标。我们的GCN模型由11层剩余连接组成。在训练图CNN网络时，我们首先将关键点坐标传递给批量归一化层，以保持输入的规模相同。在训练过程中，我们还随机移动坐标作为数据增强，以避免过度拟合。对于音频数据预处理，我们首先将音频重新采样在训练过程中，我们从数据集中随机抽取一个6秒的视频剪辑。视听分离网络以6秒的混合音频片段作为输入，通过短时傅立叶变换（STFT）将其转换为声谱图。我们将帧大小和跳大小设置为10483方法2-混合3-混合表1：不同乐器上的声源分离性能（N=2，3混合物）。Compared to previous ap- proaches, our models with bodydynamic motion information perform better in sound separation.1022 and 256, respectively.然后将谱图馈送到具有4个扩张卷积层和4个去卷积层的U-网络U-Net的输出是一个估计的二进制掩码。我们将阈值设置为0.7以获得二进制掩码，然后将其与输入混合声谱图相乘。应用具有与STFT相同参数的iSTFT以获得最终分离的音频波形。我们使用SGD优化器以0.9动量训练我们的模型。音频分离网络和融合模块使用1 e-2的学习率; ST-GCN网络和外观网络使用1 e-3学习率。定量评价。表1总结了针对MUSIC上的最新方法的比较结果。我们观察到，我们的方法在分离准确性方面始终优于所有基线，如跨指标捕获的那样值得注意的是，我们的系统在SDR得分方面优于先前最先进的算法[55]，在2混合源分离上为1.8dB，在3混合源分离上为0.6dB。这些定量结果表明，我们的模型可以成功地利用显式的身体动力学运动，以提高声音分离质量。实际混合物的定性评价。我们的定量结果表明，我们的模型取得了更好的结果比基线。然而，这些度量在其反映真实世界视频上的声音分离结果因此，我们进一步使用来自Amazon Machanical Turk（AMT）上的MUSIC和URMP数据集的真实混合视频进行主观人类研究具体来说，我们将我们自己的模型与最佳基线系统的声音分离结果进行比较[55] 1 AMT工作人员需要比较这两个系统并回答以下问题：“哪种声音分离效果更好？.”我们随机打乱两个模型的顺序，1实际混合物的结果由作者提供。方法2-混合3-混合音乐之声[55]百分之二十四百分之十六我们百分之七十六百分之八十四表2：不同乐器的混合物上声源分离的人类评价结果方法SDR我们的w/o融合9.64我们的不含RGB10.22我们10.12表3：2种不同仪器混合物的SDR度量的消融研究。避免走捷径。每项工作由3名AMT工人独立完成。结果如表2所示，采用多数表决。从这个表中，我们发现工人fa-vor我们的系统为2混合和3混合声音分离。4.3. 烧蚀研究在本节中，我们进行了深入的消融研究，以评估模型中每个组件的影响。基于关键点的表示。的主要我们的论文的贡献是通过基于关键点的结构表示使用显式身体运动来进行源分离。为了进一步理解这些表示的能力，我们仅使用基于关键点的结构表示进行消融研究，而不使用RGB上下文特征。有趣的是，我们可以观察到，基于关键点的表示也可以单独实现非常强大的结果（见表3）。我们希望我们的研究结果能启发更多的作品使用结构化的基于关键点的表示的视听场景分析任务。SDR先生SDR先生NMF [51]2.786.702.012.08[9]第十九话4.757.00--MIML [17]4.256.23--[56]第五十六话7.5213.013.658.77[19]第十九话7.6413.83.948.93音乐之声[55]8.3114.824.879.48我们10.1215.815.4111.4710484视听融合模块。提出了一种新的基于注意力的视听融合模型。为了验证其有效性，我们将此模块替换为[55]中使用的逐行线性调制（FiLM）[39]比较结果示于表3中。我们可以发现，所提出的视听融合模块带来了0.5dB的改善，在SDR度量的2混合声源分离。4.4. 音乐人的分离在本节中，我们将进行一项更具挑战性的任务的实验，即当声音由相同的乐器产生时的声音分离。实验设置我们选择了5种声音与身体动力学密切相关的音乐乐器：小号、长笛、钢琴、小提琴和大提琴进行评估。受前人工作[55，37]的启发，我们也采用了两阶段课程学习策略来训练相同乐器的声音分离模型。特别是，我们首先对模型进行多乐器分离的预训练，然后学习分离同一乐器。我们将我们的模型与SoM [55]进行比较，因为以前的基于外观的模型在这种情况下无法产生有意义的结果。结果通过自动SDR评分和人工评估AMT来衡量。结果分析。结果见表4和表5。从这些表格中，我们有三个关键的观察结果：1)我们提出的模型始终优于SoM系统[55]，用于所有五种由自动和人工评估指标测量的仪器;（2）小提琴与大提琴二重奏分离的定量结果接近（见表4）。然而，我们发现，SoM系统是相当脆弱的测试时，对真正的混合物。人们倾向于在真实的混合物上投票给我们的系统，如表5所示;3)与我们的模型相比，SoM在小号、钢琴和长笛二重奏上提供了差得多的结果，因为差距大于3 dB。这并不奇怪，因为这三种乐器的二重奏主要依赖于手部姿势运动。这是非常困难的轨迹和光流特征，以捕捉这样的细粒度的手部动作。我们的方法可以克服这一挑战，因为我们通过跟踪手部关键点的坐标变化来对身体运动进行显式建模。这些结果进一步验证了身体动力学运动在解决更多更难的视觉声音分离问题上的有效性4.5. 可视化作为进一步的分析，我们想了解身体关键点如何影响声源分离。图4可视化视听融合模块中的关键点的学习注意力图。我们观察到，我们的模型在分离gui时倾向于更多地关注手部关键点仪器SoM [55]我们小号1.84.9长笛1.55.3钢琴0.83.8小提琴6.36.7大提琴5.46.1表4：在SDR度量下，相同乐器的二重奏的声源分离性能。仪器SoM [55]我们小号百分之十八百分之八十二长笛百分之十四百分之八十六钢琴百分之三十百分之七十小提琴百分之二十六百分之七十四大提琴百分之二十八百分之七十二表5：相同乐器混合声源分离的人体评价结果。焦油和长笛的声音，而更注意肘部时，分离大提琴和小提琴。图5显示了我们的模型与之前最先进的SoM [55]之间在分离3种不同仪器和2种相同仪器时的定性结果比较。第一行显示视频帧示例，第二行显示音频混合的频谱图。第三到第五行显示了真实掩码、SoM预测的掩码和我们的方法预测的掩码。第六至第八行示出了在对输入频谱图应用掩模之后的地面实况频谱图和预测频谱图的比较。我们可以观察到，我们的系统产生更干净的声音分离输出。虽然结果是显着的，并构成了一个值得注意的一步更具挑战性的视觉声音分离，我们的系统仍然是远远不够完美。我们观察到10485图4：身体关键点的注意力地图。颜色越鲜艳，注意力得分越高。10486图5：视觉声音分离与运动声音（SoM）的定性结果[55]。我们的方法对于相机视点改变和音乐家的身体部分遮挡没有弹性我们推测，从原始图像中无监督学习关键点进行视觉声音分离可能是未来工作的一个很有前途的探索方向。5. 结论和未来工作在本文中，我们表明，基于关键点的结构化视觉表示是强大的视觉声音分离。广泛的评估表明，与以前的外观和低层次的运动为基础的模型相比，我们能够更好地执行的视听源分离的dif。ferent instruments; we can also achieve remarkable resultson separating sounds of same instruments (e.g. 钢琴、长笛和小号），这在以前是不可能的。我们希望我们的工作将开辟道路，使用结构化的视觉代表sentations的视听场景分析。在未来，我们计划将我们的方法扩展到更一般的视听数据与更复杂的人与物体的互动。本工作得到ONR MURI N 00014 -16-1-2007、大脑、心智和机器中心（ CBMM ， NSF STC award CCF-1231216）和IBM Research的支持。10487引用[1] 塞缪尔·阿尔巴尼，阿尔沙·纳格拉尼，安德里亚·维达尔迪，和安德鲁·齐瑟曼.在野外使用跨模态转移的语音中的情感识别ACM Multimedia，2018。2[2] Relja Arandjelovic和Andrew Zisserman。看，听，学。2017年IEEE国际计算机视觉会议（ICCV），第609-617页。IEEE，2017年。2[3] Relja Arandjelovic和Andrew Zisserman会发出声音的物体。arXiv预印本arXiv：1712.06651，2017。2[4] 尤瑟夫·艾塔卡尔·冯德里克安东尼奥·托拉尔巴声音网络：从未标记的视频中学习声音表示. 神经信息处理系统的进展，第892-900页，2016年。2[5] Zohar Barzelay和Yoav Y Schechner。和谐的运动。《计算机视觉与模式识别》，2007。07年CVPR。IEEE会议，第1-8页。IEEE，2007年。2[6] 马修·布兰德声音木偶。在Proceedings of the 26th annualconferenceonComputergraphicsandinteractivetechniques，pages 21-28，1999中。2[7] 克里斯托夫·布雷格勒米歇尔·科维尔和马尔科姆·斯兰尼视频重写：用音频驱动视觉语音。1997. 2[8] 曹哲、吉内斯·伊达尔戈、托马斯·西蒙、魏世恩和亚瑟·谢赫。OpenPose：使用部件亲和场进行实时多人2D姿态估计。在arXiv预印本arXiv：1812.08008，2018。四、五[9] 普里蒂什·科维纳，马里乌斯·米龙，乔迪·贾纳，和艾米莉亚·戈麦斯。使用深度卷积神经网络的单声道音频源分离在ICLVASS，第258-266页，2017年。二、五、六[10] 郑俊山，老安德鲁，奥里尔·维尼亚和安德鲁·齐瑟曼.在野外读唇语句子在CVPR中，第3444-3453页3[11] Andrzej Cicloviki，Rafal Zdunek，Anh Huy Phan，和Shunichi Amari.非负矩阵和张量分解：探索性多路数据分析和盲源分离的应用。John Wiley Sons，2009年。2[12] Ariel Ephrat、Inbar Mosseri、Oran Lang、Tali Dekel、Kevin Wilson、Avinatan Hassidim、William T Freeman和Michael Rubinstein。在鸡尾酒会上聆听：用于语音分离的与说话者无关的视听模型。ACM Transactions onGraphics（TOG），37（4）：112，2018。二、三[13] 方浩树，谢淑琴，戴玉荣，陆策武。RMPE：区域多人姿势估计。InICCV，2017. 四、五[14] Chuang Gan ， Naiyan Wang ， Yi Yang ， Dit-YanYeung，and Alex G Hauptmann. Devnet：一个用于多媒体事件检测和证据重新描述的深度事件网络。在CVPR，第2568-2577页，2015年。2[15] Chuang Gan，Yiwei Zhang，Jiajun Wu，Boqing Gong，and Joshua B Tenenbaum.看，听，并采取行动：以视听为载体的导航。ICRA，2020年。2[16] 甘闯，赵航，陈培豪，考克斯，托拉尔巴.具有立体声的自监督移动车辆跟踪在ICCV，第7053-7062页，2019年。2[17] Ruohan Gao，Rogerio Feris，and Kristen Grauman.通过观看未标记的视频学习分离物体声音。在ECCV，2018。二、五、六[18] Ruohan Gao和Kristen Grauman。2.5 d视觉声音。arXiv预印本arXiv：1812.04204，2018。2[19] Ruohan Gao和Kristen Grauman。共同分离视觉对象的声音。ICCV，2019。二、五、六[20] Shiry Ginosar ， Amir Bar ， Gefen Kohavi ， CarolineChan，An- drew Owens和Jitendra Malik。学习个人风格的会话手势。在CVPR中，第34973[21] Rolf Inge Godøy和Marc Leman。音乐手势：声音、动作和意义。Routledge，2010年。1[22] 西蒙·海金和陈哲。鸡尾酒会的问题神经计算，17（9）：1875-1902，2005。2[23] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。三、五[24] John R Hershey，Zhuo Chen，Jonathan Le Roux，andShinji Watanabe.深度集群：用于分割和分离的判别嵌入。在 Acoustics ， Speech and Signal Processing（ICASSP），2016年IEEE国际会议，第31-35页中。IEEE，2016. 2[25] John R. Hershey和Javier R.莫维兰音频视觉：使用视听同步来定位声音。In S. A. 索拉T. K. Leen，andK. Müller，编辑，《神经信息处理系统进展》12，第813-819页MIT Press，2000. 2[26] Hamid Izadinia，Imran Saleemi，and Mubarak Shah.多模态分析用于运动发声物体的识别和分割。 IEEETransactions on Multime-dia ， 15 （ 2 ）： 378-390 ，2013。2[27] Amir Jamaludin、Joon Son Chung和Andrew Zisserman。你这么说的？：从音频合成说话的面孔。国际计算机视觉杂志，第1-13页，2019年。2[28] Tero Karras，Timo Aila，Samuli Laine，Antti Herva，and Jaakko Lehtinen.音频驱动的面部动画的联合端到端学习的姿态和情绪。 ACM Transactions on Graphics（TOG），36（4）：94，2017。2[29] Nikos Kolotouros Georgios Pavlakos和Kostas Dani- ilidis卷积网格回归用于单幅图像的人体形状重建。在CVPR中，第4501-4510页，2019年。4[30] Bruno Korbar，Du Tran，and Lorenzo Torresani.来自自监督时间同步的音频和视频表示的arXiv预印本arXiv：1807.00230，2018。2[31] Bochen Li ， Xinzhao Liu ， Karthik Dinesh ， ZhiyaoDuan，and Gaurav Sharma.为多模态音乐分析创建多轨古典音乐演奏数据集：挑战、洞察和应用。IEEETransactions on Multimedia ， 21 （ 2 ）： 522-535 ，2018。二、五[32] Xiang Long ， Chuang Gan ， Gerard De Melo ， JiajunWu，Xiao Liu，and Shilei Wen.注意群组：基于纯注意力的局部特征融合视频分类。在CVPR中，第7834-7843页，2018年。210488[33] 乔什·麦克德莫特。鸡尾酒会的问题当代生物学，19（22）：R1024-R1027，2009。2[34] Pedro Morgado、Nuno Nvasconcelos、Timothy Langlois和Oliver Wang。360度视频空间音频的自我监督生成在NIPS，2018年。2[35] Amit Moryossef，Yanai Elazar，and Yoav Goldberg. 在你的指尖：自动钢琴指法检测，2020年。二、五[36] Arsha Nagrani，Samuel Albanie和Andrew Zisserman。看到声音和听到面孔：跨模态生物特征匹配。arXiv预印本arXiv：1804.00326，2018。2[37] Andrew Owens和Alexei A Efros。具有自我监督多感官特征的视听场景分析。ECCV，2018年。二、三、七[38] Andrew Owens 、 Jiajun Wu 、 Josh H McDermott 、William T Freeman和Antonio Torralba。环境声音为视觉学习提供监督。欧洲计算机视觉会议，第801-816页。施普林格，2016年。2[39] 伊桑·佩雷斯，弗洛里安·斯特鲁布，哈姆·德·弗里斯，文森特·杜莫林，和亚伦·库维尔胶片：视觉推理与一般条件反射层。arXiv预印本arXiv：1709.07871，2017年。7[40] Colin Raffel 、 Brian McFee 、 Eric J Humphrey 、 JustinSala-mon、Oriol Nieto、Dawen Liang、Daniel PW Ellis和C Colin Raffel。mir eval：通用mir指标的透明实现。在第15届国际音乐信息检索学会会议论文集中，ISMIR。Citeseer，2014. 5[41] Olaf Ronneberger，Philipp Fischer，and Thomas Brox. U-net：用于生物医学图像分割的卷积网络。医学图像计算和计算机辅助干预国际会议，第234施普林格，2015年。4[42] Andrew Rouditchenko，Hang Zhao，Chuang Gan，JoshMc- Dermott和Antonio Torralba。自监督视听共分割。在ICASSP 2019-2019 IEEE声学，语音和信号处理国际会议（ICASSP），第2357-2361页。IEEE，2019。2[43] Arda Senocak、Tae-Hyun Oh、Junsik Kim、Ming-HsuanYang和In So Kweon。学习在视觉场景中定位声源。arXiv预印本arXiv：1803.03849，2018。2[44] Eli Shlizerman，Lucio Dery ，Hayden Schoen，and IraKemelmacher-Shlizerman.音频到身体动力学。在CVPR中，第7574-7583页，2018年。3[45] Tomas Simon，Hanbyul Joo，Iain Matthews，and YaserSheikh. 使用多视图自举的单图像中的手关键点检测在CVPR，2017年。4[46] Andrew JR Simpson ， Gerard Roma ， and Mark DPlumbley.深度卡拉OK：使用卷积深度神经网络从音乐混合中提取人声。在潜变量分析和信号分离国际会议上，第429-436页。施普林格，2015年。2[47] 帕丽斯·斯马拉迪斯和朱迪思·C·布朗。复调音乐转录的非负矩阵分解。信号处理在音频和声学中的应用，2003年IEEE研讨会。第177-180页。IEEE，2003年。2[48] Supasorn Suwajanakorn ， Steven M Seitz ， and IraKemelmacher-Shlizerman.综合奥巴马：学习-正在从音频中进行唇同步。 ACM Transactions onGraphics（TOG），36（4）：95，2017。2[49] Sarah Taylor 、 Taehwan Kim 、 Yisong Yue 、 MosheMahler 、 James Krahe 、 Anastasio Garcia Rodriguez 、Jessica Hodgins和Iain Matthews。广义语音动画的深度学习方法ACM Transa

下载后可阅读完整内容，剩余1页未读，立即下载