基于负加网的视觉声音分离任务中的MP-Net

35 浏览量更新于2023-10-12 收藏 1.58MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

882基于负加网的徐东徐波戴大华林香港中文大学-商汤科技联合实验室xx018@ie.cuhk.edu.hkbdai@ie.cuhk.edu.hkdhlin@ie.cuhk.edu.hk摘要声音为许多任务提供了丰富的语义，与视觉数据互补然而，在实践中，来自多个来源的声音经常混合在一起。在本文中，我们提出了一种新的框架，称为MinusPlus网络（MP-Net），视觉声音分离的任务。MP-Net以平均能量1的顺序递归地分离声音，在每次预测结束时从混合中移除分离的声音，直到混合变空或仅包含噪声。通过这种方式，MP-Net可以应用于具有任意数量和类型的声音的声音混合此外，当MP-Net不断从混合物中去除与以前的方法相比，MP-Net在两个大规模数据集上获得了最先进的结果，跨越了不同类型和数量的声音的混合。1. 介绍除了视觉线索之外，伴随我们所看到的声音通常提供补充信息，这些信息可用于对象检测[12，13，17，18]以澄清模糊的视觉线索，以及描述生成[6，7，26，5]以丰富语义。另一方面，由于我们在大多数情况下听到的是来自不同来源的不同声音的混合，因此在利用声音数据之前，有必要将声音分离并将其与视觉场景中的来源相关联。视觉声音分离的困难在于几个方面。1)首先，对应视频中的可能声源可能不发出任何声音，这导致模糊。2)第二，混合物通常在数量和类型方面包含很大的差异。3)更重要的是，混合物中的声音通常以多种方式相互影响。例如，具有大能量的声音通常支配混合物，使得其他声音难以区分，或者在某些情况下甚至听起来像噪声。1.本文中的平均声能量是指声谱图的平均能量。现有的作品[10，28]对视觉声音分离主要是分开每个声音独立。它们假设固定的声音类型或固定的声音数量，独立地分离声音。由于[10，28]中的强假设限制了它们在广义场景中的适用性，因此单独分离声音可能导致实际混合和分离声音的混合之间的不一致性，例如。实际混合物中的一些数据不会出现在任何声音中。此外，在这样的独立过程中，具有小能量的声音的分离可能受到具有大能量的声音的影响面对这些挑战，我们提出了一种新的解决方案，称为MinusPlus网络（MP-Net），它递归地识别混合物中的每个声音，按平均能量的降序排列。它可以分为两个阶段，即负阶段和正阶段。在减去阶段的每一步，MP-Net从当前混合中识别出最突出的声音，然后从中删除声音。重复此过程，直到当前混合变为空或仅包含噪声。由于去除了先前的分离，只有一个声音可以获得由多个声音共享的分量。因此，为了补偿这种情况，MP-Net在加阶段中细化每个声音，该加阶段基于声音本身和先前分离声音的混合来计算残差最后的声音是通过混合两个阶段的输出获得的。MP-Net有效地克服了视觉声音分离的挑战。通过递归地分离声音，它自适应地决定混合中的声音的数量，而无需先验地知道声音的数量和类型。此外，在MP-Net中，具有大能量的声音将在它们被分离后从混合物中去除。通过这种方式，具有相对较小能量的声音自然出现并变得更加清晰，从而减少了不平衡声能的影响。总的来说，我们的贡献可以简要总结如下：（1）我们提出了一种新的框架，称为MinusPlus网络（MP-Net），用于基于相应的视频从记录的混合物中分离独立的声音。不像以前的作品，假设一个固定数量的声音在混合物中，拟议的框架可以dy-8831 2N动态地确定声音的数量，导致更好的泛化能力。(2)MP-Net利用一种新的方法来缓解混合中声音能量不平衡的问题，通过在分离后从混合中减去突出的声音，使得能量较少的声音可以出现。(3)在两个大规模数据集上，MP-Net获得了更准确的结果，并且与最先进的方法相比具有更好的泛化能力。2. 相关工作连接视觉和听觉数据的作品可以大致分为几类。第一类是联合嵌入视听数据。Aytar等人[4]通过最小化它们的表示的KL分歧，将视觉内容中的判别知识转移到音频数据。Arandjelovic等人[2]通过学习视觉和音频数据的对应来关联它们的表示（即，它们是否属于同一视频），并且[21，20，16]中的作者进一步将这种对应扩展到时间对准，从而得到更好的表示。与这些作品不同的是，视觉声音分离要求从混合中分离出每个独立的声音，依赖于相应的视频。声音定位的任务还需要联合处理视觉和音频数据，其识别产生声音的区域。为了解决这个问题，Hersheyet al. [15]通过测量视听同步来定位视频帧中的声源。Tianet al. [24]和Paras- candoloet al.[3]应用声音事件检测来查找声源。最后， Senocaket al. [23]Arandjelovicet al. [3]通过分析特征图的激活来找到声源虽然视觉声音分离也可以在相应的视频中定位分离的声音，但它首先需要分离声音，使其更具挑战性。视觉声音分离属于第三类，其中一种特殊类型是视觉语音分离，其中混合物中的声音都是人类的语音。例如，Afouraset al.[1]和Ephratet al.[8]通过利用大量的新闻和电视视频获得说话人无关模型，徐等人。[27]提出了一个听觉选择框架，该框架使用注意力和记忆来捕获语音特征。与这些作品不同的是，我们的目标是分离具有不同类型的声音的一般任务，这些声音具有更多样化的声音特征。[28]和[10]是最相关的作品在[10]中，使用卷积网络来预测视频中出现的对象的类型，并且使用非负矩阵分解[9]用于提取一组基本组件。每个对象和每个基本组件之间的关联将通过多实例多标签目标进行估计。因此，声音将使用基本组件和每个预测对象之间的关联来分离。[28]遵循类似的框架，取代非负的马，使用U-Net进行分解[22]。此外，它不是预测基于对象的关联，而是直接预测以视觉语义为条件的权重。虽然前者预测视频中不同对象的存在，假设固定类型的声音，后者假设固定数量的声音。这种强假设限制了它们的泛化能力，因为声音的混合通常在声音类型和数量上有很大的差异。更重要的是，[28]和[10]中的每个预测都是独立进行的。结果，1）在所有预测声音的混合与实际混合之间可能存在e.G.出现在实际混合中的某些数据可能不会出现在任何预测的声音中，或者某些数据在预测的声音中出现太多次，超过了其在实际混合中的频率。2)由于混合中的声音具有不同的平均能量，具有大能量的声音与之不同的是，我们提出的方法递归地预测混合物中的每个声音，遵循平均能量的顺序。具有大能量的预测声音将在其预测之后从混合物中移除。通过这种方式，我们提出的方法不需要对声音的类型和数量进行假设，并确保与输入混合物的一致预测。此外，当能量大的声音不断从混合物中去除时，能量较小的声音可能会出现并变得更清晰，从而导致更准确的预测。3. 视觉声音分离在视觉声音分离的任务中，我们给出了上下文视频V和所记录的声音混合Smix，其是一组独立声音的混合{Ssolo，Ssolo，.，Ssolo}。目标是根据V中的视觉上下文将每个声音从混合物中分离出来。我们提出了一个新的视觉声音分离框架，称为MinusPlus网络（MP-Net），它学习从记录的混合中分离每个独立的声音，而无需先验地知道混合中的声音数量（即，n）。此外，MP-Net还可以将每个独立的声音与相应视觉内容中的一个可能来源相关联，从而提供一种将两种不同模态的数据链接起来的方法。3.1. 概述在MP-Net中，声音数据表示为频谱图，MP-Net的整体结构如图1所示。它有两个阶段，即负阶段和正阶段。减阶段。在减法阶段，MP-Net递归地将每个独立的声音从混合S混合中分离出来，在每个递归步骤中，它将专注于剩余声音中最突出的声音过程884模型（迭代i）-模型（迭代i+1）（输入频谱图）i（预测频谱图）i（输入频谱图）i+1负网络K基元预测掩码预测谱图Plus网络●✕·+预和频谱图残留掩模最终频谱图✕yConcatenateK剩余U-Net剩余谱图X视觉特征图…输入频谱图音频U-NetResNet180我我我我1i−1i i−1i我我我…输入视频帧图1：用于视觉声音分离的MinusPlus网络（MP-Net）。它由两个子网组成，即负网络（M-Net）和正网络（P-Net）。在M-Net中，声音是基于输入视频递归分离的。在第i个递归步骤中，使用U-Net [22]来预测当前混合的k个基本分量，然后将其用于估计掩码M，以及确定视频中待分离声音的源基于掩蔽和声源处的视觉线索，分离声音M-Net重复这些操作，直到混合物只包含噪声。所有分离的声音将由P-Net进行细化，P-Net从先前分离的声音的混合中计算残差。每个声音的MP-Net的最终输出是通过混合M-Net和P-Net的输出获得的。可以描述为：S混合=S混合，（1）如等式1所示。在等式（6）中，MP-Net基于S_solo和所有先前预测的混合来计算第i个预测的残差S_residual，并且最终通过以下来细化第i个独奏混合混合Ssolo和Sresidual。在实践中，我们使用Si=M-Net（V，Si−1），（2）我S独奏，决赛我独奏Smix=SmixSsolo，（3）其中，Ssolo是第i个预测声音，M-Net代表在减阶段中使用的子网，而M-Net是频谱图上的逐元素减法。如等式1所示。（3）、MP-Net一直从之前的混合物中删除Ssolo，直到cur-i而不是等式中的Si。（3）和方程（四）、使用两个阶段的好处在于几个方面。1)负阶段可以有效地确定混合中独立声音的数量，而无需先验地知道它。2）从混合中删除先前的预测可以减少它们对剩余声音的干扰，我混合租金i−1剩下的声音继续出现，i为空或仅包含带符号的噪声，非常低的能量。加上舞台。虽然在减阶段中，我们通过减法从混合物中去除预测，但是预测Ssolo可能会错过一些由它共享的内容，来了3)从混合中删除先前的预测可能有助于M-Net专注于剩余声音的独特（3）加级可以补偿我独奏在前预测{S1，...， Si−1}。受此启发MP-Net包含一个加阶段，它进一步细化了每个分离声音如下：Sremix=Ssolo···Ssolo，（4）放弃预测，潜在地平滑每个声音的最终预测。随后，我们将分别介绍两种网络，即M-Net和P-Net3.2. M网S残差=P-Net（S混音，S独奏），（5）我我我Ssolo，final=SsoloSresidual，时间最大池…885我（6）其中，P-Net表示在加阶段，而λ是谱图上的逐元素加法。M-Net是负责将每个独立的声音从混合物中，遵循递归程序。具体地，为了在第i个递归步骤分离最突出的声音Ssolo，M-Net将预测k个子光谱图{Ssub，.，Ssub}使用U-Net [22]，1K886我我我我我我JM12k我我我3.3. P网虽然M-Net通过从混合中删除先前的预测使后续预测更加准确，但后续预测可能会错过一些共享通过先前的预测，导致不完整的光谱图。为了解决这个问题，MP-Net进一步应用了P-Net用于改善由M-Net分离的声音。特别地，对于Ssolo，P-Net应用U-Net [22]以基于两个输入（即Ssolo和Sremix）获得残差掩码Mr=预测1地面实况预测2我我我是一个人... Sunday solo1i−1，这是前一个预混合物的re-混合物图2：如图所示，当失配出现在频谱图的不同位置时，SDR、SIR和SAR的分数可能会有很大差异。因为Ssolo的缺失内容只能出现在其中。第i个声音的最终声谱图通过以下方式获得：S残差=S混合残差r，（9）我我在S混合中捕捉不同的模式。同时，我们将从输入视频V中获得大小为H/16×W/16×k的特征图V，该特征图V估计每个子谱图与不同空间位置处的视觉内容之间的关联得分对于V和{Ssub，Ssub，.，Ssub}，我们然后可以识别用于Ssolo：Ssolo，final=Ssolo Sresidual。（十）3.4. 互失真测量为了评估视觉声音分离的模型，以前的方法[10，28]利用归一化信号失真（x，y）= argmaxEσ（x，y）.Σk. Σkj=1ΣV（x，y，j）JΣ子把它混合在一起，（七）信噪比（ NSDR ）、信干比（ SIR ）和信干比（SAR）。虽然这些传统的方法可以在一定程度上反映分离性能，但它们对频率敏感，因此不同分离声音的分数不仅受其与地面真实值的相似性的影响，而且还受失配位置因此，如图2所示，SDR方面的得分其中σj=1V（x，y，j）<$Sj计算位置-当失配出现时，SIR和SAR变化显著特定的面具E[·]计算规格的平均能量trogram，σ代表sigmoid函数，我们认为（x，y）作为S solo的源位置，并且V中在该位置处的特征向量v作为S solo的视觉特征。为了分离Ssolo，我们重新使用向量v作为子频谱图上的注意力权重，并通过下式获得实际掩码MΣkM=σ（vjSsub），（8）j=1在不同的地点。为了弥补这种情况，我们提出了在两对声谱图具有相同的相似性水平时需要获得近似相同的分数的标准下来衡量视觉声音分离的质量。该度量被称为平均互信息失真（AMID），计算分离的声音和另一个声音的地面实况之间的平均相似性，其中相似性通过频谱图上的结构相似性（SSIM）[25]来估计具体地，对于一组分离的声音 {S_solo ， ... ，{\fnSimHei\bord1\shad1\pos（200，288）}gt1m其中σ代表sigmoid函数。在[28]之后，我们将M称为比率掩码，并且替代选择是GT以及其对应的注释{S1，...，S}，AMID为计算为：进一步二进制化M以得到二进制掩码。最后，Ssolo是ob-1独奏混合iAMID（{Ssolo}，{Sgt}）=SSIM（Ssolo，Sgt）.由Si=M S得到。值得注意的是，我们可以i jm（m−1）i j也直接预测Ssolo，遵循Ssolo=kvSsub.i/=ji ij=1jj然而，据报道，一个中间口罩导致更好的结果[28]。在第i个递归步骤结束时，MP-Net将从先前的混合Smix中移除预测的SsoloNSDR：20.89SIR：31.14SAR：21.32NSDR：31.03SIR：49.20SAR：31.10887我（十一）由于AMID依赖于SSIM而不是光谱图，因此它是insen-i i−1通过Smix=Smix代替Ssolo，这样不太突出的声音就可以对频率敏感。此外，低AMID分数指示-i i−1i在以后的递归步骤中出现当平均能量如果Smix小于阈值k，M-Net停止递归过程，假设所有声音都已分离。该模型可以清楚地分离混合物中的声音，满足视觉声音分离的评价要求。888Jjj=1jmix-2mix-3掩模NSDR↑SIR↑SAR↑AMID↓NSDR↑SIR↑SAR↑AMID↓[第10话]1.123.055.268.740.341.322.398.91[28]第二十八话2.207.989.006.991.004.823.826.49比2.965.9113.7710.352.992.5910.6910.55M-NetBinary2.027.489.225.961.234.764.695.96比2.665.1714.196.803.542.3115.9211.54MP-Net（M-Net + P-Net）二进制2.147.669.475.781.484.994.805.76比2.815.4514.496.533.752.5216.7710.59表1：该表列出了VEGAS [ 29 ]上的视觉声音分离结果，其中MP-Net在各种指标和设置下获得最佳性能。mix-2mix-3掩模NSDR↑SIR↑SAR↑AMID↓NSDR↑SIR↑SAR↑AMID↓[第10话]2.824.949.2116.371.763.324.5425.32[28]第二十八话5.1610.9610.6015.813.016.386.2724.01比6.098.0714.9318.814.834.8711.1929.84M-NetBinary5.4712.6310.2111.834.017.896.7623.76比6.8210.1214.9813.905.615.0313.4224.05MP-Net（M-Net + P-Net）二进制5.7312.7510.5011.224.238.186.9523.10比7.0010.3915.3113.365.755.3713.6823.51表2：该表列出了MUSIC [ 28 ]上的视觉声音分离结果，其中MP-Net在各种指标和设置下获得最佳性能。4. 实验4.1. 数据集我们在两个数据集上测试了MP-Net，即乐器组合的多模态源（ MUSIC ） [28] 和（视觉和接地音频集（VEGAS）[29]。音乐主要包含未经修剪的视频的人演奏乐器属于11类，即ac- cordion，木吉他，大提琴，单簧管，二胡，长笛，萨克斯管，小号，大号，小提琴和木琴。MUSIC的训练集、验证集和测试集分别有500、130和40个样本.由于MUSIC的测试集只包含二重唱，而不包含混合声音的地面实况，因此我们使用其验证集作为测试集和训练集用于培训和验证。虽然MUSIC专注于非乐器声音，但另一个更大规模的数据集VEGAS涵盖了10种自然声音，包括婴儿哭声，电锯，狗，鼓，烟花，直升机，打印机，铁路运输，打鼾和水流，从Au- dioSet [11]修剪。VEGAS中的2，000个样本用作测试，剩余样本用于训练和验证。4.2. 培训和测试详情由于缺乏真实混合数据的地面实况，I.E.那些包含多种声音的视频我们构建这样的数据从独奏视频剪辑代替。每个片段最多包含一个声音。我们用{S_solo，V_j}N来表示独奏视频剪辑的集合，其中S_solo和V_j_rej表示声音和视觉内容。注意视频剪辑可以是无声的，对于这种情况，S_solo是空频谱图。对于每个Vj，我们以偶数间隔对T=6帧进行采样，并使用ResNet-18[14]提取每个帧的视觉特征。这将导致大小为T×（H/16）×（W/16）×k的特征张量。在训练和测试中，这个特征张量将被减少到一个向量中，通过沿着第一个三维空间在这个单独的视频集合之上，我们遵循[28，10]中的混合和分离策略来构建混合的视频/声音数据，其中每个样本混合n个视频，称为mix-n样本。音频在训练和测试之前进行预处理。具体来说，我们以16kHz采样音频，并使用开源软件包librosa[19]将大约6秒的声音片段转换为大小为750×256的STFT频谱图，其中窗口大小和跳长分别889特区由于视频帧混合物地面实况PixelPlayerMP-Net手风琴小提琴吉他乐器声音铁路运输流水狗自然声音图3：MP-Net和PixelPlayer的视觉声音分离的定性结果[28]。在左边，演示了乐器声音的混合，MP-Net成功地分离了小提琴的声音，与其基线不同。在右边，自然声音从混合物中分离出来。由于铁路运输和水流的声音具有高度的相似性，MP-Net分离了狗的声音，但预测了水流的沉默，而其基线重用了铁路运输的声音。6十二十点五5301010.0489.5256349.020228.501518.022 3 4 5#混合验证6543212 3 45#混合验证2 3 4 5#混合验证1210864202 3 45#混合验证8.07.57.06.56.05.55.04.54.02 3 4 5#混合验证2 3 45#混合验证2 3 4 5#混合验证4035302520152 3 4 5#混合验证图4：MUSIC上测试混合物中声音数量变化的曲线，由分别用2种声音（第一行）和3种声音（第二行）的混合物训练的模型获得。绿线、红线和蓝线分别代表MP-Net、PixelPlayer [28]和MIML [10]。设置为1、500和375。我们对其进行了梅尔尺度下采样，得到了256 ×256的谱图。对于M网，我们使用k=16。我们采用三轮培训策略，第一轮，我们培训M-NSDRNSDR先生先生特区由于890由于581494681243710212 3 45#混合验证2022 3 45#混合验证652 3 45#混合验证862 3 4 5#混合验证43210122 3 45#混合验证10864202 3 45#混合验证6.05.55.04.54.03.53.02.52.02 3 45#混合验证12108642 3 4 5#混合验证图5：VEGAS上测试混合物中不同声音数量的曲线，分别由2种声音（第一行）和3种声音（第二行）的混合物训练的模型获得。绿线、红线和蓝线分别代表MP-Net、PixelPlayer [28]和MIML [10]。图6：使用MP-Net和PixelPlayer [ 28 ]发现视觉声源（亮区）和不同类型声音之间关联的定性样本。网隔离。在第二轮中，我们在固定M-Net参数的情况下训练P-Net。最后，在第三轮中，M-Net和P-Net被联合微调。在训练过程中，对于每个mix-n样本，我们首先执行数据增强，随机缩放光谱图的能量然后，MP-Net按照地面实况平均能量的降序进行n次声音.特别地，对于第t个预测，MP-Net预测具有第t个最大平均值的声音的M和Mr能量，并计算M+Mr和地面真实掩模之间的BCE损失，如果使用二进制掩模，或L1损失，如果使用ratio掩模在所有n个预测完成后，我们添加剩余的混合物和空谱图之间的额外损失NSDRNSDRMP-NetPixelPlayerMP-NetPixelPlayer先生先生特区特区由于891应该没有声音了。在评估过程中，我们通过等式确定预测顺序（七）、由于所有基线都需要知道混合中的声音数量，为了进行公平的比较，我们还将声音数量提供给MP-Net。然而，值得注意的是，MP-Net可以在没有这些信息的情况下工作，仅依赖于终止标准来确定数量。在MUSIC上，MP-Net以超过90%的准确率预测正确的声音数量。4.3. 实验结果为了研究我们模型的有效性，我们将我们的模型与最先进的方法进行了比较，即PixelPlayer [28]和MIML[10]，跨数据集和设置，提供了全面的比较。具体来说，在MUSIC和VEGAS上，我们分别使用mix- 2和mix- 3样本对所有方法进行两次训练和评估，其中mix-2和 mix-3样本在混合中包含 2个和 3个声音。对于PixelPlayer和MP-Net，我们进一步改变了掩码的形式，以便在比率掩码和二进制掩码之间切换。VEGAS的NSDR、SIR、SAR和AMID结果列于表1，MUSIC的结果列于表2我们观察到，1）我们提出的MP-Net在大多数设置中获得了最佳结果，大大优于PixelPlayer和MIML，这表明了以平均能量的顺序分离声音的有效性2）在NSDR和SAR方面使用比率掩模更好，而在SIR和AMID方面使用二进制掩模更好3）AMID指标与其他指标具有良好的相关性，验证了AMID指标的有效性。4)所有方法在mix-2样本上的得分都比mix-3样本上的得分高得多，mix-3样本只在混合物中增加了一个声音。分数的这种差异显示了视觉声音分离的挑战5)一般来说，方法在MUSIC上获得更高的分数，这意味着自然声音比乐器声音更复杂，因为乐器声音通常包含规则模式。消融研究的结果虽然所提出的MP-Net包含两个子网，我们比较了MP-Net与P-Net。如表1和表2所示，在所有指标上，具有P-Net的MP-Net大大优于没有P-Net的MP-Net，表明1）不同的声音具有共享的模式，好的模型需要考虑这一点，使得分离的声音的混合与实际混合一致。2)P-Net可以有效地补偿声音再运动造成的共享模式的损失，填补谱图中的空白。从混合中递归分离声音的好处是，MP-Net在混合中的声音数量变化时是鲁棒的，尽管是用固定数量的声音训练的。为了验证MP-Net的泛化能力，我们测试了所有训练方法对于混合2或混合3样本，对于混合中声音数量增加的样本。MUSIC上的结果曲线如图4所示，图5包括VEGAS上的曲线在图4和图5中，最多由5个声音组成的混合物，随着混合物中声音数量的增加，用混合物中固定数量的声音训练的MP-Net定性结果在图3中，我们以声谱图的形式展示了分别由MP-Net和PixelPlayer分离的声音的在乐器声音混合的样本中，PixelPlayer无法分离属于小提琴和吉他的声音，因为它们的声音被手风琴的声音淹没了。相反，MP-Net成功地分离了提琴和吉他的声音，减轻了手风琴声音的影响。与PixelPlayer独立分离声音不同，MP-Net递归分离当前混合中的主导声音，并将其从混合中删除，从而获得准确的分离结果。在自然声音混合的样本中也可以观察到类似的现象，PixelPlayer预测铁路运输和水流的声音相同，并且未能分离出狗的声音。定位结果MP-Net也可用于将视频中的声源与分离的声音相关联，使用公式：（七）、我们在图6中显示了一些示例，其中与PixelPlayer兼容，MP-Net在分离的声音及其可能的声源之间产生更精确的关联。5. 结论我们提出了MinusPlus网络（MP-Net），一种新的视觉声音分离框架。与之前独立分离每个声音的方法不同，MP-Net联合考虑所有声音，首先分离能量较大的声音，然后将它们从混合物中移除，以便能量较小的声音继续出现。通过这种方式，一旦经过训练，MP-Net就可以处理由任意数量的声音组成的混合物。在两个数据集上，MP-Net的表现一直优于最先进的技术，并且随着混合声音数量的增加而保持稳定的性能。此外，MP-Net还可以将分离的声音与相应视频中的可能声源相关联，从而潜在地链接来自两种模态的数据。致谢这项工作是部分支持获商汤科技合作研究基金资助（协议编号TS1610626及TS1712093），及香港一般研究基金（编号14236516及14203518）。892引用[1] TriantafyllosAfouras ， Joon Son Chung ，和 AndrewZisser-man. 对话内容：深度视听语音增强。 Proc.Interspeech 2018，第3244-3248页，2018年。2[2] Relja Arandjelovic和Andrew Zisserman。看，听，学。在IEEE计算机视觉国际会议论文集，第609-617页，2017年。2[3] Relja Arandjelovic和Andrew Zisserman。会发出声音的物体。在欧洲计算机视觉会议（ECCV）的会议记录中，第435-451页2[4] 尤瑟夫·艾塔卡尔·冯德里克安东尼奥·托拉尔巴声音网络：从未标记的视频中学习声音表示. 神经信息处理系统进展，2016。2[5] Bo Dai，Sanja Fidler，and Dahua Lin.图像字幕的神经合成范例神经信息处理系统的进展，第658-668页，2018年1[6] Bo Dai，Sanja Fidler，Raquel Urtasun，and Dahua Lin.通过有条件的组来实现多样化和自然的图像描述。在IEEE国际计算机视觉会议论文集，第2970-2979页1[7] 戴波，叶德明，林大华。图像字幕中潜态形式的再思考在欧洲计算机视觉会议（ECCV）的会议中，第2821[8] Ariel Ephrat、Inbar Mosseri、Oran Lang、Tali Dekel、Kevin Wilson、Avinatan Hassidim、William T Freeman和Michael Rubinstein。在鸡尾酒会上聆听：用于语音分离的与说话者无关的视听模型。ACM Transactions onGraphics（TOG），37（4）：112，2018。2[9] Ce'dricF e'v otte、Nan c yBertin和J e an-LouisDurrieu。具有itakura-saito发散的非负矩阵分解：应用于音乐分析。神经计算，21（3）：793-830，2009. 2[10] Ruohan Gao，Rogerio Feris，and Kristen Grauman.通过观看未标记的视频学习分离物体声音。在欧洲计算机视觉会议（ECCV）的会议记录中，第35-53页，2018年。一、二、四、五、六、七、八[11] Jort F Gemmeke、Daniel PW Ellis、Dylan Freedman、Aren Jansen 、 Wade Lawrence 、 R Channing Moore 、Manoj Plakal和Marvin Ritter。音频集：音频事件的本体和人类标记的数据集。在2017年IEEE声学、语音和信号处理国际会议上，第776-780页。IEEE，2017年。5[12] 罗斯·格希克。快速R-CNN。在Proceedings of the IEEEinternational conference on computer vision ，第 1440-1448页，2015中。1[13] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。在IEEE计算机视觉国际会议论文集，第2961-2969页1[14] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。5[15] John R Hershey和Javier R Movellan。视听：使用视听同步来定位声音。神经信息处理系统的进展，第813-819页，2000年2[16] Bruno Korbar，Du Tran，and Lorenzo Torresani.从自监督同步中协作学习音频和视频模型神经信息处理系统的进展，第7774-7785页，2018年2[17] Hongyang Li，Bo Dai，Shaoshuai Shi，Wanli Ouyang，and Xiaogang Wang.用于目标检测的特征缠绕器。arXiv预印本arXiv：1903.11851，2019。1[18] Hongyang Li，Xiaoyang Guo，Bo Dai，Wanli Ouyang，and Xiaogang Wang.神经网络封装在欧洲计算机视觉会议上，第266Springer，2018. 1[19] Brian McFee、Colin Raffel、Dawen Liang、Daniel PWEllis 、 Matt McVicar 、 Eric Battenberg 和 Oriol Nieto 。librosa ： Python 中的音频和音乐信号分析。在Proceedings of the 14 th python in science conference，第185[20] Andrew Owens和Alexei A Efros。具有自我监督多感官特征的视听场景分析。欧洲计算机视觉会议（ECCV），2018年。2[21] Andrew Owens 、 Jiajun Wu 、 Josh H McDermott 、William T Freeman和Antonio Torralba。环境声音为视觉学习提供监督。欧洲计算机视觉会议（ECCV），2016。2[22] Olaf Ronneberger，Philipp Fischer，and Thomas Brox. U-net：用于生物医学图像分割的卷积网络。医学图像计算和计算机辅助干预国际会议，第234施普林格，2015年。二、三、四[23] Arda Senocak、Tae-Hyun Oh、Junsik Kim、Ming-HsuanYang和In So Kweon。学习在视觉场景中定位声源。在IEEE计算机视觉和模式识别会议论文集，第4358- 4366页，2018年。2[24] 田亚鹏，石静，李博辰，段志尧，徐振良.无约束视频中的视听事件定位。在欧洲计算机视觉会议（ECCV）的会议记录中，第247-263页2[25] ZhouWang ，Alan C Bovik，Hamid R Sheikh ，Eero PSimon- celli，et al.图像质量评估：从错误可见性到结构相似性。IEEE图像处理学报，13（4）：600-612，2004。4[26] 熊一磊，戴波，林大华。向前走，告诉：视频描述的渐进式生成器。在欧洲计算机视觉会议（ECCV）的Proceedings中，第468-483页，2018年。1[27] Jiaming Xu，Jing Shi，Guangcan Liu，Xiuyi Chen，andBo Xu.鸡尾酒会环境中听觉选择的注意力和记忆建模2018年第32届AAAI人工智能大会2[28] 赵航，庄淦，安德鲁·鲁迪琴科，卡尔·冯德里克，乔什·麦克德莫特，安东尼奥·托拉尔巴.像素的声音在欧洲计算机视觉会议（ECCV）的会议记录中，第570-586页一、二、四、五、六、七、八893[29] Yipin Zhou，Zhaowen Wang，Chen Fang，Trung Bui，and Tamara L Berg.视觉到声音：在野外为视频生成自然声音。在IEEE计算机视觉和模式识别会议论文集，第3550-3558页5

下载后可阅读完整内容，剩余1页未读，立即下载