视频中单声道音频转换为双声道的2.5D视觉声音方法

150 浏览量更新于2023-11-02 收藏 2.17MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1视觉空间信息单声道2双耳2.5D视觉声音高若涵*德克萨斯大学奥斯汀分校rhgao@cs.utexas.eduKristen GraumanFacebook AIResearchgrauman@fb.com†摘要双耳音频为收听者提供3D声音感觉，允许场景的丰富感知体验。然而，双耳录音几乎是可用的，需要非平凡的专业知识和设备来获得。我们建议利用视频将普通单声道音频转换为双声道音频。关键的想法是，视觉帧揭示了重要的空间线索，虽然在伴随的单通道音频中缺乏明显的，但与它有很强的联系。我们的多模态方法从未标记的视频中恢复了这种联系。我们设计了一个深度卷积神经网络，通过注入有关对象和场景配置的视觉信息，学习将单声道（单通道）声道解码为双耳声道。我们称其为2.5D视觉声音-视觉流帮助将平坦的单声道音频“提升”为空间化的声音。除了声音生成之外，我们还展示了通过我们的网络学习的自我监督表示有利于视听源分离。我们的视频结果：http://vision.cs.utexas.edu/projects/2.5D_visual_sound/1. 介绍多模态感知对于捕捉真实世界感官数据和环境的丰富性至关重要。人们通过结合许多同时存在的感觉流来感知世界，其中视觉和听觉流是最重要的。特别是，音频和视频数据都传达了重要的空间信息。我们看到了房间的布局和房间的位置。我们也能听到它们：发声的物体表明它们的位置，而声音的再现揭示了房间类似地，在著名的鸡尾酒会场景中，当一个人在嘈杂的聚会上交谈时，他可以听到另一个声音在呼唤他，然后转过身面对它，这两种感觉自然地协同工作来解释空间信号。*在Facebook AI Research实习期间完成的工作。[2]在德克萨斯大学奥斯汀分校（www.example.com）休假时grauman@cs.utexas.edu。单声道音频2.5D可视声音（预测双耳音频）图1：双耳音频为听众创造了3D音景，但这种录音仍然很少见。所提出的方法推断2.5D的视觉声音，通过注入的空间信息中包含的视频帧伴随着一个典型的单声道音频流。人类听觉系统使用两只耳朵从复杂的混合物中提取单独瑞利勋爵提出的双工理论认为，声源位置主要由到达每只耳朵的声音之间的时间差（耳间时间差，ITD）和进入耳朵的声级差（耳间声级差，ILD）确定[37]。因此，为了模仿人类的听力，双耳音频通常是使用两个麦克风连接到一个假头的两个耳朵记录（见图）。2）。该装置因此，当通过耳机播放双耳音频时，收听者感觉到在进行录音的地方的3D声音感觉，并且可以容易地定位声音。沉浸式空间声音对于音响发烧友、AR/VR应用程序和社交视频共享者都很有价值然而，由于录音设备的价格昂贵和所需的专业知识，双耳录音在日常生活中很难获得。消费级相机通常仅用单个麦克风记录单声道音频，或者使用具有任意布置且没有耳廓（外耳）的物理表示的两个麦克风记录立体声音频。我们认为，对于这两台机器来说，324325和人一样，单声道或甚至立体声听觉输入具有非常有限的维度。单声道音频将所有独立的音频流压缩到相同的空间点，并且收听者不能感知声源的空间位置。我们的主要观点是，伴随单声道音频的视频具有解锁空间声音的潜力，将平面音频信号提升为我们所说的虽然单声道音轨本身不编码任何空间信息，但其伴随的视觉帧确实包含对象和场景配置。例如，如图1所示，我们从视频帧中观察到一个人在左边弹钢琴，一个人在右边弹大提琴虽然我们不能通过听单声道录音来感知声源的位置，但我们仍然可以通过视觉框架的推断来预测如果我们亲自在场景中会听到什么我们介绍一种方法来实现这种直觉。给定未标记的训练视频，我们设计了一个MONO2BINAURAL深度卷积神经网络，通过注入嵌入在视觉帧中的空间线索，将单声道我们的编码器-解码器风格的网络工作采取混合单声道音频和其伴随的视觉帧作为输入，以执行联合视听分析，并试图预测一个双声道双耳音频，同意在视频中的空间配置。当收听预测的双耳音频-2.5D视觉声音-听众可以感受到声源的位置，因为它们显示在视频中。此外，我们表明，除了双耳音频生成，单声道2双声道转换过程也可以有利于视听源分离，在视听分析的一个关键挑战。最先进的系统[13，52，31，1，10]旨在分离混合的单声道音频记录-到目前为止，它们只依赖于视觉流中明显的空间线索。我们表明，提出的视听双耳化可以自我监督表示学习，以引出空间信号相关的音频流分离以及。重要的是，获得这种新的学习信号既不需要语义注释，也不需要单源数据解释，只需要相同的未标记的双耳训练视频。我们的主要贡献有三个方面：首先，我们提出了通过对视频帧进行拼接来实现单声道音频到双耳音频的转换，并设计了一个MONO2BINAURAL深度网络，以实现这一目标;其次，我们收集公平的发挥，一个5。2小时的视频数据集与双耳音频-第一个数据集的同类，以促进研究在音频和视觉社区;第三，我们建议执行预测双耳音频的视听源分离，并表明它提供了一个有用的自我监督表示的分离任务。我们在四个具有挑战性的数据集上验证了我们的方法，这些数据集涵盖了各种声源（例如，乐器、街景、旅行、体育）。2. 相关工作从视频生成声音最近的工作探索了在“无声”视频的条件下生成音频的方法。当用鼓槌击打物体时，物体发出的声音会揭示材料属性，并且可以用于合成无声视频中的新声音[32]。递归网络[53]或条件生成对抗网络[7]可以为输入视频帧生成音频，而强大的模拟器可以合成3D形状的视听数据我们的任务不是从头开始生成音频，而是需要将输入的单声道音频转换为由视觉帧引导的双声道双耳音频。只有有限的先前工作考虑基于视频的音频空间化[26，28]。[26]的系统根据观看角度来合成来自房间中的扬声器的对于新颖的“现成的”视频。与我们[28]并行的工作生成了360度全景视频及其单声道音频的立体混响相比之下，我们专注于正常的视场（NFOV）视频和双耳音频。我们表明，直接预测双耳音频- dio创建更好的3D声音的感觉，而不限于360度的视频听众。此外，虽然[28]的最终目标是音频空间化，但我们也证明了我们的MONO2BINAURAL转换过程有助于视听源分离。音频（-视频）源分离在信号处理文献中，仅音频源分离已被广泛研究。当使用多个麦克风[29，49，9]或双耳AU观察多个通道时，分离变得更容易。dio [48，8，50].受此启发，我们通过观察视频将单声道转换为双耳，然后利用结果表示来改善视听分离。视听源分离也具有丰富的历史，具有探索互信息[11]、子空间分析[41，35]、矩阵分解[34，39，13]和相关起始[6，25]的方法。最近的方法利用深度学习进行语音[10，31，1，12]，乐器[52]和其他对象的视听分离[13]。新的任务也在出现，例如学习分离屏幕上和屏幕外的声音[31]，从未标记的视频中学习对象声音模型[13]，或预测每个像素的声音[52]。所有这些方法都利用单声道音频线索来执行视听源分离，而我们建议预测双耳线索来增强分离。此外，与定位负责给定声音的像素的任务不同[21，18，54，3，52，40，44]，我们的目标是执行双耳音频合成。326自监督学习自监督学习利用数据结构中自由可用的标签，视听数据提供了丰富的此类任务。最近的工作探索了视觉[33，2]和音频[4]特征学习的自我监督，跨模态表征 [5] 和视听对齐 [31 ， 23 ， 16] 。我们的MONO2BINAURAL公式也是自监督的，但与上述任何一种不同的是，我们使用视觉帧来监督音频空间化，同时还学习更好的声音表示用于视听源分离。3. 方法我们的方法学习通过视频将单声道音频映射到双耳音频。在下文中，我们首先描述我们的双耳音频视频数据集（第二节）。3.1）。然后，我们提出了我们的单声道2双声道公式（第二节）。3.2），以及我们的网络和训练程序来解决它（第3.2节）。3.3）。最后，我们介绍了我们的方法，利用推断双耳声音执行视听源分离（第二节）。3.4）。3.1. 公平竞赛数据收集训练我们的方法需要双耳音频和accom-panying视频。由于没有大型公共视频数据集包含双耳音频，我们收集了一个新的数据集，我们称之为FAIR-Play与自定义钻机。如图2所示，我们组装了一个由3Dio FreeSpace XLR双耳麦克风，GoPro HERO 6 Black相机和作为音频前置放大器的Tascam DR-60 D录音机组成的装备。我们将GoPro摄像头安装在3Dio双耳麦克风的顶部，以模仿一个人的视觉和听觉，再现。3Dio双耳麦克风可录制双耳音频，GoPro摄像头可录制30 fps的立体声视频。我们同时从两个设备记录，因此流大致对齐。请注意，麦克风的耳形外壳（pinhole）和它们的空间分离都很重要;专业的双耳耳机，如3Dio，模拟人类接收声音的物理方式。相比之下，立体声由两个具有任意分离的立体声捕获，该分离在捕获设备（电话、相机）之间变化，因此缺乏双耳的空间细微差别。然而，双耳捕获的限制在于，单个装备固有地假设单个头部相关的传递函数，而个体由于人与人之间的解剖学差异而具有轻微的变化个性化头部相关的传递函数是一个活跃的研究领域[20，45]。我们在一个大型音乐室（约1,000平方英尺）中使用定制钻机拍摄视频我们的目的是通过在房间里组装乐器和人的不同组合，在各种空间背景下捕捉各种发声物体。房间里有各种各样的装饰-GoPro3Dio双耳麦克风图2：音乐室中的双耳装备和数据收集。teers发挥和记录他们在独奏，二重唱，和多人表演。我们将原始数据后处理成10秒的片段。最终，我们的FAIR-Play1数据集由1，871个音乐表演短片组成，总计 5.2 小时。在实验中，我们使用音乐数据以及ambison- ics数据集[28]用于街道场景和体育，旅行等的YouTube视频。秒4）。3.2. 单2双耳配方双耳线索让我们推断声源的位置。耳间时间差（ITD）和耳间水平差（ILD）起着至关重要的作用。ITD是由两耳之间的距离差异引起的当声源离一只耳朵比离另一只耳朵近时，信号到达两只耳朵之间会有一个时间延迟。ILD是由“阴影”效应引起的--相对于某些波长的声音，听众的头部较大，因此它起到了屏障的头部、脊椎和躯干的特定形状还根据声源的位置（距离、方位角和仰角）充当滤波器。所有这些线索都在单声道音频中缺失，因此我们无法通过收听单声道音频来感知任何空间效果。我们分别用xL（t）和xR（t）表示左耳和右耳接收的信号。如果我们将两个通道混合成一个通道xM（t）=xL（t）+xR（t），那么所有的空间信息都会崩溃。我们可以制定一个自监督任务，将混合单声道信号xM（t）作为输入，并将其分为两个单独的声道xL（t）和xR（t），在训练期间使用原始xL（t），xR（t）作为地面实况怎么-这是一个高度欠约束的问题，因为xM（t）包括大提琴，吉他，鼓，尤克里里琴，竖琴，钢琴，小号低音提琴和班卓琴我们招募了20名志愿者https://github.com/facebookresearch/FAIR-Play327X ={X}， X ={X}图3：我们的MONO2BINAURAL深度网络将混合单声道音频及其伴随的视觉帧作为输入，并预测满足视觉空间配置的双声道双耳音频输出。ImageNet预训练的ResNet-18网络用于提取视觉特征，U-NET用于提取音频特征并执行联合视听分析。我们预测音频差信号的复掩码，然后将其与输入单声道音频组合以分别恢复左声道和右声道。在测试时，输入是单声道单声道音频。缺少恢复两个信道所必需的信息。我们的主要思想是指导单声道2双声道过程与伴随的视频帧，从视觉空间信息可以作为监督。我们不是直接预测两个通道，而是预测两个通道的差异：x D（t）= x L（t）− x R（t）。（一）更具体地说，我们在频域上操作并对xM（t）执行短时傅里叶变换（STFT）[15]以获得复值谱图XM，目标是预测xD（t）的复值谱图XD：通过一个1× 1的卷积层来降低通道的维数，并将其扁平化为一个单一的视觉特征向量。在音频方面，我们采用了U-NET [38]风格的架构。这里采用的U-NET编码器-解码器网络非常适合我们的密集预测任务，其中输入和输出具有相同的维度。我们混合双耳音频的左声道和右声道，并提取一个序列，STFT帧以生成音频频谱图XM。我们使用复频谱图：每个时频点包含相应复频谱图值的实部和虚部。然后通过一系列的卷积层以提取维度为（T/32）×（F/ 32）×C的音频特征。我们将视觉特征向量复制（T/32）×（F/ 32）次，将它们平铺以匹配音频特征M MT、Ft，ft=1，f=1D DT、Ft，ft=1，f=1、（二）然后将音频和视频fea连接起来。沿通道维度的真实映射。通过串联其中t和f分别是时间帧和频率仓索引，并且T和F是仓的数量然后，我们通过逆运算获得预测差信号x∈D（t），短时傅里叶变换（ISTFT）[15]。最后，我们恢复两个声道-双耳音频输出：每个音频特征维度被注入视觉特征以执行联合视听分析。最后，我们对级联的视听特征图执行上卷积以生成复数乘法谱图掩码M。在源分离任务中，频谱图掩模已被证明优于替代方案，例如xL（t）=xM（t）+xD（t），2xR（t）=xM（t）−x<$D（t）2.（三）直接预测频谱图或原始波形[47]。同样，这里我们也采用了掩蔽的思想，但是我们的3.3. 单2双耳网络接下来，我们将展示我们的MONO2BINAURAL深度网络来执行音频空间化。网络将单声道音频xM（t）和视觉帧作为输入，并预测xD（t）。如图3、从图像中提取视觉特征，使用 ResNet-18 [17]的音频片段的中心帧，它是在ImageNet 上预先训练的。 ResNet-18 网络在第 4 个ResNet块之后提取每帧特征，大小为（H/32）×（W/32）×C，其中H，W，C表示帧和通道尺寸。然后我们将视觉特征ResNet-181x1转换重塑视觉特征复合掩模预测左声道左ISTFT混合STFT权预测右声道瓦片连接328目标是掩蔽混合单声道音频的频谱图并预测差信号的频谱图，而不是执行分离。在实域中分别估计复掩模的实分量和虚分量。我们在上卷积层之后添加一个sigmoid层，以将复掩码值绑定到[- 1，1]，类似于[10]。该系列卷积和上卷积将输入单声道频谱图映射到对预测的双耳音频进行编码的复合掩码。最初，我们试图直接预测左声道和右声道。然而，我们发现直接预测329视频1音频特征视觉特征视觉特征分离式双耳音频视频2源分离混合与分离j=1使得网络依赖于复制和粘贴输入音频的相反，预测差异信号迫使深度网络分析视觉信息并学习两个通道之间的细微差异，如双耳音频目标所要求的。然后，通过将输入频谱图与预测的复数掩模进行复数相乘来获得差信号的频谱图单2双耳混合预测双耳音频单2双耳音频1视频1XD =M·XM .（四）音频2视频2我们使用L2损失来训练我们的MONO2BINAURAL网络，以最小化地面真实复谱图与预测谱图之间的距离。最后，使用ISTFT，我们通过下式获得预测的差信号x∈D（t）：其中，我们将两个通道xL（t）和xR（t）恢复为de-在Eq. 3.见supp。网络详情。在测试时，网络呈现单声道音频和视频帧，并推断双耳输出，即，2.5D视觉声音为了处理完整的视频流，每个视频被分解成许多短的音频片段。视频帧通常在这样短的片段内不会改变太多。我们使用一个滑动窗口来执行spatialization一段一段的小跳的大小，并平均预测重叠的部分。因此，我们的方法能够处理移动的声源和摄像机。我们的方法期望在训练和测试之间有类似的视场（FoV），并假设麦克风靠近相机。我们的实验表明，我们可以学习用于正常 FoV 和 360° 视频的MONO2BINAURALYouTube视频）。3.4. 视听源分离到目前为止，我们已经定义了我们的单声道2双声道方法，通过引入视频的视觉空间线索将单声道音频转换为双耳音频。回想一下，我们有两个目标：预测双耳音频用于声音生成本身，并探索其在视听源分离中的实用性。音频源分离是从观察到的线性中获得J个源sj中的每个源的穗混合物x（t）= ∑Jsj（t）。对于双耳音频源分离，问题是从观察到的双耳混合xL（t）获得J个源中的每个源xR（t）：图4：混合和分离[52，31，10]启发的框架，用于视听源分离。在训练过程中，我们混合一对视频的双耳音轨，以生成混合音频输入。网络学习根据视频的视觉帧来分离每个视频的声音源当只用一只耳朵听时，这种能力会大大减弱，特别是在混响环境中[22]。由机器收听者进行的音频源分离同样受到阻碍，通常缺乏对双耳音频的访问[52，13，31，10]。然而，我们假设我们的单声道2双耳预测双耳音频可以帮助分离。直觉上，通过迫使网络学习如何将单声道音频提升到双耳，它的表示被鼓励暴露对源分离有价值的非常空间的线索。因此，即使MONO2BINAURAL功能看到与任何其他视听分离方法相同的视频，它们也可以更好地解码潜在的空间线索，因为它们的双耳化特别是，我们预计有两个主要影响。首先，双声道音频嵌入关于声源的空间分布的信息，其可以充当用于分离的正则化器。第二，双耳提示在声源具有相似声学特性的情况下可能特别有帮助，因为空间组织可以减少源模糊性。在其他视觉任务中观察到相关的正则化效应。例如，幻觉运动增强静态图像动作识别[14]，或者预测语义分割通知深度估计[27]。为了实现视听源分离的测试平台，我们采用了混合和分离的想法 [52 ， 31 ， 10] 。我们使用与MONO2BINAURALJ J网络，除了现在网络的输入是一对xL（t）= ∑sL（t），xR（t）= ∑sR（t），（5）训练视频剪辑。图图4示出了分离框架-Jj=1Jj=1工作我们混合预测的双耳音频的声音其中，sL（t）和sR（t）是接收到的时间离散信号，对于两个视频生成复合音频输入sig，J J左耳和右耳分别用于每个源干扰声源通常位于物理空间中的不同空间位置。人类听者利用来自双耳协调的空间信息来解决由多个声音引起的声音歧义。nal，并且学习目标是分离双耳每个视频的音频取决于它们相应的视觉帧。在[52]之后，我们仅使用频谱图幅度并预测用于分离的比率掩模。每像素L1损失用于训练。见supp。有关详细信息3304. 实验我们验证了我们的生成和分离方法4.1. 数据集我们使用了四个具有挑战性的数据集，涵盖了各种各样的声源，包括乐器，街景，旅行和体育。公平竞赛我们的新数据集由1，871个10秒片段组成在音乐室录制的视频（图2）。视频与专业双耳麦克风录制的高质量双耳音频配对。我们通过将数据分别拆分为1，497/187/187个片段的train/val/test拆分来创建10个随机拆分。休闲街 [28]使用Theta V 360摄像机和TA-1空间音频麦克风收集的数据集。它由43个视频（3.5小时）的户外街景组成。YT-CLEAN这个数据集包含来自YouTube的360个视频，由[28]使用与空间音频相关的查询它由496个视频组成，这些视频是少量的叠加源，例如会议室中的谈话，户外运动等。YT-MUSIC一个由397个YouTube音乐表演视频组成的数据集[28]。这是他们最具挑战性的数据集，因为有大量的混合源（声音和乐器）。4.3. 单声道2双耳生成精度我们使用共同的指标，以及两个用户的研究，我们的预测双耳音频的质量进行评估。我们比较以下基线：• Ambisonics [28]：我们使用[28]提供的预训练模型来预测Ambisonics。这些模型是在与我们的方法相同的数据上训练的。然后，我们使用双耳解码器将预测的 ambison- ics 转换此基线不适用于BINAURAL-MUSIC-ROOM数据集。• 仅音频：为了确定视觉信息是否是执行MONO2BINAURAL转换所必需的，我们删除了视觉流并实现了仅使用音频作为输入的基线所有其他设置都是相同的，除了只有音频特征被传递到上卷积层用于双耳音频预测。• 翻转视觉：在测试过程中，我们翻转单声道音频的伴随视觉帧，以使用错误的视觉信息进行• 单声道-单声道：将混合单声道音频复制到两个声道以创建假双耳音频的简单基线。我们报告了两个度量：1）STFT距离：左声道和右声道的地面实况与预测的复频谱图之间的欧氏距离：据我们所知，FAIR-Play是第一个包含专业录制的双耳D{STFT} - -||2+||2.||XR−X˜R||2.音频. 对于REC-STREET、YT-CLEAN和YT-MUSIC，我们将视频分割成10秒的片段，并根据提供的split 1将它们划分为train/val/test分割。这些数据集只包含立体混响，所以我们使用一个双耳解码器将它们转换为双耳音频。具体地，我们使用来自ARI HRTF数据集2中的NH2对象的头部相关传递函数（HRTF）来执行解码。对于我们的FAIR-Play数据集，一半的训练数据用于训练MONO2BINAURAL网络，另一半用于视听源分离实验。4.2.实现细节我们的MONO2BINAURAL和分离网络都在PyTorch中。对于所有实验，我们以16kHz对音频进行重采样，并且使用长度为25ms的Hann窗口、10ms的跳长和512的FFT大小来计算STFT。对于MONO2BINAURAL训练，我们从每个10s音频片段中随机抽取长度为0.63s的音频片段。在测试期间，我们使用跳跃大小为0.05s的滑动窗口来对我们的方法和基线的10s音频片段进行二进制化。对于源分离实验，我们使用类似的网络设计和训练/测试策略。见supp。有关详细信息2http://www.kfs.oeaw.ac.at/hrtf2) 包络（ENV）距离：直接比较原始波形可能不能很好地捕获感知相似性。福尔-在[28]中，我们取信号的包络，并测量地面实况左和右声道的包络与预测信号之间的欧几里德距离。令E[x（t）]表示信号x（t）的包络。包络距离定义为：D{ENV}= ||E[x L（t）] − E[x <$L（t）]||2+ ||E[x R（t）]− E[x <$R（t）]||2.结果表1示出了双耳生成结果。我们的方法在所有四个数据集上一致地优于所有基线。我们的MONO2BINAURAL方法的性能优于仅音频基线，表明视觉流对于引导转换至关重要请注意，仅音频基线使用与我们的方法相同的网络设计尽管如此，我们发现当对象不仅仅位于中心时，我们的方法优于它。Flipped-Visual的表现要差得多，这表明我们的网络正确地学习了定位声源以正确地预测双耳音频。Ambisonics [28]方法并不如此。我们假设几个原因。该方法直接预测四通道立体混响，其必须被转换为331公平竞赛休闲街YT-CLEANYT音乐STFTENVSTFTENVSTFTENVSTFTENV[28]第二十八话--0.7440.1261.4350.1551.8850.183仅音频0.9660.1410.5900.1141.0650.1311.5530.167翻转-视觉1.1450.1490.6580.1231.0950.1321.5900.165单-单1.1550.1530.7740.1361.3690.1531.8530.184MONO2BINAURAL（Ours）0.8360.1320.5650.1091.0270.1301.4510.156表1：四个不同数据集上的双耳音频预测的定量结果。我们报告STFT距离和包络距离;越小越好。对于公平竞赛，我们报告10次随机拆分的平均结果。平均而言，STFT距离的标准误差约为5× 10−2，ENV距离的标准误差约为3×10−3(a) 用户研究1(b) 用户研究2用户研究。在表1中量化了我们方法的优势之后，我们现在报告真实的用户研究。为了测试预测的双耳音频如何让听众感受到3D感觉，我们进行了两项用户研究。对于第一项研究，参与者听10秒的地面实况双耳音频，并看到视觉帧。然后，他们听两个预测的双耳音频生成我们的方法和基线（高保真立体声，音频，或单声道单声道）。在听完每一对之后，参与者被问到这两个中的哪一个创造了一个更好的3D感觉，与地面实况双耳音频相匹配。我们招募了18名参与者-图5：测试听众如何感知预测的双耳音频的用户研究双耳音频虽然立体混响具有作为对于360° C视频理想的更一般的音频表示的优点，但是首先预测立体混响然后解码到双耳音频以用于部署可能引入使双耳音频不太真实的伪像更好的头部相关传递函数可以帮助从立体混响中呈现更逼真的双耳音频，但这仍然是积极的研究[30，24]。3此外，手动检查结果，我们发现[28]解码的双耳音频传达了空间感觉，但它不如我们的方法准确和稳定。我们的方法直接制定的音频空间化问题，在两个通道的双耳音频，听众最终听到，这将产生更好的准确性方面。我们的视频结果4显示了定性结果，包括失败案例。当有多个相似外观的对象时，例如多个人类说话者，我们的系统可能会失败。我们的模型错误地空间化了音频，因为人们在视觉上太相似了。然而，当在其他声音中只有一个人类说话者时，它可以独立地执行音频空间化。未来的工作incor-poration运动可能有利于实例级空间化。3我们试验了多个立体声-双耳解码解决方案，并在表1中报告了[28]的最佳结果。4http://vision.cs.utexas.edu/projects/2.5D_视觉声音/听力正常的人每人听了45对跨度-所有的数据集。图5a显示了结果。我们报告每种方法被选为首选方法的次数百分比。我们可以看到，通过我们的方法生成的双耳音频创建了更逼真的3D感觉。在第二项用户研究中，我们要求参与者说出他们听到特定声音的方向。使用公平播放数据，我们随机选择10个视频剪辑，其中一些球员位于视觉帧的左/中/右。我们要求每个参与者只听地面实况或来自我们的方法或基线的预测双声道音频，然后选择指定乐器的声音来自的方向。请注意，在这项研究中，我们输入由GoPro麦克风录制的真实单声道音频进行双耳音频预测。图5b显示了18名参与者的结果。真实录制的双耳音频质量很高，听众往往可以很容易地感知到正确的方向。然而，我们预测的双耳音频也清楚地传达了方向性。与基线相比，我们为听众提供了更准确的空间音频体验。4.4. 声源定位网络在执行双耳化时是否注意声源的位置？作为我们的MONO2BINAURAL训练的副产品，我们可以使用网络来执行声源定位。我们使用一个大小为32× 32的掩码来代替图像区域的图像均值，并通过网络转发掩码帧来预测双耳音频。然后我们计算损失，并重复332图6：在执行MONO2BINAURAL转换时可视化视觉网络关注的关键区域。每对图像显示了伴随单声道音频的帧（左）和覆盖的关键区域的热图（右）。SDR SIR SAR莫诺莫诺-莫诺预测双耳（我们的）2.572.433.014.254.015.0310.1210.1510.24GT双耳（上限）3.255.3210.60表2：视听源分离结果。SDR、SIR、SAR以dB报告;越高越好。通过将掩模放置在框架的不同位置。最后，我们强调了当被替换时导致最大损失的区域。它们被认为是单声道2双声道转换的最重要区域，并预期与声源对齐。图六是举例说明。突出显示的关键区域与声源相关性很好。它们通常是音乐室里演奏的乐器，街景中行驶的汽车，一个活动正在进行的地方等等。最后一行显示了一些失败案例。当视图中有多个类似的仪器时，或者在安静或嘈杂的场景中，模型可能会混淆。YT-Clean和YT-Music中的声源由于多种多样和/或大量的声源而特别难以空间化和本地化。4.5. 视听源分离在证明了我们预测的双耳音频产生更好的3D感觉之后，我们现在使用FAIR-Play数据集来检查其对视听源分离的该数据集包含不同发声对象（乐器）的对象级声音，非常适合我们采用的Mix-and-Separate视听源分离方法。我们在FAIR-Play的数据上进行训练，并在val/test集中的10个典型的单乐器视频片段上进行测试，每个片段代表我们数据集中的一个独特乐器。我们成对地混合每个视频片段并进行形式分离，总共45个测试视频。除了上面定义的地面实况双耳（上限）和单声道-单声道基线之外，我们还将其与将单声道音频作为输入并将每个源的单声道音频分离的单声道基线进行比较。单声道表示仅使用单声道音频执行视听源分离的当前规范[52，13，31]。我们强调，网络的所有其他方面都是相同的，因此性能上的任何差异都可以归因于我们的双耳化自我监督。为了评估源分离质量，我们使用广泛使用的mir eval库[36]和标准度量：信号失真比（SDR）、信号干扰比（SIR）和信号信噪比（SAR）。表2显示了结果。我们通过推断双耳音频获得大的增益。推断的双耳音频提供了与原始单声道音频相比更丰富的音频表示，从而导致更清晰的分离。见supp。视频4为例5. 结论我们提出了一种方法，通过利用视觉帧中的对象/场景配置将单声道音频转换为双耳音频。预计的2.5D视觉声音提供了更身临其境的音频体验。我们的MONO2BINAURAL框架实现了最先进的音频空间化。此外，使用预测的双耳音频作为更好的音频表示，我们推动了一个现代模型的视听源分离。为现成的视频生成双耳音频可以潜在地缩小传输音频和视觉体验之间的差距，从而实现VR/AR中的新应用。作为未来的工作，我们计划探索如何将对象本地化和运动，并明确建模场景的声音。鸣谢：感谢托尼·米勒、雅各布·唐利、巴勃罗·霍夫曼、弗拉基米尔·图尔巴宾、瓦姆西·伊塔普、瓦伦·奈尔、阿贝什·塔库尔，Jaime Morales ，来自 Facebook 的 Chetan Gupta ， Xinying Hao ，Dongguan You和UT Austin愿景小组进行了有益的讨论。333引用[1] Triantafyllos Afouras，Joon Son Chung和Andrew Zisser-man。对话：深度视听语音增强。InInterspeech，2018.2[2] Relja Arandjelovic和Andrew Zisserman。看，听，学。在ICCV，2017年。3[3] Relja Arandjelovic 和 Andrew Zisserman 。有声音的物体。在ECCV，2018年。2[4] 尤瑟夫·艾塔卡尔·冯德里克和安东尼奥·托拉尔巴声音网络：从未标记的视频中学习声音表示.在NIPS，2016年。3[5] 尤瑟夫·艾塔卡尔·冯德里克和安东尼奥·托拉尔巴See，Hear，and Read：Deep Aligned Representations. arXiv预印本arXiv：1706.00932，2017。3[6] Zohar Barzelay和Yoav Y Schechner。和谐的运动。在CVPR，2007年。2[7] 陈乐乐，苏丹舒·斯利瓦斯塔瓦，段志尧，徐振良.深度跨模态视听生成。在ACM多媒体的主题研讨会上，2017年。2[8] 安托万·德莱福格和拉杜·霍劳。鸡尾酒会机器人：有源双耳头的声源分离和定位。第七届ACM/IEEE人机交互国际会议集，2012年。2[9] NgocQKDuong，EmmanuelVincent和Re' miGribonv al.使用满秩空间协方差模型的欠定混响音频源分离IEEETransactionsonAudio ， Speech ， andLanguageProcessing，2010. 2[10] Ariel Ephrat、Inbar Mosseri、Oran Lang、Tali Dekel、Kevin Wilson、Avinatan Hassidim、William T Freeman和Michael Rubinstein。Looking to Listen at the CocktailParty ： A Speaker-Independent Audio-Visual Model forSpeech Separation.在SIGGRAPH，2018年。二、四、五[11] 约翰·W·费舍尔三世，特雷弗·达雷尔，威廉·T·弗里曼和保罗·A·维奥拉。学习视听融合和分离的联合统计模型。NIPS，2001年。2[12] Aviv Gabbay，Asaph Shamir，and Shmuel Peleg.视觉语音增强。InInterspeech，2018. 2[13] Ruohan Gao，Rogerio Feris，and Kristen Grauman.通过观看未标记的视频学习分离物体声音。在ECCV，2018年。二，五，八[14] Ruohan Gao ， Bo Xiong ， and Kristen Grauman.Im2flow：用于动作识别的静态图像的运动幻觉。在CVPR，2018年。5[15] 丹尼尔·格里芬和宰林。基于改进短时傅里叶变换的信号估计 IEEE Transactions on Acoustics ， Speech ， andSignal Processing，1984. 4[19] Po-Sen Huang，Minje Kim，Mark Hasegawa-Johnson，and Paris Smaragdis.单声道语音分离的深度学习载于ICASSP，2014年。2[20] Kazuhiro Iida，Yohji Ishii，and Shinsuke Nishioka.基于听者的脊柱的人体测量的正中平面中的头部相关传递函数的个性化美国声学学会杂志，2014年。3[21] Einat Kidron，Yoav Y Schechner和Michael Elad。像素的声音。在CVPR，2005年。2[22] 凯尼格。双耳听觉的主观效应。美国声学学会杂志，1950年。5[23] 布鲁诺·科巴杜·特兰和洛伦佐·托雷萨尼来自自监督时间同步的音频和视频表示的在NIPS，2018年。3[24] 马蒂亚斯·克朗拉赫纳用于高保真度立体声录音改变的空间变换。M.论文，音乐与表演艺术大学，格拉茨，电子音乐与声学研究所，2014年。7[25] Bochen Li，Karthik Dinesh，Zhiyao Duan，and GauravSharma. 看和听：室内乐表演视频中音轨与演奏者的分数关联在ICASSP，2017年。2[26] 李丁泽宇，蒂莫西·R. Langlois和Changxi Zheng。用于360°视频的场景感知音频。SIGGRAPH，2018. 2[27] Beyang Liu，Stephen Gould，and Daphne Koller.从预测的语义标签进行单图像深度估计。在CVPR，2010年。5[28] Pedro Morgado，Nono Vasconcelos，Timothy Langlois，and Oliver Wang.360度全景视频空间音频的自我监督生成。arXiv预印本arXiv：1809.02587，2018。二、三、六、七[29] Kazuhiro Nakadai，Ken-ichi Hidai，Hiroshi G Okuno，and Hiroaki Kitano.实时说话人定位与语音分离之视听整合。IEEE机器人与自动化国际会议，2002年。2[30] Markus Noisternig ， Alois Sontacchi ， Thomas Musil ，and Robert Holdrich.一种基于3d立体混响的双耳声音再现系统。在音频工程学会会议：第24届国际会议：多声道音频，新的现实。音频工程学会，2003年。7[31] 安德鲁·欧文斯和阿列克谢·埃弗罗斯。具有自我监督多感官功能的视听场景分析。在ECCV，2018年。二、三、五、八[32] 安德鲁·欧文斯、菲利普·伊索拉、乔什·麦克德莫特、安东尼奥·托拉尔巴、爱德华·H·阿德尔森和威廉·T

下载后可阅读完整内容，剩余1页未读，立即下载