没有合适的资源?快使用搜索试试~ 我知道了~
无耳立体声音频生成方法
15485无需双耳音频的徐旭东1*杭州1*刘紫薇2戴波2王晓刚1林大华11香港中文大学-商汤科技联合实验室2南洋理工大学{xx018@ie,zhouhang @ link,xgwang @ ee,dhlin @ ie}. cuhk.edu.hk,{ziwei.liu,bo.dai}@ntu.edu.sg摘要立体声音频,特别是双耳音频,在沉浸式观看环境中起着至关重要的作用。最近的研究已经探索了生成由多声道音频集合监督的视觉引导的立体声音频然而,由于专业记录设备的要求,现有数据集的规模和种类有限,这阻碍了监督方法的推广 在现实世界的场景中。在这项工作中,我们提出了Pseu- doBinaural,一个有效的管道,是免费的双耳录音。关键的洞察力是用单声道数据仔细构建伪视觉立体声对进行训练。具体而言,我们利用球谐分解和头部相关脉冲响应(HRIR)来识别空间位置和接收到的双耳音频之间的关系。然后在视觉模态中,单声道数据的对应视觉线索被手动放置在声源位置处以形成对。与完全监督的范例相比,我们的无双耳录音管道在跨数据集评估中表现出很大的稳定性,并在主观偏好下实现了相当的性能。此外,结合双耳录音,我们的方法能够进一步提高监督设置下的双耳音频生成的性能。1. 介绍听觉和视觉体验是隐含但强烈的联系。在沉浸式环境中,声音的感知受到视觉场景的影响[44]。因此,研究人员一直在探索如何在视觉引导下生成立体声音频,以改善多媒体产品的用户体验。具体来说,监督学习方法[22,14,20,45]已被考虑用于此目的。*平等捐款。1代码、模型和演示视频可在sheldontsui.github.io/projects/PseudoBinaural 上 获得。然而,值得注意的是,尽管完全监督学习方法在约束环境下取得了积极的成果,但在现实世界的1)它们依赖于与立体声录音相关联的视频,我们将其称为 获得真实立体声数据的高质量集合需要复杂且专业的记录系统(例如, 麦克风阵列或虚拟头),因此既需要资源又耗时。2)在受控环境下收集的数据集上训练的模型可能过拟合房间的布局,而不是捕获声音效果与声源的视觉位置之间的一般关联。由此产生的模型也将具有较差的泛化能力。从未标记数据中学习表示的特权在深度学习的不同领域已经得到了很好的讨论[40,18,3,23,25]。这激励我们去探索 一种可替换的方法,即,仅使用单声道音频,与双耳音频相比,可以更容易地获取单声道音频。我们注意到,单声道音频已成功地应用于学习视觉上知情的声音分离[9,1,13,43,42,15]。Zhou等人 [45]最近利用单声道音频生成立体声。然而,他们的立体声学习过程仍然依赖于立体声数据。在这项工作中,我们提出了伪双耳,一种新的管道,产生视觉连贯的双耳音频,而无需访问任何记录的双耳数据。我们的关键是从单声道数据中仔细构建伪视觉立体声对。为了实现我们的目标,需要确定两个问题。给定一个空间位置,1)单声道音频和来自该位置的双耳对应部分之间的关系是什么?2)视觉线索应该如何组织,以代表视觉来源?我们的解决方案是利用两个映射。一个单双耳映射,以再现位于任何空间位置的单个源的双耳音频,以及一个视觉坐标映射,将视觉模态与空间位置相关联。具体而言,通过采用球谐分解[8]来实现单双耳映射。然后使用头部相关脉冲响应(HRIR)[6]来呈现双耳15486视觉坐标映射( , )STFT(短轴+短轴)天顶v( ,)视频监控手动创建的文件夹净方位v单核苷酸左舵������右心房������STFT(短轴-短轴)视频与单声道单双耳映射伪视觉立体声对学习( ,)v图1:我们的方法的管道。对于一个单声道源,我们通过分配源指向i在球坐标中根据我们手动创建的Vθ=(θ,θ)。则单声道源s(t)通过我们的单声道-双耳-映射过程,通过将球面谐波分解在这个管道中,多个源可以线性混合在一起以构建训练对。然后可以在所创建的伪数据上训练单声道到双耳网络。音频从零和第一阶项的分解。对于视觉坐标映射,我们预先定义像素坐标和球面坐标之间的对应关系,使得我们可以容易地操纵视觉内容以满足对应源方向的指定。现有的模型视觉上通知双耳音频生成可以很容易地适应我们的伪视觉立体声对训练。为了充分利用单声道数据,我们进一步提出了一种利用视听源分离任务的新方法[43,15]来辅助训练。推理过程是简单地将训练的模型应用于具有单声道音频的视频并生成相应的双耳音频。我们的框架在两个数据集和野外场景中表现稳定此外,我们可以将我们的伪数据与真实的立体声录音混合,以进一步提高双耳音频生成在有监督的环境下本文的主要工作如下:1)通过理论分析,确定了声源方向与双耳音频之间的映射关系2)通过操纵视觉模态,可以生成用于模型训练的伪视觉立体声对,而不依赖于任何记录的双耳数据。3)大量的实验验证了该方法在多种场景下的有效性和稳定性此外,我们的伪视觉立体数据可以作为监督设置下的强大2. 相关工作视觉信息立体声音频一代虽然立体声与视觉信息密切相关,但只有少数论文提出用视觉来指导立体声的生成。 Li等人 [19]组合合成的早期混响和测量的晚期混响尾部,用于在期望的房间中生成立体声。然而,这种方法的使用仅限于特定的房间并提供360度全景视频。 Morgado等人 [22]提出根据从YouTube收集的数据集恢复高保真度立体声。他们假设他们的端到端网络能够分离声源,并用可学习的权重重新表达它们。 Lu等人 [20]利用具有用于立体声生成的对应分类器的流。具体来说,Gao等人。 [14]在音乐室中使用专业的双声道音频收集器收集FAIR-Play数据集。然后,他们提出了Mono 2bianural管道,用于在U-Net框架中将单声道音频转换为双声道音频。他们的数据是宝贵的,但有限的,在实验室收集的数据上训练的模型很难在野外场景中很好地推广。最近,Zhou etal. [45]利用单声道数据,并建议同时处理立体声音频生成和源分离。然而,他们的方法只使用单声道数据来训练分离。所有上述方法都依赖于记录的立体声数据和用于训练的视觉-立体声对。我们的目标是在没有任何双耳数据的情况下生成视觉引导的双耳音频。视觉指示声源分离。视觉引导声源分离的任务是根据声源的视觉外观将混合音频分离成独立的音频长期以来,它一直是人类语音研究的兴趣[10,21,26,9,1],音乐[27,13,43,42,15,11]。最近的基于学习的方法-ods [1,43,42,15,39]都利用了Mix-and-Separate训练管道,该管道使用收集的solo数据创建训练对。我们的工作还利用相同类型的数据来构建双耳生成的训练样本我们还采用了分离两个源的设置[45]来提高最终性能。声源定位。人类听觉系统最重要的特征之一是利用双耳之间的强度、频谱和时间线索的细微差异来定位声音[7]。在音频领域,以前的研究15487LL)的情况下,1L1LL0 1 11f(n,n)=n Y(n,n).(二)∞L大多依赖于麦克风阵列来执行到达方向估计[41]。多模态作品学习视听关联[4,5,35,34,38,46],并提出将声音的响应定位在视觉域[43,31,28,17]中,这是一种不同类型的“最近的作品[12,36]提出检测车辆单声道信号源的分解系数。这里,我们遵循最简单的假设,即仅接收来自单个声源s(t)的方向λ =(λ,λ)的脉冲响应,傅立叶系数可以从等式(1)导出。(3)作为:m(t)= s(t)Y m(t,t).(四)与立体声音频,这与我们的任务相反L l通常,激活的可视化用于显示与之相关的视觉信息[4,26,25,5,42,22,14]。我们的模型还显示了源定位的能力,只训练我们的伪视觉立体对。3. 方法与以前完全基于学习和数据驱动的方法不同,这些方法依赖于地面真实立体声,我们在自己创建的伪视觉立体声对上训练网络这与高保真度立体声的编码相同,其中,也可以将高保真度立体声的分量视为高保真度立体声为了简单起见,在与该预定义方向相关联的以下表示中省略了方向在我们的模型中利用了对3D音频效果贡献最大的零阶和一阶分量(l=0,1基于等式(1)Eq.(4)、系数{0,1,−1,0}(略)可以写成:n0=s(t)N0,因此,我们的方法被称为伪双耳。整体0 0管道如图所示。1.一、1=s(t)N1cos1 13.1. 将单声道映射到双耳−1=s(t)N1cos0=s(t)N0sin我们的方法的关键依赖于确定rela-11单声道和立体声之间的关系。如图2所示,整个过程被称为单声道-双耳-映射。给定具有任意分配的源位置的单声道音频f=(f,f)(图2a),我们的目标是首先将其转换为具有正确听觉位置感的双耳声道其分别对应于ambison的W、X、Y和Z通道W是全向基本通道,X、Y和Z是沿着3D笛卡尔轴的正交通道,如图2(b)所示。我们采用施密特半归一化(SN3D)[37],我们凭经验选择球谐分解,因为它的表达能力和它与高保真度立体声的实质性联系(图2b)。最后,分解系数当量 (1),可以写成N m=。(2−δm其中δ m= 1,如果m = 0,否则为0。(l−|M|)的!(l+|M|)!转换为虚拟数组并呈现为音频,HRIR(图2c)。球谐分解Laplace球调和函数表示定义在球面上的一组完备的标准正交基[8].在球坐标中的方位角θ和天顶角θ处定义的球谐函数的归一化形式可以表示为:Ym(λ,λ)=N|M|P|M|(cos)ejm, (1)双耳解码。 关于分解系数,作为立体混响声道,我们可以使用简单的变换来粗略地预测左和右双耳声道 rl (t)和rl(t): rl(t)=W+Y和rl(t)=W-Y。然而,这种范例无法恢复真实的双耳。另一方面,双耳声音可以直接合成,给定源位置与头部相关的脉冲响应(HRIR)。HRIR数据的一个集合可以用作关于声音的方向的滤波器h(k)和h(kll l r l其中P|M|(cos)是相关的勒让德多项式,源头所传递的双耳声音可以表示为l(t)=h(ll r整数l是它的阶,m是它的次数,限制为[−l,l]。N|M|是一个标准化因子。实球谐函数可以作为一种广义傅里叶级数,分解任何函数f:MML ll=0m=−l系数λm是傅立叶系数卷积运算。然而,开源HRIR [2]记录在自由场中,因此由于混响而无法恢复正常场景中的双耳。我们的解决方案是利用将立体混响与HRIR相结合的双耳渲染技术[24]。预定义虚拟扬声器阵列以弥补如图2(c)所示的误差。将傅立叶系数(立体混响声道)表示为向量=s(t)Y(t)=[0,1,−1,0]T(参见等式(5)我们可以l0 1 1 1其可以被表示为(M表示合取):进一步将M(M)分解为在di处的M个公式Θ =[θ′,. . . , ]模拟多源EF-2πm=f(λ,λ)Y m(λ,λ)λsin λ dλdλ.(三)′′00D(Θ)=[Y(θ1),. . . ,Y(M)],每列表示由室内混响引起的影响。 我们定义矩阵15488(,)ZXW中文(简体)(,)l(t,)=h(lMMk=1ΣKΣ(a)在任何情况下,该人的姓名或������名称;或������������右心房肌(右心房肌,P)Y左������(,������P)(a) 分配源位置(b)傅立叶系数(Ambisonic Channels)(c)具有HRIR的图2:单声道-双耳-映射程序的步骤(a)首先,单声道声源s(t)被分配在方向f=(f,f)处。(b)然后,通过源的球谐分解,我们可以导出基于零阶和一阶球的傅立叶系数(其也是立体混响通道)。该图表示通道的方向(c)最后,傅立叶系数可以被传递到一组具有固定位置的扬声器阵列,并产生具有HRIR的双耳每个虚拟源的谐波 虚拟音频视觉坐标映射。 然后我们定义映射信号s′(t)=[s′(t),. . . ,s′T可以被约束为:fv2a从前视图图像上的像素位置(y,z)到1MD(Θ)s′(t)=θ(θ),(六)球面角θ = f v2a(y,z)。在球面坐标中,前视图像平面被定义为圆柱的一部分由于矩阵D(Θ)TD(Θ)具有全列秩,因此可以计算虚拟信号:s′(t)=(D(Θ)TD(Θ))−1D(Θ)T(θ)。(七)以坐标原点为中心,如图3(a)所示。基于人类的有效视野约为120度的事实[33],我们将边界方位角定义为θv0=π/3。这样物体内部最后,我们利用HRIR滤波器来获取所需的左声道和右声道:MV∈[−v0,v0]内的分布。比例为-将背景图像的高度和宽度之间的差值设置为H/W=1/2,因此图像的顶部边缘对应于π v0= π/2 −arctan(π/3)。范围是ˆϑ ϑ′Mm=1r(t,)=hr(′))(t),(t)。(八)π∈ [π/2 − arctan(π/3),π/2 + arctan(π/3)]。这样,对于图像平面中的每个点,我们可以找到一个角度,球坐标。我们还探索了其他视野设置,并发现了细微的差异。M mm=1以上是从方向f2从单个单声道源s(t)生成的双耳音频。3.2. 创建伪视觉立体对使用Mono-Binaural-Mapping。要实现视觉上通知的双耳生成,还存在两个问题:1) 如何利用视觉信息,以及2)如何将声源的方向与视觉信息联系起来。为此,我们创建伪视觉信息并定义视觉坐标映射。创建伪视觉立体对。通过计算球坐标中的对应角度α k,一对双耳音频{αk(t,αk),αk(t,αk)}可以从伴随vk(t)的单声道音频α k(t)通过等式(1)来接收。(八)、在现实世界中收集的音频记录大多是混合的,因此,我们建议将多个独奏视频混合在一个场景中,以创建伪视觉立体声pairs{V,(l,r)}. 每次,我们随机组合一个数字的K个独立的单声道视频s(t)={si(t),. . . ,sK(t)}一起形成伪视觉立体对。自创建的双耳可以写为:Klk(t,k)和r(t)=伪视觉信息创建。所示Kk=1 rk(t,k). 手动构建的可视信息是图1,假设收听者面向3D笛卡尔坐标中的x轴,因此可以将正视场景投影到y-z图像平面。给定一个具有单个声源的视频vk,我们可以将其中V_k(k)=v_k,k∈[1,K].注意,补丁大小和音频幅度都与深度的倒数成正比。因此,单声道音频首先根据其15489KKKK声源v′到图像平面中的随机位置波振幅,相应的裁剪补丁v′是更具体地,裁剪帧v′被放置到一个以与音频相同的尺度进行归一化当伪背景图像V根据V(y,z)=v′。场景被组装,v′被随机调整大小并放置在V上,15490˜˜˜˜˜^(掌声)(a) 视觉坐标映射(b)学习和测试图3:(a)从图像域中的视觉位置到球面角的映射。通常,我们将前视图处的图像V′图像的边界对应于角度θv0和θv0。(b)网络详细信息。音频UNet Neta的输入是单声道音频的STFT。输出是左右声道之间的STFT差的预测。在训练期间,Netve从我们自己创建的图像Ve 中提取视觉特征fv,并且将其连接到音频UNet。在测试过程中,该网络可以应用于正常帧。来表示不同深度的物体。只有单声道音频用于构建数据。3.3. 学习我们利用神经网络从单声道和视觉指导学习到伪双耳输出。Mono 2Binaural [14]和Sep-Stereo [45]以前的网络和训练范例学习过程在图3(b)中描绘。立体声训练。 我们学习过程的主要部分是使用我们的伪视觉立体对直接训练网络。整个训练过程基本上遵循[14,45]。 它包括一个骨干U-Net [30] au-dio网络Neta和ResNet18 [16]视觉网络Netv。所有的音频都是在复时频域中以短时傅立叶变换的形式进行形成(STFT )。单声道是从左声道和右声道sm(t)=STFT(t)+rFT(t)创建的,并且到Neta的 输 入 是 经 变 换 的 单 声 道 频 谱 Sm=STFT ( sm(t))。Neta返回复掩码M用于最终预测。训练目标 是 左 谱 和 右 谱 的 差 SD=STFT ( t1 ( t ) -rt(t)),其可以写为:L立体声=SD−MSm2(9)然后,将预测的差谱传送回视觉输入V(如图所示)。 3(b))。 网络输入将是伪对{Va,(sa,sb)},其中sa和sb是单独的单声道音频信号。然后我们利用来自[45]的一个APNet分支来预测原始STFTSa和Sb。通过这种方式,骨干网络可以更好地学习源的视觉和音频信息之间的关联。 详见补充资料。4. 实验4.1. 数据集我们强调为音乐创建双耳,这是立体声制作的重要场景。我们将首先展示我们对FAIR-Play数据集的分析,然后介绍我们使用的其他数据集。重新审视公平游戏。在音乐室收集的FAIR- Play [14]是该领域最有影响力的数据集之一。然而,通过仔细检查数据集,我们发现原始的训练测试分裂有点问题。整个数据集包含1871个剪辑,这些剪辑是从几个不同的长镜头记录中截取的,具有大致相同的镜头视图和场景布局。这些片段被随机分成10个不同的训练测试片段。因此,训练和测试分割内的场景重叠,可能源于差异音频sD=ISTFT(MSm)的。预测同样的录音。 这将导致严重的过度拟合左和右可以计算为l(t)=(sm(t)+sD(t))/2且r(t)=(sm(t)-sD(t))/2。分离训练。具体来说,我们利用Sep-Stereo [45]启发的分离两个源我们关心较少关注分离性能,而更多关注其在区分声源方面的益处。因此,与它们的视觉特征重排不同,在创建伪源时,我们直接将两个源放置在单独的边缘问题模型可能会学习房间的布局,而不是我们想要的视觉立体关联。为了评估不同模型在该数据集上的真实泛化能力,我们通过重建原始视频并重新分割它们来重新组织FAIR-Play数据集。具体来说,我们首先对所有剪辑运行聚类算法,根据场景对它们进行大致分组。然后通过匹配第一个和最后一个( ,)(,(1)立体声训练STFT(短轴+短轴)(2)离职培训净利润(3)测试STFT(短轴-短轴)15491表1:在FAIR-Play和MUSIC-Stereo数据集上的双耳音频生成的定量结果。除SNR外,分数越低,结果越好上半部分显示了标准基准测试和我们的伪双耳方法的结果下半部分显示了增强结果和我们对不同双耳解码方案的消融研究(Sec. 3.1)。我们的方法优于以前的方法时,增强与双耳录音。此外,我们所选择的解码方案实现了最好的性能在三种解码方法。FAIR-Play MUSIC-立体声方法STFTENVMagD相SNR↑STFTENVMagD相SNR↑单-单1.0240.1452.0491.5714.9681.0140.1442.0271.5687.858[第14话]0.9170.1371.8351.5045.2030.9420.1381.8851.5508.255假双耳(无分离)0.9510.1401.9141.5395.0370.9530.1391.9021.5648.129伪双耳(我们的)0.9440.1391.9011.5225.1240.9430.1391.8861.5628.198[45]第四十五话0.9060.1361.8111.4955.2210.9290.1351.8031.5448.306增强HRIR0.8960.1371.7911.4725.2550.9400.1381.8661.5508.259增强立体混响0.9120.1391.8231.4775.2200.9090.1371.8171.5468.277增强-假双耳0.8780.1341.7681.4675.3160.8910.1321.7621.5398.419帧内的每个剪辑组,我们找到的剪辑的原始顺序,并连接它们恢复录制的视频.最后,我们选择了场景在其他视频中完全缺失的视频作为验证集和测试集。通过这种方式,我们创建了5个不同的分割,其中训练集和测试集不重叠。在我们的实验中,我们重新训练了所有的监督模型(包括Mono 2Binaural [14]和Sep-Stereo[45]),并报告了五次分割的平均结果。请注意,我们的模型也是在这个数据集上训练的,只使用独奏部分和单声道音频。音乐-立体声[43,42]。MUSIC(21)包含21种不同类型的乐器,最初收集用于视觉引导的声音分离。我们从MUSIC(21)和MUSIC-duet [43]中选择具有双耳音频的所有视频以形成新的数据集MUSIC-Stereo。由独奏和二重奏部分组成,它包括1120个不同的音乐表演的独特视频。MUSIC-Stereo总共持续了49.7小时,是FAIR-Play数据集的10倍按照[14]中的后处理步骤,我们剪切这些视频在预测的频谱上,通过希尔伯特变换在原始音频波上执行ENV距离[32]。为了更准确地评估预测的双耳音频,我们还采用了来自[22]的两个广泛使用的度量幅度距离(Mag)和信噪比(SNR)Mag距离反映了L2偏差对谱幅值的影响,SNR直接作用于波形新提出的度量标准。在3D音频感知中,观众更关心的是感知源方向,其中双耳音频的相位是关键。如[29]所示,相位误差将引入可感知的失真,但在优化期间总是被忽略受此启发,我们进一步提出了一个新的度量,称为差分相位差-在时间-频率域上执行的相位(D相位)。请注意,双耳音频是完全去-由左和右频谱之间的差来终止3.3.因此,D相位用于评估地面实况差SD和预测差SD=MSm之间的相位失真:17,940个10秒片段,并以8:1:1的比例将它们分成训练集、验证集和测试集类似于公平竞争,只有D相=X相(SD)−phase(S<$D)<$2,(10)独奏部分和单声道音频用于我们模型[22]第二十二话该数据集是从YouTube上的360个高清视频中以ambisonic格式收集的。音频以与我们的解码方案相同的方式传输到双耳。YT-MUSIC具有独特的视觉配置和立体声音频特性,是最具挑战性的数据集。4.2. 评估指标上一页该领域内的评估协议基本上是恢复的音频和记录的音频之间的STFT距离和包络距离(ENV)[22,14]。STFT距离表示均方误差com-其中相位由角度值表示,因此D相位∈[0,2π]。值得强调的是,D相位对音频方向敏感,即,切换左声道和右声道将对该度量带来显著改变。4.3. 定量结果双声道录音免费评估。由于之前没有提出双耳免记录方 法 , 因 此 我 们 借 用 其 主 干 的 监 督 方 法Mono2Binaural[14评估是在我们新拆分的公平播放[14]和音乐立体声上进行的。作为比较,Mono2Binaural是用视觉帧和双耳音频训练的,而我们的15492表2:五个指标的跨数据集评估结果。在FAIR-Play上训练的模型用于对其他模型进行测试,而在MUSIC-Stereo上训练的模型用于对FAIR-Play进行评估在所有数据集上,PseudoBinaural比监督方法Mono2Binaural具有更好的[14]第14话我的世界数据集STFTENVMagD相SNR↑STFTENVMagD相SNR↑公平竞赛0.9960.1421.9931.5625.8760.9590.1401.9171.4966.057音乐-立体声0.9710.1401.9421.5527.9330.9520.1391.9040.5748.099YT音乐0.7170.1181.4351.5979.2140.6530.1111.3061.3579.848方法伪双耳仅利用帧和单声道音频来进行训练。请注意,我们不依赖于额外的数据集。Mono-Mono的结果也被列出,它将单声道输入复制两次作为立体声输入表3:基于FAIR-Play数据集对要混合的单声道视频数量K的消融研究。当K是三个不同数字的混合时,比率根据经验设置为1:2:3 = 0。四比零。五比零1.一、渠道这种方法应该完全没有立体声效果因此胜过它意味着产生方向感的成功。由于我们的整个模型包括第二节中描述的分离训练 3.3,我们还评估了该模块的消融(w/o sep.).表1显示了这些方法对所有指标的结果。在没有监督的情况下,我们的伪双耳不能优于监督设置是合理然而,事实上,我们的模型优于单声道单声道对所有满足-RICS证明了我们提出的方法的有效性。与以前的工作[45]一致,在训练框架中引入分离任务可以进一步提高生成的双耳音频的整体性能。增强双耳音频训练。由于我们的方法只依赖于伪视觉立体对,一个自然的想法是利用伪数据和记录的,以提高传统的全监督方法的性能。如表1的下半部分所示,我们的方法,表示为增强-伪双耳,可以在所有5个指标上超过传统的单声道2双耳设置[14此外,与包含额外数据的Sep-Stereo[45]相比,我们使用相同的收集数据集创建伪对,提供更有效和补充的信息来指导训练。因此,我们的方法优于他们的公平播放和音乐立体声。交叉数据集评价。我们在表中具体显示了跨数据集评估2证明了1)监督方法可以很容易地过拟合到特定的区域和2)我们的方法的推广能力。YT-MUSIC [22]还使用特殊的360度 全景视频和高保真度立体声音效在这里,我们使用非增强版本的伪双耳进行评估。对于Mono 2Binaural,在FAIR-Play上评估的模型在MUSIC-Stereo上训练在FAIR-Play和MUSIC-Stereo的交叉测试期间,在正视图中定义视觉到角度映射fv2a但在YT-MUSIC上交叉测试时,视频是以360°的形式定义的。从表中可以看出,我们的方法稳定地输出-在所有交叉数据集评估中执行单声道2双耳。当在不同的域中进行测试时,监督方法往往表现不佳,而我们的无记录方法通过仅在单声道数据上进行训练而泛化良好。消融研究。表1的下半部分展示了我们对不同双耳解码方案的消融研究如SEC所写。3.1,双耳音频可以直接从HRIR或ambisonic解码。可以看出,我们将两者结合起来的方法会产生最好的结果。当准备伪视觉立体对时,要混合的单声道视频的数量也是另一个要考虑的重要超参数。如表3所示,固定的混合数K总是无法构建各种训练样本,从而导致与那些自然收集的数据集不一致。因此,经验比率为1:2:3 = 0。四比零。五比零对于数目K应用1以确保所生成的视觉立体对的多样性。此外,我们评估的选择的视野(FOV)时,建立视觉坐标映射。有影响的参数是边界方位角θv0,其被设置为π/3(秒)。3.2)。结果如表4所示,我们的选择实现了最佳结果。4.4. 定性结果用户研究2. 共有30名听力正常的用户参与了我们的研究,以进行质量评估。那里2 请 参 考 https : //sheldontsui 。 GitHub.io/projects/PseudoBinaural演示视频。KSTFTENVMagD相SNR↑10.9650.1431.9141.4834.97620.9350.1411.8711.4805.02630.9670.1421.9361.5275.0041,20.8950.1361.7931.4795.2821,2,30.8780.1341.7681.4675.31615493立体声偏好0% 20% 40% 60% 80% 100%单声道-双耳-我们的百分之九十声音 定位精度百分之六十百分之三十0%的百分比百分之三十二百分之五十一单声道-单声道单声道2双耳我们百分之八十一地面实况消融研究0% 20% 40% 60% 80% 100%HRIR Ambisonic我们的(a) 用户研究美国[14](b) 激活图图4:定性结果。(a)显示了我们的用户研究结果可以看出,用户稍微喜欢我们的方法而不是监督Mono2Binaural[14]。(b)是我们的和单声道双声道的激活图的可视化。虽然他们的注意力是混乱的,我们的结果是更紧凑。我们更关注声源。有三组研究,每组有20个视频,选自FAIR-Play [14]和MUSIC-Stereo [42]的测试集,其中大部分是二重唱。1)要求用户观看一个视频并收听由PseudoBinau- ral、Mono 2Binaural[14]或Mono-Mono生成的双耳音频。问题是这三种方法中哪一种能产生最好的立体声效果。结果显示用户的立体声首选项的百分比。2)要求用户在不观看视频的情况下收听通过上述方法生成的音频,并决定特定乐器的位置(左、右或中心)。地面真相音频也包括参考。实验结果表明了这些方法的定位精度。3)主观消融研究进行了双耳解码方法的不同选择的影响用户被要求告诉解码dia- gram,直接HRIR,ambisonic,或我们的,创造最好的3D听觉体验。结果如图4(a)所示。从第一个和第二个实验中,我们可以看到,用户发现我们的方法在两个测量上都比监督Mono2Binaural这足以验证我们的结果在主观评估中与监督方法具有高度竞争力,这对于听觉任务非常重要在声音定位实验中,即使给出地面实况音频,用户也只能达到81%的准确度,这表明了房间混响造成的误导主观消融研究表明,我们的解码程序显然创造了最好的听觉在所有解码选择。想象力。我们还可视化了由我们的方法和视觉域上的Mono2Binaural[14图4(b)我们可以看到,Pseu-表4:边界方位角θv0的消融研究。水平视野为2× 10 ~(-0)。0.0000π/6π/4π/35π/ 12π/2STFT↓0.9230.8960.8780.8840.886SNR↑5.1385.1815.3165.3025.271doBinaural可以成功地关注声源,而Mono2Binaural[14]将专注于不太重要的区域。例如,他们的方法将注意到所有三个场景的天花板,这不是声源。5. 结论在这项工作中,我们提出了伪双耳,一个双耳录音免费的方法,从相应的单声道音频和视觉线索产生双耳音频。这是第一次,在没有双耳音频记录的情况下解决了视觉上知情的双耳音频生成的问题。基于单声道-双耳-映射的理论分析,可以利用所创建的伪视觉-立体声对来训练用于双耳音频生成的模型。大量的实验验证,我们的框架可以是非常有竞争力的定量和定性。更令人印象深刻的是,增强了真实的双耳音频录音,我们的伪双耳可以在各种标准基准上胜过当前最先进的方法。致谢。这项工作得到商汤科技的合作研究资助(香港中文大学协议编号:TS1712093)、香港研究基金(编号14205719、14202217、14203118、14208619)、NTU NAP和A * STAR通过产业联盟基金-产业合作项目资助。百分之四百分之三百分之二十二百分之五百分之二百分之二十二百分之六十15494引用[1] Triantafyllos Afouras,Joon Son Chung和Andrew Zisser-man。对话:深度视听语音增强。2018年,国际演讲会论文集。一、二[2] V拉尔夫·阿尔加齐,理查德·O·杜达,丹尼斯·M·汤普森和卡洛斯·阿维尼亚诺。CIPIC HRTF数据库。在2001年IEEE音频和声学信号处理应用研讨会论文集(目录号01TH 8575),第99-102页。IEEE,2001年。3[3] Humam Alwassel,Dhruv Mahajan,Lorenzo Torresani,Bernard Ghanem,and Du Tran. 跨模态音视频聚类的自监督学习。arXiv预印本arXiv:1911.12667,2019。1[4] Relja Arandjelovic和Andrew Zisserman。看,听,学。IEEEInternationalConferenceonComputerVision(ICCV),2017年。3[5] Relja Arandjelovic和Andrew Zisserman。有声音的物体。欧洲计算机视觉会议(ECCV),2018年。3[6] Durand R Begault和Leonard J Trejo。用于虚拟现实和多媒体的三维声音2000. 1[7] Jens Blauert 空间听觉:人类声音定位的心理物理学。麻省理工学院出版社,1997年。2[8] R. Courant和D.希尔伯特数学物理方法。威利经典图书馆。Interscience Publishers,1962. 第1、3条[9] Ariel Ephrat、Inbar Mosseri、Oran Lang、Tali Dekel、Kevin Wilson、Avinatan Hassidim、William T Freeman和Michael Rubinstein。在鸡尾酒会上听:一个独立于说话人的语音分离视听模型。ACM Transactions on Graphics(TOG),37(4),2018。一、二[10] 约翰·W·费舍尔三世,特雷弗·达雷尔,威廉·T·弗里曼和保罗·A·维奥拉。学习视听融合和分离的联合统计模型。神经信息处理系统进展,2001年。2[11] Chuang Gan , Deng Huang , Hang Zhao , Joshua BTenenbaum,and Antonio Torralba.音乐的姿态为视觉声音分离。在IEEE计算机视觉和模式识别会议(CVPR)上,2020年。2[12] Chuang Gan,Hang Zhao,Peihao Chen,David Cox,and Antonio Torralba.具有立体声的自监督移动车辆跟踪 。 IEEE International Conference on Computer Vision(ICCV),2019。3[13] Ruohan Gao,Rogerio Feris,and Kristen Grauman.通过观看未标记的视频学习分离物体声音。欧洲计算机视觉会议,2018年。一、二[14] 高若涵和克里斯汀·格劳曼。2.5 d视觉声音。在IEEE计算机视觉和模式识别会议(CVPR)上,2019年。一、二、三、五、六、七、八[15] 高若涵和克里斯汀·格劳曼。共同分离视觉对象的声音 。 IEEE International Conference on Computer Vision(ICCV),2019。一、二[16] 何开明,张翔宇,任少卿,孙健。用于图像识别的深度残 差 学 习 。 在 IEEE 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR)的论文集中,第770-778页,2016年。5[17] 胡迪,钱瑞,姜敏月,谭晓,温石磊,丁二瑞,林伟耀,窦德敬。通过自我监督的视听匹配的有区别的神经信息处理系统进展(NeurIPS),2020年。3[18] 布鲁诺·科巴杜·特兰和洛伦佐·托雷萨尼从自我监督同步中协作学习音频和视频模型神经信息处理系统进展(NeurIPS),2018年。1[19] 李丁泽宇,蒂莫西·R. Langlois和Changxi Zheng。360度视频的场景感知音频 ACM Trans. Graph. ,37(4),2018.2[20] 卢玉鼎,李新英,曾鸿宇,杨铭轩。具有对应分类器的自监督音频空间化在2019年IEEE图像处理国际上,第3347-3351页IEEE,2019年。一、二[21] 哈里·克里希纳·马甘蒂,丹尼尔·加蒂卡-佩雷斯,伊恩·麦克-考恩。用视听传感器阵列进行会议中的语音增强和识别。IEEE Transactions on Audio,Speech,andLanguage Processing,15(8):22572[22] PedroMorgado , NunoNvasconcelos , TimothyLanglois,and Oliver Wang.360度视频空间音频的自我监督生成神经信息处理系统进展(NeurIPS),2018年。一、二、三、六、七[23] 佩德罗·莫尔加多努诺·瓦斯康塞洛斯和伊尚·米斯拉具有跨模态一致性的视听实例判别。arXiv预印本arXiv:2004.12943,2020。1[24] Markus Noisternig,Alois Sontacchi,Thomas Musil,andRobert Holdrich.基于3d立体混响的双耳声音再现系统。音频工程学会会议:第24届国际会议:多声道音频,新现实。音频工程学会,2003年。3[25] 安德鲁·欧文斯和阿列克谢·埃弗罗斯。具有自我监督多感 觉 功 能 的
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功