没有合适的资源?快使用搜索试试~ 我知道了~
283视觉注入深度音频修复杭州1刘紫薇1徐旭东1罗平2王 晓刚11香港中文大学-商汤科技联合实验室2香港大学{zhouhang@link,xx018@ie,xgwang@ee}. www.example.com www.example.com摘要多通道感知是发展交互智能的必要条件。在这项工作中,我们考虑了一个新的任务,视觉信息注入音频修复,即。合成对应于其伴随视频的缺失音频段。我们确定了成功的inpainter的两个关键方面:(1)操作是可取的修复音频TED频谱图ed频谱图而不是原始音频深度语义图像修复的最新进展可以用来超越传统音频修复的局限性(2)为了合成视觉指示的音频,需要通过音频和视频的同步来学习视觉-音频联合特征空间。为了便于大规模研究,我们通过丰富MUSIC数据集收集了一个新的多模 态 乐 器 演 奏 数 据 集 , 称 为 MUSIC-Extra-Solo(MUSICES)[51]。大量的实验表明,我们的框架是能够修复现实和不同的音频片段有或没有视觉环境。更重要的是,我们合成的音频片段是一致的,与他们的 视 频 同 行 , 显 示 了 我 们 提 出 的 视 觉 注 入 音 频Inpainter(VIAI)的有效性。代码、模型、数据集和视频 结 果 可 在 https://github.com/Hangz-nju-cuhk/Vision-Infused-Audio-Inpainter-VIAI获得。1. 介绍视听分析提供了有价值的和复杂的信息,这是至关重要的全面建模序列数据。近年来取得了重大进展。例如,已经表明,音频和视频的两种模态可以从一种转换到另一种[10,23],即从视频到音频[11,9]以及从音频到视频[18,52,53]。这项工作的重点是一个新的任务,音频修复,同时使用视频和音频的约束。修复后的音频片段需要具有约束的语义概念,这意味着它不仅必须在听觉上合理,而且必须在视觉上与视频一致的图1.问题描述。我们研究的问题,修复丢失的音频数据的剪辑,特别是与其相应的视频。它被公式化为深度频谱图修复,并注入视频信息以生成相干音频。问题的设置如图所示。1.一、在现实生活中,音频信号经常遭受局部失真,其中间隔被脉冲噪声和咔嗒声破坏。更有甚者,一段音频可能会由于事故或传输失败丢失而被删除。为了处理这种情况,一种可行的操作是用新生成的样本填充损坏的部分,这可以被称为音频修复[1]。虽然直接预测丢失的音频片段是困难的,但是关于音频信号的具体信息可以由伴随音频数据的完整视觉信息来提供。视觉提示可以被看作是一种约束和自我监督,以指导音频生成。在本文中,我们提出了一种视觉注入的方法,可以处理音频和视听相关的修复。由于音频传统方法通常利用音频的稀疏表示[1,7,8,38,43],并试图找到相似的信号结构。然而,类似的结构并不总是存在于给定的输入中,特别是当输入较短时。此外,大多数以前的工作不能处理大于0.25秒的缺失长度[7]。这些方法也不能与给定的视频相关联。另一个想法是通过使用深度学习来应用音频生成任务的最新进展最近的一项工作,注入信息完整视频科鲁普音频损坏图像修图像修284与我们相关的是[53],它使用视频作为条件直接生成音频信号。然而,先前的方法没有探索待修复音频的两侧上的平滑度约束。为了解决这些问题,我们的关键见解是,我们可以通过将频谱图的紧凑音频表示视为连续信号来有效地利用音频中的上下文信息。受最近图像修复的深度模型的启发[37,26,49],我们以同样的方式制定问题,将频谱图视为一种特殊的 研究人员已经证明,谱图可以通过卷积神经网络(CNN)有效地处理[12,51]。我们相信卷积编码器-解码器网络能够恢复丢失的音频部分的高级别音色和低级别频率。这就要求声谱图包含足够而又简单的信息.出于这个动机,我们使用Mel-频谱图的表示,并使用生成对抗网络(GAN)设计了一个频谱图修复管道[22]。然后,我们将视觉信息纳入这个管道。我们提出提取所需信息的核心是找到一个联合特征空间,在那里音频和视频是同步的,以便共享的节奏信息可以提供给网络。最后,训练具有混合逻辑损失的WaveNet [44]解码器,以从目标源(音乐乐器)的频谱图中恢复高质量的音频。WaveNet解码器也有利于我们利用以前的干净数据。由于我们的频谱图修复管道受到计算机视觉社区的启发,并且模型本身被设计为能够扩展到视听版本,因此所因此,我们正式术语我们的框架视觉注入音频画家(VIAI).我们的贡献总结如下。(1)我们提出了一个新的框架,音频修复的灵感来自图像修复执行声谱图。修复后的声谱图然后通过WaveNet解码器转换为相干音频。(2)我们将视觉线索到这个框架,并尽我们所知,设计的第一个系统针对视频相关的音频修复。(3)除了我们的模型,我们还引入了新的有效学习的训练策略。大量的实验表明,我们的框架可以成功地处理丢失的音乐片段长度约0.8秒,只有4秒的输入。这样的长度不能由大多数现有的音频修复方法处理。(4)我们将原始的MUSIC数据集[51]扩展到一个更丰富的版本,名为MUSICES,以使整个视听研究社区受益。2. 相关工作音频修复。以往的研究主要从信号处理的角度解决音频修复问题。在[1,42]中已经探索了时频域中的稀疏近似,但是当间隙超过50ms时将引入静默。自相似性已被用于使用时间演化特征修补高达0.25秒的间隙[7]。最近,使用相似性图,[38]提出了对长音乐片段进行修补,但它不能处理短于3秒的片段更重要的是,在给定的完整输入区域中不存在类似的帧。当这种情况出现时,这种方法就会失败。直到最近,一些当代作品才利用CNN进行音频修复[31]。音频合成。 通过应用深度学习,SampleRNN [32],WaveNet [44]及其变体[16,34]等生成模型已经成功地生成了高质量的高保真原始音频样本。最重要的发展之一是将它们用作条件音频生成任务(如文本到语音合成(TTS))的解码器。例如,由领域专业知识设计的声学特征已被用作基于SampleRNN [2]和WaveNet [5,21]的音频合成的输入后来在Deep Voice 3 [39]和Tacotron 2 [41]中,Mel频谱图已成功用于训练WaveNets。受他们作品的启发,我们采用了类似的结构来生成原始音频。视听联合分析。近年来见证了视听联合学习任务的快速增长,例如视听语音识别[13,12],学习视听对应[3,4,6],本地化[51,40],同步学习[13,12],语音识别[13,13],语音识别[13,14],语音识别[13,13,14],语音识别[13,13,13,时序化[14,35,29],音频到视频生成[11,[18,53,36],视觉辅助源分离[35,17,19],和空间音频代[20,33]。其中,视觉与声音相结合的作品.源分离和声音生成与我们的关系更大。源分离工作更经常地在频谱图上执行。Zhao等人 [51]使用短时傅立叶变换(STFT)实现声源定位和分离。类似地,Ephrat等人。 [17]使用说话的人脸视频在语音信号的STFT上形成掩码,以实现语音分离。另一方面,Owens和Efros [35]在频谱图U网的瓶颈中连接视觉特征。与所有要恢复的音频信息已经存在的源分离不同,生成新的音频将困难得多。在[36]中,专门预测了击打声。[53]使用SampleRNN直接为野生视频生成声音。但我们的工作与他们所有人都有不同的背景。图像修复。图像修复[37,48]是计算机视觉和图形学中的一个深入研究的主题。深度学习方法已成功应用于此285ƒ一一一{m}a{m}一一av一av输入频谱图SI输入音频a我Ea(a)VIAI-AGaIaRaWaveNet解码器重建GANDaR输出音频输入频谱图对应视频对应流程我EaEIE型熔断器叶尔佐夫DGAN离散混合物流损失目标音频的t目标光谱图FEv不EaSt加夫对比同步rav重建(b)VIAI-AV图2.整个视觉注入音频Inpainter系统管道。在上面的括号(a)中是VIAI-A修复时间表。首先,输入的损坏的音频被处理成梅尔频谱图与丢失的一块。在第二层具有一个跳过连接的编码器-解码器对{Ea,Ga}将频谱图恢复为完整的一个sr。 下面(b)是VIAI-AV管道。 瓶颈特征 从音频和视频编码器Ea和Ev中提取ft、fv。它们被训练成彼此同步同时将fv与来自Ea的失真音频特征fi连接,解码器Gav重构频谱图Sr根据这两个信息。重建输出结果sr和sr的约束与重建损失和GAN损失与目标st。 最后的结果被发送到预训练的WaveNet解码器以生成原始音频。GAN的领域。Context Encoders [37]首先训练深度编码器-解码器网络,用于大孔修复。[26]将其扩展为全局和局部判别器作为对抗性损失。最近,研究人员深入研究了深度学习方法和基于范例的方法的结合[47,45]。同样的做法可以应用在我们的框架中,但为了简化我们提出的方法,我们只是借用了编码器-解码器基线。(大小为1×时间×通道),这使网络能够处理不同的输入长度。网络的输出是重建的频谱图sr=Net a(si)。重建跳过连接有利于网络通过简单的上采样操作直接利用干净谱图的低层信息,而我们设计了一种权重调整训练方案,依靠瓶颈让我们成为最初失踪3. 我们的方法谱图零件及零件是预测的对应-我 们 在 本 节 中 介 绍 我 们 的 视 觉 注 入 音 频InpainterVIAI由两部分组成,纯音频模块“VIAI-Audio(VIAI-A)”和视听联合修复模块“VIAI-Audio-Visual(VIAI-AV)”。它们都共享一个修改过的WaveNet解码器。图2描绘了其中m表示“缺失”。 当应用重建L1损失,预测和目标上的原始干净和缺失区域之间的权重根据训练时间而变化。L1重建损失可以写为:整个管道。 主要的想法是把音频修复La=η1(t)st−sr1+st-sr第一章 (1)re以图像修复风格进行频谱图修复a{m}a{m}我们首先在缺失部分周围借用未失真的音频以形成输入音频段ai。 然后,在给定缺失数据长度和位置的情况下,将其变换为其Mel频谱图表示si。我们的目标是重建一个频谱图sr,这是尽可能相似的目标一个st。3.1. 音频修复作为频谱图修复渠道. 图2(a)顶部的黄色括号显示其中,η1(t)是随着训练步骤而衰减的参数,并且在一定时间之后被设置为非常小的值。我们发现如果η1(t)固定为1,网络将主要学习上采样。但是如果一开始就设置得很小,网络就不能清晰地恢复干净的频谱图,从而损害音频的平滑性。此外,使用Patch- GAN [27]目标来训练CJD以保持局部一致性和全局相似性:VIAI-A的整个过程我们采用了一种编码器-一个t解码器结构Net={E; G},一次跳过LGAN(Neta,D)=Est[logD(s)]+a a ar连接. 瓶颈特征fi是一个一维特征图Esi[log(1−D(sa)](2)ƒSƒS一一286Gen一re一一avGen一2a(n)一avreVIAI-A的总发电损耗写为La。β是一个超参数,它利用了这两个损失。在该视频关联场景中,期望由解码器Gav从条件特征fv中提取关于缺失片段的关键信息。作为ft一总一Gen一GAN +βLa.(三)一是压缩干净的频谱图,3.2. 联合视听频谱图修复从ft恢复更容易和更明显。所以我们′利用类似的Laa重构sr′=Gav( Ea(si),ftaaaGen渠道. VIAI-AV的管道如图2的下部(b)。它会演变成一个有条件的修复问题,通过引入视频编码器Ev以及同步模块。音频编码器Ea的结构保持不变。通过E v提取的特征为fv,我们的目标是生成sr=G av(E a(si),fv)。注入视觉线索。提供对应于目标音频的视频。我们相信运动信息[30]与音频旋律的变化密切相关,即,作为探针损失来指导网络的学习这个想法是,当我们通过应用同步损失来限制fv<$ft时,我们可以假设G av(E a(si),fv)<$G av(E a(si),ft)。该附加的基于干净音频的修复模块的过程可以被具体命名为VIAI-AA'。VIAI-AA'产生的巨大结果的成功也证明了将信息从瓶颈传递到输出的能力。VIAI-AV的总体目标可以写为:′具有快速节奏的激烈运动,因此提取光流此外,[53]表明,使用图像和平均数总计=η2(t)LaaavGen +L同步。(五)流数据可以帮助改善从视频直接生成音频的该视频内的每个图像和流被发送到编码器Ev,其包含ResNet编码器EI、EF和下采样卷积层Efuse。注意,我们控制Efuse的下采样率,以使fv匹配fa的大小。视听同步。冗余在用于音频重建的视频中包含信息,例如人的外貌、乐器的位置,以及改变背景设置。为了捕捉视频和音频之间的关联,我们建议找到一个具有同步节奏信息的联合在该联合空间中,预期视觉特征fv接近于其对应的完整目标音频特征ft=Ea(st)。我们选择使用[14,29]中执行的对比损失,将特征映射到相同的空间。训练目标是最小化同步的音频和视频特征之间的距离,并迫使未配对数据之间的距离大于某个裕度γ:ΣNη2(t)是与η1(t)类似的衰减参数。3.3. 声谱图到音频WaveNet解码器。在VIAI的末尾,为两个分支都附加了WaveNet解码器。我们的选择Mel谱图的压缩是一种数据压缩方法。由于用于频谱图修复的信息较少,因此将其转换回原始音频信号更加复杂。因此,我们利用WaveNet架构的修改版本[44]将频谱图解码为原始音频样本。WaveNet是一种自回归模型,由膨胀卷积和非线性激活组成。在训练过程中,它可以以原始音频数据为输入,以梅尔频谱图为时间条件,以教师强迫的方式预测下一个时间步的音频。首先使用上采样卷积处理梅尔频谱图,以匹配原始音频数据的采样率。在推理过程中,WaveNet在每个时间步接收一个原始音频和上采样的频谱图数据,并生成下一个时间步的原始音频数据。它对音频数据和频谱图p(a)之间的条件分布进行建模|s):L同步=n=1NN不a(n)-fv(n)2+YTp(a)|s)=p(a(t)|a(1),···,a(t−1),s(t))(6)n/=mmax(γ−ωft-fv(m)=2,0)2,4t=1我们遵循并行WaveNet [34]和Tacotran 2 [41],其中N是一个批次中的数据数量,γ设置为1。所有的特征在实现之前首先被规范化负样本的绘制方式与[29]相似探头丢失的重建。然后,将视频特征fv与失真的瓶颈音频特征fi级联以形成fav,并将其发送到新的视听使用离散化的混合物流损失进行训练。使用数据集中的干净音频样本和Mel频谱图为每个类预训练一个WaveNet模型。一个统一的WaveNet也可以用与多扬声器TTS相同的方式训练。对过去音频的调节。 在音频修复任务中,用于频谱图重建的解码器Gav. 火车-而不是简单地建模p(ar|sr),我们利用目标与第3.1节相同,仅替换为从a到av的下标,得到发电损耗:WaveNet依赖于频谱图和模型p(ar)的先前干净样本|sr,ai)。 假设avGenavGAN +βL平均值从时间步t0到T,音频数据丢失,分布L=L=LL+L布拉夫L=L287音乐音乐(t−1)R25020015010050(i)基于流动的突出区域选择0吉他手风琴大提琴长笛萨克斯管大号小号小提琴木琴图3.与原始MUSIC数据集进行数据统计比较。x轴是类名称,y轴是每个类的视频数量。(ii) 裁剪和填充的图像和流(a) 视频数据处理(iii) 初始化输入(b)数据初始化在给定现有输入音频ai和时间步长t(t >t0)处的重构频谱图Sr的情况下,我们对重构音频air建模,可以写为:YT图4.数据预处理。(a)示出了视频的基于流的显著区域裁剪的过程(b)显示了频谱图插值初始化每一枪。我们观察到视频可能包含黑色transi-p(ar|sr,ai)=t=t0R(吨)我(一)R(t0)我(t0−1),···,ar、(7)(t))在播放器开始播放之前静音的帧和剪辑。因此,我们根据我们检测到的镜头分割视频,并放弃那些非听觉的。而且最后,这个定制的WaveNet解码器可以集成到我们的框架中,构成一个端到端的原始音频推理和训练系统。4. MUSIC-Extra-Solo数据集选择和组织。音频和视频之间的强烈关联通常可以在乐器演奏的视频中找到。例如,手的位置和弓在弦上的运动可以投射某些音频音符。但通常人们不能仅仅根据视觉信息来分析音符。这为我们的任务提供了一个合适且具有挑战性的数据选项,因此我们转向最近提出的MUSIC数据集[51]。然而,发布的版本只有大约50个视频为每个类,这是不够的。因此,我们将MUSIC数据集扩展到其9个主要乐器上的原始大小的约三倍。额外的视频都是独奏,因此我们的扩展被称为MUSIC-Extra-Solo(MUSICES)数据集。新数据集与原始数据集相比的统计数据总结在图中。3 .第三章。真实的记录数据。注意,与利用数字推理软件(诸如MUSICES中的音乐数据大多是家用摄像机记录的,背景噪音很小,这给音频生成带来了很大的困难。选择的数据是稳定的,质量好在原始的MUSIC数据集中,某些视频中的重要动作可能是不可见的。这类视频在我们的数据集中被排除在外不同的录音环境会导致同一类音频的音域差异,这给我们的工作带来了很大的挑战。正在检测视频镜头。我们还检测数据集中的镜头变化,并提供开始和结束时间,每个视频的前6秒被切出用于数据清理。请注意,训练集/测试集在剪切镜头中的视频之前首先被划分。集合分裂协议。在视频级别执行训练/测试分割。具体来说,我们将10%的视频分为固定测试集,并随机抽取5%作为验证集。5. 实验数据处理. 数据处理是该方法实现的重要环节,因此在这一部分进行了详细的阐述。所有音频样本都被预处理为16kHz采样率,然后所有原始音频幅度被归一化为-1和1我们的Mel-频谱图可以通过首先使用1280点(对应于80 ms)的帧长度和320点(20 ms)的跳跃大小执行STFT使用频率跨度为125Hz至7.6kHz的80通道Mel滤波器组将STFT幅度转换为Mel尺度,然后进行对数动态范围压缩。频谱图被归一化为0和1之间。声谱图帧长度和跳数被设计成映射其对应视频的12.5帧速率。因此,在时间上,一个视频帧可以被映射到4个频谱仓。通过使用TV-L-1算法[50]提取光流,并将其限制为最大20个像素。通过根据视频上的所有光流值的平均值设置阈值来近似视频内的显著区域一个视频中的图像和流都被裁剪到这个检测到运动的矩形区域,并填充为正方形。图4(a)描绘了该过程。最后,将图像和流的像素值归一化到-1和1损坏(i)干净的光谱图(ii)最近的干净频谱仓内插p(a)|一,···,a一得双曲余切值.288AA评分\方法SampleRNN [32][53]第五十三话双样本RNNbi-Visual2SoundVIAI-A VIAI-AVVIAI-AAPSNR9.110.212.813.622.223.226.6SSIM0.330.350.380.410.610.640.75SDR4.893.704.204.726.546.636.89OPS51.151.351.252.252.456.356.7表1.定量结果。上半部分是声谱图的评估,下半部分是音频的评估。OPS的最大值为100。在这些指标中,值越大越好。型号配置。 音频编码器E a由具有3 × 3内核的5个步幅-2卷积层组成。原始的80个频率仓被最终池化层压缩为1 。 图像和流编码器E I和E F都采用ResNet-18 [24]架构。可以从每个图像和流获得一个256长度的特征向量 然后,来自一个视频剪辑的特征沿着时间轴连接。下面的Efuse有两个stride-2 1d卷积。解码器Ga具有15个卷积层,其中6个双线性上采样层。跳过连接位于最后一个上采样层之后。解码器Gav 仅在第一卷积层处不同于Ga它的长度是原来的两倍。至于WaveNet解码器,我们使用24个膨胀卷积层,分为3个膨胀循环,而不是原来的30层,以提高计算效率。为数据集中的每个类训练一实验设置。在整个我们在实验中,我们只考虑比传统设置更长的缺失长度。当缺失长度较短时,方法之间的差异变得难以区分,而当缺失长度较长时,这个问题更具挑战性和现实性,因此这是本文的重点。我们选择的训练输入数据是4s。失真小于1s但大于0.4s。4秒的原始音频对应于80×200大小的频谱图,并映射到50个视频帧。提取的瓶颈特征图为256×13,压缩时间维为13。实施详情。在训练过程中,我们在干净的频谱图中随机手动裁剪一个片段以产生失真。与图像修复不同,失真部分将沿着时间轴(参见图4(b),用于输入频谱图的可视化)。基于音频数据的连续性,我们将其初始化为如图4(b)所示的最近的干净频谱仓的插值,而不是像图像修复中那样对“像素”值进行平均。这种基于插值的初始化可以在某些情况下直接导致合理的结果,其中缺失的部分是稳定的音符,但在大多数情况下会失败。我们的实现基于PyTorch,并在4个Titan X GPU上训练。使用Adam优化器[28]训练网络,学习率设置为1 e-4。 训练VIAI-A时的批量为64,训练VIAI时的批量为16AV.衰减参数η1(t)和η2(t)被设置为max(0. 1,0。9步/1000)。同步丢失LSync仅更新视频编码器Ev,因为这稳定了训练。竞争方法。我们验证了我们的声谱图内画优于基于深度学习的自回归音频生成方法与列出的基线。Sam-pleRNN[32]能够在有或没有输入条件的情况下预测长期音频。我们采用它作为音频修复基线。然后我们再现Visual2Sound[53]作为视听基线。请注意,在最初的[53]论文中,只有ImageNet和动作识别预训练网络用于特征提取。 为了进行公平的比较,我们将他们的视频提取网络初始化为我们的同步预训练网络。此外,我们还训练了一个反向SampleRNN模型,并融合了双方的输出,以创建一个双向SampleRNN模型。还实现了类似的双Visual2Sound模型。这些方法与我们的方法VIAI-A、VIAI-AV和VIAI-AA '的一个特殊参考结果在3.2节中描述了重建sr′时的情况。所有实验都是在相同的数据集上进行的,具有如上所述的相同的预处理步骤。请注意,我们还重现了最先进的传统音频修复方法,该方法可以处理最长的失真[7],但它无法在我们的设置上生成任何结果5.1. 定量评价由于论文篇幅所限,我们特别展示了大提琴的结果,作为一个特定的案例研究进行定量评估。在评估过程中,变形长度固定为0.8s以进行比较。以与训练相同的方式,将整个输入音频长度选择为4秒。在此设置下,仅考虑缺失区域,并且从测试集中的每个视频中采样20个损坏的片段用于评估。光谱图评价。我们首先通过将频谱图视为PSNR和SSIM标准中的图像来评估频谱图的直接修复结果[46](越大越好)。对于我们的基线[32]和[53],音频首先生成,然后转换为梅尔频谱图。对audio的评价我们采用音频源分离社区的音频评估专业软件SDR和OPS来评估最终修复的原始音频结果。SDR是信号失真比,它直接包含-289输入样本RNN Visual 2SoundVIAI-AVIAI-AVVIAI-AA'地面实况频谱图感兴趣区域原始音频感兴趣区域图5.不同方法在任意位置的0.8s失真的定性结果。感兴趣的区域是上面相应的红色括号中的部分。放大后看得更清楚MOS\方法双样本RNNbi-Visual2SoundVIAI-A VIAI-AV音频质量2.892.923.123.86视听连贯性2.762.903.053.93与目标2.312.653.113.96在数字上对数据样本进行配对。在PEMO-Q听觉模型[25]中定义,OPS是总体感知评分,也是[15]中提出的音频质量的客观评估。从图中可以看出。4.除了直接借用完整音频信息进行修复的模型(VIAI-AA ')外,有视频辅助的结果优于仅音频的结果。我们的VIAI系统优于纯粹的自回归模型。5.2. 定性评价我们在图5中以声谱图和原始音频的形式可视化一个案例。利益的领域是明确的。比较表明,虽然自回归模型无法保持平滑,我们提出的VIAI-A产生视觉上合理和连续的结果。此外,由于视觉信息的存在,我们的VIAI-AV模型比VIAI-A捕捉到更多的细节。VIAI-AA '的结果有关听觉效果,请参阅我们的视频。用户研究。数字很难衡量音频信号的真实质量,因此我们进行了用户研究根据以下三项标准评估结果;(1)音频质量。用户只通过听音频来标记修复质量有多好。(2)音频和视觉的连贯性。评估修复的音频与给定视频的关联程度。(3)与地面实况的相似性。将修复后的结果与地面实况进行比较,并确定它们的相似程度我们使用广泛使用的平均意见得分(MOS)评级协议。共有20名用户参加了评价。音频生成的过程与定量评估相同。我们使用所示的所有方法生成50个不同的修复音频片段,并将其中10个随机分配给其中一个用户。 然后用户给出1-5的评级,其中5为最高。最后,所有的意见都是平均的。主要结果列于表2中。另外进行了双向方法的结果,列于表3中。如图所示,与基线相比,用户更喜欢我们的VIAI系统。显然,随着视频信息的注入,该系统可以修复与相应视频一致的音频。5.3. 消融研究视听同步。我们提出,视听同步部分是提取所需视觉信息到瓶颈特征的核心。从理论上讲,网络将直接走捷径,表2.用户Lager更高,最大值为5。MOS on\ ApproachSampleRNN [32][53]第五十三话VIAI-AVIAI-AVVIAI-AA音频质量2.512.203.053.934.35视听连贯性2.222.233.023.964.40与目标2.352.202.974.014.46表3.具有双向基线的用户作为一个评价。 用户被问到290GenMOS on\ ApproachVIAI-AVVIAI-AV(无概率)VIAI-AV(nocon)VIAI-AV音频质量2.903.593.003.93视听连贯2.953.653.173.96与目标3.003.563.494.01表4.具有平均意见评分的消融研究类小提琴手风琴吉他长笛木琴小号萨克斯管大号平均VIAI-A21.1 |0.64 22.2 |0.59 21.3 |0.58 22.4 |0.60 20.2 |0.5620.2 |0.62 21.5 |0.59 20.0 |0.57 21.2|0.60 VIAI-AV 22.4 |0.66 23.6 |0.61 21.9 |0.61 23.5 |0.63 21.1 |0.58 21.0 |0.64 22.5 |0.60 21.2 |0.5722.2 |0.62表5. PSNR|所有班级的SSIM结果。方法\评分PSNR SSIMVIAI-Aη1(0)21.8 0.60VIAI-Aη1(+∞)21.6 0.59VIAI-A(旧ini)21.5 0.58VIAI-AVIAI-AVVIAI-AV(无概率)22.5 0.63VIAI-AV 23.2 0.64表6.使用PSNR和SSIM指标进行消融研究原始VIAI-基于光谱图进行修补的路径。我们相信,仅使用VIAI-AV上的重建损失将呈现与VIAI-A相似的结果。在没有它的情况下训练的网络由VIAI-AV '表示VIAI-A A '的概率损失。 然后我们就去找帮手′的探针损失项Laa.除了已经显示的在第5.1节和第5.2节的结果中,表明潜在信息可以从瓶颈中提取,我们进一步探讨了损失项的存在的影响。该模型被称为VIAI-AV(没有问题)。为了验证权重调整项η1(t)和插值初始化的有效性,我 们 通 过 将 损 失 项 的 系 数 设 置 为 η1 ( 0 ) 和 η1(+∞),在AIVI- A上训练额外的实验。使用传统固定值初始化的实验也作为VIAI-A(旧ini)执行。WaveNet调节。最后,我们使用WaveNet来根据过去的结果进行生成,以进一步确保平滑性。没有条件反射项的训练结果被称为VIAI-V(无条件反射)。消融结果。关于PSNR和SSIM的度量的结果在表4中示出。请注意,VIAI-AV(无con)与VIAI-AV共享相同的修复频谱图。我们仅在表6中对这些额外修改的VIAI-AV方法进行主观研究。如表中所示,我们的最终设置达到了各种标准的最佳结果5.4. 进一步分析基线分析。基线方法旨在直接或间接产生连续和合理的结果,在探针输入段之后。 然而,在这方面,修复任务要求所生成的部分与现有音频部分的两侧一致。特别是,Visual2Sound [53]在我们的重新实现过程中应用于乐器演奏数据时无法捕获细粒度的视觉信息。所有班级的成绩。我们对我们收集的MUSICES数据集的所有9个类进行修复实验。的PSNR|其余类别的SSIM结果见表5。失败案例。当地面实况已经被噪声污染时,或者音符的变化太严重时,可能会发生失败,这可以在将来得到改善。6. 结论在本文中,我们已经研究了一个新的任务,并提出了一个有效的系统称为视觉注入音频修复(VIAI),这是能够修复现实和变化的音频段,以填补在损坏的音频。我们的模型将完整的相应视频信息集成到我们的框架中,以创建与视频一致的修复结果。具体来说,我们以深度谱图语义修复的形式制定音频修复问题,并利用视听同步监督来创建用于重建的联合空间。WaveNet解码器的新颖使用,即对先前的数据和重建的频谱图的条件,使高质量的原始音频数据的生成。 与现有方法相比,我们的方法可以处理现有作品无法处理的极端修复设置,并首次实现了视听连贯性音频修复。此外,一个增强的多模态数据集命名为MUSICES贡献给社区未来的视听研究。鸣谢。我们感谢刘玉和熊玉的帮助。这项工作得到商汤科技集团有限公司的部分支持,并通过香港研究资助 局 获 得 一 般 研 究 基 金 的 部 分 资 助 , 资 助 额 为CUHK14202217、CUHK14203118、CUHK14205615、CUHK14207814、CUHK14213616。291引用[1] 阿米尔·阿德勒,瓦伦丁·贾西亚,玛丽亚·G·贾法里,迈克尔·埃拉德,R e'miGribo nv al,和马克·D· 普拉姆布尔。 音频修复。IEEE Transactions on Audio,Speech,and Language Processing,20(3):922-932,2012.一、二[2] 杨爱,吴宏川,凌振华。用于统计参数语音合成的基于采样神经网络的神经声码器。2018年IEEE声学、语音和信号处理国际会议(ICASSP),第5659IEEE,2018年。2[3] Relja Arandjelovic和Andrew Zisserman。看,听,学。2017年IEEE国际计算机视觉会议(ICCV),第609-617页。IEEE,2017年。2[4] Relja Arandjelovic和Andrew Zisserman会发出声音的物体。在ECCV,2018。2[5] Sercan O Arik , Mike Chrzanowski , Adam Coates ,Gregory Diamos,Andrew Gibiansky,Yongguo Kang,Xian Li,John Miller,Andrew Ng,Jonathan Raiman,etal.低沉的声音:实时神经文本到语音。arXiv预印本arXiv:1702.07825,2017。2[6] 尤瑟夫·艾塔卡尔·冯德里克安东尼奥·托拉尔巴声音网络:从未标记的视频中学习声音表示. 神经信息处理系统的进展,第892-900页,2016年2[7] Yuval Bahat,Yoav Y Schechner,and Michael Elad.基于自 我内 容 的 音频 修 复 。信 号处 理 , 111 : 61- 72 ,2015。一、二、六[8] 扬尼斯·钱塔斯,斯皮罗斯·尼科洛普洛斯,和扬尼斯·康姆帕齐阿里斯.基于变分贝叶斯推理的稀疏音频修复。在消费电子(ICCE),2018年IEEE国际会议上,第1-6页。IEEE,2018年。1[9] Lele Chen , Zhiheng Li , Ross K Maddox , ZhiyaoDuan,and Chenliang Xu.唇部动作生成一目了然。在ECCV,2018。1[10] 陈乐乐,苏丹舒·斯里瓦斯塔瓦,段志尧,徐振良.深度跨模态视听生成。在ACM多媒体2017年主题研讨会上,第349-357页ACM,2017。1[11] Joon Son Chung、Amir Jamaludin和Andrew Zisserman。你这么说的? 在BMVC,2017年。一、二[12] Joon Son Chung , Andrew W Senior , Oriol Vinyals 和Andrew Zisserman。在野外读唇语句子。在CVPR中,第3444-3453页,2017年。2[13] Joon Son Chung和Andrew Zisserman。在野外读唇语。在亚洲计算机视觉会议上,第87103.施普林格,2016年。2[14] J. S. Chung和A.齐瑟曼。超时:自动对口型在多视角唇读研讨会上,ACCV,2016年。二、四[15] ValentinAmarya, EmmanuelVincent ,NiklasHarlander,and Volker Hohmann.音频源分离的主观和客观质量评价。IEEE Transactions on Audio,Speech,andLanguage Processing,19(7):20467[16] 杰西·恩格尔、辛琼·雷斯尼克、亚当·罗伯茨、桑德·迪勒曼、道格拉斯·埃克、凯伦·西蒙尼扬和穆罕默德诺鲁兹用小波网自动编码器进行音符的神经音频合成。arXiv预印本arXiv:1704.01279,2017。2[17] Ariel Ephrat、Inbar Mosseri、Oran Lang、Tali Dekel、Kevin Wilson、Avinatan Hassidim、William T Freeman和Michael Rubinstein。Looking to Listen at the CocktailParty : A Speaker-Independent Audio-Visual Model forSpeech Separation.arXiv 预 印 本 arXiv : 1804.03619 ,2018。2[18] 阿里尔·埃弗拉和什穆尔·法勒。Vid2speech:从无声视频重建语音。2017年IEEE声学、语音和信号处理国际会议(ICASSP)。IEEE,2017年。一、二[19] Ruohan Gao,Rogerio Feris,and Kristen Grauman.通过观看未标记的视频学习分离物体声音。在欧洲计算机视觉会议(ECCV)的会议记录中,第35-53页,2018年。2[20] Ruohan Gao和Kristen Grauman。2.5d-visual-sound.CVPR,2019年。2[21] Andrew Gibiansky,Sercan Arik,Gregory Diamos,JohnMiller,Kainan Peng,Wei Ping,Jonathan Raiman,andYanqi Zhou.低沉的声音2:多说话者神经文本到语音转换。神经信息处理系统的进展,第2962-2970页,2017年。2[22] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。 在神经信息处理系统的进展,第26722[23] WangliHao , ZhaoxiangZhang , andHeGuan.Cmcgan:一个跨模态的视听交互生成的统一框架。第三十二届AAAI人工智能会议,2018。一、二[24] Kaiming He,Xiangyu Z
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- WebLogic集群配置与管理实战指南
- AIX5.3上安装Weblogic 9.2详细步骤
- 面向对象编程模拟试题详解与解析
- Flex+FMS2.0中文教程:开发流媒体应用的实践指南
- PID调节深入解析:从入门到精通
- 数字水印技术:保护版权的新防线
- 8位数码管显示24小时制数字电子钟程序设计
- Mhdd免费版详细使用教程:硬盘检测与坏道屏蔽
- 操作系统期末复习指南:进程、线程与系统调用详解
- Cognos8性能优化指南:软件参数与报表设计调优
- Cognos8开发入门:从Transformer到ReportStudio
- Cisco 6509交换机配置全面指南
- C#入门:XML基础教程与实例解析
- Matlab振动分析详解:从单自由度到6自由度模型
- Eclipse JDT中的ASTParser详解与核心类介绍
- Java程序员必备资源网站大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功