音频可视化：学习实时音频到视频的翻译方法

104 浏览量更新于2023-10-16 收藏 19.17MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

22060AudioViewer：学习可视化声音0Chunjin Song *，Yuchi Zhang *，Willis Peng，Parmis Mohaghegh，BastianWandt，Helge Rhodin英属哥伦比亚大学0{chunjins,wandt,rhodin}@cs.ubc.ca0摘要0在感官替代领域，长期以来的目标是通过可视化音频内容来实现聋人和听力障碍人士对声音的感知。与将手语、语音与文本或文本与图像进行翻译的现有模型不同，我们的目标是实现即时和低层次的音频到视频的翻译，适用于通用环境声音以及人类语音。由于这种替代是人工的，没有用于监督学习的标签，我们的核心贡献是通过高级约束从音频到视频构建一个学习的映射。对于语音，我们还将内容与风格（如性别和方言）进行了解耦。定性和定量结果，包括一项人类研究，证明了我们的无配对翻译方法在生成的视频中保留了重要的音频特征，并且面部和数字的视频非常适合可视化高维音频特征，人类可以解析这些特征以匹配和区分声音和单词。项目网站：https://chunjinsong.github.io/audioviewer01. 引言0人类通过多种渠道感知他们的环境，包括视觉和听觉。因为任何感觉的损失都可能导致严重后果，所以提出了各种方法来替代失去的感觉，甚至到最近流行的直接与大脑中的神经元进行接口的尝试（例如NeuraLink[47]）。其中一种最不侵入的方法是用视频替代音频，然而由于它们的高吞吐量和不同的模态，这是具有挑战性的。在本文中，我们提出了一种方法，可以实时将音频可视化为自然图像，形成描述音频内容的实时视频。它是一种具有自己的吞吐量、抽象度、自动化和可读性的数字手语。图1概述了短0* 相等贡献0音频片段按顺序映射到变形人物的实时视频帧。存在多种音频到视频的翻译方法，每种方法都在应用场景中做出不同的妥协。从口语音频中同步虚拟化身的面部表情[14, 57, 70, 6,46,78]使得聋哑人士可以通过看唇读口语文本。然而，自然的唇部运动是说话的结果，只包含音频内容的一小部分，我们在一项比较人类研究中验证了这一点。语音也可以通过识别系统转换为文字[49]。例如，口语中的“狗”会被翻译为文本“狗”。这是直观的，但这种翻译仍然是间接的，不包含任何男性和女性说话者之间的声音反馈或风格差异[60, 76,50]。此外，无法用单个词或唇部运动表示的环境声音，例如物体掉落的回声或警报器的重复哔哔声，都无法被所有这些现有技术准确表示。传统的聋人语音学习的视觉工具依赖于声谱图表示[16, 72, 71,40]，这种表示是通用的，但会创建人类在周围环境中很少感知到的不自然图像，因此难以理解。为了克服这些限制，我们设计了AudioViewer作为一个低层次的映射，即在声音和音素的层次上，而不是在单词的层次上，这使得它能够立即使用，并且可以在婴儿还没有对单词和语言有理解之前使用。它类似于使用声谱图可视化声音，但包括一个机器学习组件，可以解开因素并通过创建一系列自然图像使可视化更容易理解。创建这样的翻译的困难之处在于没有可以创建音频和视频之间配对标签的规范关联，这对于监督学习是必要的。底层的想法是找到可以作为机器学习损失函数实现的高级约束，并将表示与人类感知对齐。我们从现有的无配对图像翻译技术开始，并为其配备了额外的属性。我们对实现以感知为驱动的翻译的核心贡献是设计了0除了唇部动作外，我们还需要一个非单射的映射，因此不足。22070音频编码器0视觉解码器0字解码0或或0翻译的视频帧（高分辨率面部解码器）0翻译的视频帧（数字解码器）翻译的视频帧（面部解码器）潜在空间轨迹 Mel频谱图音频信号0图1.AudioViewer：这是一个旨在帮助听力受损人士看到他们无法听到的东西的工具。我们将音频流映射到视频，通过面部或数字直观地可视化高维音频特征。与读唇法的原则不同，这可以对一般声音进行编码，并传递有关口语语言风格的信息。0实施和评估以下原则：0•为了保持特征的频率，即将不寻常的声音映射到不寻常的图像，我们利用无监督学习，并利用循环一致性学习了音0• 人类擅长识别他们在环境中看到的模式，特别是面部[1,33, 64, 7,29]。因此，我们分析了到自然图像的映射，包括不同分0•为了将性别和方言等风格与个体音素和声音的内容分离开来，我们利用语音数据集的弱标注来解开内容的纠缠。0•人类能够感知复杂的空间结构，但是快速和非自然（例如闪烁）的变化会导致干扰和疲劳[59]。因此，我们对学习映射施加了平滑性约束。我们通过一个工作原型演示了这种AudioViewer方法的可行性，并通过我们的贡献量化了改进。0•开发从一般声音到视觉的低级映射，以帮助听力障碍人士感知声音；0•引入了一个新的吞吐量指标，作为信息内容丢失的下界；0• 人类研究表明，生成的视频特征可以更好地区分单词和音素；0•第二个人类研究表明，我们的新颖表示中的一组单词可以在仅16次尝试中以87%的成功率学习。与合成的唇部动作和普通的频谱图相比，我们取得了明显的改进，因为部分映射丢失了重要的音频特征，并且内容和风格在这些基线中仍然纠缠在一起。02. 相关工作0在接下来的部分中，我们首先回顾了关于音频和视频生成的文献，特别关注跨模态模型。然后我们将我们的方法与现有的辅助系统放在了背景中。0经典的音频到视频转换。关于音频-视觉学习有大量的文献。我们建议感兴趣的读者参考最近的调查[79]以获得更全面的概述。音频到视频转换方法主要被设计为音频到场景[69, 56,8, 21]，音频到动作[65, 34, 61, 5, 58]和音频到说话面部[14,57, 70, 39, 30, 54, 77, 6, 78,46]。然而，从声音生成的翻译场景图像和身体动作处于较高的抽象层次，例如将单词“狗”映射到狗的图像，但不包含任何声音反馈，阻止人们直接从生成的图像中学习声音。最相关的工作是那些旨在数字配音或将口型与口型表情同步到口语音频的工作[14, 57, 70, 39, 30, 54, 77, 6, 78,46]。与我们的设置相反，这些任务通常是从配对的示例中学习的，即带有音频线的视频，例如一个说话的人，其中唇部动作、表情和面部外观与口语之间的对应关系用于训练声音和嘴巴张开之间的关系。然而，有多个声音与相同的唇部和面部动作相关，还有一些声音根本不相关。相比之下，我们的非配对翻译机制旨在映射整个音频频谱。0音频和视频生成模型。图像生成模型主要依赖于GAN[20]和VAE[38，24]的形式。最高的图像保真度是通过在各个网络阶段注入噪声和潜在代码并改变其特征统计的层次模型来实现的[27，36]。对于音频，只有少数方法在原始波形上操作[32]。更常见的是使用频谱图并应用于受到图像生成方法启发的卷积模型[25，13，2]。我们使用跨模态VAE作为基础，学习重要的音频和图像特征，以及它们的频率。0跨模态潜变量模型。CycleGAN及其变体[80，62]在执行跨模态无监督领域转换方面取得了相当大的成功，用于医学成像[23，67]和音频到视觉翻译[21]，但通常将信息编码为不可见的高频信号。22080对人眼不可见且容易受到对抗性攻击[9]。另一种方法是训练一个VAE，受到循环一致性条件的限制[31，73]，但这些方法仅限于单一模态内的领域转换。最相似的是Tian等人提出的联合音频和视频模型[66]，它使用VAE通过属性的监督对齐来映射两个不兼容的潜在空间。然而，它在单词而不是音素级别上操作，并且没有机制来确保时间平滑性和信息吞吐量。我们的贡献解决了这些缺点。相关地，编码器-解码器和GAN模型已被应用于基于音频数据生成唇部运动的视频重建[10，4，68，77，78，46]，然而，由于音素和视音素之间的映射模糊，唇部运动不是学习声音产生的可靠来源[43，48，3，17]，我们通过评估进一步证实了这一点。0聋人语音支持工具。通过非听觉辅助手段已经实现了对DHH人群的语音产生改进，并且这些改进在学习会话之外持续存在，并扩展到未在会话中遇到的单词[60，76，50]。虽然电生理学[22，37]和触觉学习辅助工具[15]已经证明了改善语音产生的功效，但与视觉辅助工具相比，这些技术可能更具侵入性，特别是对于年幼的儿童。Elssmann等人[16]证明了来自语音光谱显示(SSD)[60]的视觉反馈与来自言语病理学家的反馈在改善语音产生方面同样有效。通过转换后的谱数据生成的替代图形图表已被[72，71，40]研究，旨在通过创建更具有区分性的图表来改进谱图，以反映语音参数。其他方法旨在通过明确估计声道形状[51]来提供反馈。此外，Levis等人[42]证明了通过语音可视化可以区分语篇级语调(对话中的语调)和句子级语调(孤立说话的语调)，并认为通过结合前者可以进一步改进聋人的语音学习。商业上，像IBM的SpeechViewer[28]这样的产品已经面向公众。我们的图像生成方法通过利用VAE的生成能力创建到更自然的视频表示的映射，扩展了这些谱图可视化技术，我们展示了这种方法导致了更好的识别结果。0感觉替代和音频可视化。与我们的工作相关的是感觉替代领域，即通过不同的感觉方式向个体提供来自另一种感觉方式的信息。虽然许多感觉替代方法侧重于将视觉信息替代为触觉或听觉刺激，以帮助视觉康复[45，26，19]，但很少有方法针对替代0将听觉模态与可视化相结合。音乐可视化方法生成歌曲的可视化，使用户可以在不听歌曲的情况下更高效地浏览歌曲[74,63]。在学习方面，[75]通过字体大小可视化语音中每个单词的语调和音量，以实现学习叙述策略。与上述介绍的方法不同，我们的模型尝试使用深度学习模型而不是选择的手工特征来可视化语音和其他音频的音素和声音水平。03. 方法0我们的目标是将音频信号A = (a1, ...,aTA)翻译成视频可视化V = (I1, ..., ITV)，其中ai ∈R是在TA个时间步骤上记录的声波样本，Ii是表示相同内容的图像在TV帧上。在没有配对标签的情况下，无法进行监督训练。相反，我们首先学习没有对应关系的单独音频和视频模型。然后，使用一个无配对的音频到视频翻译网络将它们连接起来，通过循环一致性和其他无监督目标来保持高级属性，如平滑性、规律性和信息损失。图2显示了各个步骤。音频编码器EA(ai)产生音频潜在编码zi ∈ZA，视觉解码器DV(zi)输出相应的图像Ii。当这些步骤按顺序应用时，可以产生音频的视频表示。第3.4节介绍了如何使用翻译网络处理不匹配的潜在空间。音频和视频维度的均衡。一个技术问题在于更高的音频采样频率（16000Hz），这阻止了与25Hz视频的一对一映射。我们遵循常见做法，用mel-scaled频谱图表示声波，M = (m1, ..., mTM)，mi ∈ RF，其中F =80是滤波器组的数量。它是通过短时傅里叶变换计算的，使用25毫秒的汉宁窗口和10毫秒的移位。接下来，我们将解释如何从长度为TM =20（覆盖200毫秒）的重叠段映射到相应的视频帧。03.1. 音频编码0给定无标签的音频和视频序列，我们首先学习声音的独立编码器-解码器对(EA, DA)和视频的独立编码器-解码器对(EV,DV)。我们使用概率VAE，因为它们不仅可以学习潜在结构的紧凑表示，还可以控制潜在分布的形状为标准正态分布。设x为无标签音频集合中的样本。我们使用VAE目标函数[38]对所有样本进行优化：0L(x) = 0+ E qϕ(z|x) � log pθ(x|z) � , (1)0例如，语音视频包含成对的示例，但仅适用于从语音到嘴唇运动的映射，我们证明这是不足够的。pθ(x|z) = N(µ(z), σ (z)I),Lp,MSE = 1NNi (∆ˆzi − ∥ti,1 − ti,2∥)2 ,(4)Lp,log = 1N�Ni (log ∆ˆzi − log ∥ti,1 − ti,2∥)2 ,(5)22090音频器0音频潜在编码音频信号Mel频谱图0音频解码器0Mel重建视觉潜在编码0视觉解码器0图像重建0图像0∆ t ∆ v0翻译0视觉编码器0平滑性0约束0图2. 概述。使用音频和视频VAE学习联合潜在编码，通过翻译网络连接，并通过平滑性约束（∆v注释）和分解训练进行增强。0使用DKL，即Kullback-Leibler散度，qϕ(z|x)和pθ(x|z)分别表示潜在编码和输0qϕ(z|x) = N(ρ(x), ω2(x)I)和(2)0其中 ρ 和 ω 是编码器的输出，µ 和 σ 是解码器的输出。z的维度为256。我们使用了Hsu等人的SpeechVAE模型[25]，该模型在声音生成中被广泛使用。03.2. 音频编码的结构化0内容分离。为了更好地建模语音，我们预计语音的信息内容比环境声音更高，我们通过利用具有电话和说话者注释的数据集来进一步分离风格，例如性别和方言，以及电话中传达的内容。分离遵循已建立的音频模型[55]。在这里，我们通过重新组合的重构损失项L rr来约束分离。详细信息请参见补充文件。除非另有说明，我们仅将音频内容映射到可视化实验中。平滑性。我们希望我们的潜在空间在时间上平滑变化。然而，音频编码器具有较小的时间感受野，编码200毫秒的时间段。这使得后续声音的编码可以编码为远离的潜在代码，导致解码中的快速视觉变化。为了抵消这种情况，我们在随机时间步长 { M i, 1 ,M i, 2 }上的一对mel频谱图段上添加了一个时间平滑性损失，这些时间步长 { t i, 1 , t i, 2 }最多相隔800毫秒。我们测试了两种不同的配对损失函数，以在嵌入内容向量中强制实现时间平滑性。首先，通过使潜在空间中的变化与时间的变化成比例，0∆ˆ z i = s p ∙ ∥ z i, 1 − z i, 2 ∥ 是从 { M i, 1 , M i, 2 }获得的潜在空间中的距离，比例 s p ∈ R是学习得到的用于找到时间和潜在空间维度之间比例的尺度。我们发现在对数尺度上测量距离更有优势，0这减轻了更远编码的权重。我们的最终模型使用了 L p, log我们将此损失添加到VAE目标中，权重为 λ p = 10 3 。03.3. 图像自编码器用于视频生成0我们尝试了三种不同的视频模型，从低分辨率到逼真的图像生成：线性PCA空间，图像DFC-VAE模型[24]和图像Soft-IntroVAE模型[12]。我们使用预训练模型，这些模型是在图像集合上训练的。首先，通过按顺序编码音频片段并连接两个具有匹配潜在维度和相同先验分布 p ( z )的VAE的音频编码器和视频解码器，实现了简单的非配对翻译来生成输出视频的帧。03.4. 链接音频和视觉空间0我们的一个关键贡献是在没有配对示例的情况下有意义地链接音频和视频领域。前一节中解释的简单连接导致质量较低的结果，因为潜在空间的平滑性不一定导致输出视频的平滑性，潜在维度通常不匹配，并且两个编码器仅是对真实分布的近似。当潜在空间具有相同的维度时，即使用[24]作为视觉模型时，我们利用共享潜在空间并调整视频模型的权重以弥合结构差异。对于[12]，其具有较大的潜在空间并且训练成本较高，我们使用了预训练模型。为了仍然链接音频和视频潜在空间，我们引入了一个翻译网络 T，将输入音频片段的潜在代码 z 映射到视觉潜在变量 T ( z )。图3可视化了这种映射以及视觉解码器 D V 如何解码 T ( z) 生成输出图像 I。由于我们的设置是非配对的，我们必须使用自监督损失来对辅助任务的高级约束进行建模，而不是使用监督学习。我们按照基本到更复杂的顺序解释它们。首先，为了成为一个合适的映射，T ( z )的范围应该在视频解码器的域内。由于视觉潜在空间满足标准的高斯分布，我们最小化其负值𝑇(𝐳1）𝑇(𝐳2）𝐳1′𝐳2′𝐳1𝐳2(8)(9)22100音频编码器0音频潜在编码音频信号梅尔频谱图视觉重构0视觉编码器0视觉解码器0视觉潜在编码0循环约束0翻译T0图3. 循环约束。我们应用循环约束来确保信号在视频解码和编码过程中保持不变。0对数似然，0Lreg = λreg ∥T(z)∥2, (6)0其中λreg =1.0。其次，我们通过循环一致性损失最小化信息损失的下界，0Lcycle = λcycle ∥EV(DV(T(z))) - T(z)∥, (7)0它衡量了T(z)与通过视觉编码器EV重构生成图像I的编码之间的差异，并且由λcycle =1.0加权。同时，与第3.2节一致，生成图像的变化应该是平滑的。我们通过额外的时间平滑性损失来确保这一点。0Lsmooth =λsmooth 1 N0i（log( ∥(Ii,1 - Ii,2)∥0ssmooth） - log ∥ti,1 -0应用于生成图像的每个像素。为了进一步促进我们的多阶段架构的训练，我们还对潜在空间施加了保持距离的损失，0Liso = λiso1 N0i（log ∥T(zi,1) - T(zi,2)∥0- log( ∥(zi,1 - zi,2)∥ siso))2.0与第3.2节相同，我们使用随机时间步长{ti,1,ti,2}输入梅尔频谱图段对，其中i表示第i对输入。并且λiso =1.0，siso = 5.0，λsmooth = 5.0和ssmooth =0.001。方程8和方程9都有助于保持潜在空间之间的特征距离，防止由方程7引起的翻译网络T可能出现的退化解。请注意，这些自监督损失都不需要注释。因此，它适用于环境声音，并且只要有音频记录可用，就可以轻松进行任何语言或方言的微调。为了测量使用T和[12]时整个系统的吞吐量，我们训练了一个反向翻译网络T†来重构输入音频，使用0Lback = ∥DA(T†(EV(DV(T(EA(ai)))))) - ai∥2. (10)0这种反向映射训练仅用于评估吞吐量。04. 实验0我们定性和定量地展示了AudioViewer通过肖像或数字的可视化传达了重要的音频特征，它适用于语音和环境声音，优于现有的基线方法，并且无法通过映射到嘴唇运动来解决该任务[78]。补充文件提供了额外的结果，包括示例视频和人类研究细节。定量指标。我们通过欧几里得距离比较潜在嵌入，用信噪比（SNR）量化梅尔频谱图的差异，并将平滑度定义为潜在空间位置随时间的变化。感知研究。我们进行了两项人类研究来分析人类感知翻译音频的能力。由于感知结果可能是主观的，我们报告了对于每种研究方法的可区分性研究和可学习性研究分别由10-22名参与者回答的29个问题的统计数据，以及可学习性研究由9名参与者回答的问题。详细信息请参阅补充文件。基线方法。我们将其与最直接的语音到视频转换进行比较，即i）使用最近的MakeItTalk方法将其映射到嘴唇和面部运动[78]，以及ii）与当前辅助系统中使用的频谱图可视化进行比较。为了证明简单的方法是不够的，我们还尝试了我们方法的简化变体和主成分分析（PCA）作为进一步的基线。PCA产生一个投影矩阵W，通过将训练样本ui旋转为zi = Wui以获得最大方差。我们使用降维的PCA版本，其中W映射到一个d维空间。另一个重要因素是视频领域的影响，我们比较了相同分辨率下的数字与人脸以及低分辨率与高分辨率的人脸。此外，我们还消除了第3.2节和第3.4节中引入的潜在空间先验和训练策略以及禁用样式-内容分离的影响。数据集。我们使用TIMIT数据集[18]来学习语音嵌入。它包含5.4小时的音频录音（16位，16kHz），以及针对美国英语八个主要方言的630名发言人的时间对齐的正字法、音标和单词转录，每个发言人读十个音标丰富的句子。我们使用训练集（462/50/24不重叠的22110KALDI工具包的说话人识别（speakeridentification）模型[53]。语音标注仅在音频编码器训练时使用，并作为人类研究的基本事实。此外，我们报告了一个在ESC-50数据集[52]上训练的语音模型在环境声音上的泛化能力。为了测试哪种可视化对人类来说最容易感知到翻译后的音频，我们在三个图像数据集上训练和测试我们的模型：人脸属性数据集CelebA-HQ[35]（分别用于训练/验证的图像数量为29000/1000）和CelebA[44]（分别用于训练/验证的图像数量为162770/19962），以及MNIST[41]数据集（分别用于训练/验证的图像数量为60000/10000）。除非另有说明，所有显示的结果都是使用高分辨率[12]解码器得到的。运行时间。补充视频中包含了一个实时演示。使用[24]的AudioViewer具备实时能力，每帧的推理时间为5毫秒（低分辨率模型）/7.6毫秒（高分辨率模型），在一台3.60GHz的i7-9700KF CPU上，配备一块NVIDIA GeForce RTX2080 Ti。04.1. 视觉质量和语音学0有意义的音频翻译应该用相似的视觉呈现相似的声音。图5描述了在一个发音单词的前200毫秒内这种相似性和差异性，因为这些可以用一个视频帧来可视化。该图将内容编码与MNIST和人脸进行了比较，这两者都非常适合区分声音。相同的单词（列）在不同说话者（F#:女性，M#:男性；#为说话者ID）和方言（D#）之间具有高度的视觉相似性，而以不同音素开头的单词在视觉上是不同的。整个单词的多个帧在图6中显示。尽管完全训练于语音，我们的声音级别公式使得AudioViewer也能够可视化环境声音。图4展示了鸟叫声和闹钟声的两个例子。补充材料中还包含了其他例子。我们将AudioViewer与最相关的方法进行了比较，包括唇部同步方法[78]和当前辅助系统中使用的mel频谱图可视化，以及更简单的基线方法。这项研究首次测试了在不需要耗时的训练期间可以区分可视化的能力。这使我们能够向60名参与者提出29个问题，并涵盖34个不同的单词和音素，从而展示了其普遍性。0clock_alarm0chirping_birds0图4。环境声音可视化。尽管没有针对此进行训练，我们的方法也可以可视化自然声音。这里展示了鸟叫声和闹钟之间的明显区别。0图5。音素相似性。不同单词的第一个音素是有区别的（列），而说话者的影响较小（行）。这在图像领域中是一致的（从上到下：CelebA高分辨率，CelebA低分辨率和MNIST）。0图6。单词分析。相同单词的实例（不同行）由相似的视频序列（单行）编码，即使由不同的说话者说出。0Zhou等人[74] 我们的0“来自”0“甚至”0图7。与[78]的唇同步比较。尽管唇部同步看起来非常相似，但这两个单词在AudioViewer的可视化中可以清楚地区分开来。4.3. Human Study II - Learning SoundsIn this second study we analyze learnability of our bestmodel, determined in Study I and the ablation study, com-pared to using the best baseline, the mel spectogram (MEL).Four words were selected that include pairs that sound simi-Table 1. User Study I results. User answer accuracy in percent(± standard error) for distinguishing between visualizations ofdifferent sounds, broken down by question type and phone-pairsvs. words.DatasetMELZhou [78]MNISTCelebACelebAResolution(spectrum)(high-res)(low-res)(low-res)(high-res)Matching65.5 ± 1.265.6 ± 3.677.4 ± 2.884.5 ± 3.787.9 ± 2.2Grouping66.5 ± 2.139.5 ± 3.980.8 ± 2.285.2 ± 2.485.7 ± 1.8Phones76.5 ± 1.969.5 ± 5.291.8 ± 2.585.7 ± 3.087.0 ± 2.5Words60.0 ± 2.239.4 ± 2.973.8 ± 1.984.5 ± 2.386.0 ± 1.5Overall66.2 ± 1.347.7 ± 2.779.7 ± 1.785.0 ± 1.886.4 ± 1.4Figure 8. User Study II results. Subjects learn over time to distin-guish words. The learning speed and accuracy of our model (green)outperform the baseline (red). Accuracy is plotted as the movingaverage of the success rate over trials.Table 2. Throughput Analysis. The throughput estimated fromaudio to video shows that the cycle consistency improves greatlywhile additional constraints Lp,log, and Lrr incur only a smalldip for improving smoothness. dim indicates the dimension ofthe audio latent space. Results are consistent over different models.Audio modelsVisual modelsSNR(dB)Audio PCAVisual PCA23.37SpeechVAE [25]DFC-VAE on CelebA1.65DFC-VAE on MNIST2.01DFC-VAE on CelebA (refined w/ Lcycle)4.43DFC-VAE on MNIST (refiend w/ Lcycle)0.78SpeechVAE w/ Lp,log,Lrr, dim=256DFC-VAE on CelebA0.84DFC-VAE on MNIST0.81DFC-VAE on CelebA (refined w/ Lcycle)4.16DFC-VAE on MNIST (refiend w/ Lcycle)3.68Soft-Intro VAE on CelebA_HR (refined w/ Lcycle)2.01Audio encoderVisual decoderAudio decoderVisual encoderInput Mel spectrogramReconstructed Mel spectrogramCorresponding synthesized imagesTranslation TTranslation T†Figure 9. Throughput. A visualization of the lower bound on the in-formation throughput when mapping from audio to video and back.lar (that, there) and pairs that have the same length (potatoes,shellfish). They are spoken 4 times by different speakerswith varying dialects and the same gender. During the studyone word is visualized at a time. The participant is taskedto select the corresponding word. After each selection, thecorrect answer is given as feedback to enable learning.Fig. 8 shows the average learning curves of nine partici-pants that performed the same study for AudioViewer (green)and MEL (red). The curves reflect how the participants learnto recognize the same sound spoken by different people overtime. The comparison shows that our method performs betterthan MEL in both learning speed and final accuracy for all oftested words (the shaded area is the standard error). The finalaccuracy after 16 rounds of learning is Ours 87.0% vs. MEL57.8%, which reflects the learnability of our results. Addi-tional details are included in the supplemental document.4.4. Ablation StudyInformation Throughput.It is difficult to quantify the in-formation throughput from audio to video as no ground truth221204.2. 人类研究I - 区分声音0识别和区分声音。我们的人类研究分析了区分不同声音可视化的能力，类似于图5中展示的声音可视化，并将结果显示在表1中。总体而言，用户能够以86.4%的准确率正确识别相同声音的可视化，对于高分辨率CelebA内容模型和低分辨率CelebA和MNIST内容模型，准确率分别为85.0%和79.7%。根据任务划分，CelebA模型的用户在正确匹配两个可视化与参考之间的准确率方面达到了87.9%（随机猜测准确率为50%），而在将四个可视化分组成一对的任务中，用户的准确率达到了85.7%（随机猜测准确率为33.3%）。与MEL的准确率相比，我们模型的准确率要低得多，这表明mel频谱图中的模式比我们的学习模型生成的特征更难以区分。与Zhou等人的唇同步[78]相比，AudioViewer使用户能够更好地区分声音。这是因为不同音素（例如“d”，“t”和“n”）的唇部运动几乎相同，使它们无法区分。图7展示了这样一个例子，两个单词在唇部运动上看起来相似，但在AudioViewer的可视化中可以清楚地区分开来。潜在空间解缠。使用我们的完整模型将风格和内容部分分开进行可视化显著提高了识别准确率。解缠的人脸模型将区分不同性别的说话者的准确率从43.3%±2.6%提高到78.0%±2.9%，将区分不同方言的说话者的准确率从39.6%±7.2%提高到56.7%±5.7%，其中±表示标准误差。在实践中，AudioViewer因此应该使用完整模型，并将分开的视觉解码并排显示，或者可以在内容和风格可视化之间切换。整个研究报告在补充文件中。is available in our setting. We propose to use the learnedencoder and decoder to map from audio to video and back.The distance of the starting point to the reconstructed audiogives a lower bound on the loss of information, akin to Cy-cleGAN. Fig. 9 gives an example and Table 2 summarizesrelations quantitatively. The difference can also be analyzedqualitatively by listening and comparing the original andreconstructed audio samples, which are still recognizable forour full model. We found this throughput an important mea-sure that correlated with performance in the human studiesand enabled us to tune hyperparameters without performingan expensive study for each configuration. Note that the in-formation throughput rivals other constraints such as smooth-ness. The goal is therefore to strike the best compromise. Forinstance, PCA attains the highest reconstruction accuracybut has poor smoothness (Table 3) and does not strike alongthe other dimensions. The disentangled space (lower half ofTable 2) has a relatively low effect on the SNR, a reductionfrom 4.43 to 4.16, while providing improved interpretability.MNIST proved less stable to train and does not fair wellwith the cycle loss, perhaps due to a lower dimensionalitythat mismatches with the higher-dimensional audio encod-ing. The high-res CelebA model yields a lower SNR, likelybecause information is lost in the deeper network and thesmoothness loss affects high-frequency details differently.Temporal Smoothness Effectiveness. Mapping from audioto video with VAEs without constraints and PCA leads tochoppy results. Table 3 shows that this corresponds to meanlatent space velocities above 300 s−1. It shows that the testedsimpler solutions are insufficient. We visualize the gainin smoothness in Fig. 10 by plotting the high-d

下载后可阅读完整内容，剩余1页未读，立即下载