音频辅助的极端人脸超分辨率恢复

34 浏览量更新于2023-10-23 收藏 14.91MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13640学习对面部超分辨率有所了解0Givi Meishvili Simon Jenni Paolo Favaro瑞士伯尔尼大学0{givi.meishvili, simon.jenni, paolo.favaro}@inf.unibe.ch0摘要0我们提出了一种新方法，使用音频和低分辨率图像来进行极端人脸超分辨率（输入尺寸增加16倍）。当输入图像的分辨率非常低（例如8×8像素）时，信息的丢失非常严重，原始身份的重要细节已经丢失，音频可以帮助恢复一个合理的高分辨率图像。实际上，音频携带有关面部属性的信息，如性别和年龄。为了结合听觉和视觉模态，我们提出了一种方法，首先从单独的音轨中构建面部的潜在表示，然后从单独的低分辨率图像中构建。然后，我们训练一个网络来融合这两个表示。我们通过实验证明，音频可以帮助恢复性别、年龄和身份等属性，从而提高高分辨率图像重建过程的正确性。我们的方法不使用人工注释，因此可以很容易地使用现有的视频数据集进行训练。此外，我们还展示了我们的模型构建了图像和音频的分解表示，因为它允许混合来自不同视频的低分辨率图像和音频，并生成具有语义上有意义的组合的逼真面孔。01. 引言0图像超分辨率是恢复具有有限分辨率的图像的细节的任务。通常，输入图像的分辨率通过缩放因子增加4倍到8倍。在更极端的情况下，缩放因子为16倍或更高，细节的丢失可能如此大，以至于重要的语义信息丢失。例如，对于8×8像素分辨率的人脸图像，原始人物身份的信息已经无法辨别。在这样低分辨率的图像中仍然可用的信息可能是面部和背景的视点和颜色。虽然可以从这样有限的信息中产生合理的高分辨率图像，但有用的属性，如身份，甚至只是性别或0（a）（b）（c）（d）（e）（f）图1：音频帮助图像超分辨率。（a）和（b）是真实图像和16×下采样图像；（c）是Huang等人的SotA超分辨率方法的结果；（d）是我们仅使用低分辨率图像的超分辨率结果；（e）是仅使用音频的超分辨率结果；（f）是低分辨率图像和音频的融合。在这些情况下，所有方法都无法在没有音频的情况下恢复正确的性别。0年龄可能不正确（参见图1（a）-（d））。如果从视频中提取出一个人的低分辨率面部图像，我们也可以访问该人的音频。尽管听觉和视觉信号的性质非常不同，但它们都捕捉到一个人的一些共享属性，特别是她的身份。实际上，当我们听到一个标志性演员的声音时，我们经常能在脑海中想象出他或她的脸。[32]最近还表明，机器也可以学习这种能力。恢复完整身份的可能性通常仅限于一组已知的人（例如名人）。然而，即使一个人的身份完全是新的，她的声音也能指示重要的面部属性，如性别、年龄和种族。如果这些信息在视觉数据中不存在（例如低分辨率图像），音频可以对图像处理，特别是图像超分辨率（参见图1（e）-（f））有所帮助。例如，在像图2中显示的通过像素化隐藏说话者身份的视频中，音频可以用来恢复比单独的低分辨率图像更合理的面部。因此，我们建议通过利用低分辨率图像及其音频来构建人脸超分辨率模型。据我们所知，这在以前从未被探索过。解决这个任务的一种自然方法是构建一个多模态网络，其中包括两个编码网络，一个用于13650低分辨率感兴趣区域（例如，由于像素化）0音频轨道0超分辨率感兴趣区域（例如，去像素化）0图像-音频融合0图2：像素化用于隐藏一个人的身份（左）。然而，音频可以帮助恢复一个超分辨率的合理的面孔（右）。0低分辨率图像和音频各自有一个编码器，解码网络将编码器的输出连接映射到高分辨率图像。理论上，多模态网络应该优于单模态网络。然而，在实践中，标准网络和训练策略并不能实现这一点，正如[46]所经验性地展示的那样。根据[46]，性能差距是由以下原因造成的：1）模态之间在收敛和过拟合速度方面的差异，2）多模态架构对过拟合的敏感性由于其较高的容量。为了解决多模态网络的上述训练问题，我们建议分别训练低分辨率图像编码器和音频编码器，以使它们的解缠精度相等。为此，我们首先训练一个生成器，该生成器从高斯潜在空间开始并输出高分辨率图像（参见图3）。生成器的训练方式与[24]的最新StyleGAN相同，它产生非常高质量的样本和具有有用的分层结构的潜在空间。然后，我们训练一个参考编码器，通过使用自编码约束来反转生成器。参考编码器将高分辨率图像映射到生成器的潜在空间，然后生成输入图像的近似。然后，给定匹配的高/低分辨率图像对，我们预先训练一个低分辨率图像编码器，将其输入映射到参考编码器的相同潜在表示（在高分辨率图像上）。作为第二步，我们训练一个音频编码器和一个融合网络，以改进（固定的）低分辨率图像编码器的潜在表示。为了加快音频编码器的训练速度，我们还通过使用参考编码器在高分辨率图像及其水平镜像版本上的输出的平均值作为潜在表示进行预训练。由于通过StyleGAN学习的潜在空间的分层结构，这种平均化去除了音频不可能携带的信息，例如视点。在第3节中，我们详细描述了上述每个模型的训练过程。最后，在第4节中，我们通过实验证明了所提出的架构成功地融合了听觉和视觉数据。我们展示了融合后的高分辨率图像在身份、性别和年龄属性方面比仅基于低分辨率图像的重建更准确。我们还通过混合来自不同视频的低分辨率图像和音频（参见图3（b）中的示例），展示了融合的语义意义。贡献：我们的方法为以下映射构建了三个模型：1）音频到高分辨率图像；2）低分辨率图像到高分辨率图像；3）音频和低分辨率图像到高分辨率图像。第一个映射与Speech2Face[32]同时开发。一个显著的区别是Speech2Face在训练时使用了一个预训练的人脸识别网络作为额外的监督，而我们的方法是完全无监督的。在第二个映射中，我们在实验部分展示了我们在16倍放大方面达到了最先进的性能。在最后一个映射中，这是本文的主要创新，我们展示了我们训练的模型能够从音频和低分辨率图像中转移和组合面部属性。10和训练过程成功地融合了听觉和视觉数据。我们展示了融合后的高分辨率图像在身份、性别和年龄属性方面比仅基于低分辨率图像的重建更准确。我们还通过混合来自不同视频的低分辨率图像和音频（参见图3（b）中的示例），展示了融合的语义意义。贡献：我们的方法为以下映射构建了三个模型：1）音频到高分辨率图像；2）低分辨率图像到高分辨率图像；3）音频和低分辨率图像到高分辨率图像。第一个映射与Speech2Face[32]同时开发。一个显著的区别是Speech2Face在训练时使用了一个预训练的人脸识别网络作为额外的监督，而我们的方法是完全无监督的。在第二个映射中，我们在实验部分展示了我们在16倍放大方面达到了最先进的性能。在最后一个映射中，这是本文的主要创新，我们展示了我们训练的模型能够从音频和低分辨率图像中转移和组合面部属性。102. 相关工作0通用超分辨率。单图像超分辨率（SISR）是一个非常活跃的研究领域，它在很大程度上受益于深度学习的最新发展（参见，例如[20, 19, 61, 12,25]）。已经解决了这个问题的一系列实例，从任意尺度因子[21]到通过准确建模改善训练集的真实性[48,6]或使用真实的放大图像[7,58]，到对抗性攻击[9]和泛化[63]的鲁棒性，以及建模多个退化[56, 16, 58]。最后，[37,40]专注于SISR中图像质量的评估。通用超分辨率的进展也在很大程度上受到任务特定网络架构和组件的引入的推动（参见，例如[60, 29, 1, 43, 59, 23, 47, 18, 17, 27, 30, 45,11, 50, 36, 54,31]）。在我们的方法中，我们不依赖于任务特定的架构，尽管我们利用了最先进的生成模型[24]的设计。面部超分辨率。面部超分辨率问题已经用各种方法解决。例如，Huang等人[22]训练了一个CNN来回归HR面部的小波系数，Yu等人[53]引入了一个变换性的判别自编码器来超分辨率不对齐和噪声LR面部图像。更一般地说，最近的方法通过使用额外的监督，例如面部特征点、热图或身份标签，以及多任务学习（例如[4, 51, 8, 55,52]）来解决这个问题。相比之下，我们的方法通过使用具有相应音频轨道的视频来解决这个问题，而不依赖于额外的监督。0我们的代码和预训练模型可在https://gmeishvili.github.io/ear for facesuper resolution/index.html获取。13660G0E l0低分辨率图像0E a F0音频轨道0高分辨率图像（匹配）0E a F0G0（a）0（b）0音频轨道0高分辨率图像（混合）0高分辨率图像（真实值）0图3：所提出模型的简化训练和操作方案。模型可以使用（a）匹配输入或（b）将来自其他视频的低分辨率图像与音频混合。低分辨率图像（8×8像素）被输入到低分辨率编码器 E l 中以获得中间潜在表示。通过在网络 F中融合编码的音频轨道（通过音频编码器 E a）和编码的低分辨率图像，计算出一个残差。该残差用于更新低分辨率图像的潜在表示，然后通过生成器 G产生高分辨率图像。右侧的图像是我们训练模型的实际输出。0对于额外的人工注释，它的训练可以更容易地扩展到大型数据集。基于GAN的超分辨率。许多通用的超分辨率方法也使用对抗训练（参见，例如[28, 34, 5,57]）。基于生成对抗网络（GANs）[15]的几种超分辨率方法专门针对人脸[4, 8, 52,49]。我们的工作也依赖于使用GAN来学习人脸的特定先验知识。然而，我们的方法构建了一个更通用的生成网络，结合了低分辨率图像和音频（见图3）。在视觉任务中使用音频。最近，音频与视频的结合引起了很多关注（参见，例如[41,64]）。音频和视频已经被结合起来学习定位对象或事件[2,44]，学习如何分离音频源[33, 62, 14,13]，学习声音与物体几何和材料之间的关联[42]，以及预测身体动力学[39]。还有大量的工作致力于将音频映射到视觉信息（参见，例如[32]和其中的参考文献）。然而，据我们所知，我们是第一个将音频和图像结合用于图像恢复任务的研究。03. 带音频的极端人脸超分辨率0我们的目标是设计一个能够根据（非常）低分辨率的输入图像和附加的音频信号生成高分辨率图像的模型。因此，数据集由 D = � ( x h i , x l i , a i ) | i = 1 , . . . , n � 组成，其中 x hi 是0高分辨率图像，x l i 是低分辨率图像，a i是相应的音频信号。我们的模型由几个组件组成：低分辨率编码器 E l ，音频编码器 E a ，融合网络 F 和人脸生成器 G。完整架构的概述如图3所示。03.1. 结合听觉和视觉信号0正如在引言中提到的，解决我们的任务的自然选择是训练一个前馈网络，通过其低分辨率图像和音频信号来匹配真实高分辨率图像。实验上，我们发现这样的系统往往会忽略音频信号，并产生从低分辨率到单个高分辨率图像的一对一映射。我们认为这个问题是由于听觉和视觉信号的不同性质以及潜在空间结构的选择所导致的。融合两个信号需要通过编码器将它们的信息映射到一个共同的潜在空间。然而，我们实验上发现音频信号需要更长的处理时间和更多的网络容量来适应潜在空间（这也在[46]中观察到）。这种拟合也可以通过潜在空间的结构加剧，这可能更偏向于图像而不是音频。理想情况下，低分辨率图像应该只是条件前馈网络产生最可能的对应高分辨率输出，而音频信号应该引入一些局部变化（即修改输出的性别或年龄）。因此，为了使融合有效，Lpre-train =n�i=1��G(zi) − xhi��1 + λfℓfeat�G(zi), xhi�, (1)minEh,GLpre-train + λt |Ginit − G|22 ,(2)13670如果音频能够对低分辨率图像的某个固定中间表示产生作用，其中音频中存在的面部属性被分离开来，那将非常有用。出于这些原因，我们选择预训练和固定 StyleGAN [24]的生成器，然后使用生成器作为解码器网络，通过训练编码器对输入进行自动编码。已经证明，StyleGAN生成器能够产生逼真的高分辨率图像，并在中间表示中对一些有意义的变化因素进行良好的解耦。这样的模型应该作为生成高分辨率人脸图像的良好先验，并且解耦的中间表示应该允许基于音频信号进行更好的编辑。形式上，我们通过优化 StyleGAN的默认非饱和损失（详见[24]）来学习人脸图像的生成模型G ( z ) ，其中 z � N (0 , I d ) 。03.2. 反转生成器0我们的目标是，低分辨率图像和音频轨道提供的信息融合结果接近相应的高分辨率图像。我们将这个任务定义为将图像x 映射到其潜在空间目标 z ，使得 G ( z ) = x。换句话说，我们需要反转预训练的生成器 G。最近，这个问题引起了研究界的关注[3]。在本文中，我们提出了一种新颖的 GAN反转方法，首先在生成器固定的情况下预训练编码器 E h，然后通过自动编码约束和通过 L 2 损失将 G的权重锚定到其初始值来同时训练编码器 E h 和生成器 G（微调）。然后，图像 x i 对应的潜在表示 z i 可以由编码器E h生成，并且作为低分辨率图像和音频的编码器以及融合网络的目标使用。编码器预训练。首先，我们通过最小化损失函数进行高分辨率图像编码器的训练。0只与 E h 相关，其中 z i = E h ( x h i ) ，ℓ feat是基于VGG特征的感知损失（更多细节请参见补充材料），λ f = 1 是一个调节 ℓ feat 相对于 L 1损失重要性的系数。我们发现，回归单个 z i 不能恢复 x h i的良好近似。在原始的风格生成器[24]中，每个 z i被映射到一个向量 w i ，然后复制并插入到生成器的 k个不同层中（每个层对应不同的图像尺度）。为了改善高分辨率重建，我们改为生成 k 个不同的 z ij ，j = 1 , . . . , k，并将得到的 w ij 馈送到生成器的相应层。因此，E h的输出位于 R k × d中。注意，这与之前的方法并不完全相同。0图4：生成器反转的示例。顶部行：自动编码器的输入图像。底部行：使用固定的预训练生成器的自动编码结果（参见公式（1））。中间行：使用我们的微调生成器的自动编码结果（参见公式（2））。0从风格生成器的训练中，不同图像的 w - s在不同尺度上被随机混合。0编码器和生成器的微调。这个第二个优化问题可以写成0其中 λ t = 1 是一个调节 G 可以更新的系数，G init 表示StyleGAN训练后的权重。此外，在训练过程中，我们通过将 λ t减小一半来放宽对 G权重的正则化器，一旦整体损失最小化（局部）。预训练和正则化器衰减过程的目的是在不过早丢失 G的潜在表示结构的情况下，促进编码器和解码器的逐渐收敛。图4显示了微调前后的反转结果的可见改善。无论是面部还是背景的重建准确性都有明显提高。实验部分展示了定量结果。03.3. 预训练低分辨率和音频编码器0给定高分辨率图像编码器，我们现在有了低分辨率和音频融合的目标zi。然而，直接在这些目标上训练融合模型F(x l i , ai)存在一些困难。如前所述，我们实验发现，给定足够的容量，训练预测z i = E h (x h i)的融合模型F(x l i , a i)几乎完全忽略音频信号ai。为了解决这种退化行为，我们分别训练两个编码器E l和Ea，以从两种模态中提取尽可能多的信息。为了确保两个编码器都不能过度拟合整个训练集D，我们提取子集D pre = {(x h i, x l i, a i) | i = 1, ...,n/2}进行编码器的预训练，并将整个D用于后续的融合训练。低分辨率编码器E l通过求解以下回归问题来从x l i回归高分辨率编码z i = E h (x hi)：(null)(null)(null)(null)(null)(null)(null)(null)(null)(null)(null)(null)(null)(null)(null)(null)(null)(null)(null)(null)(null)(null)(null)(null)sible and only later fuse them. To ensure that neither of thetwo encoders can overﬁt the whole training set D we extractthe subset Dpre =�(xhi , xli, ai) | i = 1, . . . , n/2�for theencoders pre-training and use the entire D only for the laterfusion training. The low-resolution encoder El is trained toregress the high-resolution encodings zi = Eh(xhi ) from xliby solvingminElxli,xi ∈Dpre��El�xli�− zi��1 + λ��D ◦ G�El�xli��− xli��1 ,(3)where D ◦ x is the 16× downsampling of x and λ = 40.In the case of the audio encoding, regressing all the in-formation in zi with Ea(ai) is not possible without over-ﬁtting, as many of the factors of variation in zi, e.g., thepose of the face, are not present in ai. To remove the posefrom zi we generate the targets for the audio encoder as¯zi.=12�Eh(xhi ) + Eh(ˆxhi )�, where ˆxhi is a horizontallyﬂipped version of the image xhi . As it turns out, due tothe disentangled representations of G, the reconstructionG(¯zi) produces a neutral frontal facing version of G(zi)(see Fig. 5). The audio encoder Ea is ﬁnally trained bysolvingminEaai,xi ∈Dpre|Ea(ai) − ¯zi|1 .(4)We now want to fuse the information provided by thepre-trained encoders El and Ea. Since the low-resolutionencoder El already provides a good approximation to Eh,it is reasonable to use it as a starting point for the ﬁnalprediction. Conceptually, we can think of El as provid-ing a zli = El(xli) that results in a canonical face G(zli)corresponding to the low-resolution image xli. Ambigui-ties in zli could then possibly be resolved via the use ofaudio, which would provide an estimate of the residual∆zi = zi − zli. We therefore model the fusion mechanismas zfi = El(xli) + F�El(xli), Ea(ai)�, where F is a sim-ple fully-connected network acting on the concatenation ofEl(xli) and Ea(ai). Since the audio-encoding Ea might besuboptimal for the fusion, we continue training it along withF. The limited complexity of the function F prevents theoverﬁtting to the low-resolution encoding, but provides thenecessary context for the computation of ∆zi. To summa-rize, we train the fusion by optimizing�zfi − zi��1 + λ��D ◦ G�zfi�− xli��1 .(5)13680E h0E h0z hi0ˆ zh i0( z h i + ¯ z h i ) /20G0图5：我们如何计算音频编码器预训练的目标的示例。我们通过高分辨率训练图像及其水平翻转版本将其输入高分辨率编码器。然后对得到的潜在编码进行平均并用作目标。由于StyleGAN潜在空间的分层结构，平均潜在编码会产生一个中性正面姿势的人脸。0�0�03.4. 融合音频和低分辨率编码0图6：我们的消融实验的一些重建示例。在（a）中显示了8×8像素的低分辨率输入图像，列（f）中显示了相应的128×128像素的真实图像。在中间，我们展示了来自高分辨率编码器E h （b），低分辨率编码器E l （c），音频编码器E a（d）以及我们的融合模型F与经过微调的E a（e）的编码结果。显然，我们对音频和低分辨率图像的整合受到了高分辨率图像编码器准确性的限制（例如，将（b）与（e）和（f）在第三行进行比较）。0最小 Ea ,F0�0a i ,x h i ,x l i ∈D04. 实验0我们通过评估具有不同输入-输出映射的三个模型来展示我们的贡献：1）音频到高分辨率图像；2）低分辨率图像到高分辨率图像；3）音频和低分辨率图像到高分辨率图像。特别是，我们将重点放在第三种情况上，因为这是本文的主要目标。04.1. 数据集0我们在Vox-Celeb2数据集的一个子集上进行所有实验[10]。该数据集包含从145K个人说话的视频中提取的一百多万个音频轨道。对于完整的训练集D，我们选择了104K个视频13690图7：为了定性地展示我们的音频到图像模型 E a + G的能力，我们从 https://speech2face.github.io/supplemental/retrieve/index.html中选择了几个音频轨道和Oh等人生成的相应人脸。每列中的图像都是从相同的音频源生成的。Oh等人的结果显示在第一行，我们的结果显示在第二行。0，其中包含545K个音频轨道，并提取了大约2M个128×128像素的帧，以使每个说话者至少有500个相关帧。然后，我们提取这个数据集的一半来创建 D pre，使得 D pre 和 D包含相同的说话者，但 D pre的视频数量较少。对于测试集，我们从不在训练集中的25K个视频中选择了39K个帧和37K个话语（同样来自相同的说话者）。最后，我们从完整数据集中选择了约4K个说话者（过滤掉视频和音频轨道很少的说话者）。请注意，这个选择纯粹是为了通过说话者身份分类器进行评估。当训练集和测试集共享相同的人脸身份时，我们称之为“封闭集”实验；而当测试集中存在训练集中没有的身份时，我们称之为“开放集”实验。04.2. 实现0风格生成器 G 在完整训练集 D上进行了预训练，所有超参数都设置为默认值（详见[24]）。它总共训练了3100万张图像。高分辨率编码器 E h 在 D的128×128图像上进行了715K次迭代训练，批量大小为128。低分辨率编码器 E l 和音频编码器 E a 在 D pre上进行了训练。E l进行了240K次迭代训练，批量大小为256；E a进行了200K次迭代训练，批量大小为64。E l 的输入 x l i的尺寸为8×8像素，E a的输入为尺寸为257×257的音频对数谱图。E a的微调和融合层 F 的训练在 D上进行了420K次迭代。我们使用Adam优化器[26]进行训练，学习率固定为10^-4。网络架构的详细描述可以在补充材料中找到。0表1：我们的消融实验结果。我们报告了生成的高分辨率图像上身份分类器 C i、性别分类器 C g的准确率以及年龄分类器 C a的误差。所有模型（c）-（h）都是使用微调的生成器 G进行训练的。0封闭集开放集减薪准确率 C i 准确率 C g 误差 C a 准确率 C i 准确率 C g 误差 C a0（a）E h + 固定 G 34.31% 95.60% 3.59 29.42% 92.65% 3.28（b）E h+ 调整 G 71.62% 98.20% 2.85 64.95% 95.14% 2.740（c）仅 E l 36.47% 95.51% 3.62 15.55% 91.08% 3.76（d）仅 E a26.06% 97.07% 4.29 0.20% 96.38% 4.85（e）F1 + 调整 E a 35.91%95.88% 3.56 15.03% 91.75% 3.64（f）F + 零 E a 36.95% 95.53% 3.6015.38% 90.89% 3.73（g）F + 固定 E a 48.43% 97.17% 3.46 14.57%92.86% 3.74（h）F + 调整 E a 51.65% 97.32% 3.31 15.67% 93.11%3.680在训练 F的过程中，我们从同一短视频中独立采样一个帧和一个音频片段（4秒），它们不是同步的（即它们的时间不一致）。这迫使网络学习更一般的属性，如性别和年龄，而不是特定时间点的特征。04.3. 仅音频到高分辨率面部0尽管我们的主要目标是通过低分辨率图像和音频的融合获得超分辨率图像，但我们提供了一个简要比较我们的面部重建模型（E a + G）与Speech2Face[32]的模型。由于[32]的数据集不公开，我们基于Oh等人[32]从https://speech2face.github.io/supplemental/retrieve/index.html获取的音频轨迹和重建结果进行了定性和定量比较。在图7中，我们展示了Speech2Face获得的参考面部和使用相同音频轨迹的我们的输出。我们可以看到性别和年龄是匹配的。在第二个评估中，我们在给定来自VoxCeleb数据集[10]的音频作为输入时，对我们的音频到图像模型的输出进行性别分类。对于男性或女性的声音，我们的E a +G模型分别在97%和96%的情况下生成男性和女性的面部。结果与[32]报告的结果相匹配。请注意，[32]在训练过程中使用了一个分类器的监督，而我们的训练是完全无监督的。04.4. 分类作为性能度量0为了评估我们的模型在基于低分辨率和音频输入恢复性别和其他身份属性方面的能力，我们建议使用预训练的身份分类器 C i 和性别分类器 C g的准确性，这些分类器在原始高分辨率图像上分别达到95.25% 和 99.53% 的准确性。为此，我们在训练集 D上对两个 VGG-Face CNN 进行微调[35]。13700在两个面部属性上进行了10个时期的训练。如表1所示，这些分类器在测试集上的表现良好，对于两个面部属性都是如此。尽管我们没有我们数据集的真实年龄，但我们使用预训练的年龄分类器 C a[38]作为参考。然后，我们通过检查输入和输出的分类年龄之间的一致性来衡量我们模型的性能。消融实验。我们进行消融实验来了解编码器中保留的信息，并证明我们最终模型的设计。表1报告了分类器 C i 和 C g 的准确性，以及 C a的一致性误差，对于以下消融实验。0(a)-(b) 微调的重要性。在 (a)中，我们展示了在没有微调的情况下，E h预训练后的性能，而在 (b) 中，我们展示了通过对 G进行微调来提高性能，如公式 (2) 所示。0(c)-(d)单独组件。展示了没有融合的单独编码器的性能。低分辨率编码器 E l 和音频编码器 E a的结果应与参考高分辨率编码器 E h 进行比较。0(e)-(h)融合策略。报告了不同融合策略的性能。作为参考，我们报告了一个只有一个全连接层和对 E a 进行微调的融合模型 F1 的结果。我们将其与一个更复杂的融合网络 F进行比较，该网络有三个全连接层，当音频未使用时(f)，音频编码器固定时 (g)，以及对 E a 进行微调时 (h)。0消融实验 (c) 和 (d) 表明 E a 能够比 E l更经常地预测正确的性别。所有的融合方法 (e)-(h)都在身份预测方面相对于单独的 E a 和 E l有所改进，从而表明成功地整合了两个输入的信息。我们可以观察到，即使是来自未见过的身份（即开放集情况），性别和年龄也可以被很好地预测。消融实验 (f) 对 (h)表明该方法确实使用了音频信号的信息，性能的提升不是由于融合网络 F 的额外容量。消融实验 (h) 对 (e)证明了使用3个全连接层而不仅仅是1个的合理性。消融实验(h) 对 (g) 证明了在训练融合网络 F 期间对编码器 E a进行微调会在我们的定量指标方面略微改进。请注意，表1中所有方法（包括SotA[22]）在开放集实验中的性能都低于封闭集实验。这是预期的，因为所有方法只在训练集中存在的身份上进行训练，很可能只有少量信息在身份之间共享。开放集实验显示了这些方法能够识别出这种共享信息的程度，这是泛化的一个迹象。另请参见图6的定性结果。0图8：在我们的测试集上与其他超分辨率方法的比较。第一列显示8×8像素的输入；第二列显示LapSRN[27]的输出；第三列显示W-SRNet[22]的输出。我们的模型显示在第四列。地面真实高分辨率图像显示在最后一列。0与其他超分辨率方法的比较。我们在表2和图8中与最先进的超分辨率方法进行比较。报告了标准度量PSNR和SSIM以及C i和C g的准确性，以及恢复图像的Ca的误差。请注意，文献中的大多数方法并不是针对16×的极端超分辨率因子进行训练，而是针对4×的因子进行训练。因此，我们报告了使用4×因子的一种方法的结果作为与16×因子的变化的参考。[27]和[22]的方法在评估其性能之前在我们的训练集上进行了重新训练。请注意，尽管LapSRN在16×超分辨率上的训练性能在PSNR和SSIM方面优于我们的方法，但恢复图像的质量明显较差（见图8）。通过评估恢复图像的性别和身份分类准确性以及年龄分类错误，可以揭示出这种质量差异。这表明，虽然PSNR和SSIM可能适用于评估具有小超分辨率因子的重建，但它们可能不适用于评估具有16×因子等更极端情况下的重建。通过混合音频源进行编辑。我们的模型允许我们通过交换融合中使用的音频轨道来影响高分辨率输出。为了证明这一能力，我们在图10中展示了将固定的低分辨率输入与几个不同的音频源混合的示例。为了定量评估这种混合，我们将低分辨率输入馈送到13710表2：在不同超分辨率因子下与其他通用超分辨率方法的比较。我们报告了在测试集上获得的PSNR和SSIM。请注意，目标分辨率固定为128×128像素，因此4×方法（顶部行，LapSRN[27]）的输入为32×32像素，而我们的模型仅使用8×8像素的输入图像。0封闭集开放集方法因子 PSNR SSIM 准确性C i 准确性C g 错误C a PSNR SSIM 准确性C i 准确性C g 错误C a0LapSRN [27] 4 × 31.99 0.91 93.83％ 99.38％ 2.81 31.66 0.91 95.84％ 95.37％ 2.810LapSRN [27] 16 × 22.75 0.64 5.27％ 83.27％ 5.16 22.39 0.62 6.80％ 79.57％ 5.16 W-SRNet [22] 16 × 21.550.67 34.91％ 95.68％ 4.28 19.18 0.59 13.54％ 89.45％ 4.57 我们的 16 × 21.64 0.68 51.65％ 97.32％ 3.31 19.970.60 15.67％ 93.11％ 3.680表3：Cg预测与低分辨率和音频标签在混合重建上的一致性。0标签来源封闭集开放集0音频10.76％ 13.74％低分辨率图像89.24％86.26％0图9：我们方法的失败案例示例。低分辨率8×8像素的输入显示在（a）中，相应的128×128像素的地面真实图像显示在列（e）中。在中间，我们显示了来自高分辨率编码器Eh的编码结果（b），低分辨率编码器El的编码结果（c）以及使用微调的Ea的融合模型F的结果（d）。0从不同性别的人的图像和音频中提取高分辨率人脸，并对结果进行性别分类。在表3中，我们报告了低分辨率图像和音频的与地面真实性别标签一致的准确性。失败案例。我们观察到失败可能更多地与训练集中存在的固有偏差相关，而不是训练算法或网络架构。失败案例有时发生在从低分辨率图像中可以轻松猜测性别的情况下。其中一些失败案例在图9中报告。05. 结论0我们引入了一种新的人脸超分辨率范式，其中音频也有助于恢复。0图10：我们将给定的低分辨率图像与不同音频源混合的示例。顶部一行显示我们从中提取音频轨道的高分辨率图像。左侧的第

下载后可阅读完整内容，剩余1页未读，立即下载