HIME：高效的多样本头部图像超分辨率

30 浏览量更新于2023-10-15 收藏 1.37MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1HIME：高效的多样本头部图像超分辨率夏宇翔1，2*，乔恩·莫托n2，费特苏姆A. Red a2†，LucasD. 2012年10月20日，第二届世界杯足球赛，第三届世界杯足球赛，第四届世界杯足球赛，第五届世界杯足球赛，第六届世界杯足球赛，第五届世界杯足球赛，第六届世界杯足球赛，第五届世界杯足球赛，第六届世界杯足球Allebach11普渡大学，2个Meta Reality Labs{xiang43，allebach}@ purdue.edu，{jamorton，rakeshr，akumar14}@ meta.com，{fitsum. reda，lucasmine482} @ gmail.com，fdp@bendingspoons.com，andrea@andreacolaco.info摘要一个很有前途的方向恢复丢失的信息，在低分辨率的头像图像是利用一组高分辨率的样本从同一身份。参考集中的复杂图像可以提高跨许多不同视图和姿势生成的头像质量。然而，如何最好地利用多个范例是一个挑战：每一个样板的质量和对准不能得到保证。使用低质量和不匹配的图像作为参考将损害输出结果。为了克服这些问题，我们提出了HIME方法。与以前的方法相比，我们的网络可以有效地处理输入和参考之间的不对齐，而不需要面部先验知识，并以端到端的方式学习聚合参考集表示此外，为了重建更详细的面部特征，我们提出了一个相关损失，提供了一个丰富的表示在一个可控的空间范围内的局部纹理。实验结果表明，该框架不仅具有显着更少的计算成本比最近的样本引导的方法，但也取得了更好的定性和定量性能。1. 介绍许多心理学和认知研究表明，面孔感知是社会认知中最重要和最专业的方面之一[17，35]。照片中的面部区域往往会立即引起观察者的注意和兴趣。此外，人类对熟悉面孔的微小变化是敏感的[38]。因此，增加图像和视频中的面部区域的质量具有显著增强许多社交通信应用的用户体验的潜力，例如，实时视频聊天、移动照相亭等。*本文是作者在Meta实习期间完成的[2]本书写作时隶属于Meta。输出图1：使用一组示例恢复输入中丢失信息的头部快照超分辨率。由于上述原因，机器学习社区已经广泛探索了人脸幻觉[34，50，41，8，12，6]作为单图像超分辨率（SISR）[2，3，47]的特定领域问题，其目的是将现实细节从低分辨率（LR）人脸图像恢复到高分辨率（HR）人脸图像。得益于面部结构和身份先验的整合以及深度神经网络设计的最新进展，现在即使是非常微小的面部也可以生成视觉上令人愉悦的当输入LR头像不包含足够的属性或身份信息时，使用额外的参考可以帮助实现更忠实的重建结果。在本文中，我们探索了一种新的方法，充分利用一个任意大小的样本集的图像，以增加头部拍摄图像超分辨率的保真度。一个核心问题是从参考中搜索匹配区域先前的方法选择用配准[55]、光流[45，60，30，15]和扭曲[39]进行全局上下文匹配。尽管如此，这些工作假设样本与LR输入[39]具有相似的观点，这并不总是能保证的。此外，它们的性能依赖于精确的运动估计，并且可能很难捕获长距离相关性。其他方法[4，59，51，49]对LR和参考特征进行了详尽的逐块比较，这需要大量的计算，特别是当参考分辨率为1694示例集…输入1695−解决方案很高。此外，这些方法不能处理片间错位或非刚性变形。为了更好地使用来自不同姿势或视图的面部信息，我们提出了一个参考特征对齐模块（RFA），该模块结合了光流和可变形对齐来找到参考特征中的相应信息，并将它们与[31，7，9]启发的LR内容对齐。在像智能家居摄像头或手机摄影这样的实际应用中，当用户靠近摄像头时，可以获取许多不同视角的高分辨率图像。这些图像自然可以作为很好的范例来增强遥远的小面孔。然而，大多数以前的工作集中在基于参考的超分辨率（RefSR）与一个范例[59，51，39，30，15]，这是一个简化的假设。为了处理一组样本，这些方法需要额外的步骤来根据SIFT[33，58]或面部标志点[29]选择最相似的图像作为参考，这是整个集合的差表示[43]设计了一种框架来处理和组合具有加权像素平均值的多个样本尽管如此，它不像我们的方法那样对参考图像中的位移或失真具有鲁棒性。为了有效地利用参考集，我们提出了一个内容条件特征聚合模块（CoFA），通过将集合中的特征映射聚合成单个表示，将集合到图像RefSR问题简化受益于上述模块设计，我们的网络是端到端可训练的，而不需要其他特定于面部的元信息。为了生成具有高度详细纹理的 SR 输出，我们提出了一种受FlowNet2[24，37]中相关层启发的新型相关损失，以监督纹理模式的重建。我们计算跨通道维度的像素相关性来表示特定窗口大小内的局部纹理。总之，我们的贡献有四个方面：（1）提出了一种新的头部超分辨率网络，该网络利用了多个样本。该方法通过充分整合样本集中的相应信息，比以往的由于我们在LR空间中进行匹配和传输，因此计算效率也很高;（2）我们提出了一种新的参考特征对齐网络，用于基于流引导变形采样来查找和对齐LR内容的相应参考特征我们设计了一个以LR内容为条件的特征聚合模块，通过支持高质量和相似性的特征来显式地改进集合表示;（3）提出了一种新的相关性损失方法，该方法有助于局部纹理的表达和细节的重建;（4）在CelebAMask-HQ测试集上，与以往的方法相比，本文的方法取得了最好的效果。它也有更少的参数和计算成本比最近的范例引导的方法。2. 相关作品2.1. 基于参考的超分辨率基于参考的SR（RefSR）[18]可以从参考HR图像中重建更准确的结构和细节RefSR的一般解决方案包括两个步骤：在LR输入和HR参考之间搜索匹配的纹理，并传输纹理。一些先前的RefSR方法选择将LR和Ref图像与全局配准[55]或光流[45，60]对齐。其他方法选择通过具有梯度特征的补丁进行匹配[4]，或通过CNN提取的深度特征[59，51，49]。[39]将特征匹配改为LR空间以减少计算量。[51]以跨尺度的方式引入了Transformer架构，以提高搜索和传输相关纹理的准确性上述工作通常包括像素级重建损失、感知损失[40]和对抗损失作为目标函数。Zhang等人[58]引入Haar小波损失和退化损失以避免最终结果中的过度平滑此外，CMSR[13]进一步将参考源从单个图像扩展到预先构建的图像池，并从池中搜索k个最近的补丁。由于这些方法详尽地进行LR和参考特征图的逐块比较，因此它们通常具有较高的计算成本。2.2. 面部超分辨率人脸幻觉的方法大致可以分为两类：盲脸幻觉和样本引导恢复。第一类更侧重于在设计重建网络和损失函数时整合面部先验：一些工作包括面部标志或面部结构的子分支[61，41，5，54，25，52]或面部解析图[12，11]。使用面部结构先验可以带来优点，包括面部形状的更好恢复，如面部对准和解析上的更少错误所反映的。然而，重建结果可能看起来不像同一个人，特别是当输入图像几乎不包含任何识别信息时。为了解决这个问题，[56，23，20]采用身份信息来监督重建网络的训练。然而，这些盲重建方法受到训练数据分布偏差的严重影响，并且通常无法为少数群体产生令人满意的结果。第二类，样本引导的恢复，旨在使用同一个人的另一个HR图像，以提高所生成的图像的视觉内容质量。[30，15]在使用HR指导时包括翘曲子网络，这增加了训练步骤以及网络的计算成本。 [29]使用移动最小二乘法在特征空间中对齐输入和引导图像，并应用AdaIN进行特征转移。它选择一个1696我我{}}·我我i=1我i=1我将图像转换为一组特征图：{F i}n. 的RGBi=1refref联系我们·图2：我们的HIME框架概述。给定输入LR图像和任意数量的样本，它匹配、对齐和聚合以输入内容为条件的参考图像的特征，以重建SR输出。从引导图像中提取样本，因此不能充分利用引导面集中的丰富信息。[43]通过在网络中使用具有加权像素平均模块的多个样本向前迈进了一步。但是，它不能处理未对齐面之间的大变形。与上述方法相比，我们的方法可以充分利用未对齐的样本集作为头像重建的参考，并且我们的网络是端到端可训练的，而不需要特定的面部元数据。3. HIME框架给定低分辨率输入I L和一组高分辨率头像图像ref=I ref，i= 1，2，. . . 我们的目标是从相同的身份生成相应的高分辨率图像ISR。为了有效准确地将匹配信息从非匹配信息中传递出来，3.1. 特征提取器我们采用了一个HR特征提取器和一个LR特征提取器来分别处理HR空间和LR空间中的图像HR特征提取器将HR参考refi=1首先将图像转换为单通道特征图因为不需要参考图像的颜色信息。然后，我们采用空间到深度操作将HR特征图转换为与输入相同的空间分辨率，而不丢弃任何信息。接下来，我们应用卷积层和kh残差块[22]来提取HR参考特征图。 LR特征提取器为具有卷积层和k l个残差块的输入LR图像生成特征图[22]。3.2. 参考特征对齐给定从输入LR im提取的特征图FLref对齐的参考集的任意长度，我们提出了年龄和{Fini=1 从参考图像中，我们想要HIME框架如图2所示。该框架由四个主要部分组成：特征提取器、参考特征对齐模块（RFA）、内容调节特征聚合模块（CoFA）和HR重建器，如在第3.1、3.2、3.3和3.4节中介绍的。我们首先使用LR特征提取器从IL得到特征映射FL，并且使用HR特征提取器从IL得到特征映射FL。获取与LR图像的内容良好对准的引导特征，以减轻视图或姿态中的任何不匹配为了实现这一目标，我们提出学习特征对齐函数f（）以直接对齐参考特征图F ref，如图3所示。对准函数的一般形式可以公式化为：Fref A=f（Fref，Iref L，IL，FL）=T（Fref，Φi），（1）映射{Fref}n我我我从具有n个HR图像的参考集。refA为了有效地进行特征匹配和传输，图像和特征被转换到LR空间。然后我们喂IL，FL，我n和Fn建议的RFA模块进行校准。此外，为了更好地利用人脸集信息，我们使用CoFA模块来将细化的特征聚合成一个。最后，我们从聚合的特征图中重建HR人脸图像。其中，F表示第i个对准的参考特征，T（）是采样函数，Φi是相应的采样参数。受[44，42，48]中用于空间和时间超分辨率的可变形对齐[14，62]的启发，我们建议使用可变形采样函数来隐式捕获LR内容和参考图像之间的相似性。然而，德的训练--1697∑F·我F·我我···我我refA··我我refA我refALi=1i我我ref ArefAΣi（��i��r#$%伊萨为（i）*我（i) * 吉吉…图4：内容条件特征聚合（CoFA）：对于每个对齐的参考特征，我们用输入FL计算相似性得分μ，然后用加权平均值聚合所有特征FrefA3.3. 基于内容的特征聚合现在我们有了一组对齐的参考特征图：{Fref A}n为以下特点转移和重新-图3：参考特征对齐（RFA）：光流被集成为偏移场的一部分，以对齐参考特征图。然后，对齐的特征被用来估计偏移残差。通过这种方式，我们可以充分利用LR和参考图像之间的相似性。可成形的对准模块坚硬且充满不稳定性，i i=1建设步骤。如图4所示，CoFA模块旨在将此特征映射集映射到具有固定维度的表示。以这种方式，可以以统一的方式表示具有不同数量的图像的参考图像集表示由集合中的所有项确定，并以LR内容为条件。因此，它可以表示为：=F（F、F，的。. .，F参考A|F L），这可能会损害模型敬过度-哪里1 2N针对这一问题，我们结合光流法进行指导。变形采样函数的偏移量应该基于参考图像和输入LR图像之间的对应关系来学习，这与光流的目标非常相似因此，我们直接将光流合并到变形对准的偏移中，并计算偏移残差以进一步提高精度。我们首先估计IL和IrefL之间的光流，并使用（）是聚合函数，它将任意大小的集合映射到固定维度的表示。找到一个合适的（）来聚合来自整个参考集的特征以获得优化的表示是具有挑战性的。基于具有较高相似性和质量的参考应该对特征转移贡献更多，而具有不匹配特征和低质量特征的面部应该对集合表示具有较小影响的直觉，我们将F（·）表示为：它可以扭曲参考特征：FrefW=warp（Fref，o）（2）然后，使用变形的参考特征来预测偏移残差ΔP_i，以及LR特征F_L：F（F1，. . . ，Fn|F）=nµ F参考AΣnµiFref=g（[FrefL，FL]），（3）µi=S（FrefA，FL），（6）其中S（·）生成相似性得分μi的对齐其中，g（）表示用于偏移估计的卷积层的一般操作;[，]表示信道级级联。然后我们可以获得采样参数Φi=oi+ φpi。利用流引导偏移，等式1中的采样函数可以利用可变形卷积来执行[14，62]：参考特征图F refA，其以与等式4所示相同的方式获取。因此，集合的最终表示是由其相似性得分加权的每个特征的融合。对于每个对准的参考特征FrefA，逐像素相似性得分被计算为：Fref A= T（F ref，Φi）= DConv（F ref，Φi）。（四）S（Fi，FL）=σ（g1（F参比品A）Tg2（F（L））、（7）我我我其中σ（·）是用于边界的sigmoid函数我们将不带光流引导网络的RFA模块称为HIME（小），它直接估计偏移。具有流引导RFA模块的网络降级为HIME（大型）。输出到范围[0，1]并稳定梯度传播;而g1（）和g2（）表示一般卷积层。相似性分数也可以被认为是以输入内容为条件的注意力掩码conv占比我conv吉吉&乙状∑（五）、1698↑ R↑×−联系我们× − ×−CorCor最后，将求和的 Fa和LR特征图发送到HR图像重建：F f=F a+F L。相似性计算和加权聚合步骤是无参数的。因此，CoFA模块通过设计是轻量的。3.4. 高分辨率图像重建HR重建模块将融合特征Ff作为输入，并生成我们的目标HR输出的残差。它由用于学习深度特征的k r个堆叠的残差块[22]和使用如[1，47]中的ICNR方法初始化的PixelShuffle [21]的子像素上采样模块组成。为了鼓励网络专注于学习LR输入中不存在的高频信息，我们引入了一个长距离跳跃连接来形成最终的SR输出：ISR=I Ls+（F f），其中表示双三次放大操作，并且s表示比例因子;W图像相关图图5：所提出的相关性损失的图示。相关算子用于生成的图像和地面实况图像。然后我们取相应的输出相关图来计算相关损失。1cor（i，j，x，y）=k2<$I（x，y），I（x−i，y−j）<$，（8）其中，i，j表示内积，i，j∈−k+ 1，k+ 1，以上允许LR12 2绕过重构网络的输入降低了重构学习的难度并加速了优化过程的收敛。由于输入图像和参考图像在人脸域中高度相关，因此我们的模型可以在仅监督的情况下同时学习特征对齐和相似性得分从人力资源的基本事实到端到端的培训。k2是标准化的。k是用于计算局部相关性的最大位移。因此，我们可以获取大小为（k，k，H，W）的相关图M_cor。相关性损失是来自地面实况HR和所生成的SR图像的相关性图之间的距离：L cor=||M HR− M SR||.（九）4. 相关损失动机常用的逐像素反射损失不可避免地导致输出的过度平滑，并且虽然已经引入了感知损失[40]和风格损失[19]来提供更多面向感知的监督，但它们需要来自另一个高级视觉任务的预训练网络，并且由于训练数据的限制，它们不适用于表示非常高分辨率图像的纹理。为了有效地表示不同尺度的局部纹理模式在一个可控的方式，我们设计的相关损失。该算法首先根据中心像素与其相邻像素之间的相关性建立一个相关图来表示空间特征。因此，匹配相关图可以帮助网络重建更真实的细节，提高输出图像的感知质量。相关损失的设计如图5所示，每个图像I可以由大小为（C，H，W）的3D张量表示，其中C是通道的数量，并且（H，W）表示空间分辨率。我们首先减去每个通道的平均值，使数据集中在0附近对于一个给定的像素I（x，y），我们计算它与相邻像素I（x−i，y −j）的内积，以及在一个k ×k窗口内的它本身：在我们的实现中，我们采用L1距离来表示这个损失项.较大的窗口大小k可以编码更多的信息，同时二次增加计算成本。因此，我们按照与扩张卷积相同的方式定义扩张相关性[53]。通过增加伸缩因子d，可以将相关窗口从kk扩大到（kd d+ 1）（kd d+1）。可视化关联图。为了更好地理解相关操作，我们用不同的相关核窗口大小k3，5，7可视化HR图像的相关图。在图6中，我们观察到相关映射基于局部纹理对原始图像进行编码。在每个相关图中，蓝色区域对应于具有更多高频特征的区域，如毛皮和背景，而不管颜色差异如何。而红色区域更平滑，最亮和最暗的部分随着窗口大小k的增加，相关算子在更宽的区域内感知和编码特征，因此在可视化结果中看起来更粗粒度。5. 实验5.1. 实现细节在我们的实现中，kl= 5，kh= 3，和kr= 20残留块中使用LR特征提取，HR特征提取，和HR图像重建模块，恢复。对于每个LR输入，我们随机选择三个点积W21699××××××××/图像k=3k=5k=7图6：不同窗口大小的相关图的可视化图像分辨率为128×128。不同的HR图像以在训练期间构建参考集。我们采用SPyNet[36]作为HIME（大型）中的光流估计器。更多细节可参见相关资料。目标函数为了与以前的方法进行公平的比较，我们训练了两种类型的模型：（1）具有逐像素相关损失L rec和我们提出的相关损失L cor 的面向重建的模型 HIME rec。WCharbonnier罚函数[26]作为损失项对于逐像素重建，以优化我们的框架：在324设置上，因为它的面部和界标检测器不能处理这样小的面部。对于8次上采样，我们将我们的方法与五种人脸幻觉方法进行了比较： PFSR [6]、 FSRNet[12]2、GWAInet [15]、SPARNet [10]和PSFR-GAN[11]. 定量结果示于表1中。L记录=√||IHR−ISR||2+2，其中IHR表示×地面实况HR帧，并且根据经验将Δ k设置为1 10−3。(2)面向感知的模型HIMEP包括Lrec，Lcor，以及对抗性损失Ladv，感知损失Lper：LP=λrecLrec+λadvLadv+λperLper+λcorLcor ，（ 10 ）其中λs是每个损失项的权重数据集。 CelebAMask-HQ被用作训练和评估数据集[27]，包括从CelebA数据集[32]中选择的超过30，000个高分辨率头像。我们从原始CelebA数据集中获取身份信息，并使用4张图像从6，217个身份中删除3，300个身份，这些身份不足以构建一组多个参考。<其余的身份被随机分为训练集和评估集，分别包括2，600和287个身份我们通过双三次下采样生成不同尺度的图像，因子=s。评估指标。我们采用峰值信噪比比率（PSNR）和结构相似性指数（SSIM）[46]度量来评估所有RGB通道上的重建性能。我们还将感知质量与LPIPS进行了比较[57]。为了衡量不同方法的效率，我们报告了每个设置的模型参数和5.2. 与最新技术我们评估了我们的HIME网络的性能下4和8的上采样设置以下以前的方法。对于4个高档，我们比较了两种SOTA RefSR方法：SRNTT [59]1和TTSR [51]，以及三种最近的人脸恢复方法SPARNet [10]，PSFR-GAN[11]和DFDNet [28]。我们没有测试DFDNet[28]1PyTorch实现：https://github.com/S-aiueo32/srntt-pytorch表1：我们的结果和其他SOTA方法的定量比较。最佳结果以粗体显示。从表1中，我们可以了解到以下事实：（1）基于参考的SR方法，如SRNTT、TTSR和我们的HIME，在面向失真的度量和面向感知的度量上都表现出比其他非参考方法更好的性能，这验证了使用参考可以提高SR保真度。我们的网络在（32，4）上比另一个结果高出1.21/1.09 dB，在（64，4）上高出0.87/0.83 dB;（2）虽然SRNTT和TTSR比其他比较方法具有更少的参数，但由于在特征匹配期间的穷举搜索，它们的计算成本相对较高使用可学习的特征提取器，我们的小模型比SRNTT和TTSR小7LR空间中的参考特征对齐使我们的网络具有14个。3和4GMAC比TTSR少39 个。对于（16，8）设置，我们可以观察到，即使在非常具有挑战性的8上采样设置下，我们的方法也表现良好。DFDC数据集[16]的可视化结果如图7所示，它验证了我们上面的观察结果像SRNTT、TTSR和我们的RefSR方法可以产生更鲁棒和视觉上令人愉悦的结果。对于基于GAN的人脸增强方法SPARNet和PFSR-GAN，2 PyTorch实现：https://github.com/cydiachen/FSRNET(LR，s）方法PSNRSSIMLPIPS参数（M）GMAC双三25.640.77520.3229--(32，第4页）SRNTT[59]28.020.84340.06826.3036.47TTSR[51]27.310.83460.06336.7326.62SPARNet[10]20.500.61180.161785.7345.25PSFR-GAN[11]二十五点四十七分0.77090.098167.05一百一十七点八四HIMErec（小型）29.110.87940.11360.871.86HIMEP（小型）27.160.82690.04640.871.86HIMErec（大型）29.230.88170.11029.236.06HIMEP（大型）27.050.82240.04619.236.06双三28.400.81690.2860--(64，第4页）SRNTT[59]30.410.85520.09066.30145.89TTSR[51]29.870.84840.08516.73106.48SPARNet[10]23.260.69900.134185.73180.99PSFR-GAN[11]26.620.76850.103967.05161.89[第28话]二十一点五五分0.65870.1581133.34601.04HIMErec（小型）31.240.87850.16110.877.48HIMEP（小型）29.060.82620.06330.877.48HIMErec（大型）31.280.87890.16009.2324.241700××我↑ ↑↓↑ ↑↓输入/参考GT SRNTT[59] TTSR[51] SPARNet[10] PFSR-GAN[11] HIMErecHIMEP图7：4×放大设置下与SOTA方法的定性比较输入分辨率：32×32。他们的结果是丰富的细节，有时他们失败的微小面与变形。5.3. 消融研究没有内容调节的特征，（b）通过跨集合的最大池化来聚集特征，以及（c）是我们提出的由学习的内容相似性加权的聚集方法。定量结果见表3。我们进行全面的消融研究，论证了网络中各个模块的有效性，样本的影响以及相关性损失。如果没有另外指定，则以下实验在8放大率下进行，输入大小为16 16参考特征对齐的有效性为了研究所提出的RFA模块，我们比较了三种模型：（a），（b）和（c），其中（a）用不具有特征对齐能力的普通卷积替换RFA模块中的可变形卷积，（b）是我们的小模型，通过去除光流引导，并直接估计偏移F ref和F L，（c）是我们的大型模型，如3.2节所示方法PSNR SSIM LPIPSConv 24.330.73110.2605DconvDconv流量24.68 0.7467 0.2361表2：特征对准方法的消融研究。从表2中，我们可以看到，采用可变形对齐带来了与使用普通卷积一致的所有度量的性能。而导流变形对准可以进一步提高性能.结果表明，我们的RFA模块可以更好地匹配LR内容和参考之间的特征，并且对错位和失真具有更强的鲁棒性。我们的网络在LR空间中进行偏移计算和特征匹配，在降低计算成本的同时实现了更好的性能。设置功能聚合。为了验证我们提出的CoFA模块中的特征聚合机制的效果，我们比较了三种不同的模型：（a）平均fea，方法PSNR SSIM LPIPS平均值22.1200.63500.4332最大池22.118 0.6349 0.433124.381 0.7339表3：特征聚合方法的消融研究。从表3中，我们可以看到，具有我们的内容调节特征聚合模块的模型在PSNR方面超过平均值和最大池化超过2 dB。采用CoFA模块大大提高了所有度量的性能，这表明我们设计的模块可以提取更好的集合表示，有助于恢复LR信息，提高输出质量。多个例子的效果。为了验证使用样本集是否可以改善人脸超分辨率结果，我们进行了以下实验：（a）非转介：没有参考的基线SR网络，并去除HR匹配和聚合模块，（b）用一个参考图像进行训练和测试，以及（c）用三个参考图像进行训练和测试。从表4中的结果，我们可以观察到，使用参考显著增加PSNR，0.49 dB，而使用多个参考进一步提高了0.19 dB。这些改善亦适用于SSIM和LPIPS。实验结果表明，该模型能够充分利用样本集中的丰富信息，有效地利用样本中的特征来提高输出质量。范例相似性的影响。我们的方法有可能应用于视频通话，其中近距离摄像头的头像可以用来增强放大时的远距离在这个场景中，我们录制了几个自己的视频通话，并收集了超过5,000帧1701↑ ↑↓×联系我们↑ ↑↓≥参考值PSNR SSIM LPIPS0 23.840.70880.34401 24.35 0.7318 0.25723 24.54 0.7409 0.2433表4：通过在培训和测试期间更改参考数量对多个样本进行消融研究。以验证时间间隔的影响直观地，随着间隔j的增加，由于自然视频中的运动，Ref与LR输入不太相似。我们对这些帧4进行下采样以构造LR输入，并且每j帧挑选HR图像作为Ref我们还尝试使用空白图像作为参考，它不提供任何相似的功能。从表5中，我们可以观察到，性能随着时间间隔的增大和相似性的减小而减小，并且优雅地下降到下限。尽管如此，在PSNR和SSIM方面，使用Ref显示出比空白Ref更好的结果。间隔j30 60 120空白参考PSNR 37.3437.24 37.12 36.810.9227 0.9207表5：输入和参考图像之间的时间间隙（间隔）的影响相关损失的影响。为了证明相关损失的有效性，我们在实验上比较了表6中的HIME的不同配置。我们考虑以下模型：（a）仅重建损失;（b）重构损失+相关损失;（c）GAN训练中的多个损失（没有相关性损失）;（d）相关损失+（c）。从表6中，通过比较前两行，我们可以观察到引入相关性损失略微降低了PSNR。然而，它改进了结构和感知度量SSIM和LPIPS，这表明所提出的相关损失有利于局部纹理的再现。比较后两行，使用相关性损失的训练极大地利用了面向感知的模型在所有度量上的性能，这进一步验证了相关性损失作为面向感知的图8示出了HIME对于不同相关窗口大小k1、3、5、7、9的性能，其中k= 1退化为平方像素值的共同L1我们进行两种类型的实验：（a）训练方法PSNR SSIM LPIPSLrec24.38 0.7339 0.2533Lrec+Lcor24.35 0.7346 0.2437LPw/oLcor22.44 0.6204 0.1543LPw/Lcor23.28 0.6673 0.1389表6：我们提出的相关损失的有效性PSNR SSIM LPIPS图8：相关窗口大小k对输出质量（PSNR、SSIM和LPIPS）的影响：（a）仅用L cor训练，（b）用L rec和L cor两者进行微调。仅具有相关损失（以蓝色绘制），（b）具有Lrec和Lcor两者的微调（以红色绘制）。查看蓝色图，我们可以观察到随着k的增长，模型在PSNR和SSIM方面表现更好。这些结果表明，相关图本身是一个很好的代表RGB图像。利用较大的窗口大小，相关图可以编码更多的信息。尽管如此，当k足够大时，这种改善变得更加边际化。当k= 9时，LPIPS甚至增加。至于红色图，我们可以看到类似的趋势：当k= 3时，PSNR和SSIM的改善很小。这些结果表明，对于一定的规模，存在一个范围的k，最好的工作，在代表当地的模式。在此范围内，LPIPS得分随着k的增大而不断降低. 这意味着相关性损失更像是面向感知的监督，这验证了我们在第4节中的描述。6. 结论和未来工作在本文中，我们提出了一个有效的框架，头部拍摄图像超分辨率与多个样本没有人脸结构先验。为了实现这一点，我们引入了一个参考特征对齐模块，以搜索和对齐相应的功能LR内容。为了构造一个优化的集合表示，我们提出了一个以输入内容为条件的特征聚合网络通过这样的设计，我们的网络可以学习充分利用样本集中的丰富信息，并对错位和变形具有鲁棒性。此外，我们提出了一个监督重建的局部纹理与相关图的administration- tion损失。我们相信，我们的新的头部图像超分辨率与多个E样本网络（HIME）提供了一个新的想法，有效地利用一组数据的基于参考的超分辨率和人脸识别任务。在未来的工作中，我们将探索其他的aggregation方法，以产生一个更好的集合表示与援助的脸先验。此外，我们将进一步验证相关损失作为其他低级别任务的通用监督的有效性，例如。图像去噪、视频帧插值、风格转移等。1702引用[1] 安德鲁·艾特肯，克里斯蒂安·莱迪格，卢卡斯·泰斯，何塞·卡-巴雷罗，王泽涵，施文哲。无纸板伪影的子像素卷积：关于子像素卷积、调整卷积和调整卷积的说明。arXiv预印本arXiv：1707.02937，2017。[2] 简·阿勒巴赫和黄炳华。边定向插值。在Proceedings of3rd IEEE International Conference on Image Processing，第3卷，第707IEEE，1996年。[3] Clayton Brian Atkins ， Charles A Bouman ， and Jan PAlle- bach.使用像素分类的最佳图像缩放。2001年国际图像处理会议论文集（Cat. No. 01 CH 37205），第3卷，第864-867页。IEEE，2001年。[4] 维韦克·布米纳坦，考希克·米特拉，阿肖克·维拉伽·凡.使用混合成像系统改进光场相机的分辨率和景深。2014年 IEEE国际计算摄影会议（ ICCP ），第 1-10 页。IEEE，2014。[5] Adrian Bulat和Georgios Tzimiropoulos超级粉丝：集成的面部标志定位和具有gans的任意姿势的真实世界低分辨率面部的超分辨率在IEEE计算机视觉和模式识别会议论文集，第109-117页[6] Adrian Bulat，Jing Yang，and Georgios Tzimiropoulos.要学习图像超分辨率，首先使用GAN学习如何进行图像降级。在欧洲计算机视觉会议论文集，第185-200页[7] 蔡卓君，田翔，陈泽，陈耀武。运动感知变形对准的时空超分辨率。电子成像杂志，30（3）：033020，2021。[8] Qingxing Cao，Liang Lin，Yukai Shi，Xiaodan Liang，and Guanbin Li.通过深度强化学习实现注意感知的人脸幻觉。在IEEE计算机视觉和模式识别会议论文集，第690[9] Kelvin CK Chan，Shangchen Zhou，Xiangyu Xu，andChen Change Loy. Basicvsr++：通过增强的传播和对齐来提高视频的超分辨率.在IEEE/CVF计算机视觉和模式识别会议上，第5972-5981页，2022年[10] Chaofeng Chen ， Dihong Gong ， Hao Wang ， ZhifengLi，and Kwan-Yee K Wong.学习空间注意力的人脸超分辨率。 IEEE Transactions on Image Processing ， 30 ：1219[11] Chaofeng Chen，Xiaoming Li，Lingbo Yang，XianhuiLin，Lei Zhang，and Kwan-Yee K Wong.渐进式语义感知风格变换的盲脸复原。 arXiv 预印本 arXiv ：2009.08709，2020。[12] Yu Chen，Ying Tai，Xiaoming Liu，Chunhua Shen，and Jian Yang. Fsrnet：端到端学习面部超分辨率与面部先验。在IEEE计算机视觉和模式识别会议论文集，第2492- 2501页[13] 崔曙光。走向内容无关的多参考超分辨率：自适应模式匹配和特征聚合。2020年。[14] Jifeng Dai，Haozhi Qi，Yuwen Xiong，Yi Li，GuodongZhang，Han Hu，and Yichen Wei.可变形卷积网络。在Proceedings of the IEEE international conference oncomputer vision，第764-773页[15] 伯克道根、古书航、拉杜·穆夫特。无面部标志点的示例引导的面部图像超分辨率IEEE/CVF计算机视觉和模式识别研讨会论文集，2019年。[16] Brian Dolhansky ， Joanna Bitton ， Ben Pflaum ， JikuoLu，Russ Howes，Menglin Wang，and Cristian CantonFerrer. Deepfake检测挑战数据集。arXiv预印本arXiv：2006.07397，2020。[17] Martha J Farah ， Kevin D Wilson ， Maxwell Drain 和James N Tanaka 。人脸感知有什么 “ 特别 ” ？Psychological Review，105（3）：482，1998.[18] William T Freeman，Ellis R Jones和Egon C Pasztor。基于示例的超分辨率。 IEEE Computer Graphics andApplications，22（2）：56[19] Leon A Gatys，Alexander S Ecker，and Matthias Bethge.使用卷积神经网络的图像风格转换。在IEEE计算机视觉和模式识别会议论文集，第2414-2423页[20] Kle m enGrm，WalterJSchaire r，andVitomirS. 使用级联超分辨率和身份先验的幻觉。IEEE Transactions on ImageProcessing，29：2150[21] Manuel Guizar-Sicairos，Samuel T Thurman，and JamesR Fienup. 有效的亚像素图像配准算法。Optics Letters，33（2）：156[22] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE Conference on Computer Vision and PatternRecognition，第770-778页[23] 许志忠，林嘉文，苏翁泰，张志根。Sigan：Siamesegenerative adversarial network for identity-preserving facehallucination。IEEE Transactions on Image Processin

下载后可阅读完整内容，剩余1页未读，立即下载