高分辨率异质人脸幻觉：基于综合合成和联邦学习的高效HFR方法

165 浏览量更新于2023-10-25 收藏 1.2MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

18676高分辨率异质人脸幻觉梅益群*，郭鹏飞*，Vishal M.约翰霍普金斯大学摘要在异构人脸识别（HFR）中，目标是在两个不同的域（例如可见光域和热域）上匹配人脸。大的领域差异使得高频频率响应成为一个难题。最近尝试通过综合来填补这一空白的方法已经取得了令人鼓舞的结果，但它们的性能仍然受到配对训练数据稀缺的限制。在实际应用中，由于获取和标注过程的高成本以及隐私法规，大规模异构人脸数据往往无法访问。在本文中，我们提出了一种新的HFR人脸幻觉范例，它不仅可以实现数据高效合成，还可以在不违反任何隐私政策的情况下扩大模型训练与完全从头开始学习面部合成的现有方法不同，我们的方法特别设计用于利用来自可见域的丰富多样的面部另一方面，通过引入新的联邦学习方案来实现大规模培训，以允许机构之间的协作，同时避免明确的数据共享。大量的实验证明了我们的方法在当前数据限制下处理HFR的优势在一个统一的框架中，我们的方法在多个HFR数据集上产生了最先进的1. 介绍深度卷积神经网络在视觉人脸识别方面取得了前所未有的成功[5，58，61，66]，其中最先进的方法在多个基准上达到了99%以上的准确率。这些近乎完美的性能来自精心设计的架构和对大规模数据集的详尽训练。然而，在具有低可见度的许多现实世界场景中，诸如低光和夜间，获得清晰可见（VIS）图像通常是不可行的。在这些情况下，部署用于其他成像光谱的传感器，例如，热（TH），可以捕捉更多的区别信息，并作为一个更可靠的解决方案。这就提出了对异构人脸识别（HFR）的巨大需求[32，33，40]，这是人脸识别领域的一项重要任务。*平等贡献计算机视觉和生物识别，将TH模态的图像与VIS对应物1匹配。HFR问题在监视、监控和安全方面有许多应用。不幸的是，由于较大的域差异，天真地部署在VIS图像上训练的最先进的人脸识别算法通常会导致TH数据集上的性能较差[21]。在过去的十年中，通过学习域不变特征[10，14，15，37]或寻找一个公共子空间[28，49，59，72]。由于生成对抗网络（GANs）[16]的快速发展，最近的方法[7，8，12，60，73，75]将HFR重新定义为人脸合成/翻译问题。由此产生的虽然这些基于合成的方法在一定程度上填补了空白，但所产生的VIS图像仍然不令人满意，通常伴随着扭曲和不正确的面部结构（如图4所示），这显著降低了识别精度。我们发现，瓶颈可能是由于数据集的大小有限，无法提供足够的信息来指导图像合成。与容易获得且在互联网上广泛可用的可见图像不同[20]，收集和注释大规模高质量TH数据集是困难的。挑战来自多方面。首先，采集过程既耗时又昂贵，这通常需要费力的设置和重要的校准[52，63]。其次，收集的数据的多样性可能有限。由于物理限制，单一机构通常不可能收集涵盖具有各种属性（如种族、性别和年龄）的各种身份的综合数据集大多数现有的数据集[1，9，42，47]仅限于少数受试者，导致有偏差的结果和过度拟合。第三，人脸数据具有隐私敏感性。由于它包含受试者1请注意，HFR是一个通用术语，用于匹配在两个不同领域（如TH，VIS或草图）拍摄的两张人脸图像。在本文中，我们将HFR作为TH图像与VIS图像匹配的特定问题18677很难与其他机构共享数据。除了合成质量差之外，大多数现有方法只能处理分辨率不超过128× 104的图像128. 这不仅导致视觉上不吸引人的结果，但也降低了它们在许多下游应用中的适用性，依赖于高分辨率输入的任务，例如面部解析[38，39]，编辑[74]和重现[53]。在本文中，我们提出了一个统一的幻觉框架HFR，这是能够合成高分辨率的可见人脸（512×512）从低分辨率的异构数据（即）。小于128×128），具有更好的真实性和更高的保真度。我们的方法包括两个不同的战略。第一个是受GAN反演最近成功的启发而产生的新一代范式[68]。其核心思想是利用来自可见域的丰富多样的面部先验，以避免从头开始学习生成的需要这是通过嵌入预训练的GAN（例如，StyleGAN [25，26]）作为面部解码器，其以U形编码器的潜在表示为条件，使可见面部产生幻觉。编码器是精心设计的一种新的多尺度上下文聚合（MSCA）机制，合并尺度的信息，以提高表示。MSCA提供了更好的细粒度生成控制，是保存身份信息的关键所提出的方法，称为视觉先验增强的GAN（VPGAN），可以通过产生具有最先进的精度和照片真实感的人脸来深度模型是数据饥渴的，VPGAN可以通过大规模训练进一步改进。然而，在实践中，HFR数据往往被单独收集并分散在不同的直觉中。Due to privacy concerns,one cannot simply share the data for centralized training.为此，我们的第二个策略引入了联邦学习（FL）[29]以进一步改善HFR，这使得协作模型训练能够在避免显式数据交换的同时进行。具体来说，我们允许每个机构在其私有HFR数据上执行本地训练，并部署一个集中式服务器来定期与每个机构进行通信，聚合本地模型并更新全局模型。整个过程不涉及任何数据传输，但通过整合来自更广泛数据的信息，使为了使我们的方法更适合现实世界的HFR，我们必须解决跨机构的异构数据分布。这种挑战可能由传感器类型或采集协议的差异引起，可能导致局部倾斜更新，导致收敛缓慢和次优性能[31，35]。为了解决这个问题，我们基于新的模型邻近正则化（MPR）构建了FL算法，该算法通过约束全局和局部模型的潜在表示之间的差异来校正局部梯度更新因此，我们的方法实现了卓越的鲁棒性-ward的非理想数据分布，这意味着它的适用性，解决现实世界的HFR问题。在我们的统一框架中，我们集成了VPGAN作为基本组件，并将其用于拟议的FL方案。我们称这个新框架为VPFL。在实验部分中，我们证明了我们的方法生成的VIS面在高分辨率具有优越的真实性和准确性。在红外光谱内，已经探索了用于热-可见光（TH-VIS ）面部识别的各种模式。这些包括近红外（NIR）、短波红外（SWIR）、中波红外（MWIR）和长波红外（LWIR）。特定热模态的使用取决于应用。例如，在远程监视应用中，通常使用SWIR或MWIR模式。与接近VIS光谱图像的NIR图像不同，LWIR图像通常以低分辨率获取，在捕获的图像上缺失许多面部细节。这很好地反映了现有识别方法在此类数据集上的性能下降[23，51]。此外，在许多NIR人脸数据集上报告了超过99%的准确性[8，12]。然而，各种HFR方法对长波红外数据的性能明显较低[23，51]。综上所述，本文的主要贡献是：• 我们提出了一种新的数据高效的HFR生成方案由于强大的视觉先验，它设法减轻了基本的数据挑战，从而产生了优越的幻觉结果。• 我们引入了一个统一的框架，使大规模的培训在现实世界中的场景成为可能。VPFL使多机构合作成为可能，而不会引起任何隐私问题。• 大量的实验表明，我们的方法可以产生与国家的最先进的照片真实感和fidelity的人脸，这反过来又显着提高了识别的准确率。这些优点显示了它作为面向现实世界应用的通用解决方案的巨大潜力2. 相关工作异构人脸识别。与依赖于特征/子空间学习的方法相比，通过合成的识别[8，11-我们的讨论将集中在这些类型的方法。早期基于深度学习的方法直接学习CNN进行交叉谱映射。例如，Lezamaet al. [30]训练用于NIR-VIS的CNN，并使用低秩假设改进结果。Riggan等人[56]通过对全局和局部区域进行建模来增强合成图像的辨别质量最近的方法利用GAN来改善幻觉质量。Zhang等人[76]提出GAN-VFS，联合学习语义丰富的特征和面部重建，重新18678图1.提议的VPGAN。它采用了一种编码器-解码器结构。UNet编码器提取样式代码以及多尺度表示，然后将它们传输到解码器进行生成控制。MSCA通过合并多尺度信息来增强编码器，这被证明是精确的超分辨率的关键预先训练的StyleGAN [25，26]作为面部解码器并生成所需的可见面部。A是[25，26]中风格码的线性变换，B起着与噪声注入类似的作用。导致更逼真和准确的生成。进一步的改进是基于周期一致性[60]，更先进的损失[7]和注意力机制[6，23，73]。GAN反演。我们的方法与GAN反演相关[4，17，44，55，62，71]，它依赖于预训练的GAN先验，以实现更好的图像处理和恢复。早期的方法[17，44]显式地例如，用于照片上采样的PULSE [44]通过优化下采样损失来逐渐搜索StyleGAN [25，26]的正确潜在代码最近的方法[4，55，62，71]使用DNN编码器并学习在一次前向传递中预测潜在代码。我们的工作受到这些方法的启发，但利用其转移视觉先验的能力，以实现数据高效的异构人脸幻觉。联邦学习联合学习是一种去中心化的机器学习框架，它利用来自多个机构或用户的数据来协作训练全局模型，而无需直接共享其本地数据。在FL应用的实际部署中，解决跨设备或机构的异构数据分布引起了人们的关注。针对此问题的几种FL方法[2，18，19，34，36 ， 46 ， 54 ， 69] 都是基于 FedAvg [43] 构建的。FedProx [34]和不可知联邦学习（AFL）[46]在局部训练期间引入了额外的权重正则化，以减轻全局模型的学习偏差问题。FedDyn [2]提出通过在每个客户端中引入动态正则化器来解决局部模型损失的最小值与全局损失的最小值之间不一致的问题。虽然这些工作进行了严格的理论分析，但其性能并没有在实际应用中得到验证最近，Aggarwalet al.[3]提出的人脸识别方法FL框架。然而，值得注意的是，基于FL的多机构协作方法在文献中尚未得到很好的研究3. 该方法在这一节中，我们首先制定 TH-VIS 面 hal-lucination问题，然后详细描述我们的方法给定TH图像ITH，我们的目标是通过学习映射函数IVIS=F（ITH）来重建VIS面I V IS。合成后的人脸图像应该是视觉上真实的和准确的，因此可以用于人脸匹配。如前所述，由于各种原因，ITH通常以低分辨率捕获。与现有方法（仅以128 × 128合成人脸）不同，我们的工作执行联合平移和上采样。据我们所知，这是第一个可以在HFR中产生高分辨率人脸（512× 512）的工作。3.1. VPGAN传统的方法完全从成对的数据集学习合成。由于数据的限制，他们很难输出清晰和高质量的图像。相反，我们的方法仅通过使用封装在预训练GAN中的各种视觉先验来学习控制生成我们利用现成的StyleGAN[25，26]在FFHQ [25]上进行预训练，其中包含70，000个高分辨率人脸。如图1所示，VPGAN采用编码器-解码器架构。只有编码器需要用HFR数据集训练以引导幻觉。为了输出可见的人脸，我们首先提取全局样式代码w=MLP（UNetE（ITH）），（1）其中，UNetE和MLP分别是UNet和全连接层的编码器部分。然后我们计算a18679KK来自解码器的每个阶段的用于细粒度生成控制的多尺度特征Fi的集合，即，F= U Net（I）。其中，π表示Hadamard乘积，S−是预-i+是我然后可以通过以下方式生成可见的面部：DiT H调制特性校准后，所得S为传递到下一个阶段用于下一代。IVIS=S（W，{F1，.，Fn}），（2）其中S是StyleGAN解码器。得益于人脸几何、颜色和纹理等多种视觉先验，VPGAN能够减轻对大型数据集的需求，并产生更忠实的结果。改进的UNet编码器。U形结构在获得语义丰富的表示方面表现出了很强的能力。然而，我们发现，一个天真的UNet [57]是无法生成精确的局部结构，这对面部匹配至关重要。这是因为解码器中的特征是从较粗尺度上采样的，因此缺乏足够的细粒度信息。早期阶段的错误也会传递到后续层，导致不正确的合成。为此，我们用新的多尺度上下文聚合（MSCA）机制改进了传统的UNet [57]培训目标。为了确保真实性和保真度，我们的训练目标由四个项组成：（1）反射损失Lr，（2）对抗损失Ladv，（3）感知损失Lp和（4）身份损失Lid。总损失可表示如下：Lgen=LR+λaLadv+λbLp+λcLid，（5）其中λa，λb和λc是相应的平衡参数。我们将重建损失定义为合成图像IVIS和地面实况图像IGT之间的标准L1距离，以确保内容一致性。对抗性损失直接继承自StyleGAN [25，26]，以获得更尖锐的一代。为了在保持身份的同时提高视觉质量，我们进一步采用了感知损失和身份损失。两者都可以表示为给定CNN的特征距离（例如，预训练的VGG）：NISM，其提供了输入图像在多个尺度上的综合编码这可确保生成的要素Lp，Lid1= HiWi IGT（IGT）−Vi（IVIS）第1，（6）条在所有级别上都包含粗略和精细的信息，从而导致更好的发电控制。如图1所示，MSCA通过自适应地合并来自UNet编码器的多尺度特征（在第一次放大和缩小以匹配空间维度之后）来计算输出。形式上，第i层的输出特征可以表示如下：输出i= MSCA（E1↑，.，呃，... En↓），（3）其中↑和↓分别表示放大和缩小操作。我们将在4.2.1节中证明这种简单的设计对于精确的人脸匹配至关重要。嵌入式视觉优先级。我们的关键设计是利用嵌入在预先训练的GAN中的视觉先验。Style- GAN [25，26]解码器存储不同的面部知识，并类似于记忆库或字典，其中ex-style代码（来自编码器）查询所需的面部。风格代码w可以以与[26]类似的方式合并，通过直接对每个风格块的卷积核应用调制和解调操作，或者通过[25]中使用的AdaIN [22这两种操作都很容易实现，并产生良好的发电质量。来自UNet的多尺度特征的作用方式与原始StyleGAN中的噪声注入类似。但是，这里我们希望控制详细的面部组件以与输入图像一致，我们通过类似于[48，64]的调制操作（图1中的B）实现这一点具体来说，我们通过一个简单的1×1卷积层从第i个多尺度特征Fi计算像素级尺度和移位参数γi和βi然后我们使用它来校准第i个StyleGAN层的输出特征S+=γi<$S−+βi，（4）其中V是相应的CNN。Hi、Wi、Ci是V中第i个特征图的高度、宽度和通道号。在这里，我们使用ImageNet预训练的VGG作为Lp，使用简单的ArcFace [5]作为Lid。3.2. 基于联邦学习的人脸幻觉即使使用像VPGAN这样的先进设计，使用有限数据进行训练为此，我们考虑联邦学习（FL），并引入一种新的模型邻近正则化（MPR）。在本节中，我们将首先描述一个普通的FL框架，然后详细介绍建议的MPR。一个Vanilla FL框架。我们首先回顾一下当地标准培训中的问题。假设我们有K个HFR数据集D1，D2，. . .，D K分散在不同的机构。这些机构可以是不同的大学、政府机构或私营公司。在传统的非协作方案中，机构k处的本地模型（由Θk参数化）通过优化等式（1）中定义的L_gen，k，用其自己的私有数据D_k第五章：Θp+1<$Θp−γ<$Lgen，k.（7）在几次局部梯度更新（即， P步），机构k可以获得其局部模型。然而，如前所述，本地数据不仅往往容量有限，而且由于采集协议中的差异，还可能显示独特的特征因此，所得到的模型不可避免地遭受表示能力不足和对其他数据集的泛化能力低。理想情况下，可以通过在多样性丰富的多源数据集上进行训练或简单地从所有可用的源构建全局数据集D来解决这样的问题然而，由于新兴的隐私我我然而，对于HFR来说，情况通常并非如此。18680我KKs ss图2.拟议的FL框架概述。通过数据中心和服务器之间的q轮通信，可以以数据隐私保护的方式获得由Θq放大的-其中q表示第q个通信轮。在Q轮客户端-服务器通信之后获得最终训练的全局模型Θ Q。模型邻近正则化。虽然我们的vanilla FL算法设法扩大训练，但在现实世界的应用中，非i.i.d. 机构之间的数据分布仍将不可避免地损害业绩[34]。由于异质数据分布导致的不同的局部目标Lgen，k，没有适当约束的局部更新将导致所得到的模型向其局部目标的最优值倾斜，导致与全局目标的不一致以前的作品[18，50]通过源域和目标域之间的FL对抗训练来规避这一问题然而，这样的方法需要在参与者之间直接共享潜在特征，这损害了隐私保护原则。受[2，34，46]的启发，在这里我们引入了一种新的模型邻近正则化（MPR）来纠正局部更新，它可以很容易地与VPGAN相结合。如图2所示，MPR不是仅最小化局部目标Lgen，k，而是为每个局部求解器引入额外的邻近项，以迫使来自当前局部模型和初始全局模型的潜在代码接近。将最终局部目标Lgen，k调整为子图中显示了在本地机构k中提出的模型邻近正则化（MPR）。算法一：VPFL和MPRLk=L gen，k+λd.w−wqΣni=1Fi−Fq<$2Σ、（9）输入：D1、D2、. - 是的- 是的，D，K，K个分散数据集;P，局部更新步骤; Q，通信轮数; γ，学习率; Θ1，.，ΘK，局部模型;Θ，全局模型。参数初始化对于q = 0到Q，对于k = 0到K并行地做将权重Θq部署到局部模型对于p = 0到P，VPGAN面部幻觉：使用公式计算损失Lgen，k5模型邻近正则化：计算关于Θp、q和Θq的近似项使用Eq.9、更新Θp，qK端将权重上载到中央服务器端使用Eq.8端returnΘQ为了最大限度地提高数据利用率并学习更通用的模型，我们提出了一个基于Fe-dAvg的vanilla FL框架[43]。我们不是直接共享私有数据集，而是利用集中式服务器间接从所有可用机构获取信息。这是通过定期汇总本地模型并向所有参与者广播更新结果来实现的。中央服务器中的全局更新计算如下：其中λd是平衡参数。在我们统一的框架VPFL，我们将VPGAN作为基础模型集成到FL框架中。因此，VPFL可以共同享受强大的视觉先验和大规模训练的好处，以获得更逼真和更忠实的幻觉。详细的训练过程可以在算法1中找到。4. 实验在我们的实验中，我们专注于从128×128TH图像合成512×512VIS人脸，重点是识别精度和图像质量。更多的分析、讨论和分辨率小于128 × 128的额外结果可以在补充材料中找到。数据集和评估指标。到目前为止没有在这个领域的标准化协议现有的方法，端口结果在自定义数据集/拆分上经过培训和测试。本文选择了两个常见的数据集（VIS-TH [42]和ARL-VTF[52]），其中高分辨率VIS图像可用。为了研究数据限制的影响，我们故意选择一个数据集比另一个更具挑战性。我们分别通过裁剪512×512和128×128的人脸区域来创建VIS-TH图像对。VIS-TH是一个具有挑战性的数据集，包含来自50名受试者的数据。每个受试者的图像包含21张不同的面孔Θq=1ΣKKk=1Θq，（8）在姿势、表情和光线条件上都有显著的差异。VIS- TH图像通过LWIR18681图3.客户分区示意图和不同的培训策略。形式，从而天真地对齐。我们通过从40个受试者中随机选择数据来构建训练集。来自10名受试者的剩余数据用作测试集。ARL-VTF以LWIR模式提供受试者我们通过随机选择160名受试者的子集创建数据集由此产生的数据分割包含3，200个训练对，400个验证对和985个测试对。应用颜色调整以减轻VIS图像的过度曝光。评估指标。本文扩展了现有的验证协议与图像质量测量。对于验证，我们遵循[8]并报告Rank-1准确度，验证率（VR）@错误接受率（FAR）= 1%，VR@FAR=0。百分之一。将每个受试者的一个VIS图像添加到图库集，探头集包含所有TH图像。为了测量图像质量，我们报告了感知度量LPIPS [77]，NIQE [45]，身份度量Deg（LightCNN [67]特征之间的余弦距离）以及像素PSNR和SSIM [65]。4.1. 实施和培训详情对于VPGAN，我们采用现成的StyleGAN 2 [26]作为我们的面部解码器。UNet编码器包含5个下采样阶段和7个上采样阶段，用于联合面部平移和上采样。最低级别的特征的空间大小为4×4。该网络使用Adam [27]优化器进行训练，具有以下超参数：前14万次迭代的初始学习率为2 e-3，然后减少到1 e-3;15万次最大迭代;批量大小为4;λa=1;λb=10;λc=100;λd= 10e-4 （如果适用）。我们使用 PyTorch 在 NvidiaRTX8000 GPU上实现了所提出的模型对于VPFL，我们采用与VPGAN相同的超参数，除了80K最大迭代次数。客户端和服务器之间的定期通信设置为200次迭代。通过从Dirichlet分布（α=0.3）中采样，将两个训练集进一步分为4个子集，以模拟FL方案中的异构数据分布，从而产生8个独立的客户端，如图3所示。每个客户端中的详细数据集统计信息在材料。对于FL设置中的实验，我们不仅比较了不同的FL算法，而且还比较了隐私保护的替代策略。LocalOnly模型仅使用来自单个客户端的数据进行训练我们将从所有本地客户端获得独立训练的模型并将其输出融合为Fused的方法表示为不违反隐私法规的方法。此外，我们还可以获得一个由所有可用数据训练的模型，它被表示为集中式。由于它在FL中是禁止的，我们将其视为上限。图3提供了FL设置中不同培训和评估策略的示意图。表1. VIS-TH数据集上的图像质量结果。红色和蓝色表示最佳和次佳性能。方法LPIPS↓ NIQE↓ 温度↑ PSNR↑ SSIM↑日0.714710.66636.136.410.3619[24]第二十四话0.38376.64243.9716.640.6818[70]第七十话0.37695.97351.0315.750.6794GANVFS [76]0.40126.31443.9516.690.6569萨根[6]0.27865.89962.3518.150.7179AxialGAN [23]0.26885.76162.6619.020.7190VPGAN（我们的）0.22535.50868.3618.960.74564.2. VPGAN评价VIS-TH数据集上的结果。为了证明我们的VPGAN的有效性，我们首先报告了具有挑战性的VIS-TH数据集的结果，并将其与 5 种代表性方法进行了比较：Pixel2Pixel [24]、HiFaceGAN [70]、GAN-VFS [76]、SAGAN [6]和AxialGAN [23]。Pixel2Pixel是一种众所周知的图像到图像的转换方法。HiFace-GAN是最先进的面部修复方法。对于TH-VIS幻觉，我们选择了三种领先的方法GANVFS，SAGAN和AxialGAN。注意：只有AxialGAN 公开了他们的代码。对于 GANVFS 和SAGAN，实现是从作者那里获得的。目视结果如图4所示。从该图中可以看出，先前的方法无法生成清晰可见的面部。具体地，Pixel 2 Pixel、HifaceGAN、GAN-VFS在所生成的面部中示出强伪影和失真。SAGAN和AxialGAN通过自注意机制改善幻觉，但产生的图像仍然非常模糊。相比之下，VPGAN的性能大大优于传统方法，并且它合成了最忠实和准确的人脸。定量质量评估结果见表1。我们的方法在几乎所有指标上都达到了最佳性能。VPGAN也获得了最高的Deg.价值，表明其在保持身份方面的优越所有这些结果都证明了将视觉先验用于HFR的巨大好处。我们在表2中报告了验证结果。鉴于优越的生成质量，VP- GAN在所有指标上都实现了最佳性能也就不足为奇了。具体-18682GT/THPixel2Pixel HiFaceGANGANVFS SAGAN AxialGANVPGAN图4.TH-VIS和ARL-VTF数据集的视觉比较低分辨率TH输入连接在GT图像的右下角，保留真实比例（128：512）。我们的VPGAN可以合成高质量的人脸，即使是具有挑战性的表情和大姿势。最好在屏幕上放大到400%表2. VIS-TH数据集的验证结果表4. ARL-VTF数据集的验证结果。方法秩-1VR@FAR=1% VR@FAR=0.1%方法秩-1VR@FAR=1% VR@FAR=0.1%[67]第六十七话30.488.572.86[67]第六十七话11.079.244.57[24]第二十四话15.242.210.07[24]第二十四话70.9656.3533.60[70]第七十话44.7610.952.86[70]第七十话70.1556.6532.18GANVFS [76]18.117.291.90GANVFS [76]70.7645.9922.03萨根[6]63.3323.8117.62萨根[6]71.1654.1138.07AxialGAN [23]66.6724.7613.81AxialGAN [23]71.5757.1637.36VPGAN（我们的）76.6745.7120.00VPGAN（我们的）74.1659.9641.27表3. ARL-VTF数据集上的图像质量结果。方法LPIPS↓ NIQE↓ 温度↑ PSNR↑ SSIM↑日0.672110.17642.345.630.2940[24]第二十四话0.20386.29870.6719.460.7759[70]第七十话0.21667.27470.1119.670.7954GANVFS [76]0.24336.67967.2619.760.7511萨根[6]0.19256.15571.1220.110.7772AxialGAN [23]0.19986.22369.7520.170.7770VPGAN（我们的）0.17136.05972.0020.290.7883实际上，我们的方法将基线LightCNN [67]显著提高了46%，并且之前最先进的Axial-GAN在Rank-1准确度上提高了10%。相比之下，低质量的幻觉，例如，从Pixel2Pixel和GANVFS，也可以削弱性能。ARL-VTF数据集上的结果。为了研究数据限制的影响，我们进一步报告了ARL-VTF的结果数据集。该数据集包含的受试者（160名）比VIS-TH多4倍，表达仅略有变化。请注意，对于一个单一的机构来说，在这种规模上实现多样性是不平凡的。如图4所示，数据的简单性使以前的方法能够产生预期的更好的视觉结果。虽然他们中的大多数人都能够生成面部轮廓，但他们很难创建详细的面部组件。相比之下，我们的方法可以产生逼真和忠实的面部细节。表3中的定量结果进一步证实了其优越的幻觉能力。人脸验证结果如表4所示。虽然以前的方法可以达到合理的性能，VPGAN仍然达到最佳性能，给出更清晰和准确的人脸细节。4.2.1消融研究视觉先验的影响。VPGAN的关键设计是利用丰富多样的视觉先验来获得更好的幻觉，ARL-VTFVIS-TH18683表5. VIS-TH数据集上的消融研究。1级VR@FAR=1%°的LPIPS↓PSNR↑无VP不含MSCA52.85 19.0471.90 31.4357.6963.150.2948 18.230.2460 18.74VPGAN38.1065.870.2381 18.85GT本地融合FedProx VPFL，不带MPRVPFL图5.FL设置下的目视比较VPFL能够恢复最准确的面部组件。第在这里，我们研究它的有效性。我们构造基线模型通过移除预训练的解码器，从而产生U形生成器。如表5所示，通过结合视觉先验，性能得到了显著改善，证明我们的设计确实是有益的和有帮助的。多尺度上下文聚合。VPGAN在标准UNet编码器的基础上增加了多尺度上下文聚合模块。表5显示了它的效果。加入MSCA可以在所有指标上都有明显的改善，特别是在识别准确性和Deg.这些结果表明，MSCA可以提供更准确的生成控制和更好地保存身份信息。4.3. VPFL评价在这里，我们通过揭示性能和可推广性差距来展示HFR协作培训的好处。表6给出了三个子表VIS-TH、ARL-VTF和Global Test Avg上不同隐私保护策略的验证和质量评估结果。全球测试平均值是指两个数据集上的平均性能，反映了泛化能力。每个子表的前8行报告本地训练模型的结果（仅限本地）。我们把它们当作底线。由于数据的异质性，所有本地训练的模型对来自另一个模型的数据表现出较低的泛化能力分布例如，C1-C4在ARL-VTF上实现低性能，反之亦然。这也可以通过他们在全球测试平均值上的糟糕结果来验证。此外，朴素融合策略不能持续地提高性能。相比之下，通过引入FL方案可以观察到明显的改善与强大的FL基线FedProx [34]（经验最佳µ= 10 e-4）相比，我们的VPFL实现了更好的整体性能，并且最接近集中式上限。这些结果表明，VPFL可以很好地推广，对异构数据分布更强大。作为表6.FL设置下不同方法的验证和图像质量比较VR 1%表示VR@FAR= 1%。VIS-TH方法排名-1 ↑VR 1%↑VR0.1%↑温度↑PSNR↑SSIM↑LPIPS↓NIQE↓仅限C159.0530.9517.6260.6918.050.7230.2625.903仅限C232.861.900.4851.5216.560.6990.3155.809仅限C350.9520.007.1455.4917.650.7180.2836.403仅限C446.1917.6210.0056.8217.010.7000.2945.748仅限C547.6217.148.1051.6414.940.6640.3835.911仅限C642.8611.436.1953.1714.750.6640.3856.171仅限C740.9515.245.2451.3015.010.6680.3856.420仅限C840.9515.715.7152.2014.800.6650.3846.426融合37.6216.197.1455.8317.360.7320.3286.934联邦快递[34]66.1930.9520.0061.9917.860.7180.2625.565VPFL，不带MPR70.9530.9522.3861.1618.190.7190.2545.579VPFL73.8135.7125.7165.8118.810.7280.2455.651集中76.6739.0524.7666.6318.710.7430.2325.729ARL-VTF方法排名-1 ↑VR 1%↑VR0.1%↑温度↑PSNR↑SSIM↑LPIPS↓NIQE↓仅限C117.7710.662.4452.4416.780.6990.3256.708仅限C220.5111.782.7447.6516.670.7040.3306.821仅限C316.8514.312.8449.4116.670.7130.3326.777仅限C423.5510.663.9653.3016.510.6900.3356.771仅限C554.1139.8020.1064.9619.360.7640.2116.770仅限C654.3136.6522.3465.6619.280.7680.2136.294仅限C740.9133.9118.0763.4519.510.7760.2116.335仅限C854.8237.7720.9164.0519.010.7620.2226.205融合37.1626.5010.5662.4519.960.7890.2606.840联邦快递[34]57.7737.3615.9467.2119.600.7700.2126.022VPFL，不带MPR62.0336.1416.4567.4619.510.7700.2096.019VPFL65.7940.7122.2367.6819.690.7730.2036.013集中69.3457.7728.6371.2820.080.7850.1866.106全球测试平均值方法排名-1 ↑VR 1%↑VR0.1%↑温度↑PSNR↑SSIM↑LPIPS↓NIQE↓仅限C138.4120.8110.0356.5717.410.7110.2936.306仅限C226.696.841.6149.5916.610.7010.3226.315仅限C333.9017.164.9952.4517.160.7160.3086.590仅限C434.8714.146.9855.0616.760.6950.3146.259仅限C550.8728.4714.1058.3017.150.7140.2976.341仅限C648.5924.0414.2759.4217.010.7160.2996.233仅限C740.9324.5811.6657.3817.260.7220.2986.378仅限C847.8926.7413.3158.1316.900.7130.3036.316融合37.3921.358.8559.1418.660.7610.2946.887联邦快递[34]61.9834.1617.9764.6018.730.7440.2375.794VPFL，不带MPR66.4933.5519.4264.3118.850.7450.2315.799VPFL69.8038.2123.9766.7519.250.7510.2245.832集中73.0148.4126.7068.9619.400.7640.2095.918如每个子表的最后三行所示，优点来自于新设计的MPR。这些定量结果也与图5中的目视比较一致。可以看出，VPFL产生最准确和最忠实的幻觉结果。5. 结论在本文中，我们提出了一个统一的框架VPFL异构人脸幻觉。VPFL由一个新的VPGAN和一个新的联邦学习（FL）计划。VPGAN引入了强大的视觉先验，以避免从头开始学习幻觉，从而在当前数据限制下实现更准确的生成。考虑到实际的隐私问题，拟议的FL计划允许机构之间的合作，而不共享数据，使大规模的培训成为可能。大量的实验表明，VPFL可以显着提高HFR的合成准确和逼真的可见人脸在一个分辨率未见文献。关于限制的讨论见补充材料。致谢这项工作得到了NSF CARRER奖2045489的支持。18684引用[1] buaa-visnir人脸数据库说明。2012. 1[2] Durmus Alp Emre Acar ， Yue Zhao ， Ramon Matas ，Matthew Mattina ， Paul Whatmough ， and VenkateshSaligrama.基于动态正则化的反馈学习。2020年国际学习代表会议。三、五[3] Divyansh Aggarwal，Jiayu Zhou，and Anil K Jain. Fed-face：人脸识别的协同学习模型.arXiv预印本arXiv：2104.03008，2021。3[4] Kelvin CK Chan ， Xintao Wang ， Xiangyu Xu ， JinweiGu，and Chen Change Loy. Glean：用于大因子图像超分辨率的生成潜在库。在IEEE计算机视觉和模式识别会议上，第14245- 14254页，2021年。3[5] 邓健康，贾国，薛念南，Stefanos Zafeiriou。Arcface：用于深层面部识别的附加角裕度损失在IEEE计算机视觉和模式识别会议上，第4690-4699页，2019年。1、4[6] Xing Di，Benjamin S Riggan，Shuowen Hu，Nathaniel JShort，and Vishal M Patel.通过自我注意引导合成的偏振热到可见人脸验证。在IEEE国际生物识别会议上，第1三六七[7] Xing Di，He Zhang，and Vishal M Patel.通过属性保留合成的偏振在IEEE生物识别理论，应用程序和系统国际会议上，第1-10页第1、3条[8]

下载后可阅读完整内容，剩余1页未读，立即下载