基于生成对抗网络的注视重定向及图像合成方法

90 浏览量更新于2023-10-13 收藏 763KB PDF 举报

生成对抗网络

图像质量

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6932基于生成对抗网络何哲1，2，Adrian Spurr1，Xucong Zhang1，OtmarHilliges11苏黎世联邦理工学院AIT实验室2苏黎世联邦理工学院神经信息学研究所zhehe@student.ethz.ch，{adrian.spurr，xucong.zhang，otmar.hilliges}@ inf.ethz.ch摘要注视重定向是针对给定的单眼眼罩图像将注视改变到期望方向的任务。诸如视频会议、电影、游戏和用于注视估计的训练数据的生成的许多应用需要重定向注视，而不使注视的外观失真。（一）（b）第（1）款眼睛周围的区域，同时产生照片般逼真的图像。现有的方法缺乏生成感知上合理的图像的能力在这项工作中，我们提出了一种新的方法来缓解这个问题，通过利用生成对抗训练来合成目标注视方向上的眼睛图像我们的方法确保感知的相似性和一致性的合成图像的真实图像。此外，视线估计损失用于精确地控制视线方向为了获得高质量的图像，我们将感知和周期一致性损失纳入我们的架构。在广泛的评估中，我们表明，所提出的方法优于国家的最先进的方法在图像质量和redirec- tion精度。最后，我们表明，生成的图像可以带来显着的改善凝视估计任务，如果用于增强真实的训练数据。1. 介绍在认知科学中，众所周知，凝视在社会交往中起着至关重要的作用[16]，因为它传达了重要的非语言线索，如情绪，意图和注意力。因此，诸如视频会议和电影的许多应用此外，基于学习的凝视估计最近在野外数据集的基础上取得了重大进展然而，这样的数据难以获取，并且由于收集设备，数据集通常仅覆盖有限范围的注视角度。可以利用高保真凝视校正技术来缓解该问题图1：Columbia Gaze数据集上的凝视重定向[26]。(a) 源图像中的对象的注视完全居中。(b) 用我们的方法合成了具有不同注视方向的眼睛图像序列。通过合成新的样本来增强现有的数据集。可靠且鲁棒的注视重定向方法必须能够（a）将注视精确地重定向到任何给定方向，以及（b）产生逼真的输出图像，保留输入图像的形状和纹理细节。传统的解决方案通过执行3D变换来重新渲染整个场景，这需要大量的仪器来获取深度信息[20，31，34，5]。最近，Ganinet al.直接重新排列输入图像的像素，以通过神经网络生成的扭曲流旋转注视方向[8]。然而，他们的方法无法生成用于大重定向角度的照片级逼真的图像，特别是在存在大的不遮挡（dis-occlusion）的情况下，诸如在源图像中眼球的大部分被眼睑覆盖。更重要的是，这样的扭曲方法在注视重定向方面不能在感知上是合理的，因为它在没有任何几何正则化的情况下最小化了合成图像和地面实况为了解决以前方法的局限性，我们提出了一种新的视线重定向方法，该方法建立在生成对抗网络（GANs）[9]的基础上。据我们所知，这是第一种将GAN应用于视线重定向的方法如图1、所提出的方法可以输出6933DXgDFXtV千兆克Lp输入G发生器输出D鉴别器地面实况VGGVGG-Net重构注视向量L记录DGXRX射线记录L凝视XgDr˜雷亚尔阿克(a)（b）第（1）款图2：我们提出的方法的概述。（a）生成器G将原始眼睛图像Xr和目标注视方向dg作为输入，并且输出合成的重定向眼睛图像Xg。然后将xg和源注视方向dr馈送到G中以重建xr ec。（b）鉴别器D被训练以鉴别真实图像和合成图像，并且它还估计注视方向以计算注视估计损失。VGG采用合成图像Xg和地面实况图像Xt以产生用于所生成图像的细化的感知损失请参阅Sec。3.1详情例如，可以从单个单目RGB图像生成照片般逼真的眼睛图像，同时准确地保持期望的注视方向。更具体地说，我们使用条件GAN [23]作为图1所示架构的骨干。2.生成器G将真实眼睛图像作为输入并生成新的合成眼睛图像。我们的主要贡献是一种新颖的鉴别器D，其用于以下双重目的：i）确保生成的图像是真实的，如在许多GAN公式中常见的，以及ii）确保输出中的注视方向与馈送到生成器的输入注视方向一致。这是通过将注视估计器并入鉴别器网络中来实现的。此外，我们试图提高感知相似性之间产生的补丁和地面实况参考。为此，我们利用感知损失，通过单独的预训练神经网络惩罚从生成的图像和地面实况图像中提取的特征之间的差异。最后，为了确保个性化的功能不丢失的过程中的凝视重定向，我们使用的周期一致性损失，强制执行源图像和生成的眼罩之间的一致性。我们评估我们的方法在定量实验，并通过定性的用户研究。此外，我们认为，作为图像质量的度量的逐像素差异不适合于注视重定向的任务，因为它与视觉感知不相关。为了解决这个问题，我们建议使用LPIPS[32]、图像模糊和注视估计误差作为我们定量评估的度量。为生成的IM的高质量提供进一步的证据年龄，我们在一个对照实验中表明，合成样本可用于增强凝视估计网络的训练数据我们的研究结果表明，显着的改善，在角度凝视误差方面相比，训练与真实图像。这表明我们的方法可以成为进一步提高基于深度学习的凝视估计器所获得的准确性的重要工具。我们的主要贡献可概括如下：• 我们提出了一种新的凝视重定向方法在单目眼睛图像。从技术上讲，通过特征丢失、注视正则化和对抗训练。据我们所知，这是第一个基于GANs的方法。• 我们对凝视重定向任务进行了彻底的定性和定量评估，表明我们的方法达到了最先进的性能。• 最后，我们展示了利用凝视redi- rection通过训练数据增强来合成凝视估计任务的训练数据的潜力2. 相关工作重定向凝视的方法可以分为两组：新颖视角合成和单眼凝视合成。新视图合成方法[20，31，34，5]从给定的视点渲染包含主体的面部的场景以模仿凝视相机。这些方法需要脸部的深度图，然后合成新的φg，θgXgGGφr，θrφ1，θ26934R2通过执行3D变换，在具有重定向凝视的情况下对受试者的图像进行处理这些方法主要用于在视频会议中校正注视的目的，其中相机被放置在距屏幕固定距离处。然而，这些方法需要专用硬件来获取深度。此外，它们改变了整个场景，这限制了它们的适用性。单眼凝视合成也旨在改变眼睛区域内的凝视。Wolf等人[28]提出了用来自同一个人的眼睛在看向不同方向时替换图像中的眼睛。虽然这种方法在编辑后保留了眼睛的真实感，但它需要预先收集大量的眼睛图像。此外，在该方法中忽略眼睑的移动。最近，已经提出了许多基于翘曲的方法[8，17]。这些方法使用随机森林或深度神经网络来学习流场，以将像素从输入图像移动到具有期望注视方向的输出图像。然而，这样的方法不能处理眼睛的一部分被遮挡的情况，因为它们仅用来自原始图像的现有像素替换像素而不生成任何新像素。欧几里德距离通常用作基于翘曲的方法中的误差度量[8，17]。然而，这并不能准确地反映图像之间的感知差异已经提出了许多基于3D建模的方法[3，29]。该方法首先利用三维模型拟合源图像的纹理和形状，然后将合成的眼球叠加到源图像上。然而，建模方法做出了在实践中不成立的强假设。因此，他们不能处理图像与眼镜和其他高变异性的人际差异。3. 方法3.1. 概述我们的目标是学习一个生成器G，它可以将图像中包含的眼睛注视重定向到任何方向。给定眼罩的RGB 图像 xr∈RH×W×3 和目标注视方向向量dg=[φg，θg]，其中φg∈R和θg∈R分别表示目标偏航角和俯仰角，任务是重定向在xr中描绘的注视以对应于到目标向量dg的角度，从而产生输出图像xg。该输出需要满足两个要求。首先，它必须看起来真实和一致。这要求xg的形状和纹理与真实数据的形状和纹理不可区分为此，我们采用鉴别器D，其在生成的眼睛图像和真实的眼睛图像之间进行鉴别。为了进一步细化生成的图像，我们引入了一个基于特征的损失，惩罚生成的图像和地面实况图像之间的差异。第二，Xg中的眼睛注视方向应当看向目标注视dg指示的方向这是经由实施注视方向的辅助眼睛注视估计器D注视来图2提供了该方法的完整概述我们将在下面更详细地讨论这些组件。3.2. 目标我们的方法通过下面讨论的新的损失项的集成扩展了GAN框架。骨干由现有的条件GAN框架形成。对抗性损失我们基于WGAN-GP [10]建立，由于其稳定的性能，并采用其对抗性损失来训练鉴别器D和生成器G，扩展G以获取条件输入：Ladv=Exrpx（x）[Dadv（xr）−Dadv（G（xr，dg））]+生成式对抗网络GAN [9]具有更高的性能，λgpExpx（x）[（xDadv（x）2-1）2]（一）已经被广泛应用于许多计算机视觉任务，例如图像超分辨率[21]和图像压缩[1]，并且近年来已经提出了无数的进一步变体（例如，[22、2、4、4、10]）。基于GAN的方法也被提出用于图像到图像的翻译任务，从而产生了令人印象深刻的结果[23，12]。然而，这些方法通常需要成对的数据来训练。 Zhu 等提出了CycleGAN ，它的功能没有这样的要求 [35] 。CycleGAN的几个衍生物存在用于各种任务[11，30]。我们的方法是基于由方程式1，pxr（x）表示实数的概率分布，图像. Dadv（x）是加法器的输出。最后一项是梯度罚函数，它用于保持Dadv的1-Lipschitz连续性。超参数λgp控制梯度惩罚的强度，并且我们在所有实验中使用λgp=10注视估计损失我们的核心贡献之一是将辅助注视估计器D注视并入GAN框架。使用MSE损失在真实图像和注视方向对（xr，dr）上训练D注视GAN模型与这些工作有两个不同之处。首先，我们关注一项不同的任务，即D目光 =Exrpx（十）非政府组织 −D凝视（xr）<$2、（二）凝视重定向其次，我们使用了一些特殊的目的损失，包括地面实况和合成图像之间的感知损失和用于训练的注视方向保留损失，我们通过实验证明这会显着影响模型性能。其中在实践中，D凝视与Dadv共享一些层。对于训练G，所生成的图像Xg=G（Xr，dg）被馈送到注视估计器D注视中。估计注视D注视（xg）和目标注视dg之间的差异被用作惩罚G的损失。更具体地说，我们添加LR69352R目光H W C将以下损失函数用于G的训练目标，保持D凝视的权重固定：在等式7中，Ls是从VGG网的第1层到第J层的所有样式损耗的总和。fj（x）表示格拉姆矩阵，其被定义为：G目光 =Exrpx（十）秘书长d g −D凝视（G（xr，dg））<$2（三）f（x）1小时jWuj′=ψ（x）ψ（x）（八）重建损失上述两个损失项可以迫使所生成的眼罩图像是照片真实的，jc，cNjh，w，cjHWh、w、c并同时确保注视方向的重定向。然而，这些损失中没有一个确保在重定向过程期间这在许多设想的应用场景中是重要的特征，在[35]之后，我们强制执行循环一致性，惩罚不良的重建，如下所示：xrec=G（G（xr，dg），dr）（4）Lrec=Exrpx（x）xr−xrec1（5）Nj=HjWjCj（9）优化内容损失鼓励xg在整体结构和空间关系方面在感知上类似于xt同时，通过最小化风格损失，生成器试图细化xg的细节，如颜色和纹理，以增加与xt的相似性。感知损失是内容损失和风格损失的总和Lp=Lc+Ls（ 10）总体目标最终的培训目标包括两个部分，分别针对G和D：在这里，我们要求网络首先将凝视重定向到期望的方向，并且连续地，我们生成具有原始凝视作为目标的第三上述损失确保了LG=−Ladv+λpLp+λgazeLGLD=Ladv+λ凝视LD+λrecLrec（11）（十二）输入和两次编码图像尽可能相似。通过惩罚重建差异，我们迫使生成器保持眼睛的个性化特征，否则这些特征将丢失。我们使用L1损失，因为它的经验表现更好的L2损失相比.感知损失在我们的任务中，人类凝视仅取决于俯仰角和偏航角，这使得通过简单地要求受试者看向目标方向就可以轻松获得地面实况凝视图像。这些地面实况图像也可以纳入培训过程。一种可能的方法是使用地面实况图像和生成的图像之间的均方误差（MSE）作为惩罚项。然而，对生成的图像应用MSE损失将过于严格，因为它会惩罚所有方面的像素差异，其中微小的未对准可能导致较大的MSE，而人类几乎无法分辨差异（见表）。①的人。或者，我们采用[13]中提出的感知损失来惩罚生成器G生成感知上不匹配地面实况图像的图像为此，我们使用VGG-16网[25]在ImageNet上预先训练[19]。令表示预训练的 VGG-16 网络， j （ x ）∈RHj×Wj×Cj 是第j层的动作。两种感知损失，即内容损失Lc和风格损失Ls定义如下：目光其中λp、λgaze和λrec是控制每个损失项贡献的超参数在所有实验中，我们将它们设置为 λp=100 ，λgaze=5，λrec=50。4. 执行4.1. 网络架构生成器生成器将RGB眼罩图像x∈RH×W×3和注视方向向量d∈R2作为输入。通过逐通道复制将d扩展为RH×W×2使得x和d可以在深度方向上级联我们使用[13]中介绍的生成器架构的修改变体，其细节可以在补充中找到。我们修改了WGAN-GP [10]的判别器架构的最后一层，以具有两个输出分支：一个人进行真/假辨别，另一个分别输出注视估计VGG-16 我们使用[25]中介绍的VGG-16 的标准架构。我们利用第五层的激活来产生内容损失，利用第一到第四层的激活来产生风格损失。4.2. 培训详细信息对于以下所有实验，我们使用 Adam [15]optimizer，β1=0。5，β2=0。999我们的模型经过训练Lc=E1xrpxr（x）[j jjJǁψj(G(xr, dg))−ψj(xt)ǁ2]（六）LRJ6936rxr对于300 个时期，批量大小为32。学习率设置对于前 150 个历元为0.0002，并且在接下来的150个历元期间线性衰减到0。对于生成器的每一次更新，我们都要更新五次。培训Ls=Exp（x）[fj（G（xr，dg））−fj（xt）2]（7）j=1在单个NVIDIA®R上，此过程大约需要16个小时GPU。1080Ti6937HW0表1：图像劣化的示例。（a）眼罩用于缩放激活。在我们的工作中，我们使用预先训练的Alex-Net [19]作为骨干，在计算表中前面示例的LPIPS时。1，我们看到分数更符合人类的评价。图像模糊（IB）。为了测量生成的凝视图像的模糊度，我们使用拉普拉斯滤波器k并对灰度凝视图像xgray执行卷积。通过计算方差的倒数，可以得到图像的模糊度从训练集。（b）用高斯滤波器模糊。（c）随机高斯噪声。（d）上移一个像素。滤波后的图像，如以下等式所示0 1 015. 实验k=101−41，IB=0 1 1Var[kx灰色].（十四）在本节中，我们详细介绍了定量和定性实验，进行评估我们的方法。5.1. 度量如前所述（参见第二节）。1），要求注视重定向模型在重定向时是精确的并且产生照片般逼真和一致的图像。相应地，评价指标需要能够评估这些方面。在单眼注视操纵的先前工作中[8，29]，均方误差（MSE）被用作度量来测量所生成的眼睛图像与地面实况眼睛图像之间的相似性。这被用作性能的定量测量。然而，我们认为，注视估计误差。对于凝视我们采用了最先进的凝视系统Park等人提出的估计器。[24]这是在MPIIGaze上预先训练的[33]。估计器预测所生成的注视图像的注视方向。目标注视方向dg和预测注视方向df之间的角度误差δ被用作注视估计误差。为了获得δ，偏航角和俯仰角（φ，θ）需要首先转换成三维笛卡尔坐标v= T（d）=[cos φ cos θ，− sin φ，cos φ sin θ]。（十五）其中T（. ）表示两个坐标系之间的映射然后，δ可以通过以下计算获得不是这个任务的理想度量，正如之前在相关工作中观察到的那样[27]。为了说明这个问题，我们创建了三种类型的图像退化，选择：VG =T（dg），v=T（d）vT·v（十六）如表中所示的地面实况。 1. 质量，表。1d）与地面实况表最相似。1 a）。然而，在计算MSE时，我们看到这并不意味着5.2. 数据集δ= arccosg。（十七）vg与一个人的定性判断密切相关相反，我们建议使用以下三个误差度量：LPIPS分数、图像模糊度和注视估计误差。LPIPS 评分。我们使用学习感知图像块相似性（LPIPS）[32]度量来评估生成的凝视图像的视觉质量。与传统的评价指标不同，LPIPS基于深度网络，旨在模拟人类对图像的感知。LPIPS评分如下：我们使用Columbia Gaze数据集[26]进行评估，这是从56名受试者收集的高分辨率、公开可用的人类凝视数据集。每个主体的头部姿势是集合中的离散值[-30，-15，0，15，30]。对于每个头部姿势，有21个注视方向，它们是三个俯仰角[−10◦，0◦，10◦]和s ev eny a w角[−15◦，−10◦，−5◦，0◦，5◦，10◦，15◦]的组合。在这里，我们只使用正面的图像，即。 0头部姿势。补充资料中提供了非正面面部的结果我们Σd（x，x0）=L1HlWlΣh，wwl⊙（y布里尔0hw2二（十三）将数据分为训练集和测试集。前一组包括50个受试者，而后者包含6个受试者。我们首先使用dlib[14]通过解析具有68个面部标志点的面部来运行面部对齐在那之后，一个最小的封闭的其中d（x，x0）表示图像x∈RH×W×3和x0∈RH×W×3之间的LPIPS 得分。变量y∈RHl×Wl×Cl 且y∈RHl×Wl×Cl 是来自骨干网络的第l层的信道方式的单元归一化激活，并且w l∈ RCl是可训练权重从每只眼睛的6个界标点提取具有中心（x，y）和半径R的圆眼罩的裁剪区域被设置为具有中心（x，y）和边长3的正方形框。4R。我们水平翻转右眼图像以与左眼图像对齐所有眼罩图像均-Y）(a)眼罩(b)模糊(c)嘈杂(d)移位MSE69.57155.36176.06LPIPS0.1220.1060.0166938尺寸为64× 64。图像和注视方向的像素值都被归一化到范围[-1。0，1。0]。其他公开可用的凝视数据集，例如MPIIGaze[33]或EYEDIAP [7]仅提供低分辨率图像，因此会引入对低质量图像的偏见。因此，这些数据集不适合我们的任务。5.3. 评价方案我们在测试集中包含的6个受试者上测试了每个模型，其中包括252个眼罩图像。对于每个图像，我们分别将视线重定向到20个视线方向，不包括当前图像的视线方向输入DeepWarp我们的目标直观地，如果目标注视方向与原始注视方向显著不同，则模型将更难重定向注视。因此，我们定义校正角γ以指示原始注视方向与目标注视方向之间的角度差。计算方法如下：图3：凝视重定向比较。DeepWarpvg=T（dg），vr=T（dr）（18）vT·vr我们γ= arccosGvg（十九）其中，T（？）是上述等式中的映射。十五岁5.4. 与最新技术基线模型我们采用DeepWarp [8]作为我们的基线模型.最初的实现使用7个眼睛地标作为输入，包括瞳孔中心。然而，检测瞳孔中心是非常具有挑战性的任务。因此，我们只使用了6个地标作为DeepWarp的输入。不幸的是，评价最近的工作GazeDirector[29]与所提出的误差度量是不可能的，因为它们的实现不可用。因此，我们没有在我们的论文中比较GazeDirector。定性评价图3和图4显示了生成的凝视图像示例。虽然这两种方法都能够重定向凝视，但我们观察到DeepWarp生成的图像有几个明显的缺陷。首先，皮肤和眉毛等纹理更加模糊。第二，某些部位的形状，如眼睑边缘（见图）。4），虹膜和眼镜（见图。（3）扭曲。相比之下，我们提出的方法的生成的凝视图像更忠实于输入图像。定量评价图图5a绘制了DeepWarp和我们的方法的LPIPS分数。校正角的范围为[4. 9◦，35. 9分]。从图中我们可以看到，我们的方法在每个校正角度都比DeepWarp获得了更低的LPIPS分数，这表明我们的方法可以生成在感知上更类似于地面实况图像的凝视图像。这一观察结果与定性评价一致（图1）。3和图4）.图4：放大细节比较。图5b绘制了所产生的图像的模糊度。我们的方法优于相关工作的一个很大的保证金，是- ING更接近在真实图像中观察到的模糊。图5c呈现注视估计误差的结果。我们的方法的误差比DeepWarp低得多，这表明我们的方法可以以更高的精度重定向凝视此外，我们还进行了一项用户研究，以比较DeepWarp [8]和我们的方法的性能由于校正角度的总体范围是[4. 9◦，35. 我们将生成的凝视图像分为三组：[4. 九点十五分0◦]，（15. 0◦ ，2 5。0分 ]，（25.0◦，35。9◦]，其表示从容易到困难的凝视重定向的难度。在每组中，我们随机选择了19对由两种方法生成的图像，具有相同的输入图像和注视方向。一对中的两个图像并排显示给用户，没有任何进一步的信息。用户的任务是挑选看起来比其他更真实的凝视图像总共有16名用户参与了我们的研究。表2显示了用户研究的结果。我们可以看到，我们的方法比DeepWarp有很大的优势。定量评价的结果如图所示。5与用户评估一致，这表明我们使用的度量在注视重定向任务的评估中是有效的。6939DeepWarp我们的真实数据（一）10 20301e264（b）第（1）款10 2030定量结果图7a示出了完整模型、没有L_rec的模型和没有L_p 的模型的LPIPS 得分。显然，LPIPS分数在没有L_rec或L_p中的任一个的情况下增加，这指示两个项对于改善重定向凝视图像的视觉质量是模糊度评分如图1B所示7b也是一致的校正角（）（c）第（1）款1510510 20 30校正角（）校正角（）与定性结果中观察到的结果一致，完整模型产生最清晰的图像。图7c呈现注视估计误差。L_rec或L_p的去除不会显著恶化注视估计误差，因为重定向的精度主要由L注视控制。5.6.增强凝视数据最后，我们研究了利用我们的图 5 ： DeepWarp 和我们的方法的定量评估结果。(a)LPIPS评分（越低越好）。(b)图像模糊（越低越好）。（c）注视估计误差（越低越好）组DeepWarp [8]我们◦ ◦[4. 九点十五分0个字符]◦(15. 0◦，25。0◦](25. 0，35。九、百分之二十一点九9.0%百分之十三点四百分之七十八点一91.0%86.6%表2：用户研究的投票结果，比较DeepWarp和我们的方法。每一行的总和为100%。5.5. 消融研究为了了解我们提出的模型的每个组件的效果，我们进行了消融研究。如SEC中所述。3.1、除了对抗性损失，还有其他三个损失术语：凝视估计损失、重建损失和感知损失。我们为这些额外的损失项中的每一个训练了一个模型，其中一个项从总损失中删除。定性结果我们将结果显示在图中。6.从图2的第二列可以看出。6，该模型不能保持来自没有L rec的输入图像的特征。最重要的例子在第一行，没有Lrec的模型不保留眼镜当丢弃L凝视时，可以观察到模型未能完全重定向凝视。因此，我们将不在以下定量评估中进一步考虑不使用L凝视的Lp的去除导致图像质量降低，这可以在生成的图像中视觉验证。这些照片显示了一些人为因素，如眼睑形状、虹膜和眼镜（图（六）。用于眼睛注视估计任务的数据增强的方法。这是由基于深度学习的凝视估计的快速进展（例如，[33，24]）。虽然使用卷积神经网络（CNN）的基于外观的凝视估计技术在野外环境中已显着超过经典技术[33]，但在高精度领域的适用性方面仍存在显着差距。目前报告的最低个人独立误差为4。在60 cm的距离处，3cm[6]大致等于4.7 cm这种相对较高的误差的一个原因是缺乏足够的训练数据。特别地，已知的是，由于硬件限制，许多数据集仅覆盖相对小范围的注视角因此，我们建议利用我们的模型来增强现有的数据集，以扩大视线方向的范围，并导致更好的视线估计性能。据我们所知，这是第一次探讨了注视重定向模型改善注视估计模型的潜力为了评估我们的方法在这种情况下的适用性，我们进行了概念验证实验，表明我们的技术可以填充看不见的注视角度。首先，我们构建了两个数据集。原始数据集包含所有10位数的eye im ages来自Columbia Gaze数据集的俯仰角[26]。增强数据集包含来自原始数据集的图像。此外，我们拍摄了6个测试受试者的图像（参见第2节）。5.2），并使用它们来合成俯仰角为−10◦和0◦的新的gaze图像。我们训练了两个凝视估计器，数据集分别。两个估计器均由相同的VGG-16 [25]架构构建。由于增强数据集包含更多的图像，我们训练了相应的估计器更少的时期。实施细节见补充文件。为了测试估计量，我们使用了两个测试集。(1)哥伦比亚凝视由于Columbia Gaze数据集中的眼睛图像具有俯仰角−1 0◦和50训练的0 ◦1.01e 10.80.60.4LPIPS注视估计误差模糊6940完整模型，不带记录不带P真实数据输入W/OL记录w/ow/oL凝视Lp完整模型目标（一）（b）第（1）款（c）第（1）款（d）其他事项图6：（a）没有L_rec的模型和（b）没有L_凝视的模型、（c）没有L_p的模型和（d）完整模型的凝视重定向结果。1.01e 10.80.60.4（一）3.53.02.51e2（b）第（1）款数据集原增强哥伦比亚MPIIGaze◦十四岁3◦20块26 9◦1 .一、0◦4.第一章表3：注视估计误差。列名是火车-10 20 30校正角（）（c）第（1）款1086410 20 30校正角（）10 20 30校正角（）ing set，而row name是测试集。因此，预计训练的估计器在测试集上的推广较差，其中大多数样本具有不同的音高角。相比之下，增强图像有助于估计器更好地推广到看不见的角度，提高测试集的性能。6. 结论图7：我们的完整模型、无Lrec模型和无Lp模型的定量评估结果。(a)LPIPS评分（越低越好）。(b)图像模糊LPIPS模糊注视估计误差6941（越低越好）。(c)凝视估计误差（越低越好）主题（见第二节）5.2)还没有被凝视估计者看到，我们使用这些图像作为我们的测试集而不泄露信息。(2)MPIIGaze. 对于跨数据集评估，我们采用MPIIGaze[33]的测试集，其中俯仰角在[-20，1. 5分]。如表3所示，在增强数据集上训练的注视估计器总是比在原始数据集上训练的注视估计器表现更好。直观地说，由于原始数据集只包含具有正音高的图像，在本文中，我们提出了一种利用生成对抗网络的新的单目注视重定向方法。所提出的方法可以生成照片般逼真的眼睛图像，同时保持所需的视线方向。为了进一步细化生成的图像，我们将感知损失纳入对抗训练，并包括周期一致性损失以保留个性化特征。广泛的评估表明，我们的方法优于以前的国家的最先进的方法在图像质量和重定向精度。最后，我们表明，我们的凝视redi- rection方法可以通过生成额外的训练数据与控制的凝视方向，有利于凝视估计任务7. 确认我们感谢NVIDIA公司捐赠用于这项工作的GPU。6942引用[1] EirikurAgustsson ， MichaelTschannen ， FabianMentzer，Radu Timofte，and Luc Van Gool.用于极端学习图像压缩的生成对抗网络。arXiv预印本arXiv：1804.02958，2018。[2] 马丁 ·阿乔对 ky ，苏米特 ·钦塔拉和 Le'onBottou 。Wasserstein gan arXiv预印本arXiv：1701.07875，2017。[3] Michael Banf和Volker Blanz基于示例的眼球运动渲染在Computer Graphics Forum，第28卷，第659-666页中。Wiley Online Library，2009.[4] David Berthelot Thomas Schumm 和 Luke Metz 。 Be-gan：边界平衡生成对抗网络。arXiv预印本arXiv：1703.10717，2017.[5] Antonio Criminisi 、 Jamie Shotton 、 Andrew Blake 和Philip HS Torr。用于一对一远程会议的注视操纵。在ICCV，第3卷，第13-16页[6] Tobias Fischer ， Hyung Jin Chang ， and YiannisDemiris.RT-GENE：自然环境中的实时眼睛注视估计在ECCV，2018年9月。[7] 肯尼思·阿尔贝托·富内斯·莫拉，弗洛朗·莫奈，让-马克·奥多贝兹. Eyediap：一个用于开发和评估rgb和rgb-d相机凝视估计算法的数据库。ACM眼动追踪研究与应用集。ACM，3月2014年[8] 雅罗斯拉夫·甘宁，丹尼尔·科诺年科，戴安娜·桑加图利娜，维克多·伦皮茨基。Deepwarp：用于凝视操作的真实感图像重新合成。欧洲计算机视觉会议，第311-326页。施普林格，2016年。[9] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在神经信息处理系统的进展，第2672[10] Ishaan Gulrajani 、 Faruk Ahmed 、 Martin Arjovsky 、Vincent Dumoulin和Aaron C Courville。改进的瓦瑟斯坦甘斯训练。神经信息处理系统进展，第5767-5777页，2017年[11] Xun Huang ， Ming-Yu Liu ， Serge Belongie ， and JanKautz.多模态无监督图像到图像翻译。在欧洲计算机视觉会议（ECCV）的会议记录中，第172-189页[12] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros.使用条件对抗网络的图像到图像翻译。在IEEE计算机视觉和模式识别会议论文集，第1125-1134页，2017年。[13] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。欧洲计算机视觉会议，第694-711页。施普林格，2016年。[14] 戴维斯E.王Dlib-ml：一个机器学习工具包。Journal ofMachine Learning Research，10：1755[15] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。[16] 克里斯·L·克莱因克凝视和眼神交流：研究综述Psychological bulletin，100（1）：78，1986.[17] 丹尼尔·科诺年科和维克多·伦皮茨基。学习仰望：使用机器学习的实时单眼凝视校正。在IEEE计算机视觉和模式识别会议论文集，第4667-4675页，2015年。[18] Kyle Krafka ， Aditya Khosla ， Petr Kellnhofer ， HariniKan- nan，Suchendra Bhandarkar，Wojciech Matusik，and Anto- nio Torralba.每个人的眼动追踪在IEEE计算机视觉和模式识别会议论文集，第2176-2184页[19] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。神经信息处理系统的进展，第1097-1105页，2012年[20] Claudia Kuster 、 Tiberiu Popa 、 Jean-Charles Bazin 、Craig Gotsman和Markus Gross。用于家庭视频会议的凝视校正。ACM Transactions on Graphics（TOG），31（6）：174，2012.[21] Chri s tianLedig ， LucasTheis ， FerencHus za'r ， Jo seCaballero ， Andrew Cunningham ， Alejandro Acosta ，Andrew P Aitken ， Alykhan Tejani ， Johannes Totz ，Zehan Wang，et al.使用生成式对抗网络的照片级真实感单幅图像超分辨率。在CVPR，第2卷，第4页，2017年。[22] Xudong Mao ， Qing Li ， Haoran Xie ， Raymond YKLau，Zhen Wang，and Stephen Paul Smolley.最小二乘生成对抗网络。在Proceedings of the IEEE InternationalConference on Computer Vision，第2794-2802页，2017年。[23] Mehdi Mirza和Simon Osindero条件生成对抗网。arXiv预印本arXiv：1411.1784，2014。[24] Seonwook Park，Adrian Spurr和Otmar Hilliges。深度图像凝视估计。在欧洲计算机视觉会议（ECCV）的会议记录中，第721-738页，2018年。[25] Karen Simonyan和Andrew Zisserman用于大规模图像识别的非常深的卷积网络。 arXiv 预印本 arXiv ：1409.1556，2014。[26] Brian A Smith，Qi Yin，Steven K Feiner，and Shree KNa- yar.凝视锁定：用于人-物体交互的被动目光接触检测。第26届ACM用户界面软件和技术集，第271-280页ACM，2013年。[27] Zhou Wang和Alan C Bovik.均方误差：喜欢还是离开？信号保真度测量的新视角。IEEE信号处理杂志，26（1）：98[28] Lior Wolf Ziv Freund和Shai Avidan以眼还眼：一种单摄像机凝视替换方法。在2010年IEEE计算机协会计算机视觉和模式识别会议上，第817-824页。IEEE，2010。[29] 埃罗尔·伍德、塔达斯·巴尔特鲁斯·艾提斯、路易斯-菲利普·莫伦西、彼得·罗宾逊和安德烈亚斯·布林。导演：视频中完全清晰的眼睛注视重定向。在计算机图形论坛，第37卷，第217-225页。Wiley Online Library，2018.[30] Wayne Wu，Yunxuan Zhang，Cheng Li，Chen Qian，and Chen Change Loy.Reenactgan：学习通过边界转移来重现面孔。在欧洲计算机视觉会议论文集（ECCV）中，第603-619页6943[31] 杨瑞刚和张正友。用立体视觉矫正视-电话会议之眼睛注视。欧洲计算机视觉会议，第479-494页。Springer，2002年。[32] Richard Zhang 、 Phillip Isola 、 Alexei A Efros 、 EliShecht-man和Oliver Wang。深度特征作为感知度量的不合理有效性。在IEEE计算机视觉和模式识别会议集，第586-595页[33] Xucong Zhang ， Yusuke Sugano ， Mario Fritz ， andAndreas Bulling.野外基于外观的凝视估计。在IEEE计算机视觉和模式识别会议（CVPR）的论文集，第4511-4520页[34] Jiejie Zhu，Ruigang Yang，and Xueqing Xiang.通过飞行时间深度传感器和立体声融合的视频会议中的目光接触3D Research，2（3）：5，2011.[35] Jun-Yan Zhu ， Taesung Park ， Phill

下载后可阅读完整内容，剩余1页未读，立即下载