没有合适的资源?快使用搜索试试~ 我知道了~
1××通过变换判别式自编码器消除极低分辨率未对齐和噪声人脸图像Xin Yu,澳大利亚国立大学{xin.yu,fatih.porikli}@ anu.edu.au摘要大多数传统的人脸超分辨率方法都要求输入图像足够大且对齐,并且都要求输入图像是无噪声的。如果输入图像很小、未对齐且被噪声污染,则它们的性能会急剧下降。在本文中,我们介绍了一种新的变换判别自动编码器8超分辨率未对齐的噪声和微小的(16 16)低分辨率的人脸图像。与基于编码器-解码器的自动编码器相比,我们的方法使用解码器-编码器-解码器网络。我们 首 先 采 用 了 一 个 变 形 的 歧 视 性 解 码 器 网 络 的upsample- ple 和 去 噪 同 时 进 行 。 然 后 , 我 们 使 用transformative编码器网络将中间HR面投影到对齐且无噪声的LR面。最后,我们使用第二解码器来产生超分辨率图像。我们在一个非常大的人脸数据集上的广泛评估表明,我们的方法实现了优越的幻觉效果,并通过1.82dB PSNR的大幅度超过了最先进的水平。1. 介绍人脸图像为视觉感知和身份分析提供了重要的信息。然而,当它们有噪声并且它们的分辨率不够小时(例如,如在一些监视视频中),几乎没有可用于从它们可靠地推断的信息。低分辨率和噪声的人脸图像不仅阻碍了人类的感知,而且也损害了计算机分析。为了应对这一挑战,人脸幻觉技术旨在从低分辨率(LR)人脸图像中恢复高分辨率(HR)对应物,近年来受到了极大的关注。以前的最先进的方法主要集中在从对齐和无噪声的LR人脸图像中恢复HR人脸更具体地说,这项工作得到了澳大利亚研究委员会发现项目资助计划(项目DP150104645)的支持(a) LR(b)HR(c)去噪/对齐LR(d)NN(e)双三(f)URDGN [25](g)编码LR(h)我国图1.我们的方法与基于CNN的人脸幻觉URDGN的比较[25]。(a)16× 16 LR输入图像。(b)128× 128 HR原始图像。(c)去噪和对齐的LR图像。我们首先应用BM3D [4],然后应用BM3D[10]。(d)训练数据集中对应的最相似的人脸。(e)(c)的双三次插值。(f)图片由URDGN生成。请注意,URDGN超解析去 噪 和 对 齐 的 LR 图 像 , 而 不 是 原 始 LR 输 入 ( 有 利 于URDGN)。(g)解码器-编码器将去噪和对齐的LR图像作为中间输出。(h)我们TDAE方法的最终幻觉脸。基于整体外观模型[1,2,14,20,15,8,22,24,13,12,19,25]的幻觉方法需要LR预先精确对齐的面。然而,当LR图像被噪声污染时,人脸对齐的准确性急剧下降。此外,由于姿势和表情变化的范围很广,因此很难为未适当对齐的LR图像学习全面的整体外观模型因此,这些方法通常会对有噪声的未对准LR输入产生重影伪影不是学习整体外观模型,而是提出了基于面部组件的面部幻觉方法[18,23,28,29]。它们将HR面部成分从训练数据集转移到输入LR图像,而不需要提前对准LR输入图像这些方法在很大程度上依赖于成功的本地化37603761×××面部标志由于面部地标是很难检测到非常低的分辨率(16 - 16像素)的图像,他们无法准确地定位的面部组件,从而产生的上采样的人脸图像中的文物。换句话说,基于面部分量的方法也不适合对有噪声的未对准LR面部进行上采样。考虑到人脸的分辨率太小并且存在噪声,人脸检测器也可能无法定位这样微小的噪声人脸。因此,使用姿势特定的面部检测器作为预处理步骤来补偿未对准也是不切实际的。在本文中,我们提出了一个新的变革的判别式本机自动编码器(TDAE)超分辨率微小的(16 - 16像素)未对齐和嘈杂的人脸图像由一个显着的放大系数为8,其中我们估计64像素的输入LR图像的每个单像素此外,每个像素也被噪声污染,使任务更具挑战性。我们的TDAE由三个串行组件组成:解码器、编码器和第二解码器。我们的解码器网络包括去卷积和空间变换层[10]。它可以通过其解卷积层逐步上采样特征图的分辨率,同时通过其空间变换层对齐特征图。与[25]类似,我们不仅采用了超幻觉人脸图像和地面真实HR人脸图像之间的像素级强度相似性,而且还采用了类别相似性约束,该约束通过判别网络强制上采样的人脸位于真实人脸的流形上。因此,我们实现了一个变换解码器,也是歧视性的。由于LR输入是有噪声的,因此解码器之后的超分辨率面部可能仍然包含伪影。为了获得对齐和无噪声的LR人脸,我们通过变换编码器将最后,我们训练我们的第二个解码器上的投影LR的脸,以获得幻觉HR的脸图像。通过这种方式,伪影大大减少,我们的TDAE产生真实的HR人脸图像。总体而言,本文的贡献主要体现在四个方面:• 我们提出了一种新的变换判别式架构,通过8×的放大因子来对微小(16×16像素)的未对齐和噪声人脸图像进行超分辨率处理。与传统的自动编码器相比,我们首先设计了一个解码器-编码器结构来生成无噪声和对齐的LR面部,然后在编码的LR面部上训练第二解码器来产生高质量的HR面部图像。我们的方法不需要建模或估计噪声参数。它对潜在的空间变形和污染噪声是不可知的。据我们所知,我们的方法是第一次尝试解决微小和噪声的超分辨率人脸图像,而不需要事先对齐LR的脸,这使得我们的方法实用。2. 相关工作近年来,面孔幻觉受到了极大的关注[18,23,19,12,28,29,25]。以前的人脸半透明化方法主要集中在从对齐的和无噪声的LR人脸图像中恢复HR人脸,并且一般来说,它们可以分为两类:整体方法和局部方法。整体方法使用由P-CA学习的全局人脸模型来产生整个HR人脸的幻觉。在[20]中,提出了通过在LR和HR人脸子空间之间建立线性映射类似地,[15]采用通过PCA学习的全局外观模型来对对齐的LR面部进行上采样,并采用局部非参数模型来增强面部细节。[12]中的工作探索了最佳传输和子空间学习,以根据给定的对齐LR面来变形HR输出。由于整体方法要求LR人脸图像精确对齐并与HR参考共享相同的姿势和表情,因此它们对LR图像的误对齐非常敏感此外,图像噪声使得LR人脸的对齐更加困难。基于部分的方法对面部部分而不是整个面部进行上采样,因此它们可以处理各种姿势和表现。他们要么采用参考补丁的训练数据集来重建输入LR补丁的HR对应物,要么利用面部组件。在[2]中,通过寻找LR和HR块之间的最佳映射来重建对齐的正面人脸图像的高频细节。[24]中的工作使用耦合LR/HR词典来增强细节。在[22]中,LR面部图像是超分辨率的,位置块是从多个对齐的HR图像中采样的[13]将局部人脸补丁建模为稀疏编码问题,而不是直接对参考HR补丁进行平均。在[18]中,利用SIFT流[16]来对齐LR图像的面部部分,然后通过扭曲参考HR图像来重建LR图像的细节。[23]首先定位LR图像中的面部组件由于基于部分的方法通常需要提取L-R输入中的面部成分,因此当LR面部很小或有噪声时,它们的性能显著降低随着大规模数据变得可用,已经提出了基于卷积神经网络(CNN)的SR方法,并实现了最先进的性能[11,21,6,3]。然而,因为这些SR方法被设计为对通用补丁进行上采样并且不完全利用类特定信息,所以它们不适合于产生微小面部的幻觉。[28]中的工作采用CNN来提取面部特征,然后基于···3762§图2. 我们的变换判别解码器由两部分组成:一个变换上采样网络(红色框)和一个判别网络(蓝色框)。图4. 我们的变革判别式自动编码器的工作流程。方框的颜色参考图中的网络2和图3 .第三章。提取的特征。由于人脸特征提取的要求,输入的分辨率不能低。最近,[25]提出了一种判别生成网络来超分辨率LR人脸图像。这种方法解决了不同的面部表情和头部姿势,不需要面部标志,但它需要眼睛提前对齐。 [29]提出了一种级联双网络来超级解析非常低分辨率和未对齐的人脸。然而,当LR图像中存在噪声时,该方法可能无法准确地定位面部部分,从而在输出中产生伪影。3. 拟定方法:TDAE我们的变革性判别式自动编码器有三个互补的组件:两个变换的判别式本地解码器(如图1B所示)。2)和一个变换编码器(如图所示)。(3)第三章。在训练阶段,TDAE的参数分三步学习(. 3.3)。在测试阶段,我们将第一解码器DEC1、编码器ENC和第二解码器DEC2的变换上采样网络级联在一起,以端到端的方式对最终的HR面进行超分辨率处理。整个流水线如图所示。43.1. 解码器的体系结构我们的解码器架构由两个子网络组成,一个变换上采样网络(TUN)和一个判别网络。 在变换上采样网络中,我们首先应用两个具有较大感受野的卷积层来部分减少噪声伪影,而不是将噪声图像直接馈送到去卷积层中。去卷积层可以由上采样层和卷积层的级联组成,或者是具有分数步长的卷积层[27,26]。因此,去卷积层的输出图像的分辨率大于其输入图像的分辨率我们采用了102回归损失,也称为欧几里德距离损失,以约束hallucinated HR面部和他们的HR地面实况版本之间的相似性如[25]中所报告的,由102损失监督的去卷积层往往会产生过度平滑的结果。 为了解决这个问题,我们通过判别网络将特定于类的判别信息嵌入到去卷积层中(如图中的蓝色框所示)。2)的情况。判别网络能够区分图像(其输入)是从真实的面部图像还是幻觉图像中采样相应的判别信息被反向传播到去卷积层。因此,反卷积层可以生成更类似于真实面部的HR面部图像我们注意到LR人脸图像的旋转和尺度错位将导致[25]中上采样人脸图像中的明显伪影相比之下,我们的解码器可以自动对齐LR的脸,并同时幻觉的脸图像 。 为 了 对 齐 LR 面 , 我 们 将 空 间 变 换 网 络(spatialtransformation network)[10]合并到我们的网络中,如图中的绿色框所示。二、马达加斯加估计,3763我我我--图3.我们的转型编码器的架构图像的变换参数,然后将图像扭曲为规范视图。在Linux中有三个模块:定位模块、网格生成器模块和采样器。本地化模块由若干隐藏层组成,并输出输入相对于规范视图的变换参数。网格生成器模块根据估计的参数构造采样网格,采样器模块通过双线性插值将输入映射到生成的网格上。在这里,我们主要关注面内旋转、平移和尺度变化,从而使用相似性变换来对齐人脸。考虑到我们输入的分辨率非常小,并且输入图像有噪声,使用最先进的去噪算法来降低噪声,然后采用一个去噪器来对齐LR面部将引入额外的模糊度,如图所示。图1(c)和图5(c)。因此,在图像域中对齐LR面部可能会模糊原始LR面部图案,并导致图1(f)中[25]的结果中可见的伪影。为了防止这种情况,我们应用STNs来对齐特征图。如[10]中所报道的,使用多个STNs可以提高比对的准确性。作为准确性和GPU内存使用之间的权衡,我们在前两个解卷积层之后使用两个STNs。我们的解码器不仅嵌入了判别信息,还同时处理多个任务(去噪、对齐如图5(f),我们的变换判别解码器可以重建更显著的高频细节,并对齐上采样的HR人脸图像。3.2. 编码器的体系结构通过将未对齐和有噪声的LR输入馈送到我们的变换判别解码器网络DEC1,我们获得中间HR人脸图像。如图图5(f)中,中间HR面部包含更多高频细节,并且其大致对齐。噪音也相对降低。然而,中间图像仍然可能包含主要由噪声引起的伪影我们观察到,噪声不仅扭曲LR人脸模式,但也影响人脸对齐。为了实现真实的HR人脸图像,这些伪影应该被去除,保留了高频面部细节我们的直觉是,将中间HR图像投影到LR图像,可以进一步抑制伪影和噪声,这将允许我们应用我们的解码器来超分辨这些几乎无噪声和近似对齐的LR面部。然而,具有抗混叠或简单下采样的抽取可能将附加伪影引入LR面部图像中。因此,我们设计了另一个CNN,被认为是编码器ENC,以将中间HR图像投影到无噪声LR版本,如图所示。3.第三章。考虑到上采样的HR人脸可能仍然存在未对齐的情况,我们还将STNs纳入我们的编码器以提供进一步的对齐改进。当训练编码器时,我们将投影的LR面约束为与对齐的地面实况LR面相似这有助于我们生成对齐且无噪声的LR面,如图所示。1(g)和图5(g)。为了获得HR人脸图像,我们采用第二解码器DEC2来超分辨由ENC投影的LR人脸。解码器DEC 2共享与图1中的结构相同的结构。二、通过采用解码器-编码器结构,我们可以联合对齐输入LR面并处理噪声,如图所1(g)和图5(g)。通过利用编码器-解码器结构,我们能够去除上采样的HR面部中的伪影第5段(h)。3.3. TDAE培训详情我们将TDAE的培训阶段分为三个阶段:i)训练如图1所示的变换判别式解码器网络DEC 1。二、ii)训练编码器ENC,如图2所示。3.第三章。iii)训练与DEC1共享相同架构的解码器DEC2。3.3.1训练鉴别解码器我们构建LR和HR人脸图像对ln,hi作为我们的训练数据集,用于训练我们的变换判别解码器DEC1。这里,hi表示对齐的HR面部图像,并且ln不是从HR面部图像hi直接下采样的。我们将旋转、平移和尺度变化应用于hi以获得未对齐的HR图像hu。然后,3764我我我(a)(b)(c)(d)(e)(f)(g)(h)图5.我们的方法与基于CNN的人脸幻觉方法的比较。(a)输入的16× 16 LR图像。(b)原始直立128× 128 HR图像(用于比较)。(c)(a)的去噪和对齐版本。(d)URDGN的结果[25]。(e)CBN的结果[29]。(f)我们的DEC 1的结果。(g)由ENC投影的对齐且无噪声的LR面。(h)我们的最终结果。我们对hu进行下采样,然后添加高斯噪声以获得噪声未对准的LR面ln。由于我们通过解码器将上采样图像h_i应该与其对应的参考HR图像hi相似,我们使用像素级欧几里德距离(如已知的E22回归损失)来加强强度相似性。TUN的损失函数U(s)被建模为,在我们的解码器网络中,每一层都是可微的,因此我们使用反向传播来学习其参数。采用RM-Sprop [9]来更新s和t。为了最大化判别网络目标L,我们使用随机梯度上升来更新参数t如下:i+1=γminU(s)=E(ln,h)p(ln,h)hi−hi2,(1)我普雷特i+1iL1(三)siFt=t+r普雷特、简体中文其中s表示TUN的参数。卷积层、卷积层和去卷积层在TUN中联合更新。卷积层对齐特征图,而去卷积层逐渐上这里,p(ln,h)指示训练数据集中LR和HR面部图像的联合分布。其中r和γ分别是学习率和衰减率,i是迭代的索引,是 辅 助 变 量, 被 设 置 为10−8 以 避 免 被 零 除 对 于TUN,损失U和L都用于通过随机梯度下降来更新参数si+1=γ如[25]所述,只有应用类似的强度ity约束将导致过度平滑的结果。与[7,5,17,25]类似,我们通过利用一个判别网络将特定于类的判别信息注入TUN中,si+1=ss日本语 简体中文-r(λ s+λs)λi+1+λ i,(四)工作判别网络的架构在图中的蓝色框中示出。二、它的目的是区分一个图像是现实的还是幻觉。如果我们的解码器超分辨率的HR人脸可以说服判别网络,它是一个真正的人脸图像,我们的hal-lucinated人脸将类似于真正的人脸图像。换句话说,我们的目标是让辨别网络无法区分幻觉面孔和真实面孔。因此,我们最大化判别网络L的交叉熵如下:其中λ是强度相似性项和类别相似性项之间的权衡权重 由于我们的目标是使HR面部产生幻觉,因此我们对强度相似性项赋予更高的权重并将λ设置为0。01.随着迭代的进行,超分辨率人脸将更类似于真实人脸。因此,我们通过降低λas来逐渐减少判别网络的影响λ j= max{λ·0. 99j,λ/2},(5)maxL(t)=E不Σ ΣlogD(hi)+ log(1−D(hi))(二)其中,j表示历元的索引。等式5、我的瓜尔豆--期望在训练阶段期间在解码器网络中=Ehip(h)[logD(hi)]+ Ehip(h))[log(1−D(hi))],其中t表示判别网络的参数,p(h)和p(h_i)表示实面和虚面的分布,D(h_i)和D(h_i)是判别网络的输出。损失L为反向传播到TUN,以便更新参数s。通过向s注入区别性信息,我们的解码器可以产生更真实的HR面孔。√37653.3.2训练编码器在训练我们的变换编码器时,我们使用DEC1hii的输出和地面实况对齐的LR图像1i作为我们的训练数据集。由于在h中可能存在未对准,我们还将STNs嵌入到编码器ENC中,脸上在变换编码器的训练期间,经采样的LR因子i被约束为与经采样的LR因子i相似3766×× ××× ×--我× × × ×× ××× ×(li,hi)p(l,h)×F地面实况对准的LR面ii.因此,变换编码器E(e)的目标函数被建模为,minE(e)=E (hi)−li2通过层叠这些层:Conv+ReLU(96 20 5 5),M-P2,Conv+ReLU(20 20 5 FC+ReLU(从80到20维度)和FC(从20到4个维度)。在骗局里-e(li,hi)p(l,h)=Eli−li2,F(六)卷积操作,不使用填充。在下面的实验部分中,一些算法重新-求LR输入的对齐[22,25]。因此,我们采用其中,e是变换编码器的参数,并且h(h_i)表示从中间上采样的HR面h_i到投影的LR面h_i 的 映 射。 类似于Eqn。1,我们还使用RMSprop通过随机更新e梯度下降为了获得最终的HR人脸,我们集成了第二个解码器DEC2以超分辨率投影的LR人脸图像。如图2所示, 4,在编码的LR和对齐的地面实况HR图像对上训练。在训练编码器网络之后,我们使用编码器ENC来生成训练数据集li,然后通过使用图像对{li,hi}来训练DE C 2。DEC 2的培训程序与§相同。 3.3.1.3.4. 从非对齐噪声LR中产生HR幻觉判别网络只用于训练我们的解码器。当产生HR面孔的幻觉时,不使用区分工作在测试阶段中,我们首先将未对准且有噪声的LR面In馈送到解码器DEC1中,以- 获得上采样的中间HR图像h_i。然后我们使用我们的编码器ENC来将中间HR面h_i投影到对齐的LR面h_i。最后,我们使用解码器DEC2来超分辨对齐的LR帧,并获得我们最终的超分辨率帧。由于在培训阶段,我们使用直立的HR面孔作为目标,我们的TDAE不仅超分辨率的LR人脸,但也对齐HR人脸图像同时。虽然我们需要通过三个步骤来训练我们的网络,但它可以以端到端的方式将未对齐和嘈杂的LR面部幻觉为直立的HR版本3.5. 实现细节如图所示,图2和图3中的层由卷积层和ReLU层(Conv+ReLU)、具有步幅2的最大池化层(MP2)和全连接层(FC)构建。具体来说,通过级联来构建第一层:MP2,Conv+ReLU(过滤器大小:512×20×5×5),MP2、Conv+ReLU(20×20×5×5)、 FC+ReLU(从400到20维)和FC(从20维到4维)。图2是通过层叠以下层构建的:MP2,转换+ReLU(256) 128 5 5)、MP2、Conv+ReLU(128 205 5),M-P2, Conv+ReLU(20 20 3 3), FC+ReLU(180到20维)和FC(从20维到4维)。图3是通过层叠层构建的:MP2,Conv +ReLU(128×20×5×5),MP2,Conv+ReLU(过滤器大小:20×20×5×5)、MP2、FC+ReLU(从80维到20维-s)和FC(从20维到4维)。104层建成0.000来对齐这些方法的LR图像。2010和2011之间的唯一区别是2010中删除了2011中的第一个MP2步骤。在训练我们的解码器和编码器时,我们使用相同的学习率r和衰减率γ。我们将学习率r设为0。001乘以099,并且衰减率被设置为0。01.4. 实验我们比较我们的方法与国家的最先进的方法定性和定量。我们采用BM3D [4]来降低图像噪声,然后将LR输入对齐0.00。在实验中,出于比较的目的,我们仅示出直立HR地面实况面hi4.1. 数据集我们使用名人面部属性(CelebA)数据集[30]来训练TDAE。该数据集中有超过20万张人脸图像,这些图像涵盖了不同的姿势变化和面部表情。我们使用这些图像,而不将它们分组为不同的姿势和面部表情子类别。当生成LR和HR人脸对时,我们从CelebA数据集中随机选择30K裁剪对齐的人脸图像我们使用28K图像进行训练,使用2K图像进行测试。我们手动变换HR图像,同时约束面部在图像中可见,对HR图像进行下采样以生成LR图像,并添加高斯噪声。在解码器DEC1的训练中,我们应用零均值高斯噪声,标准偏差为最大值的10%最小图像强度到LR图像。4.2. 与SoA的定性比较由于一些超分辨率基线[22,25]需要对齐输入LR面,因此为了进行公平比较,我们将LR面与比较方法的LR面对齐。我们只呈现对齐的直立HR地面实况面,以便于比较。如图如图6(c)所示,传统的双三次插值不能生成面部细节。由于输入的分辨率非常小,所以在输入图像中包含的信息很少此外,上采样的图像也具有一些变形。这表明,当图像中存在噪声时,对准非常LR的图像更加困难。Dong等人 [6]提出了一种基于CNN的通用超分辨率方法,也称为SRCNN。自SR-3767××(a)(b)(c)(d)(e)(f)(g)(h)图6.在噪声水平为10%时,与最先进的方法进行比较。(a)LR输入未对齐且有噪声。(b)原始HR图像。(c)双三次插值。(d)结果[6]。(e)结果[22]。(f)结果[29]。(g)结果[25]。(h)我们的方法。CNN是基于块的,它不能捕获全局人脸结构。用全脸图像训练SRCNN引入了更多的模糊性,因为补丁大小(即,128 128)太大而无法学习有效的非线性映射。因此,我们使用8的升级因子来重新训练它。所示图6(d),SRCNN不能产生真实的面部细节。Ma等人 [22]利用位置补丁来产生HR面孔的幻觉。该方法要求LR输入与训练数据集中的参考图像精确对齐。如可见于图6(e),当存在对准误差时,其产生变形的面。此外,随着放大因子的增加,LR和HR斑块之间的对应关系因此,它遭受严重的块伪影周围的不同补丁的边界。Zhu等人。 [29]提出了一种用于面部幻觉的深度级联双网络,称为CBN。这种方法有自己的对齐过程,定位用于拟合全局人脸模型的面部标志。当噪声水平较低时,它可以根据地标对齐LR面部然而,当噪声不可忽略时,它无法定位地标,从而产生重影伪影(见图1)。(见第6(f)段)。因为噪音-pedes地标检测,我们应用BM 3D作为补救措施。然而,LR面部变得平滑,并且检测面部标志变得更加困难。我们的观察是,CBN不是为噪声图像设计的。Yu和Porikli [25]开发了一种判别生成网络,用于超分辨极低分辨率的人脸图像,称为URDGN。他们的方法还使用去卷积层来对LR面部进行上采样,并使用一个判别网络来迫使生成的网络产生更清晰的结果。然而,这种方法需要对齐的图像,并且不能超分辨率地分辨未对齐的面部。此外,噪声可能会损坏LR面部图案,这可能会降低性能,如图1B所示。6(g)。相比之下,我们的方法重建了真实的面部细节,如图所示。6(h)。我们注意到,输入的脸有不同的姿势和面部表情。由于我们的方法在特征图上应用多个STNs来对齐人脸图像并同时去除噪声,因此它实现了更好的对齐。在编码器的帮助下,它获得对齐和无噪声的LR图像。它的第二个解码器,它产生视觉上令人愉快的结果,这是类似于3768表1. 对整个测试数据集进行定量评估。不同构型:(1)BM3D +SR,(2)BM3D+SR,(3)BM3D+ BM3D + SR。这里,SR是比较的超分辨率方法。我们的方法不使用BM3D或单独的投影仪。PSNRSSIM噪声百分之五百分之十百分之五百分之十双三17.9317.770.510.49SRCNN [6]17.7717.530.510.481马[22]17.9817.900.510.50[29]第二十九话17.1616.930.470.44[25]第二十五话16.5816.450.380.36双三18.5918.300.520.51SRCNN [6]18.5918.320.530.512马[22]18.6318.370.500.49[29]第二十九话18.3418.260.520.52[25]第二十五话16.9516.790.410.40双三17.8717.630.520.50SRCNN [6]17.7417.530.510.503马[22]17.8617.650.490.48[29]第二十九话17.3917.280.490.48[25]第二十五话18.9518.650.490.47我们21.0220.470.580.56地面真实的面孔也是如此。我们的方法不需要任何地标定位或任何有关噪声的信息。当噪音较低时,它也获得了卓越的性能。图7.最新方法在噪声水平为1%~ 10%的综合测试数据集上的PSNR曲线4.3. 与SoA的定量比较通过平均PSNR和结构相似性(SSIM)得分定量地衡量了所有方法在不同噪声水平下对整个测试集的性能。表1显示了我们的方法与其他方法相比具有更好的性能,在PSNR中以1.82为了与SoA方法进行客观比较,我们报告三种可能情况的结果。在第一种情况下,我们首先应用x0来对齐有噪声的LR人脸,然后通过SoA对对齐的LR图像进行超分辨率,最后使用3769××(a)3%(b)5%(c)7%(d)10%图8. 不同噪声水平下的可视化结果。请参考图5(b)用于地面实况HR图像。BM3D以去除上采样HR图像中的噪声。在第二种情况下,我们先应用BM3D,然后是超分辨率。在第三种情况下,我们首先通过BM 3D去噪,然后通过BM0对齐,最后超分辨率。当对齐有噪声的LR图像时,我们用有噪声的LR脸训练R0否则,如果我们首先使用BM3D来减少噪音,我们会用减少噪音的LR面来训练BM0表1还表明,简单地去噪然后对齐,或对齐然后去噪LR面不能通过SoA方法产生良好的性能。此外,我们证明了我们的方法可以在不同的噪声水平下,在图1中,8.当噪声水平增加时,我们的幻觉脸保持一致并保持其视觉质量,这意味着我们的方法对噪声变化具有鲁棒性。图7显示了不同噪声水平下的PSNR曲线。我们观察到,我们的方法比其他方法实现了更高的PSNR,并且对于较低的噪声水平,它表现得更好。此外,我们应用高斯模糊,其中σ= 2。4到空间变换的HR图像,下采样HR面部,并向LR图像添加噪声。如图7,我们的网络仍然表现良好,没有明显的退化(红色虚线)。请注意,我们不需要知道噪声水平或使用模糊LR输入重新训练我们的网络。我们还将DEC1和ENC结合在一起作为另一个基线,表示为AE。5. 结论我们提出了一个变革性的自动编码器网络,以超分辨率非常低的分辨率(16 - 16像素)未对齐和嘈杂的人脸图像具有挑战性的上采样因子8。我们利用了一种新的解码器-编码器-解码器架构。我们的网络联合对齐,去除噪声,并有区别地对输入图像进行超分辨率处理。由于我们的方法是不可知的图像噪声,人脸姿态和空间变形,它是非常实用的。同时,它可以生成丰富而真实的面部细节。3770引用[1] S. Baker和T.卡纳德幻觉的面孔。在第四届IEEE自动人脸和手势识别国际会议论文集,第83-88页1[2] S. Baker和T.卡纳德超分辨率的限制以及如何打破它们。IEEE Transactions on Pattern Analysis and MachineIntelligence,24(9):1167-1183,2002。一、二[3] J. Bruna,P. Sprechmann和Y.乐存。具有深度卷积足够统计的超分辨率。ICLR,2016年。2[4] K.达博夫河Foi,V.Katkovnik,and K.埃吉亚扎利安人稀疏三维变换域协同滤波图像去噪。IEEE Transactionson image processing,16(8):20801、6[5] E. Denton,S.Chintala、A.Szlam和R.费格斯。使用拉普拉斯金字塔对抗网络的深度神经信息处理系统进展(NIPS),第1486-1494页,2015年。5[6] C.东角,澳-地C. Loy和K.他外使用深度卷积网络实现图像超分辨率。IEEE Transactions on Pattern Analysis andMachine Intelligence,38(2):295 二、六、七、八[7] I. Goodfellow,J. Pouget-Abadie和M.米尔扎生成对抗网络。神经信息处理系统(NIPS)进展,第2672- 2680页,2014年。5[8] P. H. Hennings-Yeomans,S.Baker和B.诉库玛低分辨率人脸识别的同时超分辨率和特征提取。在IEEE计算机协会计算机视觉和模式识别会议(CVPR)的会议记录中,第1-8页。IEEE,2008年。1[9] G.辛顿机器学习的神经网络Lecture 6a:小批量梯度下降概述提醒:线性神经元的误差曲面。5[10] M. Jaderberg , K. Simonyan 、 A. Zisserman 等 人 空 间Transformer网络。神经信息处理系统进展,2017-2025页,2015年。一、二、三、四[11] J. Kim,J. K. Lee和K. M.李你使用非常深卷积网络的精确图像超分辨率。arX-iv:1511.04587,2015年。2[12] S. Kolouri和G. K.罗德极低分辨率人脸图像的基于传输的单帧超分辨率。在IEEE计算机协会计算机视觉和模式识别会议上,2015年。一、二[13] Y. Li,C.蔡氏G. Qiu和K. M. Lam.基于稀疏局部像素结构的人脸超分辨率。Pattern Recognition,47(3):1261-1270,2014. 一、二[14] C. Liu,H. Shum,和C.张某一个两步的方法来产生幻觉的 面 孔 : 全 局 参 数 模 型 和 局 部 非 参 数 模 型 。 在Proceedings of the IEEE Computer Society Conference onComputer Vision and Pattern Recognition(CVPR),第1卷,第192-198页,2001中。1[15] C. Liu,H.Y. Shum和W.T. 弗里曼。 面容幻觉:理论和实 践 International Journal of Computer Vision , 75(1):115-134,2007. 一、二[16] C. 刘,J.Yuen,和A.托拉尔巴筛流:场景间的密集IEEE事务-s on pattern analysis and machine intelligence , 33(5):978- 994,2011. 2[17] A.拉德福德湖,澳-地Metz和S.钦塔拉使用深度卷积生成广告网络进行无监督表示学习arXiv:1511.06434,第1-15页,2015年。 5[18] M. F. Tappen和C.刘某基于对齐的图像幻觉的贝叶斯方法。在Proceedings of European Conference on ComputerVision(ECCV),第7578卷,第236-249页一、二[19] N. Wang,中国山杨D. Tao,X. Gao、X. Li和J. Li.正视幻 觉 的 深 入 调 查 。 International Journal of ComputerVision,106(1):9-30,2014. 一、二[20] X. Wang和X.唐本征变换产生幻觉。IEEE Transactionson Systems,Man and Cybernet-ics Part C:Applicationsand Reviews,35(3):425一、二[21] Z. Wang,Y.杨,Z. Wang,S.张,W。Han,J. Yang,and T.煌自调深超分辨率。在IEEE计算机视觉和模式识别研讨会会议论文集,第1-8页,2015年2[22] C. Q. 向马,张军平。通过位置贴片产生幻觉。Pattern Recognition,43(6):2224 一二六七八[23] C. Y. Yang,S. Liu和M. H.杨结构化的脸半透明。在IEEE计算机协会计算机视觉和模式识别会议(CVPR)的会议中,第1099-1106页,2013年。一、二[24] J. Yang,J. Wright,T. S. Huang和Y. MA.基于稀疏表示的 图 像 超 分 辨 率 . IEEE transactions on imageprocessing,19(11):2861-73,2010。一、二[25] X. Yu和F.波里克利用判别生成网络实现超分辨人脸图像。在欧洲计算机视觉会议(ECCV)的会议记录中,第318- 333页一二三四五六七八[26] M. D. Zeiler和R.费格斯。可视化和理解卷积网络。在European Conference on Computer Vision , 第 818-833页,2014年。3[27] M. D. Zeiler,D.Krishnan,G.W. Taylor和R.费格斯。反卷积网络。在2010年IEEE计算机协会计算机视觉和模式识别会议(CVPR)论文集,第2528-2535页中。3[28] E. Zhou和H.粉丝在野外学习脸部幻觉。第二十九届AAAI人工智能会议,第3871-3877页,2015年。一、二[29] S. Zhu,S. Liu,C. C. Loy和X.唐深度级联双网络用于人脸幻觉。在欧洲计算机视觉会议(ECCV)的会议记录中,第614- 630页一二三五七八[30] X. W. Ziwei Liu,Ping Luo和X.唐在野外深度学习在国际计算机视觉会议(ICCV)的会议记录中,2015年。6
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功