深度学习模型IPAS-Net：从无自然参考重建高质量鞋印

163 浏览量更新于2024-01-18 收藏 2MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报IPAS-Net：一种深度学习模型，用于从没有自然参考Muhammad Hassana，e，Yan Wanga，e，Wei Pangc，Di Wangb，Daixi Lid，You Zhoua，e，Sheng，Dong Xufa吉林大学计算机科学与技术学院，中国长春b新加坡南洋理工大学-英属哥伦比亚大学联合老年人积极生活卓越研究中心c联合王国爱丁堡赫瑞瓦特大学数学和计算机科学学院d永喷科技有限公司，中国大连教育部符号计算与知识工程重点实验室，长春，中国f美国密苏里州哥伦比亚市密苏里大学邦德生命科学中心电气工程与计算机科学系阿提奇莱因福奥文章历史记录：2022年1月10日收到2022年3月6日修订2022年3月25日接受2022年4月16日网上发售保留字：鞋印超分辨率取证自然度参数共享注意力提升A B S T R A C T单图像超分辨率（SISR）通常在存在自然高分辨率（HR）图像的情况下从相应的低分辨率（LR）图像SISR在法医场景中生成高质量图像方面非常重要然而，当不存在对应于输入LR图像的可用自然HR地面实况图像时，其变得更具挑战性。在这种情况下，HR重建对于提供保留鞋印自然特征的HR版本变得更加重要为此，我们提出了IPAS-Net，它利用U-Net进行特征提取，在HR空间中共享LR空间的学习参数，并通过特殊处理创新性地提升，细化和增强HR空间。上采样和细化块包括由注意机制块（AMB）和一步高迭代（OSHI）组成的并行流水线。所有上采样解决方案都被注入，以便不同的放大可以补偿彼此使用盲/非参考评估指标评估生成的HR鞋印，并且所提出的方法在低质量鞋印上的表现优于最先进的（SOTA）深度学习模式©2022作者（S）。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍超分辨率（SR）通常致力于从对应的低分辨率（LR）图像重建具有合理细节的期望的高分辨率（HR）图像，以改善人类特定的图像信息和自动机器感知（Reynner等人，2009年）。SR旨在重构降级的HR版本（即，LR）转换成视觉上令人愉悦的高分辨率图像。从早期的传统视觉方法开始，已经对SR进行了广泛的研究（Park等人， 2003）到卷积网络（Dong等人，2015）以及最近的基于深度学习（DL）的模型（Shamsolmoali等人， 2019年）。 DL方法被分类为基于插值的方法（Lim等人，2017），基于学习（Zhang etal.，2017），和基于重建（Sun et al.， 2008年）。*通讯作者：吉林大学计算机科学与技术学院，中国长春。电子邮件地址：hassan2117@mails.jlu.edu.cn，mhassandev@gmail.com（M。Hassan），wy6868@jlu.edu.cn（Y.Wang），w. hw.ac.uk（W.Pang），tu.edu.sg（ D.Wang ）， lidaixi@everspry.com （ D.Li ）， zyou@jlu.edu.cn （ Y.Zhou ），xudong@missouri.edu（D. Xu）.基于学习的方法通过LR和HR空间之间的学习显示出有希望的结果。HR图像的生成可以从单个LR（单图像超分辨率（SISR））或从多LR（多图像超分辨率（MISR））图像执行（Yang等人， 2019年）。 SISR仍然是一个不适定的逆问题，其中高保真图像是从其简化的单个LR版本生成的（Yang等人，2019年，这个问题在本文中得到了解决。LR-HR映射或学习使用预上采样来执行（Kim等人，2016）、后上采样（Lim等人，2017）、渐进式上采样（Lai等人，2017）或沙漏（Li等人，2019）学习方法，输出HR图像。预上采样方法更容易采用，因为它们简单地需要先前的插值，但是它们可能导致棋盘伪像，加剧噪声和模糊，并且需要耗时的计算（Shocher等人， 2018年）。类似地，后上采样方法可以通过在较低的空间空间提取特征来最小化计算复杂度。然而，在单个步骤中执行上采样过程增加了对于更高缩放因子的学习难度（即，×4; ×8）（Ledig等人，2017年）。类似地，通过https://doi.org/10.1016/j.jksuci.2022.03.0241319-1578/©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comM. Hassan，Y. Wang，W. Pang等人沙特国王大学学报2744！#“×JJ内插可能不能在单个框架中解决多尺度问题（Lim等人， 2017年）。渐进式上采样降低了学习难度并提高了性能，但由于其复杂的模型结构，可能会导致训练不稳定（Wanget al.， 2018年）。迭代上下方法可以更好地挖掘给定LR的关系，并且生成具有高质量重建输出的HR图像对（Wang等人， 2020），并且他们采用转置卷积而不是上采样来克服高计算复杂度并保持精度。考虑到上述模型的优点，我们在LR和HR空间中采用学习，使用可能的升级方法来补偿彼此为了关注输入图像的不同方面/信息，可以使用注意力机制（AM）（Liu et al.， 2020）随着网络深度的加深而在HR空间中被利用（Zhang等人， 2021年）。现实场景中的SR生成面临着缺乏LR-HR图像对、未知的降尺度方法、固有噪声、LR图像中的模糊以及难以在插值的LR-HR版本中保持自然特征的挑战。存在一种称为盲SR的相关方法，其中HR图像从其退化的LR图像重建（Hui等人，2021）;然而，退化的模糊内核被假设为未知的。退化的LR图像并不总是代表法医场景所需的自然特征。来自低质量LR的HR图像的自监督SR重建假设存在用于找到最优解的先前已知退化核（Chen等人，2018年）。在Xuan等人（2020）中，通过部署变分自动编码器（VAE），在从合成LR图像生成合成HR图像时复制学习的特征，但根据本研究的需要，可以避免合成信息生成。在大多数SR中，LR-HR图像对其自然形式（原始HR）和其退化图像都是可用的。然而，在没有相应的自然HR（nHR）版本可用的情况下，很少关注。非参考和非天然HR SR生成质量差的LR被称为nRnHR。相比之下，在盲SR中，自然LR（nLR）图像不可用并且通常从HR版本获得（Gu等人，2019年）。还尝试以无监督的方式学习SR中LR-HR对的不可用性，用于关键环境，如取证，其中信息合成是不利的;合成LR图像是从现实LR图像而不是从HR版本生成的，然后使用预训练的DL模型进行上采样（Yuan等人， 2018年）。从自然图像的SR学习已经通过consid-在不同的尺度上经常出现类似的模式（Huang等人，2015年）。在nLR图像的重建期间的特征学习已经使用编码-解码架构（称为内部样本）来实现（Reynner等人， 2009年）。类似地，学习的特征可以被扩展以在HR空间（称为外部样本）处共享（Huang等人，2015年）。我们利用IPAS-Net的内部样本和外部样本的特性来保证输出鞋印的自然性。类似地，IPAS-Net试图通过生成HR图像以及从nLR图像继承的自然特征来解决未配对的LR-HR问题总之，IPAS-Net解决了在没有nHR并且只有低质量LR图像可用的情况下的HR鞋印生成。为了解决这些挑战，IPAS-Net具有编码-解码结构，该结构学习LR的重建（LR RecLR），以及LR-HR空间之间的IPAS-Net使用双三次插值HR（bHR）图像来指导训练过程，并解决nHR鞋印的缺乏问题。然而，bHR可能包含伪影，缺乏自然传感器噪声，并且缺乏实际特征，这对于限制成本是昂贵的真实（Lugmayr等人，2019年）。考虑到这一具有挑战性的问题，IPAS-Net仅将bHR图像用于指导HR生成。使用双三次插值作为学习SR的指导，旨在提升源LR图像，同时保持风格和局部结构。因此，IPAS-Net通过保留nLR空间中的显著特征并根据法医调查和检查的要求进行高保真鞋印生成，适当地解决了信息丢失（自然特性、自然传感器噪声和划痕）问题。在法医现场，质量较差的鞋印经常被发现，它们在足病调查中起着关键作用检查鞋印变得更具挑战性，因为可用数据有限，信息内容差，无法获得地面实况和高质量（nHR）图像，部分和不完整的印刷品，最重要的是缺乏特定领域的处理算法（Rida等人，2019年）。考虑到这些挑战，具有降低的噪声、增强的质量和具有真实信息的重建的HR鞋印对于应用目的至关重要从LR生成的HR鞋印包含更多的细节，它们有助于分析法医现场发现的脚印。在取证领域中，捕获全维或未损坏的图像并产生足够大的训练集以使得能够学习LR-HR映射是不切实际的或昂贵的。因此，我们提出了一种端到端DL技术，用于生成高保真鞋印，而无需nHR图像，以更好地解决上述挑战。有许多SR方法专门用于应用领域，包括体育和医学（Isaac和Kulkarni ， 2015 ），监视和安全（ Rasti 等人， 2016 ），面孔（Yang等人，2013年），自然场景（太阳和海斯，2012年）和艺术（卢例如，2012年）。这些模型中的大多数都是在可用的LR-HR对上训练的。然而，收集LR-HR图像对在类似取证的场景中具有挑战性，这强调需要特别注意没有nHR或高质量LR图像可用的情况。最近的方法将HR图像降级为LR图像并将它们建模回HR图像（Wang等人， 2020年）。然而，研究界正试图避免这些因素（例如，噪声和压缩伪像）。根据Zhang等人的研究（2020），SISR可以用公式表示为以下等式：y/xk#sn; 1其中y是通过卷积运算（）利用模糊核k、下采样因子s和添加的噪声n产生的来自输入x（HR）的降级LR。因此，传统的实践使用不同的退化方法将HR数据下采样为LR数据（参见等式（11））。1）和，并通过学习退化核将其映射回HR空间。然而，当没有可用的HR基础事实并且只有LR图像可访问时，应建模特殊网络以解决缺失的nHR。因此，所提议的（IPAS-Net）解决了缺乏nHR作为基础事实，公式如下：ð2Þ其中h表示在重建y时学习的特征;s表示放大因子，并且最后，通过重用学习的网络参数（h）通过rh来BHR表示在bHR和生成的HR之间的比较方面的损失。考虑到Eq. 2，我们提出了一个DL模型（图1），部分模仿U-Net（图2）。 2）并且在HR维空间中k次使用OSHI策略（即，k HR）（如图3所示）与AM一起。总之，该模型基于插值引导和参数共享，并嵌入了AM以及OSHI阶段的特殊处理（IPAS-Net），M. Hassan，Y. Wang，W. Pang等人沙特国王大学学报2745Fig. 1. IPAS-Net架构用于生成没有nHR图像的HR鞋印。该模型主要由两个模块组成：（a）特征提取模块包含一个编码-解码结构（我们称之为部分U-Net模块（PUM）），用于LR维空间中的特征提取。该模型将学习到的特征与重建的LR图像一起传递（参见图1中的细节）。 2））细化和重建块（URB），和（b）URB升级RecLR图像，并使用AMB和OSHI块增强它（见图2）。 3）。制作HR的鞋印IPAS-Net受到GUV-Net的启发（Hassan等人，2021年），其中生成，VAE和U-Net（哈桑例如，2022）模式融合以克服nRnHR的挑战性问题。 IPAS-Net通过单独部署部分U-Net、在原始LR图像的重建期间根据自然视觉特性共享所学习的参数以及在高维空间中重用所学习的参数而不是从不同LR重建级别上采样来简化特征学习过程（Hassan等人，2021年）。U-Net的跳跃连接使有效的训练和快速收敛成为可能。在特定级别上免除直接连接强调了通过在HR空间的细化中重用所学习的参数来进行有效学习。同样，使用U-Net而不是VAE和U-Net的融合（在GUV-Net中）使IPAS-Net能够避免生成合成像素，并在法医调查中使用的鞋印中保留照片般逼真的信息。可以在（IPAS-Net的）编码-解码架构中的自然输入LR（nLR）和重构低分辨率（ RecLR ）图像之间获取学习特征，在研究中称为内部样本（Reynner et al.，2009年）。这种学习的特征可以进一步传递（外部样本）到高维空间以促进OSHI的优化。IPAS-Net创新性地使用OSHI来代替逆编码。然后用AM和OSHI对高维空间进行精化。在OSHI中到相同空间的逆映射保持了内容的一致性（Zhu等人，2017年）。IPAS-Net中AMB的部署强调了输入图像中的鞋印印象，并通过与插值HR图像相比产生增强的结果来避免背景噪声。IPAS-Net努力克服复杂性、计算和学习方面的缺陷，与插值HR图像（用作参考图像）相比，产生逼真的增强结果。值得注意的是，内插HR（bHR）图像在用作地面实况时仅用于指导放大过程，而不是完全映射到bHR以解决nRnHR。利用所有可能的上尺度策略，包括上采样、去卷积和子像素策略。此外，在两个AM块之间执行附加的上采样。IPAS-Net 的架构（图 1 ）由部分 U 网组成（ Hassan 等人，2021）模块（PUM）的特征提取（图2），多种类型的同时升级策略，AM，和参数重用在细化阶段（图2）。3）。整个细化过程以借鉴生成对抗网络（GAN）的判别学习结束PUM连接编码器-解码器结构之间的所有层，除了最后（更高）级别层。编码-解码结构使用直接连接来传递信息（Shamsolmoali等人，2019年），这一策略使模型能够学习可以在人力资源领域重用的关键功能。因此，免除与U-Net较高级别的直接连接，有利于在URB学习类似地，采用U形网状结构使得IPAS-Net能够避免高保真鞋印中的不期望的图案和纹理（Esser等人，2018年）。为了升级，IPAS-Net采用URB，URB还包含对应于AMB和OSHI的两个并行块 OSHI接收RecLR图像以及学习的参数（参见图1中的详细信息）。 3），并使用转置（去卷积）和深度卷积（子像素）层进行放大（Wang等人，2020年），以弥补其相互不足，以产生高质量的结果。然而，转置卷积层放大并学习映射以避免棋盘伪影，并且子像素层被配备为经由卷积和整形到高维空间来生成多个通道与转置卷积层相比，子像素层具有更大的感受野，这提供了更多的上下文信息来生成更真实的细节。同样，为了克服转置卷积和亚像素策略在边界不均匀重叠和伪影方面的缺陷，IPAS-Net重新使用从LR空间M. Hassan，Y. Wang，W. Pang等人沙特国王大学学报2746××！图二、部分U-Net模块（PUM）的结构PUM由编码-解码结构组成除了最后一层之外，在编码层和解码层之间存在跳跃连接。PUM首先提取由不同级别的窗口大小初始化的特征，然后进行宽残差处理，而不需要身份映射。这些参数被组织为CKS，对应于卷积、内核大小和步幅率。在编码器侧，除了在最后（更深）层中之外，已经采用了残余连接。批量归一化（BN）和ReLU激活函数包含在编码器的前三层和瓶颈层以及解码器的倒数第二层类似地，来自编码侧的跳过连接沿着第三维以逐元素求和的方式级联最后，生成RecLR鞋印，同时强调最后一层的学习，因为它有助于参数共享。在HR空间中创建空间，以使结果清晰和平滑。IPAS-Net进一步将HR图像一步升级到更高的维度（k HR），然后将其降级回HR（图3）。两个k HR层分别从转置卷积和子像素层获得。然后使用像素损失（L2）区分生成的k×HR层，以生成解决nHR不可用的HR图像。并行地，AMB还接收RecLR鞋印，该鞋印被升级并且然后被发送到另一AMB。因此，AMB在上采样过程之前和之后被应用两次。来自两个顺序AMB的输出与来自OSHI块的输出连接以产生HR鞋印。值得注意的是，IPAS-Net产生的结果需要单独评估是否具有照片般真实的自然特征。论文的其余部分组织如下：第2节介绍第三节展示了IPAS-Net的架构，第四节分析了成果，第五节讨论了挑战，第六节是本文的结论。2. 相关工作2.1. 用于上采样的从早期的CNN（Dong等人，2015）到最近的基于GAN的模型（Hassan等人， 2021年）。通常，通过经由不同的插值方法将nHR图像降级为LR图像来进行SISR图像生成;然后使用不同的学习策略将LR图像映射回HR图像（Lai等人，2018年）。在放大方面，一些方法在细化过程之前（预上采样）放大LR图像（Shocher等人，2018年）。这样的方法是简单的，但是可能放大棋盘伪像、噪声和模糊。相比之下，一些SR模型基于后上采样策略，其降低了训练期间的复杂性（Ledig等人， 2017年）。为了降低HR空间中的SR建模复杂性，已经尝试了基于渐进学习的策略（Wang等人，2018年）。然而，对于复杂的模型设计，需要更多的指导和高级培训，以避免培训期间的不稳定性。为了增强从LR到HR的映射，迭代上下采样方法被应用于有效的学习以提供高质量的图像（Wang等人， 2020年）。这些方法大多采用类似于编码器-解码器的结构来挖掘LR-HR图像空间之间的非线性典型的SR方法使用成对（LR-HR图像）设置。这样的设置不能为真实世界的LR图像产生良好的结果（Bulat等人，2018年），因为降级的LR可能会丢失重要的细节，例如自然伪影和降级期间继承的噪声（nHR LR）。一些研究通过尝试执行两种降解来缓解这个问题M. Hassan，Y. Wang，W. Pang等人沙特国王大学学报2747图三. IPAS-Net中的URB对HR鞋印的重建和生成进行上采样和细化。它包含两个并行的块，对应于注意力机制块（AMB）和一步更高迭代（OSHI），然后将它们连接起来以产生高保真鞋印。（a）在两个AMB之间执行作为上尺度步骤的上采样这两个块包含一个类似的内部结构，同时包含通道（CA）和空间注意力（SA）的顺序。（b）OSHI块经由使用不同的放大技术（即，超像素和转置卷积）。该块的输出与AMB合并，并进一步通过卷积运算以产生给定LR图像的细化（HR）版本和下采样（Zhu等人，2017; Wei等人， 2021年）。每种升级方法都有优点和缺点，可以用其他方法的积极方面来补偿为此，IPAS-Net部署了可能的升级方法（即，2D上采样、子像素策略和转置卷积），以在没有nHR的情况下优化和生成HR图像上采样策略仅对输入进行上采样，同时避免在模型训练期间进行参数学习。上采样安装在两个IPAS-Net AMB之间。类似地，去卷积具有降低计算成本和促进模型学习的优点（Yang等人，2019年）。相比之下，子像素层增加输出通道的数量以存储额外的点来增强分辨率和质量，然后它重新排列这些点以使用特殊的映射标准来产生HR输出（Shi等人，2016年）。2.2. 基于非配对LR-HR的SR生成大多数SISR方法都是使用可用的LR-HR对或具有降级LR版本的HR图像进行训练已经针对非参考或未配对的基于图像的估计（诸如深度估计）做出了一些努力（Godard等人，2017）和内在图像分解（Li和Snavely，2018）。但这些方法与其具体应用密切相关，其目标与IPAS-Net不同类似地，已经进行了各种尝试来对没有地面实况的噪声观测对进行降噪，但是这些努力已经限于根据噪声实现和测量进行估计的特定情况（Moran等人，2020年）。最近，在（Hassan et al.， 2021），GUV-Net模型已被提出来克服这些挑战，通过学习的特征在distinct级别和重用的HR维空间中的学习功能，同时采用一种新的策略，逆编码。然而，GUV-Net执行从LR图像到双三次插值HR图像的映射，并且更多地关注分辨率而不是HR空间中的自然属性在训练和测试期间，GUV-Net将生成的鞋印与插值的HR图像进行比较，这些图像可能缺乏取证所需的自然未配对的SR旨在提升源LR图像，同时在数据集收集至关重要的环境中保留风格和局部结构（Maeda，2020）（即，法医学和足病学）。此外，这样的数据集很少是高质量的，这是DL模型的常见限制。双三次插值可能产生伪影，去除自然传感器噪声，并产生缺乏真实世界特征的图像（Lugmayr等人，2019年，作为一个真理。在某些情况下，人工添加的M. Hassan，Y. Wang，W. Pang等人沙特国王大学学报2748-噪声不能反映自然噪声以实现有效的DL模型训练。为了避免添加人工信息，IPAS-Net利用双三次引导插值方法来生成没有地面真实图像的HR鞋印。因此，IPAS-Net模型通过保留高保真鞋印中的显著特征，体面地解决了信息丢失（自然特征、传感器噪声和划痕）。2.3. SR鞋印生成的应用前景鞋印处理是一项具有挑战性的任务，在法医足病学中起着至关重要的作用（Zhang et al.， 2017）、生物性状检查和调查（Okubike等人，2019），性别预测（Basu和Bandyopadhyay，2017）和身体形态学研究（Xiao和Shi，2008）。存在已经对鞋印图像执行的许多操作，包括经由不同方法的检索、识别和图案匹配，并且这些操作已经使用手动（ AlGarni 和 Hamiane ， 2008 ）、半自动化（Geradts 和 Keijzer ， 1996 ）、自动化（ Acevedo Mosqueda 等人， 2019）和机器学习（ML）（特别是DL）（Zhang et al.，2017）方法。在这些操作中，DL方法已经在鞋印相关操作中显示出有希望的结果（Francis等人，2019年）。关于鞋印增强，存在一些常规方法（Francis等人，2019）;然而，缺乏用于基于LR图像生成SR版本的DL算法（Hassan等人，2021年）。HR鞋印的生成提供了高密度，使其更容易分析在环境中发现的原始鞋印2.4. 通过注入建模在HR空间中保持自然性已经提出了广泛的DL算法来解决SR中面临的挑战（Yang等人，2010）使用最近的GANs模型（Heydari等人， 2020年）。然而，使用GAN的SR生成（Chan等人， 2012）面临着诸如训练不稳定性、生成数据中的合成信息、对数据集性质的敏感性以及低输出质量的挑战。为了弥补生成模型的缺点，已经进行了几次尝试来将GAN与其他网络架构融合（Heydari等人，2020年）。然而，基于输注的现有技术（SOTA）方法可能在训练复杂性、高质量图像的生成以及缺乏不需要自然地面实况（HR 图像）的算法方面面临限制（Razavi等人，2019年）。此外，已经尝试了U-Net输注用于研究具有查询图像的期望变体的引导形状和受控图像生成（Esser等人，2018年）。类似编码器-解码器的结构也已经用于SR生成（Bulat等人，2018年）。对于像鞋印这样的图像，其易受噪声影响并且难以找到干净的、高质量的HR地面实况，GAN和U-Net架构的注入连同它们的相互积极方面可以有效地生成HR输出，同时保持自然度和照片般逼真的特征（即，图案和纹理）。在IPAS-Net中注入PUM进行特征提取，可以调节重构，避免合成信息的产生，并保留空间特征。最后，IPAS-Net利用对抗性学习，这是从GAN借鉴来的，以产生给定LR鞋印的现实HR版本。2.5. 基于插值引导的HR鞋印生成未配对SR旨在提升源LR图像，同时保留风格和局部结构（Maeda，2020）。LR-HR对通常可用于SR生成，而在某些情况下，LR图像是使用预定义的插值方法（即，双立方）。LR-HR配对数据集制备在现实世界的情况下是不切实际的和具有挑战性的最近的研究已经尝试使用诸如盲SR的方法来克服LR-HR图像对的缺失（Gu等人，2019 ）和基于GAN 的未配对 SR （ Lugmayr 等人， 2019 年）。（Lugmayr等人， 2019）通过以无监督的方式采用循环一致性损失来解决双三次下采样的逆映射操作的学习。因此，在正常情况下，LR和HR图像都可用于训练DL模型。然而，数据集中的LR-HR对在类似取证的环境中很少可访问。同样，高质量的图像数据集很难找到，这是DL模型的局限性。另一方面，双三次插值HR或LR图像可能丢失重要的现实信息（Lugmayr等人， 2019年）。有时，插值图像中的模糊和噪声核也是未知的，这使得很难训练鲁棒的DL算法。然而，我们提出的模型（IPAS-Net）仅使用基于双三次插值的训练方法来指导模型保留输入（LR）鞋印中的局部结构和模式，并解决缺少nHR的问题（即，不存在LR-HR对）。使用插值引导训练，IPAS-Net能够保留HR空间中的突出特征并避免损失（即，自然特性、传感器噪声和磨损）。3. IPAS-Net架构IPAS-Net由一个编码-解码结构组成，该结构IPAS-Net旨在在不存在nHR作为基础事实的情况下，从nLR鞋印生成HR鞋印。换句话说，IPAS-Net以不成对的方式工作，以产生高保真鞋印，同时保留取证所需的照片般逼真的信息IPAS-Net利用高维空间中的低层特征，在HR空间中细化和重新校准自然度，并输出由bHR引导的HR图像。3.1. 为IPAS-Net培训在法医场景中，低质量的LR图像很少被收集，并且使用训练DL算法来放大它们具有挑战性。此外，DL算法需要大量高质量的图像（在SR，LR-HR对的情况下）来有效地训练。为了训练IPAS-Net IPAS-Net，我们首先将nLR双三次插值到HR空间（bHR）中，如下所示：bHR（bβnLR-g;“β; β3β其中，bHR表示双三次插值，并且（“）表示不存在可能不传递到HR空间（bHR）的真实世界特性（g）的插值或放大（Lugmayr等人，2019年）。插值引导的SR生成旨在提升nLR，同时保留自然风格和局部结构（ Maeda ， 2020 ）。然而， IPAS-Net 通过参数共享和细化单元（OSHI）避免自然度、传感器噪声和划痕方面的损失来解决缺失的自然特征（g3.2. PUM特征提取IPAS-Net中的PUM从给定的鞋印中提取特征（图2）。“部分”一词用于有意丢弃网络特定层（IPAS-Net中的较高层）的跳过连接。较高层促进HR空间中的参数共享，并解决不可用的地面实况的问题。然而，丢弃所有跳过连接可能导致高频信息（Yi等人，M. Hassan，Y. Wang，W. Pang等人沙特国王大学学报2749¼¼×¼××2017年），这也是优化IPAS-Net中人力资源空间所必需的编码器-解码器结构之间的对称跳跃连接提供快速收敛。类似地，为了在编码器的早期级别快速有效地提取特征， PUM 嵌入有宽残差块（WRB），其进一步传递到随后的更深层。在WRB中，不同内核窗口大小的卷积层被应用于提取高级别的各种信息，然后是批量归一化（BN）和校正线性单元（ReLU）函数。WRB的输出传递到更深层次的瓶颈进行更详细的功能提取。在解码层，类似的维度空间和层数已经与跳过连接一起部署。PUM中的学习特征（通过丢弃直接连接来配备）传递到HR空间以促进上采样和细化过程。PUM通过学习从真实LR图像中恢复RecLR，在生成逼真的HR鞋印PUM的输出公式如下：RecLR（P<0.05）其中，P表示PUM架构，h表示学习的参数（参见等式2）。2）在重建LR鞋印图像的过程中。3.3. 参数共享和保持自然基于编码器-解码器结构的SISR生成使得DL算法能够学习不同级别的特征（Park等人， 2021年）。IPAS-Net部署了编码器-解码器结构来从nLR版本生成RecLR图像，这使得模型能够在重建LR的同时学习有趣的特征，并在没有nHR图像的情况下进一步解决问题因此，参数共享单元（PSU）在应对相应nHR图像不可用的挑战方面发挥着至关重要的作用（见图11）。①的人。回顾Eqs。3和4，IPAS-Net侧重于学习PSU授权的g和h。PSU以h的形式传递学习到的特性，并与OSHI共享h的共享重新校准了g的优化（参见等式中的损失函数）。9）在较高水平（接近高分辨率）。此外，PSU使模型能够学习插值（bHR）基础事实之外的知识（参见等式2）。3）。bHR图像可能面临多尺度问题（Lim等人， 2017），因此该模型提取编码器-解码器架构中的关键特征，并在上采样和细化阶段重用这些特征。PSU有助于层间转换、模型收敛和更深层的重新校准。3.4. 上采样和细化块在图3中，URB接收RecLR图像以及来自前一个块的直接连接，并在高维空间中对其进行优化。URB由AM和OSHI两个并行工作的携带学习参数的直接连接与OSHI块融合以促进优化过程。这两个区块的细节如下：3.4.1. 注意机制块鞋印图像通常包含背景噪声，在生成HR版本时，需要在nLR注意力机制是文献中最好的应用实践（Zhang等人，2021年）。注意力机制阻滞（AMB ）（Zhang et al.， 2021年）在IPAS-Net中与OSHI块并行工作，专注于LR和HR空间，以生成增强的HR版本。有两个AM块嵌入在输入维度，这是两个AM块之间更合适的选择。 AMB以通道优先顺序连续地包含通道注意力（CA）和空间注意力（SA）（Woo等人，2018年），分别侧重于“参加什么”和“在哪里”。AMB根据LR和HR空间中的超分辨率生成向网络模型显示要强调什么以及CA依次由平均池化、全连接层、最大池化、另一个全连接层和sigmoid函数组成sigmoid函数的输出通过直接连接使用逐元素乘法连接。CA输出传递到SA，沿着空间轴聚焦在SA中，平均池化和最大池化并行应用于输入，并沿给定轴连接。对于具有大滤波器大小的所有空间位置在每个像素上生成2D注意力图（即， K 5）（见图 3（b））。然后使用sigmoid函数对最后，使用逐元素乘法合并归一化连接和直接连接，以在LR空间中产生注意力输出。在HR空间中的上采样之后应用类似的AMB，除了滤波器大小（即，K7）。CA和SA中使用平均和最大池来平衡显著特征（最大池）和全局统计（平均池）的选择。AMB在IPAS-Net中的嵌入在LR和HR维空间中都有细化过程3.4.2. 一步高阶迭代OSHI是IPAS-Net在生成无nHR的HR图像方面的关键模块（见图3（b））。OSHI接收两种类型一个是来自前一个块的输出，第二个是作为参数共享的直接连接。在重构nLR空间时学习的参数（H;W）在HR空间（k H ; k）中被重新使用 W），给定缩放因子（k），以同步学习过程和类似于现实HR鞋印的生成。OSHI利用这两个输入来细化和增强HR空间中的RecLR图像。OSHI通过一个短的Siamese（并行管道）将输入上采样到HR2空间，同时将滤波器的数量减少到一个。然后通过逐像素损失项来区分通过并行流水线的两个生成的版本，以计算内容的一致性（Ignatov等人，2018年）。在AMB中，使用2D上采样卷积，而OSHI同时使用具有相同上缩放因子的子像素和反置（或去卷积）层（即，k 2; 3;.. . ）.然后，上采样的HR特征通过具有滤波器数量（C24;C32）、滤波器大小（K3）和步幅率（S1）的正常卷积层的堆栈。使用可能的升级方法的目的（即，AMB中的2D上采样、子像素卷积和OSHI中的转置卷积）是为了补偿每种方法的缺陷，在没有nHR的情况下，在精确HR生成方面具有共同的优势。类似地，当下采样内核未知或nHR图像不可用时，去卷积具有降低计算成本的优点（Yang等人，2019年）。另一方面，子像素卷积的部署增加了输出特征的通道以存储附加点来增强分辨率，然后重新排列这些点以使用特殊的映射标准来产生HR输出（Shi等人，2016年）。然而，在用于升频的转置卷积（去卷积）层期间，LR空间中的学习参数在转置层中被重新使用，以克服每个方向上的上采样点的重复。OSHI中的总体操作用以下等式表示。在第一阶段中，使用转置和子像素方法对接收到的输入进行放大，如下所示：Tc¼T fattyRecLR;nitric; hgnitricSCN2;顺序次序为先前（在LR空间）和稍后（HR空间）向上缩放（参见图3（a））。上采样操作仅对Sc¼SRecLR;nanoparticlesSCN2ð5ÞM. Hassan，Y. Wang，W. Pang等人沙特国王大学学报2750n盘盘数ð Þ ðÞlogDbHRlog1-DGnLR;12L广告HLL1BUSSSIMk¼1其中Tc和Sc分别表示基于转置卷积和子像素层n表示学习的fea，假图像的真实概率和逆概率的对数概率。通过放大获得的特征，并且Tc接收学习的特征（h）从前一层通过。Tc和Sc之后都是两个正常卷积的堆栈（SNC2）。1Xn 香港特别行政区现在，Tc和Sc都使用转置卷积进行通过OSHI流水线以因子k进入OT和OS（即，k = 2）。其中n表示批次的数量同样，回归损失项L2可以用公式表示如下：OT¼ fTc;hh;SC1“Xn .我i2#O½ fS;h;6h表示等式中使用的类似学习参数五、到L2¼n1/1bHR-HR优化对应于nHR的空间，使用逐像素（L2）函数区分OT和OS，并将其添加为损失项（参见第3.5节中的损失函数）。3.5.2.生殖损失IPAS-Net的生成损失函数公式如下：高级别升级版本（OT和OS）是对应的-因为他们有一个类似的，G¼GGGð13Þ的三维结构，其在以下等式中表示：来自GAN模型的对抗项（Gadvr）旨在降低等式（1）中的逆概率。13岁OT-1/4 f-fTc;h;/;ð7ÞGadvr¼ 1X 1/2logg1-DGLR]14OS-¼f-fSc;h;/;其中f表示步幅卷积期间学习的特征。负函数（f-）表示重复的降尺度。最后，OSHI模块OSHI输出1/2OT -TD] 1/2OS-SD]1/8O其中表示给定层之间的元素求和。3.5. 损失函数损失函数使模型能够调整网络的权重，以最小化在投影HR（bHR）和生成HR之间的损失方面的差距，同时保留现实特征。由于bHR可能缺乏自然特征（g），因此仅考虑将bHR图像作为基础事实来指导IPAS-Net HR空间中的训练操作因此，IPAS-Net最大限度地缩小了插值鞋印中gnk¼1通过将GAN损失添加到生成过程中，视觉结果变得更清晰。类似地，GL2SSIM是内容损失（L2）和结构相似性指数（GSSIM）的总和，并且它有效地评估噪声图像并从LR空间保留自然结构GL20SSIM可进一步扩展如下：GL 2 BUSINESSSIM 沪ICP备15025552号逐像素损失（L2）是用于一般图像恢复的最广泛使用的损失函数，并且它在早期训练过程中加速收敛速度，并且还有助于保持图像的身份和自然特征（Bulat等人，2018年）。同样，L2也在努力管理在恢复高频细节（如纹理）丢失时继承的不确定性。L2的最小化鼓励关于合理HR图像生成的逐像素平均值的计算（Ledig等人，2017年）。按像素的损失在以下等式中公式化1“X高-1X宽-12#（bHR）. 通过回顾Eq。3、配方说明如下：BHRGL2¼r：cr<$0c<$0fbHRr;c-HRr;cg;1600万（I）nLR-g;“nHR（I）nLR（I）ToLF¼g（bHRjjnHRð9Þ其中r和c分别表示行和列索引。HR r;c和bHR r;c分别表示生成的（HR）和投影的（bHR）图像中的对应像素位置，而在上述公式中，-g分别表示nLR中g的存在和不存在。优化器（我们研究中的ADAM）通过微调网络权重来降低g因此，总损失函数（ToLF）在以下等式中用公式表示相对于目标函数ToLF¼DlGl10其中D1和G1分别表示判别损失和生成损失。3.5.1. 判别损失判别损失函数（D1）是sigmoid交叉熵（

下载后可阅读完整内容，剩余1页未读，立即下载