多元图像复原:生成多样合理解决方案

需积分: 50 6 下载量 72 浏览量 更新于2024-09-03 收藏 2.93MB PDF 举报
"这篇论文提出了一种多元图像复原的方法,即Pluralistic Image Completion,旨在为图像填充任务生成多种多样且合理的解决方案。传统的图像修复技术通常只能产生一个结果,而这种方法能创建多个可能的、多样的修复图像。研究者面对的主要挑战是基于学习的方法通常只有一个标注的真实训练实例。为解决这个问题,他们设计了一个包含两条平行路径的新框架:一条是重建路径,利用唯一给出的真实标注来获取缺失部分的先验分布,并据此重建原始图像;另一条是生成路径,其条件先验与重建路径中的分布相结合。这两条路径都得到了GANs的支持。此外,他们还引入了一种新的短期+长期注意力层,以利用解码器和编码器特征之间的远程关系,提高了外观一致性。在巴黎建筑、 CelebA-HQ人脸和ImageNet自然图像数据集上的实验表明,该方法不仅能生成高质量的修复结果,还能提供多样化的合理输出。" 本文是关于计算机视觉领域的深度学习应用,特别是在图像修复或完成方面的创新。关键词包括人工智能、深度学习、机器学习、CV(计算机视觉)。论文指出,现有的图像完成技术往往只能产生单一的修复结果,而真实世界中可能存在多种合理的选择。因此,作者提出了一种新的框架,它能够生成多元和多样性的图像修复结果。 该框架的核心是两个并行的路径:一是利用条件变分自编码器(Conditional VAEs)的重建路径,通过唯一的地面真实信息来学习缺失部分的先验分布,从而重建整个图像;二是生成路径,它的条件先验与重建路径的分布相结合,生成不同的可能性。为增强多样性,作者采用了生成对抗网络(GANs),并且开发了一种新的注意力机制,称为短期+长期注意力层,它能捕捉到解码器和编码器特征之间更广泛的关系,有助于保持图像的外观一致性。 实验证明,这种方法在人脸、建筑物和自然场景的图像上都能产生高质量和多样性的修复结果,没有经过后处理。这表明,提出的框架不仅提高了图像复原的质量,还大大增加了结果的多样性,这对于图像编辑、修复和艺术创作等应用具有重要意义。