没有合适的资源?快使用搜索试试~ 我知道了~
4570SinGAN:从单个自然图像学习生成模型塔马尔·罗特·沙哈姆理工学院谷歌研究TomerMichaeliTechnion单个训练图像单个图像的随机样本图1:从单个训练图像中学习的图像生成。我们提出了SinGAN我们的模型学习图像的补丁统计跨多个尺度,使用专用的多尺度对抗训练方案;然后,它可以用于生成新的真实图像样本,其保留原始块分布,同时创建新的对象配置和结构。摘要我们介绍SinGAN,一个无条件的生成模型,可以从一个单一的自然图像学习。我们的模型被训练以捕获图像内补丁的内部分布,然后能够生成高质量,多样的样本,携带相同的视觉内容的图像。SinGAN包含一个完全卷积的GAN金字塔,每个GAN负责学习图像不同尺度下的补丁分布这允许生成任意大小和纵横比的新样本,具有显着的可变性,但保持全局结构和训练图像的精细纹理。与以前的单图像GAN方案相比,我们的方法不限于纹理图像,并且不是有条件的(即,它从噪声中产生样本)。用户研究证实,生成的样本通常被混淆为真实图像。我们说明了实用程序的SinGAN在广泛的图像处理任务。1. 介绍生成对抗网(GANs)[19]在建模视觉数据的高维分布方面取得了巨大的飞跃。特别地,无条件GAN在基于类特定数据集(例如,[33],卧室[47])。然而,捕获具有多个对象类的高度多样化数据集的(例如ImageNet [12])仍然被认为是一个重大挑战,通常需要在另一个输入信号[6]上调节生成或为特定任务训练模型(例如,超分辨率[30],修复[41],重定向[45])。在这里,我们将GAN的使用带入一个新的领域-具体来说,我们表明,在一个单一的自然图像补丁的内部统计通常携带足够的信息学习一个强大的生成模型。SinGAN是我们新的单图像生成模型,它允许我们处理包含复杂结构和纹理的一般自然图像,而不需要依赖于同一类图像这是通过一个完全卷积的轻量级GAN金字塔来实现的不同的规模。一旦经过训练,SinGAN可以产生各种高质量的图像样本(任意尺寸),这些样本在语义上类似于训练图像,但包含新的对象配置和结构(图1)。①的人。在单个自然图像中对补丁的内部分布进行建模长期以来一直被认为是许多计算机视觉任务中的有力先验[64]。 经典示例包括去噪[65]、去模糊[39]、超分辨率[18]、去雾[2,15]和图像编辑[37、21、9、11、50]。最密切相关的工作,该上下文是[48],其中定义并优化了双向块相似性度量,以保证处理后的图像块与原始图像块相同。受这些作品的启发,我们在这里展示4571绘制到图像编辑统一超分辨率动画图2:图像处理。SinGAN可用于各种图像处理任务,包括:将绘画(剪贴画)转换成逼真的照片、重新排列和编辑图像中的对象、将新对象协调成图像、图像超分辨率以及从单个输入创建动画。在所有这些情况下,我们的模型只观察训练图像(第一行),并以相同的方式训练所有应用程序,没有架构更改或进一步调整(见第二节)。4).SinGAN如何在一个简单的统一学习框架中使用,以解决各种图像处理任务,包括从单个图像绘制到图像,编辑,协调,超分辨率和动画。在所有这些情况下,我们的模型产生高质量的结果,保留了训练图像的内部补丁统计(见图1)。2、我们的项目网页)。所有任务都是用同一个生成网络来实现的,没有任何额外的信息或超出原始训练图像的进一步训练。1.1. 相关工作训练图像深度纹理合成PSGANSinGAN(我们的)单图像深度模型最近的几项工作提出将然而,这些方法是为特定任务设计的(例如,超分辨率[46],纹理扩展[60])。Shocher等人[44,45]是第一个为单个自然图像引入基于GAN的内部模型的人,并在重定向的上下文中对其进行了说明。然而,它们的产生取决于输入图像(即,将图像映射到图像)并且不用于绘制随机样本。相比之下,我们的框架是纯生成的(即,将噪声映射到图像样本),并因此适合于许多不同的图像处理任务。无条件的单图像GAN仅在纹理生成的上下文中进行了探索[3,27,31]。当在非纹理图像上训练时,这些模型不会生成有意义的样本(图1)。(3)第三章。另一方面,我们的方法不限于纹理,可以处理一般的自然图像(例如,图①的人。图3:SinGAN与单个图像纹理生成。用于纹理生成的单个图像模型[3,16]不是设计来处理自然图像。我们的模型可以产生真实的图像样本,包括复杂的纹理和非爬行全局结构。图像处理的生成模型对抗性学习的力量已经在最近的基于GAN的方法中得到了证明,在许多不同的图像处理任务中[61,10,62,8,53,56,42,53]。 例子包括:交互式图像编辑[61,10],sketch2image [8,43],以及其他图像到图像翻译任务[62,52,54]。然而,所有这些方法都是在特定于类的数据集上训练的我们对捕捉同类图像中的共同特征不感兴趣,而是对输出输入训练图像4572----假的真多尺度面片生成器多尺度斑块鉴别器有效贴片尺寸图4:SinGAN的多尺度流水线。我们的模型由一个金字塔的GAN组成,其中训练和推理都是以从粗到精的方式完成的。在每个尺度上,Gn学习生成图像样本,其中所有重叠的补丁都不能通过下采样的训练图像xn中的补丁区分开来;有效补丁大小随着金字塔的上升而减小(在原始图像上以黄色标记)。Gn的输入是a随机噪声图像zn,以及从先前尺度xn生成的图像,上采样到当前分辨率(除了纯粹生成的粗调级别)。在级别n的生成过程涉及所有生成器{G,N。. . Gn}和所有噪声图{ZN,. . . ,zn}上升到这个水平。更多详情请参见Sec。二、例如图像中大对象的排列和形状(例如,天空在顶部,地面在底部),以及精细细节和纹理信息。为了实现这一目标,我们的生成框架,如图所示。4,由一个高层次的补丁GAN(马尔可夫网络)[31,26]组成,每个补丁GAN负责捕获不同尺度x下的补丁分布。GAN具有小的接收域和有限的容量,防止它们被...图5:单尺度生成。 在每个尺度n处,来自前一尺度xn+1的图像被上采样并被添加到输入噪声图zn。结果被送入5个conv层,其输出是一个残差图像,被加回(x<$n+1)↑r。 这是G n的输出xn。选择不同的训练数据源-单个自然图像的多个我们表明,一个强大的生成模型可以从这些数据中学习,并可用于一些图像处理任务。2. 方法我们的目标是学习一个无条件的生成模型,它可以捕获单个训练图像x的内部统计数据。该任务在概念上类似于传统的GAN设置,除了这里的训练样本是单个图像的块,而不是来自数据库的整个图像我们选择超越纹理生成,并处理更一般的自然图像。这需要在许多不同尺度下捕获复杂图像结构的统计数据。例如,我们希望捕获全局属性将单个图像格式化。虽然在传统的GAN设置中已经探索了类似的多尺度架构(例如,[28,52,29,52,13,24]),我们是第一个探索它的内部学习从一个单一的图像。2.1. 多尺度体系结构我 们 的 模 型 由 一 个 金 字 塔 组 成 ,发 电 机 ,G0,. . .,GN,针对图像金字塔x:x0,. . . ..每个生成器Gn负责产生真实图像样本w.r.t.该块在相应的图像xn中显示。这是通过对抗训练来实现的,其中Gn学习欺骗相关的BIDDn,该BIDD n试图将生成的样本中的补丁与xn中的补丁区分开。图像样本的生成从最粗的尺度开始,并顺序地通过所有生成器直到最细的尺度,其中在每个尺度处注入噪声。所有的发生器和鉴别器都有相同的感受野,因此随着生成过程的进行,它们所捕获的结构的大小会逐渐减小。在粗略的尺度上,生成是纯粹的生成,即。GN将空间高斯白噪声zN映射到图像样本xN,++……培训进度4573∼n↑nn+1个↑×LLLL联系我们∗2LGnDnx∈N=GN(zN).(一)在这个水平上的有效感受野通常是1/2图像重建损失我们希望确保存在一组特定的输入噪声图,这组噪声图生成原始图像x。我们特别选择recrec联系我们图像和物体的整体结构。在更精细尺度(n N)处的每个生成器Gn添加了先前尺度未生成因此,除了空间噪声Zn之外,每个生成器Gn接受来自较粗尺度的图像的上采样版本,即,zN,zN −1. . . ,z0 =z,0,. . . 其中z是某个固定的噪声图(绘制一次并在训练期间保持固定)。ing)。用x表示使用这些噪声图时在第n个尺度下生成的图像然后对于n N,recr2rLrec=<$Gn(0,(x<$n+1)↑)−xn<$,(5)x<$n=Gn(zn,(x<$n+1)↑),
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Haskell编写的C-Minus编译器针对TM架构实现
- 水电模拟工具HydroElectric开发使用Matlab
- Vue与antd结合的后台管理系统分模块打包技术解析
- 微信小游戏开发新框架:SFramework_LayaAir
- AFO算法与GA/PSO在多式联运路径优化中的应用研究
- MapleLeaflet:Ruby中构建Leaflet.js地图的简易工具
- FontForge安装包下载指南
- 个人博客系统开发:设计、安全与管理功能解析
- SmartWiki-AmazeUI风格:自定义Markdown Wiki系统
- USB虚拟串口驱动助力刻字机高效运行
- 加拿大早期种子投资通用条款清单详解
- SSM与Layui结合的汽车租赁系统
- 探索混沌与精英引导结合的鲸鱼优化算法
- Scala教程详解:代码实例与实践操作指南
- Rails 4.0+ 资产管道集成 Handlebars.js 实例解析
- Python实现Spark计算矩阵向量的余弦相似度
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功