没有合适的资源?快使用搜索试试~ 我知道了~
基于去噪的合成模型用于图像生成的新方法
软件影响9(2021)100076原始软件出版物去噪合成:使用基于去噪的模型埃里克·卢曼(Eric Luhman),1,2,特洛伊·卢玛(Troy Luhma)n1,2A B标准许多不同类型的生成模型已被应用于图像合成,即从特定数据集生成新图像的任务。一类较新的生成模型是基于降噪的模型,它采用随机噪声并通过逐渐去除噪声来创建图像。我们引入一个模块 称为去噪合成来训练这些基于去噪的生成模型并从中生成新图像。我们的模块既灵活又简单易用,并提供有用的功能,包括大大提高模型的图像生成速度的方法代码元数据当前代码版本v1.0用于此代码版本的代码/存储库的永久链接https://github.com/SoftwareImpacts/SIMPAC-2021-26Reproducible Capsule的永久链接https://codeocean.com/capsule/9690943/tree/v1法律代码许可证MIT使用git的代码版本控制系统使用的软件代码语言、工具和服务Python编译要求、操作环境依赖性Python、tensorflow如果可用,链接到开发人员文档/手册https://github.com/tcl9876/denoising_synthesis/blob/master/readme.md问题支持电子邮件troyluhman@gmail.com1. 介绍生成式建模是一个重要的研究课题,的应用程序。感兴趣的一个特定任务是图像合成,其目标是生成看起来来自给定数据集的新图像。通常,随机输入由神经网络转换为真实图像,并且输入中的随机性允许创建各种各样的新颖图像。已经提出了许多不同的方法来执行图像合成,包括GAN [1],VAE [2]以及最近的基于降噪的模型[3,4]。这些基于去噪的模型从高斯噪声开始,逐渐去除该噪声,将其转换为信号。一个强有力的例子是去噪扩散概率模型,或DDPM,它已经取得了一些图像生成任务的最先进的结果。虽然它们生成的是高度逼真的样本,顺序生成步骤,因为它们迭代地对样本进行另外两个例子,去噪扩散隐式模型(DDIM)[5]和去噪学生模型(DSM)[6],旨在降低DDPM的采样速度。这些采样时间缩短方法可以将图像生成速度提高20-1000倍,而对采样质量的影响很小在本文中,我们介绍了一个模块的图像合成称为去噪合成,可以创建逼真的,新颖的图像,使用基于去噪的生成模型。我们的模块允许用户训练去噪模型,并使用经过训练的模型生成逼真的多样化图像。它可以很容易地应用于用户选择的数据集,包括高分辨率和复杂的数据集。它还允许在计算成本和样本质量之间进行权衡,因此即使在CPU上也可以高效地生成高保真样本。通过编辑 单个YAML文件,用户可以更改模型大小,采样速度,本文中的代码(和数据)已由Code Ocean认证为可复制:(https://codeocean.com/)。更多关于生殖器的信息徽章倡议可在https://www.elsevier.com/physical-sciences-and-engineering/computer-science/journals上查阅。∗通讯作者。电子邮件地址: ericluhman2@gmail.com(E. Luhman)。1提交人目前不隶属于任何机构。2 同等贡献。https://doi.org/10.1016/j.simpa.2021.100076接收日期:2021年3月19日;接收日期:2021年4月20日;接受日期:2021年4月21日2665-9638/©2021作者。由Elsevier B. V.发布,这是CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表软件影响杂志 首页:www.journals.elsevier.com/software-impactsE. Luhman和T. Luhman软件影响9(2021)1000762Fig. 1. 说明了噪声加扩散过程,以及扩散模型的生成过程。训练时间和其他超参数,使去噪合成 一个灵活的工具,用于训练这些类型的生成模型。2. 描述和用途我们的模块允许用户使用三种类型的基于降噪的生成模型:DDPM,DDIM和DSM。 在DDPM中,图像被扩散过程破坏,其中扩散过程中的每个步骤都添加高斯噪声(直到图像完全有噪声)。然后训练神经网络,以使用去噪目标来反转该扩散过程中的每个步骤。然后,神经网络可以通过逐步执行整个噪声添加过程的逆过程来生成新图像,从而在每次迭代时降低噪声水平。DDIM类似于DDPM,除了它需要更少的步骤来产生样本,并且具有确定性的生成过程(即为相同的初始变量产生相同的图像)。DSM尝试预测DDIM针对特定输入的输出图像,仅使用单个步骤来提高采样速度。DDIM和DDPM使用相同的训练模型,而DSM是单独的模型,是在第二个训练阶段创建的。在我们的模块中,我们将第二个学生模型称为第二阶段或“阶段2”。的图示这一过程中给出了图。1.一、使用的模型架构是一个U-Net [7],与[4]中使用的非常相似。我们的模型使用位置编码来接收关于生成过程中当前步骤的信息,并且可以选择性地包括自我注意层[8],这可以帮助学习全局特征。使用的优化算法是Adam [9],并且在采样时间期间也可以使用权重的指数移动平均值该模块包括两个主要函数:通过命令行运行的“train”和“eval”。“train”允许用户在他们选择的特定数据集上训练新的生成模型,“eval”允许用户从训练的生成模型中生成和保存新图像。 可以按以下方式使用这些命令Pythonmain.py train--data_loc/path/to/datasetPython main.py eval--figure_path/path/to/figure.png--eval_examples 16要自定义我们的模块,可以通过直接编辑代码中的config.yaml文件来进行大多数必要的更改。 默认情况下,train命令将训练第二个DSM,eval命令将使用此训练模型生成样本。使用生成采样DDIM或DDPM,则用户应将--no_stg2参数添加到命令行调用,并将config.yaml文件中的用户可以在此配置文件中编辑各种设置以满足其需要,例如模型大小和图像形状。其他可调设置包括:- 模型配置,包括其宽度、深度和数量 的空间分辨率- 扩散过程的噪声时间表,包括噪声添加步骤- DDPM/DDIM模型的训练配置,包括批量大小、迭代次数、学习率和其他优化器设置- 第二训练阶段的训练配置,包括用于训练的合成样本的数量3. 影响概述该模块的目的是提供一个简单而灵活的解决方案,图像合成,使用一种新型的生成模型。该模块为从事图像合成的研究人员和从业人员提供了几个好处:- 用途:用户只需添加自己数据集的图像并更改一个配置文件。剩下的部分被抽象掉了,包括数据预处理、建立模型架构和训练管道,以及为模型提供采样过程。该模块还可以根据用户的计算预算轻松调整- 我们模块中基于降噪的模型对超参数具有抵抗力,并且表现出高多样性和高质量,使我们的模块成为GAN训练的良好替代方案。这意味着需要花费更少的时间和金钱来调整超参数以稳定训练,并且模型可以更快地原型化和开发。- 它可以进一步研究基于降噪的方法,因为新的架构,噪声时间表和其他方法可以通过在我们的模块上进行微小的更改来应用。 由于我们的模块已经提供了数据集和训练功能,研究人员将能够专注于对基于降噪的模型进行新的改进,而不是重新创建这个基本功能。我们所包含的生成模型首次在[4]中使用,证明了它们在不同图像任务中生成高质量图像的能力我们还采用了两种新的采样方法,旨在加快采样速度,DDIM [5]和DSM [6]。它还可以在图像质量和图像生成速度之间进行权衡,用户可以选择最适合其需求的生成模型在培训过程的第二阶段,DSM的采样速度比常规DDPM或DDIM快20- 1000倍,使其适用于低资源设置和部署。 我们在MNIST数据集[ 10 ]上提供了我们模块的一个玩具使用示例,并在图中包括样本结果。二、4. 结论我们已经提出了一个称为去噪合成的模块,它为自然图像合成提供了一个快速有效的解决方案。通过我们的模块,用户可以训练基于降噪的生成模型,并使用它们创建新的图像供查看。虽然该软件是一个有用的和灵活的工具,用于图像生成,可以进一步改进,以提高其可用性和功能。我们的目标是扩展我们的软件,允许使用FID [11]等定量指标在模型之间进行比较,并在Tensorflow之外的其他框架中提供实现E. Luhman和T. Luhman软件影响9(2021)1000763图二. MNIST数字样本从一个玩具模型。竞合利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作引用[1]I.作者简介:李伟杰米尔扎湾Xu,L.沃德-法利,S。奥扎尔A.库尔维尔YBengio,Generative Adversarial Nets,in:Z.加赫拉马尼,M. 威林,C.科尔特斯N。劳伦斯,K.Q. Weinberger(Eds.),神经信息处理系统进展,第27 卷 , CurranAssociates , Inc. , 2014 , https : //proceedings.neurips.cc/paper/2014/file/5ca3e9b122f61f8f06494c97b1afccf3-Paper.pdf网站。[2]D.P. Kingma,M. Welling,自动编码变分贝叶斯,在:第二届国际学习表示会议,ICLR 2014,Banff,AB,加拿大,2014年4月14日至16日,会议跟踪会议记录,2014年,arXiv:http://arxiv.org/abs/1312.6114v10。[3]Y.宋,S. Ermon,通过估计数据分布的梯度进行生成建模,在:H。沃勒克,H。拉 罗 谢 勒 A. 贝 盖 尔 齐 默 , F. d'Alché Buc, E. 福 克 斯 河 , 巴 西 - 地 Garnett(Eds.),神经信息处理系统进展,第32卷,Curran Associates,Inc.,2019年,https://proceedings.neurips.cc/paper/2019/file/3001ef257407d5a371a96dcd947c7d93-Paper.pdf。[4] J.Ho,A. Jain,P. Abbeel,去噪扩散概率模型,在:H. 拉罗谢勒,M。 兰扎托河,巴西-地 哈德塞尔,M.F. Balcan,H. Lin(Eds.) ,Advances in Neural Information Processing Systems, Vol.33,CurranAssociates,Inc.,2020年,第页。6840-https://proceedings.neurips.cc/paper/2020/file/[5] 宋角,澳-地 孟氏S. Ermon,去噪扩散隐式模型,2020,http://arxiv.org/abs/2010.02502网站。[6]E. Luhman,T. Luhman,用于提高采样速度的迭代生成模型中的知识蒸馏,2021,http://arxiv.org/abs/2101.02388。[7]O.放大图片作者:J. Brox,U-net:用于生物医学图像分割的卷积网络,2015年,http://arxiv.org/abs/1505.04597。[8] A. 瓦斯瓦尼北沙泽尔,北帕尔玛湖,加-地琼斯,A.N.戈麦斯,L.U. 凯泽岛,智-地 Polosukhin,注意力是所有你需要的,在:我. Guyon,U.V.Luxburg,S. 本吉奥,H. 瓦拉赫,R. 费格斯S.维什瓦纳坦,R.加-nett(Eds.),神经信息处理系统进展,第30卷,Curran Associates,Inc.,2017年,https://proceedings.neurips.cc/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf。[9] D. P. Kingma,J. Ba,Adam:随机优化方法,2015,CoRRabs/1412.6980。[10] Y.莱昆角,澳-地科尔特斯角Burges,MNIST手写数字数据库,2010年,ATT实验室[在线]。可通过以下网址获得:http://yann.lecun.com/exdb/mnist。[11] M. Heusel,H. Ramsauer,T.翁特希纳湾Nessler,S. Hochreiter,GAN训练通过两个时间尺度的更新规则收敛到一个局部纳什均衡,在:I。Guyon,U.V.Luxburg,S.本焦,H。瓦拉赫河Fergus,S. 维什瓦纳坦河 Garnett(Eds.),神经 信 息 处 理 系 统 进 展 , 第 30 卷 , Curran Associates , Inc. , 2017 年 ,https://proceedings.neurips.cc/paper/2017/file/8a1d694707eb0fefe65871369074926d-Paper.pdf。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功