没有合适的资源?快使用搜索试试~ 我知道了~
非成对图像间平移的最大空间扰动一致性
18311†→→YX非成对图像间平移的最大空间扰动一致性Xu Yanwu1,Shaoan Xie2,Wenhao Wu4,Kun Zhang2, 5,Mingming Gong3<$,Kayhan Batmanghelich1<$1匹兹堡大学生物医学信息学系{yanwuxu,kayhan} @ pitt.edu2卡内基梅隆大学3墨尔本大学数学与统计学院4百度公司计算机视觉技术系5穆罕默德·本·扎耶德人工智能摘要不成对图像到图像翻译(I2I)是一个不适定的问题,lem,因为无限数量的平移函数可以将源域分布映射到目标分布。因此,在设计合适的约束方面已经投入了很多努力,例如,循环一致性(CycleGAN)、几何一致性(GCGAN)和基于对比学习的约束(CUTGAN),T(X)L1G(T(X))最好提出问题。然而,这些众所周知的约束条件有其局限性:(1)对于特定的I2 I任务,它们要么限制性太强,要么太弱;(2)当在源域和目标域之间存在显著的空间变化时,这些方法导致内容失真。本文提出了一种称为最大空间扰动构造(MSPC)的通用正则化技术,它强制空间扰动函数(T)和平移算子(G)是可交换的(即,TG = GT)。此外,我们还引入了两个对抗性训练组件来学习空间扰动函数。第一个让T与G竞争以获得最大扰动。第二种方法是让G和T与歧视竞争用于对齐由对象大小变化、对象失真、背景中断等引起的空间变化。我们的方法在大多数I2I基准测试中优于最先进的方法。我们还引入了一个新的基准,即正面到侧面的人脸数据集,以强调I2I在现实世界应用中的潜在挑战最后,我们进行消融实验,研究我们的方法的灵敏度空间扰动的严重程度和分布对齐的有效性。1. 介绍在不成对图像到图像翻译(I2I)中,目标是将图像从源域翻译到目标域,数据来自边际分布源域(PX)和目标域的同等贡献。代码发布于https://github.com/batmanlab/MSPC。(a) 具有空间扰动函数T的XYT(X)T(Y)(b) 空间扰动函数T图1.在此图中,我们说明了建议的MSPC上(a)最大空间扰动下的一致性正则化和(b)通过空间扰动函数T对准源XT和YT之间的空间分布。(PY)。未配对的I2I有许多应用,例如超分辨率[12,15],图像编辑[13,49]和图像去噪[4,41]。然而,这是一个不适定的问题,因为存在无限多的翻译者G可以将PX映射到PY。已经提出了对平移函数G的各种约束来补救问题的不适定性例如,循环一致性(CycleGAN)[50]强制执行循环重建一致性:XG(X)X,这意味着G和它的逆是双射。卡根[37]通过对块级特征的主动学习,最大化输入图像和翻译图像之间的互信息。另一方面,GCGAN [16]通过应用XG(X) T(G(X))18312→→◦◦◦◦预定义的几何变换G,即,固定的旋转,鼓励G对几何变换具有鲁棒性。GCGAN的基本假设是G和g是可交换的(即,g G=G g)。然而,Cy- cleGAN假设源和目标之间的双射关系,这对于大多数现实生活中的应用是有限的[37]。例如,在Cityscapes Parsing任务中,翻译函数是不可逆的.虽然GCGAN中使用的几何一致性是一个通用的I2I约束,但它太弱了,以至于模型很容易将固定变换的模式进行分类。CUTGAN增强了输入图像和对应块处的翻译图像之间的强相关性;因此,当在相同空间位置的块不包含相同内容时,例如,在Front Face Pro- file任务中(如图5所示)。因此,上述模型对于特定的I2I任务要么限制太多,要么太弱。此外,它们都忽略了图像平移过程中由于物体大小变化、物体变形、背景干扰等引起的额外空间变化。为了解决上述问题,我们提出了一种称为最大空间扰动一致性(MSPC)的新规则化,它强制执行一种新类型的约束,并将内容的空间分布内容跨域对齐我们的MSPC通过学习空间扰动函数T来推广GCGAN,该函数自适应地用图像相关的空间扰动来变换每个图像。此外,MSPC基于硬空间扰动的一致性将提高翻译器G的鲁棒性的新见解。因此,MSPC强制最大空间扰动函数(T)和平移算子(G)是可交换的(即,TG=G T)。为了产生最大的空间扰动,我们引入了一个可重构的空间TransformerT [24],以在最小-最大博弈中与平移网络G竞争,我们将其标记为扰动分支。更具体地说,T试图最大化T(G(X))和G(T(X))之间的距离,而G最小化它们之间的差通过这种方式,我们的方法动态地为每个图像生成最难的空间变换,避免将G过拟合到特定的空间变换。图1a给出了图像相关空间扰动如何在I2I框架上工作的简单说明。为了对齐内容的空间分布,T和G在另一个最小最大博弈中合作与一个最大的竞争对手竞争在对齐分支中,T通过减轻空间差异来参与对齐翻译图像和目标图像之间的差异,即,调整对象 我们评估我们的模型在几个广泛研究基准,此外,我们构建了一个正面→配置数据集,具有显著的领域差距,以强调现实世界应用程序中的挑战。实验结果表明,所提出的MSPC在大多数I2I任务上优于其竞争对手。更重要的是,MSPC在各种I2I任务中执行最稳定,证明了我们的约束的普遍性。图1b显示了通过动态空间变换函数对源图像和目标图像的对齐效果的视觉示例。2. 相关工作2.1. 生成对抗网络生成对抗网络(GAN)[19]在生成器G和判别器D之间训练一个最小-最大博弈,其中D试图区分数据分布和生成的分布。当G和D达到平衡时,生成的分布将与数据分布完全匹配。近年来,GAN已经在许多图像合成任务中进行了探索,例如监督和无监督图像生成[3,11,18,33,34],域自适应[2,17,47],图像修复[36,40,42],等2.2. Image-to-Image Translation成对的图像到图像转换任务可以追溯到[14],其提出了一种非参数纹理模型。随着深度学习的发展,最近的Pix2Pix模型[23]将条件GAN模型扩展到图像翻译,并使用配对数据学习从源图像到目标图像的条件映射也有其他作品在这方面的研究,如[25,39]。然而,成对的图像是昂贵的收集,因此最新的作品集中在设置与半监督和无监督的设置。与现有的未配对设置相比,[44]考虑了更具挑战性的设置,其中两个域的内容未对齐,并建议通过重要性重新加权来解决这个问题。作为一种半监督方法,[35]使用组合的有限配对图像和足够的未配对图像执行图像翻译。此外,[1,5在这些作品中,CycleGAN [50]提出了输入图像和翻译图像之间的循环一致性。GCGAN [16]通过对输入图像的旋转来CUTGAN [37]通过对比学习最大化输入和翻译图像之间的互信息UNIT [28]提出了潜在空间中两个图像域之间的内容共享和风格变化的强烈假设。为了获得多样化的翻译结果,MUNIT [22]和DRIT[27]将内容和风格分开,并通过将相同的内容与不同的风格相结合来产生多样化的输出。在这18313RX Y轴G{∈X}{∈Y}DYX在本文中,我们重点研究了对目标图像具有确定性的无监督任务图像翻译的输出。2.3. 半监督学习的一致性正则化在用于半监督分类、聚类或回归任务的各种方法中,一致性规则化引起了广泛关注,正如最近一篇关于深度半监督学习的调查论文中所讨论的那样[45]。一致性正则化的约束假设数据流形是光滑的,并且模型对数据点上的实际扰动是鲁棒的。换句话说,一致性正则化可以迫使模型通过合并未标记的min maxEyPlogD(y)+ExPlog(1−D(G(x),这正是我们的方法的分支a),并已被广泛采用在大多数I2I方法[16,37,50]。3.2.最大空间扰动一致性在最大空间扰动分支(分支b)中,我们指定了建议的最大空间扰动约束(MSPC),用于正则化无监督transla- tion网络。简而言之,我们提出了一个对抗性空间扰动网络T,它将与翻译器G一起训练。配方如下:min maxEx<$PX<$T(G(x))−G(T(x))<$1,(2)数据 虽然GCGAN是从不同的每G T因此,它可以被认为是一种变异的随机扩增模型[38],它对标记或未标记样本的两个随机扩增实施一致的模型预测。与所提出的MSPC密切相关的正则化方法是虚拟对抗训练(VAT)[32]。VAT引入了对抗攻击的概念[20]作为半监督分类中的一致性正则化。该方法学习最大对抗扰动作为数据级上的附加噪声。更具体地说,它在γδ的约束下找到输入样本x上的最佳扰动γ<。 设和f分别表示两个向量之间的距离估计和预测模型,我们可以将其公式化为:其中T旨在最大化来自原始输入x的平移图像与空间扰动图像T(x)之间的L1距离,并且G学习最小化由T引起的发散,这是空间扰动的影响。值得注意的是,T是一个参数化和可区分的网络,这要归功于[24];细节将在后面介绍。因此,对于每个图像xi,所学习的空间扰动Ti特定于该图像。换句话说,T对不同的图像产生不同的空间扰动,而在GCGAN中,T仅表示固定的空间变换。此外,我们的空间扰动函数T随着训练的进行而变化。 为了设计一致性损失,我们通过ap构造平移图像G(xi)和扰动平移图像G(Ti(xi))之间的对应关系,minFMaxγ;γ-β-β-δEx∈PXR(f(θ,x),f(θ,x+ γ)).(一)将学习到的Ti应用到翻译的图像上,Ti(G(xi)). 给出了该分支的图示3. 该方法在无监督的I2I中,可以访问未配对的图像,RC×H×W,它们分别来自源域和目标域。目标是将x;x的图像转换为y;y 。 我们提出的MSPC有四个组件和三个分支。对于这些元件,我们有一个图象变换器G,一个空间扰动函数T和两个图象鉴别器D和DT.作为三个分支,a)G和D用于图像翻译的常规对抗训练; b)G和T在最大空间扰动分支中相互竞争; c)G和T在空间对齐分支中合作与DT竞争。我们的方法的整体架构如图2a所示。下面我们将按照分支的顺序解释我们的方法。3.1. 图像翻译中的对抗性约束构建翻译框架(分支a)的一种直接方法是利用生成对抗训练,在图2b中。3.3. Spatial Alignment of the TransformerT在分支b)中,T在生成最大扰动方面起重要作用,该最大扰动试图混淆G并使G能够跨不同的I2I任务更鲁棒此外,T的变形属性可以通过缩放、旋转、裁剪噪声背景等来帮助以无监督的方式在源图像X和目标图像Y之间对准空间分布如图2c中所示,G和T试图通过与另一个双方差T的对抗训练来迫使G(T(X))的分布接近经变换的目标图像T(Y)的分布。在这个过程中,P(T(Y))的目标分布也被变形以接近生成分布,这与具有固定目标分布的常规生成对抗训练不同因此,在c)的过程中,对抗训练过程可以被公式化为以下最小-最大博弈,minmax Ey<$PYlog D(T(y))+Ex<$PXlog(1 − D(G(T(x)。[19]这使得翻译的图像相似G,TDT(三)18314→ → → ← ← ← → → → ←←→ →←×1 1 22i、jnm我MJnCnMDXGG(X)Y不T(G(X))L1T不T(X)GG(T(X))T(Y)DT(a) MSPC的完整模型不XGG(X)T(G(X))逆转梯度L1反射梯度落后不T(X)GG(T(X))(b) 最大空间扰动一致性(c)TransformerT的空间对准。图2.对所提出的MSPC模型的说明,(a)我们可以将我们的模型概括为三个学习分支:1)X G D Y;2)XGTL1GTX; 3)XTGDTTY。1)、2)、3)分别指定常规对抗训练、最大空间扰动和空间对齐。 更具体地说,我们展示了G,T之间的对抗训练,(b)以及(c)中的G、T、DT。3.4. 可微T一在变换图像时,我们在图像上构造网格,并且变换网络T输出变换后的网格的坐标假设图像大小为H W,我们可以简单地将变换过程公式化为:12{(pi,pj); i = 1,2,3,.,n,j = 1,2,3,…,m}= T(x),H WVc=Uck(p−q; Φp1)k(p−q; Φp2),图3.空间转换网络(Spatial transformation network,简称DEM)。网络T输出变形网格在m∈[1. -是的-是的 H];n∈[1. -是的-是的 W];n∈[1. -是的-是的C],(4)其中(q1,q2)表示原始网格的坐标,U图像,然后通过在i i中插值来生成新图像这些网格;它是可微的,可以用随机优化是原始图像的像素值,c是im的指示符年龄通道,(p1,p2)表示trans-channel的新坐标梯度下降。我我以上章节中T的所有这些功能都是k(; Φp1),k(; Φp2)表示插值图像的核,我们用Vi表示插值图像的反在位置(p1,p2)中形成像素值。 见图3我我不XT(X)GG(T(X))落后反射梯度DT不YT(Y)BD18315基于T是可微的,可以用随机梯度下降法进行优化的良好性质。根据[24],它可以分为两个步骤。的第一步中生动的插图为了方便后面的公式,我们简单地将T(x)称为学习的变换图像。18316BD−YX→→→×→Σ3.5. T上的约束一直觉是,我们不允许图像严重失真超过一定的比例,并且坐标的平均平移也应该控制在合理的我们的模型的整体公式可以总结如下:最小最大EyPlogD(y)+ExPlog(1D(G(x)G,T D,DTC+EYlogDT(T(y))+ExPXlog(1−DT(G(T(x),(a) 图像在没有缩放的情况下min maxEx<$PX<$T(G(x)),G(T(x))<$1,约束G TL1s.t. 1<|pipj|a<,ij&−
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功