没有合适的资源?快使用搜索试试~ 我知道了~
1基于扩散模型郑信义*1,陈玉洁*1,邱伟贞1,曾鸿宇2,李欣颖31国立交通大学,台湾,2Meta,3Snap Inc.图1:从笔划和草图生成图像的三维控件。(左)我们提出的模型能够提供三维控制的图像合成从中风和素描。以草图和笔划为输入,控制合成输出对草图和笔划的忠实度,以及合成输出的真实感程度。(右)(a)给定草图和笔划,我们执行草图/笔划到图像的转换。(b)我们使用部分草图/笔划作为输入生成多模态结果。(c)草图/笔划条件本地编辑。摘要从手绘图生成图像是内容创建中的关键翻译是困难的,因为存在无限的可能性,不同的用户通常期望不同的结果。因此,我们提出了一个统一的框架,支持三维控制的图像合成从草图和笔划的基础上扩散模型。用户不仅可以决定对输入笔画和草图的忠实程度,而且还可以决定真实度,因为用户输入通常与真实图像不一致。定性和定量实验表明,我们的框架*同等贡献。项目页面:https://cyj407.github.io/DiSS/实现了最先进的性能,同时在生成具有对形状、颜色和真实性的控制的定制图像时提供灵活性。此外,我们的方法释放的应用程序,如编辑真实图像,生成部分草图和笔划,多域多模态合成。1. 介绍速写和笔画是对景物的抽象描述。它们代表了人们心中的不同抽象插图,因此成为重要的交流媒介。可以想象,来自手绘输入的图像合成可以将人类创作与现实联系起来,从而释放出潜在的应用程序并有助于内容创作过程。40544055从草图和笔画生成图像是困难的,因为翻译是不明确的和多模态的。对于每个草图和笔划,不同的用户将在不同的情况下期望不同的输出,即结果对给定输入 的 忠 实 程 度 。 最 初 , 该 问 题 在 生 成 对 抗 网 络(GAN)[6]的帮助下被公式化为图像到图像的翻译[21,1,15,23,21]。这种工作流通常是任务相关的,需要不同的模型用于各种任务(例如,用于笔划到图像和草图到图像转换的单独模型)。此外,他们缺乏灵活性和可控性方面的忠实程度。最近,扩散模型[18,5]揭示了高质量图像合成和稳定训练程序的任务扩散模型的变体被提出来处理不同形式的条件,例如类别[5,9],参考图像[3]和基于笔划的绘画[17]。因此,利用扩散模型,我们想探索一个统一的框架,可以考虑所有感兴趣的因素,包括轮廓,颜色,一致性和现实主义的可能性在本文中,我们介绍了DiSS,一个基于DIffusion的框架,它可以从Sketches和Strokes生成图像,同时可以对输入的一致性程度进行三维(轮廓,首先,与之前使用黑白素描或笔触绘画的作品不同,我们建议同时处理两个为了对草图和笔划的一致性提供分离控制,我们采用无分类器的指导[9]来支持二维控制。在分解形状和颜色信息后,我们可以定制生成过程,并根据用户的需求单独调整采样结果然而,一般用户输入的笔画和草图往往与真实图像的分布因此,我们提出了第三个控制因素,即真实性尺度,以实现一致性和真实性之间的权衡。具体来说,我们应用迭代潜变量细化[3]并利用低通滤波器来调整参考图纸的粗到细特征。随着三维控制,建议的DiSS提供了灵活的可编辑性,如图所示。1.用户可以自行决定对输入的草图和笔画的忠实程度,以及结果与真实图像的接近程度。DiSS自然会释放几个应用程序。首先,多模态多域翻译(图。4)可以在多个域中生成仅由草图和笔划引导的多样化结果,而无需显式标记。第二,多条件局部编辑(图。5(a))使用户能够通过简单地绘制轮廓和颜色来编辑现有图像。第三,区域敏感的笔画到图像(图。5(b))支持未完全着色的输入,提供空白区域的变化。我们评估所提出的框架的三维可控性定量和定性。我们使用Fre' chet感知距离(FID)[7],LPIPS [24]以及对 AFHQ [4] , Oxford Flowers [19] 和 Landscapes- HQ[22]数据集的主观研究来测量真实性和感知质量定性地,我们提出了不同的图像合成条件下的不同种类的图纸和演示的三个尺度的调整。我们将我们的贡献总结如下:我们提出了一个统一的框架,自适应逼真的图像生成从中风和素描,编码的条件下,给定的中风和素描的分类器免费的指导机制,并调整程度的真实感与潜在变量细化技术。所提出的框架使- ables的三维控制图像合成的灵活性和可控性的形状,颜色和现实主义的一代,给定的输入中风和草图。此外,我们提出的工作释放了几个有趣的应用:多条件局部编辑、区域敏感笔划到图像和多域草图到图像。2. 相关作品2.1. 从手绘图草图到图像(S2I)生成的目的是学习映射和消除手绘草图和真实图像之间的域差距,这通常被建模为图像到图像的翻译任务。早期的图像到图像的转换工作[10,25,12,26,2,20]学习将机器生成的边缘图或分割图映射到真实图像,其中分布与真实世界的手绘草 图 和 涂 鸦 完 全 不 同 。 反 过 来 , Scribbler [21] 和SketchyGAN [1]是专门处理草图输入翻译的先驱作品之一然而,训练过程需要由各种成对的草图-图像数据组成的数据集,这不仅难以收集,而且潜在地限制了所得的翻译模型来解决草图和图像之间的一般不对齐,而不是在训练集中看到的图像。最近,人们努力通过无监督和自监督学习来解决S2I任务,其中照片的灰度版本用作辅助中间表示[15]或采用自动编码器来学习解缠的风格和内容因素[14]。然而,这些基于GAN的方法存在训练和质量不稳定的问题。此外,手绘图可以被分解为对轮廓进行建模的草图和对颜色进行建模的笔划,但基于GAN的模型通常是特定于任务的,其中不同的设置采用不同的管道。最后,基于GAN的模型很难控制对输入的忠实程度,这是S2I的一个因此,受到最近扩散模型[8,5]的成功的启发,我们提出了一个基于扩散的框架,支持对水平的灵活控制。4056∼图2:条件去噪过程。在每个时间步t,我们提出的流水线首先使用csketch和cstroke执行无分类器指导,这些都是从彩色绘图ccomb的单个输入中提取的,然后通过使用输入ccomb细化xt-1来控制保真度/真实感,其中这种真实感控制是通过迭代潜变量细化来实现的。对形状、色彩和现实主义的忠实。2.2. 扩散模型扩散模型近年来蓬勃发展,作为一个强大的生成模型家族,具有多样性,训练稳定性和易于扩展性,这是GAN通常缺乏的。基本上,扩散模型通过反转渐进噪声扩散过程来实现从目标分布的采样,其中该过程被定义为用于向数据添加噪声的扩散步骤的马尔可夫链除了在与GAN的兼容性方面提供具有竞争力甚至更优越的无条件图像生成能力[8,18]之外,扩散模型还在条件生成的各种任务方面取得了重大进展。给定一个目标类,[5]提出了一种分类器指导机制,该机制采用预训练的分类器来提供梯度作为生成目标类图像的最近,无分类器扩散指导[9]引入了一种技术,该技术在没有任何预训练分类器的情况下联合训练条件和非条件扩散模型。除了直接修改用于条件生成的无条件扩散模型的网络之外,ILVR [3]反而提出通过在采样期间的每个时间步长处使用噪声参考图像来细化中间潜像来迭代地将条件引入到生成过程中。因此,ILVR能够采样高质量图像,同时控制从给定参考图像继承的高级语义的量。由于采用渐进去噪过程的扩散模型的性质,经由采样的生成/合成可以从噪声输入开始(类似于采样的中间阶段),而不是总是从随机噪声开始。因此,SDEDit [17]通过从注入噪声的笔划输入开始采样来实现基于笔划的图像合成,其中SDEDit中使用的生成模型建立在随机微分方程上,其中其机制与扩散模型(例如,通过迭代去噪采样)。在这项工作中,我们利用分类器自由扩散指导和ILVR技术到我们的基于扩散的图像生成框架,以实现对合成大小的图像的三维控制,在其现实主义和一致性方面的中风和素描条件。3. 方法如上所述,我们提出的框架,命名为DiSS,旨在执行图像生成条件的输入笔划和草图与三维控制的忠实性的条件和合成输出的现实主义在下文中,我们顺序地描述我们提出的方法,从扩散模型的描述(第3.1节)开始,以及我们为实现条件生成和草图和笔划引导的讨论(通过无分类器扩散引导的技术实现,第3.2节)以及对真实性的控制(通过迭代潜变量细化的技术实现,第3.3节)所做的修改3.1. 预赛去噪扩散概率模型(DDPM)[8,18]是一类生成模型(以及我们提出的框架所基于的扩散模型),其采用去噪过程来从简单分布(例如,各向同性高斯)到目标分布。前向扩散过程逐渐将噪声添加到从目标分布采样的数据中,而后向去噪过程尝试学习反向映射。这两个过程被建模为马尔可夫链。在这里,我们简要介绍了[18]中公式和符号给定来自目标数据分布xq(x0)的样本,DDPM的前向扩散路径是马尔可夫的,4057∈i=1NN|∅不∼|00其中t∈[1,T]和β1,.,βLsimple:=Et,x,<$[<$$>−<$$>θ(xt,t,cs k etch,cstroke)<$2].(八)θ不θ不-Qθt<$αt1−α<$θt0通过将高斯噪声逐渐添加到x0而产生的链总T步数:q(x t|x t−1):= N(x t;β1 − β t x t−1,βtI),(1)不是一个固定的差异计划在实践中,如下[8],条件去噪过程学习具有附加草图和笔划信息的噪声预测,表示为草图θ (xt,t,csketch,cstroke):其中βt(0,1)。以任意时间步长t采样xt可以以封闭形式表示:为了分别控制草图和笔画条件的指导水平,我们利用无分类器指导[9]q(xt|x0):=N(xt;α<$tx0,(1−α<$t)I),xt=<$α<$tx0+<$(1−α<$t)<$,(二)并将其修改为二维导航。实际上我们采用两阶段的培训策略。首先,我们以完整的草图和笔划作为条件来训练模型。其中αt:=1βt和α<$t:=不αi. 因此,xt可以被视为原始数据x0和x(0,I)的线性组合。当每一步添加的噪声β t的幅度足够小时,真实的后验q(x t−1x t)可以很好地近似为对角高斯。此外,当T较大时,xT近似为各向同性高斯(0,I)够了这些行为有助于生成(去噪)然后,我们通过随机替换每个条件的30%,用填充有灰色像素的图像来微调模型,表示为无条件表示。在采样过程中,通过以下线性组合与两个指导尺度ssketch和sstroke控制对笔画和草图的忠实度之间的比率:ϵˆθ(xt,t,csk etch,cstroke)=ϵˆθ(xt,t,∅,∅)过程学习,正向路径的反向,以近似真实的后验q(xt-1|x t)。具体而言,DDPM+ssk etch(<$$> θ(xt,t,csk etch,<$)−<$$>θ(xt,t,<$,<$))+sstroke((x,t,,cstroke)−(x,t,,)).(九)以预测xt−1的均值和协方差,给定xt作为输入,生成过程表示为参数化高斯转换:p θ(x t−1|x t):=N(x t−1;μ θ(x t,t),μθ(x t,t))。(3)Ho等人,[8]建议改为预测噪声μθ(xt,t),并使用贝叶斯定理导出μθ(xt,t)µ(x,t)=1(x−βt(x,t))。( 四)不为了执行去噪过程的学习,我们首先生成样本x tq(x t x0),通过将高斯噪声加到x0(即等式2),然后训练模型θ(xt,t)以使用标准MSE损失来预测添加的噪声:L简单:=Et<$[1,T],x<$q(x),<$$> N(0,I)[<$$>− <$θ(xt,t)<$2]。有了这个公式,我们的模型支持多指导单扩散模型。3.3.现实主义控制在现实中,用户提供的草图和笔画通常与真实图像不一致因此,必须控制输出对输入的忠实程度。 换句话说,产出应该有多现实.然后,我们提供了现实主义的控制,除了二维无分类器的指导与草图和中风的信息。我们应用迭代潜变量细化[3]来用下采样的参考图像细化生成过程中的每个中间过渡。所提出的真实感控制允许在所提供的笔画/草图的一致性与所提供的笔画/草图的一致性之间进行额外的权衡。对于λ(x,t),Nichol等人(五)到目标数据分布的距离(即真实图像)。让θt. [18]提出了一种有效的学习策略,作为DDPM的改进版本,需要更少的步骤,并 应 用 了 一 个 额 外 的 损 失 项 Lvlb ( 详 细 信 息 见[18]),该损失项在由最初的DDPM。我们采用的总体混合目标是:L杂交:=L简单+Lvlb。(六)3.2.草图和笔划引导的扩散模型采用深度神经网络(通常采用U-Net)4058∗NLP表示线性低通滤波操作,其执行下采样到变换大小N并上采样回。给定一个现实主义尺度的 现 实 主 义[0,1]作为变换尺寸N和组合尺寸mm的草图和笔划信息ccomb的参考图像的指示,在时间步t的条件生成过程期间的真实性调整可以表示为:x<$t−1<$p<$θ(x<$t−1|xt,cs k etc h,cstroke),为了基于给定的草图和笔划生成图像,我们提出的方法将草图条件c sketch和笔划条件cstroke以及xt连接为xt−1:=xt−1−LPN(xt−1)+LPN(ccombt−1),其中N=−srealism(m/8−1)+(m/8)+k(十)U-Net模型的输入(负责事后预测)。然后,用于条件生成的修改的参数化高斯变换被表示为:p<$θ(x<$t−1|xt,c s k etc h,cstroke):=(x<$t−1;μθ(xt,t,cs k etc h,cstroke ),μθ(xt,t,cs k etc h,cstroke)).(七)其 中 ccombt−1<$q ( ccombt−1|ccomb0 ) , 其 中ccomb0=ccomb,示出ccomb t-1被采样如下:2作为通过t-1步将噪声逐渐注入c梳。详细地说,由于xt-1可以看作是将xt-1的高频内容(由xt-1-LPN(xt-1)产生)与损坏的参考ccombt-1的低频内容组合,4059[11]第十一届中国国际纺织品展览会[17]图3:定性比较。 我们在(上两行)AFHQ,(中间两行)Oxford Flower和(下两行)Landscapes数据集上展示了不同方法的结果。U-GAT-IT [11]作为一种图像到图像的转换方法,将草图和笔划的组合作为输入(第三列)。SDEDit [17],SSS2IS [14]和我们的模型将轮廓和颜色作为单独的输入(最左边的两列)。由s现实性控制的下采样大小N确定输出应该对参考有多忠实(另一方面,合成输出朝向目标分布的趋势)。补充材料中提供了关于N计算的详细讨论和我们提出的整体三维控制框架如图2所示,其中它是通过草图和笔画指导与现实主义控制相结合来实现的4. 实验我们进行了大量的定性和定量实验,以验证建议DiSS的有效性方法的任务,从笔划和草图的图像生成。首先,我们比较了我们的方法与几个最近的国家的最先进的框架,并证明了三维控制(轮廓,颜色,现实主义)的生成过程。其次,我们展示两个应用:多条件局部编辑和区域敏感的笔划到图像生成。最后,我们讨论了三个可控维度之间的权衡和相互作用。数据集。我们使用AFHQ进行实验[4],Landscapes [22]和Oxford Flower [19]数据集。我们使用Photo-sketching [13]来生成黑色草图,并使用风格化的神经绘画[27]以及油漆转换器[16]模型来合成所有数据集的彩色笔划。我们提供了更多数据准备细节4060↓↓图4:多模式和多域生成。所提出的方法1)从同一组输入数据产生多模态结果,2)从输入草图图像理解隐式类信息(如图的左手侧所示),以及3)对未对齐的草图笔划输入数据是鲁棒的(注意,在该示例中,输入草图和笔划是从不同的源图像提取的补充文件。比较方法。我们将我们的方法与最近三种最先进的通过笔画和草图任务生成图像的框架进行了比较:• U-GAT-IT[11]是最近的图像到图像翻译方法。为了利用U-GAT-IT,我们覆盖黑色草图和彩色笔划以形成绘图图像,该绘图图像被认为属于源域。然后将对应的照片真实感图像作为目标域图像处理。• SSS2IS[14]是一种基于自监督GAN的方案,它将黑色草图和样式图像作为输入。我们通过用彩色笔划图像替换输入样式图像来重新训练模型,并计算真实图像和自动编码器输出之间的回归损失• SDEDit[17]是用于笔划到图像生成任务的基于扩散的算法。为了涉及草图指导,我们通过将草图图像与U-Net网络的原始输入连接来重新训练模型以草图作为条件信号。4.1. 定性评价基于草图和笔划的自适应真实感图像生成。我们在图3中给出了所提出的DiSS和其他方法之间的定性比较。与其他框架相比,所提出的DiSS方法在对象级(猫和花)和场景级(景观)数据集上产生更真实的结果。此外,委员会认为,†来源于https://thenounproject.com/icon/cat-975212/来源:https://freesvg.org/kocka§来源:https://free-vectors.net/nature/green-field-vector表1:定量比较。我们使用FID()度量来衡量生成的图像质量,并使用LPIPS()得分来评估合成图像与输入草图之间的一致性。AFHQ-猫花LHQFIDLPIPSFID LPIPSFIDLPIPSU-GAT-IT 24.750.18574.270.20736.930.188SSS2IS85.480.23275.240.22762.250.143SDEDit30.550.178138.9784.670.15我们15.270.14883.120.12538.830.117由我们的方案生成的图像忠实地对应于输入的轮廓和颜色信息。值得注意的是,我们的方法是强大的轮廓图像提供的不同层次的例如,在图3的第二行中,即使轮廓图像没有指示猫的眼睛位置,所提出的DiSS仍然合成照片逼真的结果。最后,我们展示了通过改变图1(草图/笔划)、图7(现实主义)和图8(草图/笔划)中的三个可控尺度所产生的变化。多模态多域翻译。由于输入只包含粗略的轮廓和彩色笔划信息,我们的DiSS方法能够合成多个(即,多模态)图像生成结果(基于不同的初始随机抽取的噪声xT和随机采样过程)。结果如图4所示.请注意,所有图像(猫,狗和野生动物)都是从同一个训练模型中合成的。这表明该模型能够从输入草图中理解隐含的类别信息除了有输入多模式结果输入多模式结果4061输入多模式结果(a) 多条件局部编辑。(b) 区域敏感的笔画到图像。图5:应用程序。(a)通过在现有图像上绘制新的轮廓或颜色,所提出的模型实现了无掩模图像编辑。(b)该方法以部分彩色笔划为输入,在非彩色区域合成出更丰富的内容。在这里,我们使用猫轮廓和手绘花朵作为例子。不同的生成结果,由于输入草图和笔划图像不是从同一源图像中提取的,我们证明了我们的方法对未对齐的草图笔划输入数据也是鲁棒的应用. 所提出的DiSS方法不仅提供了对生成过程的三维控制,而且还实现了两个有趣的应用:多条件局部编辑和区域敏感的笔划到图像生成。请注意,我们不会重新训练我们的模型,而只是为这两个应用程序设计特定的推理算法我们在补充文件中提供了详细信息。首先,我们将可视化编辑结果呈现在图6:用户偏好研究。 我们进行的研究要求参与者选择更真实的结果(基于AFHQ-cat和Landscapes数据集生成的图像)。该数字表示该特定成对比较的偏好百分比图5(a).我们的模型可以灵活的本地操作现有的图像,这是指手绘轮廓和彩色笔画。其次,我们在图5(b)中展示了区域敏感的笔划到图像生成结果。该方法以部分草图为输入,生成的结果能够满足以下两个要求:1)匹配部分草图区域的外观; 2)在非着色区域呈现多4.2. 定量评价图 像 质 量 和 与 输 入 草 图 的 一 致 性 。 我 们 使 用Fre'chetInceptionDistance(FID)[7]来衡量生成图像的真实性。为了评估合成图像是否与输入草图相对应,我 们 在 草 图 水 平 上 计 算 学 习 感 知 图 像 块 相 似 性(LPIPS)[24]分数。具体来说,我们计算输入草图和从生成的图像推断的草图之间的相似性(通过照片草图[13])。较低的FID和LPIPS值分别指示较好的感知质量和对应性。表1中的定量结果表明,我们的方法优于其他代表性方法。用户偏好研究。为了进一步了解从草图和笔画生成的图像的视觉质量,我们通过成对比较进行了用户研究( 总 共 有 80 多 个 候 选 人 我 们 使 用 从 AFHQ-cat 和Landscapes数据集生成的结果。给定一对随机交换的真实图像和各种方法生成的图像,我们要求参与者选择更真实的图像。图6显示了用户偏好的统计数据实验结果验证了该方法的有效性。现实主义与对应输入指导。 图7示出了所生成的图像真实性与所生成的图像和输入引导之间的对应性之间的权衡。我们将现实主义比例从低(0。0)到高(1。0)在这个实验中。原始输入多模式结果4062中风输入现实主义= 0.8现实主义= 0.6现实主义= 0.4现实主义= 0.2现实主义= 0.0LPIPS0.509 0.451 0.417LPIPS2019 - 05 - 22 00:00:00 00:00图7:图像引导的真实性和一致性之间的权衡。 我们展示了图像真实性和输入指导的对应性之间的权衡,其中真实性尺度从低(0. 0,右)到高(1. 0,左)。我们还显示了生成的图像和输入指导之间的LPIPS分数。在这个实验中使用了对象级(猫绘画)和场景级(风景画画素描画笔划0.00.51.0电话:+86-0512 - 8888888传真:+86-0512-888888881.52.02.5图8:使用不同笔画和草图量表的定性结果。左上角显示了在没有指导的情况下生成的结果。更强的标度值导致与输入指导更一致的结果。控制笔划和草图比例。我们进行了一项消融研究,以了解使用不同笔画和草图量表的影响。图8显示了定性结果,图9报告了使用AFHQ-cat数据集计算的FID评分。结果表明,将草图和笔画比例值设置在[1. 五二5]。关于笔画、素描和写实主义量表的消融研究结果,图9:各种笔划和草图比例对生成图像质量的影响。我们报告FID分数以指示生成的图像质量。结果表明,设置笔划和草图比例值在[1。五二5)导致最好的图像质量。在补充文件中提供。5. 结论在这项工作中,我们介绍了DiSS,一个多功能和灵活的框架,合成照片般逼真的图像从草图和彩色笔画指导。我们的方法使用1)双向无分类器引导和2)迭代潜在变量细化来提供对图像生成过程的三维大量的实验结果验证了所提出的方法对几个代表性的计划的有效性。此外,我们证明,建议的DiSS框架,使更有趣的appli-阳离子,如无掩模的本地编辑和区域敏感的笔画到图像生成。草图4063引用[1] 陈文玲和詹姆斯·海斯。Sketchygan:走向多样化和现实主义的素描图像合成。在IEEE计算机视觉和模式识别会议(CVPR),2018。[2] 郑燕琪、李新英、孙敏、杨铭宣。通过分割的可控图像合成2020年欧洲计算机视觉会议[3] Jooyoung Choi 、 Sungwon Kim 、 Yonghyun Jeong 、Youngjune Gwon和Sungroh Yoon。ILVR:去噪扩散概率模型的条件化方法。在IEEE国际计算机视觉会议(ICCV),2021年。[4] Yunjey Choi,Youngjung Uh,Jaejun Yoo,Jung-WooHa.StarGAN v2:多领域的多样化图像合成在IEEE计算机视觉和模式识别会议,2020年。[5] Prafulla Dhariwal和Alexander Nichol。扩散模型在图像合 成 方 面 击 败 了 GANs 。 神 经 信 息 处 理 系 统 进 展(NeurIPS),2021年。[6] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。神经信息处理系统进展(NeurIPS),2014年。[7] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。由两个时间尺度更新规则训练的GAN收敛到局部纳什均衡。神经信息处理系统进展,2017年。[8] Jonathan Ho,Ajay Jain,and Pieter Abbeel.去噪扩散概率模型。神经信息处理系统进展,2020年。[9] Jonathan Ho 和 Tim Salimans 。 无 分 类 器 扩 散 指 导 。NeurIPS深度生成模型和下游应用研讨会,2021年。[10] Phillip Isola,Jun-Yan Zhu,Tinghui Zhou,and Alexei AEfros.使用条件对抗网络的图像到图像翻译。在IEEE计算机视觉和模式识别会议(CVPR),2017。[11] Junho Kim,Minjae Kim,Hyeonwoo Kang和KwangheeLee。U-GAT-IT:无监督生成注意力网络,具有自适应层实例归一化,用于图像到图像的翻译。在国际会议上学习- ING代表(ICLR),2020年。[12] Hsin-Ying Lee,Hung-Yu Tseng,Jia-Bin Huang,Ma-neesh Kumar Singh,and Ming-Hsuan Yang.通过解缠表征实现多样化的2018年欧洲计算机视觉会议[13] 李梦天、林哲、拉多米尔机甲、埃尔辛·尤默、提婆·拉玛南。照片素描:从图像中推断轮廓图。在IEEE计算机视觉应用冬季会议(WACV),2019年。[14] 刘秉辰,朱一哲,宋鲲鹏,艾哈迈德·埃尔-加马勒. 自我监 督的 草图到 图像 合成。 在AAAI人工 智能 会议(AAAI),2021。[15] 刘润涛,于倩,于思婷。无监督素描到照片合成。欧洲计算机视觉会议(ECCV),2020年。[16] Songhua Liu , Tianwei Lin , Dongliang He , Fu Li ,Ruifeng Deng,Xin Li,Errui Ding,and Hao Wang. 油漆 Transformer : 前 馈 神 经 绘 画 与 笔 画 预 测 。IEEEInternationalConferenceonComputerVision(ICCV),2021年。[17] 孟晨林,宋扬,宋佳明,吴佳军,朱军燕,和StefanoErmon. SDEDit:图像合成和编辑与随机微分方程。国际学习表征会议(ICLR),2022年。[18] Alexander Quinn Nichol和Prafulla Dhariwal。改进的去噪扩散概率模型。2021年国际机器学习会议(ICML)[19] Maria-Elena Nilsback和Andrew Zisserman。在大量类别上的自动花卉分类。第六届印度计算机视觉会议,图形图像处理,2008年。[20] Taesung Park , Ming-Yu Liu , Ting-Chun Wang , Jun-Yan Zhu.具有空间自适应归一化的语义图像合成。在IEEE计算机视觉和模式识别会议论文集,2019年。[21] Patsorn Sangkloy,Jingwan Lu,Chen Fang,Fisher Yu,and James Hays. Scribbler:使用草图和颜色控制深度图像 合 成 。 在 IEEE 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR),2017。[22] 伊万·斯科罗霍多夫,格里高利·索特尼科夫,穆罕默德·埃尔霍·赛尼。将潜在的和影像的空间对齐,以连接不 可 连 接 的 部 分 . IEEEInternational Conference onComputer Vision(ICCV),2021年。[23] Sheng-Yu Wang,David Bau,and Jun-Yan Zhu.画出你自 己 的 GAN 。 IEEE 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR),2021。[24] Richard Zhang 、 Phillip Isola 、 Alexei A Efros 、 EliShecht-man和Oliver Wang。深度特征作为感知度量的不合理有效性。在IEEE计算机视觉和模式识别会议,2018。[25] Jun-Yan Zhu , Taesung Park , Phillip Isola , Alexei AEfros.使用循环一致对抗网络的不成对图像到图像翻译 。 IEEEInternational Conference on Computer Vision(ICCV),2017年。[26] Jun-Yan Zhu、Richard Zhang、Deepak Pathak、TrevorDarrell、Alexei A Efros、Oliver Wang和Eli Shechtman。向多模态图像到图像翻译。在神经信息处理系统的进展,2017年。[27] 邹正霞、石天阳、秋霜、袁毅、石振威。程式化的神经绘画。IEEE计算机视觉和模式识别会议(CVPR),2021。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功