没有合适的资源?快使用搜索试试~ 我知道了~
StyleT2I:提升文本到图像合成的组合性
18197StyleT2I:面向合成和高保真文本到图像合成李志恒1,2,闵仁强1,李凯1,徐晨良21NEC美国实验室,2罗切斯特大学{任强,凯里}@ nec-labs.com,{zhiheng.li,chenliang.xu} @ rochester.edu摘要虽然文本到图像的合成已经取得了进展,以前的方法没有推广到输入文本中看不见的或代表性不足的属性组合缺乏组合性可能会对鲁棒性和公平性产生严重影响,例如,无法合成代表性不足的人口群体的面部图 像 。 在 本 文 中 , 我 们 引 入 了 一 个 新 的 框 架 ,StyleT2I,以提高文本到图像合成的组合性具体而言,我们提出了一个CLIP引导的对比损失,以更好地区分不同的句子中的不同成分。为了进一步提高组合性,我们设计了一种新的语义匹配损失和空间约束来识别属性 基于识别的属性的潜在方向,我们提出了组合属性调整调整的潜在代码,从而更好地合成图像。此外,我们利用已识别的潜在方向(范数惩罚)的2 -范数正则化来在图像-文本对齐和图像保真度之间取得很好的平衡。在实验中,我们设计了一种新的数据集分割和评价指标来评估文本到图像合成模型的组成性。结果表明,StyleT2I在输入文本和合成图像之间的一致性方面优于以往的方法,并实现了更高的保真度。1. 介绍文本到图像合成是在给定输入文本的条件下合成图像的任务,这使得许多下游应用成为可能,例如艺术创作、计算机辅助设计和用于增强的训练数据生成。尽管这项任务已经取得了进展,但许多以前的方法[39]忽略了如图1所示,输入文本1在本作品中,性别和性别代词表示视觉感知的性别,并不表示一个人ControlGAN DAE-GAN TediGANStyleT2I(Ours)文本输入:”他戴着口红。”属性他✅✅❌✅组合物擦口红❌❌✅✅高保真❌❌✅✅图1.当文本输入包含未充分表示的属性组合时,(他,涂着口红),在数据集中,以前的方法[30,51,64]错误地生成图像质量差的属性相比之下,StyleT2I实现了更好的合成性和高保真的文本到图像合成结果。“以前的方法[30,51,64]未能正确地合成图像,这可能是由过拟合到过代表的成分引起的,例如,(这通过继承来自数据集的偏见和刻板印象因此,在合成性方面提高文本到图像的合成效果势在必行。组合性问题的关键是防止模型简单地记住训练数据中的组合。首先,在目标函数方面,一些以前的方法[64,65]只是最小化成对匹配的图像和文本之间的特征距离,导致泛化能力差。相比之下,我们提出了CLIP引导的对比损失,让网络更好地区分不同句子中的不同成分,其中CLIP(对比存储-图像预训练)[ 47 ]在大规模匹配的图像-文本对上进行第二,合成文本到图像模型需要对文本中描述的每个独立属性敏感。大多数以前的方法[30,68,71,75]主要依靠注意机制[60],其更关注单词和图像特征之间的对应关系,但缺乏将单个属性从组合中分离出来。与以前的方法不同,我们的关键思想是在la中识别解纠缠的表示[6,14]18198·生成模型的帐篷空间,其中每个解纠缠表示排他地对应于数据集中的一个属性。通过利用不同属性的分解表示,我们可以通过确保句子中描述的每个属性被正确合成来提高受这些想法的启发,我们提出了StyleT2I,这是一个采用StyleGAN [19]改进文本到图像合成的组合性的具体来说,我们提出了一个CLIP引导的对比损失来训练网络,以找到与输入文本语义一致的StyleGAN为了进一步提高组合性,我们提出了一个语义匹配损失和空间约束,用于识别属性这导致不同属性的潜在表示的更好的解纠缠然后,我们提出了组合属性调整,以纠正错误的属性合成调整的基础上确定的属性方向在推理阶段的潜在代码然而,我们根据经验发现,优化上述建议的损失有时会导致图像质量下降。为了解决这个问题,我们采用范数惩罚,以取得一个很好的平衡之间的图像-文本对齐和图像保真度。为了更好地评估文本到图像合成的组合性,我们为CelebA-HQ [18]数据集设计了一个测试分割,其中测试文本仅包含属性的不可见组合。我们为CUB [61]数据集设计了一个新的评估指标,以评估合成图像是否属于正确的鸟类。大量的定量结果,定性结果,和用户研究表明,我们的方法的优势,在图像-文本对齐和组成文本到图像合成的保真度我们的贡献总结如下:(1)我们提出了StyleT2I,一个合成的文本到图像合成框架与一个新的CLIP引导的对比度损失和组合属性调整。据我们所知,这是第一个文本到图像的合成工作,重点是提高不同属性的组合性。(2)提出了一种新的语义匹配损失和空间约束来识别属性的潜在方向,这些潜在方向在图像空间中引起预期的变化,从而更好地解决不同属性之间的(3)我们设计了一个新的测试分裂和评估指标,以更好地评估文本到图像合成的组合性2. 相关工作文本到图像合成许多以前的作品[8,15,25,29,30,32,46,48,50,58,68,70-DALL E [48]训练dVAE [58],它在大规模数据集上自回归预测图像标记。Zhang等人 [71]第71话我的世界图像-文本和假图像-真实图像对来对抗地训练条件GAN。相比之下,StyleT 2 I虽然DAE-GAN [51]从语言中提取具有注意力机制的方面以改善图像-文本对齐,但StyleT 2 I识别属性TediGAN [64,65]使用预训练的StyleGAN [19]作为生成器,并通过确定性地最小化StyleGAN的潜在空间[ 64 ]或CLIP的特征空间[ 65 ]中配对图像和文本之间的特征距离来训练文本编码器,这会使记忆数据集的组成变得TediGAN还需要进行手动分析,以 找到每个属性的 逐层控制。相比 之下,StyleT2I自动为不同的属性找到了一个新的语义匹配损失和空间约束。Wang等人。 [62]通过使用附加属性标签作为监督,基于属性Tan等人。 [57]专注于多对象场景图像合成的组合性问题。最近,Park等人 [39]提出了一个新的基准,揭示了许多以前的方法都存在组合性问题,这促使我们提出StyleT2I来解决这个问题。非监督非纠缠表示学习专注于训练具有不同潜在维度的生成模型[11,24],解释数据变化的独立因素,大多数此类模型基于VAE [5,14,21,23,26]和GAN[43,63],支持许多下游应用[27,31,55]。然而,Locatello et al. [35]表明,无监督的解纠缠是不可能的,没有归纳偏见或监督。 Zhu等人[76]修改生成模型一些有监督的解纠缠方法使用预训练的分类器[53],回归器[77]或多属性注释[1]作为完全监督来识别潜在的属性方向。相比之下,StyleT2I基于文本的监督在未修改的StyleGAN的潜在空间中找到解纠缠的属性方向3. StyleT2I概述图2给出了我们的StyleT2I框架的概述。与大多数以前的端到端方法不同[51,68,71,75],我们利用预先训练的无条件生成器Style- GAN [19],并专注于在生成器的潜在空间中找到文本条件的潜在代码,该代码18199l2范数没z+s如果推论?zs文章方向不是的z+s0i=1夹··exp(cos(Eimg(ti),Etext(tj)文本成分G属性调整在训练数据中记忆所述成分为了实现这一目标,我们利用在具有匹配图像-标题对的大规模数据集上预训练的基础模型CLIP [56]来学习文本和图像的联合嵌入空间,作为条件搜索。我们提出了一种基于CLIP和对比度损失[4]的新型CLIP引导的对比度损失来训练文本到方向模块。从形式上讲,图2.StyleT2I的概述Text-to-Direction模块将文本t和随机潜码z作为输入,并输出句子方向s以编辑z,从而在StyleGAN的潜空间中产生用于图像合成的文本条件潜码zs=z+s。对于从训练数据采样的B文本{ti}B和对应的伪造图像,我们将第i个伪造图像的CLIP引导的对比度损失计算为:exp(cos(Eimg(t),Ete xt(t)Text-to-Direction模块使用新的CLIP引导的对比损失(第二节)4.1)与规范处罚(第4.2)。在推理阶段(下分支),组合属性Lcontras(Ii)=−logΩJ 我夹我夹夹i,夹(一)调整(第5.3)通过将s调整为s′来执行,导致更好的组合。其中Eimg文本剪辑 表示图像编码器和文本为了实现这一点,在SEC。4,我们提出了一个文本到方向模块(见图2),用一种新的CLIP引导的对比损失训练,以更好地区分不同的成分(第二节)。4.1)和一个标准的惩罚(第二节)。4.2)以保持合成图像的高保真度。为了进一步提高文本到图像合成结果的合成性,在第5,我们提出了一种新的Se-mantic匹配损失(第5节)。5.1)和空间约束(第二节)。5.2)用于识别解纠缠属性潜在方向,这将用于在推理阶段调整文本条件潜在代码(第5.2节)5.3)与我们的新的成分属性调整(CAA)。完整算法的伪代码见附录A.1。4. 文本条件潜在代码预测由于许多先前的工作[42,53,54,69,77]表明StyleGAN的潜在空间中的潜在方向“因此,为了在预训练的StyleGAN的潜在空间中找到文本条件潜在代码输出是一个潜在方向s,称为句子方向,以编辑潜在代码z,从而产生文本条件代码zs=z+s。因此,zs被输入StyleGAN生成器G来合成图像I=G(zs)。4.1. CLIP引导的对比损失文本到方向模块应该预测与输入文本对齐的句子方向,并避免简单地CLIP的编码器。cos(,)表示余弦相似性。CLIP引导的对比损失吸引配对文本在CLIP的联合特征空间中进行图像嵌入和伪图像嵌入,并排斥不匹配对的嵌入。以这种方式,文本到方向模块被训练为更好地将句子方向s与输入文本t对齐。同时,CLIP引导的对比损失迫使文本方向模块对比不同文本中的不同成分,例如,4.2. 高保真度综合实验结果(图)7)表明单独最小化对比度损失不能保证合成图像的保真度。我们观察到,它使文本到方向模块预测的s与一个大的number2范数,导致zs移动到低密度区域的潜在分布,导致图像质量下降。因此,当句子方向s的范数超过阈值超参数θ时,我们惩罚它:10- 12 - 2016刘晓波(||S||2− θ,0)。(二)我们的消融研究(图7)表明,添加范数惩罚在文本图像对齐和质量之间取得了很好的平衡。总而言之,用于训练Text-to-Direction模块的完整目标函数是:Ls=L contra + L norm。(三)5. 具有属性方向为了进一步提高组合性,我们首先确定潜在的方向表示的属性与一个新的语义匹配损失(第二。5.1)和空间约束(第二节)。5.2)。然后,我们提出了成分属性调整(第二节)。5.3)通过所识别的属性方向来调整句子方向,以改善文本到图像合成结果的合成性。合成图像I=G( zs)那个女人有一头金发。随机潜码文本到方向文本条件码StyleGAN反L和EB18200LLdiffΣ|我-我diffPOSneg我POSPOSLimgaLPOS−文本a正面形象+金发低像素diff.高像素diff.微笑不是随机潜码属性方向z位置+a一POSStyleGANdiff. &标准归一化像素差伪地面实况掩模监管不力一negG负面形象一neg- 金发非预期区域 L个空间图3.通过训练具有语义匹配损失(L语义)和空间约束(L空间)的属性到方向模块来识别解纠缠的属性方向。5.1. 基于语义匹配损失的为了识别数据集中存在的属性的潜在方向,我们首先建立属性的词汇表,例如,“然后,我们从数据集中的每个句子中提取基于字符串匹配或依赖分析的属性。例如,然后,我们提出了一个属性到方向模块(见图)。3)以从属性词汇表中采样的属性ta的随机潜码z和词嵌入为输入,输出属性方向a。为了-图4. 空间约束(空间)训练属性到方向模块。我们计算正负图像之间的像素级差异 空间上通过预期区域的掩模(从弱监督分割方法获得)监督像素级差异(例如,毛发)对于给定属性(例如,“口),导致以更好地解开不同属性之间的纠缠。例如,在图4中,虽然期望属性到方向模块预测“金发”的属性方向为了缓解这个问题,我们提出了一个新的空间约束作为训练属性到方向模块的额外损失。我们的动机是将正像和负像之间的空间变化限制在预期的区域,例如,“金发“属性的头发区域为了实现这一点,我们通过计算像素级差异Ia=确保a在语义上与输入属性匹配,一cpos一neg|,where c denotes image channel dimension.我们提出了一种新的语义匹配损失来训练属性到方向模块。具体地,a用于编辑z以获得正潜在码za=z+a和负潜在码z a = z + a。然后,应用最小-最大归一化以将其范围重新缩放到0到1,表示为最小值 a。我们将该图像发送到弱监督(即,由提取行为潜码Za正像A=za. za用于合成=G(za),可以反映语义-从文本)部分分割方法[17],以获取伪地面实况掩模Ma(Sec.6.2),例如,图4中的毛发区域掩模。最后,空间约束计算为:属性的意义,例如,图中的笑脸。3 .第三章。而za=G(za)用于合成负IM-年龄neg一neg一不包含的信息L空间=BCE(λIa,Ma),(5)Ineg=G(zneg),给定的属性,例如,图中没有笑容的脸3 .第三章。基于在(ta,Ia,Ia)的三元组[52]上,语义匹配diff其中BCE表示二进制交叉熵损失。尽量减少损失计算如下:POSimgneg一文本a空间将惩罚伪地面实况掩模之外的空间变化。 通过这种方式,模块被迫预测属性方向,L语义= max(cos(ECLIP(Ineg),ECLIP(t))-cos(ECLIP(Ipos),ECLIP(t))+α,0),(四)在预定区域编辑图像。此外,类似于用于文本到方向模块的范数惩罚,我们也在这里添加它以确保图像其中α是作为裕度的超参数。语义吸引在CLIP的特征空间中,属性文本嵌入和正像嵌入5.2. 空间约束下的属性解纠缠然而,语义匹配损失不能确保给定属性与其他属性分离。为质量. 总之,用于训练方向属性模块的完整目标函数是:La=L语义+L空间+L范数。(六)5.3. 成分属性调整在对属性到方向模块进行训练后,提出了一种新的合成属性调整算法,以保证文本到图像合成结果的合成性。成分属性调整的核心思想方向属性属性词汇(例如,苍白的皮肤,金色的头发.)L语义+L空间方向属性金发我StyleGANz我18201i=1≤··我i=1- -{i|i≤}′- -是双重的。首先,我们确定的属性,句子方向s不正确的预测的基础上,其协议与属性方向。其次,一旦我们识别出错误预测的属性,我们就添加这些属性方向作为校正,以调整句子方向。具体地说,在推理阶段,如第二节所述。4、首先抽取一个随机的潜码z,并将其与输入文本t一起发送到文本到方向模块,以获得句子方向s。同时,我们还从句子t中提取K个属性taK,然后将其与随机潜码z一起馈送到属性到方向模块,以获得属性方向aiK。这里K不是一个超参数,而是由句子中描述的属性的数量决定的,并且相同的z被用作文本到方向模块和属性到方向模块的输入。基于属性方向,我们将句子方向s调整为s′:a我A= acos(a,s)0,s=s+,(7)ai ∈ A ||a我||2其中cos(,)表示余弦相似度,s′表示属性调整的句子方向。A是与句子方向具有小于或等于零的余弦相似度的属性方向的集合。当cos(ai,s)0时,句子方向s与第i个属性方向ai不一致,表明s未能反映输入文本中的第i个通过添加第i个属性方向ai,这些文本与看到的成分从测试分裂。 因此,新的测试分割中的文本只包含属性的不可见组合,这可以更好地评估组合性结果。Proposed Split(PS)[66,67]是一个CUB数据集分割,通过基于鸟类物种分割数据集来对组成零射击学习进行基准测试我们选择PS中的评估指标FID的我们使用FID [13]来评估图像质量结果。值越低表示图像质量越好。精密我们使用R-Precision [68]评估前1检索准确度作为图像-文本对齐的主要评估指标。我们遵循[39]使用CLIP对整个数据集(包括测试分割)进行微调来计算R-Precision结果,该结果已被证明与人类评估结果更加一致。较高的R-Precision值表示文本和图像之间的对齐效果更好。鸟类分类准确性。由于模型被期望在CUB数据集上合成看不见的物种中的鸟类,因此我们认为,能够更准确地合成看不见的鸟类物种中的鸟类的模型具有更好的组合性,以从看到的鸟类物种中分离出不同的属性为此,我们提出了一个新的评价指标-鸟类物种分类准确性评估组合。具体而言,我们对带有真实图像和鸟类物种标签的CUB数据集的测试分割进行了ResNet-18[12]微调,以分类50调整后的句子方向s′||2||2已更正,以反映鸟类种类在评估中,测试拆分包含(文本、鸟第i个属性。然后,它替换s以编辑潜码z,从而获得新的文本条件码zs=z+s′(图2中的2),用于合成最终图像,增强了文本到图像合成的组合性。6. 实验6.1. 实验装置数据集我们使用两个数据集进行实验。第一个数据集是CelebA-HQ [18],其中包含30,000张名人面部图像。 我们使用Xia等人提供的文本注释。 [64],其中每个文本描述基于面部属性,例如,”她戴着口红。” Weremove the 第二个数据集是CUB [61],其中包含200种鸟类的11,788张鸟类图像我们使用Reed等人收集的文本注释。[49],其中每个句子都描述了鸟的细粒度属性。组合性评估的测试分割为了更好地评估文本到图像合成结果的组合性,我们仔细选择每个数据集上的测试分割。 我们观察到,CelebA-HQ数据集的标准测试分割[28]中大约有一半的文本包含训练分割中看到的属性的组合。因此,我们排除物种标签)对,其中文本用于合成图像。我们使用微调分类器来预测合成图像的鸟类种类我们根据预测和鸟类物种标签报告了前1名的准确性(表1)。2)。 然而,文本可能不包含足够的判别信息来对鸟类物种进行分类。因此,我们训练了一个文本分类器,实现为GRU,后面跟着MLP(Tab.2)直接以文本为输入进行鸟类种类预测。我们在测试分割中的80%的文本上训练这个文本分类器,并在剩下的20%上评估其分类精度,这可以作为文本条件鸟类分类结果的上限用户研究。上述定量评价指标不能替代人的评价。因此,我们邀请了12名受试者对两个数据集进行用户研究,以评估图像质量和文本对齐。在[71]之后,每个问题都包含以相同文本输入为条件参与者被邀请根据图像质量和图像-文本对齐对不同方法合成的图像进行排名。用户研究的更多细节,例如,用户界面和人类受试者的使用,见附录E。比较方法我们比较了四种最近的文本到图像合成方法-ControlGAN [30],DAE-18202↑↓WControlGAN0.43531.380.13729.03大干0.48430.740.14526.99TediGAN-A0.04416.450.07116.38TediGAN-B0.30615.460.12116.79StyleT2I(我们的)0.62517.460.26420.53StyleT 2 I-XD(我们的)0.69818.020.35019.19表1. CelebA-HQ [64]和CUB [61]数据集的文本到图像合成结果。:高值意味着更好的结果。:较低的值表示较好的结果。[65]第51话,我是你的女人 控制-GAN研究基于注意力机制的可控发电。DAE-GAN从文本 中 提 取 TediGAN-A 训 练 文 本 编 码 器 , 以 最 小 化StyleGAN潜在空间中编码文本和编码图像之间的距离。TediGAN-B使用CLIP为每个输入文本迭代地优化Style- GAN的潜在代码。为了公平比较,我们使用每种比较方法的官方代码进行实验。6.2. 实现细节架构和超参数我们选择Style-GAN 2 [20]作为2562分辨率合成图像的生成器。我们使用+空间作为潜在空间,其中潜在方向比输入噪声空间更容易分离[19]。 GloVe[44]用于获取文本的单词嵌入,将用作in-放置到文本到方向和属性到方向模块。这两个模块具有相同的架构-一个GRU [9]用于提取文本特征,该特征与随机潜码连接在一起,发送到具有两个完全连接的层和一个ReLU激活函数的多层感知器[37]。 我们在等式中设置值θ=8。 (2)和α=1在方程。(四)、更多详情见附录A.2。代码是用PyTorch编写的[41],可以在https://github.com/zhihengli-UR/StyleT2I网站。属性词汇表和属性提取对于属性词汇表(第5.1),我们使用[34]中定义的属性(例如, ““请注意,我们不使用任何属性注释。为了从句子中提取属性,我们使用字符串匹配(即,句子中的单词我们使用spaCy [16]中实现的词性标记和依赖解析来从CUB数据集上的文本中提取属性更多详情见附录A.3。用于空间约束的伪地面真值掩模(第5.2),我们基于弱监督部分分割方法[17]获得伪地面真实掩模,其中方法准确度↑ControlGAN 0.071DAE-GAN 0.056TediGAN-A 0.063TediGAN-B 0.036StyleT2I w/o(CAA)(Ours)0.115StyleT2I(我们的)0.125StyleT2I-XD(Ours)0.142文本分类器(上限)0.204表2.未见过的鸟类分类结果。我们的方法优于其他方法,并且结果更接近上界,这表明StyleT2I可以更好地基于输入文本描述合成看不见的鸟类物种,表明我们的方法具有更好的组合性。我们从文本中提取属性来训练图像分类器。更多详情见附录A.4。Finetune CLIP我们根据经验发现,直接使用在原始大规模数据集上训练的CLIP [47]对于所提出的损失表现不佳(等式2)。(1)和(4)在两个数据集。我们怀疑原因是大规模数据集中的野生图像[47]与具有细粒度属性的人脸或鸟类图像之间的域间隙。因此,我们分别在CelebA-HQ和CUB数据集的训练分割上微调CLIP的最后几层请注意,用于训练的CLIP与用于评估R-Precision的CLIP不同,后者是在整个数据集上训练的。更多详情见附录A.5。由于StyleT2I基于预训练的StyleGAN生成器,因此我们可以在具有更多图像样本和多样性的不同图像数据集上训练StyleGAN生成器,我们将该方法表示为StyleT 2I-XD。具体地说,我们在FFHQ [19]数据集上预训练StyleGAN,FFHQ [ 19 ]数据集是一个在各种属性上具有更多变化的人脸数据集(例如,年龄),以合成以来自CelebA-HQ数据集的文本为条件的图像。类似地,我们在NABirds [59]数据集上预训练StyleGAN,该数据集具有更多的鸟类物种(测试分割中看不见的鸟类物种仍然被排除在外)和图像样本,以根据CUB数据集的文本合成图像。6.3. 文本到图像合成定量结果CelebA-HQ和CUB数据集上的文本到图像合成的定量结果如表1所示1.一、在R-Precision方面,我们的StyleT 2 I大幅优于其他比较方法,表明我们的方法具有更好的合成性,可以合成新构图中的人脸和新鸟类中的鸟类。尽管TediGAN-A也是基于StyleGAN的,但它在两个数据集上的表现都很差,这表明在StyleGAN的潜在空间中确定性地最小化文本和图像的鸟类种类CelebA-HQ幼崽R-Precision ↑FID ↓R-Precision ↑FID↓18203文本这个女人涂口红。她的发际线逐渐后退,眼袋也越来越大。ControlGANDae-GANTediGAN-ATediGAN-BStyleT2I(Ours)StyleT2I-XD(Ours)地面实况这个男人有棕色头发,直发,山羊胡子,刘海。(a) CelebA-HQ上的文本到图像合成结果这种鸟有一个长而尖的橙色喙,一个黑色的眼罩,一个白色的冠,和黑色的初级飞羽。这只鸟的底部是完全白色的,而顶部是蓝色的。(b) CUB上的文本到图像合成结果图5.CelebA-HQ和CUB数据集上文本到图像合成的定性比较文本中的不同属性以不同的颜色突出显示。更多示例见附录D。R-精密度↑FID↓无CLIP引导对比损失0.20518.64无规范惩罚0.33323.86无空间约束0.24619.17不含成分属性调整0.23819.17不带微调夹0.14519.91完整模型0.26419.19表3.CUB数据集上StyleT2I的消融研究前2个结果用粗体表示,最差结果用下划线表示。图6. CelebA-HQ和CUB数据集的用户研究结果。分类结果显示在表中。二、我们的StyleT2I在准确性结果方面优于其他方法,这也更接近文本分类器的准确性上限。这表明StyleT2I可以基于文本描述更准确地合成未见过的鸟类物种,证明StyleT2I具有更好的合成性关于FID,我们的方法实现了强大的图像质量结果,这也与TediGAN相当FID结果还显示了基于StyleGAN的方法(TediGAN和我们的StyleT2I)优于具有定制生成器架构的方法(即,ControlGAN和DAE-GAN)来实现高保真合成结果。定性结果我们还在图5中显示了定性结果。ControlGAN和DAE-GAN虽然反映了文本中的大多数属性,但图像质量较差。例如,在图5的第一行中,他们都将“后退的发际线“夸大虽然特-diGAN可以合成高质量的图像,图像几乎不与文本对齐,例如,图5的第二行中的错误性别。相比之下,StyleT2I的合成图像具有高保真度,并与文本中的属性对齐,“用户研究用户研究结果如图所示六、与其他方法相比,StyleT 2 I在图像-文本对齐和图像质量方面从人类参与者获得更高的排名分数,这进一步体现了我们方法的优势。跨数据集合成我们的跨数据集文本到图像合成(StyleT2 I-XD)可以进一步改善结果。定量结果显示在选项卡中。1和2.StyleT 2 I-XD实现了更强的R-Precision和鸟类物种分类准确性结果,证明了跨数据集训练的有效性。虽然StyleT 2 I-XD没有改善FID值,但我们在图5中的定性结果表明,StyleT 2 I-XD实现了照片般逼真的图像质量。6.4. 消融研究我们进行消融研究,以验证我们的方法的每个组成部分的有效性更多消融研究结果评分18204W/O范数惩罚w/Norm Penalty地面实况正面形象负面形象像素差正面形象负面形象像素差这个人有尖鼻子,刘海,苍白的皮肤和大嘴唇。她涂口红。这种鸟有黑色的冠、腹、翅,颜色覆盖了它的全身。(a) 属性:金发(b) 属性:白项图7. 规范惩罚改善图像质量的消融研究。更多示例见附录D。包括在附录B和C中。CLIP引导的对比损失 到图8. 空间约束识别的烧蚀研究属性方向。如果没有我们的空间约束(第一行),其他区域也会发生变化(例如,眉毛和嘴巴区域用于金色头发属性;翅膀区域用于白色颈背属性)。我们的空间约束(第二行)成功地抑制了其他非预期区域的变化,从而更好地解决了不同属性之间的纠缠。当量(1)在CLIP的特征空间中最小化成对的假图像特征和文本特征之间的余弦距离这种替代损失的结果显示在表的第一行。3 .第三章。尽管它略微改善了FID结果,但R精度结果显著降低,证明了对比不匹配(图像,文本)对以区分文本这个人有棕色的头发,浓密的眉毛,高颧骨和尖鼻子。她涂了口红。这只鸟是白色的,黑色的头和橙色的嘴。在CAA之后调整属性:棕色头发,浓密的眉毛,高颧骨,涂口红调整属性:黑头成分的差异更好。标准惩罚如表中所示。虽然它降低了R精度方面的性能,但使用所提出的范数惩罚可以有效地改善FID结果和感知质量,在图像-文本对齐和保真度之间取得更好的平衡空间约束R精度结果在Tab. 3表明空间约束可以提高文本与图像的对齐效果。图8中的定性结果表明空间约束有效地约束了预期区域内的空间变化,例如,“金发“属性的头发区域这些更分散的属性方向有助于StyleT2 I通过在推理阶段调整句子方向来实现更好的R-Precision性能。“ 合 成 属 性 调 整 ” 选 项 卡 。 3 表 明 , 成 分 属 性 调 整(CAA)改善了R-精度结果,并实现了类似的FID结果。在选项卡中。2、CAA还可以改善未发现鸟类的分类结果,证明了其对提高组合性的有效性。在图9中,我们表明(CAA)不仅可以检测错误的属性,例如,Finetune CLIP在第二节中介绍。6.2,我们在数据集的训练分割上微调CLIP。R精度结果见Tab.3表明微调可以大大提高成绩。虽然在大规模数据集上进行了训练,但结果表明CLIP在具有细粒度属性的文本到图像合成方面表现不佳,证明了在数据集上进行微调以获得更好结果的必要性。图9.合成属性调整(CAA)自动检测合成失败的属性(红色突出显示),并根据属性方向调整句子方向,以提高文本到图像合成结果的合成性7. 结论我们提出了StyleT2I,一个新的框架,实现成分和高保真的文本到图像的合成。我们提出了一种新的CLIP引导的对比损失,以更好地区分不同的组合,语义匹配损失和空间约束,以确定解开属性方向,和组合属性调整,以纠正错误的属性合成结果。StyleT 2 I在图像-文本对齐方面优于以前的方法,并实现了图像保真度。诚然,我们的工作有一些局限性。例如,我们的空间约束无助于理清共享同一空间区域的一些属性,例如,“一个潜在的负面社会影响是StyleT2I的高保真合成可能被恶意用于欺骗。我们将通过要求用户在发布模型时遵循道德原则来减轻它。StyleT2I的一个有前途的未来方向是复杂场景图像合成,以解开不同的对象和背景。鸣谢这项工作得到了美国国家科学基金会(NSF)1909912和1934962号拨款的部分支持,以及帝国发展指定的卓越中心数据科学卓越中心的部分支持本文仅反映作者的观点和结论,而不是资助机构。w/空间约束无空间约束18205引用[1] Guha Balakrishnan , Yuanjun Xiong , Wei Xia , andPietro Perona. 面向人脸分析算法中偏见的因果基准在欧洲计算机视觉会议,2020年。[2] 作者:Drew A.赫德森,埃桑阿德利,拉斯阿尔特-放大图片作者:Michael S. Bernstein,Jeannette Bohg,Antoine Bosselut,Emma Brunskill,Erik Brynjolfsson,Shyamal Buch,Dallas Card,Rodrigo Castellon,NiladriChatterji , Annie Chen , Kathleen Creel , Jared QuincyDavis , Dora Demszky , Chris Donahue , MoussaDoumbouya , Esin Durmus , Stefano Ermon , JohnEtchemendy,Kawin Etha- yarajh,Li Fei-Fei,ChelseaFinn ,Trevor Gale, Lauren Gille- spie, Karan Goel,Noah Goodman , Shelby Grossman , Neel Guha ,Tatsunori Hashimoto , Peter Henderson , John Hewitt ,Daniel E.Ho , Jenny Hong , Kyle Hsu , Jing Huang ,Thomas Icard , Saahil Jain , Dan Jurafsky , PratyushaKattani,Siddharth Karamcheti,Geoff Keeling,FereshteKhani,Omar Khattab,Pang Wei Koh,Mark Krass,Ranjay Krishna,Rohith Ku- ditipudi,Ananya Kumar,Faisal Ladhak,Mina Lee,Tony Lee,Jure Leskovec,Isabelle Levent , Xiang Lisa Li , Xuechen Li , TengyuMa , AliMalik , Christopher D.Manning , SuvirMirchandani , Eric Mitchell , Zanele Munyikwa , SurajNair , Avanika Narayan , Deepak Narayanan , BenNewman , Allen Nie , Juan Carlos Niebles , HamedNilforoshan,Julian Nyarko,Giray Ogut,Laurel Orr,Isabel Papadimitriou,Joon Sung Park,Chris Piech,EvaPortelance,Christopher Potts,Aditi Raghunathan,RobReich , Hongyu Ren , Frieda Rong , YusufRoohani ,CamiloRuiz,JackRyan,ChristopherRe',Dorsa Sadigh,Shiori Sagawa , Keshav Santhanam , Andy Shih , Kr-ishnan Srinivasan,Alex Tamkin,Rohan Taori,Armin W.放大图片创作者:George E.王,王威廉,吴博汉,吴嘉俊,吴玉怀,谢桑,安永道弘,尤家萱,马泰扎哈里亚,张明,张天一,张锡坤,张玉辉,郑露西亚,周凯琳 , 梁 培 。 论 基 金 会 模 式 的 机 遇 与 风 险 。 arXiv:2108.07258 [cs],2021。[3] Joy Buolamwini和Timnit Gebru。性别阴影:Intersec-商业性别分类的准确性差异。在ACM公平,问责制和透明度会议上,2018年。[4] Mark Chen , Alec Radford , Rewon Child , Jeff Wu ,HeewooJun,Prafulla Dhariwal,David Luan,and Ilya Sutskever.从像素生成预训练。2020年国际机器学习会议[5] 瑞奇·TQ. Chen,Yulia Rubanova,Jesse Bettencourt,and大卫·K·杜维诺。神经元常微分方程在神经信息处理系统的进展,2018年。[6]陈曦,严端,赖因·霍特胡夫特,约翰·舒尔曼,伊利亚Sutskever,and Pieter Abbeel. InfoGAN:通过信息最大化生成对抗网络的可解释表示学习在神经信息处理系统的进展,2016年。[7] 陈新蕾、方浩、林宗义、罗摩克里希纳·韦丹-tam,Saurabh Gupta,Piotr Dollar,and C.劳伦斯·齐尼克。Microsoft COCO Captions:数据收集和评估服务器。arXiv:1504.00325 [cs],2015年。[8] 放 大 图 片 作 者 : David D. Collins , Yukun Zhu , TingLiu,18206Thomas S. Huang , Hartwig Adam , and Liang-ChiehChen. Panoptic-DeepLab:一个简单,强大,快速的自底向上全景分割基线。在IEEE计算机视觉和模式识别会议(CVPR),2020年。[9] Junyoung Chung、Caglar Gulcehre、KyungHyun Cho和Yoshua Bengio门控递归神经网络在序列建模中的经验评估。在神经信息处理系统研讨会的进展,2014年。[10] Alexey Dosovitskiy Lucas Beyer Alexander Kolesniko
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功