预训练视觉语言模型实现文本驱动的图像操作的预测、预防和评估，并借助纠缠损失和新的评价指标实现图像的解缠处理

69 浏览量更新于2023-10-25 收藏 3.36MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

18229预测，预防和评估：由预训练的视觉语言模型提供的文本驱动图像徐子鹏1* 林天伟2唐昊3李富2何栋梁2Nicu Sebe1拉杜杜夫特3LucVan Gool3丁二瑞21MHUG，Trento2VIS，BaiduInc.3CVL，ETH苏黎世zipeng. unitn.it刘海双下巴黑发皱纹苍白图1. StyleCLIP [31]基线与我们的预测，预防和评估（PPE）之间的解缠图像操作比较。我们的代码设法只操作command-attribute（如每列下所示），而对其他属性保持不变摘要为了实现解开图像处理，以前的作品在很大程度上依赖于手动注释。同时，可用的操作仅限于训练模型的预定义集合。我们提出了一个新的框架，即，预测、预防和评估（PPE），用于不纠缠的文本驱动的图像操作，该图像操作几乎不需要手动注释，同时适用于各种各样的操作。我们的方法通过深入利用大规模预训练的视觉语言模型CLIP的力量来接近目标[32]。具体地说，我们首先预测一个给定的文本命令可能纠缠的属性然后，基于预测的属性，我们引入了一个纠缠损失，以防止在训练过程中的纠缠。最后，我们提出了一个新的评价指标来评价解纠缠图像处理。我们验证了我们的方法在具有挑战性的人脸编辑任务上的有效性。广泛的实验表明，所提出的PPE框架实现了比最新的StyleCLIP [31]基线更好的定量和定性结果。代码*本文是徐子鹏在百度VIS实习期间完成的可在https://github.com/zipengxuc/PPE获得。1. 介绍解纠缠图像操作[1，8，10，12，21，23，37，38，43，44]旨在改变图像的期望属性，而保持其他属性不变，长期以来一直被研究，其研究意义和应用价值。达到这个目标并不容易，尤其是当属性在现实世界中自然纠缠时。因此，具体的属性注释是至关重要的，使得解开的图像操作是一项耗费人力的任务。一些作品[8，10，21，23]使用编码器-解码器架构，并且需要对图像的多个属性进行手动注释。该模型对原始图像和操作属性进行编码，然后对操作后的图像进行解码。具体来说，他们使用特定属性的损失来鼓励操纵特定属性，同时阻止其他属性。损失来自所有注释属性的预训练分类器。最近的许多工作集中在潜在的空间图像操纵，因为大规模的预训练的GAN，例如，StyleGANs [15，16]，可以生成我们StyleCLIP原始18230S高质量的图像从良好的解开潜在空间。尽管直接使用预训练的GAN来生成图像很方便，但所有这些方法都需要人工注释[1，12，37，38，43，44]。此外，可用的操纵属性仅限于带注释的集合。最近，大规模预训练视觉语言模型CLIP [32]的兴起带来了新的见解。由于CLIP提供了关于图像和文本的语义相似性的有效信号，因此可以使用文本命令和基于CLIP的丢失来执行各种操作[11，31，36]然而，实现无纠缠的图像处理仍然是棘手的。例如，StyleCLIP[31]介绍了三种方法：潜在优化和潜在映射器不考虑实现解纠缠的结果;全局方向，其基于更解纠缠的潜在空间[45]，需要人工试错来找到每种情况下的适当参数以达到预期效果。为了仅操作所需的属性，TediGAN [46，47]仅修改与该属性对应的层的潜在向量然而，他们必须事先弄清楚StyleGAN中的属性和层之间的关系在本文中，我们将探讨如何以尽可能少的人力来我们提出了一个新的框架，预测、预防和评估（PPE），通过深入利用CLIP的力量来接近目标。首先，我们提出预测可能纠缠的属性为给定的文本命令。我们假设纠缠是由真实世界中的属性分布引起的因此，我们借助CLIP算法，找出在命令相关图像中出现频率最高的属性，将同现频率高的属性作为可能纠缠的属性。其次，我们引入了一种新的纠缠损失，以防止在训练过程中的纠缠。这种损失抵消了操纵前后可能纠缠的属性的变化，从而迫使模型寻找一个不太纠缠的操纵方向。最后，基于预测的纠缠属性，我们引入了一种新的评价度量，同时评价操纵效果和纠缠状态。操纵效果是根据操纵前后命令属性的变化来衡量的，而纠缠状态是根据操纵前后纠缠属性的变化来所有的变化估计根据CLIP距离的文本属性和图像。为了进行评估，我们基于StyleCLIP的简单通用潜在映射器实现了我们的方法，并使用大规模人脸数据集CelebA-HQ [14，25]对具有挑战性的人脸编辑任务进行了实验定性和定量结果表明，与StyleCLIP基线相比，我们实现了同时，我们表明，我们的结果提出了一个更好的线性一致性。最后，我们的主要贡献如下：• 我们建议预测纠缠属性的disentangled图像处理。• 我们提出了一种新的纠缠损失，以防止在训练过程中纠缠操纵。• 我们提出了一个新的评价指标，共同衡量的操纵效果和纠缠条件的解纠缠图像操纵。• 通过将我们的方法应用到多功能的StyleCLIP基线，我们设法实现了非常少的手工劳动解开图像处理。我们在CelebA-HQ数据集上进行了广泛的实验，发现我们的定性和定量结果相当令人印象深刻。2. 相关工作解缠图像处理。许多作品研究学习一个解纠缠的表示[3，4，9，17，21]，以便可以从源头解决解纠缠的图像操作。由于昂贵的劳动力，这样的工作的一个关键挑战因此，已经探索了弱监督和非监督方法[8，10，24，28]。尽管取得了进展，但所有这些方法都是针对固定的属性集进行训练的，因此支持的操作数量有限最近，越来越多的作品关注潜空间图像操作[12，13，37，41，45，48]，因为像StyleGAN [15，16]这样的显着的大规模GAN可以生成具有良好分离的潜空间的高分辨率图像。因此，这些工作首先通过GAN反演方法[16，50]或相关编码器[2，29，35]将图像反演到潜在空间中，然后通过预先训练的大规模GAN计算可以得出操纵结果的潜在向量对于每个操纵属性，需要手动注释，[1]第37话不经意间，在潜在的空间覆盖方向[12，38，43，44]。文本驱动的图像处理。有一些研究探索了以文本命令为指导的图像操作。一些以前的作品[6，18，19，27]使用基于GAN的编码器-解码器架构，它对原始图像和文本命令进行编码，解开两种模态的语义并解码操纵的图像。最近的Tedi-GAN [46，47]和StyleCLIP [31]使用预训练的Style-GAN从操作的潜在向量生成图像，而不是单独训练生成器。为了实现无纠缠的操作，TediGAN预先定义了属性到层的映射，并且仅在StyleGAN中更改属性对应的层此外，TediGAN进行实例级操作，这意味着模型仅适用于模型优化的一个图像。StyleCLIP中的潜在映射器方法182312WW0一般来说，训练好的模型可以应用于处理任何域内图像，但结果通常是纠缠的。StyleCLIP中的全局方向方法可以实现去纠缠操作，但需要人工试错来找到合适的阈值。我们的方法建议通过深入利用大规模预训练模型的能力，以更少的手动工作来实现解纠缠的图像操作超过StyleCLIP，它只是最小化CLIP之间的命令文本和操纵图像的距离，我们建议预测，防止和评估通过CLIP纠缠。大规模视觉语言模型。随着大规模预训练语言模型的成功，BERT [5]，提出了各种大规模预训练的视觉语言模型[20，26，39，40，49]。最近的CLIP [32]特别引人注目，因为它是从4亿个文本图像对中训练出来的，并且功能强大。CLIP学习一个多模态嵌入空间，可以用来度量图像和文本的语义相似度使用文本描述作为提示，使CLIP具有强大的向下游任务进行零触发转移的能力。此外，CLIP通过利用嵌入空间实现了令人惊叹的文本引导图像合成结果[7，11，33，36]3. 背景StyleCLIP[31]提出了一种用于文本驱动图像操作的灵活的潜在映射器方法。它是针对特定文本命令进行训练的，并且适用于预训练的StyleGAN [16]域中的任何图像。对于文本命令t comd，该方法学习映射器网络M tcomd以在给定潜像嵌入w+的情况下在+空间中产生操纵方向。然后从预训练的StyleGAN生成器中获得性别男/女白/黑/黄皮肤头发颜色黑色/棕色/金色/灰色/红色头发头发长度长/短/没有头发发型直的/卷曲的/波浪形的头发眼弓/圆/高/长/厚/深/直/薄/短眼睛颜色蓝色/棕色/黑色/灰色/绿色眼睛人脸眼睛形状窄/宽/大/小/圆眼睛眼睛状态睁眼/闭眼鼻子大/尖/长/小/钩/短/厚/薄/捏/扁鼻子口型大/小口嘴状态开/闭口脸型尖/圆/方/椭圆/长脸胡子式山羊胡/小胡子/没有胡子/鬓角/5点钟阴影其他耳环/化妆/口红/皱纹/眼镜/刘海/玫瑰色的脸颊/.图2.为了预测人脸编辑中的纠缠属性，我们在BERT的帮助下构建了一个层次属性结构[5]。4. 预测、预防和评估（PPE）PPE框架由三部分组成：1）设计了一种机制来预测给定文本命令的纠缠属性; 2）基于预测的属性，我们引入了一种新的纠缠损失来防止训练过程中的纠缠;3）提出了一种新的评价指标来评价解纠缠文本驱动的图像操作。所有方法都利用了大规模预训练视觉语言模型CLIP的强大功能。4.1. 预测我们在假设纠缠是由频繁的同现引起的前提下预测了纠缠属性G作为i0=G（w+Mtcomd（w））。在现实世界的图像中的属性。为此，我们呼吁-门图像最相关的文本命令，寻找为了训练映射器网络以实现文本驱动的操纵效果，引入CLIP损失LC，以最小化文本命令tcomd和操纵图像i0之间的距离.信用证的形式为：LC=DCLIP（i，tcomd），（1）其中D CLIP是CLIP空间中其两个参数的嵌入之间的余弦距离。此外，该方法使用L2损失来规范操纵方向，使用L ID损失[35]来维护人的身份。因此，总损失公式如下：L型夹 =LC+λL2LL2+λIDLID，（2）其中λL2和λID是损耗系数。虽然该方法可以简单有效地实现文本驱动的图像操作，无需人工注释，但其损失无法区分纠缠和非纠缠的操作，操作结果总是纠缠的。在图像中出现最频繁的属性，并将它们预测为纠缠属性。先决条件。包括基本视觉特征的预定义属性集是先决条件。为了处理人脸，我们需要人脸属性。为了获得有用的人脸属性，我们首先从大规模预训练语言模型BERT [5]中获得支持。具体地说，我们让BERT预测不同类别下的特定属性，通过用人脸特征的其他关键词替换在进一步排序和添加二进制属性（如 “withearrings”）之后更多详情见附录A。骨料这一步的目的是聚合图像，182322--}XXn=1与文本命令最相关具体来说，我们提出了一种基于CLIP的方法首先，我们对训练集中的所有图像进行排序。在CLIP空间中它们到文本命令tcomd的距离。对于图像i，其排名分数被形式化为：score （i）=D CLIP（i， t comd ）。（3）图像按分数从小到大排序。此外，我们还使用了零拍CLIP分类器来排除在排序列表中被分类为不相关的图像对于单个属性操作，分类标签OriginalStyleCLIP蓝眼睛：“大眼睛”、“化妆”、“眼袋”、“涂口红”、“金发”、“白皮肤”、“捏鼻子”原始StyleCLIP灰色头发：“短眉毛”，“短发”，“灰色眼睛"，”窄眼“，”白皮肤“，”尖脸“，"化妆”可以通过命令到类别和类别到属性流水线获得。以命令<“blueeyes”为例，我们首先在NLP工具的帮助下找到它的类别eyes color >（参见附录B），然后找到标签“blueeyes”，“browneyes”，. - 是的- 是的可以通过根据分层属性结构的类别到属性映射容易地获得。特别地，像“with earrings”这样的二进制属性Original StyleCLIPOriginal StyleCLIP“without earrings”之后，我们将选出前100名图像在左边排列的列表中形成命令相关的图像集I0。可生成性在附录C中讨论。戴耳环：“拱形眉毛”、“短发”、“化妆 ” 、 “ 高颧骨 ” 、 “ 圆脸 ” 、 “ 圆眼睛”、“长鼻子”皱纹：“白发”、“发际线后退”、“无胡须”、“高眉毛”、“男性”、“窄眼”、“闭眼”找到. 最后一步是找到在与命令相关的图像集合I0中出现最频繁的属性，除了与命令属于同一类别的属性。首先，我们通过它们到I0中的图像的CLIP距离的总和对属性进行排名。排名分数形式化为：score comd（t attr）= D CLIP（i0，t attr）。（四）我02我0同时，我们考虑的排名结果w.r.t. 完整图像集I.类似地，排名得分为：score full（t attr）= D CLIP（i，t attr）。（五）i2 I图3.预测的var的纠缠属性的说明-在文本驱动的图像处理中使用ious命令。StyleCLIP的映射器可以看出，我们的方法很好地预测了纠缠属性，“wide eyes”4.2. 防止对于解纠缠的操纵，命令对应的属性应该改变，而其他属性应该保持，特别是对于可能纠缠的因此，基于预测的纠缠属性，通过将分数按降序排序，我们得到rcomd和{tentgn}N，我们引入了一种新的纠缠损失，R满了。此外，我们需要找到只在与命令相关的图像中频繁出现的属性例如，为此，我们用rfull调整rcomd。具体而言，最终排名得分为：惩罚在操纵之后纠缠属性的改变。这些变化通过纠缠属性的图像和文本之间的CLIP距离来测量，因此所提出的纠缠损失被公式化为：1X02最终得分（tattr）=rcomd（tattr）、（6）LE=N（DCLIP（i，tentgn）-DCLIP（i，tentgn）），n（七）min（rfull（tattr），R）其中，R是用于确定r_full中的排名是否高的超参数最终，最终排名列表中的前N个属性（通过将得分最终从小到大排序而其中，i=G（w）是原始图像，i0是在第二节中介绍的经操纵的图像。3 .第三章。与方程中描述的损失一起（2）、我们的整体亏损定义如下：大）被预测为纠缠属性{tentgn}N。n=118233分析. 在图3中，我们说明了一些预测和相应的操作结果，从潜在LPPE=LC+λL2LL2+λIDLID+λELE，（8）其中λE是纠缠损失的系数182344--{4}4044{|4|}04e·4{4}（一）ngt纠缠损耗GT（b）第（1）款其中t在t comd，t entg1，. ..，t entgN和I是图像集。如Eq中所述。（11）假设cc大于0（应该是），高指示符，例如，0.5，表示纠缠操纵，因为当它的dc增加时，它的den相应地显著地增加。相比之下，较低的指标表明，图4.（a）纠缠损失的影响，(b)由纠缠损失提供的预期结果。我们在图中给出一个例子其中，我们假设在潜在空间中存在分离具有属性或不具有属性*的超平面，ngt是对应于命令属性的超平面的单位法向量，nS是通过StyleCLIP方法找到的向量，并且nP来自PPE。如图所示，所提出的纠缠损失是为了约束模型以找到较少纠缠的操纵方向。4.3. 评价对于文本驱动的图像处理，我们提出了一个新的评价指标，基于预测的纠缠属性，同时评估操纵和纠缠效果的指示器首先，对于每个文本命令，我们将操作效果量化为：dc=DCLIP（i，tcomd）-DCLIP（i，tcomd），（9）即，CLIP测量图像中命令属性的变化。dc越大，在CLIP空间中，被操纵的图像越接近文本命令，表明操纵达到了命令所需的效果。同时，对于每个预测的纠缠属性，我们通过以下方式测量纠缠效应：操纵，因为它的DEN使用该指示器，可以量化解开的图像操纵的效果。5. 实验5.1. 实现细节为了验证所提出的方法，我们进行了具有挑战性的人脸编辑任务的实验。我们比较我们的方法与我们的强基线，即， StyleCLIP 中的潜在映射 [31] 。在StyleCLIP 之后，我们使用 CelebA-HQ 数据集 [14 ，25]，该数据集由30，000个图像组成，其中27，176个用于训练集，2，824个用于测试集;在FFHQ [15]上预训练的Style-GAN 2 [16]用于生成图像; e4 e [42]用于将图像反转为StyleGAN 2潜在空间中的潜在嵌入。此外，我们按照原始设置训练所有模型作为官方StyleCLIP实现[30]。换句话说，对于所有文本命令，我们训练相应的模型，而不调整超参数。我们使用相同的损失系数设置，即λL2= 0。8且λID= 0。1.一、对于所提出的纠缠损耗，λE= 100。在纠缠损失中预测的纠缠属性的数量N（7））默认设置为10方程式中的R（6）根据经验设置为5.2. 定量结果4den=DCLIP（i，tentgn）-DCLIP（i，tentgn），（10）即，CLIP估计图像中纠缠属性的变化。在CLIP空间中，den越大，被操纵图像越接近纠缠属性的文本，表明被操纵图像与命令相关属性纠缠在一起.为了达到解开的操纵，我们期望4d我们使用不同的文本进行多个实验命令，其中特别包括那些被认为是纠缠在以前的作品[21，45]。在表1中，我们说明了定量结果使用的评估，在第二节中介绍的四点三。具体地说，指标是图像处理的总体度量。较低的指示器意味着目标操纵以较少的纠缠实现，反之亦然。此外，4dC尽可能的大，|4d en|小到是归一化4dc得双曲正弦值.4d0 是归一化C4de，as可能因此，我们将指标形式化为：由方程式（9），Eq.（10）和Eq.（十二）、根据计算结果，我们得出以下两个结论：1个PN|norm(4den)|结论：1）StyleCLIP中的潜在映射器方法是指标=N n=1，（11）标准（4dc）其中N是预测的纠缠属性的数量，norm（）是为了使dc和denn可比较。具体而言，它们被分别归一化为：四维tnsnn#18235Ce高度纠缠，我们的方法很好地预测了纠缠属性从“StyleCLIP”的结果中可以看出，被操纵的例如，对于文本命令norm（4dt）=，（12）c emaxDCLIP（i，t）-minDCLIP（i，t）“灰色眼睛”为0.2433，“白色皮肤”为0.2641。更多的信号-i2Ii2I重要的是，对于文本命令*假设来自InterFaceGAN [37]。4d0 达到0.4880，4d “大眼睛”的值是0.3635 （二）18236e指示器（#）04DC短眉毛短发灰色的眼睛4D0鬓角窄眼睛高颧骨白皮肤尖脸带妆StyleCLIP我们的0.33590.00710.4878 0.35190.1637 0.02610.1945 0.04450.0927 0.01220.2433 0.05900.1548 0.01950.1393 0.01260.0873-0.00220.2641 0.06440.1362 0.01610.1626 0.0149指示器（#）04DC蓝色的眼睛长发棕色的头发化妆4d睁大眼睛戴耳环的E留着刘海捏着鼻子涂着口红闭着嘴StyleCLIP我们的0.40220.16910.2877 0.14420.1249 0.02350.1591 0.04530.1349 0.03050.1274 0.02490.1186 0.02460.0940 0.01650.0815-0.01050.1027 0.01730.1136 0.02780.1004 0.0185(a) 白发(b) 黑发(c) 卷发指示器（#）04DC留着口红的短发，微笑的圆眼睛4D带妆棕色头发棕色眼睛戴眼镜瘦鼻子戴耳环StyleCLIP我们的0.38700.12660.3451 0.23840.1568 0.05250.1249 0.03180.1030 0.01550.1418 0.02420.1368 0.02210.1927 0.05520.1316-0.02390.0640 0.01570.1441 0.02190.1399 0.0391指示器（#）04DC灰白的头发后退的发际线没有胡子长眉4D长脸e男窄眼睛大鼻子黑眼睛闭着眼睛StyleCLIP我们的0.32690.12980.3679 0.13410.2560 0.03360.0417 0.00350.0858 0.01190.1132 0.03160.1351 0.03720.1008 0.00350.1096-0.00650.0842 0.00130.0937 0.01040.1829 0.0345(d) 用刘海(e) 有皱纹(f) 戴眼镜指示器（#）04DC绿色的眼睛狭长的眼睛深色的眉毛用口红4d长鼻子高颧骨鹅蛋脸，金色的头发，红润的脸颊StyleCLIP我们的0.44010.15210.5371 0.2630.1867 0.02700.3378 0.06720.1920 0.02510.1914 0.05740.2805 0.04940.1708 0.03220.3418-0.04890.02750.1586 0.01810.2968 0.0472指示器（#）04DC张口椭圆脸圆眉毛大鼻子4D大嘴e与口红鬓角玫瑰色的脸颊闭着眼睛秃头StyleCLIP我们的0.38000.14180.5579 0.24520.262 0.03760.2924 0.04420.05630.2588 0.02430.2839 0.04850.1156 0.01440.1311-0.01220.1566 0.04440.2248 0.04660.1972 0.0218指示器（#）04DC拱形的眉毛紧闭的嘴与化妆绿色的眼睛4D高颧骨椭圆面捏鼻子白皮肤大眼睛红润的脸颊StyleCLIP我们的0.30690.14910.4904 0.31490.1077 0.02700.2105 0.08140.2154 0.10350.0467 0.01340.1517 0.05260.1933 0.04820.1070-0.00270.1668 0.03710.1157 0.04240.1900 0.0611(g) 苍白(h) 双下巴(i) 用口红指示器（#）04DC用口红画圆眼睛用浓妆画大鼻子4d0圆脸玫瑰色的脸颊戴耳环双下巴金发刘海StyleCLIP我们的0.40020.18810.3585 0.14250.1783 0.03640.1541 0.02750.1909 0.04200.1836 0.04180.1222 0.01570.1404 0.01210.1044-0.02780.1633 0.04100.1112 0.02430.0865 0.0175指示器（#）04DC大眼睛化妆口红眼袋4D玫瑰色的脸颊金色的头发圆脸捏鼻子白皮肤长头发StyleCLIP我们的0.42200.21630.4880 0.24800.3635 0.12120.2127 0.06770.2702 0.10050.1587 0.03500.2317 0.03750.1263 0.03210.1993-0.05180.1786 0.03740.2236 0.04320.0949 0.0109指示器（#）04DC弓形眉毛短发高颧骨4d用口红绿色的眼睛圆脸，刘海，圆眼睛，化妆StyleCLIP我们的0.37030.29170.07120.1425 0.01930.1369 0.01830.2054 0.03700.1553 0.01880.1531 0.02100.1338 0.01150.1965-0.02330.0992 0.01420.1899 0.02030.2035 0.0240(j) 拱形的眉毛(k) 蓝眼睛(l) 戴耳环表1.使用第二节中介绍的评估指标，对StyleCLIP [31]进行的解纠缠文本驱动图像操作进行定量比较。四点三。对于指标来说，越低越好。文本命令在每个子表下指示。具体来说，我们说明了预测纠缠属性4d 0的变化中的每一个单独的项目.我们的纠缠损失有效地防止了图像处理中的纠缠。对于实验中的每个文本命令，“Ours”的指示符低于对预纠缠属性的更改将大大减少（如指示器（#）04DC鹅蛋脸小鼻子细眼睛涂口红4D长眉短头发刘海和鬓角高颧骨StyleCLIP我们的0.25800.09000.4072 0.31900.1498 0.04860.1566 0.05240.1133 0.02850.1100 0.02900.1245 0.02100.1004 0.03030.0594-0.01210.0268 0.00060.0876 0.02560.1225 0.040418237eC44灰色的头发黑色的头发波浪的头发与刘海与皱纹戴眼镜苍白双下巴口红拱形眉毛图5.使用不同的文本命令与StyleCLIP [31]进行定性比较（如顶部所示）。我们的实现了更多的分离的操作结果，因为只有所需的属性被操纵，而其他的都得到了很好的维护。(a) 蓝眼睛（c）黑头发(b) 胖乎乎（d）有皱纹图6.图像处理结果来自StyleCLIP [31]和我们的，使用逐渐增加的操作强度。随着操作力度的变化，我们的结果呈现出d0），而操纵效果受影响不大（按d0）。在定性的结果中，我们说明，我们的方法可以达到可比的操作效果与StyleCLIP时，增加操作强度。5.3. 定性结果直接操纵输出。我们首先在不改变操作强度的情况下，比较训练模型直接输出的操作结果。图5、通过对多个不同的文本命令。从“StyleCLIP”的操作结果可以看出，它不仅操作所需的属性，还操作其他属性。以文本命令类似地，对于文本命令“with wrin-kles”，被操纵的脸同时得到皱纹、白发和更多的闭上的在类似条件下得到了其它操纵相比之下，我们StyleCLIP我们StyleCLIP我们StyleCLIP我们StyleCLIP我们StyleCLIP原始我们我们StyleCLIPStyleCLIP我们我们StyleCLIPStyleCLIP18238结果，其中几乎只有期望的属性被操纵，而其他属性被很好地保留。例如，对于此外，定性结果与定量结果的一致性表明，本文提出的评价指标对解缠图像处理任务是有效强度调整操纵输出。我们进一步比较了逐渐增加操作强度的操作结果为了说明，我们在图6中显示了四组比较结果。在每一组中，我们分别呈现男性和女性的操作结果我们观察到，与StyleCLIP相比，我们的方法学习了更多的解缠操纵方向。对于StyleCLIP来说，当操控强度增加时，想要的属性会变得越来越明显，以及纠结的属性。如图6a中的男性情况，从左到右，眼睛变得越来越蓝，同时它们也变得更宽，脸变得更白，并且头发颜色变得更浅。同时，该方法具有较好的一致性.随着操纵强度的增加，目标属性逐渐明显，而其他属性几乎不变。5.4. 讨论超参数。在前面的部分中，我们说明了我们的方法实现无人为试错的解纠缠图像处理的能力为了进一步研究超参数的影响，我们调整了方程中提出的纠缠损耗λE（8）和约束属性的数量N在方程。（七）、我们给出了“蓝眼睛”和“带耳环”的比较结果如图7a所示，当λE增加时，操纵效果变得不那么明显，而其他属性保持较好。但可通过事后加大手法力度来扩大手法效果。与图7b，当N变化时，操纵结果之间没有明显差异总之，我们的方法对超参数不敏感。局限性。所提出的PPE方法的局限性如下：1）与StyleCLIP类似，CLIP和StyleGAN域之外的命令可能无法获得理想的操作结果。2)操作结果中的解缠程度取决于StyleGAN潜空间中的解缠由于我们研究的是潜空间图像处理，我们的方法所能做的就是在预处理的潜空间中找到最不纠缠的潜路径原创！E=一百！E=二百！E=三百！E= 500（一）初始N = 5 N = 10 N = 15 N = 20（b）第（1）款图7.超参数研究训练有素的发电机如果生成器的属性最初是纠缠的，PPE就无法实现完全分离的操作。道德影响。图像处理模型中的一个常见问题是它偏向于模型训练的数据集。例如，BlendGAN [22]指出数据集的伦理偏见可能会转移到他们的模型中，例如，该模型输出具有较浅肤色的面部，而输入的面部是较深肤色的。我们的工作可以帮助减少这种道德影响，因为我们的方法旨在解开图像操作，只改变所需的属性，而让其他属性不变，我们的方法可以改变眼睛的颜色，同时很好地保持皮肤的颜色。6. 结论我们提出了预测，预防和评估（PPE），以实现解开图像操作，通过深入利用强大的大规模预训练的视觉语言模型CLIP的人工努力CLIP被用来1) 预测给定文本操作命令的纠缠属性; 2）通过一种新的纠缠损失防止模型发现纠缠操作的潜在方向; 3）建立一种新的评价指标，可以同时评价操作和纠缠的效果。PPE在具有挑战性的人脸编辑任务上进行了测试，并被证明是有效的。谢谢。这项工作得到了PRIN项目CREATIVE Prot的支持。2020年12月L9F9，由EUREGIO项目OLIVER和由欧盟H2020 AI4Media项目在赠款951911下进行。耳环耳环蓝眼睛蓝眼睛18239引用[1] Rameen Abdal，Peihao Zhu，Niloy J Mitra，and PeterWonka.Styleflow：使用条件连续规范化流对stylegan生成的图像进行属性条件探索。 ACM Transactions onGraphics（TOG），40（3）：1-21，2021。一、二[2] Yuval Alaluf，Or Patashnik，and Daniel Cohen-Or.只是风格问题：使用基于风格的回归模型进行年龄转换。ACM事务处理图表，40（4），2021. 2[3] 瑞奇 ·T Q. Chen ， Xuechen Li ， Roger B Grosse ， andDavid K Duvenaud.变分自动编码器中解纠缠的分离源。In S. Bengio，H. Wallach，H.拉罗谢尔湾格劳曼Cesa-Bianchi和R. Garnett，编者，《神经信息处理系统进展》，第31卷。Curran Associates，Inc. 2018. 2[4] Xi Chen，Yan Duan，Rein Houthooft，John Schulman，Ilya Sutskever，and Pieter Abbeel. Infogan：通过信息最大化生成式对抗网络进行可解释的表示学习第30届神经信息处理系统国际会议论文集，第2180-2188页，2016年2[5] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。BERT：用于语言理解的深度双向变换器的预训练。在计算语言学协会北美分会2019年会议论文集：人类语言技术，第1卷（长论文和短论文），第4171-4186页，明尼苏达州明尼阿波利斯，2019年6月。计算语言学协会。三、十一[6] 董浩、司淼宇、吴超、郭一珂。通过对抗学习进行语义图像合成。在IEEE计算机视觉国际会议论文集，第5706-5714页，2017年。2[7] Kevin Frans，Lisa B.索罗斯和奥拉夫·维特科夫斯基。Clipdraw：通过语言图像编码器探索文本到绘图的合成CoRR，abs/2106.14843，2021。3[8] Aviv Gabbay，Niv Cohen，and Yedid Hoshen.一张照片胜过千言万语：在野外解开纠缠。神经信息处理系统（NeurIPS），2021。一、二[9] Aviv Gabbay和Yedid Hoshen。揭秘阶级间的分离。在国际会议上学习表示（ICLR），2020年。2[10] Aviv Gabbay和Yedid Hoshen。用于图像翻译的按比例放大解缠。2021年国际计算机视觉会议（ICCV）。一、二[11] Rinon Gal ， Or Patashnik ， Haggai Maron ， GalChechik，and Daniel Cohen-Or.Stylegan-nada：图像生成器的剪辑引导域二、三[12] ErikH ¨ rk o¨ nen，AaronHertzmann，Jaak k oLehtinen，andSylvain Paris. Ganspace：Discovering interpretable gancontrol.在Proc. NeurIPS，2020中。一、二[13] Ali Jahanian，Lucy Chai和Phillip Isola。关于生成式对抗网络的“引导能力”。在2020年国际学习代表会议上。2[14] Tero Karras ， Timo Aila ， Samuli Laine ， and JaakkoLehtinen.为提高质量、稳定性和变异性而进行的干细胞生长。arXiv预印本arXiv：1710.10196，2017。二、五[15] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构，用于生成对抗网络。在IEEE/CVF计算机视觉和模式识别会议论文集，第4401-4410页，2019年。一、二、五[16] Tero Karras ， Samuli Laine ， Miika Aittala ， JanneHellsten，Jaakko Lehtinen，and Timo Aila.分析和改进了扫描仪的图像质量。在IEEE/CVF计算机视觉和模式识别会议论文集，第8110-8119页，2020年。一、二、三、五[17] Hyunjik Kim和Andriy Mnih。通过因子分解法解开。国际机器学习会议，第2649-2658页。PMLR，2018。2[18] Bowen Li ， Xiaojuan Qi ， Thomas Lukasiewicz ， andPhilip HS Torr.Manigan ：文本引导的图像处理。在IEEE/CVF计算机视觉和模式识别会议的论文集，第7880-7889页，2020年。2[19] Bowen Li ， Xiaojuan Qi ， Philip Torr ， and ThomasLukasiewicz.用于文本引导图像操作的轻量级生成对抗网络。In H. Larochelle，M.兰扎托河哈德塞尔M. F.Balcan和H.林，编辑，神经信息处理系统的进展，第33卷，第 22020-22031 页。 Curran Associates ， Inc. 2020年。2[20] Xiujun Li ， Xi Yin ， Chunyuan Li ， Xiaowei Hu ，Pengchuan Zhang，Lei Zhang，Lijuan Wang，HoudongHu，Li Dong，Furu Wei，Yejin Choi，and Jianfeng Gao.Oscar：视觉语言任务的对象语义对齐预训练。ECCV 2020，2020。3[21] Xinyang Li，Shengchuan Zhang，Jie Hu，Liujuan Cao，Xi-aopeng Hong ， Xudong Mao ， Feiyue Huang ，Yongjian Wu，and Rongrong Ji.通过分层风格解纠缠的图像到图像转换。在IEEE/CVF计算机视觉和模式识别会议论文集，第8639-8648页，2021年。一、二、五[22] Mingcong Liu，Qiang Li，Zekui Qin，Guoxin Zhang，Pengfei Wan，and Wen Zheng.Blendgan：用于任意风格化面部生成的隐式Blendgan混合。在神经信息处理系统的进展，2021年。8[23] Yahui Liu，Marco De Nadai，Deng Cai，Huayang Li，Xavier Alameda-Pineda，Nicu Sebe，and Bruno Lepri.描述要更改的内容：文本引导的无监督图像到图像翻译方法。第28届ACM国际多媒体会议论文集，第1357-1365页，2020年。1[24] Yahui Liu ， Enver Sangineto ， Yaji

下载后可阅读完整内容，剩余1页未读，立即下载