没有合适的资源?快使用搜索试试~ 我知道了~
79150学习生成能够传达几何和语义的线条图0Caroline Chan Fr´edo Durand Phillip Isola0{ cmchan,fredo,phillipi }@mit.edu MIT0图1. 给定一组照片,我们的方法能够以不同的风格制作线条图,如上所示。我们的方法在训练过程中只需要无配对数据。0摘要0本文提出了一种从照片中创建线条图的无配对方法。当前的方法通常依赖于高质量的配对数据集来生成线条图。然而,这些数据集通常存在限制,因为绘画的主题属于特定领域,或者数据收集的数量有限。尽管最近在无监督图像到图像的转换方面取得了很大进展,但最新的方法仍然难以生成引人注目的线条图。我们观察到线条图是场景信息的编码,并试图传达3D形状和语义含义。我们将这些观察结果构建为一组目标,并训练图像转换来将照片映射到线条图。我们引入了一个几何损失,从线条图的图像特征预测深度信息,以及一个语义损失,将线条图的CLIP特征与其对应的照片匹配。我们的方法在从任意照片创建线条图方面优于最先进的无配对图像转换和线条图生成方法。01. 引言0通过内省和实验,人类艺术家已经学会创建能够提供引人注目的形状和意义的线条图0生成能够传达几何和意义的引人注目的线条图。非真实感渲染的一个长期目标是复制这一成就,并在给定输入图像的情况下自动生成能够传达几何和身份的线条图。然而,手动将这些特性注入到计算机生成的线条图中是困难的,因为这些目标以人类感知和认知的难以捉摸的术语来定义。从照片中生成线条图还面临其他挑战:大多数照片缺乏地面真实几何数据,并且通常描绘具有多个主题和相互作用的复杂场景。自然而然地,从人类创建的绘画中学习或使用人类评估自动线条绘制方法是有意义的。不幸的是,创建这样的数据集具有挑战性,并且可扩展性较低。0在本文中,我们试图在不需要配对训练数据和不需要人类判断隐含形状的情况下,自动从照片中生成有效的线条图。我们的关键思想是将问题视为通过线条图进行编码,并通过明确的几何、语义和外观解码目标来最大化这种编码的质量。我们的方法将线条图生成视为一种无监督的图像转换问题,使用各种损失函数来评估线条图中传达的信息。这种评估79160通过深度学习方法执行此操作,该方法从线条图中解码深度、语义和外观。目标是提取的深度和语义信息与输入照片的场景几何和语义相匹配。外观保持来自于循环一致性[45,81,86]。基于这些目标,我们的方法能够在没有配对数据的情况下创建令人信服的线条图。我们的主要贡献如下:我们提出了一种无监督的自动线条生成方法,该方法明确地将几何和语义信息注入到绘画中。我们将我们的方法应用于许多风格的线条图,并在第4节中展示结果。我们还对我们的绘画所传达的几何和语义信息进行了分析,与几个基线进行了视觉比较,并进行了消融研究。02. 相关工作0线描在艺术史和心理学中具有特殊的兴趣。尽管研究表明人类视觉系统对线描的理解与照片相当[5, 32, 36, 37, 42,82],但为什么线描能够有效地表达仍然不清楚。关于这个问题存在几种理论,但这个领域需要进一步研究[29, 30,69]。已经有大量的工作致力于从3D几何中创建线描。方法包括将图像处理应用于深度和法线图[8, 68],在遮挡轮廓上使用几何特征[2, 18, 41,64],以及将所有基于几何的方法与深度学习相结合[55]。尽管这些方法成功地从3D模型生成了线描,但它们不能应用于没有可用的3D几何的任意照片。此外,大多数方法只以一种风格绘制线条,尽管Neural Strokes[54]解决了这个问题。相反,我们的方法从传达3D几何的2D照片中创建风格化的线描。大多数基于2D的线描生成方法依赖于有监督的数据。这包括使用真实的笔画或矢量图形数据来创建绘画[17, 23, 27,72]。这种基于笔画的方法通常由可微分的架构支持,可以绘制线条[3, 21,35, 51, 61, 71, 74, 78, 85]和根据栅格图像进行绘画[35, 57,62]。其他作品则侧重于给定配对图像的条件线描生成,这些图像通常是为特定任务收集的[50, 52, 58,79]。相比之下,我们的方法处理不配对的数据,并在不同领域的草图之间进行转换。我们的方法与Unpaired Portrait Drawing Generation (UPDG)[79]最相似,它可以从不配对的数据中创建肖像画。UPDG也使用了对抗性图像转换设置,但修改了循环一致性以适应绘画,使用了截断损失,并使用了眼睛、鼻子和嘴巴的判别器。相比之下,我们的方法是建立在鼓励线描携带有关几何和语义的有意义信息的损失上的。我们的目标使我们能够大大减少对循环一致性(或外观重建)的依赖,并且能够为任意照片生成绘画,而不仅仅是肖像。最近的工作在文本驱动的图像编辑和合成方面取得了成功,使用了广泛共享的视觉-文本嵌入对比性语言-图像预训练(CLIP)[16, 65,66]。CLIPDraw[22]也使用CLIP来创建绘画,但使用的是文本输入。这种方法不需要训练,只需最小化一组贝塞尔曲线[51]和文本提示之间的CLIP距离。CLIPDraw证明了尽管存在领域差异,CLIP嵌入可以在文本和绘画之间匹配语义。相比之下,以前的方法已经适应了新的架构,专门研究线描中的语义[4,83]。我们的方法类似地在CLIP空间中最小化了输入和生成的绘画之间的距离,但是我们的方法是在输入照片的条件下以多种风格生成绘画。我们的工作还与CyCADA[33]有相似之处,即输出图像经过训练以在语义上与输入匹配。然而,CyCADA使用预训练的分类器将此约束应用于源数据和目标数据之间的翻译,用于领域适应。相比之下,我们的语义约束利用了可以丰富描述复杂场景的CLIP嵌入。在给定两个数据集的情况下,现代图像转换和风格转移方法可以将图像转换为新的领域[24, 31, 38, 40,86]。现代方法可以在给定配对对应关系的情况下产生高质量的结果[10, 20,38,75],但是大规模对齐的线描数据集很少。幸运的是,许多方法处理不配对数据的图像转换,通常依赖于对抗性设置[1, 11, 43, 45, 63, 70, 76, 76, 81, 84,86]。其他方法通过分离风格和内容来在领域之间进行图像转换[34, 39,56]。程等人还使用深度信息为神经风格转移提供结构[13]。尽管这些方法在艺术风格转换和在形状发生变化的丰富领域之间的图像转换方面非常成功(例如狗到猫,动漫到自拍),但它们仍然生成缺少关键笔画的稀疏线描。0我们的方法建立在鼓励线描携带有关几何和语义的有意义信息的损失上。我们的目标使我们能够大大减少对循环一致性(或外观重建)的依赖,并且能够为任意照片生成绘画,而不仅仅是肖像。最近的工作在文本驱动的图像编辑和合成方面取得了成功,使用了广泛共享的视觉-文本嵌入对比性语言-图像预训练(CLIP)[16, 65, 66]。CLIPDraw[22]也使用CLIP来创建绘画,但使用的是文本输入。这种方法不需要训练,只需最小化一组贝塞尔曲线[51]和文本提示之间的CLIP距离。CLIPDraw证明了尽管存在领域差异,CLIP嵌入可以在文本和绘画之间匹配语义。相比之下,以前的方法已经适应了新的架构,专门研究线描中的语义[4,83]。我们的方法类似地在CLIP空间中最小化了输入和生成的绘画之间的距离,但是我们的方法是在输入照片的条件下以多种风格生成绘画。我们的工作还与CyCADA[33]有相似之处,即输出图像经过训练以在语义上与输入匹配。然而,CyCADA使用预训练的分类器将此约束应用于源数据和目标数据之间的翻译,用于领域适应。相比之下,我们的语义约束利用了可以丰富描述复杂场景的CLIP嵌入。在给定两个数据集的情况下,现代图像转换和风格转移方法可以将图像转换为新的领域[24, 31, 38, 40,86]。现代方法可以在给定配对对应关系的情况下产生高质量的结果[10, 20, 38,75],但是大规模对齐的线描数据集很少。幸运的是,许多方法处理不配对数据的图像转换,通常依赖于对抗性设置[1,11, 43, 45, 63, 70, 76, 76, 81, 84,86]。其他方法通过分离风格和内容来在领域之间进行图像转换[34, 39,56]。程等人还使用深度信息为神经风格转移提供结构[13]。尽管这些方法在艺术风格转换和在形状发生变化的丰富领域之间的图像转换方面非常成功(例如狗到猫,动漫到自拍),但它们仍然生成缺少关键笔画的稀疏线描。03. 方法0我们的目标是训练一个模型,能够根据照片数据集和不成对的线描数据集自动生成任意照片的线描。我们将这个问题定义为领域A(包含照片)和领域B(代表特定风格的线描)之间的不成对图像转换。大多数先前的方法仅考虑通过循环一致性保留线描中的照片外观。相反,我们的方法进一步指导这种转换GA(1)79170DB0外观0CLIP0几何0风格损失0GA(a) a0语义0图2.给定照片a,我们的模型训练网络GA通过四个主要损失合成线描GA(a)。通过鉴别器DB的对抗风格损失鼓励生成的线描与训练集的风格匹配。CLIP、外观和几何损失分别强制线描传达有效的语义、外观和几何。0通过评估线描传达的几何和语义信息来实现目标。该设置如图2所示。我们在第4节中展示了这些新损失对于创建有意义的线描是至关重要的。我们使用生成器网络GA、GB和鉴别器DA、DB进行对抗训练,分别用于领域A和B。几何目标通过预训练的深度网络实现,该网络从线描中预测深度图,并对深度输出施加监督损失。该损失鼓励我们的模型在几何上绘制线条(例如遮挡轮廓)。其次,我们引入了CLIP[66]损失,将语义含义添加到生成的线描中。由于任意照片通常显示复杂场景,我们使用捕捉语义细节很好的视觉CLIP嵌入。然后,我们要求线描的CLIP嵌入与原始照片的CLIP嵌入相似。我们还使用弱权重的循环一致性损失来保留外观信息。03.1. 损失0对抗损失鼓励生成的图像属于各自的领域[25]。使用LSGAN设置[59]的每个领域的损失如下所示。0L_GAN = E_a � A [ D_A(a) 2 ] + E_b � B [ � 1 −D_A(G_B(b)) � 2 ]0几何目标在训练过程中最大化生成线描中的深度信息。我们观察到0线描通常是传达3D形状的有效手段,并在训练过程中应用此属性。给定大量的线描数据集,模型可以在没有任何明确监督的情况下学习到这一特性。然而,当前的方法在没有这种几何约束的情况下无法将线条放置在有意义的位置上(见第4节)。照片数据集和线描之间的领域差距也是障碍。相反,我们提出了一种几何约束,用于监督线描的深度预测。为了监督线描的深度预测,需要获取照片输入的深度图。不幸的是,大多数数据集通常没有真实的深度信息。然而,最近的方法在为照片生成高分辨率深度图方面非常成功。这一进展使我们能够使用从最先进的深度预测网络F获得的伪地面真实深度图。在实践中,我们使用基于MiDaS的[60]网络。我们注意到,照片的伪地面真实图仅在训练时需要,而在测试时不需要。一种简单的监督几何预测的方法是引入网络GGeom,在训练过程中从线描中预测深度图。然而,这种方法存在一些问题。训练GGeom从合成线描中学习深度可能会鼓励线描生成器GA将深度信息注入到不需要的形式中,例如一个不可察觉的信号[14]。我们希望避免在线描中嵌入不可见的信息。使用预训练的深度网络F在线描上不是一个选择,因为存在领域差距。相反,我们提出了从常见的照片和线描之间共享的图像特征中学习推断深度的方法。具体而言,我们预训练一个网络GGeom,根据ImageNet[19]特征预测深度。这些特征,尤其是在早期层次上,对于迁移学习[47]非常有用。这种情况希望通过首先将线描编码为与照片共享的表示形式,然后应用一个已经从照片特征中学习到深度的网络来避免不可见信号问题。为了获取图像特征,我们将照片输入预训练的Inception v3[73]网络,并从Mixed6b节点提取特征(见补充材料)。我们将该层的提取特征表示为输入a的I(a)。在预训练之后,网络GGeom为线描预测深度图。在实践中,我们在训练线描生成时微调GGeom。几何损失的公式如下。给定照片a,我们首先将a输入最先进的深度网络F,并获得伪地面真实深度图F(a)。然后我们生成线描GA(a)并提取其ImageNet特征I(GA(a))。然后将这些特征传递给预训练的深度网络GGeom,以生成深度图预测GGeom(I(GA(a)))。然后,这个深度预测被计算为79180与伪地面真实深度图F(a)相比。更多细节和深度重建请参见补充材料。0L geom = ∥ G Geom ( I ( G A ( a ))) - F ( a ) ∥ (2)0语义损失是通过最小化输入照片和生成的线条绘图的CLIP嵌入之间的距离来实现的。这个目标的目标是将原始照片中的语义信息传达到相应的合成线条绘图中。在计算机视觉中,语义通常以标签和分割图的形式学习。然而,这些表示对特定领域或对象的容量有限。为了从整个场景中编码语义信息,我们使用共享的视觉-文本嵌入CLIP[66],它在照片和艺术品中捕捉到丰富的语义信息[16,22]。然后,我们惩罚在CLIP空间中生成的线条绘图与原始照片之间的距离。目标如下所示。0L CLIP = ∥ CLIP ( G A ( a )) - CLIP ( a ) ∥ (3)0外观损失(或循环一致性)已被用于通过图像转换编码输入外观[45,86]。每个映射方向的外观损失如下所示。0L cycle = ∥ G B ( G A ( a )) - a ∥ + ∥ G A ( G B ( b )) - b ∥ (4)03.2.完整目标0我们的完整目标是:0L = λ CLIP L CLIP + λ geom L geom + λ GANL GAN + λ cycle L cycle (5)0在实践中,我们设置 λ CLIP = 10,λ geom = 10,λ GAN= 1,λ cycle =0.1。实现我们使用具有Res-Net块的编码器-解码器生成器架构[28,40,86],以及基于块的鉴别器[38]。预训练深度网络GGeom的架构基于pix2pixHD的全局生成器[75],并在补充材料中进一步详细说明。我们使用MSE误差用于CLIP损失和外观和几何损失的L1距离。我们使用Adam[46]进行优化,学习率为0.0002,批量大小为6,至少训练30个时期。04.实验0我们评估我们描述的方法,并对一般照片和多种风格的肖像进行定性和定量比较。04.1.从照片生成线条绘图0我们的第一个评估任务是从任意场景的照片生成线条绘图。下面我们描述用于训练和评估的数据集。0数据集对于训练,我们的方法需要一个照片数据集和一个单独的线条绘图数据集。我们在Common Objects inContext(COCO)[53]数据集的随机选择的10,000个图像子集上进行训练,该数据集包含各种场景。对于评估,我们从MIT-AdobeFiveK数据集[7]中的照片创建线条绘图。该数据集包含许多主题的高质量图像(风景,建筑,人物等)。我们使用不同风格的线条绘图训练多个模型。每种风格的示例如图3所示。对于两种线条绘图风格进行定量评估:1)轮廓绘图数据集[50]包含各种场景的5,000个绘图(通常包括人或狗)。2)动漫上色数据集[44]包含各种动漫角色的14,224个草图。图3展示了OpenSketch[26]风格和Cole等人的艺术家绘图的定性结果。0比较方法我们将我们的方法与最先进的无配对图像到图像转换方法进行比较,用于将照片转换为线条绘图任务。这些方法包括:1)CycleGAN[86]使用外观损失和基于块的鉴别器[38]。2)TSIT[39]通过组合来自不同内容和风格流的特征来创建图像。3)U-GAT-IT[43]使用注意力模块和辅助分类器以及循环一致性。4)ACL-GAN[84]将严格的像素循环一致性放松为分布级别的一致性。5)无配对肖像绘图生成(UPDG)[80]为肖像绘图创建多种风格的线条绘图。该方法基于CycleGAN,使用面部特征的鉴别器,截断损失以及使用HED图像[77]的修改循环损失。对于照片任务,我们不包括面部鉴别器,因为它们不适用于没有人类主体的任意照片。我们还在图4中与SPatchGAN[70]和Council-GAN [63]进行了定性比较。0定性比较图4显示了我们的方法与以前的工作在两种风格上的比较。其他方法通常无法将线条放置在有意义的位置,而我们的绘画具有可识别的特征和边界。一些方法,如SPatchGAN,Council-GAN和ACL-GAN,试图严格保持接近训练集领域。这在动漫风格中最为明显,因为这些方法经常生成类似于动漫角色的绘画,而不是输入照片。0用户研究我们进行了一项用户研究,以感知地比较我们的方法与其他方法。在这项研究中,参与者被展示一张参考照片,以及由不同方法制作的相同照片的两张线描图。然后,用户被要求选择最能描绘输入照片的线描图。对于这项研究,我们向用户展示了最多100张图像,共有184名独立参与者。每个比较进行了1000次判断。Ta-CycleGAN [86]98.7%87.3%93 %TSIT [39]99.6%95.3%97.5%U-GAT-IT [43]99.5%97.3%98.4%ACL-GAN [84]100%97.5%98.8%UPDG [80]98.9%96.7%97.8%79190输入0风格0示例0动漫 OpenSketch Cole等 轮廓绘画0图3. 我们方法在四种不同风格下的结果。0轮廓绘画 动漫 总计0表1.用户研究结果,与不同的非配对翻译方法进行比较。我们报告了用户更喜欢我们的方法而不是其他方法的百分比。0表1报告了用户在各种基准方法中选择我们方法的百分比。用户在所有情况下都极其偏爱我们方法生成的线描图。0消融研究我们进行了消融研究来验证每个损失的包含。我们训练了我们模型的三个版本:没有几何损失,没有CLIP损失,没有外观或循环损失。我们将每个消融与我们的完整方法进行比较。我们使用上述的感知研究设置,并在表2中报告用户选择我们的完整方法而不是每个消融的百分比。对于所有风格,CLIP损失都是必不可少的,而轮廓绘画风格对深度损失的依赖要比动漫风格大得多。外观损失稍微改善了结果。0图5显示了所有消融的定性示例。CLIP损失添加了最多的线条。在某些情况下,风格CycleGAN58.0%65.1%62.0%CycleGAN0.74360.80740.779926.7%79200图4.与其他方法的比较。从左到右:输入照片,CycleGAN,TSIT,U-GAT-IT,SPatchGAN,Council-GAN,ACL-GAN,UPDG和我们的方法。所有方法都使用相同的数据在两种线描风格上进行训练。我们的方法生成了最详细的绘画,捕捉到了原始照片的重要方面。0轮廓绘画 动漫 总计0无深度信息 92 . 2 % 48 . 3 % 70 . 3 %0无CLIP 98 . 9 % 84 . 9 % 92 %0无循环一致性 87 . 0 % 64 . 9 % 76 %0表2. 消融研究的用户研究结果。我们报告了用户选择完整方法而不是消融方法的百分比。0轮廓绘画 动漫 总计0我们的方法 68 . 4 % 66 . 8 % 67 . 6 %0照片 − − 70 . 3 %0表3.相对深度预测的用户研究结果。我们报告了用户在每个基准方法中正确选择较近点的百分比。对于两种风格,用户在我们的方法生成的绘画中更容易正确推断相对深度,而不是CycleGAN生成的绘画。0具有高密度线条的风格可能完全依赖于CLIP损失。我们发现这种情况适用于动漫风格,其“无深度信息”消融与完整方法相当。深度损失对于轮廓绘画风格等稀疏风格最有用,它添加了遮挡轮廓和纹理。我们注意到语义损失改善了几何,深度信息也可以帮助语义。循环损失通过保留纹理和轮廓等外观方面来提高结果质量。然而,移除循环损失对结果没有明显的定性影响。0在绘画中评估几何和语义我们设计了两个实验来评估深度和语义0轮廓绘画 动漫 总计 不可识别0我们的方法 0 . 8160 0 . 8371 0 . 8274 13 . 7 %0照片 − − 0 . 8804 0 . 02 %0表4.描述线条绘画和描述输入照片的标题之间的平均余弦相似度。最后一列报告了用户无法识别的图像的百分比。我们的线条绘画更容易描述和识别。0生成的线条图中传达的信息。为了检查深度信息,我们进行了一项用户研究,以评估人类是否能够从我们的绘画中正确推断出相对深度。参与者观看了一张带有两个随机放置的点的图像,并被要求识别最靠近相机的点,类似于[12]。我们对我们的方法、CycleGAN和照片的绘画进行了这个评估。表3报告了每个基准与伪地面真实深度预测一致的百分比。总体而言,用户在我们的绘画中更常常推断出正确的相对深度,特别是对于轮廓绘画风格。对于动漫风格,我们的结果相对深度预测稍微更好。这个结果补充了消融研究,其中深度损失对于动漫风格的效果不如预期。如果相对深度已经可以从CycleGAN中推断出来(尽管绘画质量较低),那么几何目标可能没有太大影响。相反,深度损失极大地改善了轮廓绘画风格的相对深度预测和绘画质量。为了评估语义含义,我们向用户展示一张照片,并要求他们为其写一个句子的标题。79210图5.我们方法的消融研究和完整结果。对于每个消融研究,我们展示了为了得到完整结果而添加的线条,包括每个损失。这些线条用蓝色表示CLIP,红色表示深度,绿色表示外观。CLIP损失添加了最多的线条,而深度损失添加了更多的信息和遮挡轮廓在第二行。外观损失为动漫风格添加了小的笔画和阴影。0图像。参与者还可以选择将图像标记为不可识别。用户查看了我们的方法、CycleGAN和照片的结果。每个标题都以CLIP空间进行编码,然后与平均CLIP嵌入的照片标题进行余弦相似度比较。表4报告了平均余弦相似度和不可识别图像的百分比。在所有情况下,我们的方法产生了更准确的描述和可识别的绘画。04.2. 来自肖像的线条绘画0虽然我们的方法并非专门针对肖像设计,但我们与专门用于此任务的方法进行了比较。我们使用了两种主要设置进行比较。首先,我们直接比较其他方法在其呈现的风格上的表现。然后,我们提供了第二种比较,我们使用Helen面部特征数据集[48]中的非配对肖像以APDrawings数据集[79]的风格训练我们的模型。每个数据集的详细信息请参见补充材料。0比较 1)APDrawingGAN [79]使用监督对抗训练来创建与配对APDrawings风格相似的线条绘画。在一个比较中,我们直接在APDrawings上训练我们的模型。这种设置对我们的方法不利,因为我们不使用配对监督。然而,我们的方法可以使用非配对数据,我们在下一个情况中利用了这个特性。然后,我们使用Helen数据集中的肖像训练一个单独的模型,同时保持APDrawings的绘画风格。我们的第二个比较评估了我们在Helen数据集上训练的方法与监督的APDrawingGAN结果。2)非配对肖像绘画生成(UPDG)[80]在第4.1节中有描述。在第一个设置中,我们与预训练的UPDG模型进行比较0我们的模型的风格是基于插图家Charles Burns [6]和YannLegen- dre[49]的风格(来自[80]的风格1)。我们从头开始训练我们的模型,使用这些数据集的近似值(见补充材料),并在Helen测试集上进行评估。其次,我们从头开始训练我们的方法和UPDG,以在APDrawings风格中创建Helen数据集的肖像。然后在APDrawings的测试肖像上进行比较。0定性比较图6显示了使用所有方法从APDrawings创建的肖像绘画。APDrawingGAN产生了合理的结果,而UPDG在线条艺术风格上存在困难。我们在APDrawings上训练取得了不错的结果,但通过在Helen数据集上训练,质量显著提高。我们的方法和UPDG都能以风格1创建高质量的绘画(见补充材料)。0用户研究我们对所有肖像进行了用户研究比较。参与者被展示一张肖像和两张来自不同方法的线条绘画,并被要求选择最能描绘肖像主题的绘画。表5报告了用户在每个基准方法上选择我们方法的百分比。在案例1中,用户更喜欢我们的方法(在APDrawings上训练)而不是监督式APDrawingGAN,但在案例2中,用户发现我们的方法(在Helen上训练)更可取或可比较。总的来说,UPDG在APDrawings风格上存在困难,而用户总体上稍微更喜欢我们的方法的风格1。05. 讨论0损失公式我们在初步实验中尝试了几种几何和语义损失的变体。这包括使用法线图和多视角一致性。我们发现法线图对于3D形状是有帮助的,然而...79220图6显示了在APDrawings测试数据上使用几种方法的结果。从左到右:肖像照片,艺术家的绘画,APDrawingGAN,UPDG(在Helen上训练),我们的结果(在APDrawings上训练),我们的结果(在Helen上训练)。所有方法都是使用APDrawings线条艺术风格进行训练的。我们的方法产生了准确且形态良好的绘画。0案例1 案例20APDrawingGAN [79] 36.7% 60.1%0UPDG [80] 64.2% 94.8%0表5.肖像比较的感知研究结果。我们报告了用户在每个基准方法上选择我们方法的百分比。案例1比较了两个基准方法在它们的数据集和风格上。在案例2中,我们在Helen上以APDrawings的风格训练我们的模型,并与在相同风格上训练的基准方法进行比较。0对于照片来说,法线估计通常存在噪声。我们希望在未来的工作中探索新颖的视角预测和其他3D方法。我们选择深度预测[60]是因为它在照片上具有鲁棒性,并且我们可以可靠地从图像特征中获得深度预测,这些特征也可以从线条绘画中提取出来。对于语义损失,我们探索了在绘画上微调图像分类器和分割网络,并比较了这些网络的中间特征[9,19]。有关视觉比较,请参见补充材料。0局限性我们的方法建立在一些限制性假设上。我们依赖于来自预训练网络的伪地面真实深度图进行几何监督。因为我们实质上是从这个预训练的深度预测网络中提取信息,所以我们的模型具有类似的失败案例和偏见。我们的模型对许多风格产生了有意义的线条绘画,但在补充材料中展示了一些失败案例。我们...0该方法基于一个假设,即好的线条绘画能够准确传达深度和语义,然而有些风格注重场景的本质而不是精确度。我们还在某些光照条件和纹理上遇到了困难。总的来说,CLIP损失使结果更加“摄影”,这可能是可取的,也可能不是。在某些情况下,这会导致结果收敛为灰度照片。0负面影响与大多数数据驱动的技术一样,我们的方法在训练中可能会学习到偏见。例如,第4节中的动漫素描数据集主要包含女性主题的绘画。此外,艺术数据集(例如用于创建线条图的完整动漫数据集)可能包含敏感内容(例如裸体、武器),其影响可能在输出中可见。0结论我们的方法可以根据非配对数据生成引人注目的线条图。本文将线条图视为实景几何、语义和外观的编码。我们将这些思想融入到一种方法中,通过深度预测、CLIP特征和图像重建来评估这些属性,从而创建出从照片中生成线条图。0致谢 我们要感谢HyojinBahng对本文进行校对。本工作部分得到了PI的PackardFellowship和国家科学基金会的资助(授权号:2105819)。[1] Asha Anoosheh, Eirikur Agustsson, Radu Timofte, and LucVan Gool. Combogan: Unrestrained scalability for imagedomain translation. In Proceedings of the IEEE Conferenceon Computer Vision and Pattern Recognition Workshops,pages 783–790, 2018. 2[2] Pierre B´enard and Aaron Hertzmann. Line drawings from3d models: a tutorial. Foundations and Trends in ComputerGraphics and Vision, 11(1-2):159, 2019. 2[3] Mikhail Bessmeltsev and Justin Solomon. Vectorization ofline drawings via polyvector fields. ACM Transactions onGraphics (TOG), 38(1):1–12, 2019. 2[4] Ayan Kumar Bhunia, Ayan Das, Umar Riaz Muhammad,Yongxin Yang, Timothy M. Hospedales, Tao Xiang, YuliaGryaditskaya, and Yi-Zhe Song.Pixelor: A competitivesketching ai agent. so you think you can sketch? ACM Trans.Graph., 39(6), 2020. 2[5] Irving Biederman and Ginny Ju. Surface versus edge-baseddeterminants of visual recognition. Cognitive psychology,20(1):38–64, 1988. 2[6] Charles Burns. Cover portraits for the believer, 2003-2013.Adam Baumgold Gallery, 2013. 7[7] Vladimir Bychkovsky, Sylvain Paris, Eric Chan, and Fr´edoDurand. Learning photographic global tonal adjustment witha database of input/output image pairs. In CVPR 2011, pages97–104. IEEE, 2011. 4[8] John Canny. A computational approach to edge detection.IEEE Transactions on pattern analysis and machine intelli-gence, (6):679–698, 1986. 2[9] Liang-Chieh Chen, George Papandreou, Iasonas Kokkinos,Kevin Murphy, and Alan L Yuille. Deeplab: Semantic imagesegmentation with deep convolutional nets, atrous convolu-tion, and fully connected crfs. IEEE transactions on patternanalysis and machine intelligence, 40(4):834–848, 2017. 8[10] Qifeng Chen and Vladlen Koltun. Photographic image syn-thesis with cascaded refinement networks. In Proceedings ofthe IEEE international conference on computer vision, pages1511–1520, 2017. 2[11] Runfa Chen, Wenbing Huang, Binghui Huang, Fuchun Sun,and Bin Fang. Reusing discriminators for encoding: Towardsunsupervised image-to-image translation. In Proceedings ofthe IEEE/CVF Conference on Computer Vision and PatternRecognition, pages 8168–8177, 2020. 2[12] Weifeng Chen, Zhao Fu, Dawei Yang, and Jia Deng. Single-image depth perception in the wild. Advances in neural in-formation processing systems, 29:730–738, 2016. 6[13] Ming-Ming Cheng, Xiao-Chang Liu, Jie Wang, Shao-PingLu, Yu-Kun Lai, and Paul L Rosin. Structure-preserving neu-ral style transfer. IEEE Transactions on Image Processing,29:909–920, 2019. 2[14] Casey Chu, Andrey Zhmoginov, and Mark Sandler.Cy-clegan,a master of steganography.arXiv preprintarXiv:1712.02950, 2017. 379230参考文献0[15] Forrester Cole, Aleksey Golovinskiy, Alex Limpaecher,Heather Stoddart Barros, Adam Finkelstein, ThomasFunkhouser, and Szymon Rusinkiewicz. 人们在哪里0绘制线条?在《ACM SIGGRAPH2008论文集》中,页码1-11,2008年。40[16] Katherine Crowson. Vqgan-clip. https://github.com/nerdyrodent/VQGAN-CLIP,2021年。2,40[17] Ayan Das, Yongxin Yang, Timothy Hospedales, Tao Xiang,and Yi-Zhe Song. BézierSketch:一种可扩展矢量素描的生成模型.在《欧洲计算机视觉会议》中,页码632-647。Springer,2020年。20[18] Doug DeCarlo, Adam Finkelstein, Szymon Rusinkiewicz,and Anthony Santella. 用于传达形状的暗示轮廓. 在《ACMSIGGRAPH 2003论文集》中,页码848-855,2003年。20[19] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, andLi Fei-Fei. ImageNet:一个大规模的分层图像数据库.在《2009年IEEE计算机视觉与模式识别会议》中,页码248-255。IEEE,2009年。3,80[20] Patrick Esser, Robin Rombach, and Bjorn Ommer.驯服变压器进行高分辨率图像合成.在《IEEE/CVF计算机视觉与模式识别会议论文集》中,页码12873-12883,2021年。20[21] Kevin Frans and Chin-Yi Cheng.无监督的图像到序列转换与画布绘制网络.arXiv预印本arXiv:1809.08340,2018年。20[22] Kevin Frans, LB Soros, and Olaf Witkowski.Clipdraw:通过语言-图像编码器探索
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功