没有合适的资源?快使用搜索试试~ 我知道了~
78340大规模几何变形和内容保持的工业风格转换0Jinchao Yang 1 �,Fei Guo 1 �,Shuo Chen 2,Jun Li 1 †,Jian Yang 101 PCA实验室,南京理工大学 2 RIKEN0{yangjinchao,feiguo,junli,csjyang}@njust.edu.cn shuo.chen.ya@riken.jp0� 相等贡献 † 通讯作者&项目负责人0图1. 我们提出了一种工业风格转换方法,用于视觉产品设计。我们的方法通过将一个产品(目标)的形状和艺术风格参考转移到另一个产品(源)上,创建新的产品外观(例如标志和日夜瓶)。0摘要0我们提出了一种新颖的风格转换方法,快速为工业设计师参考创建具有良好外观的新视觉产品。给定源产品、目标产品和艺术风格图像,我们的方法生成一个神经变形场,将源形状变形为模仿目标的几何风格,并生成一个神经纹理转换网络,将艺术风格转移到变形后的源产品上。我们的模型,工业风格转换(InST),由大规模几何变形(LGW)和兴趣一致性纹理转换(ICTT)组成。LGW旨在探索源产品和目标产品的形状掩模之间的无监督变换,以适应大规模形状变形。此外,我们引入了一个掩模平滑正则化项,以防止源产品细节的突变。ICTT引入了一个兴趣正则化项,以在使用艺术风格图像进行风格化时保持变形产品的重要内容。广泛的实验结果表明,InST在多个视觉产品设计任务上实现了最先进的性能,例如公司的蜗牛标志和古典瓶子(请参见图1)。据我们所知,我们是第一个将神经风格转换方法扩展到创建工业产品外观的研究者。代码可在https://jcyang98.github.io/InST/home.html上获得。01. 引言0视觉产品设计(VPD)被认为是工业产品设计领域的核心角色,因为消费者的选择很大程度上取决于新产品在市场上的视觉外观[12]。VPD通常通过遵循不同的外观规则(例如美学、功能和象征性)来设计一种新颖的产品[11]。例如,设计师通常通过参考飞机和汽车来融合它们的飞行和驾驶功能以及吸引人的美学,来产生飞行汽车的美丽外观。然而,由于VPD过程中的人类智能对设计师的创造能力高度依赖,因此很难快速创建高质量的产品外观。幸运的是,神经风格转换(NST)[16, 21, 28,38]旨在将一个或两个参考图像的艺术和几何风格转移到内容图像上,具有帮助设计师的强大机会,因为艺术风格转换适用于审美价值,而一些几何形状转换可以获得功能和象征价值,例如北京国家体育场(鸟巢和建筑物)。因此,我们寻求一种风格转换公式,自动生成许多新产品的视觉外观候选,供工业设计师参考。0然而,大多数现代NST方法[14, 25, 32, 59,60],包括几何NST[28,38],由于以下两个挑战,很难或不可能直接扩展到设计视觉产品外观。一个挑战是大规模形状变形的拟合问题。78350图2.我们的工业风格转换流程。我们的方法通过将源S变形为目标T,然后将参考图像A的艺术风格转移到新产品N上,创建一个新产品N的最终外观O。0由于设计新产品通常是将两个几何形状非常不同的对象(或产品)融合在一起,例如飞行汽车(飞机和汽车)和蝴蝶门(蝴蝶的翅膀和车门),因此在不同对象之间进行大规模的几何形状转移是具有挑战性的。另一个挑战是NST通常在风格化过程中使内容变差,例如AdaIN [21]和WC-T[33],导致产品设计师无法同时参考丰富的内容和新颖的几何形状来生成创意灵感。为了解决这些挑战,我们开发了一种工业风格转移(InST)方法,用于创建新的产品外观,如图2所示。给定一个源产品(或对象)、一个目标产品和一个艺术参考图像,InST旨在将目标产品的工业几何形状和参考图像的艺术风格转移到源产品上。与现有的NST方法不同,InST由大规模几何变形(LGW)和兴趣一致性纹理转移(ICTT)组成。与小规模几何NST[28,38]不同,LGW使用形状一致性损失在源产品和目标产品的形状掩模之间设计了一个神经变形场。这与它们的纹理像素之间的变形场不同,因为它会导致更差的优化,即变形失败。此外,我们探索了一个掩模平滑正则化项,以防止源产品细节的突变。在掩模的帮助下,LGW在两个产品之间进行大规模变形时表现良好,即使它们在语义上不相关。ICTT旨在在使用艺术参考图像进行风格化时保持新产品的有趣内容。受SuperPoint网络[15]的启发,我们提出了一种基于兴趣点和描述符的兴趣正则化(IR)项,以约束艺术风格化,以最小化新产品与其风格化产品之间的感知差异。与最相关的工作ArtFlow[3]不同,我们设计了有趣的感知约束来防止更差的内容,我们的IR可以进一步提高ArtFlow的性能。总的来说,本文的贡献总结如下:0•对于视觉产品设计过程中的大规模几何差异,我们探索了一种基于掩模的大规模几何变形模块,用于转移几何形状。0通过几何形状风格转移,可以将一个产品的几何形状风格转移到另一个产品,即使它们之间没有相关的语义。0•对于风格化过程中的产品内容维护,我们引入了一种基于兴趣点和描述符的兴趣一致性纹理转移,以保留内容细节。0•结合LGW和ICTT,我们提出了一个工业风格转移框架,快速生成新产品的视觉外观,例如公司的标志、飞行汽车和瓷器时尚。据我们所知,这项工作可以开辟一个新的风格转移领域,设计工业产品外观。02. 相关工作0在本节中,我们主要回顾视觉产品设计、纹理风格转移和几何风格转移,因为我们将风格转移技术扩展到一个新的应用,即产品外观设计任务。02.1. 视觉产品设计0由于产品外观对消费者的感知具有重要影响[5,6],视觉产品设计(VPD)可以被视为设计师(公司)和消费者之间的一种沟通过程[12]。在这个过程中,设计师通过改变几何形状、艺术风格等来通过产品外观传达特定的信息,消费者在看到产品外观时为设计师提供产品改进的反馈[41]。通常,消费者对产品有四种流行的外观类型:审美印象、功能效果、象征性关联和人体工程学信息[11,12,43]。然而,这是一个人工劳动密集型的过程,沟通和产品设计成本高昂,因为它需要许多反馈循环,设计师需要花费大量时间在每个循环中改进产品设计[12]。这种昂贵的成本促使我们探索一种快速的设计方法。更重要的是,由于高质量的产品外观依赖于设计师的创造能力,它鼓励我们生成许多产品创新来激发设计师的灵感。因此,我们开发了一种新颖的风格转移方法,以创建许多视觉产品外观候选,以辅助或激发设计师。02.2.纹理风格转换。0作为一个热门话题,纹理风格转换已经发展了很长时间。最初的作品[16, 17, 34,45]注重迭代优化。后来,基于前馈网络的大量工作[9, 26, 52,62]在质量和数量上都有所提高,例如视觉效果和计算时间。尽管大大改进了纹理风格转换,但这些方法只能通过训练模型转换一种风格。许多工作,包括AdaIN [21],WCT [33],AvatarNet[48],LinearWCT [32],SANet [42],MST [63]和最近的[20, 31, 35, 37, 54, 55, 57,58],都扩展到任意风格转换。然而,这些方法仅限于保留内容图像的细节。风格转换中内容较差的问题引起了许多学者的关注。引入了一种保持内容图像结构的算法[10]。ArtFlow[3]通过可逆神经流来保留更多的内容图像细节。然而,它们的视觉质量仍有待改进。我们提出了通过SuperPoint网络[15]计算的兴趣点正则化,它以内容图像作为输入,并输出相应的兴趣点和描述符以改善内容。products. Given the products S and T as inputs, their masksare Ms = Fm(S) and Mt = Fm(T), respectively. Here,we use a fixed Resnet50+FPN+PointRend (point-based ren-dering) network, which has been pre-trained in [30].Feature Extraction. Mask features are extracted fromthe input masks Ms and Mt using a convolutional encoder� sinj∗ W8 +i10000kD,k mod 2 = 0cosj∗ W8 +ik−1D,k mod 2 = 1,0 ≤ i ≤ H8 , 0 ≤ j ≤78360这些方法仅通过训练模型转换一种风格。许多工作,包括AdaIN [21],WCT [33],AvatarNet [48],LinearWCT[32],SANet [42],MST [63]和最近的[20, 31, 35, 37, 54,55, 57,58],都扩展到任意风格转换。然而,这些方法仅限于保留内容图像的细节。风格转换中内容较差的问题引起了许多学者的关注。引入了一种保持内容图像结构的算法[10]。ArtFlow[3]通过可逆神经流来保留更多的内容图像细节。然而,它们的视觉质量仍有待改进。我们提出了通过SuperPoint网络[15]计算的兴趣点正则化,它以内容图像作为输入,并输出相应的兴趣点和描述符以改善内容。02.3.几何风格转换0传统的几何匹配方法涉及检测和匹配手工设计的兴趣点,如SIFT [40],形状上下文匹配[4]或HOG[13]。虽然这些方法对实例级匹配效果很好,但对外观变化和噪声干扰敏感。后来,卷积神经网络在几何匹配中变得流行,因为它能够提取强大而稳健的特征。目前最好的方法遵循[46]提出的网络范式,包括特征提取、匹配层和回归网络,并在此基础上进行各种改进[18, 27, 38, 46,47]。所有上述方法都作用于两个RGB图像,并尝试估计一个扭曲场以直接匹配它们。尽管在语义上相似的图像之间表现良好,但它们无法处理不同类别之间具有大规模扭曲的对象。在缺乏语义相关性的情况下,计算两个RGB图像之间的相关性是不合理的,定义匹配度量也很困难。DST[28]通过匹配NBB关键点[2]和估计薄板样条(TPS)[7]变换来实现扭曲。它也仅限于类级扭曲,因为NBB只能提取相似对象之间的关键点。一些方法仅限于特定的语义类别,如人脸[61]、漫画[49]或文本[60]。与上述几何匹配方法相比,我们实现了不同类别任意对象之间的大规模扭曲。总的来说,与上述方法不同,我们的目标是拓宽产品设计任务的风格转换应用,我们的方法可以获得令人惊叹的工业产品外观,以激发设计师的灵感。03.工业风格转换0在本节中,我们开发了一个工业风格转换(InST)框架,在图2中创建新的视觉产品外观,包括两个模块:大规模几何扭曲(LGW)在第3.1小节中和兴趣一致性。0在第3.2小节中,我们使用LGW将源产品(或对象)表示为S,目标产品表示为T,艺术参考图像表示为A,使用LGW进行新的扭曲产品表示为N,最终输出表示为O。03.1.大规模几何扭曲0LGW的目标是将源产品S扭曲成与目标产品T的几何形状相匹配,即使存在大规模的形状差异和无关的语义。为了实现这个目标,我们设计了一个受光流方法启发的形状掩模之间的神经扭曲场,称为循环全对场变换(RAFT)[51]。特别地,图3显示了我们的LGW模块,包括一个掩模RAFT和一个无监督扭曲损失。03.1.1 掩码RAFT网络0掩码RAFT网络可以简化为五个阶段:(1) 掩码提取,(2) 特征提取,(3) 位置嵌入,(4)相关计算,(5)循环更新。具体细节如下所述。掩码提取。我们使用一个对象分割网络,表示为 F m : RH × W × 3 → { 0 , 1 } H × W08 × D ,其中 D 设置为 256 。为了计算 M s 和 M t之间的相关性,网络类似于RAFT[51]的特征编码器网络,由6个残差块组成,分别在1/2、1/4和1/8的分辨率上。然后,我们得到了掩码的多尺度特征,F s = F f ( M s ) ,F t= F f ( M t )。位置嵌入。由于缺乏颜色信息,源掩码和目标掩码之间存在太多相似或相同的特征,导致相关计算和变形效果较弱。为了避免这种情况,相邻位置信息可以改善变形场,因为它更新了对象产品的每个像素(位置)的变化。因此,我们使用流行的残差操作考虑特征图 F s 和 F t 的位置嵌入 P[53],并定义新的位置+特征为: � ˆ F s = F s + P ˆ F t= F t + P ,(1)0其中 P ( i, j, k ) =08 ,且 0 ≤ k ≤ D = 256 。Lshape =Rr=1 αr∥ωr(Ms) − Mt∥1,(3)where |, & and ⊕ denote logical disjunction, conjunc-tion, and XOR, Medge represents edges of the target ob-ject product.Medge is computed by convolution opera-tion with all one kernel, Medge = Cov(Mt, ker), whereker = [1]k×k×3, k is a predefined kernel size, and weset k = 9.(More details are provided in supplemen-tary materials.)Since Msmooth∈ {0, 1}H×W ×3 hassame mask maps in three channels, one channel is denot-ed by M ∈ {0, 1}H×W . Given the warp field estimations{ωr(Ms)}Rr=1, the ℓ2 regularization on M is defined as1 βrLsmooth(ωr, M),(5)78370图3. 我们提出的大规模几何变形模块,包括一个掩码RAFT网络和一个无监督变形损失。0图4.给定两个形状,我们为压缩部分(右上)和扩展部分(右下)设计了不同的平滑度掩码。中间的平滑度掩码是我们在平滑度正则化中使用的。0相关计算和循环更新。在这里,我们遵循RAFT的视觉相似性计算和迭代更新方法[51]来计算多尺度相关性并循环更新变形场。在本文中,这两个步骤被表示为 F cr : ( R H/ 8 × W/8 × D , R H/ 8 × W/ 8 × D ) → R H × W × 2。总体上,我们的掩码RAFT网络描述为: ω = { ω r } R r =10= F cr ( F f ( F m ( S )) + P, F f ( F m ( N )) + P ) ,(2)0其中 R 是迭代次数,我们在实现中将 R 设为 3 。03.1.2 无监督变形损失0掩码RAFT网络是在无监督设置下进行训练的,通过构建形状一致性损失和平滑度正则化。形状一致性损失。基于公式(2)中的变形场估计ω,我们通过空间变换器中提到的差分双线性采样得到变形后的源掩码 { ω r ( M s ) } R r =1 。给定目标掩码 M t,这个 ℓ 1 损失定义为0其中 α r用于平衡变形程度。平滑度正则化。为了避免混乱的变形,需要进一步限制变形场的采样方向,以最大程度地保持内容细节0源对象。特别地,我们设计了一个平滑度掩码,如图4所示,其生成的公式表示为0M smooth = M compress | M expand = ( Medge & M s ) | ( M s ⊕ M t & M t ) ,(4)0L smooth = Σ R0其中β r表示不同warp场内容保留的程度,L smooth ( ω r , M ) =01 / i,j M ij0Σ0i,j M ij � ∥ ω i +1,j r − ω i,j r ∥ 2 + ∥ ω i,j +1 r − ω i,j r ∥20+ ∥ ω i +1,j +1 r − ω i,j r ∥ 2 + ∥ ω i +1,j− 1 r − ω i,j r ∥ 2 ≤ . (6)0上述项是对warp场ω的一阶平滑性的约束,通过限制坐标(i,j)周围的水平、垂直和对角邻域的位移,使源对象的纹理内容在变形后接近其邻域。通过将L shape与Lsmooth结合起来,warping损失可以描述为0L overall = L shape + γL smooth , (7)0其中γ = 1控制每个项的重要性。03.2. 兴趣一致的纹理迁移0通过LGW生成新产品N后,ICTT的目标是通过将O的艺术风格从A转移到N,以创建具有重要内容细节的N的风格化产品外观。LP(PN, PO) =1HW∥pNhw − pOhw∥22,(9)1ld(dNhw, dOij; ghwij),(10)ghwij =78380图5.兴趣一致的纹理迁移。它包括用于艺术风格转换的NST方法和用于通过兴趣点约束保留内容的SuperPoint网络。0使用神经风格迁移(NST)方法将参考图像A转换为N。为了实现这个目标,我们在图5中引入了一个兴趣正则化(IR)项,以基于SuperPoint网络[15]维持O和N之间有趣内容的相似性,因为它可以有效地计算兴趣点位置及其相关描述符。NST通常通过最小化NST损失来训练图像转换网络F,包括内容和纹理风格损失。在这项工作中,我们考虑了两种流行的算法,AdaIN [21]和LinearWCT[32],以及一种最相关的方法ArtFlow[3]。IR通过SuperPoint网络控制N和O之间的感知差异,表示为S(∙),输出一个大小为H×W且具有65个通道的兴趣点头部P∈RH×W×65,以及一个大小为H×W且具有256个通道的描述符头部D∈RH×W×256。然后我们有(PN, DN) =S(N),以及(PO, DO) = S(O)。IR定义如下:0L IR = L P ( P N , P O ) + λL D ( D N , D O ) , (8)0其中λ = 0.00005。L P是ℓ2范数的平方,即0H×0W×0其中p N hw和p O hw分别属于P N和P O的65维向量。LD是一个带有正边界m p = 1和负边界m n =0.2的hinge损失[15],即L D ( D N , D O ) =0(HW)20H×0W×0H×0W×0其中l d ( d N , d O ; g ) = βg max(0 , m p - ( d N ) T dO ) + (1 - g ) max(0 , ( d N ) T d O - m n ),ghwij是(01,如果∥ � H h N hw - h O ij ∥ ≤8,0,否则。其中h N hw表示0中心像素在(h,w)单元格中的位置,并且�H h Nhw表示将单元格位置h Nhw乘以单应性矩阵H并除以最后一个坐标。通过将LNST与L IR结合起来,ICTT损失可以描述为0L ICTT = L NST + µL IR , (11)0其中µ=1控制NST和IR之间的平衡。04. 实验0在本节中,我们进行了广泛的实验,以评估我们的InST方法在视觉产品设计方面的能力,例如公司标志、瓶子、瓷器时尚和飞行汽车。产品设计的更多比较可在补充材料中找到。04.1. 实验设置0数据集。包括源产品、目标产品(或对象)和艺术风格图像。根据[56],源产品是通过开放访问API[1]从大都会艺术博物馆收藏中选择的,并且使用PointRend[30]获取它们的分割掩模。我们使用从Zalando数据集[24]收集的服装作为目标产品,并使用VI- TON[19]获取它们的分割掩模。艺术风格图像是WikiArt数据集[8]。此外,MS-COCO数据集[36]也被视为ICTT模块中训练网络的内容图像。输入图像被调整为512×512。每个图像被随机裁剪为256×256进行训练。训练。由于我们的模型包括LGW和ICTT模块,我们的训练计划分为三个步骤。首先,使用源产品和目标产品训练LGW的变形网络。超参数在方程(3)中设置为{αr}3r=1={0.1,0.2,1},在方程(5)中设置为{βr}3r=1={0.1,0.05,0.01},在方程(7)中设置为γ=1。其次,使用艺术风格图像和MS-COCO作为内容图像训练ICTT的艺术转移网络。超参数在方程(8)中设置为λ=0.00005,在方程(11)中设置为µ=1。第三,我们使用收集的数据集共同优化变形和艺术转移网络。在我们的实验中,我们使用批量大小16/2/2和Adam[29]优化器,学习率为0.001/初始0.0001,衰减为0.00001/0.0001,对这三个步骤进行50k/60k/10k次迭代训练。训练时间大约为10/12/8小时,使用单个GTX 2080Ti GPU。04.2. 主要结果0为了证明所提出的InST具有几何和纹理转移的能力,可以创建具有出色视觉外观的新产品,我们将其与两种最近的几何转移方法(例如DST [28]和GTST[38])以及三种纹理转移方法(例如AdaIN[21]、LinearWCT[32]和ArtFlow(内容保留)[3])进行比较。视觉比较。我们从三个方面定性地展示了新的视觉产品:(i)几何变形,(ii)纹理转移,(iii)它们的组合。几何变形。图S7展示了几何风格转移算法的新产品设计结果。例如,圆形地球和魔方分别转化为Twitter、Apple、Meta、麦当劳和乔丹的标志。与几何方法相比,1https : / / www . beautifullife . info / automotive -design/10-real-flying-cars/78390图6. 使用几何风格转移方法(例如DST [28]、GTST[38])和我们的InST的视觉产品设计结果。与DST和GTST相比,我们的中间结果在汽车和飞机之间具有更多的参考价值,因为它们类似于产品的俯视图(例如Terrafugia和AeroMobil-4.0 1)。0图7. 使用纹理风格转移方法(例如AdaIN [21]、LinearWCT [32]和ArtFlow [3])的内容保留结果。0例如DST和GTST,我们的LGW模块可以更好地匹配目标的几何形状,并更好地保持源的纹理内容。它们失败的原因是DST和GTST只通过使用相应的关键点[28]和学习小规模变形场[38]之间有很少的语义关系,面对大规模几何变形时结果更差。0与之相反,我们设计了一个平滑的掩模变形场,以适应视觉产品设计中的大规模变形。纹理转移。图7展示了纹理风格转移算法(例如AdaIN、Linear-)的内容保留结果。mIoU0.60000.72850.9284ds.78400图8. 使用几何和纹理风格转换方法(例如GTST [ 38 ]和我们的InST)的视觉标志设计结果。0图9. 使用几何和纹理风格转换方法(例如GTST [ 38 ]和我们的InST)的视觉产品设计结果。0方法 DST [ 28 ] GTST [ 38 ] 我们的LGW0表1. 几何变形方法的定量评估。0方法 AdaIN [ 21 ] AdaIN+IR LinWCT [ 32 ] LinWCT+IR ArtFlow [ 3 ] ArtFlow+IR SSIM ↑0.3424 0.3886 0.4612 0.4932 0.5042 0.5643 时间(s) ↓ 0.054 0.054 0.419 0.416 0.1380.1400表2. 风格化方法的定量评估。0WCT和ArtFlow。我们可以观察到我们的IR正则化可以改善所有算法以保留更多的内容细节,因为它认为兴趣点是相似的。这与ArtFlow非常不同,因为它考虑了可逆的神经流和无偏的特征转换。几何和纹理转换。我们基于几何和纹理风格转换的组合评估了整体产品设计的美观外观。图1显示了我们的InST方法创建的精美产品外观,例如苹果和Twitter的蜗牛标志。此外,图8和图9还展示了更多的产品设计结果。与GTST相比,我们的方法可以提供更大范围的变形并保留更多源对象(或产品)的细节。定量比较。除了上述的视觉比较,我们还提供了LGW和IR模块的两个定量比较。首先,我们使用平均交并比(mIoU)评估几何变形的性能,这是语义分割的常用指标[ 39]。从表1中可以看出,LGW的mIoU得分高于DST和GTST。这意味着变形产品更好地匹配目标的几何形状。其次,类似于[ 3],内容和风格化图像之间的结构相似性指数(SSIM)被视为衡量细节保留性能的指标。0方法 几何纹理 组合0DST [ 28 ] GTST [ 38 ] 我们的 文本方法 我们的 GTST [ 38 ] 我们的0投票 ↑ 37 60 1043 337 763 134 10060表3. 用户研究的定量评估。文本方法表示一组AdaIN [ 21],LinWCT [ 32 ]和ArtFlow [ 3 ]。0用户研究。我们进行了用户研究,以评估所提出的InST算法与现有方法之间的效果。我们将评估分为几个组,从几何变形、内容维护和它们的组合的角度来考虑,每个组包含十个选项。总共,我们收集了来自114个用户的3420个投票,每个组获得1140个投票。表3报告了具体投票的结果。在给定源产品和目标产品的情况下,91.5%的用户认为我们的LGW网络与目标的几何形状更匹配,而GTST [ 38 ]和DST [ 28]分别只有5.3%和3.2%的用户这样认为。在内容维护评估中,66.9%的用户认为我们的ICTT模块比相应的纹理风格转换方法[ 3 , 21 , 32]保留了更多的内容细节。最后,当从上述两个方面评估总体效果时,我们提出的算法占1140个投票中的88.2%,而GTST [ 38]只占11.8%。总体而言,我们的结果在所有方面和评估方法中都是最受欢迎的。04.3. 消融研究0由于在上述小节中已经进行了ICTT的LWG和IR的比较实验,我们对LWG中的maskRAFT网络的位置嵌入进行了消融实验。我们测试了掩膜RAFT网络位置嵌入的重要性。78410通过训练一个没有这个组件的LGW模块,来消融位置嵌入。图10显示了三个循环更新的比较结果。位置嵌入实现了更好的性能,因为这样的操作增强了相邻位置的相关性。0图10. 位置嵌入的消融研究。05. 讨论0在本节中,我们讨论了三个问题,以更好地理解我们的掩膜RAFT和我们的InST方法的局限性。此外,潜在的应用可以在补充材料中找到。为什么RAFT[51]适用于几何扭曲任务?有三个原因可以解释。1)光流估计广泛应用于通过学习扭曲场来估计连续视频帧中两个移动几何体之间的扭曲[22,39,44,50,51]。2)类似于光流估计,已经使用语义变换器方法[27]来训练类似对象之间的几何扭曲场,称为GTST [38],它比DST[28]更好。3)RAFT [51]是最先进的,因为它获得了ECCV2020的最佳论文奖。为什么我们设计了一个掩膜扭曲场?一个原因是当两个对象在语义上不相关或形状差异很大时,直接扭曲一个对象的RGB像素以匹配另一个对象是困难或不可能的,例如蜗牛和Twitter标志。另一个原因是两个掩膜之间的差异低于纹理RGB图像,导致更容易优化。我们使用RGB图像和它们的掩膜输入训练我们的LGW模块,并在图11中显示了损失曲线。很明显,使用掩膜输入的损失较低,收敛速度更快,比基于RGB的RAFT更好地变形。RAFT和掩膜RAFT之间的区别是什么?与RAFT[51]相比,我们的掩膜RAFT有以下四个区别。首先,我们设计了一个无监督损失和一个掩膜平滑性来学习一个大规模的扭曲场,而RAFT在监督设置中探索一个小规模的光流场。其次,在RAFT之前,我们引入了一个掩膜提取阶段,从其RGB图像中获取对象(或产品)的掩膜。第三,我们为特征提取引入了一个位置嵌入,以增强相邻位置的相关性。第四,我们使用特征ˆFt的位置嵌入来训练一个没有这个组件的LGW模块。0图11. 我们的LGW模块使用RGB和掩膜输入的损失。0目标而不是使用另一个网络进行特征提取。总的来说,我们的掩膜RAFT可以更好地扭曲大规模的几何形状。局限性。在这里,我们讨论了几何扭曲的局限性。因为我们的目的是实现产品(或对象)之间的大规模扭曲场,它们之间几乎没有语义对应关系,所以我们不依赖语义信息来指导扭曲场。当输入对共享语义属性时,我们的方法可能会生成令人费解的结果。例如,在图12中,我们的LGW方法试图匹配形状,而不考虑内部语义对齐,例如将眼睛与眼睛对齐。0图12. 限制:原则上的限制是类似对象之间的语义对应关系。06. 结论0在本文中,我们提出了一种用于视觉产品设计任务的工业风格转换方法。我们的方法构建了一个几何变换场,以创建一个新的产品,并进一步学习了一个风格转换网络,将参考图像的艺术风格转移到新产品上。值得一提的是,我们的方法扭曲了源产品,以模仿目标产品的几何形状,即使它们在语义上不相关。大量实验证明我们的方法优于最先进的风格转换算法,特别是具有挑战性的大规模几何形状。我们还将风格转换流程应用于一些产品设计任务,例如令人惊叹的标志、漂亮的瓶子、飞行汽车和瓷器时尚。希望我们的工作可以为设计师通过使用风格转换技术设计新的工业产品开辟一条途径。0致谢0J. Li and J. Yang were supported by the National Nat-ural Science Foundation of China (NSFC) under Grant62072242 and U1713208. S. Chen was supported byJST AIP Acceleration Research Grant NumberJPMJCR20U3, Japan and Youth Science Foundation ofJiangsu Province BK20210339.578420参考文献0[1] The metropolitan museum of art open access. https://met- museum.github.io. 2020. 50[2] K�r Aberman, Jing Liao, Mingyi Shi, Dani Lischinski, Bao-quan Chen, and Daniel Cohen-Or.神经最佳伙伴:稀疏跨域对应. ACM Trans. Graph. (TOG),37(4):1–14, 2018. 30[3] Jie An, Siyu Huang, Yibing Song, Dejing Dou, Wei Liu,and Jiebo Luo. Art�ow:通过可逆神经流进行无偏见的图像风格迁移. In CVPR, pages862–871, 2021. 2, 3, 5, 6, 7, 140[4] Serge Belongie, Jitendra Malik, and Jan Puzicha.使用形状上下文进行形状匹配和物体识别. IEEE Trans. PatternAnal. Mach. Intell., 24(4):509–522, 2002. 30[5] P.H. Bloch. 寻求理想形式:产品设计和消费者反应. Journalof Marketing, 59(July):16–29, 1995. 20[6] P.H. Bloch, F.F. Brunel, and T.J. Arnold.产品美学视觉中心性的个体差异:概念和测量. Journal ofConsumer Research, 29(March):551C565, 2003. 20[7] F. Bookstein. 主要变形:薄板样条和变形的分解. IEEE Trans.Pattern Anal. Mach. Intell., 11:567–585, 1989. 30[8] K Nichol. 数字画家.https://www.kaggle.com/c/painter-by-numbers. 2016.0[9] Dongdong Chen, Lu Yuan, Jing Liao, Nenghai Yu, andGang Hua. Stylebank: 神经图像风格迁移的显式表示. In CVPR,pages 2770–2779, 2017. 20[10] Ming-Ming Cheng, Xiao-Chang Liu, Jie Wang, Shao-PingLu, Yu-Kun Lai, and Paul L Rosin. 保持结构的神经风格迁移. IEEETrans. on Image Process., 29:909–920, 2019. 30[11] M.E.H. Creusen and Jan P. L. Schoormans.产品外观在消费者选择中的不同作用. Journal of ProductInnovation Management, 22(1):63C81, 2005. 1, 20[12] N. Crilly, J. Moultrie, and P.J. Clarkson.看事物:消费者对产品设计视觉领域的反应. Design Studies,25(6):547–577, 2004. 1, 20[13] Navneet Dalal and Bill Triggs.用于人体检测的方向梯度直方图. In CVPR, pages 886–893, 2005.30[14] Yingying Deng, Fan Tang, Weiming Dong, Haibin Huang,Chongyang Ma, and Changsheng Xu.多通道相关性下的任意视频风格迁移. In AAAI, pages 1210–1217,2021. 10[15] Daniel DeTone, Tomasz Malisiewicz, and Andrew Rabi-novich. Superpoint: 自监督兴趣点检测和描述. In CVPRworkshop, pages 337–349, 2018. 2, 3, 50[16] Leon A. Gatys, Alexander S. Ecker, and Matthias Bethge.使用卷积神经网络进行图像风格迁移. In CVPR, pages 2414–2423,2016. 1, 20[17] Leon A Gatys, Alexander S Ecker, Matthias Bethge, Aaron Hertzmann, and EliShechtman. 控制感知因素的图像风格迁移. In CVPR, pages 2414–2423, 2016. 1, 20神经风格迁移中的正则化因子. In CVPR, pages 3985–3993,2017. 20[18] Bumsub Ham, Minsu Cho, C. Schmid, and J. Ponce.提案流:从对象提案中获取语义对应关系. IEEE Trans. PatternAnal. Mach. Intell., 40:1711–1725, 2018. 30[19] Xintong Han, Zuxuan Wu, Zhe Wu, Ruichi Yu, and L.Davis. Viton: 基于图像的虚拟试穿网络. In CVPR, pages7543–7552, 2018. 50[20] Kibeom Hong, Seogkyu Jeon, Huan Yang, Jianlong Fu,and Hyeran Byun. 领域感知的通用风格迁移. In ICCV, pages14609–14617, 2021. 30[21] Xun Huang和Serge JBelongie。自适应实例归一化实时任意风格转移。在ICCV,页1
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功