分层图像矢量化学习的新方法（LayersinVectorizationLearning）

106 浏览量更新于2023-10-25 收藏 3.86MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

116314图像的分层矢量化马旭1，周玉倩2，3 *，徐兴倩2*，孙斌1，瓦列里·菲列夫4，尼基塔·奥尔洛夫4，傅云1，汉弗莱·施2，41东北大学，2UIUC，3Adobe Research4 Picsart AI Research（PAIR）N=8 N=16 N=32N=64N=128人数：32人64人128人256 人512人光栅输入逐层图像矢量化（从左到右）图1.我们的分层图像矢量化学习过程的例子。所提出的方法可以重建的图像在一个层次的粗到细的方式，只有很少的路径。“N” indicates the path摘要图像光栅化是计算机图形学中一项成熟的技术，而作为光栅化逆向路径的图像矢量化仍然是一个主要的挑战。最近先进的基于深度学习的模型实现了矢量图的矢量化和语义插值，并展示了生成新图形的更好拓扑。然而，深度模型不能轻易地推广到域外测试数据。生成的SVG还包含复杂和冗余的形状，不太方便进一步编辑。具体而言，图像中关键的逐层拓扑和基本语义仍然没有很好地理解，因此没有充分探索。在这项工作中，我们提出了分层图像矢量化，即LIVE，转换光栅图像SVG和同时保持其图像拓扑结构。LIVE可以生成具有分层结构的紧凑SVG表单，这些结构在语义上与人类视角一致我们逐步*于谦和兴谦贡献相等。添加新的wb'ezier路径，并使用分层框架、新设计的损失函数和分量路径初始化技术来优化这些路径我们的实验表明，LIVE呈现出比以前的作品更合理的矢量化形式，并可以推广到新的图像。在这个新学到的拓扑学的帮助下，LIVE为设计人员和其他下游应用程序启动了人类可编辑的 SVG 。代码可在https://github.com/Picsart-AI-Research/LIVE- Layerwise-Image-Vectorization上获得。1. 介绍可缩放矢量图形（SVG）[23]，它描述了一个参数化的形状基元的集合的图像，最近吸引了越来越多的关注，由于在计算机图形学的高实用价值。与使用有序像素表示视觉概念的光栅图像相比，矢量图像具有许多优点，如文件大小紧凑和分辨率无关。最重要的是，向量116315图像提供逐层拓扑信息，这对于图像理解和编辑是至关重要的。在过去的几年里，我们见证了图像到矢量转换的各种成就[3，7，14，16，24，29]，主要是由于两个技术方向的进步：构建强大的生成模型，以及采用体面的可区分渲染方法。这些方法，尽管他们有前途的矢量化和生成能力，总是忽略了隐藏在光栅图像的拓扑信息。这些信息的缺失总是导致矢量化的学习不足，并且需要超级形状基元来弥补[14，15，38]。一些方法试图通过关注特定的简单数据集[24，25]或采用分段预处理方法[7，8]来解决这个难题，但每一种方法都有自己的缺点和微妙之处。第一行的工作学习探索字体或emo-jis的几何信息另一种考虑分割预处理方法的方法需要大量的预处理操作，并且会将高对比度纹理分割成多个小区域，从而导致冗余[8]。因此，社区中需要一种简单而有效的方法来捕获用于图像到矢量转换的逐层表示。本文介绍了一种将光栅图像转换为矢量图形的逐层图像矢量化方法，称为LIVE。SVG），具有逐层表示。与以前的作品[15，24]不同，LIVE是无模型的，不需要形状基元标签。这个属性可以帮助我们摆脱特定领域的制度，如字体和表情符号，并绕过SVG数据集收集或泛化的困难。此外，LIVE还提供直观简洁的学习课程。在每一步中，我们都在追求最大化的拓扑explo-口粮，而不是只最小化像素明智的差异。这个想法背后的关键见解是，简单地最小化矢量化误差（例如，输入光栅图像和渲染的矢量图形之间的MSE损失）将导致颜色平均误差。我们实现了这一点，通过组件的路径初始化方法和一种新的无符号距离引导的焦点损失函数（UDF损失）。此外，为了减轻在优化过程中总是发生的自交互问题[24]，我们通过向控制点优化添加约束来提出一种新的自交叉损失（Xing损失）。我们评估了我们提出的方法的各种任务，包括图像到矢量的翻译和跨域插值（例如，剪贴画、表情符号、照片和自然图像）来展示LIVE的有效性。我们在这项工作中的主要贡献可以概括如下：• 我们提出了LIVE，一个通用的图像矢量化管道，分层优化的矢量图在一个逐层的方式。我们的渲染方案是完全可区分的并且可以生成在很大程度上与人类感知一致的逐层SVG• 与LIVE一起，我们还介绍了一种通用的初始化方法和新的损失函数，包括自交叉损失（Xing损失）和无符号距离引导的焦点损失（UDF 损失）。这些方法改进了从光栅图像生成SVG，减少了曲线相交，最大限度地减少了形状失真。• 综合实验表明，LIVE可以在不同的领域生成精确、紧凑的SVG我们的SVG结果超过了以前的作品在简单性和分层拓扑结构的结果。2. 相关工作在本节中，我们主要总结了以前的方法，并介绍了与我们的论文密切相关的工作。2.1. 栅格化和矢量化栅格化和矢量化是计算机图形学中的一对对偶问题。在过去的几十年里，许多光栅化工作集中在有效渲染[9，11，19，20]或抗锯齿[2，4，6，18]。传统的矢量化方法ODS [5，13，28，32-其中，[28]和[5]利用经验两阶段算法将分割的组件回归为多边形和Bezigons。研究人员还研究了其他独立于分割的方法，例如扩散曲线[21，35，37]和梯度网格[31]。深度学习的兴起促使研究人员通过可微分渲染来解决矢量化问题。Yang等[36]提出，通过使用小波光栅化计算梯度，可以使用自制的损失函数直接优化Bezigons [18]。Li等[14]发现形状梯度用Monta-Carlo边缘采样法对雷诺输运公式[26]进行微分。同时，将可微渲染技术与深度学习模型相结合是一个趋势性的研究方向。介绍了基于递归神经网络[10]、可变自编码器[10，17]和Transformer [27]的新网络，以解决矢量化和矢量图生成问题。在[10]中，Haet al. SketchRNN是第一个基于RNN的草图生成网络。在[17]中，Lopes等人引入SVG解码器并将其与像素VAE相结合以在潜在空间中生成新颖字体SVG。在[27]中，Rebeiroet al.我建议使用Sketchformer，这是一个基于Transformer的网络，可以从光栅图像中恢复草图。2.2. 图像拓扑一个人类可编辑的SVG应该在对象和形状中组织良好。先前的工作已经探索了用于光栅图像和矢量化形状两者一116316∈P=P−dL（P）α;//更新点∈DC¨¨原型工作是Photo2ClipArt [8]，其中图像首先被分割成片段，然后被矢量化，然后组合成视觉层次。类似的设计在其他研究工作中反复出现，如[29，30]。然而，这些方法在很大程度上依赖于分割步骤的准确性，并且对于复杂场景的隐式形状几何恢复另一个研究分支设计了端到端的框架，通过一次向前传递来生成或编辑图像层次结构。例如，DeepSVG [3]使用VAE作为其主要结构，其中输入笔划首先通过编码器表示，然后通过解码器用重新采样的笔划替换。然而，DeepSVG执行SVG到SVG的转换，这是一个相对简单的任务。程式化神经绘画[38]用程式化的笔触逐步重建图像。他们的设计原则是贪婪地寻找最佳冲程以最小化损失。然而他们的主要焦点是光栅图像，算法一：算法LIVEP = [];//路径控制点列表C =[];// 路径颜色列表 w =1.0;//逐像素损失权重α，β= 1。0，0。01;//对于n的学习率，在N个do中// newpointsRn×4s×2//新的颜色cRn×4int n =init（n，n）;P = concat（[P;[]）;C = concat（[C; c]）;对于j=1到t，I= render（P，C）;L= LUDF。I−I+λLXing（P）;DPD而不是SVG。最后，Im 2 Vec [24]提出了编码器-RNN-光栅化器管道来矢量化图像并获取其C=C−β端L（C）;//更新颜色拓扑同时然而，生成的形状的排序并不稳健，并且该方法是域-w=I−I端;// updatew2特定. 与上述方法不同的是，我们的LIVE不需要预分割和深度模型，但表现出令人满意的探索图像拓扑结构的能力。3. LIVE：逐层图像矢量化3.1. 框架我们提出了一种新的方法来逐步生成一个SVG，适合在逐层的方式光栅图像。给定一个任意的输入图像，LIVE通过添加新的可优化的闭合贝塞尔路径并优化所有这些路径来递归地学习视觉概念虽然有各种形状基元可以附加到SVG中，但我们认为参数化闭合贝塞尔路径是我们的基本形状基元，就像[14，24]中的实现这种设置背后有首先，这种策略将大大减少设计空间，大大减轻LIVE的学习过程。此外，b'ezier路径是powerful和容易近似不同的形状，使它不必要的，sary引入各种形状的基本。最后，通过改变每条路径上的线段数来控制形状复杂度是很方便的。对于复杂的视觉概念，我们可以很容易地增加段数，以更好地重建输入，反之亦然。注意，渲染操作通常是不可微的，使得难以在目标光栅图像的唯一监督下直接优化路径。为了解决这个难题，我们利用[14]中的可微分渲染器。算法1显示了整个管道。简要地说，我们首先介绍了一个组件明智的初始化方法，选择的主要组件作为初始化点。然后，我们运行递归流水线，逐步添加n个路径ac-输出：可缩放矢量图形SVG {P，C}。根据路径号调度器序列N。对于每一步，我们基于一些新提出的目标函数优化图，包括无符号距离引导焦点（UDF）损失和自交叉（Xing）损失，以获得关于重建质量和自交互问题的更好的优化结果。除了逐层表示能力之外，我们的方法还能够使用最少数量的贝塞尔路径来重建图像，与其他方法相比，大大更多详细信息将在以下章节中介绍。3.2. 组件路径初始化发现在LIVE中，贝塞尔曲线的初始化是一个关键问题错误的初始化将导致拓扑提取失败并生成冗余形状。为了克服这一缺陷，我们引入了组件路径初始化，这极大地帮助了优化过程。组件式路径初始化的设计原理是基于每个组件的颜色和大小来识别最合适的路径初始位置。一个组件是具有均匀填充颜色的一个连接区域。正如我们前面提到的，LIVE是一个渐进式的学习管道。鉴于前几个阶段的SVG输出，我们优先考虑下一个学习目标，以便组件既大又缺失。我们证明这种成分通过以下步骤：a）我们计算当前渲染的SVG和地面实况图像之间的11像素色差。b）我们拒绝小于预设阈值cα的色差。根据经验，cα= 0。1在1163172Σ1w h表示图像大小。MSE损失对于图像比较是简单而有效的，但是它将偏向于LUDF=3j=1ΣJ我的天3我们的报纸色差小于cα的像素区域被视为正确渲染。c）对于其他区域，我们将所有大于cα的有效色差值相等地量化到200个箱中。量化是近似均匀分布的。d）最后，我们基于量化来识别最大的连通分量，然后我们使用其质心作为我们的下一个路径初始位置。如果我们想再增加K条路径，那么我们选择前K个组件进行下一阶段的初始化。请注意，对于每条路径，我们考虑圆初始化方法，即所有控制点在圆上均匀初始化[24]。经验上，这种简单的策略有助于缓解优化过程，并被证明是有帮助的。我们的组件路径初始化的优点是，它保持了一个很好的平衡之间的颜色和丢失区域的大小。与DiffVG[14]和Neu- ral Painting [38]不同，前者随机绘制RGB（244，196，72）RGB（225，179，83）RGB（244，197，87）RGB（93，134，194）RGB（108，126，152）RGB（86，132，194）目标MSE损失自定义项损失目标MSE损失自定义项损失路径和后来的基于MSE的笔画，我们的方法侧重于语义影响组件，Iter 1Iter 50 Iter. 100 Iter。150 Iter. 200与RGB值无关。在向现有图形添加新路径时，我们的初始化方法总是可以识别具有相似颜色的最大缺失组件，并填充主要区域。3.3. 损失函数3.3.1重建自定义项损失在以前的工作[14，24，25]中，一个常用的损失函数，以尽量减少目标图像I∈Rw×h×3，渲染输出I∈Rw×h×3是平均值平方误差（MSE）<$I-I<$，其中3表示RGB，×图2. 顶线显示UDF损失和学习第一条路径时的MSE损失MSE损失偏向于目标图像的平均颜色，而我们的UDF损失保留了目标形状的颜色。最好用彩色观看。底部框呈现了第一路径的UDF损耗优化过程的示例。为了更好的可视化，我们将所有值规范化为[0，1]的范围颜色越深（灰色或红色）表示值越高。其中i和j都是像素的索引，并且τ是距离阈值。我们默认设置τ等于10。接下来，我们将无符号距离引导的焦点损失公式化为迪伊、（二）¨ ¨2w×h。Σ2i=1c=1整个目标图像的平均颜色，如图2所示。这种现象是因为MSE是使用所有可用像素，而不是所有像素都与优化路径相关。因此，鼓励我们只关注有效像素，忽略不相关的像素。为了解决这个问题，我们引入了无符号距离引导的焦点（UDF）损失，它根据到形状轮廓的距离不同地处理每个像素。直观地说，UDF损失强调了轮廓附近的差异，并抑制了其他位置的差异通过这样做，LIVE保护其自身免受MSE不失一般性，我们制定我们的UDF损失假设的情况下，一个单一的路径。我们渲染路径并计算每个像素到路径表示的有符号距离。由di，i∈ {1，...，h×w}。然后，我们对无符号距离进行阈值化、翻转和归一化|Di|签署人：d′=ReLU（τ−|Di|）），（1）× ReLU（τ−|D|））其中i索引I中的像素，c索引RGB变化。内尔借助UDF损失，我们能够密切关注路径轮廓，避免来自内部或远处区域的影响图2示出了无符号距离引导的焦点丢失的学习为了在我们的LIVE框架中支持多路径，我们可以通过对所有路径上的d′i求平均来容易地扩展等式23.3.2自我互动问题我们注意到，在优化过程中，一些贝塞尔路径可能会自我交互，导致有害的伪影和不正确的拓扑结构[24，36]。虽然可能期望额外的路径可以覆盖人工制品，但我们强调这将使生成的SVG复杂化，并且不能有效地探索底层的拓扑信息。为此，我们引入自交互（Xing）损失来缓解这个问题.假设本文中的所有bézier曲线都是三阶曲线，通过分析一些优化形状，我们发现，输出自定义项权MSE自定义Ii，c−Ii，c116318×¨ ¨ ¨¨≤×±·.Σ图4.来自PICKJI数据集和PICS数据集的示例。图3.自我互动问题的说明。左上角的一对显示了一个具有自交互作用的圆和其辅助控制点之间的线。右上角的一对显示了一个没有自我交互的形状。底线说明了我们的邢损失。在三次贝塞尔曲线中，我们鼓励第一个（A<$ B）和最后一个（C<$ D）控制点连接之间的角度（θ）大于180°。一条自我交互的路径总是与其控制点的线相交，反之亦然。图3显示了示例。这表明，一个潜在的解决方案不是优化贝塞尔假设三次贝塞尔曲线的控制点依次为A、B、C和D，我们添加一个控制点，限制−A−→B和−C−→D之间的夹角（图中的θ应大于180◦。我们首先通过下式确定θABC的特性（锐角或钝角）为D1，sin（θ）的值为D2：可以作为评估的基准。在本文中，我们在两个数据集上测试了我们的模型，一个主要收集来自[1]的表情符号子集的Emoji数据集和一个收集来自不同领域的图像的Pics图4展示了Emoji和Pics数据集的一些示例。集。我们从NotoEmoji项目中收集了134种不同形状、颜色和组合的表情符号[1]。虽然在这个项目中给出了各种字体和图标，但我们主要收集笑脸图像，并将所有收集到的图像重新调整大小为240 240的分辨率。与[24]中使用的表情符号相比，我们的表情符号数据集包含更多的图像，并呈现出更多的多样性。由于[1]中的图像相对简单并且呈现清晰的拓扑信息，因此我们主要使用该数据集来评估逐层表示的探索。Pics数据集除了Pics数据集，我们还介绍了Pics数据集，它包含153个图像，包括字体，图标和复杂的剪贴画图像。与Pizzji数据集相比，Pics数据集更加复杂，D 1= I.A<$ B×B<$ C<$，D2=AB×CDA BCD 、（3）对图像矢量化具有挑战性。此外，Pics数据集中的一些图像背景各异，进一步增加了矢量化的难度.我们主要使用其中，I（）是返回1（如果D1>0）或0(ifD10）是返回实值的向量产生式然后我们将我们的Xing损失公式化为L Xing = D1（ReLU（−D2））+（1 − D1）（ReLU（D2））。（四）公式4的基本思想是，我们只优化θ<180=0的情况（通过ReLU（D2）实现）。第一项设计用于情况D1=1，第二项设计用于情况D1= 0。将UDF损失和Xing损失，我们的最终损失函数L由下式给出：L=LUDF+λLXing，（5）其中λ根据经验被设置为0.01以平衡两个损失。3.4. 数据集现有的矢量图形数据集[3，16]主要集中在字体或图标的生成上，但没有探索更广泛此外，没有测试集该数据集用于检查逐层建模和具有较少路径的紧凑SVG。请注意，我们的LIVE是一种无模型方法，两个数据集都只用于评估。除了这两个数据集之外，我们还对一些真实照片进行了LIVE评估。3.5. 实现细节我们在PyTorch中实现了LIVE [22]，并使用Adam优化器对其进行优化[12]，点和颜色优化的学习率分别为1和0.01默认情况下，我们在实验中为每条路径使用四段圆半径设置为5像素，用于圆初始化。对于每个优化步骤，所有参数都经过500次迭代训练。由于我们的方法是逐步向画布添加新路径，因此每一步中新路径的数量是灵活的。考虑到效率和矢量化质量，我们将第i步优化中的路径数设置为min2i-1，32。其他数字设置策略也可以，比如每次添加一条路径或自定义设置。BBCQCCQC一D��180度，公关互动。一个是自我，一θ≥180°，D 倾向于凸。PicsEmoji116319东京都松原市0.010.0080.0060.0040.002MSE on Pics零点零一六0.0120.0080.00408 16 3264路径数032 64 128 256路径数输入N=4 N = 20 N = 4N =20Im2Vec DiffVG LIVE图6. MSEvs.路径号在Pickji数据集和Pics数据集上。我们的LIVE实现了比Dif- fVG更好的重建结果，特别是当路径数较小时。图5.定性重建比较。我们使用不同数量的路径将LIVE与Im2Vec和DiffVG进行我们选择四个路径（每个图像中的组件数量）和20个路径（Im2Vec中的默认值）进行比较。直观地说，LIVE只使用四条路径就可以达到完美的效果，更多的路径不会降低性能。4. 实验4.1. 矢量化质量我们首先通过定量和定性分析来评估LIVE定性比较。图5显示了与先前最先进方法（包括DiffVG[14]和Im2Vec [24]）的视觉比较。为了公平起见，我们将路径的数量设置为4（这些表情符号中的组件数量）和20（Im2Vec中的默认设置）进行评估。显然，我们的LIVE实现了更忠实的再现，具有更好的组件形状和颜色，而其他人可能仍然有其他文物。因此，所提出的LIVE更好地解释了不同部件的几何形状。更多的结果在补充材料中。定量结果。接下来，我们将矢量化的结果，在Pizzji和Pics数据集。对于公平竞争，段数被设置为4，作为DiffVG中的默认设置。为了展示LIVE可以用最少的路径重建一个图像，我们将简单的Pizzji数据集的路径数从8改变到64，将复杂的Pics数据集的路径数从32改变到256为了比较，我们计算整个数据集的每个图像的MSE。图6中报告了在PICKJI和PICS基准测试上的结果。显然，LIVE比DiffVG显示出低得多的MSE，特别是当路径数很小时。当只有几条路径时，LIVE能够拟合所需的形状，从而获得更好的结果。增加过度图7.emoji和剪贴画图像的分层表示的插图当视觉线索易于建模时，LIVE可以直接对每个单独的组件进行建模，从而呈现出合理而清晰的分层表示。路径将使矢量化性能饱和。4.2. 分层表示除了矢量化的质量和效率，LIVE的主要目标是建立一个分层表示。从经验上讲，LIVE能够明确地对每个单独的视觉概念进行矢量化，并探索简单图像（如表情符号和简单剪贴画）的分层表示。我们在图7中展示了LIVE的逐层表示能力。如图所示，每个组件都被清楚地学习为单个贝塞尔路径。与利用分割预处理或使用丰富路径的矢量在图 9 中，我们比较了 LIVE 和DiffVG在Jobji基准测试上的向量化结果。对于像照片和自然图像这样的复杂图像，拓扑线索相对难以建模。然而，LIVE仍然表现出令人满意的在相同的路径数下，LIVE更有可能实现更好的重建性能。此外，我们注意到，LIVE对本地信息的建模比其他模型好得多，如红框所示。这可以通过我们的渐进学习和初始化方法来解释。在每一步中，LIVE都鼓励新的路径适合当地的细节。虽然以前的路径已经成功地重建了主上下文，但新添加的路径将只关注ini-DiffVGLIVEDiffVG116320栅格输入N=4 N=16N=32N=64 N=196栅格输入人数：32人64人128人256人512人图8.我们展示了DiffVG [14]，神经绘画[38]和我们的LIVE在不同路径/笔画数下的结果。这两张图像分别取自Pics数据集和[38]的测试图像。请注意，神经绘画不仅仅是为重建而设计的。我们仍然在视觉上与它进行比较，因为它的渐进式学习方式与我们的LIVE相似我们使用红框来强调差异。请放大查看详细信息。更多的结果将在补充材料中介绍。光栅输入SVG输出（从1到8个路径）图9.DiffVG和LIVE的矢量化结果LIVE明确地矢量化了每个视觉概念，没有任何冗余和伪影。蓝色框表示何时LIVE矢量化所有概念，并且添加更多路径不会损坏结果。通过执行UDF损失来优化本地区域。一项全面的用户研究也证明了LIVE的优越性（请参阅补充材料）。4.3. 插值在现有的矢量化方法中，一些基于VAE的方法探索了插值的应用[3，16，24]。即使我们的LIVE也不是基于VAE模型，我们图10.两个插值的例子。顶部两行显示了在两个生成的SVG之间线性插值贝塞尔控制点的结果下面两行显示了组合LIVE和简单VAE的结果。灰色框标记输入光栅图像。中间的图像表示插值。通过与基于vanilla光栅图像的VAE模型的集成，可以很容易地实现插值在实现VAE插值之前，我们首先进行一个有趣的插值实验：给定两个由LIVE生成的语义相似的SVG，我们直接线性插值每个有序路径的控制点。通常，两个SVG很难插值，因为DiffVG LIVEDiffVG LIVE生活DiffVG LIVE画家DiffVG生活画家DiffVG116321无兴失有兴失Circle随机初始化图12.说明兴损的功效。每个三元组显示生成的SVG、细节和脸部的笔画通过增加Xing损失，我们大大减轻了自相互作用问题。请放大查看详细信息。图11.不同初始化方法的示例。对于每个三元组，我们显示初始化（第一列）、输出（第二列）和细节（第三列）。放大查看更好。形状和控制点的无序。相比之下，我们的LIVE不会受到这个问题，因为优化后的有序拓扑结构。从经验上讲，即使使用线性控制点的简单插值，LIVE仍然呈现出合理的结果，如图10所示。接下来，我们将我们的方法与VAE模型相结合。我们在MNIST数据集上训练了一个简单的VAE模型。然后，随机选取两幅图像，对这两幅图像的隐向量进行线性插值，得到插值图像，并使用LIVE算法对插值图像序列进行矢量化。为了形成一个连续的序列，我们将前一个结果视为下一个样本的初始化。图10中的结果表明，结合vanilla VAE模型，我们的方法也适用于插值。由于LIVE具有高效的优化方法和强大的泛化能力，当与强大的图像生成模型相结合时，LIVE可以更实用地实现插值目标4.4. 消融研究画圈。我们首先研究控制点初始化的有效性。图11比较了循环初始化和随机初始化。显然，圆初始化与随机初始化相比显著减少了伪影。此外，我们注意到圆初始化更有可能实现更好的向量化结果，如第一行所示。其原因是通过圆形初始化控制点，使闭合路径强制为凸形，从而得到更好的优化结果。邢损失。为了了解所提出的Xing损失的有效性，我们进行了一项消融研究，以通过图12中的可视化来研究Xing损失的影响。借助Xing损失，我们在相同的优化条件下明显减轻了自相互作用的给定控制点上的约束，圆形状往往不相交结果表明，提出的Xing损失是一个直观、简单但有效的目标函数，用于缓解自相交问题。更多结果将在补充材料中提供。4.5. 讨论限制和未来的工作。LIVE提供了一个逐层矢量化的结果，它可以用于进一步的零件创建或其他应用。不过，还有一些问题我们可以讨论。首先，逐层操作不如单遍优化有效。一些其他方法也遭受这个问题[38]。一个有趣的研究方向是如何将深度模型的高效推理与基于优化的方法的泛化能力结合起来。其次，引入梯度颜色，自适应地选择每一段的段数和颜色类型将是值得探索的。第三，对于更复杂的图像，如风景或人体照片，将逐层矢量化与像素空间中的深度非模态分割相结合将是一个有趣的话题。我们把这些留给未来的作品。潜在的负面影响。图像到矢量技术可能会被滥用，非法转换和复制在线矢量图形资源，特别是容易重复使用和修改的字体或其他图像。为了减轻这些错误，可以通过在光栅图像上使用水印来保护图的版权。此外，虽然我们的论文实现了合理的逐层建模的图像，从光栅图像转换的结果仍然可以区分，通过检查每个组件是否足够完整这些行动将避免类似算法的滥用。5. 结论在这项工作中，我们提出了分层图像矢量化（LIVE），一个框架，配备图像矢量化与分层表示。LIVE在组件路径初始化和新损失函数的帮助下逐步推断输入的光栅图像：用于矢量化的UDF损失和用于减轻自交互问题的Xing损失。使用LIVE，我们可以显式地矢量化简单表情符号或剪贴画的各个组件，并研究复杂自然图像的为了简化图像矢量化的评估，我们还提出了两个数据集，Emoji和Pics。除了图像矢量化，LIVE还可以与其他方法集成，以探索其他应用，如插值。116322引用[1] 注意表情符号。https://github.com/googlefonts/noto-emoji.访问时间：2021-09-30。5[2] 朱尔斯 · 布卢门撒尔和肯 · 苏梅克卷积曲面。在Proceedings of the 18th annual conference on Computergraphics and interactive techniques，pages 2512[3] Alexandre Carlier，Martin Danelljan，Alexandre Alahi，and Radu Timofte. Deepsvg：矢量图形动画的分层生成网络。arXiv预印本arXiv：2007.11301，2020。二三五七[4] 罗伯特·库克。计算机图形学中的随机抽样。ACM Transactions on Graphics（TOG），5（1）：512[5] 詹姆斯·理查德·迪贝尔贝叶斯图像矢量化：矢量图像光栅化的概率反演。斯坦福大学，2008年。2[6] Mark AZ Dippe和Erling Henry Wold通过随机采样进行抗锯齿。在Proceedings of the 12th annual conference onComputer graphics and interactive techniques，pages 69-78，1985中。2[7] Vage Egiazarian ， Oleg Voynov ， Alexey Artemov ，Denis Zohonskiy，Aleksandr Safin，Maria Taktasheva，Denis Zorin，and Evgeny Burnaev.技术图纸的深度矢量化。欧洲计算机视觉会议，第582-598页。Springer，2020年。2[8] Jean-Dominique Favreau ， Florent Lafarge ， and AdrienBousseau. Photo2clipart：使用分层线性梯度的图像抽象和矢量化。ACM Transactions on Graphics（TOG），36（6）：1-11，2017。二、三[9] Francisco Ganacim，Rodolfo S Lima，Luiz Henrique deFigueiredo，and Diego Nehab.大规模并行矢量图形。ACM Transactions on Graphics（TOG），33（6）：1-14，2014. 2[10] David Ha和Douglas Eck。草图的神经表征。 arXiv预印本arXiv：1704.03477，2017。2[11] 马克·J·基尔加德和杰夫·博尔兹。GPU加速路径绘制。ACM Transactions on Graphics（TOG），31（6）：1-10，2012。2[12] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。2015年，国际会议。5[13] 格雷戈里·莱科特和布鲁诺·利维。Ardeco：自动区域检测和转换。在第17届欧洲图形研讨会上渲染-EGSR2[14] Tzu-MaoLi ， MichalLuka'cˇ ， MichaeülGharbi ，andJonathanRagan-Kelley.用于编辑和学习的可微分矢量图形光栅化。ACM Transactions on Graphics（TOG），39（6）：1-15，2020。二三四六七[15] Songhua Liu ， Tianwei Lin ， Dongliang He ， Fu Li ，Ruifeng Deng，Xin Li，Errui Ding，and Hao Wang.油漆变换器：前馈神经绘画与中风预测.在IEEE/CVF计算机视觉国际会议论文集，第6598-6607页，2021年。2[16] Raphael Gontijo Lopes，David Ha，Douglas Eck，andJonathon Shlens. 一个可扩展矢量图形的学习表示。IEEE/CVF国际会议116323计算机视觉会议，第7930-7939页，2019年。二、五、七[17] Raphael Gontijo Lopes，David Ha，Douglas Eck，andJonathon Shlens.一个可扩展矢量图形的学习表示。在IEEE/CVF计算机视觉国际会议论文集，第7930-7939页，2019年。2[18] 乔赛亚·曼森和斯科特·谢弗小波光栅化。在计算机图形论坛，第30卷，第395Wiley Online Library，2011. 2[19] 迭戈·尼哈布和雨果·霍普通用矢量图形的随机存取ACM Transactions on Graphics（TOG），27（5）：1-10，2008. 2[20] Peter Nilsson和David Reveman。使用opengl硬件加速图像合成。InProc of Usenix，vol-2004. 2[21] Al e xandr i naOrzan，AdrienBousseau，HolgerWinnemoüller ， PascalBarla ， JoeülleThollot ， andDavidSalesin. 融合曲线：平滑阴影图像的矢量表示。ACM Transactions on Graphics（TOG），27（3）：12[22] Adam Paszke ， Sam Gross ， Francisco Massa ， AdamLerer ， James Bradbury ， Gregory Chanan ， TrevorKilleen ， Zeming Lin ， Natalia Gimelshein ， LucaAntiga，et al.Pytorch：一个操作风格的高性能深度学习库。神经信息处理系统的进展，32：8026- 8037，2019。5[23] 安托万·昆特可缩放矢量图形。IEEE MultiMedia，10（3）：99-102，2003年。1[24] Pradyumna Reddy ， Michael Gharbi ， Michal Lukac ，and Niloy J Mitra.Im2vec：合成矢量图形，无需矢量监督。在IEEE/CVF计算机视觉和模式识别会议论文集，第7342-7351页二三四五六七[25] Pradyumna Reddy ， Zhifei Zhang ， Matthew Fisher ，Hailin Jin，Zhaowen Wang，and Niloy J Mitra.字体的多隐式神经表示。 arXiv 预印本 arXiv ： 2106.06866 ，2021。二、四[26] 奥斯本·雷诺兹宇宙的次级力学，第三卷。北京大学出版社，1903年. 2[27] LeoSampaioFerrazRibeiro ， TuBui ， JohnCollomosse，and Moacir Ponti. Sketchformer：基于变换器的草图结构表示。在IEEE/CVF计算机视觉和模式识别会议论文集，第14153-14162页，2020年。2[28] 彼得·塞林格。Potrace：一个基于多边形的跟踪算法。Potrace （ online ）， http ： //potrace. sourceforgenet/potrace. pdf（2009-07-01），2，2003. 2[29] 沈超和陈冰玉Clipgen：一个用于剪贴画矢量化和合成的深度 IEEE Trans- actions on Visualization andComputer Graphics，2021。二、三[30] Wataru Shimoda，Daichi Haraguchi，Seiichi Uchida，and Kota Yamaguchi.去渲染程式化文本。在IEEE/CVF计算机视觉国际会议论文集，第1076-1085页，2021年。3[31] 孙建林亮方文沈香扬使用优化梯度网格的图像矢量化。 ACM Transactions on Graphics （ TOG ）， 26（3）：11-es，2007。2116324[32] 丹尼尔·赛科拉，扬·布里·阿内克，和吉尔·扎·阿拉。通过实例说明了Sk蚀刻的原理SBM，第27-33页，2005年。2[33] DanielSy`kora，JanBuri a` nek，andJi r'Za`ra. 视频编解码器的经典卡通动画与硬件加速播放。在 InternationalSymposium on Visual Computing，第43-50页Springer，2005年。2[34] 田夏，廖彬彬，余益州。自动曲线特征对齐的基于块的图像矢量化。ACM Transactions on Graphics（TOG），28（5）：12[35] GuofuXie ， Xin Sun ， XinTong ， and DerekNowrouzezahrai.用于精确自动图像矢量化的分级扩散曲线。 ACM Transactions on Graphics （ TOG ）， 33（6）：1-11，2014。2[36] Ming Yang, Hongyang Chao, Chi Zhang, Jun Guo, Lu Yuan,and Jian Sun.通过直接优化Bezigons实现有效的剪贴画图像矢量化。 IEEE transactions

下载后可阅读完整内容，剩余1页未读，立即下载