基于距离场的参数化形状预测方法

105 浏览量更新于2023-10-24 收藏 1.56MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于距离场德米特里·斯米尔诺夫1马修·费舍尔2弗拉基米尔·G.Kim2 Richard Zhang2 Justin Solomon11麻省理工学院2Adobe Research摘要过采样欠采样图形和视觉中的许多任务需要机器将形状转换为具有稀疏参数集的一致表示;这些表示便于呈现、编辑和存储。然而，当源数据是嘈杂的或模糊的时，艺术家和工程师通常（一）均匀倒角拉齐（b）第（1）款手动构造这样的表示，这是一个冗长且可能耗时的过程。虽然深度学习的进步已经成功地应用于有噪声的几何数据，但到目前为止，这些方法很难生成参数化形状。因此，我们提出了一个新的框架，用于使用深度学习预测参数化形状基元我们使用距离场在形状参数（如控制点和像素网格上的输入数据）之间进行转换。我们证明了2D和3D任务的有效性，包括字体矢量化和表面抽象。1. 介绍参数化图形的创建、修改和渲染（如矢量图形）是工程师、艺术家、动画师和设计师感兴趣的基本这种表示提供了明显的优势。通过将形状表示为图元的集合，我们可以轻松地应用变换并以任意分辨率渲染，同时仅存储稀疏表示。此外，生成跨输入一致的参数表示使我们能够学习共同的底层结构并估计形状之间的对应关系，从而促进用于检索、探索、风格/结构转换等的工具。从不直接对应于目标几何图元且包含缺陷或缺失零件的数据生成参数化模型通常很有用。这可能是噪声、损坏或人为输入的伪影;艺术家往往想创造一个精确的几何物体，但却产生了一个“粗略”和模糊的物体。因此，我们转向机器学习方法，这些方法在从噪声数据中推断结构方面取得了成功。卷积神经网络（CNN）在图像分类[22]、分割[25]和图像到图像转换[19]等视觉任务中实现了最先进的结果。然而，CNN对光栅表示进行操作图1：倒角距离的缺点（上图）由我们的损失（下图）固定。在（a）中，在贝塞尔曲线（橙色）的参数空间中均匀采样会在高曲率区域产生过采样我们的方法产生一个空间均匀的表示。在（b）中，两组接近正交的线段具有接近零的倒角距离，尽管法线未对齐。我们明确地测量正常对齐。网格结构基本上内置于卷积中，作为信息在网络层之间传输利用此结构来优化GPU性能。最近输出矢量形状描述的深度学习管道比用于光栅图像或体素化体积上的类似任务的管道明显不太成功。将深度学习应用于参数几何的一个挑战是欧拉和拉格朗日表示的组合。CNN以欧拉方式处理数据，将固定操作应用于密集网格;欧拉形状表示（如指示函数）作为固定网格上的值出现。另一方面，参数化形状使用稀疏的参数集（如控制点）来表示几何体。与静止的欧拉网格相反，这种拉格朗日表示随形状移动在欧拉几何和拉格朗日几何之间进行调解是上述问题的任何学习管道的关键，我们详细考虑了这一任务。我们提出了一个学习框架，用于预测参数的形状，解决上述问题。通过在训练期间分析计算到基元的距离场，我们制定了倒角距离的欧拉版本，这是几何相似性的常见度量[41，12，24，17]。我们的度量不需要来自预测或目标形状的样本，从而消除了由于不均匀采样而出现的伪影此外，我们的距离场允许对特定几何质量（如对齐）敏感的交替损失函数。我们说明了我们的优势，561倒角Ψsurf562方法在图1中的倒角距离。我们将我们的2D新框架应用于不同的字体数据集，训练一个网络，该网络接收一个字体的光栅图像，并输出一组贝塞尔曲线。这有效地将字形映射到可以直观地遍历的公共参数集我们使用这种嵌入在完全自我监督的环境中进行字体探索和检索，通信和插值，而不需要人工标记或注释。我们还证明了我们的方法在3D中有效。使用曲面图元代替曲线，我们在ShapeNet [7]上执行抽象我们的方法可以产生一致的形状分割，优于国家的最先进的深长方体拟合的Tulsiani等人。[41]关于语义分割。捐款. 我们提出了一种用于从2D和3D光栅数据预测参数形状的技术，包括：• 通用距离场损失函数，其基于共同公式激励若干自监督损失;• 应用于2D字体矢量化，应用于对应、探索、检索和修复;• 应用到3D表面抽象，与不同的图元和建设性的立体几何（CSG）的结果，以及应用到分割。2. 相关工作深度形状重建。从一个或多个视角重建几何形状在机器人和自动驾驶等应用中至关重要[13，35，38]。最近的深度网络可以在给定单个图像的情况下产生点云或体素占用网格[12，8]，但它们的输出受到固定分辨率的影响。学习在体素网格上定义的带符号距离场[9，37]或直接[30]允许高分辨率渲染，但需要表面提取;这种表示既不是稀疏的也不是模块化的。Liao等人通过以下方式解决渲染问题工具. 某些几何特征将字体中的字母彼此区分开，而另一些几何特征将字体彼此区分开。由于这些困难和大型字体数据集的存在，字体探索，设计和检索已经成为图形和学习中具有挑战性的问题。以前的探索方法通过众包属性对字体进行分类和组织[28]或将字体嵌入到一个流形使用纯粹的几何特征[6，2]。相反，我们利用深度矢量化来自动为每个节点生成稀疏表示这使得explo-基于一般形状而不是细节的定量。自动字体生成方法通常分为两类。基于规则的方法[40，32]使用工程分解和重新组装的字形成部分。深度学习方法[1，43]产生光栅图像，分辨率有限，并且可能出现基于图像的伪影，使其不适合用作字形。我们应用我们的方法来编辑现有的字体，同时保留矢量结构，并演示从嘈杂的部分数据的字形的矢量化参数化形状集合。随着公开可用的3D模型数量的增长，组织、分类和探索模型的方法变得至关重要。许多方法将模型分解为模块化参数组件，通常依赖于预先指定的模板或特定部件的标记集合[20，36，29]。这种形状集合在设计和制造中的特定领域应用中证明是有用的[34，42]。我们的深度学习管道允许生成参数化形状来执行这些任务。它在测试时快速处理新的输入，并且是通用的，可以在没有监督的情况下处理各种模式，并产生不同的输出类型。3. 预赛设A，B<$Rn是两个可测形状. 设X和Y是从A和B均匀采样的两个点集。X和Y之间的有向倒角距离为将行进立方体合并到可微分管道中，但稀疏性的缺乏仍然是个问题，1Chdir（X，Y）=Σ minx−y2，（1）形状仍然在体素网格上[23]。|X| x∈X y∈Y2参数化形状提供了一种稀疏的、非体素化的解决方案。将点云转换为几何图元的方法可以获得高质量的结果，但需要监督，要么依赖于现有的标记数据[27，26，15]，要么依赖于规定的模板[14]。Groueix等人在任何分辨率下输出原语，但它们的原语不是自然参数化的或稀疏表示的[17]。热那亚等等人提出将几何表示为轴对齐高斯的等值面[16]。其他人[17，39，31]开发定制的原语，但使用标准的，对称倒角距离定义为：Ch（X，Y）=Chdir（X，Y）+Chdir（Y，X）.（二）这些在[5]中被提出用于计算应用，并且已被用作评估学习形状与学习中的地面实况的相似性的损失函数[41，12，24，17]。为了将我们提出的损失与倒角距离联系起来，我们精细变分有向倒角距离∫dard倒角距离作为损失目标。我们证明Chvar（A，B）=1inf<$x−y<$2dV（x），（3）并解决倒角距离中固有的问题。dir（A）Ay∈B2字体探索和操作。使用通用矢量图形设计甚至查找字体可能会很繁琐563具有变分对称倒角距离Ch（A，B）var类似地定义，将（1）和（2）扩展到平滑对象。564dspr冲浪Ψ甲乙丙Ψ一如果点是均匀采样的，在相对较弱的假设下，Ch（X，Y）→0当且仅当A=B时，随着样本数量的增加，使其成为合理的然而，倒角距离具有基本缺点：• 它高度依赖于采样点，并且对非均匀采样敏感，如图1a所示。…独热矢量128x128图像64x64x64F模板损失d• 它对正常对齐是不可知的如图1b所示，一组密集的垂直线和一组密集的水平线之间的Cham- fer距离接近于零。• 计算起来很慢对于从A采样的每个x，有必要找到从B采样的最接近的y，简单地实现时是一个二次运算。高效结构像k-d树这样的树不太适合GPU。距离场ResNet18充分连接图2：我们的流水线概述-字体矢量化（绿色）和3D抽象（橙色）。命题1A，B之间的对称变分Chamfer距离等于A，B之间的表面损失var我们的方法没有这些缺点。和B，即，Ch（A，B）=L表面甲乙丙4. 方法我们介绍了一个框架，制定损失函数适用于学习参数形状在2D和3D;我们的公式不仅推广了倒角距离，而且还导致了更强的损失函数，从而提高了各种任务的性能。我们首先定义了一个一般的距离场损失，并提出了两个具体的损失。4.1. 一般距离场损耗G iv enA，B<$Rn，设dA，dB：Rn→R+分别度量Rn 中每一点到 A 和 B 的距离， dA （ x ）：=infy∈A<$x−y<$2。在我们的实验中，n∈{2，3}。设S <$Rn是一个有界集，A，B <$S. 我们将一般距离场损失定义为与Chamfer距离不同，我们的表面损失的离散版本可以有效地近似，而无需通过规则网格上的评估从参数或目标形状中采样点，如我们在§4.4中所示。4.3. 法向对准损失我们将正常对齐差异定义为align（x）= 1 −（七）最小化falign将预测图元的法线与目标图元的法线对齐根据图1 b，如果A包含密集的垂直线，B包含水平线，则L对齐0，而Ch（A，B）对齐0。甲乙丙1L[A，B]=（S）∫x∈SA，B（x）dV（x），（4）4.4. 最终损失函数一般的距离场损失和建议的差异措施是可微的w.r.t.形状参数Φ，对于某种程度的差异，注意我们代表A和B仅由它们各自的距离函数，损失是在S上计算的。设Φ∈Rp是定义形状SΦ<$Rn的参数的集合。F或实例，如果SΦ由Be′zier组成只要dSΦ可微Φ。因此，它们非常适合通过深度网络预测参数形状来优化。我们通过Monte Carlo积分近似（4）：曲线，Φ包含控制点列表。给定一个目标形状TRn，我们制定拟合参数形状近似Tw.r.t.极小化fφ（Φ）=Lφ[SΦ，T].（五）1L[A，B]|G|其中G是2D或3D网格。Σx∈GA、B（x）、（8）F或最佳形状参数，Φf=argminΦff（Φ）。我们提出了两种偏差度量，给出了损失函数捕捉不同的几何特征。4.2.表面损失我们将表面差异定义为S（x）=δ{ker d2}（x）d2（x）+δ{ker d2}（x）d2（x）（6）虽然我们使用体素网格网格来计算积分，在我们的损失函数中，体素网格的分辨率仅影响正交，而不限制我们的表示的分辨率网格决定了我们如何对距离值进行采样;这些值本身是从连续的参数表示导出的。几何体中的小的子体素变化将影响多个离散体素处的距离值此属性与仅甲乙丙A B B A考虑形状的占用网格-3D基元Bézier曲线565其中δ{X}是在X上一致定义的狄拉克δ，kerf表示f的零水平集。如果形状不匹配，则将其设置为对局部几何体敏感，则将其设置为0这种表示受到网格分辨率的严格限制对于Risksurf，我们使用Smootherstep（1−d2/γ2）（Smootherstep的定义如[11]中所述）作为566一i=1γi=1我δ{kerd2}来评估网格上的表达式并避免不连续性，从而在我们的优化中实现平滑梯度。我们将γ设为体素直径的两倍。对于梯度对齐，我们使用有限差分近似梯度。我们最小化f=fsurf+αalignfalign，确定图3：带有预测边界曲线的字形，用预测的笔画粗细渲染。网络会使曲线变粗，以反映网格边界处的风格细节。αalign= 0。01，所有实验使用交叉验证。4.5. 网络架构与培训该网络以128×128图像或64×64×64距离场作为输入，并输出参数化形状。我们使用ResNet- 18 [ 18 ]架构将输入编码到R256潜在空间。然后，我们使用一个具有256个单元和ReLU非线性的全连接层，然后是一个单元数量等于目标参数化维度的全连接层。我们通过sigmoid传递输出，并根据预测的参数对其进行重新缩放我们的流水线如图2所示。我们在一个TeslaGeForce GTX Titan X GPU 上训练每个网络大约一天，使用Adam [21]，学习率为10−4，批量大小为2D32，3D 165. 2D：字体探索和操作我们证明了我们的方法在2D字体矢量化。给定一个光栅图像，我们的网络输出控制点，定义一组近似其轮廓的二次贝塞尔曲线。我们从简单的（非装饰性的）字体中产生然而，从一个具有细粒度细节的装饰性模型中，我们使用少量的贝塞尔素数和一致的结构来恢复模型形状的良好近似这个过程可以解释为投影到一个共同的潜在空间的控制点。我们首先描述我们选择的原语以及计算它们的距离场。我们引入了一种基于模板的方法，使我们的网络能够更好地处理多模态数据（不同的字母），并测试了几个应用程序。5.1. 方法原始人。我们希望使用一个2D参数化的形状表示，它是稀疏的和有表现力的，并允许一个分析距离场。我们的选择是二次贝塞尔曲线（我们称之为曲线），由控制点a，b，c∈R2参数化，定义为γ（t）=（1−t）2a+2（1−t）tb+t2c，0≤t≤1。我们将2D形状表示为(a) 信函模板（a）简单模板图4：字体模板。这些决定了连通性，并初始化预测曲线的位置。因此，计算到单个曲线的距离dγi（p）=2需要找到三次曲线的根[33]，这可以通过解析来完成计算到以下对象的并集的距离：我们取最小值d Φ（p）=minndγ（p）。除了控制点，我们预测中风厚-每一条曲线。当我们通过“提升”预测距离场来计算损失时，我们使用这个参数虽然我们在实验中没有可视化笔划粗细，但这种方法允许网络对曲线进行优化，以更好地匹配高频细丝（见图3）。在我们的距离场表示中，这种增厚是一种简单的操作;基于采样的方法并没有提供一种自然的方法来恢复预测的几何形状。模板我们的训练过程是自我监督的，因为我们没有地面实况曲线注释。为了更好地利用单个网络处理整个数据集的多模态性质，我们用字母标记每个训练示例，作为额外的这允许我们通过将26维one-hot向量连接到输入来对输入类进行条件化，这是一种常见的条件化技术[44]。我们选择一个一个类型为A∈ {A，. . .，Z}是点T∈={p1，. -是的-是的，pn}<$R2n，其具有确定点如何定义曲线的相应连通性由于我们的曲线形成闭合环，因此我们重用端点。对于多个英文字母的边界，有三种连接类型-一个环路（例如， “A”）和三个循环（“B”）。在我们的模板中，由Φ={ai，bi，ci}n参数化的n条曲线3.第一个环有15条曲线，其他环有4条曲线命题2给定一条由a，b，c∈R2参数化的曲线γ和一个点p∈R2，使得γ（t）是曲线上最接近p的点的t∈RB，B（九）+A，a−p=0，其中A=b−a，B=c−2b+a。每个. 我们将展示while字母模板（图4a）尽管我们可以更好地专门化每个模板的边界，但我们仍然可以使用简单的模板获得良好的结果（图4b）。即使没有特定于字母的模板，我们的系统也会学习一致的几何表示，纯粹使用自我监督来建立交叉对应关系。我们使用预定义的模板以及每个训练示例的标签第一，连通性5672用于根据网络输出计算曲线控制点。其次，它们提供了模板损失：Ltemplate （ t ， x ） =αtemplatee （ t/s ） <$T<$−ht（x）<$2，（10）其中s∈Z+，γ∈（0，1），t是迭代次数r，x是输入图像，ht（x）是迭代t时的网络输出。这将对网络输出进行重新排序，使得类型为“”的输入最初映射到模板“”。当这个项衰减时，其他损失项接管。我们设置αtemplate=10和s=500，尽管模板项最初压倒其余损失的其他参数选择也有效。5.2. 实验我们用从近10，000种字体中提取的26个英文字母来训练我们的网络输入是字母的光栅图像，并且预先计算到原始矢量表示的边界的目标距离场消融研究。我们证明了我们的损失在倒角距离上的好处以及我们每个损失项的贡献。虽然有26个独特的模板有助于实现更好的结果，但这并不重要-我们评估了用三个“简单模板”训练的网络模型平均误差完整模型（我们的）0.509无表面项（我们的）1.613无校准术语（我们的）0.642简单模板（我们的）0.641倒角（带字母模板）0.623[17]第十七话5.154表1：我们的完整模型的子集之间的比较以及标准倒角距离和ChampasNet。平均误差是地面实况和均匀采样预测曲线之间的倒角距离（128×128图像上的像素对于倒角损失实验，我们使用与我们的方法相同的超参数，并从源和目标几何体中采样5，000个点。我们将模型输出初始化为完整的字母模板，就像在我们的完整模型中一样。我们还评估了20个无衬线字体，计算我们预测的曲线和地面真实几何之间的Cham- fer距离，均匀采样（表1中的平均误差）。均匀采样是一种计算昂贵且不可微的过程，仅用于后验评估-不适合于训练。虽然它不能纠正倒角距离的所有缺点，但我们将其用作评估质量的基线。我们限制为无衬线字体，因为我们不希望忠实地恢复局部几何。我们的全部损失优于倒角损失，我们的损失条件都是必要的。图5显示了测试集字形的定性结果;其他结果见补充材料。输入完整模型无表面简单模板倒角图5：消融研究和与倒角的比较。在图6中，我们通过量化损失值并绘制每个值的示例数量来证明鲁棒性。高损失离群值通常是由噪声数据引起的-它们要么不是连续的英文字母，要么具有基本上不常见的结构。损失值（x10- 3）图6：每个量化损失值的示例数我们可视化了几个异常值的输入和预测曲线对比一下网络。在MesquasNet [17]中，通过训练隐式解码器来重建几何体，该解码器将单位正方形中的一个点映射到目标表面上的一个点，优化倒角距离。我们修改的MesquasNet系统，我们的任务，并证明我们的方法方法提出了一个更有效的几何表示和损失。RiskasNet将形状表示为已学习的高维空间中的点，这与几何特征没有明显的相关性。因此，与我们的显式表示作为控制点的集合相反，它不便于几何解释。此外，这使得很难施加几何先验-不清楚如何初始化PakasNet到预定义的模板，正如我们在§5.1中所做的那样。568(a) 普通字体字形（b）装饰字体字形图7：各种字形的矢量化。对于每一个，我们显示光栅输入（左上角，黑色）以及叠加的矢量化（彩色曲线）。当输入具有简单结构（a）时，我们恢复精确的向量化。对于具有装饰性细节的字体结果取自测试数据集。我们的方法保留语义对应。同样的曲线始终用于边界，例如，“I”的顶部这些对应关系通过完整和简单的模板在字母之间持续存在-参见，例如，图7a和7b中的图8：与具有闭环起始形状的MesinasNet [17]的比较，我们的简单模板和完整模型。我们只在一个循环中训练（和测试）字母。为了进行公平的比较，我们训练了一个将点从圆的边界（而不是正方形的内部）映射到2D的MesquasNet模型。我们只训练具有单循环拓扑的字母（C，E，F等）。并抽取5,000个样本点因此，该设置与我们消融的简单模板我们在图8中显示了结果。虽然RumasNet恢复了输入的整体结构，但它存在人工制品，自交叉和不精确性，即使使用简单的模板也没有表现出来。很可能，这是由于以下事实，即，CrimasNet表现出§3中确定的倒角距离的缺点，即，非均匀采样和对正常对齐缺乏我们在表1中进行了定量比较。即使基于均匀采样的Chamfer距离度量，我们的方法的性能也优于BifasNet矢量化。对于任何字体的字符串，我们的方法生成一个一致的稀疏向量表示，鲁棒性和准确性描述字符串对于简单的字体，我们的表示是近乎完美的矢量化，如图7a所示。对于装饰字形，我们的方法产生一个有意义的抽象。虽然真正的矢量化将包含许多具有大量连接组件的曲线，但我们简洁地捕获了曲线检索和探索。我们的稀疏表示可用于探索字形空间，对艺术家和设计师有用把控制点看作度量空间，可以进行欧氏最近邻查找，用于字体检索。在图9中，对于每个查询，我们计算它的曲线表示，并在曲线空间中检索七个最近的邻居因为我们的表示捕捉几何结构，我们发现字形结构相似，尽管装饰和风格的差异。我们也可以考虑曲线空间中的一条路径，该路径从一个顶点的曲线开始，到另一个顶点的曲线结束。通过沿着该轨迹采样最近的邻居，我们如图10所示，这为相同的字母生成了有意义的字体集合，并且当开始和结束字形是不同的字母时生成了合理的结果。其他结果见补充材料。图9：曲线空间中一个节点的最近邻，按接近度排序。查询“”是橙色的。在曲线空间中的最近邻查找也可以帮助找到匹配所需几何特征的字体。一个可能的工作流程如图11所示--通过对曲线的增量细化，用户可以快速找到字体。风格和结构的混合。我们的稀疏曲线表示描述了几何结构，忽略了风格和输入完整模型简单模板[第14话]输入[14]第14话最后一句话569GAN生成我们我们的（填充）Adobe IllustratorGAN生成我们我们的（填充）AdobeIllustratorx yz图10：在曲线空间中的字体之间插值。开始和结束分别为橙色和蓝色，并且按顺序显示距离线性插值最近的字形。图11：用户引导的字体探索。每次编辑时，下方都会显示最近的搜索结果。这允许用户通过几何细化来探索数据集。图12：不同字体的A字体我们将每个起始点（橙色）变形为每个目标点（蓝色）的结构装饰细节我们利用它来将具有所需样式的一个对象变形为另一个对象的结构（图12）。我们首先为源和目标字形生成稀疏曲线表示。由于我们的表示使用相同的曲线集，我们可以估计密集的对应关系，并使用它们来扭曲源对象的原始向量，以符合目标对象的形状。对于源上的每个点，我们应用一个平移，该平移是从源曲线中的稀疏曲线控制点到目标曲线中的稀疏曲线控制点的平移的加权和。修复. 我们的系统学习了一个强大的先验知识，使我们能够鲁棒地处理噪声输入。在[1]中，生成对抗网络（GAN）生成新的字形。然而，输出是光栅图像，通常带有噪声和丢失部分。图13显示了我们的方法如何同时矢量化和修复 GAN 生成的字形。与 AdobeIllustrator Live Trace等矢量化工具相比，我们根据学习的先验知识推断丢失的数据，使字形成为字体设计的可用起点。图13：来自[1]的矢量化GAN生成的字体。图14：汉字“你”的矢量化。其他的字形。我们的方法推广到更复杂的输入，而不是简单的英文字形。我们证明了这一点，通过训练模型矢量化的汉字你，这具有显着的几何和拓扑复杂性。我们使用一个大致捕捉字符结构的模板。几种字体的结果如图14所示。6. 3D：体积基元预测我们从各种基元中重建3D表面，这使我们的模型具有表现力，稀疏和抽象。6.1. 方法我们的第一个基元是长方体，由{b，t，q}参数化，其中b=（w，h，d），t∈R3和q∈S4是四元数，即，一个以原点为中心的（中空的）尺寸为2b的矩形棱柱，我们对其应用旋转q，然后平移t。命题3设C是带参数{b，t，q}的长方体，p∈R3是点.那么，p和C之间的符号距离为dC（p）=dmax（d，0）dmax2+ min（max（dx，dy，dz），0），（11）其中rep′=q−1（p−t）q使用Hamilton乘积，D=（|p′|、|p′|、|p′|）-b.受[31]的启发，我们通过引入半径参数r并通过dRC（p）=dC（p）−r计算有符号距离来额外使用圆角长方体。我们的距离场表示是执行CSG布尔运算的能力。由于我们的距离是有符号的，我们可以通过在距离上取最小值来计算到n个基元570图15：使用我们的方法和[41]的方法对测试集椅子进行抽象。图16：测试集飞机的长方体抽象。领域的使用基于采样的方法（如倒角距离优化）时，必须注意避免对不属于外曲面的内部面进行采样。6.2. 实验我们在ShapeNet Core V2 [7]的飞机和椅子类别上进行训练因此，我们的方法是完全自我监督的。表面抽象。在图15中，对于每个ShapeNet椅子，我们展示了我们的长方体抽象，我们的圆形长方体抽象和[41]的抽象。我们在图16中展示了ShapeNet飞机的长方体抽象。我们的每个网络输出16个基元，我们使用[41]的方法丢弃具有高重叠的长方体。由此产生的抽象捕获输入的高级结构。有关其他结果，请参阅补充材料。细分因为我们一致地放置长方体，所以我们可以使用它们进行分割。在[41]之后，我们演示了COSEG椅子数据集。我们首先用一个分割类（座位、靠背、腿）来标记我们的网络（在ShapeNet椅子上训练）预测的每个然后，我们生成数据集中每个椅子的长方体分解，并根据最近的长方体进行分割。我们实现了94.6%的平均准确度，超过了[41]的89.0%准确度。CSG业务。在图17中，我们显示了一个网络的结果，该网络输出八个圆角长方体减去八个圆角长方体的并集的参数对于与此模板兼容的输入目前还不清楚如何使用倒角损失实现无监督CSG预测。7. 结论表示是深度学习的一个关键主题，机器学习更广泛地应用于几何学。什锦图17：测试组椅子CSG抽象。我们预测八个圆形长方体减去八个其他圆形长方体。将形状传送到深网络和从深网络传送形状的手段呈现出效率、质量和适用性之间的不同折衷。虽然在为某些任务选择表示方面已经付出了相当大的努力，但我们考虑的任务对输入和输出有固定的表示使用距离场和导出函数作为中间表示是自然和有效的，不仅在经验上表现良好，而且提供了一种简单的方法来描述几何损失函数。我们的学习过程适用于许多其他任务。自然的下一步是将我们的网络纳入更复杂的管道中，用于复杂图纸的矢量化等任务[3]，为此，学习过程的输出需要与经典技术相结合，以确保平滑，拓扑有效的输出。一个具有挑战性的方向可能是将用户指导纳入训练或评估中，将算法开发为形状重建的伙伴，而不是生成确定性输出。我们的实验为未来的工作提出了几个扩展。我们的方法的主要缺点是封闭形式的距离为原语的虽然有许多原语可以以这种方式合并，但一个富有成效的方向可能是减轻这一要求，例如。通过包含灵活的隐式原语，如元球[4]。我们还可以将更多的布尔运算合并到我们的流水线中，这可以很容易地支持它们使用有符号距离上的代数运算，类似于CAD流水线，以生成具有很少基元的复杂拓扑和几何。确定给定输入的布尔运算的最佳序列的组合问题即使对于干净的数据也特别具有挑战性[10]。最后，将我们的网络整合到生成系统中是可能的算法来创造新的看不见的形状。8. 确认作者感谢陆军研究办公室授予W 911 NF 1710068，空军科学研究办公室授予FA 9550 -19-1-031，国家科学基金会授予IIS-1838071，国家科学基金会研究生研究奖学金的慷慨支持。1122374，来自亚马逊研究奖，来自麻省理工学院- IBM沃森人工智能实验室，来自丰田-CSAIL联合研究中心，来自Adobe Systems的礼物，以及来自Skoltech-MIT下一代计划。输入我们的（四舍五入）我们的（长方体）[第四十届]输入Ours（rounded）Ours（cuboid）[40]571引用[1] Samaneh Azadi ， Matthew Fisher ， Vladimir Kim ，Zhaowen Wang，Eli Shechtman，and Trevor Darrell.多内容甘为少数拍摄字体风格转移。在IEEE计算机视觉和模式识别会议论文集，第11卷，第13页，2018年。二、七[2] 放大图片作者： Elena Balashova ， Amit Bermano ，Vladimir G.Kim，Stephen DiVerdi，Aaron Hertzmann，and Thomas Funkhouser. 学习基于笔划的字体表示。CGF，2018年。2[3] 米哈伊尔·贝斯梅尔塞夫和贾斯汀·所罗门。通过多向量场进行线画的向量化。ACM Transactions on Graphics（TOG），2019年。8[4] 詹姆斯·F·布林代数曲面图的推广ACM Transactions onGraphics（TOG），1（3）：2358[5] 古尼拉·博格福斯任意维的距离变换。计算机视觉，图形和图像处理，27（3）：321-345，1984年。2[6] 尼尔 · 坎贝尔和扬 · 考茨。学习多种字体。 ACMTransactions on Graphics （ TOG ）， 33 （ 4 ）： 91 ，2014。2[7] 天使XChang，Thomas Funkhouser，Leonidas Guibas，Pat Hanrahan ， Qixing Huang ， Zimo Li ， SilvioSavarese ， Manolis Savva ， Shuran Song ， Hao Su ，Jianxiong Xiao，Li Yi，and Fisher Yu.ShapeNet：一个信息丰富的 3D 模型库。技术报告 arXiv ： 1512.03012[cs.GR]，斯坦福大学-普林斯顿大学-芝加哥丰田二、八[8] Christopher B Choy ， Danfei Xu ， JunYoung Gwak ，Kevin Chen，and Silvio Savarese. 3d-r2 n2：用于单视图和多视图3D对象重建的统一方法。在欧洲计算机视觉会议上，第628-644页。施普林格，2016年。2[9] Angela Dai ， Charles Ruzhongtai Qi ， and MatthiasNießner.使用3d编码器预测器cnns和形状合成的形状完成正在进行 IEEE 会议计算机视觉和模式识别（CVPR），第3卷，2017年。2[10] Tao Du ， Jeevana Priya Inala ， Yewen Pu ， AndrewSpielberg ， Adriana Schulz ， Daniela Rus ， ArmandoSolar-Lezama，and Wojciech Matusik. Inversecsg：将3D模型自动转换为CSG树。SIGGRAPH Asia 2018技术论文，第213页。ACM，2018。8[11] David S Ebert和F. Musgrave。纹理建模：一种过程方法。Morgan Kaufmann，2003年。3[12] Haoqiang Fan，Hao Su，and Leonidas J Guibas.从单幅图像重建三维物体的点集生成网络在CVPR，第2卷，第6页，2017年。一、二[13] 豪尔赫·富恩特斯-帕切科、何塞·鲁伊斯·阿森西奥和胡安·曼努埃尔·伦德·奥恩曼查。视觉同时定位与映射研究综述。Artificial Intelligence Review，43（1）： 55-81，2015. 2[14] Vignesh Ganapathi-Subramanian，Olga Diamanti，SoerenPirk ， Chengcheng Tang ， Matthias Niessner ， andLeonidas Guibas.使用结构感知形状模板解析几何。2018年国际3D视觉会议（3DV），第672-681页IEEE，2018年。2572[15] Jun Gao ， Chengcheng Tang ， Vignesh Ganapathi-Subramanian，Jiahui Huang，Hao Su，and Leonidas JGuibas. Deepspline：参数曲线和曲面的数据驱动重建。arXiv预印本arXiv：1901.03781，2019。2[16] Kyle Genova ， Forrester Cole ， Daniel Vlasic ， AaronSarna，William T. Freeman和Thomas Funkhouser。使用结构化隐函数学习形状模板。正在进行IEEE会议计算机视觉和模式识别（CVPR），2019年。2[17] 放大图片作者： David G. Kim ， Bryan Russell ，andMathieuAubry. AtlasNet：一个学习3D表面生成的Papier-Ma？che？方法IEEEConf.计算机视觉和模式识别（CVPR），2018。一、二、五、六[18] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。4[19] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and AlexeiA Efros.使用条件对抗网络的图像到图像翻译。CVPR，2017年。1[20] 弗拉基米尔·G·金、威尔莫特·李、尼洛伊·J·米特拉、悉达多·乔胡里、斯蒂芬·迪威尔第和托马斯·芬克豪泽。从大量的3d形状中学习基于零件的模板。ACM Transactions on Graphics（TOG），32（4）：70，2013。2[21] 迪德里克·金马和吉米·巴。Adam：随机最佳化的方法。国际会议上学习- ING代表，12 2014年。4[22] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的Im-agenet分类在神经信息处理系统的进展，第1097-1105页1[23] YiyiLiao，SimonDonne'，andAndreasGeiger.DeepMarchingCubes：LearningExplicitSurfaceRepresentation.在IEEE计算机视觉和模式识别会议论文集，第2916-2925页，2018年2[24] 夏柳和藤村纪子。使用深度数据的手势识别在Proc.6thIEEE Int. Conf.自动面部手势识别，第529页。IEEE，2004年。一、二[25] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。在IEEE计算机视觉和模式识别会议的论文集，第3431-3440页，2015年。1[26] Kaichun Mo ， Paul Guerrero ， Li Yi ， Hao Su ， PeterWonka，NiloyMitra，andLeonidasGuibas.Structurenet：用于3D形状生成的分层图形网络。ACM Transactions on Graphics（TOG），SiggraphAsia 2019，38（6）：Article 242，2019. 2[27] 牛成杰，李俊，徐凯。Im2struct：从单个rgb图像恢复3d形状结构。在IEEE计算机视觉和模式识别会议论文集，第4521-4529页，2018年。2[28] Peter 使用众包属性的探索性字体选择。 ACMTransactions on Graphics（TOG），33（4 ）：92，2014。2573[29] Maks Ovsjanikov ， Wilmot Li ， Leonidas Guibas ， andNiloy J Mitra.三维形状集合中连续可变性的探索。ACMTransactions on Graphics（TOG），第30卷，第33页。ACM，2011年。2[30] 朴正俊，彼得·弗洛伦斯，朱利安·斯特劳布，理查德·纽库姆，史蒂文·洛夫格罗夫.Deepsdf：学习用于形状表示的连续符号距离函数。在IEEE计算机视觉和模式识别会议（CVPR）上，2019年6月。2[31] Despoina Paschalidou，Ali Osman Ulusoy，and AndreasGeiger.超二次曲面的重新审视：学习长方体以外的三维形状分析。 IEEE Conf.计算机视觉和模式识

下载后可阅读完整内容，剩余1页未读，立即下载