基于潜在空间渲染的统一2D/3D矢量图形识别器

133 浏览量更新于2023-10-25 收藏 1.32MB PDF 举报

上海交通大学

微软亚洲研究院

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5408RendNet：具有潜在空间渲染的统一2D/3D识别器上海交通大学eliphat@sjtu.edu.cn微软亚洲研究院xinyangjiang@microsoft.com蔡华山微软亚洲研究院caihuashan@microsoft.com微软亚洲研究院yansenwang@microsoft.com李东升微软亚洲研究院dongsheng.li邮件microsoft.com摘要矢量图形在我们的日常生活中无处不在，在工程、建筑、设计等领域有着广泛的应用。现有的VG识别方法大都是先将VG绘制成光栅图形（RG），再根据RG格式进行识别。然而，这种方法抛弃了几何结构，失去了VG的高分辨率.最近，另一类算法被提出来直接从原始VG格式识别。但它会受到RG渲染过滤掉的拓扑错误的影响。而不是看一种格式，这是一个很好的解决方案，利用VG和RG的格式一起，以避免这些缺点。此外，我们认为，VG到RG渲染过程是必不可少的，有效地结合VG和RG信息。通过指定如何将VG图元转换为RG像素的规则，渲染过程描述了因此，我们提出了RendNet，一个统一的架构，用于识别二维和三维的情况下，它认为这两个VG/RG representations和利用它们的相互作用，将VG到RG光栅化过程。实验表明，Rend-Net可以在各种VG数据集上实现2D和3D对象识别任务的最先进性能1. 介绍深度学习开启了机器视觉感知的新时代目前大多数方法处理的是传感器输入，如像素图像，称为光栅图形（RG）。他们受益于输入数据的方便访问。然而，对于人类绘制的图形，如平面图，图形设计和CAD模型，另一种数据格式被广泛使用，称为矢量图形（VG）。在本文中，我们专注于识别*这项工作是作者在MSRA实习时完成的。渲染器图1. 矢量图形的渲染。渲染器知道稀疏VG属性和渲染的RG之间的相关性。以VG为输入的任务，例如基于VG的图像分类和对象检测。矢量图形包含一组用参数方程定义的基元，如直线、曲线和圆，这些基元对于人类来说几乎是不可能直接感知的。它需要通过光栅化技术渲染成光栅图形的格式（如图所示）。1），所以它可以显示在显示器上或打印在纸上。大多数现有的VG识别器将渲染的RG作为输入，利用成熟的基于RG的识别方法，如卷积神经网络[16]或点网络[33]。然而，渲染的像素丢弃了几何结构，失去了VG的高分辨率特性因此，最近提出了一些开创性的工作[18，19]来直接从原始格式中识别VG尽管基于VG的方法取得了令人鼓舞的性能改进，但仍受到人类不可感知的拓扑错误的影响，这些错误可以通过光栅化过滤掉例如图图2示出了两条线，其两端应该相交，但不以小的余量相交，并且在渲染的RG中不存在这种错误。不同于现有的方法只考虑一种格式，本文提出了一种方法，利用VG和RG的优点。如何有效地结合VG和RG的信息仍然是一个悬而未决的问题。一种直观的方法是分别在VG和RG上使用单独的模型，5409RG@500%：模糊VG@6000%：看到拓扑错误图2. 不同图形格式的缺点。SESYD楼层平面符号实例的不同表示之间的比较。如果我们放大，光栅图形会变得模糊或有锯齿。矢量图形保持清晰。但是，它有一个拓扑错误。这增加了VG数据中的噪声。结果然而，它未能利用VG基元和RG像素之间的相互作用和相关性，这对于多模态特征融合是必不可少的[2，47，53]。如图1中，VG到RG渲染器通过指定关于如何将VG图像转换为RG像素的规则来揭示VG/RG相关性因此，我们考虑将渲染过程作为我们方法的一部分，以更好地模拟RG和VG之间的相互作用和相关性。针对这些问题，提出了一种新的矢量图形识别方法RendNet。RendNet利用VG/RG表示，并通过合并渲染过程来利用它们它是适用于2D和3D场景的统一框架。具体来说，RendNet将VG原语作为输入，并将VG表示为超图。超图被馈送到具有两个并行流的网络中。向量流处理超图的拓扑结构，并通过超图神经网络提取VG嵌入。“光栅”流将VG转换为2D像素或3D点云作为RG信息。为了统一框架，我们利用PointNet作为一个简单但有效的主干提取RG的空间嵌入最后，作为RendNet的核心，VG和RG嵌入之间的相关性是通过一种新的潜在空间光栅化（LSR）方法来建模的，该方法模拟渲染过程，并将VG表示投影到RG潜在特征。通过这种方式，VG/RG相关性在整个网络中的多个语义级别上被利用。我们的主要贡献：1）RendNet是一个2D/3D统一的矢量图形识别框架，它利用了矢量图形和光栅图形的优点。2）Rend-Net结合了渲染过程，有效地开发了RG和VG之间的交互.3)在2D和3D数据集上对分类和对象检测任务进行了实验。最先进的性能-Mances已经实现。2. 相关工作2D VG识别和生成。大多数当前的识别方法都集中在基于像素的光栅图形上，例如ResNet [16]，R-CNN[11，12，40]，YOLO [38，39]。因此，进行VG识别的直观方式是一个两阶段的过程，该过程将基于CNN的模型应用于渲染的VG。VG识别的应用之一是建筑图的识别。提出了几种基于规则的图匹配方法，通过将平面图中的符号表示为用于匹配的图来对符号进行分类和本地化，例如可见性图[27]和属性关系图[35，42]。在线手写[1，15]是一种类似于矢量图形的数据形式。这些方法大多使用序列模型来处理手写体中的点与在线手写相比，VG包含的图元类型更多，拓扑结构更一般、更复杂。VG的另一个AI应用是计算机辅助设计。近年来，一些工作提出使用深度学习来自动生成设计图形或将光栅图形转换为矢量图形（即，向量化）[5，8，28，30，36，43]。三维表示。3D对象可以用不同的格式表示，包括点云、体素、网格、多视图图像、边界表示（BRep）。已经研究了许多深度学习技术来解决点云上的各种问题，例如形状分类，对象检测和分割[14]。Point-Net[33]和PointNet++ [34]是两个开创性的作品，它们捕获每个点的细粒度几何信息。PointConv [50]定义了卷积核，并将点的局部子集作为输入来学习层次关系。DGCNN [48]构建了一个图，其中顶点是点云中的每个点，边缘是基于每个点的邻居此外，基于体积的方法[29，55]通常将点云或其他3D格式转换为体素，并利用3D卷积神经网络来学习表示。此外，多视图方法[44，49]将3D形状投影到多个2D视图中，提取视图特征，并聚合成全局表示。与前四种格式不同，在CAD建模过程中广泛使用的边界表示（BRep）由各种参数基元（如Bezier曲线和平面）组成。这是一个典型最近，UV-net和BRepNet[18，23]提出通过基于面-边关系构建图来直接利用BRep拓扑信息。在这些工作的对比，我们充分利用两种格式的优点，BREPS和点云光栅化技术。可区分的渲染。可微分渲染-5410超图神经网络超图网向量编码器VE超图网残余...……LSR RE本地PointNet残余块全局聚合块光栅编码器LSR我我图3. RendNet架构概述。RendNet由k个双流残差块组成，后面是用于全局表示聚合的最终块。输出表示可以被馈送到下游任务中。潜在空间光栅化边缘/超边缘卷积合并图形节点嵌入图4. RendNet中的剩余块。它由矢量流和光栅流组成。它们的输出潜在表示通过求和合并。潜在特征值由颜色指示。涉及一个渲染过程，其中对象属性的梯度可以通过渲染结果传播[20]。最近的作品[3，9，32，41]利用微分渲染来形成用于人体姿态检测和面部重建的无监督工作流，其基于原始图像和来自检测特征的渲染图像之间的一致性。在这项工作中，我们选择在潜在空间而不是像素空间中渲染VG图元。绘制目标是具有潜在特征属性的点云，而不是普通绘制中的颜色属性。3. RendNet的设计3.1. 概述在本节中，我们描述了我们提出的RendNet的框架，然后详细介绍了每个模块。如图3，它是由k个基本块和一个最后块组成的，这些基本块具有剩余连接，站聚集原始输入是一组原语。我们首先将它们转换成一个超图，其初始节点特征为基于Sec的h03.2.然后用k个剩余块学习超图表示。在每个块内，节点嵌入通过两个流，矢量流和光栅流，以执行图卷积和点表示聚合，以获得新的节点嵌入h1+ 1。图4示出了两个流的详细过程：矢量流包括矢量编码器（Sec. 3.3），其利用超图神经网络（hypergraph NN ）来主要基于连通性（即，由曲线段连接或落在同一表面上的节点）;光栅流涉及潜在空间光栅化（Sec.1）。3.4）和光栅编码器（第3.4节）。3.5），将VG节点嵌入渲染为2D像素或3D点云，并学习欧几里得空间中的表示我们整合了两个方面的信息本地PointNet聚合PointNet最终LSR节点嵌入节点特征输出表示5411→ → → →→→→J我我我S我我N|S|SS流与剩余连接，以获得新的嵌入（节。3.6）。特别是，我们强调LSR操作，因为它是VG和RG之间的桥梁。通过LSR和块之间的剩余连接，信息可以在各种路径中传播，例如VG LSR RG、LSR RG VG、VG LSR RG VG等。最后，全局聚合块（Sec. 3.7）学习整个超图的最终表示，即，所有的原始人。3.2. 创建Hypergraph在RendNet中，我们将矢量图形中的所有图元描述转换为超图来学习潜在特征。超图主要由连通性构成，它包含了每个基元的性质和拓扑结构然后将来自前一个第l个块的相邻块h1的嵌入我们平均来自邻居的信息并获得曲线消息Cl。对于曲面超边，我们采用Feng等人的超图消息传递设计。[7]的文件。超图的消息传递包括两个阶段，超边的连接节点嵌入到超边表示的聚合，和超边表示聚合回节点。我们改进的消息传递计划的几何考虑。在第一阶段，我们以PointNet [33]的方式聚合节点嵌入，即我们首先将第l个节点嵌入与参数空间中曲面上的相对坐标连接起来，然后应用最大聚合来获得超边表示：原始人与此同时选择节点。曲线的交点，以及l= maxfΘi∈S.（2）第一次见面，第二次见面，第三次曲线的起点和终点被拾取为节点。此外，如果曲线不是直线，则最远点采样确保在其上至少选择4个节点节点特征是这些点在欧几里得空间中的坐标。曲线作为边缘。上面节点的曲线连接自然形成节点之间的边每条曲线由节点分成若干段，每段都表示为一条边。边缘特征包括开始方向向量、结束方向向量和其中S表示表面超边，并且hl是位于S上的节点i的嵌入。我们将它与表面类型（矩形/圆形等）TS连接起来。ti，S，是节点i在S上的坐标。通过一个MLPfΘ2和一个max聚集，我们得到了S的表示h1。请注意，同一节点的坐标是相对的，在不同的曲面上可能不同。在第二阶段，我们计算超边缘消息通过对超边缘表示求平均，针对每个节点的Dl曲线。选择该特征是因为其具有普遍性不同类型的曲线之间。此外，在矢量图形（诸如SVG）的大多数当前规范中，Dl=1埃什湖（三）如直线、圆弧和二阶贝塞尔曲线段的曲线可以从这些属性中唯一地重构，直到平移和缩放不变性。曲面作为超边。曲面连接多个节点，因此它们形成超图上的超边。超边特征包括曲面的类型和位于曲面上的节点的参数集。这将对曲面上节点的相对位置进行编码，这对于特征聚合非常有用。3.3. 向量编码器矢量编码器聚合节点/边/超边特征和超图结构。为了实现这一点，我们使用超图神经网络来学习节点嵌入。对于曲线边缘，我们使用Gilmer等人提出的NNConv方案。[10]：3.4. 潜在空间光栅化在RendNet中，我们采用了一种定制的光栅化过程，该过程遵循计算机图形（CG）中光栅化的一般模式，但专门设计用于对象识别，即潜在空间光栅化（LSR）。它充当从VG到在潜在空间中操作的点云的渲染器。对2D和3D对象执行相同的过程图5显示LSR的工作流程CG中的光栅化在对象空间中存储密集的属性样本是低效的，并且不支持对象的任意精度渲染。在现代基于三角形的计算机图形学中，三角形网格被用作绘制的基元。属性是稀疏指定的，仅在这些网格中的顶点上。在光栅化过程中，有两个任务，I.E. 片段生成和变化的插值由光栅化器完成首先，将三角形网格投影到屏幕并找到投影Cl=1Σ。hl·fΘ1 （ei j（1）地区片段通常是像素或子像素区域|j∈N（i）|j∈N (i)其中（i）是节点i的邻居的集合。我们应用fΘ1作为MLP以将边缘特征映射到系数矩阵，并且在多重抽样的情况下。之后，光栅化器在-将顶点上的稀疏属性插值为每个像素的属性。我们在LSR中调整了这两个任务，使它们在对象识别方面更有效，但仍然有效。H我J{S|i ∈S}25412M我我我我我p∈M（i）p我我片段生成（欧几里德空间）重新映射（欧几里德空间）三角测量（参数空间）插值（参数空间）然后，我们调用一个三角剖分过程，以生成这些变量的simplices。这对于1D曲线来说是微不足道的。对于更高的维度，我们运行Delaunay三角剖分算法[24]。Delaunay三角剖分确保没有顶点位于三角剖分结果中它所属的单形之外的任何其他单形的外接球内。因此，它将不会生成对于进一步的数值计算是病态的平坦单形，因为平坦单形将具有极大的外接球。最后，我们在这些单形内部进行线性插值这导致在对象空间中几乎处处可微的属性函数，因此是合理的插值方式更重要的是，结果对于来自输入的稀疏属性也是可预测的，因此我们可以像往常一样执行反向传播。三角测量在预处理阶段完成。插值可以在GPU上有效地实现，因为该过程类似于现代渲染流水线中像素空间中变化插值的特殊情况。3.5. 光栅编码器图5. 潜在空间光栅化。分段生成是第一步，后三步操作构成完整的可变插值过程。基于所描述的隐空间光栅化，我们可以将超图中的顶点转换成稠密的点云。相应地，每个点的嵌入也从节点嵌入h_1 内插。pi碎片生成。由于我们并不是真正地把物体呈现在屏幕上，所以我们放弃了投影操作。然而，使用像素/体素网格作为片段的阵列在计算上是昂贵的，因为潜在空间具有比颜色空间多得多的维度。因此，我们使用点云而不是像素或体素。对矢量图形中的基元（曲线和曲面）进行采样，以生成表示光栅图形对于每一条曲线，我们都以高分辨率采样-光栅编码器将点嵌入作为输入，并在欧几里得空间中聚合局部信息。详细地说，我们首先为超图中的每个节点i收集光栅化点云中的欧几里德k-最近邻（k-NN），称为（i）。然后利用PointNet将点嵌入聚合回超图代表：E1=最大gΘ。concathl，xp−xil，（5）等弧长时的摩擦力。对于每个表面，我们执行近似泊松圆盘采样[52]，以便每个点到其最近邻的距离相同这将产生均匀分布的点云。曲面上的点数与曲面的面积成正比。变插值。在这里，我们为采样点云中的每个点配备了一组来自矢量图形中顶点的潜在特征。在计算机图形学中，为了对具有正确属性的像素进行着色，需要在三角形顶点上插值稀疏属性。使用三角形上的线性插值，因为三个顶点很好地定义了三角形中属性的仿射函数对于任意几何体，我们用参数方程f1，f2，. - 是的-是的，其中变量t1，t2，. - 是的- 是的从0到1的范围形成参数空间：x1= f1（t1，t2，. - 是的- 是的），x2= f2（t1，t2，. - 是的- 是的）、。- 是的- 是的（四）其中xi和xp分别表示节点和点的位置坐标。g0是MLP。最大运算的使用来自PointNet [33]，因为它与点云中的点的排列无关，并且与局部点采样密度无关。3.6. 合并节点嵌入在每个块的末尾，我们总结了所有具有快捷连接的节点消息：两个来自在曲线边缘上传递的图形消息（表示为Cl，Eq. 1）和表面超边（表示为Dl，Eq.3）中，并且一个来自欧几里德空间中的PointNet（表示为El，Eq. 5）在光栅编码器中，如：h1+1=h1+C1+D1+E1 。（6）在新的节点嵌入h l+1被传递到下一个块之前，我们执行relu激活和批量归一化。作为预激活[17]。5413∗p∗Θp方法数据格式mAP。5mAP。75mAP@[. 5、.95]Yolov 3-微小RG（像素）75.2360.9753.24YOLOv3RG（像素）88.2480.4472.98约洛夫3-种RG（像素）87.3879.6671.61Yolov4RG（像素）93.0487.4879.59Faster-RCNN-R18-FPNRG（像素）80.9171.4867.32Faster-RCNN-R34-FPNRG（像素）80.5072.1865.89Faster-RCNN-R50-FPNRG（像素）80.3173.2866.53RetinaNet-R50-FPNRG（像素）87.5082.9179.18YOLaTVG98.8394.6590.59RendNet（我们的）VG + RG（点云）98.7098.2591.37表1.在不同IoU下，SESYD平面图的mAP（%）性能比较。 RendNet在mAP@方面优于所有基线。75和mAP@[. 5、. 95]，同时在mAP@方面实现与YOLaT相当的性能。五、3.7. 全局特征聚合用于全局特征聚合的最终块的结构类似于前面块中的光栅流，但是整个点云被渲染和处理，而不是节点的局部邻域。我们调用对象的潜在空间光栅化，然后应用PointNet来收集对象的全局信息。换句话说，我们让输出全局表示h′为h′=maxg′。concath（l），xp.（七）检测分别设置为50%和75%。mAP@[. 5、. 95]是IoU阈值在0.50和0.95之间的平均精度的均值。RendNet以R-CNN方式应用于对象检测[11，12，40]。具体地，首先使用提议生成方法来生成潜在地包含对象的候选边界框。然后，将每个提案中的图像区域输入RendNet，以预测提案是否确实是对象及其对象类别。使用与YOLaT相同的提案生成方法。期间培训，根据每个提案及其相应类别这与Eq相似。5，不同之处在于坐标和最大聚合函数是在全局而不是局部意义上获得的。4. 实验在本节中，我们将在不同的任务和数据集上评估RendNet，以检查RendNet在2D和3D矢量图形识别问题上的有效性。RendNet使用PyTorch [31]和DGL [46]实现，代码在补充中提供。4.1. 二维物体检测在本节中，我们将评估RendNet在SESYD平面图[6]上的2D对象检测，SESYD平面图是一个具有可用VG源的平面图公共数据集。它包含1000个图像，共有28065个对象，分为16个类别，如扶手椅和窗户。实验设置。在设置YOLaT [19]之后，图像均匀分布在10个布局中。一半的布局用作训练数据，另一半用于验证和测试。验证和测试拆分的比例为1：9。mAP。5，mAP@。75和mAP@[. 5、. 95]用作评估指标，其中mAP@ 表示类均值平均精度，其中交集大于并集（IoU）阈值用于计数为或者是一个额外的类别，表明没有对象存在于建议中，交叉熵损失被用来训练RendNet。请注意，建议生成方法基于VG格式输入，即使没有额外的偏移回归分支，也已经为对象生成了精确的边界框[19]。实验结果。对于基于RG的方法，我们将RendNet与最流行的对象检测方法相结合：一阶段方法包括Yolov 3[37]，Yolov 4 [4，45]，RetinaNet [26]的各种变体，以及两阶段方法，包括 Faster-RCNN 与金字塔网络（FPN）的变体[25]。对于Yolov 3，-tiny变体是一个较小的实时模型; spp变体使用空间金字塔池。对于Yolov4，我们应用了一个缩放的Yolov4 [45]，它具有更多的参数和更好的性能。Faster-RCNN-R-FPN模型系列使用主干ResNets[16] of different capacities, with R18, R34, and R50 inthe model name standing for ResNet18, ResNet34, andResNet50, respectively. 选项卡. 1显示RendNet优于所有基线。我们还将我们的方法与YOLaT [19]进行了比较，YOLaT[ 19]是第一个（也是唯一一个，据我们所知）直接基于VG的对象检测方法我们的方法实现了相当的AP@.5，并在AP@.75方面显著优于YOLaT 3.6个百分点。这一结果显示了利用RG和VG格式优点的有效性。5414圈圆弧和直线中国96.70RendNet（我们的）99.31表2. 分类准确率（%）在QuarterNet数据集上。我们在他们自己的数据集上的表现远远超过了QuestureNet图6. 来自PinterureNet数据集的硬实例。这两个实例通常被其他方法错误分类，而RendNet正确处理它们它们属于不同的类别：4.2. 3D对象识别我们评估了 RendNet 在 ObserverNet[54] 和Observer3D [51]数据集上的3D对象识别。4.2.13D对象分类AtomureNet [54]拥有24000个CAD模型，由24种包含不同加工特征的对象组成。我们随机分割数据集，其中85%用于训练，15%用于测试。对象分类的结果显示在选项卡中。二、我们在他们自己的数据集上的表现超过了QuarterNet。此外，可以看出RendNet在数据集上实现了卓越的性能，测试准确率为99.31%，而所有其他方法的误差都大于3%。图中显示了两个通常被其他方法错误分类的例子。六、它们具有相同的拓扑结构（带孔的立方体），但属于不同的加工特征（左侧实例中孔的边缘是圆，而右侧实例中孔的边缘由圆弧和直线组成）。仅考虑拓扑，无法区分这两个实例。基于RG的方法基于几何外观，很难我们的RendNet同时考虑了局部几何特征和拓扑结构，以正确区分这两个实例。RendNet通过矢量流和栅格流之间的紧密交互，可以有效地将拓扑和几何特征结合起来，无论是平面二维矢量图形RendNet（我们的）86.022.4表3.结果显示在3D数据集上。每对模型每V100 GPU的推理时间以毫秒为单位，批量大小设置为GPU内存的限制。或3D模型。因此，它能够受益于两种图形格式。RendNet的设计可以很好地处理2D和3D矢量图形。4.2.2三维物体Anter3D [51]是一个用于3D CAD模型的非分类注释的数据集。在AutoCAD 3D中，在包含大约20000个CAD模型的ABC数据集[22]请注意，根据Clus-ter 3D的补充材料，注释器被指示根据几何形状而不是功能来判断模型之间的相似性。因此，拓扑结构并不像其他基于VG的数据集（如AnchoreNet）那样在Anchorter3D中占这么多。我们将CAD模型划分为两个不相交的组：训练组包含75%的模型，测试组包含25%的模型。我们在训练组中使用所有成对注释训练RendNet，对于每一对CAD模型，我们分别采取两个CAD模型的表示，连接它们，并将它们送入一个2层MLP二元分类器，以判断模型对的相似性。在具有4个V100 GPU的NVIDIADGX上进行了推理时间的实验。结果见表。3 .第三章。由于数据集注释对几何相似性有偏见，因此对先前方法的性能改进不如先前检测和分类任务中那样显著。尽管如此，VG数据中的拓扑信息仍然可以提高3D建模的性能。RendNet仍然在Questionter3D上实现了最佳性能。值得注意的是，点云上的两种流行方法，Point-Net++和DGCNN，与RendNet相比，需要大约8 - 10倍的推理时间。对于扫描的场景，PointNet++每个样本花费23.7毫秒当涉及到大量的CAD模型集合时，在批处理场景下应用Point- Net++有点太慢了。我们的RendNet在Objecter3D中每个epoch的验证时间仅为36秒，而PointNet++为6分钟。模型试验依据模型试验依据推理时间PointNet86.59PointNet82.541.7PointNet++95.78PointNet++84.1923.7DGCNN96.15DGCNN85.4717.35415∼变体测试误差仅栅格流17.69仅矢量流2.80无图形边缘特征10.68无最终块1.99VG/PointNet的扩展1.70完整RendNet0.81表4. RendNet组件的消融研究。在SESYD平面图分类任务中评估不同的变体4.3. 消融研究在这里，我们通过在SESYD平面图数据集上运行分类任务来验证我们的模型设计。列车测试拆分方案与检测任务相同。我们通过裁剪和挤压对地面真实对象框进行小的扰动，并将所得区域与标签一起用于分类。残余块中的两个流。我们在该实验中将来自残余块中的矢量或光栅流的输出清零（4）. 可以看出，残差块中的两个流都有助于RendNet的强大功能。矢量流不仅处理本地节点嵌入，而且对于在对象的不同部分之间传播信息也是至关重要的，而光栅流仅处理节点的本地邻居因此，如果没有矢量流，整体性能下降比没有光栅流。全局特征聚合块。我们在RendNet中删除了最终的全局特征聚合块，并在超图节点上使用4）.这最后一个块使RendNet能够在最后查看整个光栅化结果，这导致了一个更强大的全局特征聚合过程。绘制边特征。我们将曲线段的类型和开始/结束方向向量作为边特征输入到RendNet。在这个实验中，我们用一个裸图卷积[21]替换了矢量图形模块，它不接受边缘特征（Tab中的“no graph edge features”条目）。4）.它显示出显著的性能下降。由于曲线的拓扑结构除了由节点间的连通性决定外，还取决于曲线的类型和曲率，因此潜在空间光栅化。在这个实验中，我们研究了将渲染过程纳入模型的有效性我们将来自残差块中的光栅流的输出归零，并使用直接图最大读出操作聚合最终残差块的输出。此外，我们还创建了一个独立的流，图7. RendNet和PointNet表示的比较。RendNet捕获更精细的结构。将PointNet应用于栅格化点云。这两个表示（分别来自VG和PointNet）被连接并馈送到MLP分类器中。结果显示在选项卡中的“VG/PointNet集成”条目中。4.第一章测试误差低于仅使用VG或RG，表明模型可以从两种模式中受益。然而，相对于原始的RendNet，错误仍然高出100%-4.4. RendNet的定性结果为了研究RendNet学习的表示，我们使用BYOL[13]在ABC [22]数据集上。PointNet [33]也在相同的设置下进行训练以进行比较。我们通过对3维进行主成分分析（PCA）并将其映射到RGB颜色分量来可视化最终的逐点表示。结果示于图7.第一次会议。上面的物体是一个螺栓。RendNet的表示有一个快速的变化，由红色框标记。我们的表示清楚地区分了螺栓的头部和主体。对于立方体对象，PointNet和RendNet都强调边和角，但RendNet捕获的边比PointNet清晰得多。这意味着RendNet能够更准确地捕获语义。5. 结论在本文中，我们提出了RendNet，它利用矢量图形和光栅图形来识别2D和3D对象。设计了一种新的隐空间绘制方法。在二维和三维物体识别上的各种实验表明，RendNet与基线相比具有更高的性能和良好的效率。在未来，我们可以集成更多的技术来进一步提高性能，例如在大型VG数据集上进行预训练。PointNetRendNet5416引用[1] Emre Aksan，Thomas Deselaers，Andrea Tagliasacchi，and Otmar Hilliges. Cose：合成笔划嵌入。在NIPS，2020年。2[2] 塔达斯·巴尔特鲁斯·艾提斯、柴坦尼亚·阿胡贾和路易斯-菲利普·莫伦西。多模态机器学习：一项调查和税收经济学。 IEEE Transactions on Pattern Analysis andMachine Intelligence，41（2）：423-443，2018。2[3] 迈克尔·包，马特·康，斯特·法恩·格拉布利，罗纳德·费德科。使用解剖肌肉的高质量面部捕捉在IEEE/CVF计算机视觉和模式识别会议论文集，第10802-10811页，2019年。3[4] Alexey Bochkovskiy，Chien-Yao Wang，and Hong-YuanMark Liao. Yolov4：目标检测的最佳速度和准确性。arXiv预印本arXiv：2004.10934，2020。6[5] Alexandre Carlier，Martin Danelljan，Alexandre Alahi，and Radu Timofte. Deepsvg：矢量图形动画的分层生成网络。在NeurIPS，2020年。2[6] 马蒂厄·德拉兰德、欧内斯特·瓦尔维尼和让-伊夫·拉梅尔。符号定位系统性能评估用sesyd数据集的最新贡献。6[7] Feng Yifan ， Huxuan You ， Zizhao Zhang ， RongrongJi，and Yue Gao.超图神经网络在AAAI人工智能会议论文集，第33卷，2019年。4[8] Yaroslav Ganin ， Sergey Bartunov ， Yujia Li ， EthanKeller，and Stefano Saliceti.计算机辅助设计作为语言。arXiv预印本arXiv：2105.02769，2021。2[9] Kyle Genova、Forrester Cole、Aaron Maschinot、AaronSarna、Daniel Vlasic和William T Freeman。三维可变形模型回归的无监督训练。在IEEE计算机视觉和模式识别会议的论文集，第8377-8386页，2018年。3[10] Justin Gilmer、Samuel S Schoenholz、Patrick F Riley、Oriol Vinyals和George E Dahl。量子化学的神经信息传递。国际机器学习，第1263-1272页。PMLR，2017年。4[11] 罗斯·格希克。快速R-CNN。在ICCV，2015年。二、六[12] Ross Girshick，Jeff Donahue，Trevor Darrell和JitendraMalik。丰富的特征层次结构，用于精确的对象检测和语义分割。CVPR，2014。二、六[13] Jean-BastienGrill ， FlorianStrub ， FlorentAltche´ ，CorentinTallec，PierreH.Richemond，ElenaBuchatskaya ， Carl Doersch ， Bernardo Avila Pires ，Zhaohan Daniel Guo ， Moham-madGheshlaghiAzar ，BilalPiot，KorayKa vukcuoglu，Re´miMunos，and MichalValko.Bootstrap Your Own Latent：A New Approach toSelf-Supervised Learning（Bootstrap Your Own Latent：A New Approach to Self-Supervised Learning，2020）8[14] Yulan Guo，Hanyun Wang，Qingyong Hu，Hao Liu，LiLiu，and Mohammed Bennamoun. 3D点云的深度学习：一个调查。IEEE TPAMI，2021。2[15] David Ha和Douglas Eck。草图的神经表征。 arXiv预印本arXiv：1704.03477，2017。2[16] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。一、二、六5417[17] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.深度剩余网络中的身份映射。在欧洲计算机视觉会议上，第630-645页。施普林格，2016年。5[18] Pradeep Kumar Jayaraman ， Aditya Sanghi ， Joseph GLam- bourne ， Karl DD Willis ， Thomas Davies ，Hooman Shayani，and Nigel Morris. UV-net：从边界表示学习。在CVPR，2021年。一、二[19] Xinyang Jiang ，Lu Liu ， Caihua Shan ， Yifei Shen ，Xuanyi Dong，and Dongsheng Li.识别矢量图形与光栅化，2021年。1、6[20] Hiroharu Kato、Deniz Beker、Mihai Morariu、TakahiroAndo、Toru Matsuoka、Wadim Kehl和Adrien Gaidon。可区分渲染：一个调查。 arXiv 预印本 arXiv ：2006.12057，2020。3[21] 托马斯·N Kipf和Max Welling。使用图卷积网络的半监督分类。在ICLR，2017。8[22] Sebastian Koch 、 Albert Matveev 、 Zhongshi Jiang 、Francis Williams、Alexey Artemov、Evgeny Burnaev、Marc Alexa、Denis Zorin和Daniele Panozzo。Abc：用于几何深度学习的大型CAD模型数据集。在CVPR，2019年。七、八[23] Joseph G Lambourne，Karl DD Willis，Pradeep KumarJayaraman，Aditya Sanghi，Peter Meltzer，and HoomanShayani. Brepnet：实体模型的拓扑消息传递系统。在CVPR，2021年。2[24] 李德蔡和布鲁斯·J·沙克特。构造Delaunay三角网的两种算法。International Journal of Computer InformationSciences，9（3）：2195[25] 林宗义、彼得·多尔、罗斯·格希克、何启明、巴拉特·哈里哈兰和塞尔日·贝隆吉.用于对象检测的特征金字塔网络。在CVPR，2017年。6[26] 林宗义、普里亚·戈亚尔、罗斯·格希克、何开明和彼得·多尔·拉尔。密集目标检测的焦面损失。InICCV，2017.6[27] 她的ve'Locteau，S e' bastienAdam，EricTrupin，JacquesLabiche和PierreH e'roux。使用全可视性图形表示的符号定位在图形识别研讨会上，2007年。2[28] Raphael Gontijo Lopes，David Ha，Douglas Eck，andJonathon Shlens.一个可扩展矢量图形的学习表示。在IEEE/CVF计算机视觉国际会议论文集，第7930-7939页，2019年。2[29] Daniel Maturana和Sebastian Scherer。Voxnet：用于实时对象识别的3D卷积神经网络InIROS，2015. 2[30] Amal Dev Parakkat ， Marie-Paule R Cani 和 KaranSingh。颜色数字：草图图像的交互式结构化和矢量化。在 2021 年 CHI Conference on Human Factors inComputing Systems的会议记录中，第12[31] Adam Paszke、Sam Gross、Soumith Chintala、GregoryChanan 、 Edward Yang 、 Zachary DeVito 、 ZemingLin、Alban Desmaison、Luca

下载后可阅读完整内容，剩余1页未读，立即下载