自动生产线标签：3D物体轮廓数据集

128 浏览量更新于2023-10-15 收藏 962KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3136自动生产线标签：用于轮廓检测和3D重建的数据集Hari SanthanamNehal Doiphode宾夕法尼亚大学{harisan，lahen，jshi} @seas.upenn.edu石建波摘要理解3D物体的更精细的细节，它的轮廓，是对物体物理理解的第一步。许多现实世界的应用领域需要可适应的3D物体形状识别模型，通常只有很少的训练数据。为此，我们开发了第一个自动生成的轮廓标记数据集，绕过人工标记。使用这个数据集，我们研究了当前国家的最先进的实例分割算法的性能检测和标记的轮廓。我们产生了有前途的视觉效果与准确的轮廓预测和标记。我们证明了我们的精细标记轮廓可以帮助计算机视觉中的下游任务，例如从2D图像进行3D重建。1. 介绍计算机视觉充满了许多不同的应用，如3D形状理解，分割和机器人手对象交互。例如，在机器人手对象交互领域中，机器人必须适应学习如何拾取、分类和抓取对象，这是3D分割和估计问题。即使在训练机器人之前，对这些对象的更精细的上下文细节的理解也可能非常有影响力。具体来说，学习手和物体之间的接触点标记每个轮廓的凸性并定位连接点，可以更深入地了解物体的基本情况;这就像学习一个由简单的单词组成的词汇表。这种额外的直觉可以极大地帮助识别新的形状，减少人类对具有相似形状的真实物体的艰苦标记的需要。主要问题是目前不存在线标记的数据集。因此，我们的主要目标是使用来自3D模型的信息创建第一个2D线标记数据集。* 同等贡献。随机决定的顺序凸性线标记的规则主要是理论上的[30][12][20]，使得实际实现非常繁琐和具有挑战性。为了弥合文献中的差距并创建一个新的2D线标记数据集，我们必须制定一套新的规则，以便在实践中实施是可行的。因此，我们生成了一个算法，自动线标签，不需要人类手动标签的权力。该算法假设3D STL网格模型作为输入，由三个独特的阶段组成：轮廓提取、轮廓分类和轮廓分组。我们将Huffman-Clowes [16][9]线标记基于Thingi 10 K数据集[37]，因为与其他基准数据集（如ShapeNetCore [3]）相比，它具有丰富的3D打印模型。使用我们的自动算法，我们生成了6，275个标记的2D实例，这些实例来自Thingi10K数据集的属0和属1子集[37]。我们传达了一种从3D CAD模型生成2D线标签的方法，该方法产生了可用于下游应用的新数据集。为了说明我们的数据集我们还在SOLOv2 [31]和使用Mask2former [4]的Bézier曲线早期融合中进行了端点预测实验。此外，对于没有STL网格的模型，标记是不可能的，我们的2D分割模型的泛化是非常重要的。因此，我们在数据集中显示了对可见与不可见对象的消融研究。我们强调，只有6，275个数据实例，我们能够实现有希望的分割性能水平。为了验证我们的数据集的使用，我们演示了3D重建任务的实用程序。使用基于3DR2N2 RNN的架构[7]，我们通过添加我们的凸性标签作为单独编码器的输入来提高性能。我们进行的实验表明，我们的新型2D线标记数据集的利用可以在视觉的下游任务中非常有益。本文的主要贡献概括如下：3137表1.数据集统计数据(1) 我们提出了一种新的，数据集创建算法，作为输入的3D STL网格和输出2D提取，分类和分组的轮廓。整个过程是完全自动化的，不需要人工贴标使用3D STL网格和一些额外的超参数调整，可以生成无限量的2D标记数据。(2) 我们生成了一个新的线标记数据集，由来自Thingi10K的属0和属1子集的6，275个标记实例组成[37]。据我们所知，这是第一个2D凸线标记数据集。生成的场景具有各种轮廓，从直线到复杂的曲线，带有凸线标签。(3) 我们在我们的数据集上探索了最先进的分割算法的性能，例如Mask2former [4]和SOLOv2 [31]。我们也研究这些架构的某些烧蚀。此外，我们还展示了数据集中可见和不可见对象的结果。(4) 我们通过将标签合并到3D重建模型中来验证标签的实用性，并通过向基于RNN的架构添加编码器来显示改进的性能[7]。2. 相关工作关于创建线标记数据集的工作非常有限一个主要的工作，[15]，使用一种方法从3D模型的标准BREPCAD格式中提取面，边，可见性和凸度信息[21]。然而，在不同视点渲染这些模型需要大量的处理能力，并且缺乏Blender软件的支持。结果，不能容易地确定2D中的凸度信息。为了帮助这个冒险和创建一个可访问的数据集，我们开发了更快的运行时间，第3节中描述的新颖方法，将3D STL网格作为输入。为了了解我们数据集上的基准性能例如，[19]使用神经网络在多个尺度上学习边缘边界预测的细节。其他基于CNN的工作集中在轮廓预测的优化训练，以及困难边缘的分类，如阴影，照明差异和深度边缘[25][28]。也存在Fast-RCNN类型的轮廓检测器具体来说，Mask-RCNN [14]已用于准确标记图像的边界，以提高分割性能[6]。此外，SOLOv2 [31]通过学习一个内核来预测掩码，表2.自动标签错误。提取误差是在提取的轮廓总数上计算的。标签和分组误差计算正确提取的轮廓。每个网格单元的位置分割架构，如SOLOv2，特别有利，因为它们不仅允许我们从数据集中定位轮廓，还可以对其凸性类型进行分类。我们还探讨了基于Transformer的架构，用于我们的基准测试研究。变形金刚因其在自然语言处理[32][17][27]和视觉方面的高水平表现而闻名，这是由于它们的自我注意力机制[18] [22]。例如，ViT [10]将图像嵌入为一系列补丁，并完全去除卷积以进行图像识别。对于对象检测，DETR [1]使用二分匹配损失来确保不同的预测。线检测Transformer架构LETR [34]使用多尺度编码器和解码器，具有二分损失和距离损失，以准确地对York Urban数据集中的直线进行此外，第一个边缘检测变换器EDTER [26]使用全局Transformer 来理解更高级别的细节，使用局部Transformer来理解更精细的细节。最后，对于分割，Mask2former[4]使用屏蔽注意和像素解码器进行质量屏蔽预测。正如SOLOv2所提到的，我们特别受到Mask2former的激励，因为它可以额外预测我们的凸性标签。我们探讨了3D重建中的相关工作，这些工作利用了2D视点之间的不变几何属性例如，[35]加强预测的3D形状的透视变换与其对应的2D输入观测之间的一致性。此外，[33]是一个端到端的可训练模型，它从2D图像中估计深度、法线和轮廓，以预测3D形状，然后是重投影一致性损失。在另一项工作中，Front2Back[36]引入了结构和几何约束，以准确预测2D图像的反射对称性和一致的轮廓。El Banani等人[11]提出了一种用于估计新视点的3D几何感知特征瓶颈。受这些工作的启发，我们利用轮廓属性，从我们提出的数据集的三维物体重建从单视图和多视图图像。3. 数据集在本节中，我们描述了创建2D线标记数据集的过程，标记的轮廓范围从基本直线到复杂曲线。我们3138∉∈图1.概述我们的数据集管道，包括（I）轮廓提取，（II）轮廓分类和（III）轮廓分类。全自动算法，如图所示。1，从3D打印网格开始，以包含扩展、分类和分组轮廓的2D场景结束。最终数据集由6，275个形状组成，渲染视点图像中的凸度分布如表1所示。此外，表2显示了基于100个图像的随机样本的自动数据集创建流水线的每个阶段的错误度量3.1. 预赛Huffman和Clowes线标记方案对轮廓凸度信息进行编码，该轮廓凸度信息对于理解3D场景是不可或缺的[16] [9] [29][24] [2]。此外，整个场景可以由以下轮廓完全描绘：(i) 凹面：当两个面相对于照相机形成一个凹谷时，就会产生轮廓。（ii）凸面：当两个面相对于相机形成脊时，轮廓（iii）模糊：轮廓是遮挡和肢体轮廓的组合当相对于相机的一个可见面与相机视野之外的另一个面相交时，会当一个可见的表面在摄像机的视野之外弯曲时，就会出现肢体轮廓[23]。3.2. 轮廓提取由于Thingi10K中的CAD模型是用三维三角网格定义的STL模型，因此我们必须首先开发一种提取3D的方法轮廓最初，我们假设相邻三角形的交点请注意，许多网格，特别是定义圆柱和球面的网格，包含的三角形相交并不表示轮廓的可见存在因此，我们使用表面法线不连续性来过滤这些。设A表示由相邻三角形的交点形成的预期轮廓的初始集合，并且设S表示A中附着于θ圆盘<0的轮廓。其中θdisc表示两个相邻三角形的曲面法线之间的角度此外，由于我们的目标是定位有助于精确2D线标记的3D轮廓，因此我们必须考虑仅由于投影而产生2D轮廓的情况。例如，圆柱体的侧表面的投影产生仅由于投影而发生的两个模糊（特别是肢体）2D轮廓。因此，我们表示3D轮廓集P，使得P A、P S、其中P遵守为模糊轮廓规定的规则。S和P的组合形成3D轮廓的总集合。Blender软件允许我们通过改变摄像机的位置和光源来将3D模型渲染成2D场景。自然地，渲染可能导致遮挡的情况;如果从照相机的有利位置看不见3D轮廓上的点，则认为该点被遮挡。为了帮助遮挡检测，我们引入了一个内置的Blender函数，称为光线投射，它可以确定光线是否3139→i=1̸→··Σ̸→可以从摄像机行进到3D轮廓上的目的地点而不会受到阻碍。最简单但最耗时的方法是对3D轮廓上的每个点进行采样，并确定它是否被遮挡。由于时间限制，我们寻求更快的运行时解决方案。根据对渲染的经验研究，我们可以做一个额外的假设，即每个轮廓只发生一次遮挡。因此，我们识别出具有端点c1和c2的线性轮廓C的以下主要遮挡情况：（i）两个端点都可见，但轮廓完全遮挡，(ii) 右端点被遮挡，轮廓的可见部分包含左端点，（iii）左端点被遮挡，轮廓的可见部分包含右端点，(iv) 两个端点都是可见的，但在c1和c2之间的某些地方发生了闭塞。这些闭塞不是孤立的，但却是我们在Thingi10K的属0和属1中看到的主要闭塞。形式算法如下所示。沿着曲线从左向右移动，使用光线投射功能搜索第一个可见点和最后一个可见点图2.所得到的地面实况分类（顶行）和对应分组（底行）的示例结果。在顶行中，在第3.2节中提到，像这样的光线投射方法将是耗时的。因此，我们沿着每个角平分线描绘点，作为样本的代表点集，以确定三角形的可见性。形式上，让s1. . . S n示出了沿着每个角平分线的采样点。再次考虑光线投射函数，如果事件我们通过测试N来=8分第一，射线可以击中三角形内的点si。因此，委员会认为，全球然后在点的可见性改变的间隔中执行受限搜索，Nlocal=30 在forward搜索中，设c1f是第一个可见点，c2f是最后一个可见点。此外，我们在相反的方向上执行相同的搜索，导致c1b作为第一个可见点，c2b作为最后一个可见点。我们将这些案例总结如下：(1) c1f=c2f=c1和c1b=c2b=c2两个端点都是可见的，但整个线段被遮挡。三角形T隐藏，如果n光线投射（si）=0，因为没有一条来自相机的光线能够击中三角形内的任何点。否则，三角形可见。这种方法使我们能够完全区分obscuring和凹/凸轮廓。接下来，我们遵循Stein等人的工作中的扩展凸性准则。[8]以区分凹轮廓和凸轮廓。我们建立从摄像机原点到每个三角形质心的向量，作为向量x1和x2。更多-在r上，单位位移vector，d=x1−x2，以及trian-(2) c1f=c1和c2fc2，c2不可见→右角单位法线，||x⃗1−x⃗2||端点被遮挡，而轮廓的左侧部分可见。(3) c1b=c2和c2b=c1，且c1不可见左端点被遮挡，而轮廓的右部分可见。（4）c1f=c1，c2f=c2，c1b=c2，c2bc1遮挡发生在两个端点之间的某处，导致两个轮廓。3.3. 轮廓分类为了对Huffman-Clowes轮廓进行分类，我们首先将问题细分以区分obscur- ing轮廓和凹/凸轮廓。从所提供的凸性定义来看，这两种类型之间的主要区别如果两个面都对摄影机可见（部分或全部），则轮廓是凹/凸的。如果其中一个面被隐藏，则轮廓被遮挡。因此，确定三角形的可见性相当于学习关于轮廓的凸性的重要信息用于确定三角形的可见性的蛮力解决方案作为n=1和n=2，完全建立了轮廓的连续性，因为当n=2d=n=1d= 1时，会出现连续x轮廓否则，它是凹的[8]。分类的最终示例结果如图所示。二、3.4. 轮廓编组提取的轮廓是完全线性的，因为我们数据集中的曲线，到这一点上，是用有限的线近似的在后续的下游任务中，如轮廓检测，这是一个挑战，因为现有技术的分割算法无法检测到这样的小片段。为了充分利用线标记数据集的潜力，我们将形成特定曲线的较小线性段分组。形式上，我们构造了一个加权图G=（V，E），其中每个轮廓是一个节点，连接两个轮廓的每个连接点是一条边。每个边的相关成本是局部曲率，它由两个轮廓的单位法线之间的角度测量。目标是以最小化总成本的方式连接图节点，以形成最小生成树（MST）[13]。分组算法的细节定义如下：- 我们初始化指定每个轮廓的堆3140.·∈∈表3.所见模型的定量mAP结果度量不可见-mAP地图模糊凸凹SOLOv217.4627.7320.475.15SOLOv2 +终点20.1924.1529.827.70Mask2former22.327.1526.9312.34Mask2former + earlyfusion23.128.2127.8011.23表4.未知模型的定量mAP结果分组优先级，这取决于它的邻居数量和局部曲率。这种排序的必要性是必不可少的，因为我们更倾向于将曲率差异很小的“更容易”的轮廓分组，而不是将更靠近连接点的“更难”的轮廓分组当每个轮廓从堆中弹出时，我们考虑是否需要与其邻居进行链接我们将轮廓A和B连接起来，当且仅当：4. 通过预测进行考虑2D场景，其中不存在用于自动标记的3D模型。为了分析这些新场景中的凸性，我们需要一个在我们的新数据集上训练的可推广的分割算法。在本节中，我们的目标是(1)了解我们数据集上的SOTA分割性能，以及（2）分析可见和不可见模型的性能，以了解可推广性。cost（A，B）= 0l（A）=l（B），θAB Cthresh1其他（一）4.1. 方法其中l（）返回轮廓为了使总成本最小化，必须满足第一个条件才能进行分组。- 两条等高线A和B的连接导致具有单位法线cA<$B 的超等高线 AB ，这是c<$A和c<$B 的平均值，并且标记l（AB）=l（A）=l（B）。超轮廓的未来链接必须遵守成本表达式，当链接成本为1时，超轮廓与其邻居的分组结束。当超级轮廓不能再组合时，总体分组被包括- 我们进一步链接超轮廓在当地一级，作为- der的初始分组影响组生成。为此，我们引入以下标准来对超轮廓X和Y执行附加分组：（i）标签必须匹配，l（X）=l（Y）。（ii）如果Y是X的右近邻，X是Y的左近邻，则Y必定是唯一的右近邻，X必定是唯一的左近邻。（iii）对于给定的轮廓xX和yY，使得x和y是直接相邻的，它们各自的单位法线之间的角度θxy必须符合条件θxy

下载后可阅读完整内容，剩余1页未读，立即下载