没有合适的资源?快使用搜索试试~ 我知道了~
16969ConDor:局部形状1AdrienPoulenard2Jivitesh Jain1Radhika Dua3Leonidas J.SrinathSridhar41RRC,IIIT-Hyderabad2斯坦福大学3KAIST4布朗大学ivl.cs.brown.edu/ConDor图1. ConDor是一种自我监督的方法,可以学习对完整和部分形状的3D或方向和位置(3D姿势)进行C化(左)我们的方法将来自不同类别的未规范化的3D点云(灰色)作为输入,并产生一致的规范化输出(彩色)。(右)我们的方法也可以对部分点云进行操作(仅为可视化而显示的形状的缺失部分)。此外,ConDor还可以在没有监督的情况下学习形状的一致共分割,可视化为彩色部分。摘要3D对象理解的进展依赖于手动“规范化”形状数据集,其包含具有一致位置和取向(3D姿态)的这使得很难将这些方法推广到野外形状,从因特网模型集合或深度传感器。ConDor是一种自我监督的方法,可以学习对完整和部分3D点云的3D方向和位置进行C化我们建立在张量场网络(Tensor Field Networks,TFN)之上,TFN是一类置换和旋转等变的,并且是平移不变的3D网络。在推理过程中,我们的方法以任意姿态获取不可见的完整或部分3D点云,并输出等效的规范姿态。在训练期间,该网络使用自我监督损失来从完整和部分3D点云的非规范化集合中学习规范姿势。ConDor还可以在没有任何监督的情况下学习一致地共同分割对象部分四个新指标的大量定量结果表明,我们的方法优于现有的方法,同时使新的应用程序,如操作的深度图像和注释传输。1. 介绍人类有能力识别3D物体,各种各样的位置和方向(姿势)[40],即使物体被遮挡。我们似乎也更喜欢某些规范的观点[10],有证据表明,处于新姿势的对象在心理上旋转到规范姿势[47]以帮助识别。受此启发,我们的目标是建立场景理解方法,通过学习将不同姿势的物体映射到一个标准姿势,而无需明确的监督。给定3D对象形状,实例级规范化的目标是找到相对于不同3D姿态下的形状的几何结构一致的等变参考框架。这个问题可以解决,如果我们有形状对应和一种方法来找到一个独特的等变框架(例如,PCA)。然而,如果我们想要对缺乏对应性的不同对象实例的不同3D姿态进行操作,则会变得尽管对类别级3D对象理解有极大的兴趣,但这种类别级规范化问题受到的关注要少得多[8,11,14,25,26,31,56]。大多数方法依赖于数据增强[23],或人工注释的数据集[3,56],其中包含在每个类别[44,48,52]中一致定位和定向的实例。这阻碍了这些方法在非规范化数据源(如在线模型集合)中的广泛应用[1]。该问题由于规范化部分形状观测的困难而进一步恶化(例如,来自深度图[36]),或者需要理解实例间部分关系的对称对象。最近的工作使用弱监督[15,38]或自监督学习[13,29,43,46]解决了这些限制,但无法处理部分3D形状,或者仅限于规范化方向。16970我们介绍了ConDor,一种用于自监督类别级C和局部形状的3D姿态的 它由一个神经网络组成,该神经网络在具有不一致3D姿态的3D点云的非规范化集合上进行训练。 在推理过程中,我们的方法以任意姿态获取对象的完整或部分3D点云,并输出规范的旋转框架和平移向量。为了能够对来自不同类别的实例进行操作,我们构建了张量场网络(TFN)[49],这是一种3D点云架构,它与3D旋转和点置换等变为了处理部分形状,我们使用了一个两个分支(连体)网络与训练数据,模拟通过形状切片或相机投影。我们引入了几个损失,以帮助我们的方法学习规范化3D姿态通过自我监督。我们的方法的一个令人惊讶的特点是(可选)能够在没有任何监督的情况下跨实例学习一致的部分共分割[6](见图1)。仅考虑到最近的兴趣,规范化方法的评价尚未涌现因此,我们提出了四个新的指标,旨在评估实例和类别级规范化的一致性,以及与手动预规范化数据集的一致性通过与基线和其他方法进行比较,我们使用这些指标广泛评估了我们方法的性能[43,46]。对常见形状类别的定量和定性结果表明,我们优于现有的方法,并产生一致的姿态规范的完整和部分三维点云。我们还展示了以前困难的应用程序,使我们的方法,如操作部分点云从深度图,关键点注释转移,并扩大现有数据集的大小总而言之,我们的贡献包括:• 一种自我监督的方法,用于规范来自各种对象类别的全点云• 也可以处理部分3D点云的方法。• 评估规范化方法、广泛实验和新应用的新指标2. 相关工作人类感知中的典型对象表征已被广泛研究为心理旋转[40,47],形状恒定性和等效性[30]以及典型视图[10]。我们回顾相关的工作,研究或使用规范化的机器感知的3D场景。3D场景理解:在形状分类、重建和配准等任务中,3D姿态的不变性和等变性最初是使用手工制作的特征[17,37,39]。通过机器学习,这些特征被学习的特征所取代[51,53,59],但是3D数据在学习不变特征方面带来了挑战[33]。通过对每个对象的3D姿态空间进行采样来进行数据增强是解决这个问题的一种方法[23],但会导致更长的训练和更大的网络。类别级对象重建方法已经获得了显着的关注,其表示范围包括体素网格[8,25],隐式曲面[31],参数曲面[14,22],点云[57]和深度图像[61]。几乎所有这些方法都依赖于手动预规范化的数据集,如ShapeNet [4]和ModelNet40 [56],以学习有效学习的归纳偏差[48]。神经网络也已成功用于对象部分的监督[27]和无监督[63D神经网络:已经提出了许多神经网络来处理表示为vox-els [24,34,56],多视图[45],点云[33,35,54]或网格[16,58]的3D数据。对于3D点云,PointNet相关方法实现了点排列等变性和平移等变性,但不能实现旋转等变性。球面CNN [9]和张量场网络(TFN)[32,49]解决了这一限制。我们使用3D点云作为我们的形状表示和TFN,以实现置换,平移和旋转的等变性。受监督的规范化:形状的受监督的规范化使得诸如实例级相机姿态估计[42]或人类姿态估计[18,41]。它也可以用于类别级推理,例如6 DoF姿态估计[50,52]。然而,这些方法仅限于从具有地面真实规范化的数据中学习,使得难以推广到真实数据。我们的方法与最近关于弱监督[15,38]或语义关键点[29]和点云[43,46]规范化的自监督学习的工作最相关与这些方法不同,我们可以规范化部分形状的方向和平移。3. 背景3D姿势规范化:对象的3D姿势是指其在由内在对象中心参考系(由原点和正交旋转定义)指定的空间中的3D位置和方向。在许多问题中,在不同形状上具有一致的固有框架是至关重要的[5,12,32,62]。我们把这样一个相容的内禀框架称为典范框架.这个框架与物体一起变换,即,它是等变的。对象姿态相对于规范框架是恒定的在实例级3D姿势规范化中,我们的目标是在同一对象实例的不同姿势中找到一致的规范框架(图2,顶部)。在类别级3D姿态规范化中,我们需要一个在几何和局部形状方面一致跨不同的对象实例(图2,底部)。任何在形状上一致的等变框架都是有效的16971*j*jij:,j伊伊季旋转不变点云/嵌入:到估计一个旋转不变的点云,我们建立在一个置换,旋转等变和平移不变的神经网络架构之上:张量场网络(TFNs)[49]与TFN的等变非线性[32]。给定X,我们使用TFN [32]来产生全局等变fea。图F,列F 如第3节所述。图2.针对不同3D姿势中的相同实例(顶部)和不同3D姿势中的不同实例(底部)可视化的规范帧最后一列显示了带有非模态框架的部分形状规范框架-除了完整的形状,我们还考虑部分形状规范化,我们定义了一个非模态规范框架,如图2所示。张量场网络:我们的方法估计了一个典型的框架表示为点云的3D形状。对于这项任务,我们使用张量场网络[49](TFN),这是一种3D架构,对点置换和旋转等变,对平移不变。 给定一个点云X∈R3×K和一个整数(aka类型)N∈ N,TFN可以产生一个矩阵F∈R(2<$+1)×C 中 的 2 <$ + 1 <$ k 维 的 全 局( 类 型 <$ ) 特 征 向 量 ,其中C是用户定义的通道数。F(X)满足等方差性F(RX)=D(R)F(X),其中[ 32 ]的中心观察是特征F具有与球谐基中的球函数的系数相同的旋转等方差性质,因此可以这样处理。我们利用这个属性,通过使用球谐函数基嵌入形状,并使用全局TFN特征F作为该嵌入的系数。由于球谐嵌入的输入和系数与输入形状一起旋转,因此它们可以用于定义形状的旋转和平移不变嵌入。形式上,设Y_∞(x)∈R2_∞+1是定义在R3上的齐次多项式的n次球面调和函数的向量. 我们定义了一个旋转不变嵌入的形状作为点积H其中i是点云上单个点的索引,j是第3节中的通道索引。当旋转输入点云X时,点积的两边被相同的Wigner旋转矩阵旋转,使得H对X的旋转不变性。输入点云是均值中心的,以实现平移不变性注意我们可以使用任何形式的函数基:x,其中(φr)r是定义H的实值函数。我们使用对应于θ=1(1度)的旋转不变嵌入来产生3D不变形状*j*j穿过H上的线性层。 请注意,1级D:SO(3)→SO(2+1)是所谓的维格纳矩阵(类型为)[7,20,21]。详情请参见[2,32,49,55]4. 方法给定一个点云X∈R3×K,表示一组非对齐形状中的完整或部分形状,我们的目标是估计其旋转R(X)(规范框架),将X发送到规范姿势。对于部分形状Y<$X,我们还学习了在规范框架中将Y与X对齐的平移T(Y)我们通过以自我监督的方式在3D形状上训练神经网络来实现这一点(见图3)。4.1. 学习规范化旋转我们首先讨论的情况下,规范化的三维旋转完整的形状。给定一个点云X,我们的方法估计一个旋转不变的点云Xc,和一个等价的旋转E,旋转Xc到X。请注意,对于完整形状,平移可以使用平均中心化[29]规范化,但这不适用于部分形状。球谐函数是输入点云的x,y,z坐标,因为Y1(x)=x。正如我们在第4.3节中所展示的,其他的选择使我们能够在没有监督的情况下学习一致的共分割。 3D旋转不变形状由下式给出:X c:=<$W:,jH1= W(F1)<$X i.(二)J我们得到我们的规范框架,如第3节所述,R(X)=W(F1),其中W是线性层的可学习权重矩阵。旋转等变嵌入:接下来,我们寻求找到将Xc变换为X的等变旋转。除了等变特征F之外,我们的TFN还输出3D等变框架E,我们将其优化为旋转矩阵。E满足等方差关系E(R,X)=RE(X),使得点云E(X)Xc是旋转等价的。请注意,我们可以选择E(X)=R(X),但我们选择独立学习E(X),因为这种方法适用于非线性嵌入的情况16972图3. 雕 (左)我们的方法通过估计等变姿态E(X)和不变点来学习规范化旋转 输入形状X的云Xc。自我监督损失确保输入和转换的规范形状匹配。(右)为了处理部分形状的平移,我们训练了一个两分支(连体)架构,一个采用完整的形状,另一个采用被遮挡的形状(例如,经由切片)完整形状的版本作为输入。各种损失确保了完整形状和部分形状的特征嵌入匹配。我们从局部形状预测了全形状T(O(X))的非模态重心,从而对位置进行了规范化(例如,在等式(2)中,使用除k=1以外的值),我们在4.3节中将其用于无监督分割。使用E,我们可以将3D不变嵌入Xc转换回输入等变嵌入,并将其与输入点云进行比较。为了处理高遮挡和对称对象的情况,我们估计P等变旋转,并选择最小化输入和预测不变形状中的对应点之间的L24.2. 学习翻译规范化接下来,我们将讨论规范化局部点云的3D平移,例如, 从深度传感器或Li-DAR获取。如前所述,完整形状的翻译规范化是使用平均居中实现的[29]。因此,我们在第4.1节中的方法对于完整形状的3D姿势规范化是足够的。然而,部分形状可以具有不同的质心,这取决于形状如何被遮挡。 为了解决这个问题,我们扩展了我们的方法,以额外地找到旋转等变平移T ∈ R 3,该平移T∈ R 3估计来自平均中心的部分点云的完整形状和部分形状的重心之间的差异,该平均中心的部分点云将其平移以与输入帧中的完整形状对齐。在实践中,我们在一个两分支的连体架构中实现了上述思想,如图3所示。我们对输入点云进行切片以引入合成遮挡。我们通过确保完整和部分点云之间的语义一致性来惩罚网络。此外,我们的网络预测一个非模态平移向量,该向量从部分输入形状中捕获完整形状的重心对应于所有的矩阵0,以产生非线性不变嵌入。为了获得一致的旋转不变部分分割,我们通过在旋转不变嵌入之上学习MLP将输入形状分割成N个输入点云中每个点的部分标签由Si:= softmax[MLP(H)i]给出。在论文中可视化的结果包括这些分割作为彩色标签。详情请参阅补充材料5. 自我监督学习5.1. 损失函数我们工作的一个关键贡献是证明3D姿势规范化可以通过自监督学习来实现,而不是从标记数据集进行监督学习[4,56]。我们现在列出实现这一点的损失函数。此外,我们描述的损失,防止退化的结果,处理对称的形状,并使无监督分割。我们从完整的形状开始。典型形状损失:我们的主要自监督信号来自典型形状损失,其试图最小化由旋转等变旋转E变换的旋转不变点云Xc与输入点云X之间的L2损失。 值得注意的是,Xc和X是对应的,因为我们的方法是置换等变的,我们提取逐点嵌入。为对于大小为K的点云中的每个点i,我们将标准形状损失定义为L=1EX c−X。(三)4.3.无监督共分割卡农K我ii2一个令人惊讶的发现是,我们的方法可以用于完整和部分形状的无监督部分共分割[6],只需很少修改。该结果通过找到等式(1)中的旋转不变嵌入H我们经验地观察到,我们对E的估计可以是当对象类具有对称性或严重遮挡时,翻转180°或Xc为了解决这个问题,我们估计P个等变旋转Ep,并选择一个最小化上述损失。16973Σ^[X])最小化[X])1升c^2正交正规性损失:我们的方法估计的等变旋转E必须是SO(3)中的有效旋转,但这不能由TFN保证因此,我们通过最小化E与其最接近的标准正交矩阵的差来增加损失以约束E是标准正交的我们使用E=UV的SVD分解并在损失的情况下强制单位特征值来实现Lortho=UV−E2。(4)分离损失:当估计P个等变旋转E p时,我们的方法可以学习一个退化的解,其中所有E p都是相似的。 为了避免这个问题,我们引入了分离损失,鼓励网络估计不同的等变旋转,5.2. 网络架构培训我们的方法是在一组未规范化的形状X和使用合适的算子O随机生成的部分形状上训练的。我们报告两种类型的干扰:切片和图像投影(即,深度图)。我们从[32]中借用我们的TFN架构,并在所有层中使用ReLU非线性。我们使用1024和512点的完整和部分点云。我们的方法为每个类别预测5个规范框架。 我们的模-使用Adam [19]优化器对每个类别的el进行45,000次迭代训练,初始学习率为6×10−4。我们设置了一个步长学习率调度器,每15,000步将学习率衰减10−1倍我们L分离 =−1||E9Pii=j-E j||2.(五)模型在Linux上使用Nvidia Titan V GPU进行训练限制损失:我们接下来将注意力转向部分形状。类似于完整的形状,我们计算典型的形状、正交性和分离损失。We assume that a partialshape is a result of a cropping operator O that acts on a fullpoint cloud X to select points corresponding to a partialversion O(X) ⊆ X.在实践中,我们的裁剪操作是切片或图像投影(见5.2节)。在训练过程中,我们训练我们的方法的两个分支,一个是完整的形状,另一个是使用O.然后,我们强制部分形状的不变嵌入是使用损失的完整形状X的不变嵌入的限制。L=10−。Oc2002,(6)6. 实验我们提出了定量和定性的结果来比较我们的方法与基线和现有的方法,合理的设计选择,并演示应用程序。数 据 集 : 对 于 完 整 的 形 状 , 我 们 使 用 ShapeNet(Core)[3]和ModelNet40 [56]中的非规范化形状。对于ShapeNet,我们的数据分割[11,46]有31,747个训练形状和7,943个验证形状,其中每个形状都是一个3D点云,其中1024个点使用最远点采样进行采样。这些形状来自13个类别:飞机、长凳、橱柜、汽车、椅子、显示器、灯、扬声器、火器、沙发、桌子、手机和船只。对于ModelNet40 [56],休息|S| i∈S[X]i[X]2我我们使用40个类别,12,311个形状(2,468个测试)。为其中S是X和O(X)中的点的有效索引的集合,并且帽子指示均值中心点云。在推理过程中,我们不需要完整的形状,仅对部分形状进行操作。根据经验,我们观察到我们的方法可以推广到训练和推理之间的不同裁剪操作(见第6.3节)。非模态平移损失:最后,为了将以平均值为中心的部分形状与完整形状对齐,我们仅使用旋转等变量平移向量T(O^Lamod=<$T ( O^−O ( X ) <$2.(7)无监督部分分割损失:我们的方法中有一个令人惊讶的发现,我们可以在没有任何监督的情况下将对象分割成跨实例的部分(见图1)。这是通过解释更高的德-green不变量嵌入H∞作为无监督分割的特征。我们的损失是基于[46]的局部化和均衡损失。 关于这些损失的详细情况,我们请读者参看[46]和补充文件请注意,[46]需要执行分割以启用旋转规范化,而这对我们来说是可选的。部分形状,我们要么随机切片形状从或者我们使用更具挑战性的ShapeNet-COCO数据集[44],该数据集包含从多个摄像机角度观察的对象,并模拟深度传感器的遮挡。虽然所有这些数据集都已经预规范化,但我们只使用这些信息进行评估-6.1. 规范化大多数规范化工作间接评估下游任务(如分割或注册)的性能[43,46]。这使得很难将标准化绩效与任务绩效分开。我们贡献了四个新的指标,衡量不同方面的3D姿态规范化,同时解开下游任务的性能。这些度量中的前三个度量评估假定均值居中的旋转,而最后一个度量测量部分形状的平移误差。实例级一致性(IC):IC度量被设计用于评估一种方法在规范化同一形状实例的3D旋转方面的表现。对于数据集中的每个形状,我们通过以下方式获得它的另一个副本16974ΣΣ表1.与PCA基线、规范胶囊(CaCa)[46]和指南针[43]以及我们方法的完整(F)和完整+部分(F+P)版本相比,完整形状规范化。我们在大多数类别和指标上都优于方法。板凳内阁车Cellph。椅子沙发火器灯监测平面扬声器表水avg.多实例级一致性(IC)↓PCA0.05730.03500.04770.02760.09740.06280.03240.07550.04800.05020.04910.07270.04000.05350.0535钙钙[46]0.06300.15670.04260.08230.02530.14790.00840.03720.07480.00930.15400.07870.02700.06980.0395指南针[43]0.10300.08160.07900.06640.07910.07660.07480.04950.06380.06100.07210.06410.04300.07030.0507我国(女)0.02250.03460.01910.02340.02210.02210.00810.04540.02830.01630.07870.05230.02700.03080.0394我们的(F+P)0.06960.02880.02300.02630.02350.02220.00840.04030.02420.01440.06780.03610.02360.03140.0329类别级一致性(CC)↓地面实况0.09800.14600.05780.07330.11910.09550.05360.21470.10880.06730.17090.14440.09150.11080.1108PCA0.09760.10550.06540.06000.13890.09370.05270.18020.09700.07310.13970.14790.08160.10260.1026钙钙[46]0.11340.17420.07300.10330.12200.19190.04930.18880.11860.06840.18400.16600.08830.12620.1132指南针[43]0.16540.13480.10770.09310.15220.11750.12580.18330.12660.10190.15790.16260.09420.13250.1283我国(女)0.10430.10670.05750.06120.11350.08690.05250.17540.09880.06810.15040.14750.08510.10060.1035我们的(F+P)0.12500.10650.05810.06350.11450.08740.05000.18440.10010.06790.14770.14320.09120.10300.1005地面真实一致性(GC)↓PCA0.07600.10470.02080.03900.11900.07990.02610.13660.08620.04600.12800.12670.06450.08100.0810钙钙[46]0.07610.06880.05290.06670.09430.18120.03300.15920.08970.02660.07440.14010.06830.08700.1060指南针[43]0.15990.15860.08920.08510.15040.11600.12140.16540.12310.09750.15520.15540.08040.12750.1247我国(女)0.06710.11310.02570.05110.05260.05850.03590.13990.06740.02550.15050.07790.07460.07230.0902我们的(F+P)0.11150.11340.02300.05530.05090.05370.02230.12740.06500.02860.14560.07380.04770.07060.0843从R应用旋转,用户定义的随机旋转的集合X i∈ X并计算它们之间的2路CD。(我们使用120次旋转)。然后我们计算2路1GC:=[R(X).X,R(X).X].倒角距离(CD),用于处理具有对称性的例如表,|3|3Xi,Xj,Xk∈X我的天形状(上标c)。我们希望这是尽可能小平均IC度量给出为:1πIC:=CD[(R. X)c,X c]。我们注意到,手动规范化,这是基于对人类形状语义理解的影响,并不一定与本文基于几何相似性的规范化概念相匹配尽管如此,这个指标提供了一种与人类注释进行比较的方法。|X||R|J IXi∈XRj∈R翻译错误(TE):衡量翻译中的错误类别级一致性(CC):CC度量被设计用于评估不同形状实例之间的3D旋转规范化的质量。对于数据集中的每个形状X,我们选取N个其他形状以形成一组组合形状N。然后,我们遵循与IC类似的方法,并计算每个形状与其N个可能的比较形状之间的双向倒角距离。直观地说,如果规范化在不同实例中是一致的,我们预计这个指标会很低。理想情况下,我们希望为所有可能的比较形状评估此度量,但为了减少计算时间,我们选择N=120个随机比较形状。平均CC度量给出为:对于部分形状,我们计算估计的非模态平移和地面真值之间的平均L2范数amodal translation请注意,我们有我们的数据集的地面实况amodal转换,因为部分形状是使用遮挡函数O从完整形状生成的。6.2. 比较我们报告的比较规范化的完整和部分的形状。只有第6.1节中的旋转度量与完整形状相关,因为我们假设输入形状是均值中心的,没有平移差异[29]。我们1CC:=[X c,X c].报告部分形状规范化的TE度量出去-|X|NI jXi∈XX j∈N除了这些指标,我们还报告了对以下方面的间接评估:经典化[43,46]分类。地 面 实 况 一 致 性 ( GC ) : GC 度 量 被 设 计 为 在ShapeNet和ModelNet40等数据集中比较估计的规范化与手动地面实况预规范化。对于完美的规范化,预测的规范形状应该是远离地面真实形状的恒定旋转给定对齐形状Xj,Xk∈ X的预测标准化框架R(Xj),R(Xk),我们在任何其他形状规范化度量:我们使用新的规范化度量将我们的方法与基线和其他方法进行比较(第6.1节)。在这个实验中,我们遵循了大量的工作[11],并从ShapeNet中选择了13个类别,每个类别训练一个模型,我们选择PCA作为基线-对于16975表2.与PCA和Compass* 相比,部分形状规范化,我们对[43]的修改。我们比其他方法在完整形状设置中表现更好。板凳内阁车Cellph。椅子沙发火器灯监测平面扬声器表水avg.多地面真实一致性(GC)↓PCA0.09160.13910.07270.08790.13370.09080.03710.19850.08040.09150.14790.10870.10210.10630.1063指南针 *0.19170.14120.10200.10660.14760.11150.15380.17350.11940.11150.16170.17090.07370.13580.1423我们的(F+P)0.14160.11820.03560.06850.07800.05930.03000.15010.06920.03600.14690.06620.07390.08260.1016实例级一致性(IC)↓PCA0.10330.11400.11490.08280.14750.12210.05170.15710.08670.10000.11820.14010.07560.10880.1088指南针 *0.19000.07900.11830.09110.12800.10530.14400.10000.08360.10000.11340.10800.04870.10840.1247我们的(F+P)0.14320.05010.03490.04420.06220.04780.02210.08910.04420.02650.10860.07390.04690.06110.0792类别级一致性(CC)↓PCA0.12690.15000.12530.10810.16360.13670.06910.23120.11780.11240.16770.17690.10780.13800.1380指南针 *0.21180.13000.14380.12150.16120.12800.16880.19900.12420.12550.17600.17190.09190.15030.1647我们的(F+P)0.16950.11090.06320.07390.12700.09350.05460.20480.10420.07130.16660.15790.09360.11470.1234我们比较了两种旋转正则化方法:经典胶囊(CaCa)[46]和指南针[43]。完整形状规范化的结果如表1所示。我们评估了我们的方法在完整形状上的两个版本,一个只训练完整形状(F),另一个训练完整和部分形状(F+P)。对于IC度量,我们的方法在几乎所有类别中都优于其他方法,包括基线。由于帧模糊性,PCA在IC度量中表现不佳。我们的方法优于其他规范化方法,但令人惊讶的是,我们发现PCA非常接近。对于CC度量,将不同几何形状的规范化形状彼此进行比较。PCA通过使用以下方法对齐形状来最小化CC度量:Net [33],它对规范化的输出进行分类。我们观察到,我们的方法(74.6%)在分类准确性方面优于其他方法 : PCA ( 64.9% ) 、 CaCa ( 72.5% ) 和 Compass(72.2%)。请参见补充文件进行注册对比。配准:我们测量了我们的方法在表3中的完整形状上的类别(飞机,椅子,多)的配准精度。我们的方法在这个任务中表现不好,因为我们预测的帧E∈O(3)可能具有反射对称性,导致高RMSE,但低CD。表3. 配准-仅 适用于完整形状的ShapeNet(核心)数据集上的配准点和真实点之间的均方根的主要方向,但并没有导致正确的规范框架,如第6.2节所示(见附录的深入讨论)。第6.2节中的定性结果表明,我们的表现明显优于其他方法。最后,我们的方法在GC度量上优于其他方法,这表明它可以用于扩展现有数据集的大小(参见第6.4节)。接下来,我们讨论部分形状规范化的结果如表2所示。由于不存在用于部分形状规范化的其他方法,因此我们修改了Compass的训练设置,以包括切片 增 强 ( 使 用 O ) , 以 类 似 于 我 们 的 F+P 方 法(Compass*)。所有方法的训练数据和遮挡函数都是相同的。与完整形状不同,我们观察到我们的方法在所有三个指标上都显著优于其他方法,这表明我们的方法我们还计算了所有单类别模型的平均平移误差(TE)为0.0291,而多类别模型的平均平移误差为0.0326对于互补性,我们所有的形状都位于单位对角长方体内[4]。3D形状分类:我们测量3D形状分类准确性作为规范化的间接度量[43]。我们用来自所有13个类别的非规范化形状训练模型。我们增加PCA基线,CaCa,指南针和我们的全形状模型与点-6.3. 消融我们证明了以下关键设计选择的合理性:增加遮挡/遮挡量的影响、损失函数(第5.1节)和多帧的好处。遮挡/偏置程度:我们检查模型处理汽车类别不同数量我们的遮挡函数O遮挡形状以仅保持原始形状的25%和75%之间的一小部分(即,25%比75%更闭塞)。所有指标的平均值表明,我们的方法在50%遮挡(25%:0.0594,50%:0.0580,75%:0.0886)。损失函数:我们评估我们的F+P模型在训练了所有损失的完整和部分形状上,没有分离损失Lsep,没有限制损失Lrest。我们观察到,使用Lsep和Lrest在所有规范化中表现最佳,平均误差最小为0.0696RMSE↓倒角(CD)↓方法飞机椅子多飞机椅子多PCA0.6160.6950.7150.0500.0970.054[53]第五十三话0.3180.1600.131---深度GMR [60]0.0790.0820.077---钙钙[46]0.0240.0270.0700.0090.0260.040指南针[43]0.3610.3690.4870.0610.0790.051我国(女)0.2540.3140.4960.0150.0260.040我们的(F + P)0.2010.2800.4040.0140.0230.03316976图4.(左)与其他方法在6个随机选择的完整形状上的定性比较。(中)我们的方法在挑战完整/部分汽车形状和各种完整/部分灯形状(仅为可视化显示缺失部分最后一(右)图1-2:我们的方法在将稀疏关键点从一个形状转移到另一个形状中的应用。第3行:来自ShapeNetCoco [44]数据集的两个深度图的规范化,显示规范化形状的一致性。所有结果均使用Mitsuba 2绘制[28]。三个类别(飞机,桌子,椅子)的指标。多帧预测:我们消除了我们的方法预测的标准帧的数量(1,3,5),以衡量确保其在对称范畴上的有效性我们评估在两个对称类别(桌子和灯)上,观察(表4)3和5帧在大多数情况下表现更好表4.我们的方法通过估计多个规范框架来处理对称类别,如灯和桌子。类别灯表帧135135GC(完整)↓0.14000.13700.12740.07490.06930.0738IC(满)↓0.06860.06350.04030.06070.05640.0361CC(满)↓0.18690.18870.18440.15950.15690.1432GC(部分)↓0.17820.17110.15010.06810.06350.0662IC(部分)↓0.13760.13190.08910.09230.09360.0739CC(部分)↓0.22300.22260.20480.17050.17220.15796.4. 应用ConDor使以前困难的应用程序,特别是类别级对象理解。首先,由于我们的方法对部分形状进行操作,因此我们可以规范深度图像中的对象。 为了验证这一点,我们使用来自ShapeNetCOCO数据集[44]的深度图,并从深度图中规范化部分点云。第6.2节(右,第3行)示出了深度图规范化的示例(参见补充)。其次,由于我们的方法优于其他方法,我们相信它可以用来扩展现有的规范数据集与非规范化的形状从互联网上-最后,我们证明了ConDor可以用于转移形状实例之间的稀疏关键点注释。我们利用使用我们的方法学习的无监督部分分割第6.2节(右,第1-7. 结论我们引入了ConDor,这是一种自我监督的方法,用于规范完整和部分3D形状的3D姿势。我们的方法使用TFN和自我监督损失来学习从未规范化的形状集合中规范化姿势。此外,我们可以学习在没有监督的情况下一致地共同分割对象部分。我们报告了使用四个新指标和新应用程序的详细实验。限制未来的工作:尽管我们的结果质量很高,但我们遇到了失败(见第6.2节),主要是对称或具有精细细节的对象(灯)其中规范框架不正确。我们还观察到PCA通常表现得非常好,有时在完整形状上表现得比其他方法更好(我们在部分形状上表现得更好由于O(3)框架的预测,我们的方法偶尔会沿着对称轴生成翻转的正则化形状我们的工作可以扩展到规范化纯粹从局部形状和执行规模规范化。鸣谢:这项工作得到了AFOSR基金FA 9550 -21-1-0214的支持,这是一个谷歌研究学者奖 , 万 尼 瓦 尔 布 什 教 师 奖 学 金 , ARL 赠 款W911NF2120104 , 并 从 Adobe 和 Autodesk 公 司 的 礼物。我们感谢审稿人的宝贵意见。16977引用[1] Unity 资 产 商 店 - 游 戏 制 作 的 最 佳 资 产 。https://assetstore.unity.com/ 网 站 。 ( 于2021年8月11日查阅)1[2] Brandon Anderson , Truong-Son Hy , and Risi Kondor.Cor-morant:协变分子神经网络arXiv预印本arXiv:1906.04015,2019。3[3] AngelXChang , ThomasFunkhouser , LeonidasGuibas,Pat Hanrahan,Qixing Huang,Zimming Li,Silvio Savarese , Manolis Savva , Shuran Song , HaoSu,et al. Shapenet:一个信息丰富的3D模型存储库。arXiv预印本arXiv:1512.03012,2015。一、五[4] 天使XChang,Thomas Funkhouser,Leonidas Guibas,Pat Hanrahan , Qixing Huang , Zimo Li , SilvioSavarese , Mano-lis Savva , Shuran Song , Hao Su ,Jianxiong Xiao,Li Yi,and Fisher Yu.ShapeNet:一个信息 丰 富 的 3D 模 型 库 。 技 术 报 告 arXiv : 1512.03012[cs.GR],斯坦福大学-普林斯顿大学-芝加哥丰田技术研究所,2015年。二四七[5] Chao Chen,Guanbin Li,Ruijia Xu,Tianshui Chen,Meng Wang,and Liang
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++标准程序库:权威指南
- Java解惑:奇数判断误区与改进方法
- C++编程必读:20种设计模式详解与实战
- LM3S8962微控制器数据手册
- 51单片机C语言实战教程:从入门到精通
- Spring3.0权威指南:JavaEE6实战
- Win32多线程程序设计详解
- Lucene2.9.1开发全攻略:从环境配置到索引创建
- 内存虚拟硬盘技术:提升电脑速度的秘密武器
- Java操作数据库:保存与显示图片到数据库及页面
- ISO14001:2004环境管理体系要求详解
- ShopExV4.8二次开发详解
- 企业形象与产品推广一站式网站建设技术方案揭秘
- Shopex二次开发:触发器与控制器重定向技术详解
- FPGA开发实战指南:创新设计与进阶技巧
- ShopExV4.8二次开发入门:解决升级问题与功能扩展
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功