没有合适的资源?快使用搜索试试~ 我知道了~
1基于多路径学习的跨域马丁·桑德迈尔1,2,马克西米利安·德纳1,2,恩延·普安1,佐尔坦·乔巴·马顿1,纳鲁纳斯·瓦斯克维丘斯3,凯·奥。Arras3,Rudolph Triebel1,21德国航空航天中心(DLR),2慕尼黑工业大学(TUM),3Robert Bosch GmbH摘要我们引入了一种可扩展的方法,用于在多个3D模型的模拟RGB视图上训练对象姿态估计我们学习对象视图的编码,其不仅描述在训练期间看到的所有对象的隐式方向,而且还可以将未训练的对象的视图关联起来。我们的单编码器-多解码器网络使用我们称为“多路径学习”的技术进行训练:虽然编码器由所有对象共享,但每个解码器仅重建单个对象的视图。因此,不同实例的视图不必在潜在空间中分离,并且可以共享共同的特征。结果- ING编码器推广以及从合成到真实的数据和各种实例,类别,模型类型和数据集。我们系统地研究了ModelNet 40和T-LESS数据集上尽管在多个对象上联合训练,我们的6D对象检测图1:培训(顶部)和设置阶段(底部)管道在T-LESS上实现了最先进的结果,运行时间比竞争方法更低。11. 介绍对象姿态估计,即,估计3D旋转和平移是许多感知相关应用(如增强现实或机器人)的基石。多年来,这一领域一直被基于模板和特征的方法所主导.因此,给定的对象模型或一组提取的对象特征被匹配到底层传感器数据中。根据数据的质量和场景的难度,这些方法仍然是相当有竞争力的。[22]然而,近年来,机器学习,特别是深度学习(DL)技术已经成为另一种关键方法[]。它们通常是计算高效的,并且可以对传感器噪声、杂波和环境变化显示出更高的鲁棒性[45,35,41]。对1 代 码 可 以 在 这 里 找 到 : https://github.com/DLR-RM/AugmentedAutoencoder/tree/multipathMP编码器。在训练期间,所有对象共享一个编码器,而每个解码器重建单个对象的视图这将编码器变成了一个视点敏感的特征提取器,为多个训练过的甚至是未训练过的对象生成表达性编码。另一方面,对姿态注释数据的需要以及冗长的训练阶段使得它们与传统方法相比不太灵活。为了解决缺乏注释的问题,最近有几种方法已经转向训练从3D模型渲染的合成数据[23,34,38]。然而,为每个新遇到的实例训练单独的模型仍然是常见的,这是不可扩展的尝试同时在多个物体上进行训练通常会导致认知能力下降[45]。此外,由于对象区分训练,这些方法中的大多数不适于泛化到未训练的对象。由于现实世界是由大量的对象类别和实例组成的,本文提出了一种更具自适应性和可扩展性的方法。受增强型自动编码器(AAE)的启发[34],13916训练阶段多径解码器n解码器 2解码器1码本生成R1z1R2R z1 2 z 1多路编码器Rm zmR2R2 Rz12 z1z2RmzmRmzmR1z1R2z2RmzmCodebook1Codeboo k2代码bo okn码本n+113917提取姿态代表性特征的实例级别上,我们提出了一个单编码器-多解码器网络联合估计多个对象的3D对象方向。虽然编码器和潜在空间在所有对象之间共享,但解码器被训练来重建特定实例的视图(图1的顶部)。1)。这种多路径学习策略允许形状相似的对象共享相同的编码空间。在训练之后,我们可以生成包含来自SO(3)的合成对象视图的编码的特定于实例的码本因此,每个条目都包含一个形状和视点相关的描述符,映射到一个显式的3D对象方向,可以在测试时检索(图的底部)第一章正如我们在实验中所展示的那样,学习的编码很好地通用于真实领域,并且具有足够的表达能力,可以以视点敏感的方式将来自所有训练对象甚至未训练对象的视图对于大量对象,与针对每个对象单独训练的编码器相比,多路径编码器(MP编码器)的性能不会恶化,甚至略微提高了编码质量,这导致了T-LESS数据集上的6-DoF对象姿态估计的新的最先进结果。受此启发,我们还介绍了一个迭代渲染推理方案的基础上学习的编码,使相对姿态估计未经训练的对象。它类似于局部码本的在线创建,这也有助于避免SO(3)离散化错误。我们应用这种方法迭代地优化ModelNet40中未经训练的实例的姿态,并优于DeepIM[25],DeepIM是一种基于RGB的6D姿态优化的最先进方法。2. 相关工作目标位姿估计在文献中得到了广泛的研究,主要从以下几个方面展开。2.1. 基于特征/模板的方法传统的姿态估计方法依赖于局部关键点和描述符或模板的匹配算法。例如,Hinterstoisser等人[17] Vidaletal.[40]应用所谓的点对特征(PPF)将3D模型匹配到给定场景中,在BOP挑战中优于其他结果[21],但由于在大6D姿态空间中的穷举搜索虽然这些方法需要深度信息,这可能是嘈杂的和敏感的环境变化,乌尔里希等人。[39]使用单个RGB图像并通过将渲染的3D模型的边缘匹配到图像中来估计对象姿态。通常,使用显式匹配的这种方法的好处是不需要昂贵的训练过程但是,它们往往需要更长的执行时间。然而,通常需要更多的专业知识来建立这样的管道,因为特征提取和匹配参数不能很好地推广。2.2. 基于学习的方法最近,已经提出了许多基于学习的方法,其优点是减少了计算时间,并且可以直接从数据中学习更复杂的特征。 一种方法是直接对对象姿态的表示进行分类或回归[23,28]。Xi- ang等。[44]提出了一种具有多个阶段的CNN架构,其中作者将姿态回归损失定义为最接近的对象点度量。另一种研究方向是对稀疏或密集的2D-3D关键点位置进行预测,例如。3D边界框角[32,38,37]或表面上的3D对象坐标[26,45,31]。然 后 通 过 解 决 透 视 n 点 ( Perspective-n-Point , 简 称PSPs)问题来计算姿态。除了遮挡,对象和视图对称性也会带来挑战,因为它们引入了从对象视图到姿势的一对多映射。虽然有一些策略可以调整对称对象的丢失、网络或标签[42,15,23],但处理视图相关或遮挡引起的对称性通常很难处理,并且会对训练过程产生负面影响。因此,第三种方法是学习对象视图的描述符,这些描述符要么以姿势为条件[1,42],要么完全隐式[34]。隐式方法的优点是对称视图在训练期间共享相同的目标表示。相应的显式姿态自动分组,并可以在测试时检索这些以视图为中心的表示也被证明适用于6D跟踪[7]。2.3. 综合训练数据基于学习的方法对大量标记训练数据的需求对于物体姿态估计特别不利。虽然有方法半自动地标记对象姿势[30],但它仍然是一个麻烦的、容易出错的过程。最近的研究通过利用合成训练数据来解决这个问题[8],这解决了这个问题,但通过真实数据和合成数据之间的域间隙创建了一个新的问题。为了弥合这一差距,Tremblayet al.[38]使用由照片级真实感渲染和域随机化样本组成的混合训练数据由于照片级真实感渲染的成本很高,因此我们采用了一种成本较低的域随机化(DR)策略[23,37]:使用具有随机照明的OpenGL以从SO(3)随机采样的姿势渲染3D模型,并将其叠加到来自MS COCO [27]或PascalVOC [10]等数据集的真实图像上。2.4. 对新对象的概括大多数基于学习的方法预测一个人的姿势,[31]或几个实例[38,45,37,44],并且必须为每个新遇到的对象重新训练。然而,在服务和工业机器人或增强现实等领域,拥有一个通用的特征提取器将是有益的,该提取器可以为非智能机器人产生姿势敏感特征13918训练对象,使得在新对象上进行测试立即成为可能。当在几个实例上训练时,像[38,37]这样的当前姿势网络同时对对象进行分类,这可能会阻碍它们泛化到未经训练的对象的能力Wohlhart等人[42] Balntaset al.[1]是第一个报告应用于未经训练的对象的深度姿态描述符的定性结果然而,它们的描述符由方向和对象类来区分。因此,如果一个未训练的对象从任何角度看都与一个训练过的对象具有相似的外观,则相应的描述符将被破坏。与[42,1]不同,我们的多路径训练策略不会在编码空间中分离不同的对象实例,而是允许它们共享相同的潜在特征。类别级姿态估计[33,3,36]可用于从给定类别中概括到新对象。它假定类别中的所有实例具有相似的形状,并在关节坐标系中对齐。然而,这些假设在实际中往往不成立,语义和几何相似性往往不一致。重新对齐的坐标框架可能是不明确的,因为实例的对称性可能在类别内变化。因此,在这项工作中,我们不会明确地强制语义类别内的对齐,而是将此决定留给自我监督的基于外观的训练。在大型数据集上训练的CNN经常用于为下游任务提取低级特征,例如。图像检索[13]或聚类[9]。预测未知物体的3D方向的一个简单的基线是比较在ImageNet或COCO等大型数据集上训练的网络的特征图。毫不奇怪,这个基线根本不起作用,因为(1)早期特征对反式-提取姿势敏感特征并检查对新实例的概括(第2节)。3.3)。不同的应用场景,narios取决于测试条件进行了讨论(第2节)。第3.4段)。最后,提出了一种用于姿态优化的迭代渲染推理优化(第二节)。3.5)。3.1. 隐式对象姿态表示Sundermeyer等人[34]已经示出了可以使用编码器-解码器架构以自监督方式学习隐式姿态表示。这种所谓的AAE允许从任意对象视图编码3D方向,从合成训练数据推广到各种测试传感器,并固有地处理对称对象视图。AAE被训练为重建单个对象的渲染视图。为了专门编码3D方向,输入被随机平移和缩放,而重建目标保持不变。为了对来自真实图像的对象视图进行编码,输入视图的背景被随机化,在各个位置处产生遮挡,并且产生各种照明和颜色增强。作为这种域随机化的结果,网络学习表示真实对象视图的对象使用潜在代码Z来轻松地进行。具体地,输入样本x∈Rd被f(. ),并由编码器m映射 到 潜 在 码 z∈Rm, 其 中 m≠d 。 训 练 解 码 器 Λ :Rm→Rd以将代码映射回目标X。x=Λ(f(x))=Λ(f(x′))=Λ(z)(1)Λ和Λ都是神经网络,它们的权值参数都是经过训练的,使得Λ2-损失最小,即.而后面的图层丢失了几何信息(2)合成和真实对象视图的特征有很大不同(3)特征图的维数太高,(B)=Σi∈Bxi−xΣi∈Bxi−Λ(<$(f(xi)<$2(2)离散SO(3),而减少技术,如PCA破坏了大量的信息。姿态细化方法[29,25]迭代地预测对象的估计视图和目标视图之间的旋转和平移残差。前者可以泛化到同一类别的未训练对象,后者甚至可以泛化到新类别的对象。这些方法预测一个准确的,相对的变换之间的两个对象的意见,在当地的邻居。相比之下,我们的方法能够产生局部相对和全局3D方向估计。3. 方法我们将首先简要介绍AAE(第二节)。第3.1节)。在这些结果的基础上,我们提出了一种新的多路径编码器-解码器架构和训练策略。3.2)。接下来,我们将研究编码器的能力其中B包含给定批次的输入样本的索引。在训练之后,解码器被丢弃,并且来自整个SO(3)的对象视图的潜在编码被保存在码本连同它们相应的被分配的方向。在测试时间,对真实对象裁剪进行编码,并且根据余弦相似性,码本中的最接近的代码如[35]中所述,可以进一步针对平移偏移校正这种公式的缺点是必须为每个新对象实例训练新网络。当在几个对象上联合训练原始AAE即使当通过将独热向量连接到编码来对解码器进行对象调节时,它也只能重建很少的实例,并且它降低了编码器增强的能力。代码对象方向。13919面内高程方位2PC3101PC32.50.02.5205PC22102PC1020 005件12PC3101PC32.50.02.520PC220PC225120PC105件12PC3101PC32.50.02.5205PC22120PC1020 005件12PC3101PC32.50.02.520PC220PC22510PC120PC153.2. 多路编码器/解码器我们提出了一个简单但有效的架构,结合我们的多路径学习策略,使多个对象的3D方向估计(见图1)。1)。我们的架构包括一个单一的编码器,一个en-编码z∈R128,n个解码器Λj其中j= 1,.,n其中n是不同对象实例的数量的卷积编码器被馈送有与具有包含多个对象的异构批处理的AAE接口相同的增强输入。生成的代码被拆分,解码器仅接收对应于单个对象实例的代码。多路径损耗函数可以写为:布m(BΣnI(sj=k)<$xj−Λk(<$(f(xj)<$2j=1k =1B nΣΣ=j=1k=1I(sj=k)<$xj−Λk(zj)<$2(3)其中I是用于选择对应于实例s,j的解码器Λ k的指示符函数。请注意,在此设置中,只有编码器接收来自整个小批量,而解码器Λj反向传播来自子批次的损失j由于解码器仅用于学习有效的编码,因此可以在训练后丢弃它们,留下紧凑的编码器模型。与其他方法[42,1]相比,对象在描述符空间中显式分离,我们的编码器可以学习交织编码,其中一般特征可以在多个实例中共享。我们认为这种能力是获得编码的主要资格,这些编码可以从新颖的、未经训练的实例中表示对象方向,即使它们属于未经训练的类别。3.3. 编码的主成分分析为了从训练和未训练的对象中深入了解潜在空间的特征,我们在ModelNet40 [43]数据集上进行了一项实验。我们首先在来自汽车类的80个CAD实例上训练多路径编码器-解码器。第二个模型在来自8个不同类的10个实例上训练,即飞机,床,长凳,汽车,椅子,钢琴,水槽,厕所。培训详情见附录。训练后,我们生成72个视点沿方位角,仰角和面内旋转的完整革命。我们从这些视点记录不同的对象,并将它们输入编码器。从所有对象的编码空间zi∈R128中,我们计算前三个主成分,并将所有编码投影到这些方向上。插补结果见图。二、最上面一行显示了来自训练集的汽车实例的编码。图2:学习编码的主成分分析.所描绘的是仰角(红色)、方位角(蓝色)和平面内(绿色)周围视图的编码。中间柱:编码器只在汽车上训练;右栏:编码器在8个类别的对象上进行训练其他行显示了不在两个模型的训练集中的实例,但是不同的沙发和马桶实例被用于训练第二个模型。首先,值得注意的是,编码沿着每个旋转轴平滑地变化,即使在评估未经训练的对象的视图时也是如此。可以看出,这些视图虽然从同一点开始,但最终在不同的子流形中结束,这些子流形捕获了编码对象的形状及其对称性。例如,汽车实例产生具有两个旋转的闭合轨迹,因为汽车形状在相反的视点处看起来相似。此外,可以看出,训练集和测试集中的汽车被每个模型类似地编码。这表明在预测新汽车的方向时,编码器以及码本可以被重用,13920j+1日沃表1:全局和迭代姿态估计以及未训练对象场景算法1:迭代6D姿态细化输入:编码器初始化,初始化姿态q初始化,t初始化,目标视图x初始化z初始化←初始化(x初始化)qest<$qinitt est<$tinit对于k = 0。- 是的- 是的 2 do对于j= 0。. . 3并对于i = 0。- 是的- 是的40 − 10 k doα<$N(0,σ2)vN3(0,I)q←quat(vqi←qest,α)端xi←render(qi,test)zi←( xi)zizǁzi ǁǁz∗ǁ即使没有3D模型。未训练对象的剩余编码仍然可以端qest我←qk因此是有意义的姿态描述符可以在不重新训练编码器的情况下提取,而是简单地通过从它们的3D模型创建码本来提取。端xest=render(qest,test)multiScaleEdgeMatching(xxx,xest)test=t est+t t除了一个偏移量,两个模型学习非常相似的en-编码,即使是第一个模型在培训期间没有见过的沙发类别。这意味着提取的低级特征可以概括各种形状和类别。然而,为了完成重建任务,这些特征仍然需要对照明和颜色增强以及应用于输入的平移具有鲁棒性在下一节中,我们将探讨利用这些属性的不同方法。3.4. 跨域在训练之后,MP编码器可以为所有n个训练实例创建码本(see秒第3.1节)最重要的是,它可以处理包括未训练对象的场景,如表1所示。这里,训练的编码器模型被用作固定的姿态敏感特征提取器。可用的方法取决于所考虑的测试对象的特性和给定信息。如果未训练对象的3D模型可用,则通常优选地创建新的码本并从其估计3D取向(I)。如果没有可用的3D模型,但是我们有来自具有重合形状的类别的训练实例的代码本然而,由于我们没有在单个坐标框架中显式地对齐类别的模型,因此提取的表示将更多地依赖于对象的形状而不是任何语义。给定一个3D模型,我们还可以在测试时使用我们的方法进行迭代姿态细化。这使我们能够从稀疏码本中细化结果,或者在没有任何码本的情况下直接执行局部相对姿态估计。结果:qest,test3.5. 隐码我们的迭代姿态细化方法在Alg中概述。1.一、 我们从初始姿态估计和目标视图开始。接下来,我们渲染一批3D模型视图,从初始姿势进行小的旋转扰动,并将整个批次插入编码器。与目标视图编码具有最高余弦相似性的代码确定新的旋转估计。我们用更小的扰动半径再次采样。这种随机优化方案的内部循环,包括渲染和推理,可以有效地并行化。在我们的实验中,旋转和平移交替优化三次。 由于MP编码器被训练为对平移不变,因此我们可以首先针对更具挑战性的平面外旋转进行优化,忽略平移。之后,旋转通常与目标大致对齐,我们使用基于OpenCV [2]的简单的基于边缘的多尺度模板匹配方法来确定平移偏移。本文讨论了SO(3)中抽样的优点。潜在空间中的采样是(1)SO(3)空间具有较低的维度,以及(2)我们只搜索有效的方向。除了使用没有码本的新颖3D模型进行相对姿态估计之外,改进还允许在设置时间、推断时间、存储器重新配置和时间之间进行权衡。来源和准确性。完整的92232 ×128码本创建在现代GPU和45MB空间上每个对象需要205在现代GPU上,推理仅需106ms,而在所呈现的配置中,k←arg max先决条件我II形状类别训练3D测试模型可用3D测试模型与训练模型对齐✗✓✗✓✗✗可用方法⇓⇓重复使用来自训练实例的码本创建新的完整/稀疏码本✗✓✓✓✗✗13921表2:在完整的T-LESS primesense测试集(仅RGB)上对对象1-18进行训练的MP编码器的姿势估计性能与在所有对象上训练的30个单对象AAE [34]进行比较。我们在可见表面离散度(errvsd)指标下测量召回率。右列显示仅在ModelNet40数据集的30个实例上训练的模型的性能。在这个实验中,我们使用了地面实况边界框(顶部)和地面实况掩码(底部)。可以观察到,如果给定分割掩码,则单个MP编码器可以在未知对象上达到类似的性能是说VSD召回30个单独的AAE编码器[34]单个多路径编码器训练于无T对象1-1830米ModelNet40+gt bbox第1-1835.6035.2527.64第19-3042.4533.1734.57总38.3434.4230.41+gt屏蔽第1-1838.9843.1735.61第19-3045.3343.3342.59总41.5243.2438.40动作大约需要1秒。为了进一步加快速度,随机搜索可以被更复杂的黑盒优化工具(如CMA-ES)所取代。根据应用,即对象的数量、可用资源和对建立时间的约束,结合局部姿态细化的具有稀疏码本的全局初始化可能是可行的选择。4. 评价我们的分析集中在两个基准上:ModelNet40[43]和T-LESS数据集[19]。24.1. 度量在ModelNet40中,我们使用绝对角度误差eR= arccos.Σtr(RTR−I)/2(四)3.6. 6DoF目标检测流水线以及平均距离阈值为0的ADD度量[16]。1×模型点M的物体直径我们完整的基于RGB的6DoF对象检测管道由具有ResNet50骨干的MaskRCNN [14],用于3D方向估计的MP编码器和投影1ADD=MΣ||(五)||(5)x∈M距离估计[34]用于平移估计。为了与使用深度数据的其他方法进行比较,我们还以及平均5px阈值使用点到面ICP [5,46]细化步骤报告结果。特别是在存在严重遮挡的情况下,基于RGB的投影距离估计不会产生1项目2D=MΣ||(六)||(6)x∈M距离精确到足以满足严格的VSD指标。另一方面,准确的初始化对于比较方案的完善工作至关重要。对于MaskRCNN,我们通过在随机背景图像上进行随机平移、缩放和平面内旋转来从T-LESS训练集中传递对象记录来生成训练数据。因此,我们产生了80000张MS COCO [27]背景图像,40000张黑色背景图像和40000张随机纹理背景图像[6]。我们应用几个标准的在线色彩增强,如色调,亮度,模糊和对比度。我们的MaskRCNN达到了0.68(bbox检测)和0.67(分割)的mAP@0.5性能。MaskR-CNN和MP-Encoder都可以处理多个对象,在T-LESS实验中,我们使用errvsd[20],因为在这里,上述指标因此毫无意义各种物体和视图的对称性。errvsd是模糊不变的姿态误差度量,其根据估计的可见对象表面与地面实况可见对象表面之间的距离来计算与2017年SIXD挑战[18]和2018年BOP基准测试[22]一样,我们报告了err vsd 0时6D对象姿势的召回<。3,公差τ= 20mm,>10%物体可见度。4.2. MP编码器的泛化能力我们首先调查的联合编码性能和泛化能力的MP编码器在隔离,即具有地面实况检测和掩模。 因此,我们认为,我们将一个MP编码器与30个单独训练的从而实现几乎保持恒定的运行时13922for a large大number数of objects对象.22020年国际收支挑战赛有望取得进一步成果[22]13923模板匹配基于PPF学习型表3:使用MaskRCNN +多路径编码器+可选ICP对我们的完整6D对象检测管道进行评估。我们报告了在T-LESSPrimesense测试集上进行SIXD挑战/BOP基准测试[21]后的平均VSD召回有关对象方面的结果,请参见单个MP编码器模型优于30个实例特定的AAE的结果。霍丹-15维达尔-18Drost-10-edge Kehl-16OURSSundermeyer-18我们的深度深度+ICP深度深度+RGBRGB + ICP RGB + ICP仅RGB平均63.1866.5156.8167.517.8424.669.5319.2620.53时间(s)13.54.7 2.3 21.54.4 1.80.80.10.2T-LESS Primesense测试集所有场景的AAE模型(表2)。使用等效的编码器和解码器此外,MP编码器仅在T-LESS数据集的前18个3D对象重建上进行训练,以显示对未训练对象19-30的泛化能力。在MP编码器在训练期间看到的对象1-18上,使用地面实况边界框的结果接近AAE结果。看下一行,与单个AAE相比,未训练对象19-30的性能明显更差我们假设MP-Encoder在从背景中提取未知目标时存在困难这一假设得到了地面真实掩码(底部)结果的有力即使对于未训练的对象19-30,与在这些对象上训练的AAE的性能差距一种可能的解释是,在多个对象上训练的特征提取器学习到更通用的特征,因此更鲁棒表2的最后一列描述了从ModelNet 40到T-LESS数据集令人惊讶的良好泛化。在这里,MP-Encoder专门训练了30个无纹理的CAD模型,这些模型来自8个类别:飞机、床、长凳、汽车、椅子、钢琴、水槽、马桶。为所有T-LESS对象创建码本,并在相同的真实传感器记录上进行测试。这些结果强调了多路径训练与输入随机化策略相结合,我们可以学习提取方向变体特征在不同的领域都有很好的通用性。4.3. 6D物体检测结果接下来,我们在T-LESS数据集上评估我们的完整6D姿态估计管道,T-LESS数据集是一个特别令人困惑的6D对象检测基准,包含无纹理、对称对象以及杂波和严重遮挡。表3显示了使用严格vsd度量的结果(第3.6)。我们在T-LESS上以比以前的方法低得多的运行时间实现了最先进的结果,无论是在RGB域还是在深度域,当用我们基于RGB的姿态估计初始化虽然收益是微不足道的,但结果是重要的,因为我们只在整个数据集上训练了单个编码器,仍然获得了最先进的结果。这使得我们的方法可扩展,partic-图3:左侧:T-LESS Primesense场景上基于RGB的管道的定性6D对象检测结果。30个对象中只有18个用于训练多路径编码器;中:经比较方案提炼的结果;右:来自未训练类别guitar和bathtub的实例的相对姿势细化。红色是初始姿势,绿色描绘了改进的姿势。图4:失效案例:MaskRCNN预测错误的类20而不是19(下面的对象)。由于形状非常相似(除了比例),对象20的码本仍然给出合理的姿态估计。特别是考虑到没有真实的姿态注释数据用于训练。图3(左)示出了完整的6D对象检测流水线的定性示例。以前,无纹理对象的姿态估计一直由纯粹的基于深度的几何匹配方法主导,这些方法通常具有高运行时间,并且不能很好地随所考虑对象的数量缩放图图4示出了一个失败案例,其强调严格的实例式姿态估计可能不适合于现实世界的应用,在现实世界中,对象通常13924表4:在ModelNet40数据集的可见(顶部)和不可见(底部)对象类别的未经训练的实例上,从高达45o和λt=(10,10,50)[mm]我们在5cm,5o阈值下测量召回率,在0.1d(对象直径)度量下测量ADD,在5px阈值下测量Proj2D。尺度法(5o, 5cm)[25]第25话我的世界6D姿势(ADD)美国[25]init成品init 成品Proj2D(5px)DeepIm [25] Ours initrefined init refined飞机0.868.90.996.925.794.733.497.90.487.30.197.4车1.081.50.496.410.890.713.498.50.283.90.194.0椅子1.087.60.396.414.697.416.398.31.588.60.094.6浴缸0.971.60.785.511.988.615.491.50.273.40.180.6书架1.239.20.781.99.276.413.785.10.151.30.076.3吉他1.250.40.569.29.669.613.180.50.277.10.380.1抽油烟机1.069.80.591.011.289.614.195.00.070.60.083.9沙发1.282.70.691.39.089.512.295.80.194.20.086.5衣柜1.462.70.788.712.579.414.892.10.270.00.081.1电视架1.273.60.685.98.892.110.590.90.276.60.182.5是说1.264.30.684.810.383.613.490.10.173.30.181.6只是细节不同。4.4. 未训练对象的迭代精化在我们的最后一个实验中,我们评估了MP-Encoder对来自ModelNet 40的可见和不可见类别的未经训练的实例进行迭代优化的任务我们遵循DeepIm [25]的评估协议,其中寻求未训练实例的两个对象视图之间的相对姿态。目标视图以恒定平移t=(0,0,500)(mm)和随机旋转渲染(3)在这方面, 然后,我们绘制另一个对象视图,该 对 象 视 图 的 姿 态 受 到 每 个 旋 转 轴 采 样 的 角 度βx/y/z<$N(0,(15o)2)和平移偏移的x(mm)。如果总的角扰动大于45°,它被重新采样。我们在飞机,汽车和椅子类的80个实例上训练类别特定的MP编码器,并预测新实例的我们还在来自8个不同类别的80个实例上训练另一个MP编码器3,以获得一个通用的视点敏感特征提取器,我们在来自新类别的实例上进行测试。为了保持相对于目标视图的姿态,我们使用Alg中描述的随机优化方案。1,初始σ=45o.我们将我们的方法与DeepIm [25]进行比较,DeepIm也通过迭代渲染推理循环最小化初始视图和目标视图之间的相对姿态。表4中的结果证明了我们的方法在可见和不可见类别上的优越性能。了图3右图显示对un-seen类别进行细化的定性结果。5. 结论在本文中,我们提出了一种新的方法来估计多个训练和未经训练的对象,单个编码器模型。与其他方法相比,对多个对象进行训练不会降低性能,而是在T-LESS数据集的无纹理对称对象上产生最先进的结果。相同的MP编码器架构也用于对未训练对象进行迭代姿态细化,其性能优于ModelNet40上的先前方法。该姿态估计器跨来自不同类别、数据集和图像域的对象进行概括的能力指示跨各种域共享用于区分语义的更高级别的特征因此,我们的研究结果表明,这两个任务应该分开学习。我们相信,这是朝着应对工业环境中的大量实例迈出的一步,在工业环境中,3D模型经常可用,服务机器人经常重复出现,并且与新对象的交互应该立即成为可能。3飞机,床,板凳,汽车,椅子,钢琴,水槽,厕所是说0.9 79.3 0.596.617.0 94.3 21.098.20.7 86.6 0.195.3小说范畴小说实例13925引用[1] Vassileios Balntas , Andreas Doumanoglou , CanerSahin,Juil Sock,Rigas Kouskouridas,and Tae-KyunKim.Pose Guided RGB-D Feature Learning for 3D ObjectPose Estimation.在IEEE计算机视觉和模式识别会议论文集,第3856-3864页二、三、四[2] G.布拉德斯基OpenCV库。Dobb博士5[3] EstevesCarlos , SudAvneesh , LuoZhengyi ,Daniilovsky Kostas,and Makadia Ameesh.跨域三维等变图像嵌入。arXiv预印本arXiv:1812.02716,2018。3[4] Liang-Chieh Chen,Yukun Zhu,George Papandreou,Florian Schroff,and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在欧洲计算机视觉会议(ECCV)的会议记录中,第801-818页[5] 杨晨和杰拉德·梅迪奥尼。用多幅深度图像的遥感进行目标建模图像与视觉计算,10(3):145-155,1992. 6[6] M. Cimpoi,S.马吉岛Kokkinos,S. Mohamed,和A.维达尔迪描述野外的纹理。在IEEE Conf. 计算机视觉和模式识别(CVPR),2014年。6[7] 邓新科,穆萨维,于翔,夏飞,蒂莫西·布雷特,迪特尔·福克斯. Poserbpf:一个rao-blackwellized粒子滤波器, 用于 6d物体 姿态 跟踪 。 机器 人: 科学 与系 统(RSS),2019年。2[8] Maximilian Denninger 、 Martin Sundermeyer 、 DominikWinkelbauer、Youssef Zidan、Dmitry Olefir、MohamadEl-badrawy、Ahsan Lodhi和Harinandan Katam。搅拌机-过程。arXiv预印本arXiv:1911.01911,2019。2[9] Jeff Donahue , Yangqing Jia , Oriol Vinyals , JudyHoffman,Ning Zhang,Eric Tzeng,and Trevor Darrell.Decaf:用于通用视觉识别的深度卷积激活功能。机器学习国际会议,第647-655页,2014年3[10] Mark Everingham , Luc Van Gool , Christopher KIWilliams,John Winn,and Andrew Zisserman.pascal视觉 对 象 类 ( voc ) 的 挑 战 。 International Journal ofComputer Vision,88(2):303-338,2010。2[11] M.埃弗灵厄姆湖,澳-地凡古尔角,澳-地K. I.威廉斯,J.Winn 和 A. 齐 瑟 曼 。 PASCAL Visual Object ClassesChallenge2012(VOC2012)http://www.pascal-network.org/challenges/VOC/voc2012/workshop/index.html, 2012年。[12] Nikolaus 汉森 优黑 秋元和彼得·鲍迪斯。Github上的CMA-ES/pycma。泽诺多DOI:10.5281/zenodo.2559634,Feb. 2019. 6[13] 郝介东,京东,王伟,谭铁牛。cnn应用于可视化实例检 索 的 最 佳 实 践 是 什 么 arXiv 预 印 本 arXiv :1611.01640,2016年。3[14] KaimingHe , GeorgiaGkioxari , PiotrDolla'r ,andRossGir-shick. 面 具 R-CNN 。 arXiv 预 印 本 arXiv :1703.06870,2017。6[15] Stefan Hinterstoisser、Cedric Cagniart、Slobodan Ilic、Peter Sturm 、 Nassir Navab 、 Pascal Fua 和 VincentLepetit。Gra-用 于 实 时 检 测 无 纹 理 物 体 的 梯 度 响 应 图 IEEETransactionsonPatternAnalysisandMachineIntelligence,34(5):876-888,2012. 2[16] Stefan Hinterstoisser,Vincent Lepetit,Slobodan Ilic,Ste- fan Holzer , Gary Bradski , Kurt Konolige , andNassir Navab.基于模型的训练,检测和姿态估计的纹理较少的三维物体在严重混乱的场景。亚洲计算机视觉会议,第548-562页。Springer,2012. 6[17] Stefan Hinterstoisser、Vincent Lepetit、Naresh Rajkumar和Kurt Konolige。进一步使用点对特征。欧洲计算机视觉会议,第834施普林格,2016年。2[18] 托马斯·霍丹。SIXD挑战赛2017,http://cmp。felk.cvut.cz/sixd/challenge_2017/ , 2017年。6[19] Toma'sHodanEm , PavelHaluza , Stepa 'nObdrza' lek , Jir'sMatas , Manolis Lourakis , and Xenophon Zabulis.T-LESS:用于无纹理Ob-10的6D姿态估计的RGB-D数据集。IEEE计算机视觉应用冬季会议,2017年。6[20] To ma´sˇHoda nˇ、Ji ˇr´ıMatas和Sˇt eˇ p a´ nObdr zˇa´ lek。6D目标姿态估计的评价。欧洲计算机视觉会议,第606-619页。施普林格,2016年。6[21] TomasHodan,Frank Michel,Eric Brachmann,WadimKehl,Anders GlentBuch,Dirk Kraft,Bertram Drost,Joel Vidal , Stephan Ihrke , Xenophon Zabulis , et al.Bop:6d物体姿态估计的基准。在欧洲计算机视觉会议(ECCV)的会议中,第19二、七[22] Tomas Hodan、Fran
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IEEE 14总线系统Simulink模型开发指南与案例研究
- STLinkV2.J16.S4固件更新与应用指南
- Java并发处理的实用示例分析
- Linux下简化部署与日志查看的Shell脚本工具
- Maven增量编译技术详解及应用示例
- MyEclipse 2021.5.24a最新版本发布
- Indore探索前端代码库使用指南与开发环境搭建
- 电子技术基础数字部分PPT课件第六版康华光
- MySQL 8.0.25版本可视化安装包详细介绍
- 易语言实现主流搜索引擎快速集成
- 使用asyncio-sse包装器实现服务器事件推送简易指南
- Java高级开发工程师面试要点总结
- R语言项目ClearningData-Proj1的数据处理
- VFP成本费用计算系统源码及论文全面解析
- Qt5与C++打造书籍管理系统教程
- React 应用入门:开发、测试及生产部署教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功