AKB-48：一个真实世界的关节对象知识库

91 浏览量更新于2023-10-26 收藏 1.35MB PDF 举报

上海交大

计算机视觉

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

14809AKB-48：一个真实世界的铰接对象知识库Liu Liu Wenqiang Xu Haoyuan Fu Sucheng Qian Qiaojiangjun Yu Yang Han CewuLu<$ Shanghai Jiaotong University{liuliu1993，vinjohn，simon-fuhaoyuan，qiansucheng，yqjllxs，lucewu} @sjtu.edu.cntycoer@outlook.com图1.AKB-48由从现实世界扫描的48个类别的2，037个铰接对象模型组成这些对象使用ArtiKG进行注释，可以支持从计算机视觉到机器人操作的完整任务范围。摘要人类生活中充斥着铰接的物体。对关节式物体的当前的人工对象理解解决方案通常基于具有没有物理属性的CAD模型的合成对象数据集，这阻碍了从模拟到视觉和机器人任务中的真实世界应用的满意推广为了弥补这一差距，我们提出了AKB-48：一个大规模的关节对象知识库，它由48个类别的2,037个真实世界的3D关节对象模型组成。每个对象由知识图ArtiKG描述。为了构建AKB-48，我们提出了一种快速关节知识建模（FArM）管道，它可以在10-15分钟内完成关节对象的ArtiKG，并大大降低了实际对象建模的成本†Cewu Lu为通讯作者。他是上海交通大学人工智能研究所、上海启智研究所、中国清源研究院和MoE人工智能重点实验室的成员。世界使用我们的数据集，我们提出了AKBNet，一个完整的管道类别级视觉关节操纵（C-VAM）任务，其中我们基准测试三个子任务，即姿态估计，对象重建和操纵。数据集、代码和模型可在https://liuliu66.github.io/AKB-48 上公开获取。1. 介绍关节式物体是由多个刚性部件通过关节连接而成的，允许在三维空间中进行旋转或平移运动，在我们的日常生活中非常普遍。关于铰接对象的知识可以有益于许多研究社区，例如计算机视觉，机器人和嵌入式AI。因此，已经提出了许多铰接对象数据集来促进研究，例如PartNet-Mobility [31]，ReArt-48 [17]，RBO[20]。然而，这些数据集通常更关注结构信息（例如，部分分割、运动学结构），但较少关注外观（例如，纹理，精细几何形状），物理性质（例如，每部分质量，内部14810∼材料和摩擦）和语义（例如，类别，af- fordance）。虽然一些重要的任务严重依赖于这些信息，如对象检测（纹理）[2]，3D重建（精细几何）[19]，对象操作（物理属性）[5]等，但这些数据集中缺乏此类对象知识可能会妨碍学习模型的满意泛化。为了促进对关节物体的研究，本文提出了一个大规模的现实世界的关节物体库AKB-48，它包括48个类别，2，037个实例。对于每一个实例，对象模型是从真实的对应物扫描和手动细化（第二节）。3.2），对象知识被组织到一个图中，名为 ArtiKG（ArtiKG），其中包含不同类型的对象属性和属性的详细注释（第3.2节）。第3.1节）。为了使扫描和注释过程适用于大型数据集，我们提出了一个快速自动化知识建模（FArM）管道（第二节）。3.3）。详细地说，我们开发了一个具有3D传感器和转盘的对象记录系统，一个集成了结构和语义注释的GUI，以及用于物理属性注释的标准真实世界实验（图3）。通过这种方式，我们可以节省大量的金钱和时间，用于建模真实世界的铰接对象（购买3美元，每个对象注释10- 15分钟）。CAD建模和反向扫描之间的全面比较可参见第二节。3.2.总之，我们的管道可以节省33倍的资金预算和5倍的时间预算。为了利用AKB-48进行研究，我们提出了AKBNet，这是一个用于类别级视觉操纵（C-VAM）任务的集成管道。为了解决C-VAM问题，视觉系统AKBNet应该能够估计对象姿态，重建对象几何，并学习类别级别的操作策略。因此，它由三个感知子模块组成：• 用于类别级铰接对象姿态估计的姿态模块。该模块旨在估计一个类别中不可见的铰接对象的每部分6D姿态然而，以往的研究一般都是对运动范畴的研究，即定义一个范畴中的对象具有相同的运动结构。我们的姿态模块将“范畴”的概念扩展（第二节）第4.1节）• 用于铰接对象重建的形状模块。在获得姿态之后，连同来自输入图像的形状代码编码，我们可以重建每个部分的形状[25]。完整的几何图形至关重要来决定在哪里进行交互。（第二节）4.2）• 用于铰接对象操纵的操纵模块。一旦我们获得了清晰度信息（例如，零件段、每个零件的姿势、关节属性、全网格等）通过感知，我们可以在观察中学习交互策略。我们基准操作任务与开放和拉动，分别对应于旋转和棱柱关节。（第二节）4.3）为了评估AKBNet，我们单独和系统地报告了结果。对于每个模块的单独评估，我们假设模块的输入是最后一个模块的基础事实，而对于系统评估，输入是最后一个模块的输出。显然，我们无法对拟议的AKB-48可以支持的所有任务进行基准测试。我们希望它可以作为一个很好的平台，为未来的清晰度研究在计算机视觉和机器人社区。我们的贡献可以归纳为三个方面：• 我们介绍AKB-48，包含48个类别的2，037个铰接模型，其中我们采用多模态知识图ArtiKG来组织丰富的注释。它有助于缩小当前视觉与具身AI研究之间的差距。据我们所知，这是第一个从现实世界中收集的具有丰富注释的大规模关节数据集。• 我们提出了一个快速的关节知识对象建模管道，FArM，这使得它更容易从现实世界中收集关节对象。我们的管道大大降低了构建真实世界3D模型数据集时的时间和金钱成本。• 我们提出了一个完整的管道AKBNet的整体类别级视觉清晰度操纵（C-VAM）任务。实验结果表明，该方法在实际应用中无论是个体识别还是系统识别都2. 相关工作3D模型存储库和数据集。分析3D对象（尤其是有关节的对象）的一个不可避免的挑战是缺乏具有足够3D模型和完整注释的大规模训练数据。据我们所知，目前的3D模型库更喜欢通过从互联网上搜索来收集CAD模型，例如 Trimble 3D Warehouse 和 Onshape [14] 。ShapeNet [4]从在线模型库中收集了大约300万个形状，并根据WordNet [22]分类法对其进行分类。但是，尽管ShapeNet包含许多明确的类别，但ShapeNet的模型只能被视为刚性形状，因为它们不定义内部的部件14811LAL袋铅笔盒框信箱多视图容器折叠箱位置：（0，-0.22，0.08）轴：（-1.12，0.01，，-0.02）限值：[0，1.71]斌位置：（0，0，0）轴：（0，-0.02，0.99）鞋盒杯UUIDdaea5652-66bc-4001-8df3-40cee0051db5螺纹接头位置：（0，0.21，0.12）轴：（0.99，-0.02，-0.01）限值：[-1.71，0]网格Taxonomy质量：118.23g摩擦力：0..15惯性：：z高：0.08米宽：0.16米y分割质量：78.. 52g摩擦力：0..15X规模对准质量：10.. 62g摩擦力：0..15质量：10.. 21g摩擦力：0..15外观结构语义物理图2.在AKB-48数据集中定义的发音知识图（ArtiKG）。在ArtiKG中，我们标注了四种类型的知识：外观，结构，语义和物理属性。在本图中，数值四舍五入至百分位数以供显示。倾向于建立小规模的模型数据集，如YCB [3]和RBO[20]。因此，数据量使得它很难被采用在我们的类别级别的衔接任务，这需要不同的实例之间的泛化能力。在本文中，我们提出AKB-48作为第一个大规模的现实世界的清晰度分析的基础。图3.特定任务模型采集设备。(a)1是用于具有多个比例的对象的旋转转盘。2是一个跟踪标记。3是吸光物品。4是升降支架。 5是Shining 3D扫描仪。6-8 realsense L515相机用于捕捉物体的多视图。他们为了解决这个问题，Mo et al.[24]首先提出了一个大规模数据集PartNet，它基于ShapeNet的子集注释分层零件语义分割[4]。PartNet中的一个关键问题是，它只关注语义部分的标注，而忽略了运动学结构。为了解决这个问题，PartNet-Mobility [31]和Shape 2 Motion[30]进一步注释了形状上的关节属性，其目标是关节研究。这些数据集大多遵循ShapeNet的模型构建范式：从互联网上收集CAD模型，并为不同的任务提供特定的注释。这使得早期的作品（ShapeNet [4]，ABC数据集[14]等）快速建立大规模对象模型库。然而，当任务需要研究新的类别或运动结构时，艺术家需要从零开始手动构建适当的CAD模型，这是非常耗时和费力的。另一方面，当前的现实世界研究集中在实例级任务上，与关节相关的任务。关节式物体在视觉和机器人领域已经研究了几十年，但重点不同。在视觉任务中，当前的工作倾向于解决类别级的对象识别、分割或姿态估计，这些工作集中于对象之间的泛化。Yi等人[32]将一对未分割的形状表示作为输入来预测零件分割和变形。为了处理看不见的物体，Li等人。[16]遵循姿态估计设置，并提出了一个归一化的坐标空间来估计铰接物体的6D姿态和关节状态。在以关节为中心的感知任务方面，一些工作试图挖掘关节连接物体的关节配置[11，18，33]。为了从视觉输入中研究铰接对象的操纵点，Mo等人尝试定义六种类型的动作原语并预测交互[23]。在机器人领域，研究人员通常解决交互或操纵任务，以实现关节推理，如机器人交互感知[12]，视觉反馈[9]和任务集成[21]。此外，一些作品试图弥合视觉和操作之间的差距，但仍然受到小规模的问题。因此，我们提出AKBNet来处理类别级别的衔接任务。67458312…148123. 发音知识库，AKB-48在构建知识库时，需要回答三个亟待解决的问题：（1）在对象上标注什么样的知识？(2)我们应该注释哪些对象，来自真实世界还是模拟世界？(3)如何有效地标注对象知识？为了回答这些问题，我们在第二节中描述了3.1、对第二节中的对象选择进行了深入的讨论3.2，最后在第二节中提出FArM管道。3.3并在第3.3节中提供关于数据集的分析（多样性，难度）。三点四分。3.1. 和铰接对象知识图不同的任务需要不同的对象知识，为了统一标注表示，我们将其组织成一个多模态知识图，命名为ArtiKG。ArtiKG由四个主要部分组成，即外观，结构，物理和语义。细节在下文中描述并且在图1B中可视化。二、外观. 对于每个实例，我们将其形状与纹理一起存储在当从真实世界扫描对象时，我们还收集对象的多视图RGB-D快照。结构铰接对象和刚性对象之间的关键区别铰接对象具有关节和零件等概念，这些概念对刚性对象没有意义。对于每个关节，我们注释关节类型、参数和移动限制。对于每个部分，我们分割每个运动部分。语义在基本的几何和结构信息被注释之后，我们开始在由粗到细的过程中将语义信息分配给对象。我们给每个实例一个uuid。然后我们根据Word-Net [22]为对象分配类别和相应的分类法。我们还标记了语义部分。虽然我们已经注释了运动学部分，但它与语义部分并不完全相同以带把手的杯子为例，把手不是通过关节连接到杯体上的，因此它不是运动学部分，而是语义部分，因为它指示人类通常抓住杯子的位置。物理性质。真实对象存在于物理世界中，并且通常具有物理属性，这对于精确模拟和现实世界中对铰接对象的操纵交互是重要的。因此，我们为我们的模型存储物理属性注释，涉及每部分质量、每部分惯性、材料和表面摩擦。讨论在这一节中，我们只描述了需要人工注释的对象知识不讨论网格、固有尺寸。此外，由于注释信息是模块化组织的，因此可以方便地将新属性添加到ArtiKG中。除此之外，虽然ArtiKG是为铰接式物体设计的，但它也可以简单地扩展到刚性和柔性物体。3.2. 对象选择：真实世界扫描vs.s CAD建模现实世界的扫描和CAD建模之间的选择被认为是从两个角度，即注释的准确性，时间和金钱的成本。注释精度。根据ArtiKG的内容，我们可以看到，来自真实世界的物体比CAD模型具有多方面的优点，如外观和物理属性。但不可否认的是，CAD模型可以模拟内部结构，如火炮或变压器，而扫描技术更侧重于表面。由于这种内部结构无法轻易拆卸的物体对艺术家和扫描仪都是一个挑战幸运的是，大多数日常物品都可以拆卸，因此扫描技术可以正确处理它们。时间和金钱的成本如前所述，当研究新的类别或运动学结构时，类似ShapeNet的模型收集范例限于艺术家手动CAD模型构建的大量时间和金钱成本。另一方面，许多日常铰接对象在现实中很便宜，可以由外行扫描。我们在表1中比较了平均资金和时间预算。对于CAD建模，估计从外包服务在淘宝网站1.从我们的调查来看，大多数艺术家花费超过2小时（超过120分钟）来建模一个铰接对象，人工成本平均超过100美元。CAD建模真实世界扫描时间（min）>12020货币（美元）>1003表1.我们的现实世界扫描和铰接物体的CAD建模之间的预算比较值得注意的是，我们知道现实世界中许多重要的铰接对象相当昂贵，如笔记本电脑、微波炉、门等。在这种情况下，我们要么只收集我们可以从家中收集的对象，而无需重新购买，要么购买一个来测量基本信息并传播到现有的模拟对象，如 PartNet- Mobility[31]。对于这些对象，ArtiKG被标记为ArtiKG-sim。这些可以通过算法或triv计算像曲面法线、碰撞网格/简化一样1https://www.taobao.com14813数据集NumAV在零件接头ST PS下午 PiPF合成模型数据集ShapeNet [4][24]第二十四话[30]第三十话[31]第三十一话>50K>20K2K2K<2K<2K<0.5K<0.5K<5K<5K<1K<1K- -✓-✓ ✓✓ ✓✓-✓-- -✓ ✓------------真实世界模型数据集YCB [3]LineMod [10][20]第二十话2115142,03740K19K5000万56K90K39K10K110K--✓✓--✓✓---✓---✓---✓---✓---✓表2.与其他流行模型数据集的比较我们的AKB-48数据集为ArtiKG中的丰富注释提供了四种类型的信息：外观，结构，语义和物理。AV：平均顶点数AT：三角形的平均数ST：Semantic Taxonomy。PS：每部分语义标签。PM：每部件质量。PI：每部件惯性矩。PF：每部件摩擦力。3.3. 快速连接知识建模（FArM）管道一旦我们确定了要注释什么以及要注释什么对象，剩下的问题就是如何使注释过程变得可负担得起。3.3.1模型获取设备。为了有效地收集真实世界的铰接模型，我们设置了一个记录系统，其配置如图3所示。该设备由三个组件组成：用于扫描2的EinScan Pro 2020，用于RGB-D多视图快照的Intel RealSense D435，多尺度旋转转盘和升降支架。在我们的设置中，每个对象可以在5分钟内扫描。3.3.2关节建模在模型获取之后，我们开发了一个具有3D GUI的铰接式对象建模界面，用于注释指导。具体来说，我们的建模工作流将整个流程分为三个子流程：对象对齐。这个过程需要注释器将扫描的铰接对象从相机空间对齐到类别内共享的规范空间为了帮助对齐，我们定义了几个基本形状，如立方体，球体和圆柱体与预定义的轴，这是用来适应目标对象。部件分割。与通常包括原始网格子组和零件信息的来自互联网的合成模型不同，真实世界的扫描模型需要对每个刚性零件进行手动分割。在我们的界面中，我们提供了一种具有多视图观察的网格切割方法。注记器在2https://www.einscan.com对准的水密表面和接口可以自动地将网格分成多个较小的子组件。需要注意的是，如果零件在现实世界中可以拆卸，我们只需扫描每个零件并将其组装成一个完整的模型。关节注释。与其他对象建模管道相比，铰接对象需要连接两个刚性分段部分并将运动学结构描述为树的关节注释。我们的接口提供了一个检查器窗口，允许注释者将部件重新组织成树结构。然后，注释器可以将关节信息添加到每个链接，并在包含父零件和子零件的3D视图中注释6D矢量（3个用于关节为了保证关节注释的正确性，我们提供了一个动画来演示在当前关节信息下的运动，注释者可以进一步细化注释。3.3.3物理注释真实世界的铰接对象存在于物理世界中，并具有物理属性。为了使我们的AKB-48能够在现实世界的机器人操作交互任务中使用，我们还为铰接对象的每个部分添加了物理属性注释。每部件质量我们以克为单位记录每个刚性部件对于那些在几个部分上不可分割的物体，我们采用排水法[6]来测量这些部分的体积，并根据材料的密度计算重量。每个零件的惯性矩。在现实世界中，由于扫描的关节模型可能包含数十万个三角形，结构非常复杂，很难获得每个零件的在我们的方法中，我们用有限的基元形状，如长方体，外观结构语义物理14814姿势模块零件分割特征提取器接头性能（Ω，Ω）拟合FC每个部件的姿势（，）RL代理关节嵌入术操纵特征提取器形状嵌入RGB-D图像与检测重建形状模块FC操纵模块联合国国家奥委会地图接头类型每零件点云PP∈P∈物理预测每部件质量计数每部件摩擦系数每部件惯性矩图4. AKBNet的整体管道。AKBNet的输入是一张带有检测到的盒子的RGB-D图像，并且有三个组成部分：（1）Pose模块，用于预测每个部分的分割，6D姿势，关节类型以及关节属性。(2)形状模块，用于生成具有当前关节状态的铰接对象的全网格（3）操纵模块，用于使RL代理（带有Robotiq 85夹持器的UR5机械臂）能够操纵对象，并且还预测每个部件的物理信息。和圆锥体，然后根据这些基元形状的组合计算仿真中的惯性矩。每个部件的材料和摩擦。并对表面材质及相关参数进行了标注例如，透明材料将用折射率注释，普通材料将用摩擦系数注释。这些都是通过搜索机械手册获得的3.4. 数据集分析对象类别。为了构建AKB-48数据集，我们考虑了以下要求：（1）通用性。我们要求我们的AKB-48能够覆盖日常场景中的大多数艺术化对象类别，例如厨房，卧室和办公室。(2)品种我们把具有各种形状、可变形性、纹理和运动学结构的物体视为一类。(3)使用. 所选对象应包含各种使用功能。此外，完成操作性能的能力是优先考虑的。统计我们首先将AKB-48与表2中的其他一些流行数据集进行比较。如图所示，我们的对象模型涵盖了现实世界的铰接对象分析的全部功能具体来说，与合成模型存储库相比，我们拥有平均约126K三角形和真实纹理的更精细的表面，而合成模型仅包含数千个三角形和合成纹理。在注释方面，我们提供了足够用于视觉清晰度任务的部分和关节注释此外，我们还为每个模型注释了以前在合成和真实世界模型库中从未考虑过的物理信息。我们相信，丰富的注释将促进语音研究的进一步发展。至于型号，我们有一个可比数量的ob-与当前最大的铰接式对象数据集PartNet-Mobility [31]相比，它是最小的，但它仅包括CAD模型。更多的统计，如品类规格、品类内品种等，可参考补充资料。4. AKBNet在本节中，我们将介绍AKBNet，这是C-VAM问题的一个完整管道。在AKBNet中，输入是一张带有检测到的2D边界框的RGB-D图像我们在AKBNet中构建了三个子模块，旨在估计每个部件的6D姿态（第二节）。4.1），重建物体的完整几何结构4.2），并通过感知推理交互策略（第2节）。4.3）。AKBNet的整体流水线如图所示。4.第一章4.1. 姿势模块给定一个检测到2D边界框的图像，我们可以获得部分点云RN×3。首先，输入由Pointnet++ [28]处理以进行特征提取，并且我们在最后建立两个分支以预测每个点的分割S和部分级别的归一化对象坐标空间[16]（NOCS）映射'RN×3。为了解决未知的运动学结构和关节类型问题，我们在特征提取器上引入三个额外的分支来对其对应部分k上的关节类型δ进行分类，并且还预测关节属性，包括关节位置qi和关节轴ui。最后，我们将投票方案应用于ob-得到了q∈R3和u∈R3的最终联合性质.我们使用交叉熵损失进行部分分割Lseg和关节类型分类Ltype，L2损失用于NOCS图Lnocs，关节位置Lloc和关节轴Lax预测。考虑到所有损失函数，14815MPPP--M--模块是：Lpos=λseg Lseg+λnoc Lnoc= +λlocLloc+λaxLax+λtypeLtype（一）分支预测每个部件的质量mk、摩擦力µk和惯性矩Ik。我们使用L2损失来训练物理预测子模块。详情请参阅补充资料最后，我们遵循具有运动学约束的姿态优化算法[16]来恢复每个刚性部件的6D姿态{R，t}。R表示旋转R∈SO（3），t表示平移t∈R3.4.2. 形状模块给定部分点云，形状模块旨在用关节状态θ重建完整的几何形状θ。遵循A-SDF [25]，我们构建了一个特征提取器，处理级联的部分点云和高斯初始化形状嵌入矩阵以及联合嵌入矩阵，其中矩阵表示完整关节对象的形状信息，矩阵表示在同一实例中共享的联合状态信息我们使用SDF值[27]di作为监督，L1损失用于训练形状模块Fsha：N5. 实验5.1.实验装置数据集。对于姿势模块和形状模块，我们使用AKB-48模型生成100 K RGB-D图像，用于使用SAMERT数据生成方案[17]使用NOCS [29]的场景训练AKBNet。我们还捕获了10K真实世界的图像，其中5K用于微调模型，另5K用于测试集。对于操作模块，我们分别选取了68个和32个实例对RL Agent进行训练和测试，其中前者用于打开任务，后者用于拉取任务。在训练过程中，我们在每一集使用不同的实例。实施详情。在训练姿势模块和形状模块时，我们使用初始学习率为0.001的Adam优化器。批量大小为16。训练这两个模块的总训练时期分别详细的超参数是：λseg= 1，λnocs= 10，λloc= 1，L=λ1美元（p，n，n）−dn+λ∥ϕ∥（二）λ ax= 0。5，λ type= 1，λ sha= 1，λ n= 0。0001为了那个-沙沙恩i=1沙我第二章nipulation模块，超参数为：批量大小为512，学习率为0.001，重放缓冲区大小为100K，软在推断期间，基于预测的形状嵌入-在Ding算法和联合嵌入算法的基础上，我们遵循Mu[27]以重建全网格Mθ。4.3.操纵模块操作模块完成两个任务：打开和拉动，分别对应于关节中的转动关节和转动关节。为了实现这些任务，我们训练了两个强化学习（RL）代理（带有Robotiq85夹持器的UR5机器人手臂）。我们提供了两种状态表示：（1）对象状态，包括6D姿态R，t，关节位置q，轴u，当前关节状态θ下的完整几何形状θ。(2)智能体状态，包括夹持器我们假设智能体可以访问关于自身的所有信息，因此智能体状态是我们方法中的基础事实。动作包括智能体对于转动关节，其目标零件沿关节轴线的旋转角为目标零件沿关节轴线的旋转角;对于移动关节，其目标零件沿关节轴线的平移距离为目标零件沿关节轴线的平移角RL代理由两种流行的RL基线训练：截断分位数批评（TQC）[15]和软演员-批评（SAC）[8]与后见之明经验重放（HER）[1]算法。我们还在AKBNet中进行物理预测。具体地，输入是点云K第k部分。我们训练了一个3层MLP，并建立了三个并行的更新系数为 0.05 ，折扣因子为 0.95 。我们使用RFUniverse [7]作为环境来训练RL代理。有关更多详情，请参阅补充资料。指标. 我们采用以下指标来衡量AKBNet的性能。对于姿态模块，我们报告了三个基于部件的度量：以度为单位测量的旋转误差，以米为单位测量的平移误差和每个部件的3D IoU。我们还报告了基于关节的指标：关节轴的角度误差（以度为单位），线到线距离的位置误差（以米为单位），关节类型分类准确度（%）。对于形状模块，我们报告了用于重建评估的平均Chamfer-L1距离[25]对于操作模块，我们报告成功率（%）作为度量。如果智能体能够抓住目标部位并将其移动50%的运动范围，则视为成功。5.2. 姿势模块性能我们在真实世界测试集上评估了NPCS [16]、A-NCSH [16]和AKBNet对于A-NCSH基线，我们使用直接回归和分类方案来预测运动学结构和关节类型。实验结果示于表3中。对于姿态估计，我们在旋转，平移误差和3D IoU上分别达到10.0，0.023和52.7，14816↑↓图5.定性结果。举例来说，从左到右依次为：输入RGB-D图像，输出姿态模块，输出形状模块，操作演示。高于NPCS和A-NCSH。对于关节相关的评估，我们可以精确地预测关节类型看不见的articulated 对象与94.2%的准确率。此外，AKBNet在关节轴和位置预测方面的误差分别为8.7和0.019方法基于零件的装配旋转↓平移↓3D IoU↑NPCS [16][16]第十六话AKBNet12.610.510.00.0380.0260.02348.350.852.7方法基于关节的关节角度↓距离↓类型↑NPCS [16][16]第十六话AKBNet-9.28.7-0.0210.019-93.894.2表3.类别级清晰度姿态估计结果。越低越好意味着越高越好* 表明A-NCSH是用额外的运动学结构和关节类型预测模块重新实现的。5.3. 形状模块性能实验结果如表5所示。AKBNet在Ground Truth对象状态下可以完成打开和拉动操作任务，成功率分别为68.6%和92.4%然而，当预测对象状态时，我们的方法可能表现不佳，只有 26.4% 和 32.6% 的成功率。AKBNet的定性结果如图所示。五、我们的AKBNet还可以预测物理信息，包括每个部件的质量，摩擦力和惯性矩。这些预测的物理可以使力传感AKB-48 ob-brace在模拟，这有可能实现力控制。更多详情，请参阅补充材料。方法模式开口拉[1]第八届全国政协副主席对象状态GT对象状态优先级53.822.892.428.5[15]第一届全国人大代表选举对象状态GT对象状态优先级68.626.489.732.6表5.关节式物体操作任务的成功率（%）。Pre.意味着我们使用来自姿势和形状模块的预测对象状态。形状模块的实验结果示于表4中。在地面实况关节状态输入内，形状模块可以重建具有关节的对象，5.6倒角-L1距离。另一方面，我们系统地评估给定预测关节状态的形状模块，该预测关节状态是从从姿势模块预测链接的两个部分的姿势推导出的倒角-L1距离为3.3，高于地面真实联合状态，表明预测的姿势在很大程度上影响重建性能。模式腔室-L1距离联合国GT5.6联合国前。8.9表4.铰接对象重建结果。Pre.意味着我们使用来自姿势模块的预测关节状态。5.4. 操作模块性能我们使用TQC+HER训练算法在AKBNet的操作模块上评估打开和拉取任务，6. 结论和众包数据收集邀请在本文中，我们提出了AKB-48，一个大规模的articulated对象知识和基准C-VAM问题处理的清晰度问题。诚然，有一些铰接对象类别可能没有收集在AKB-48中，尽管我们已经涵盖了日常生活中足够大的类别。在未来，我们将发布我们的FArM工具，用于收集更多的关节对象，它也可以支持任何扫描的形状，如移动重建器[13]。在未来的工作中，我们将发布一个在线发音模型平台，并邀请众包数据收集为发音研究社区做出贡献鸣谢本工作得到国家重点科技攻关项目（2005年第106号）的支持。2021 ZD 0110700）、上海市科技重大专项（ 2021 SHZDZX 0102 ）、上海启智研究所、SHEITC（2018-RGZN-02046）。14817引用[1] Marcin Andrychowicz、Filip Wolski、Alex Ray、JonasSchneider 、 Rachel Fong 、 Peter Welinder 、 BobMcGrew 、 Josh Tobin 、 Pieter Abbeel 和 WojciechZaremba。后见之明体验回放。第31届神经信息处理系统国际会议论文集，第5055-5065页，2017年。七、八[2] 博雷戈、德班、菲格雷多、莫雷诺、贝尔纳迪诺和桑托斯。应用域随机化方法对合成数据进行目标分类检测.arXiv预印本arXiv：1807.09834，2018。2[3] Berk Calli、Arjun Singh、Aaron Walsman、SiddharthaSrini-vasa、Pieter Abbeel和Aaron M Dollar。YCB对象和模型集：面向操作研究的公共基准。2015年国际先进机器人会议（ICAR），第510-517页IEEE，2015年。三、五[4] AngelXChang ， ThomasFunkhouser ， LeonidasGuibas，Pat Hanrahan，Qixing Huang，Zimo Li，SilvioSavarese，Manolis Savva，Shuran Song，Hao Su，et al.Shapenet：An information-rich 3d model repository. arXiv预印本arXiv：1512.03012，2015。二三五[5] 彭昌和塔斯·帕迪夫。Sim2real2sim：在灵活的对象管理中弥合模拟和现实世界之间2020年第四届IEEE机器人计算国际会议（IRC），第56-62页。IEEE，2020年。2[6] 作者声明：John D Cutnell，Kenneth W Johnson. 物理学，第一卷：第1-17章，第1卷。John Wiley Sons，2014. 5[7] Haoyuan Fu，Xu Wenqiang，Xue Han，Yang Huinan，Ye Ruolin ， Huang Yongxi ， Xue Zhendong ， WangDong，and Cewu Lu.Rfuniverse。7[8] Tuomas Haarnoja、Aurick Zhou、Pieter Abbeel和SergeyLevine。Soft Actor-Critic：Off-policy Maximum EntropyDeep Reinforcement Learning with a Random Actor.在机器学习国际会议上，第1861PMLR，2018。七、八[9] 卡罗尔·豪斯曼，斯科特·尼库姆，莎拉·奥森托斯基，高拉夫·S·苏哈特梅.通过交互感知的主动发音模型估计。2015年IEEE机器人与自动化国际会议（ICRA），第3305-3312页。IEEE，2015年。3[10] 斯特凡·欣特施托伊瑟，斯特凡·霍尔泽，塞德里克·卡尼亚特，斯洛博丹·伊利克，文森特·莱佩蒂特.多模态模板用于在严重杂乱的场景中实时检测无纹理物体IEEEInternational Conference on Computer Vi-sion ，2012。5[11] Ajinkya Jain ， Rudolf Lioutikov ， and Scott Niekum.Screwnet：使用螺旋理论从深度图像进行类别独立的清晰度模型估计。 arXiv 预印本 arXiv ： 2008.10518 ，2020。3[12] 多夫·卡茨和奥利弗·布洛克用交互式感知操纵铰接的在2008 年 IEEE 机器人和自动化国际上，第 272-277 页IEEE，2008年。3[13] Matthew Klingensmith，Ivan Dryanovski，Siddhartha SSrinivasa，and Jizhong Xiao.凿：移动终端上的实时大规模3D重建，散列有符号距离字段。机器人：科学与系统，第4卷。Citeseer，2015. 8[14] Sebastian Koch 、 Albert Matveev 、 Zhongshi Jiang 、Francis Williams、Alexey Artemov、Evgeny Burnaev、Marc Alexa、Denis Zorin和Daniele Panozzo。Abc：用于几何深度学习的大型CAD模型数据集。在IEEE/CVF计算机视觉和模式识别会议论文集，第9601-9611页，2019年。二、三[15] Arsenii Kuznetsov ， Pavel Shvechikov ， AlexanderGrishin，and Dmitry Vetrov.用截断的连续分布分位数临界值混合控制高估偏倚。国际机器学习会议，第5556PMLR，2020年。七、八[16] Xiaolong Li，He Wang，Li Yi，Leonidas J Guibas，ALynn Abbott，and Shuran Song.类别级铰接对象姿态估计。在IEEE/CVF计算机视觉和模式识别会议论文集，第3706-3715页，2020年。三六七八[17] Liu Liu，Han Xue，Wenqiang Xu，Haoyuan Fu，andCewu Lu.走向现实世界的类别级衔接姿态估计。arXiv预印本arXiv：2105.03260，2021。1、7[18] Qihao Liu ， Weichao Qiu ， Weiyao Wang ， Gregory DHager，and Alan L Yuille.只有几何约束：一种用于关节式物体姿态估计的无模型方法。arXiv预印本arXiv：2012.00088，2020。3[19] Robert Maier ， Kihwan Kim ， Daniel Cremers ， JanKautz，and Matthias Nießner.Intrinsic3d：通过联合外观和几何优化与空间变化照明实现高质量的3D再现。IEEE国际计算机视觉会议，第3114-3122页，2017年2[20] Roberto Mart´ın-Mart´ın ， Clemens Eppner ， and OliverBrock.铰接对象和交互的rbo数据集。The InternationalJournal of Robotics Research，38（9）：1013 一、三、五[21] Rober toMar t'ın-Mart'ın，SebastianHofer，andOl iv erBrock. 一个综合的方法来视觉感知的关节物体。2016年IEEE机器人与自动化国际会议（ICRA），第5091-5097页IEEE，2016.3[22] 乔治·A·米勒 Wordnet：英语词汇数据库。Communications of the ACM，38（11）：39-41，1995.二、四[23] Kaichun Mo 、 Leonidas Guibas 、 Mustafa Mukadam 、Abhi-nav Gupta和Shubham Tulsiani。Where 2act：从pix-els到3d物体的动作。arXiv预印本arXiv：2101.02692，2021。3[24] Kaichun Mo ， Shilin Zhu ， Angel X Chang ， Li Yi ，Subarna Tripathi ， Leonidas J Guibas ， and Hao Su.Partnet：一个用于细粒度和层次化部件级3D对象理解的大规模基准测试。在IEEE计算机视觉和模式识别会议论文集，第909三、五[25] Jiteng Mu ， Weichao Qiu ， Adam Kortylewski ， AlanYuille，Nuno Vasconcelos，and Xiaolo

下载后可阅读完整内容，剩余1页未读，立即下载