OakInk：丰富手-物交互知识库的构建与应用

47 浏览量更新于2023-10-25 收藏 3.76MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

20953OakInk：一个理解手-物交互1、2杨立新，1李凯琳，1新余詹晓，1吴飞，1徐安然，1Liu Liu，1，2Cewu Lu†1上海交通大学2上海启智学院{siriusyang，kailinli，kelvin34501，legendary，xuanran，liuliu1993，lucewu} @ sjtu.edu.cn摘要学习人类如何操纵物体需要机器从两个角度获取知识：一个是理解物体的启示，另一个是学习人类即使这两个知识库是至关重要的，我们发现，目前的数据库缺乏对它们的全面认识在这项工作中，我们提出了一个多模态和丰富的注释知识库，OakInk，为视觉和认知的理解手-物体的相互作用。我们开始收集1，800个常见的家居物品，并对其进行注释，以构建第一个知识库：橡木鉴于启示，我们记录了丰富的人类互动与100个选定的对象在橡树。最后，我们通过一种新的方法将100个记录对象上的交互转移到它们的虚拟对应物上：婷珂.记录和传输的手-物体交互构成第二知识库：墨水因此，OakInk包含50，000个不同的可提供感知和意图导向的手-物体交互。我们基准OakInk的姿态估计和把握生成任务。此外，我们提出了OakInk的两个实际应用：基于意图的交互生成和切换生成。我们的数据集和源代码可在www.example.com上公开获取www.oakink.net。1. 介绍使机器能够理解和模仿人类的在由此衍生的任务中，学习人类如何是一个具有挑战性的基本任务。由于大多数工具都是为了实现功能而设计的，人类可以通过指令或经验轻松地学会操纵它们。然而，这些经验对于机器来说是很难获得的直到最近，数据驱动的方法才开始促进对学习胡的研究同等贡献。†Cewu Lu为通讯作者。他是上海交通大学人工智能研究所、上海启智研究所、清源研究院、MoE人工智能重点实验室成员。图1.OakInk存储库中不同数据模式的图示左列显示了人类操纵3个源对象（马克杯，相机和耳机）。右边的5列显示了15个虚拟对应对象上的传输交互。人为操纵[2，15，20，35，43，59]。先前的工作试图赋予机器复杂的技能，例如手对象定位[45]、姿势估计[29]、抓取生成[11]和动作模仿[41]。用于学习人类操纵的两个基本组件是1）对象的可供性和2）人手将如何基于这些可供性与对象交互。“启示”一词在不同的任务中有不同的自2019年以来，至少发布了9个手物交互数据集：[19]第23话，我的世界tactPose [5] 、 GRAB [51] 、 DexYCB [10] 、两个 H2O[28，57]DexMV [41]。然而，这些数据集缺乏对对象的启示和手与它的交互的全面意识。首先，现有的真实世界数据集只包含少量的对象和手部交互。作为两个说明性示例，在DexYCB中仅捕获了20个对象其次，即使合成数据集[23]可以扩展到抓取模拟器中的大量交互：GraspIt [33]，生成的抓握既不反映人类交互的分布，也不考虑对象本身的启示。到20954理解人类如何操纵物体，我们建议从两个角度构建机器的知识：以人为中心和以人为中心的观点。为此，我们构建了两个相互关联的知识库。一个是OobjectAffordanceK novel base（Oakbase，Sec.3.1），其中我们提供了知识图谱中对象的启示的全面描述3.2），其中我们收集了各种人手交互，这些交互提供了根据其启示操纵对象的演示。为了建造橡树基地，我们首先收集了1,800件专为单手操作设计的家用物品橡树基地的物品来源有四个方面：1）从在线供应商自行收集，2）ShapeNet [9]模型，3）YCB [6]和4）ContactDB [3]对象。其次，通过详尽地回顾上述来源中的对象，我们构建了一个对象知识图，该图使用两种类型的抽象来排列对象，即分类法和属性（图2）。这个对象知识图使我们能够对新对象进行快速扩展，并对具有相似启示的对象进行方便的聚类。为了构建Ink基础，我们开始收集基于对象的启示执行手对象交互的人类经验。我们从Oak基地挑选了100个有代表性的观测对象，邀请12名人类受试者进行演示，并建立了一个多传感器MoCap平台进行记录（图1）。（3）第三章。记录的序列构成真实世界图像数据集，其包含230，064个RGB-D帧，捕获12个主体与来自32个类别的总共100个实例的池中的对象执行多达5个面向意图的手部交互出现在记录序列中的对象被表示为接下来，考虑到现实世界中的人类演示，我们的目标是将他们对源对象的经验转移到具有类似启示的虚拟对应物（目标对象）。转移的手交互不仅要确保其物理可扩展性，而且要保持一致的意图，并匹配目标对象的大小，形状和启示（图1）。1）。为此，我们提出了一种学习 - 拟合混合方法： Tink for Ttransfering the Interaction K nostrium among objects（在对象之间传递交互知识的技巧）3.3）。Tink由三个模块组成：即隐式形状插值、显式接触映射和迭代姿态细化。通过Tink，我们将Inkbase中不同的手-对象交互总数扩展到50，000。通过结合上述两个知识库：Oak和Ink，构建了一个大规模的知识库：OakInk。OakInk的优势有三方面：1）它从两个角度为理解手-物交互提供了全面的知识：客体启示与人类经验; 2）包含基于图像和基于几何的两个大规模数据集手-物交互作用; 3）它提供了丰富的注释，包括手和对象姿势、扫描的对象模型、AF、细粒度接触和应力模式以及输入标签。OakInk可以使两个社区的研究受益：1）姿态估计[13，21，30]，形状恢复-[23，25]和计算机中的动作识别[15，28，52]视觉，CV;2）计算机图形学中的抓取生成[24，51，59]和运动合成[7，38]， CG;在上述所有热门领域中，我们发现姿势估计和姿势生成与我们的在本文中，我们在三个现有任务上对OakInk进行了基准测试，并提出了两个新任务：一个是基于意图的手部姿势生成，另一个是人与人的切换生成。我们的贡献可归纳为三个方面。首先，我们构建OakInk，一个大规模的知识库，用于理解手对象的相互作用。其次，在OakInk中，我们提出了一种新的方法Tink，它可以在具有相似属性的对象之间传递交互知识。最后，我们在三个现有任务上对OakInk进行了基准测试，并提出了两个新任务：生成用于更多自定义目的的合理手部姿势。2. 相关工作手-物交互（HOI）数据集当前的HOI数据集可以根据数据源分为真实世界和合成。 ObMan [23] 和YCBAfford [11]代表利用抓取模拟器合成或标记静态抓取的合成数据集真实世界的数据集根据它们收集注释的方式分为三种类型。1）。基于标记的数据集在附于手的磁性传感器[15，57，58]或反射标记[51]的帮助下收集手部姿势。2）。自动无标记数据集[5，19]聚合来自检测，分割和姿态估计方法的视觉线索，以自动获取注释。（3）第三章。众包无标记数据集利用人类注释器来标记手和物体的2D姿势[10]。在本文中，我们通过众包其2D关键点并在多视图中优化它们来收集3D手部姿势注释。对于物体姿态，我们在同步的MoCap 系统中记录其表面附着的反射晶片（第12节）。3.2.3）。我们将在第二节中对现有数据集进行全面的比较和统计。3.4（表1）。手-物交互的接触。为了捕获接触，先前的方法使用测量设备，如力传感器[39]、触觉传感器[50]和热摄像机[3，5]，或通过精确的姿势跟踪计算真实接触[51]。由于接触可以提供丰富的线索来推理交互期间的结合手-物体姿势，因此最近的方法利用接触来帮助优化重建[25，55]和合成[24]任务中的抓握。本文推导了接触区及其应力分布，20955⟩⟨⟨⟩⟨⟩通过精确的姿态跟踪来实现3.2.3）。在第3.3，我们将接触映射到虚拟对象，并基于接触优化姿势。手-物交互的姿势。位姿估计是理解人类如何操纵物体的一项常见任务以前的方法要么只关注手[53]，要么只关注物体[54]。Hasson等人 [23]提出了第一个联合手对象姿态估计方法，带来了这一领域的复兴[8，13，21，22，29，30]。HOI的另一个流行任务是抓取姿势生成。这方面的研究人员已经深入研究了合成前母鸡-顶级类类别实例零件段描述性短语根据图像[11]或形状观察[25]进行模拟抓取许多衍生任务，如：动作识别[15，28]，模仿学习[42]，遥操作[20]和人与机器人的交接（反之亦然）[48，56]都是由上述两个任务驱动的在本文中，我们基准我们的数据集上的经典姿态估计和姿态生成任务。我们还介绍了两个有趣的任务，探索生成模型与给定的意图和移交的情况下。3. 创建OakInkOakInk由两个相互关联的知识库组成。一个是以对象为中心的启示知识：橡树基地，另一个是以人为中心的交互知识：墨水基础。一旦我们决定了OakInk的组成，三个问题将得到回答。（1）如何表征客体2）如何根据示能表示记录人类操纵物体的经验3）如何将记录的交互转移到具有相似启示的对象上？为了解决这些问题，我们描述了在第二节橡树基地的建设。3.1，介绍我们如何记录和注释第二节中的人类演示。3.2节介绍了一种新的交互式知识传递方法。三点三最后，我们提供了统计和分析。三点四分。3.1. 以对象为中心的示能性知识库我们专注于日常生活中常见的物体，并为单手操作而设计。我们为此收集了1,800件家居用品。这些对象的来源有四个方面：1）从在线供应商那里自我收集，2）ShapeNet模型，3）YCB对象，以及4）ContactDB对象，其中我们观察到不同的对象类别，形状和启示。我们将所有对象组织成一个知识图（图1）。2）。知识图谱以及对象接下来，我们将详细说明如何安排对象（分类法）以及如何描述对象的启示（属性）。Oak库中的分类和属性应实现1）一致性，即一组人根据共同的经验进行一致的分类，并具有2）可扩展性，即新对象和新属性可以很容易地图2.对象示能表示知识图。扩展到当前的知识库。在对上述数据集中的对象进行详尽的回顾后，我们发现分类和属性描述可以在有限的类别内得出结论。分类学我们采用一种分类法，将Oak基础对象分为两个级别的分类。我们定义了由两个类组成的顶级分类，即操作工具（ maniptool ）和功能工具（functool）。其定义如下：• maniptool类包含用于操纵（影响）其他实体的工具。这些对象通常包含一个手柄（用于抓取）和一个末端效应器（用于影响其他实体）。（例如杯子、刀子、钳子和钻头）;• functool类管理通常具有自包含函数且不一定需要结束因子的工具。（例如摄像头和耳机）;在顶级分类中，我们根据WordNet [34]类别将对象排列为子级别分类。Oak库中的类别总数为32.我们列出了Appx中的所有类别。属性“示能性”的概念后来在CV和机器人社区中，示能表示已被用于不同的公式，例如可抓握区域[26，27]，抓握类型[11]，部分分割[12，35]，接触区域[4]和动作效果[14]。在本文中，我们将“示能性”定义为客体的功能性。示能表示由一组属性表示。每个属性都包含一个部件分段，其中包含一个或多个描述部件功能的描述性短语例如，假设一把刀有两个部分：刀片和手柄，我们分配短语削减， “以其人之道还治其人之身”，“以其人之道还治其人之身”。我们邀请了10名不同背景的志愿者，让他们首先说出一句话：动词（+prep），用来描述物体的每一部分。我们只专注于功能性部件。因此，对于可能没有功能的部件，我们要求志愿者判断并将其标记为“无功能”。我们也鼓励志愿者func工具举行运输相机没有func鼠标手电筒耳机眼镜...点于某20956SSS××∈S∈∈M·SS∈以推断不同对象类别之间的部件级相似性。首先，我们创建一个空的候选短语池。当一个新的短语最初被提出时，我们首先检查它在候选池中是否有重复的含义。然后，我们征求所有志愿者的一致意见，是否更换或添加。最后，我们收集所有的短语，总结他们的意思，并投票选出他们在每个部分的出现。通过对所有32个宾语类别的穷尽考察，我们最终确定了30个定语短语。我们列出了Appx中的所有属性短语。3.2. 以人为中心的交互知识库在这一部分中，我们详细阐述了如何收集人类示范和构建墨水基地。我们首先介绍了硬件设置为有效的记录在秒。第3.2.1节提供数据采集协议。3.2.2并在第3.2.3.3.2.1硬件设置数据采集平台由多摄像机系统（MulCam）和红外运动捕捉系统（Mo-Cap）组成。MulCam系统由4个RealSense D435摄像头组成，用于记录基于图像的交互序列。MoCap系统由8个Optitrack Prime 13W摄像机组成，用于在交互过程中跟踪对象我们同步了两个传感器系统中的所有摄像头，并校准了MulCam系统之间的转换：c和MoCap系统：M.我们的平台如图所示3 .第三章。所有的传感器都被刚性地安装在1.5. 1. 2 1m3的立方体区域，使主体能够自由地与物体或其他主体进行互动，不受干扰。3.2.2交互序列获取我们邀请了12名受试者，并记录了他们与给定对象的互动。从对象数据库中为每个主题分配一个子集。导演首先会详细说明每个对象的属性，并确认所有主体对这些属性的认可。然后，要求下属从平放在桌子上的手姿势开始，拿起指定的物体，并以给定的意图完成动作对于每个对象，我们收集多达5个意图，即使用，持有，举起，分发和接收。intent：use要求主体执行一个使用对象属性的操作这种抓握要求受试者稳定地抓住物体。举起要求受试者拿起一个翻倒的物体并将其放置起来-正确。当一个受试者被要求分发一个物体时，这个受试者（给予者）也与另一个受试者（接受者）配对执行接收。这一对递出和接受的顺序构成了一个人与人之间的交接动作。在移交过程中，赠送者被要求确定接收者将在哪里接收对象，OptiTrack Prime 13WRealSense D435图3.我们的数据采集平台配有4个RGB-D摄像头（红色圆圈）和8个红外MoCap摄像头（蓝色圆圈）。使用 . Meanwhile, the receiver was asked to determinehow to receive the object from the giver without mutualcontact.在每个动作完成后，导演将为下一个动作放置一个随机姿势的对象。我们记录每个动作5秒，并手动丢弃空闲帧。3.2.3数据注释在整个人类演示过程中，我们对手和物体的姿势和接触模式特别感兴趣，因为它们包含了人类操纵物体的经验。对象姿势。我们通过跟踪表面附着的反射标记来跟踪物体的6自由度姿态（图1）。4左）在MoCap系统m.然后，通过系统标定将物体姿态从m转换到MulCam系统c手的姿势和几何。我们依赖于手动标记的2D手关键点从多个视图来获取3D手关节注释。根据[10]中的实践，我们在在线众包平台上设置了一个注释任务，并要求工作人员在所有指定帧的所有4个视图中定位每个关键点我们采用标准的21个手部关键点，遵循[46]中定义的顺序和位置。为了描述3D空间中的手部姿势和几何形状，我们使用MANO 手部模型[44]。 MANO表示具有关节的可变形手，姿态θ R为16×3，形状βR为10.在后面的文章中，我们将“手部姿势”表示为21个关节位置：在c系统中PhR21×3。有了θ和β，我们可以通过可微MANO层恢复手部姿势Ph和网格顶点VhR778×3：（）[23]。求解PH和VH是一个最小化几个手工成本函数的优化任务. 在本文中，我们只描述了核心术语：3D-2D关键点在多视图之间的重投影误差对于其他辅助成本，如几何一致性，时间平滑和轮廓约束，请访问Appx。设P_h，j，v是第v个视图中的第j个2D手部关键点注释，P_h，j是第j个3D手部姿态估计，并且设T_v，K_v是第v个视图的相机的外在和内在，我们将重新投影成本定义为：20957ΣΣ2我≤J我1JOO领域晶片锚接触性图4.用于跟踪物体运动的反射标记（左两个）和描述物理接触区域的接触度（右两个）的图示。交互姿势以表示每个序列。这些选定的手姿势是交互转换的源姿势稍后，我们将这些选定交互的集合称为OakInk-Core。3.3.1隐式形状插值一旦我们决定将交互从一个源对象转移到另一个目标对象，一个即时的问题是如何表达对象的形状并执行连续的形状变形。为了回答这个问题，我们首先将对象形状表示为隐式函数（SDF，带符号距离函数）。NvNj¨（1）当然，SDF是连续的。现在的问题是Erep j=10w j，vv=1j=1wj，v<$KvTvPh，j−p<$j，v<$2，如何在SDF之间执行形状插值源和目标。为了解决这个问题，我们采用了一种神经生成器-其中，wj，v表示k∈y点p∈j，v 的可见性。接触和应力模式。给定精确的手和物体姿态，我们可以推导出物体表面上的每个手部分的接触我们采用Yang等人的17个手部部位分割和部位级锚点定位。[55]。基于GRAB [51]中的有效接触启发式，如果锚点靠近对象表面上的这些顶点（在25 mm的阈值内），则我们自动将部件标签分配给这些顶点 The verticeswith a labeled hand part form the con- tact regions of theobject.物理接触通常会导致手和物体的弹性变形[18]，其中应力和应变将在整个变形区域传播。虽然MANO和刚性物体模型不能反映这种行为，但我们可以通过在接触区域添加环形扩散和减小值来模拟应力模式，我们称之为接触。如图4右，接触性在最接近某个锚点的点处取最大值1，随着距离的增加集中减小，当距离大于25 mm时最终变为0。3.3.3.3.3. 小叮当：传递交互知识本节描述了我们如何将手与真实世界对象（在人类演示中记录的）的交互转移传输的交互应与收集的关于接触、姿势、意图和人类感知的交互一致。然而，由于不同的对象在形状和大小上不同，直接姿势复制（如图所示）。5、在大多数情况下，失败。为了解决这个问题，我们提出了一种混合学习-拟合方法：用于传输交互知识的Tink。Tink由三个连续的模块组成，即形状插值、接触映射和姿态细化。我们将真实世界中人类演示中记录的对象称为源对象，将Oak中的虚拟对象称为目标对象。由于记录的序列只有一种类型的手-物交互（切换序列有两种），我们手动选择1（或2）稳定行动模式：DeepSDF [37]将复杂的3D形状映射到连续的潜在空间中。使用DeepSDF有三个优点。1)2）通过对形状向量在隐空间中进行插值，可以实现精确的形状插值;（3）在SEC之后。3.3.3，我们可以通过惩罚负查询位置来减轻手-对象互穿（等式3.3.3）。（4））;我们首先在某个类别的所有源和目标对象SDF上训练DeepSDF模型然后，对于第i个源对象SDF：s和第j个目标对象SDF：t，我们在它们的潜在形状向量：os和ot之间执行线性插值. 在插值期间，我们采样Nitpl个等间隔的分位数作为地标。最后，我们将界标处的形状向量解码为其 SDF ，并通过 MarchingCubes [31]重建网格模型。 Nitpl人工对象构成连接源和目标的路径。3.3.2显式接触映射如图左5，直接模仿手型失败。我们需要找到一条在源、目标和沿着路径的N个itpl地标之间共享的一致信息。与姿态相比，接触区域对形状变形具有更好的不变性。我们从源对象开始映射接触区域，依次通过N个itpl地标，并最终到达目标对象。只要每两个界标之间的间隔足够小，我们就可以忽略第i个和第（i+1）个物体之间的形状变化接触映射如图所示5（不同手指部分的接触区域涂有不同颜色）。考虑到效率和精度之间的权衡，我们经验地发现Nitpl=10是足够的。我们将第i个对象上的顶点的接触标签映射到第（i+1）个对象上的在每i（0i Nitpl）步，我们采用迭代最近点（ICP）来连接相应的顶点。3.3.3迭代姿势优化在最后一个模块中，我们将源对象的交互手部姿势映射到其对应的目标对象。作为20958形状插补DeCeonptacStMDapFpingg姿态细化Tinki=1h，j¨VO·Σ。ΣMH.Σ←−h，jEconsis=εγAi−Vh，j二、A{}直接姿势复制脱节！交叉！失败源地标目标脱节！图5.（最佳彩色视图）我们的Tink管道插图没有精致的物体由于形状的变化，这种姿态复制通常会遭受不自然的不相交或相交我们将交互的知识表示为对象表面上的语义，即接触区域（回忆第二节）。3.2.3），通过强制源和目标对象之间的接触一致性来进行姿态映射。我们制定姿势映射作为一个迭代优化。优化过程中的变量是新转移的手的姿态θ、形状β和手腕位置Ph0我们开始将手表面上的锚点吸引到目标对象上相应的接触区域设总共17个手区域的锚点为=Ai17，对象表面上对应于锚点Ai的顶点为V （ i ） ={V（i）}，并且Ai和A i之间的接触度为V（i）是γij。接触一致性成本表示为：感知评价。最后，将所有传递的交互发送给5名志愿者进行感知评估。以源物体及其交互手姿态为参考，要求志愿者判断目标物体上的手姿态是否表现出相同的意图并满足视觉可接受性。我们只选择在5名志愿者中达成共识的交互。3.4. 数据集分析在本节中，我们提供了OakInk的统计和分析。作为总结，我们收集了12名受试者的230K图像帧，这些受试者与32个类别的100个真实世界对象进行了多达5次面向意图的交互，并将交互转移到其余的1，700个虚拟对象中。1Σ Σ¨IJAi（i）h，j（i）2（二）直接优化关节因此，我们采用Yang等人的轴向适配。[55]并约束旋转轴和角度。设aj和j是第j个关节旋转的轴向分量和角度分量数据集为OakInk-Image。我们为每个图像序列选择1个（或2个）代表性的手-物体交互，并将其集合表示为OakInk-Core。所有选定和传输的交互作用构成另一个基于几何的数据集：OakInk-形状。我们做了一个全面的COM-J J预定义的扭曲和展开方向。解剖成本定义为：E=100。a·nt+max. （π−π），0ππ+πa·ns，（3）使用选项卡中的现有手对象数据集进行重新配置1，并在Appx中可视化手部姿势和接触分布。图像数据集交叉验证。为了评估价值AnatJJj∈allj2jjj∈/MCP的OakInk-Image，我们在Tab中执行交叉数据集验证。二、我们训练了一个基于图像的3D姿态估计模型“MCP”表示五个为了控制手-物体的相互穿透，我们还引入了一个相互穿透代价来惩罚物体表面内的手顶点：Eintp=−minSDFO（Vh，j），0，（4）Vh，j其中SDFO（）计算3D手顶点Vh，j到对象提供在形状插值（Sec. 3.3.1）。总优化问题是：Vh，PhargminEconsis+Eanat+Eintp，（5）θ，β，Ph0其中Vh，Ph=（θ，β）+Ph0.每个源-目标对运行1,000次迭代。整个管道在PyTorch中使用Adam solver实现。[49]分别在三个训练集上：HO 3D、OakInk-图像以及它们的混合物，并在 DexYCB 测试集上报告手的MPJPE。我们在OakInk-Image（单独和混合）上训练的模型上观察到一致的MPJPE改进，验证了OakInk-Image补充了HO 3D数据集并改进了网络模型。几何数据集质量。为了评价OakInk-Shape的质量，我们检查了几种评估抓握可行性和稳定性的基于物理的方法。我们还将这些指标与其他三个数据集进行了比较：[16][17][19]分别表示三种不同的数据注释方法：有源磁发射器、无源反射标记和自动无标记。选项卡. 3表明OakInk-Shape表现出高的基于物理的品质。γij对应对象。不同的手-物体交互的总数是50，000。我们表示基于图像的20959∈∈数据集mod.结果#frame #subj #obj #views #inten #intact 真实/syn.标签方法intac。 obj内姿势动态手-手-物体intac。超过 contact.[23]第二十三话YCBAfford [11]RGBDRGB256× 256–154K个133K2013K2111–––367synsyn模拟模拟✗✗✓✗✗ ✗✗✗✗✗FPHAB [16]RGBDRGBD网格RGBDRGBD1920×1080105K640×48078K960×5402991K–640×480582K1280×720571K6105010104410255120811-53–53–4–273682.3K1.3K1K1.8K房标记✓✓ ✓✗✗HO3D [19]房汽车✗✓ ✓✗✗联系我们[5]房汽车✓✓✗✗✓[第51话]房标记✓✓ ✓✗✓DexYCB [10]房人群✗✓ ✓✗✗H2O [28]房汽车✓✓ ✓✗✗OursOakInk-图片OursOakInk-形状RGBD网格848× 480–230K–1210012一千七百4–551K49K房房人群Tink✓ ✓✓ ✓✓ ✓ ✓✗✓ ✓表1.我们的OakInk与公开可用的手-物体交互数据集的比较火车测试MPJPE（mm）↓1）HO3DDexYCB55.382）OakInk-图片DexYCB44.811)2）混合物DexYCB39.70表2. OakInk上的交叉数据集验证-图像度量图6. I2 L-MeshNet [36]在HMR任务上的定性结果（顶行），以及Hassen等人。[21]关于HOPE任务（底部行）。佩内深入cm↓3固体Intsec。体积cm ↓SIM.患者使用的一次性平均cm↓SIM.患者使用的一次性标准cm↓表3.OakInk的质量评估-形状。注意：PFHAB和HO3D的评价仅在手抓物体的框架上进行（最小距离≤5 mm）。4. 任务和基准结果我们对现有的三个任务进行基准测试（第二节）。4.1-4.3 ），并提出了两个新的任务（节。4.4）在我们的OakInk上。现有的三项任务是：3D手动网格恢复（ HMR ，第 4.1 ） [32 ， 36] ， 3D 手对象姿态估计（HOPE，秒4.2）[21，52]，并把握姿势生成（GraspGen，第4.2节）。4.3）[51]。这两个新的任务是基于意图的交互生成（ IntGen ， Sec.4.4A ）和人与人的交接生成（HoverGen Sec. 4.4B）。4.1. 手部补片恢复HMR任务是从单个图像中估计手部姿势PhR21×3和几何形状VhR778×3为了在这项任务上对OakInk进行基准测试，我们首先生成第二节中收集的图像帧的训练/测试分割。3.2.我们称之为基于图像的子集：OakInk-图像。我们在每个序列中随机选择一个视图，并将该视图中的所有图像标记为测试序列，而其余三个视图形成训练 / 验证序列（训练 / 验证 / 测试： 70% /5%/25%）。我们将此拆分称为SP0（默认拆分）。接下来，我们对两种HMR方法进行基准测试：一种是直接图像到顶点方法：I2 L-MeshNet [36]，另一种是混合逆运动方法：HandTailor [32]。我们用三个指标来评估这些方法：每个关节位置误差的平均值（MPJPE），在范围内的曲线下正确关键点的百分比（AUC）：[0.50 mm]和腕部相对系统中的平均每顶点位置误差（MPVPE）。我们显示结果分裂方法MPJPE（AUC）MPVPE核心形FPHAB抢HO3D0.180.111.952.531.161.030.6222.877.612.080.981.740.941.626.605.342.043.171.912.8820960∈∈SP0I2LMeshNet [36]12.10（0.784）12.29[32]第三十二话11.20（0.884）11.75表4. HMR结果（mm）。AUC显示在括号中。方法MPJPEMPCPE(all类别）MPCPE（每类）刀洗剂马克杯相机Hasson等人[21日]27.2656.0968.4060.7037.2668.13Tekin等人[五十二]23.5252.1657.2957.1135.4456.87表5.HOPE结果（mm）。：仅列出4个类别。表中的SP0测试集。图4和图6（顶行）。其他拆分的更多定量结果见附录x。4.2. 手-物体姿态估计HOPE任务是从单个图像中同时估计手姿态Ph和对象姿态（旋转RoSO（3），中心平移到Ro3大多数以前的方法集中在实例级的对象姿态估计。对象模型（以网格顶点或角的形式）在训练期间计算损失时作为输入提供遵循相同的协议，我们在相同的对象上训练和测试神经网络用于训练HOPE任务的数据分割遵循OakInk-图像SP 0。我们基准两个代表性的希望架构设计：Tekin等人。[52]和Hassonet al.[21 ]第20段。需要注意的是，由于这两种方法以不同的方式输出对象姿态，因此我们在其输出端提供了自适应层我们将物体姿态表示为3D物体边界框上的8个角。我们评估这些方法与两个指标： MPJPE 和平均每个角落的位置误差（MPCPE），无论是在手腕相对系统。我们在Tab中显示测试集结果。图5和图6（底行）。20961∈ZZ图7. 网络架构。（一）. GrabNet;（1）+（2）：意图-GrabNetIntGen（use sth.）图8.GrabNet、IntGen和HoverGen在OakInk-形状。(blue：生成的手;灰色：给予者的手。基于交互生成;（1）+（3）：切换生成。4.3. 抓取姿势生成GraspGen的任务是生成不同的手部姿势与给定的物体形状相互作用。现有的GraspGen方法[24，25，51]广泛采用了条件VAE [47]架构。如图7（1）模型是佩内深入cm↓3固体Intsec。体积cm ↓SIM.患者使用的一次性平均cm↓ Sim.患者使用的一次性标准cm↓0.676.601.212.050.45 0.71 1.544.22 9.99 14.32十八点零四分0.86 0.69 2.881.51 0.81 4.53 2.990.626.991.302.03使用对象形状（如BPS [40]R4096）及其交互手部姿势（θ0，Ph0）作为输入进行训练，并被监督以生成与输入手部一致的手部作为结果，模型学习对象条件手嵌入空间：.然后在测试过程中，给定一个测试对象，模型从其嵌入空间中解码出手部姿势.为了在GraspGen上对我们的OakInk进行基准测试，我们从Oak库中随机选择80%的对象进行训练，10%进行验证，其余10%进行测试。所有的对象模型都与它们的交互手姿势成组配对我们将这个基于形状的子集表示为OakInk-Shape。我们在GrabNet [51]上对OakInk-Shape进行了基准测试，这是 GraspGen的一种代表性方法GraspGen的评估我们评估了1）穿透深度，2）实体相交体积[55]，以及3）模拟位移[23]。为了调查普通观众我们要求工作人员对生成的手部姿势进行评分，评分范围从1（非常不满意）到5（非常满意）。该感知调查的协议和演示在Appx中显示。我们在Tab中报告所有四个评估结果。第2栏。4.4. 两个新世代的任务以前的GraspGen方法只能生成对意图不可知的一般抓握姿势。在本文中，我们研究了两个适用目的的姿态生成，即A）。以生成具有特定意图的合理姿态，以及B）。来生成合理的姿态感知score（1，..，5）↑3.663.863.933.943.98四点零三分表6.三代任务的量化结果。在两个维度：形状和意图。在测试过程中，由测试对象和指定的意图给定，模型解码基于意图的交互姿势，如图所示。8中。我们在Tab中提供了评估结果六、B）切换生成。我们提供了GrabNet的另一个修改，它将对象形状和给予者的手作为条件（图10）。7（1）+（3））。该模型学习解码接收者我们在表中提供了几个测试结果的评价6最后一列和图。右八。生成的接球手符合我们的期望：接受者的手应避免碰撞或阻碍赠送者的手的缩回路径。5. 讨论限制. 当前的OakInk不记录与铰接对象的可移动部分（例如，剪刀），并且没有考虑将交互知识从人手转移到多指机器人臂。我们将在未来的工作中解决这些局限性结论在这项工作中，我们构建了一个大规模的知识库OakInk，它建立了机器OakInk由两个相互关联的知识库Oak和Ink组成，包含丰富的数据和经验。尽管我们只在CV和CG任务上对OakInk进行基准测试，但我们非常渴望将OakInk应用于机器人社区，并探索机器人学习的未来机会从送礼者手中拿走物品。我们举例说明他们的网络设计在图7中。有关实施详情，请访问Appx。A) 基于意图的交互生成。我们开始在GrabNet中修改网络设计。如图7（1）+（2），除了对象形状（原始条件），我们引入另一个条件：给定意图的词嵌入。该模型学习一个手嵌入空间条件，谢谢。本工作得到了国家重点研究开发项目（ No.2021ZD0110700 ）、上海市科技重大专项（ 2021SHZDZX 0102）、上海启智研究所、上海交通大学（2018-RGZN-02046）的支持。计算资源由High-Flyer AI提供输入BPSCond.Cond.【意图】Cond.HoverGen度量GrabNet[五十一]IntGenHoverGen马克杯触发喷雾器相机洗剂瓶20962引用[1] 亚马逊机械土耳其。网址： http ：//www.mturk.com 8[2] Dafni Antotsiou，Guillermo Garcia-Hernando，and Tae-Kyun Kim.面向任务的灵巧操作模拟手部运动重定向。在ECCV研讨会，2018年。1[3] 放大图片作者： Charles C. 作者声明： James Hays.ContactDB ：通过热成像分析和预测抓握接触。在CVPR，2019年。2[4] Samarth Brahmbhatt，Ankur Handa，James Hays，andDieter Fox.ContactGrasp：从接触的功能性多指抓取在IROS，2019年。3[5] Samarth Brahmbhatt，Chengcheng Tang，Christopher DTwigg，Charles C Kemp，and James Hays. 联系方式：具有物体接触和手姿势的抓握数据集。在ECCV，2020年。一、二、七[6] Berk Calli，Arjun Singh，Aaron Walsman，SiddharthaSrini-vasa，Pieter Abbeel，and Aaron M.美元. ycb对象和模型集：操作研究的共同基准。InICAR，2015. 2[7] Zhe Cao ， Hang Gao ， Karttikeya Mangalam ， Qi-ZhiCai，Minh Vo，and Jitendra Malik.具有场景背景的长期人体运动在ECCV，2020年。2[8] Zhe Cao ， Ilija Radosavovic ， Angjoo Kanazawa ， andJitendra Malik.在野外重建手与物体的互动。ICCV，2021。3[9] 天使XChang，Thomas Funkhouser，Leonidas Guibas，Pat Hanrahan ， Qixing Huang ， Zimo Li ， SilvioSavarese ， Mano-lis Savva ， Shuran Song ， Hao Su ，Jianxiong Xiao，Li Yi，and Fisher Yu.ShapeNet：一个信息丰富的3D模型库。技术报

下载后可阅读完整内容，剩余1页未读，立即下载