ContactDB：基于热成像分析和预测的接触图库

123 浏览量更新于2023-10-18 收藏 4.46MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1ContactDB：通过热成像分析和预测抓取接触作者：DavidS. Kemp1和James Hays1，21佐治亚理工学院机器人与智能机器研究所2Argo AI{samarth.robo，cuuh}@gatech.edu，charlie. bme.gatech.edu，hays@gatech.edu图1：来自ContactDB的接触图示例，由人类抓握产生的手-物体接触的多个2D热图像构建。摘要对物体的把握和操纵是人类的一项重要技能.由于手与物体的接触是抓握的基础，捕捉它可以带来重要的见解。然而，通过外部传感器观察接触是有挑战性的，因为人类手的复杂性和遮挡。我们提出了ContactDB，一个新的数据集的接触地图的家用物体，捕捉丰富的手物体接触过程中发生的把握，使使用热成像仪。我们研究的参与者抓住了3D打印的物体，并具有抓握后的功能意图。Con-tactDB包括3750个3D网格的50个家庭对象纹理与接触地图和375 K帧的同步RGB-D+热图像。据我们所知，这是第一个记录人类抓握详细接触图这些数据的分析最后，我们训练了最先进的图像转换和3D卷积算法，以从物体形状预测不同的接触模式。数据、代码和模型可在https://contactdb.cc.gatech.edu上获得。1. 介绍人类擅长于抓住并完成家庭物品的任务。人类的抓握表现出接触损失-阳离子，力和稳定性，允许抓取后对物体的动作，并且也受到抓取后意图的显著影响[8，2，45]。例如，人们通常抓住刀柄来使用它，但抓住刀片的钝边来传递它。一个大的机构以前的工作[20，29，36，46，49，3，50，52，21，36，21，6，46]已经记录了人类的抓握，方法从测量关节构造的数据手套到手动布置的机器人手。ContactDB与这些以前的数据集有很大的不同，它主要关注手和物体之间丰富的相互作用所产生的接触。具体来说，我们通过3D对象网格的纹理来表示接触，我们称之为通过接触图记录抓握活动有多种动机。由于它是以对象为中心的，因此它能够详细分析受功能意图、对象形状、大小和语义类别影响的抓握偏好，并学习用于抓握预测的对象形状特征，以及抓握重定向到运动学上不同的手模型。先前采用的记录抓握活动的方法不容易支持这样的分析，正如我们在第2节中讨论的。我们通过记录人类参与者在我们的实验室中抓取一组3D打印的家用物品来创建ContactDB，具有两种不同的有关数据收集程序、数据集大小和所含数据种类的更多详细信息，请参见第3从选定角度观察的接触边除外，87098710在与透明物体接触时，接触区域通常从可见光成像中被遮挡。因此，现有的研究的捕获和分析的手物体接触是非常有限的。诸如手掌在抓取日常物品中的作用等基本问题是不确定的。我们提出了一种新的程序，以前所未有的细节，使用RGB-D +热摄像机校准的装备捕捉接触地图的对象表面本文主要做了以下贡献• 数据集：提供一个记录功能性人类抓握的数据集，包括3750个带有接触图纹理的网格和375 K帧配对RGBD-热数据。• 分析：展示物体形状、大小和功能意图对抓握的影响，并说明非指尖接触的重要性。• 预测：探索数据表示和各种预测算法，从物体形状预测接触图。2. 相关工作2.1. 人类抓握由于人手和物体之间的接触是抓握和操纵的基础，因此捕捉这种接触可能会导致关于人类抓握和操纵的重要见解。然而，在实践中，这一直是一个具有挑战性的目标。人手是高度复杂的，具有广泛的软组织和通常以26个自由度建模的骨骼结构。因此，之前的工作集中在以其他形式记录抓取活动，如手动注释的手关节配置[49，3]、数据手套[20，29]或有线磁跟踪器[54，16]（可能干扰自然抓取）或基于模型的手部姿势估计[50]。在更高的水平上，通过第三人称[52，21，36]或第一人称[21，6，46]视频观察到抓握，其中根据抓握分类法[12，23]用抓握类别对帧进行注释。触觉传感器嵌入手套[4]或物体[38]中，以记录抓握接触点。这种方法受到触觉传感器分辨率的限制。Puhlmann等人[39]在使用触摸屏抓取期间捕获了手-台接触。Rogez等人[42]手动配置手部模型以匹配分类法中的抓握，并使用与对象模型相交的手部顶点上的连接分量分析来估计手部的接触区域。由于手的复杂性和缺乏对人类如何控制他们的手的理解，像上面提到的那些方法到目前为止仅限于提供粗略的或推测性的接触估计。相比之下，我们的方法允许我们直接观察物体和人手之间的接触发生在哪里，具有前所未有的保真度。2.2. 预测抓取接触我们的工作与Lau等人的工作有关[26]，众包抓住触觉显着性。在线注释者被指示从从对象表面采样的一对中选择他们更喜欢触摸的点这种成对的信息被整合以构建触觉显著性图。相比之下，ContactDB接触图是具有功能意图的真实人类抓握的完整观察结果（参见柔性材料以获得定性比较）。 Akizuki等人[1]在RGB-D视频中使用手部姿势估计和基于模型的对象跟踪来记录对象表面上的一组接触点。这容易受到手部模型和手部姿势跟踪中的不准确性的影响。Hamer等人[19]记录了人类通过配准深度图像来获取物体几何形状以及物体和手部姿势的抓握演示。接触近似为每个指尖的单个点。机器人领域的大量工作旨在预测适合抓取的末端执行器[32，9，28]的配置。与ContactDB相反，这些作品将接触建模为每个手指的单个点，忽略其他接触。多种预测：抓取是一项多个预测同样正确的任务。Lee et al [27]和Firman et al [14]已经开发出了允许神经网络进行多样化和有意义的预测的理论框架。最近，Ghazaei等人[17]使用相似技术预测平行钳口夹持器的不同抓取配置。3. ContactDB数据集在这里，我们介绍了创建ContactDB的设计选择和过程，该ContactDB由50个3D打印的家用物体组成，50个参与者用两种功能意图抓住这些物体（见表1）。通过热成像仪观察接触。我们数据收集过程的核心是使用热成像摄像机来观察人手与物体之间接触的精确位置。热成像相机最近被用来捕捉人类及其与环境的互动。例如，Luo等人[31]观察人类与物体的交互以实现自我中心的SLAM，而Lar- son等人[25]观察人类手指与任意表面的交互以使其交互。两者都注意到了热可观察接触的现象，但没有严格地调查或收集大规模数据集。当参与者抓住物体时，来自手部的热量传递到物体表面。如果物体材料不能快速散热，则在物体释放后，可以在热图像中清楚地观察到精确的接触区域（见图2b）。热图像中像素处的强度是由相应世界点发射的红外能量的函数[51]。因此，目标像素-8711对象网格(a) 数据收集区设置联络图(b) 数据处理管道，详见第3.3节图2：ContactDB的数据收集和处理。参与者抓住3D打印的物体，并将它们放在旋转的转盘上。来自多个视图的热图像被纹理映射到对象网格。功能意图总计表1：ContactDB数据集我们的热图像中的强度与皮肤的热量、接触的持续时间、热传导（包括向附近物体位置的扩散）和接触压力有关。通过在数据收集过程中保持这些因素大致恒定，我们根据经验验证了手-物接触的热传导是所观察到的热测量中的主导因素有关散热和精度的更多讨论，请参见补充材料3.1. 对象选择和制造我们决定专注于家用物品，因为了解接触偏好和预测它们的能力最有可能改善家用环境中的其他标准抓取数据集[7]和竞赛[10]也有类似的关注点。我们从YCB数据集开始[7]，选择数据集中的50个对象。我们排除了形状相似的物体（例如，谷物和饼干盒），不太可能产生不同种类的抓握，可变形物体（例如，海绵，塑料链，尼龙绳），非常小（例如，多米诺骨牌、垫圈）和非常大的物体（例如，烹饪煎锅，Windex机器人-tle）。我们添加了常见的，如手电筒，眼镜，电脑鼠标，和对象流行的计算机图形（如。斯坦福兔子和犹他茶壶）。由于物体大小已被证明会影响抓握[11，8]，并且我们对抽象形状的抓握过程中的接触感兴趣，因此我们包括5个原始请参阅补充材料以获取完整的对象列表。我们选择3D打印所有物体，以确保均匀的散热性能。此外，我们根据经验发现，用于3D打印的PLA材料非常适合保留热手印。我们使用开源资源为每个对象选择合适的模型，并在Dremel 3D20打印机上使用白色PLA纤维以15%的填充密度打印它们。3D打印物体具有额外的优势。拥有一个精确的物体3D模型，可以更容易地从记录的点云数据中估计物体的6D姿态（参见第3.3节），我们将其3D打印物体还允许参与者在抓取过程中专注于物体的几何形状。3.2. 数据收集协议图2a显示了我们的设置。我们在Kinect v2 RGB-D传感器上安装了FLIR Boson 640热成像摄像头。使用ROS [41]校准两个摄像头和它们之间的extrinsics，以便来自Kinect的RGB和深度图像可以准确地配准到热图像。我们邀请了50名参与者（大多数年龄在20-25岁之间，身体健全的男性和女性），前视红外玻色子640热成像摄像机刚性安装Kinect v2RGB-D相机带有3D打印物体的桌子计算机转台摄影机点云分割对象6D姿态估计9个视图纹理映射RGB深度热使用切换参与者5050（相同）对象2748（重叠）50纹理网格135024003750RGBD-热帧135K240K375K8712使用佐治亚理工学院机构审查委员会批准的以下方案。将50个3D打印物体以实践中常见的方向放置在桌子上的随机位置。参与者被要求抓住每一个物体后掌握功能的意图。他们拿着物体5秒钟，让热量从手上传递到物体上，然后把它交给实验者。实验人员戴上绝缘手套以防止热量从手上传递，并将物体放在距离摄像机约1米的转盘上。参与者被提供了化学暖手宝，以增加热手印的强度摄像机记录了连续的RGB，深度和有源区切换使用当转盘以360度弧旋转时的热图像。转盘在该弧上的9个等距位置处暂停，其中还记录转盘的旋转角度。在某些情况下，物体被翻转并第二次扫描，以捕获任何在前一次旋转中看不到的热印。我们使用了两个后抓取功能意图：“使用”和“移交”。参与者被要求抓住48个物体，目的是把它们交给实验者，并抓住27个物体的子集（在之前的热手印消失后），目的是使用它们。我们只使用了27个对象的子集来金字塔，斯坦福兔子）缺乏明确的用例。具体使用说明见补充资料参与者被要求在抓握后避免手操作，以避免弄脏热手印。3.3. 数据处理当转盘与其上的物体一起旋转时，RGB-D和热图像流从多个视点捕获物体数据处理的目的是将热图像纹理映射到对象3D网格，并生成连贯的接触图（示例如图1所示）。整个过程如图2b所示。我们首先给出了转台9个位置对应的转台角度和RGB、深度和热图像，表2：触摸不同功能意图的活动区域的参与者比例。示例参见图3[55]的出租m，在Open3D中实现[56]。它局部优化对象的姿态，以最大限度地减少photometric纹理投影误差，并生成一个网格相干纹理与接触地图。4. 接触图在本节中，我们使用ContactDB中的数据对人类抓握的某些方面进行了分析我们分别处理了每个接触图，通过将S形函数应用于纹理映射的强度值（将最小值映射到0.05，最大值映射到0.95）来增加对比度。效果功能意图。我们观察到功能性意图影响许多对象的接触模式。为了展示定性示例，我们使用XYZ值上的k-中心点聚类[24]（k=3）对每个对象和功能意图类别内的接触图进行聚类接触值大于0.4的点那个...反函数是。2、两组点之间的距离定义为d（p1，p2）=d<$（p1，p2）+d<$（p2，p1）/（|p1|+的|p2|）的情况下，其中d<$（p，p）=|p1|Min|p2|||p（i）−p（j）||. F或sym-1 2 i=1j =11 22停顿。接下来，我们将深度图转换为点云并利用转盘平面的最小二乘估计和白色分割对目标进行分割。我们使用PCL [44]中实现的迭代最近点（ICP）[5]算法9个视图中的对象原点用于获得由移动对象描述的3D圆的最小二乘估计。该圆用于内插由于深度图中的噪声或对象的重要形状元素被隐藏在该视图中而不适合ICP步骤的视图的对象姿态，或者用于围绕对称轴旋转对称对象最后，将3D网格连同9个姿态估计和热图像一起输入到色图优化算法。公制物体，我们选择的旋转角度围绕最小化d（p1，p2）的对称轴。图3显示了两种不同功能意图的主要联系人地图（最大聚类的为了量化功能意图的影响，我们在一些对象的表面上定义了物体大小的影响。图4显示了三种不同尺寸的相同形状物体的主要接触图。小的物体表现为用两个或三个指尖抓握，而较大的物体通常用更多的手指抓握，并且比与物体接触的指尖更多。香蕉尖（任一尖）22.4563.27双筒望远镜（双管）12.5093.88相机快门按钮34.0069.39眼镜（两侧太阳穴）4.0064.58手电筒按钮28.0062.00锤（头）鼠标（两个点击按钮）PS控制器（两个前按钮）PS控制器（两个模拟棒）剪刀（手柄）剪刀（刀片）水壶盖葡萄酒杯柄38.0016.002.002.0038.0060.0016.0056.000.0084.0040.8122.44100.000.0067.3530.618713抓取意图：抓取图3：功能意图对接触的影响：优势抓握的两个视图（最大集群的中心，k- 跨参与者聚类的绿色圆圈表示这种影响在表2中进行了量化。大介质小图4：物体大小对接触的影响：对于相同形状和不同大小的物体的两种主要抓握。反对。大型物体的抓取是双模态的：双手使用全手，或单手使用指尖。为了量化这一点，我们手动将抓握标记为双手/单手，并在图中显示它们与手的大小的关系。六、该图显示，手较小的人更喜欢用双手抓握大物体（用于“抓握”）。对于中等和较小的物体尺寸，未观察到双手抓握。有多少接触是指尖？传统上，接触在机器人[47]和仿真[53]中被建模为单点然而，图1、图3和图4中的接触图显示，人类抓握的接触远不止指尖接触。单点接触建模的灵感来自于机器人上刚性操纵器的流行，但随着对软机器人[13，15]的最新研究兴趣，我们现在可以使用在手指上的其他区域接触物体的操纵器。ContactDB中的数据显示了非指尖接触对高性能软操纵器的使用：人类的手。对于每个接触图，我们通过整合网格中所有接触面的面积来计算如果面的三个顶点中有任何顶点的接触值大于0.4，则该面为接触面。图5（b）和5（c）显示了两种功能状态下所有物体的接触面积，平均值为参与者。接下来，我们计算了接触面积的上限，如果只有所有5个指尖接触对象。这是通过在平板上捕获参与者的掌纹来完成的掌纹中指尖的总表面积是所需的上限。对于我们观察到双手抓握的物体，该值加倍。该上限在四名参与者中取平均值，并在图5（b）和5（c）中显示为红线请注意，这是一个松散的上限，因为许多现实世界中的指尖抓取抓取意图：使用8714(b)功能意图(c)功能意图（一）图5：（a）：手掌接触板，指尖注释。（b，c）：ContactDB中对象的接触面积，跨参与者平均。红线表示仅指尖抓握的接触面积的宽松上限，对于双手抓握的物体，该上限加倍。图6：手长（手腕到指尖中部）与单手/双手抓握之间的关系。区间显示平均值和1个标准差。立方体、圆柱体、棱锥体和球体的尺寸较大.如果甚至一个参与者执行双手抓握，则视为双手抓握。许多物体的总接触面积明显高于仅指尖接触面积的上限，表明人手的软组织在抓握和操纵中起着重要作用。这促使包括非指尖领域的把握预测和建模算法，并提供了一个机会，通知软机器人机械手的设计。有趣的是，一些物体的平均接触面积（例如，碗、马克杯、PS控制器、牙刷）由于所使用的抓握类型不同而在功能意图上不同。5. 预测接触图在本节中，我们描述了根据物体形状预测物体接触图ContactDB是第一个大规模数据集，可以为这项任务训练数据密集型深度学习模型。由于ContactDB包括每个对象的不同接触图，因此从对象形状到接触图的映射是一对多的，这使得任务具有挑战性。我们探索对象形状的两种表示：单视图RGB-D和全3D。由于接触模式受功能意图的影响很大，因此我们为“切换”和“使用”训练单独的模型图7：单视图接触图预测的训练过程。该算法有5个conv层，后面是batch norm和leaky ReLU。5.1. 单视图预测物体形状由RGB-D图像表示，并且针对物体的可见部分预测2D接触图。单个视图可能会排除关于对象形状的重要方面的信息，并且接触图的“有趣”部分可能位于对象的看不见的一半中。然而，这种表示具有容易应用于现实世界的机器人场景的优点，在现实世界的机器人场景中，移动操纵器通常需要在从单个视图观察对象之后抓取对象。我们使用基于生成对抗网络（GAN）的图像到图像转换[22，57，30]来完成这项任务，因为条件GAN的优化过程能够对一对多输入输出映射进行建模[35，18]。图7显示了我们的训练过程和网络架构，其中生成器和网络中分别有大约54M和3M的参数。我们修改了pix 2 pix [22]，以接受4通道RGB-D输入并预测单通道接触图。将来自对象扫描的RGB-D流配准到热图像，并用作输入。热图像被用作单视图联系人地图。为了将生成器和滤镜聚焦在物体上，我们在物体周围裁剪了一个256×320的补丁，并通过物体sil屏蔽了所有图像。掩模RGB-D发生器UNet-256假✱256x256热L1损失鉴别器✱GAN损失256x256房8715图8：来自pix2pix模型的三个不可见对象类的单视图预测：马克杯、平底锅和酒杯。顶部：切换意图，底部：使用意图。最右边一列：无法解释的预测。胡埃特所有来自马克杯、平底锅和酒杯的图像都被拿出来用于测试。图8显示了这些看不见的物体的一些预测接触图，选择这些接触图是为了看起来逼真。使用的杯子预测在手柄上有手指接触，而在顶部观察到接触以进行移交。平移使用预测示出了在手柄处的抓握，而切换预测另外示出了手柄和侧面的双手抓握。类似地，酒杯指示与用于使用的侧抓握部接触以及在用于传递的开口上方接触。5.2. 三维预测全3D表示可以访问对象的整个形状，并消除了在单视图预测期间观察到的视图一致性问题。学习一对多映射。随机多项选择学习[27]（sMCL）训练k个预测器的集合，为每个输入生成k个接触图（见图9a）。每个输入都有多个同样正确的地面实况映射。在训练过程中，损失从每个地面实况接触图反向传播到使预测最接近它的网络。为了鼓励集合中的所有成员平等地接受训练，如[ 43 ]中所述，我们通过将梯度路由到具有0.95权重的最近网络并将其余部分平均分配给集合中的其他成员来使这种关联变软，并以0.1的概率随机丢弃整个预测。我们训练了k=1和k=10的模型。相比之下，DiverseNet [14]通过改变连接到网络内部特征图的独热编码控制变量c的值，从单个预测器网络生成不同的预测（见图9b）。每个地面实况接触图与最接近的预测相关联，并且梯度通过适当的c值路由。通过改变c，可以在测试时生成不同的预测。与sMCL相比，DiverseNet需要的可训练参数明显更少。我们在实验中使用了10个独热编码的c值。3D表示。我们将3D对象形状表示为两种形式：点云和体素占用网格。点网络[40]对对象形状的点云表示进行操作，其中点从对象表面随机采样。我们规范化了每个点的XYZ位置，以适合单位立方体中的对象。XYZ位置和归一化比例因子用作每个点的4元素特征。通过交叉熵损失来训练网络，以预测每个体素是否接触。我们使用了具有单个T-Net和1.2M参数的Point- Net架构。VoxNet [33]在64× 3体素化空间中对对象的固体占用网格进行操作，并预测每个体素是否被接触。它使用3D卷积来学习形状特征。除了二进制占用值之外，还使用了PointNet使用的四个特征，以形成每个体素的5元素特征向量。交叉熵损失仅在物体表面的体素上被加强。网络结构如图9b所示，大约有1.2M个参数。实验我们用VoxNet和PointNet进行了实验，使用sMCL和 DiverseNet 策略来学习一对多映射。对于DiverseNet，我们将c连接到VoxNet中第一个和第五个conv层的输出，以及PointNet中T-Net转换的输入和倒数第二个MLP的输出。体素化使用 binvox [34] 中实现的 [37] 的算法完成网格。PointNet输入是通过从对象表面随机采样3000个点生成的。在应用第4节中描述的sigmoid之后，我们将接触图的阈值设置为0.4，以生成用于分类的基础事实我们通过围绕偏航轴随机旋转对象来增强数据集。PointNet输入也通过随机选择一个轴并通过[0.6，1.4]中的随机因子沿该轴缩放点来增强。P=0时脱落。2应用于VoxNet-DiverseNet输入。我们发现类似的dropout并没有改善其他模型的结果。表面点的随机采样自动作用类似于PointNet模型的dropout，并且sMCL模型已经包含了第5.2节中提到的不同dropout策略。接触体素的交叉熵损失以因子10加权，以说明类别不平衡。所有模型都使用SGD进行训练，学习率为0.1，动量为0.9，权重衰减为5e-4。k=10的模型的批量为5，k=1的模型的批量为25。表3示出了保持在外面的测试对象（马克杯、平底锅和酒杯）的结果。我们得出结论，体素占用网格表示更适合此任务，并且仅限于进行单一预测的模型无法捕获ContactDB中的图10a和图10b分别示出了针对训练对象类的看不见的对象类和看不见的形状的“使用”意图预测中的一些，选择这些“使用”意图预测是为了看起来逼真。杯子预测显示身体周围有水平的抓握。对平底锅的预测是8716，c= 0，c= 1CPCP CPCU CUCUC320208080205，c= k点云PointNet-1PointNet-2PointNet-k(a) 使用PointNet预测器的(b) 带VoxNet预测器的DiverseNetCP：33conv with batch norm，ReLU andmax pooling，CU：33卷积与批范数，ReLU和最近邻上采样。黑色数字：体素网格的大小，红色数字：通道数。图9：用于预测不同接触图的3D数据表示和训练策略。sMCL [27]需要网络的多个实例，而DiverseNet [14]使用带有整数值控制变量的单个实例。PointNet [40]在无序的点云上运行，而VoxNet [33]使用体素占用网格。测试对象切换使用sMCL（k=1）sMCL（k=10）DiverseNet（k=10）sMCL（k=1）sMCL（k=10）DiverseNet（k=10）VoxNetPointNetVoxNetPointNetVoxNetPointNetVoxNetPointNetVoxNetPointNetVoxNetPointNet潘76.80-7.1320.438.4819.6817.22-8.2543.575.1222.58酒杯59.37-11.1114.5928.6917.2850.18-11.0614.7913.9810.47马克杯29.93-16.6827.1015.7721.6066.03-32.5131.307.0632.41平均55.37-11.6420.7117.6519.5244.48-17.2729.898.7221.82表3：第5.2节所示模型的各种3D接触图预测误差（%）。通过将每个地面实况接触图与k个不同预测中最接近的相匹配来计算误差，丢弃没有接触的预测。‘-’ indicates that no contact was(a) 不可见对象类(b) 训练对象类的不可见形状的接触图预测图10：不同3D接触图预测的两个视图（a）看不见的对象类：马克杯、平底锅和酒杯，（b）训练对象类的不可见形状：相机和锤子意图：使用，型号：VoxNet-DiverseNet，红色：接触。集中在手柄处，一次抓握是双手的。酒杯预测显示在身体和茎的交叉处抓握。相机预测显示在关闭器按钮和侧面的接触，而锤子的预测显示在手柄处的接触（以及一次在头部）。6. 结论和未来工作我们介绍了ContactDB，第一个大规模的功能性抓握接触图数据集，分析了数据，揭示了抓握行为的有趣方面，并探索了数据表示和训练策略，用于预抓取。根据物体形状口述接触图。我们希望在多个领域推动未来的工作。接触模式可以通过旨在能够覆盖人类触摸的对象区域来改变柔性机器人操作器的设计。研究表明，在某些情况下，手的姿势可以通过接触点来指导[53，48]。使用接触图来恢复和/或辅助预测功能性抓取中的手部姿势是未来研究的一个令人兴奋的问题。致谢：我们要感谢Varun Agrawal借出3D打印机，感谢Ari Kapusta就热感相机进行初步讨论，感谢NVIDIA提供Titan Xp GPU赠款。555测试火车测试火车8717引用[1] 秋木秀一和青木义光。触觉测井，用于了解基于人类演示的合理工具使用。在英国机器视觉会议2018，BMVC2018，诺森比亚大学，纽卡斯尔，英国，2018年9月3日至日，第334页，2018年。2[2] Caterina Ansuini ， Livia Giosa ， LucaTurella ，Gianmarco Alto e` 和UmbertoCastiello 。一个动作的对象，其他动作的同一对象：影响手部塑形。实验脑研究，185（1）：111-119，2008。1[3] Ravi Balasubramanian，Ling Xu，Peter D Brook，JoshuaR Smith，and Yoky Matsuoka. 物理人类交互指导：从人类计划的抓取中识别抓取原则。IEEE Transactions onRobotics，4（28）：899一、二[4] Keni Bernardin，Koichi Ogawara，Katsushi Ikeuchi，andRuediger Dillmann.一种基于隐马尔可夫模型的连续人体抓取序列传感器融合识别方法。IEEE Transactions onRobotics，21（1）：47 2[5] PJ Besl和Neil D McKay。一种三维形状配准方法。PatternAnalysisandMachineIntelligence ， IEEETransactions on，14（2）：239-256，1992。4[6] 伊恩·M·布洛克、托马斯·费克斯和亚伦·M·多勒。耶鲁大学人类抓握数据集：在家庭和机械车间环境中掌握、对象和任务数据。国际机器人研究杂志，34（3）：251-255，2015年。一、二[7] Berk Calli、Aaron Walsman、Arjun Singh、SiddharthaSrini-vasa、Pieter Abbeel和Aaron M Dollar。操纵研究中的基准：ycb对象和模型集以及基准测试协议。arXiv预印本arXiv：1502.03143，2015。3[8] 翁贝托·卡斯蒂略神经科学的抓取。Nature ReviewsNeuroscience，6（9）：726，2005. 第1、3条[9] Changhyun Choi，Wilko Schwarting，Joseph DelPreto，and Daniela Rus.机器人软手的物体抓取学习。IEEE Robotics and Automation Letters，2018。2[10] Nikolaus Correll、Kostas E Bekris、Dmitry Berenson、Oliver Brock、Albert Causo、Kris Hauser、Kei Okada、Alberto Ro- driguez 、 Joseph M Romano 和 Peter RWurman。第一次亚马逊采摘挑战赛的分析和观察。IEEETransactionsonAutomationScienceandEngineering，15（1）：172-188，2018。3[11] Raymond H Cuijpers，Jeroen BJ Smeets和Eli Brenner。物体形状与抓取运动学关系之探讨神经生理学杂志，91（6）：2598-2606，2004。3[12] 马克·R·卡特科斯基关于抓取选择、抓取模型和用于制造任务的手 IEEE Transactions on Robotics andAutomation，5（3）：269-279，1989。2[13] 拉斐尔·戴梅尔和奥利弗·布洛克。一种新型柔性欠驱动灵巧抓取机器人手。国际机器人研究杂志，35（1-3）：161-185，2016。5[14] Michael Firman，Neill DF Campbell，Lourdes Agapito，and Gabriel J Brostow.Diversenet：当一个正确的答案不是够了在IEEE计算机视觉和模式识别会议论文集，第5598-5607页二七八[15] Kevin C Galloway ， Kaitlyn P Becker ， BrennanPhillips ， Jor-dan Kirby ， Stephen Licht ， DanTchernov，Robert J Wood，and David F Gruber.用于深海珊瑚礁生物取样的软机器人夹具Soft robotics，3（1）：23-33，2016. 5[16] Guillermo Garcia-Hernando 、Shanxin Yuan 、 SeungryulBaek和Tae-Kyun Kim。第一人称手部动作基准标记，带有rgb-d视频和3d手部姿势注释。在IEEE计算机视觉和模式识别会议论文集，第409-419页，2018年。2[17] Ghazal Ghazaei 、 Iro Laina 、 Christian Rupprecht 、Federico Tombari、Nassir Navab和Kianoush Nazarpour。通过多个预测处理机器人抓取中的模糊性。arXiv预印本arXiv：1811.00793，2018。2[18] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在神经信息处理系统的进展，第26726[19] Henning Hamer，Juergen Gall，Thibaut Weise，and LucVan Gool.一个对象相关的手姿势之前从稀疏的训练数据。2010年IEEE计算机协会计算机视觉和模式识别会议，第671IEEE，2010。2[20] 吉多·休默，海尼·本·阿莫尔，马蒂亚斯·韦伯，伯尔尼哈德·荣格。未校准数据手套的抓取识别-分类方法的比较。2007年，虚拟现实大会。VR'07。IEEE，第19-26页。IEEE，2007年。一、二[21] De-An Huang，Minghuang Ma，Wei-Chiu Ma和Kris M.喜谷我们如何使用我们的手？发现了一系列不同的共同点IEEE计算机视觉与模式识别会议（CVPR），2015年6月。一、二[22] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros. 使用条件对抗网络进行图像到图像翻译2017年IEEE计算机视觉和模式识别会议（CVPR），第5967-5976页。IEEE，2017年。6[23] Noriko Kamakura ， Matsuo ， Harumi Ishii ， FumikoMitsuboshi，and Yoriko Miura.正常手静态伸展的模式。美国职业治疗杂志，34（7）：437-445，1980。2[24] 莱纳德·考夫曼和彼得·马斯洛。通过medoids的方式聚类。1987年北荷兰4[25] Eric Larson ， Gabe Cohn ， Sidhant Gupta ， XiaofengRen ， Bev- erly Harrison ， Dieter Fox ， and ShwetakPatel.Heatwave：用于表面用户交互的热成像在SIGCHIConference on Human Factors in Computing Systems ，CHIACM。2[26] Manfred Lau，Kapil Dev，Weiqi Shi，Julie Dorsey，andHolly Rushmeier.触觉网格显著性。ACM Transactions onGraphics（TOG），35（4）：52，2016. 2[27] Stefan Lee 、 Senthil Purushwalkam Shiva Prakash 、Michael Cogswell 、 Viresh Ranjan 、 David Crandall 和Dhruv Batra。8718训练不同深度集合的随机多项选择学习。神经信息处理系统进展，第2119-2127页，2016年。二七八[28] Ian Lenz，Honglak Lee，和Ashutosh Saxena.用于检测机器人抓取的深度 The International Journal of RoboticsResearch，34（4-5）：705-724，2015。2[29] 云霖和雨隼。从论证中抓规划，从战略论证中抓规划.在智能机器人和系统（IROS 2014），2014年IEEE/RSJ国际会议上，第4458-4463页。IEEE，2014。一、二[30] Ming-Yu Liu，Thomas Breuel，and Jan Kautz.无监督图像到图像翻译网络。神经信息处理系统进展，第700-708页，2017年6[31] Rachel Luo，Ozan Sener，and Silvio Savarese.基于自我中心rgb-d-thermal视频的场景2017年国际3D视觉会议（3DV），第593-602页。IEEE，2017年。2[32] Jeffrey Mahler ， Jacky Liang ， Sherdil Niyaz ， MichaelLaskey ， Richard Doan ， Xinyu Liu ， Juan AparicioOjea，and Ken Goldberg.Dex-net 2.0：通过深度学习，利用合成点云和分析抓取指标规划稳健抓取。arXiv预印本arXiv：1703.09312，2017。2[33] Daniel Maturana和Sebastian Scherer。Voxnet：用于实时对象识别的3D卷积神经网络在智能机器人和系统（IROS），2015年IEEE/RSJ国际会议上，第922-928页。IEEE，2015年。七、八[34] 帕特里克·闵。binvox。http://www.patrickmin.com/binvox ， 2004 -2017.访问时间：2018-11-16。7[35] Mehdi Mirza 和 Simon Osindero 条件生成对抗网。CoRR，abs/1411.1784，2014。6[36] Yuzuko C Nakamura ， Daniel M Troniak ， AlbertoRodriguez，Matthew T Mason，and Nancy S Pollard.在野外抓东西的复杂性在 HumanoidRobotics（Humanoid），2017年IEEE-RAS第17届国际会议上，第233IEEE，2017年。一、二[37] 法基尔Nooruddin和Greg Turk使用体积技术简化和修复多边形模型。 IEEE Transactions on Visualization andComputer Graphics，9（2）：191-205，2003.

下载后可阅读完整内容，剩余1页未读，立即下载