面向手-物交互视频的细粒度可供性标注方案:结合目标无关的运动动作和抓握类型

PDF格式 | 1.73MB | 更新于2025-01-16 | 87 浏览量 | 0 下载量 举报
收藏
面向手-物交互视频的细粒度可供性标注方案 面向手-物交互视频的细粒度可供性标注方案是指通过结合目标无关的运动动作和抓握类型作为示能标签,并引入机械动作的概念来表示两个对象之间的动作可能性,以解决现有数据集中的可供性定义问题。 可供性是手-物交互中的一个重要概念,它根据人的运动能力和物体的物理特性提供动作可能性信息。然而,现有数据集中的可供性定义通常混淆了可供性与对象功能、混淆了启示与目标相关的行动,并忽视人的运动能力。 本文提出了一种有效的注释方案来解决这些问题,通过使用 affor-dance 标签和机械动作标签来表示细粒度的示能表示。affor-dance 标签是存在于手-物体界面中的与目标无关的运动动作和抓握类型的组合,而机械动作标签是可以描述两个对象之间的交互的动作标签,存在于工具-对象接口中。 与对象的示能表示相关的概念有:物体可供性概念、机械动作概念等。物体可供性概念是指物体或环境提供的行动可能性,这是一种非陈述性知识,我们已经学会了自动激活对物体的反应,这是由我们的运动能力决定的,即适合人手的运动动作以及物体的形状等物理特性。 机械动作概念是指两个对象之间的动作可能性,例如工具-对象接口中的交互动作。机械动作标签可以描述两个对象之间的交互的动作标签,例如“拿”、“放”、“推”等。 在计算机视觉中,许多现有作品研究了启示。他们使用动词作为启示标签来描述可能的行动关联,但这些作品忽视了人的运动能力和物体的物理特性。例如,“切”、“取”和“关”这样的动词并不符合示能性的定义。 本文的注释方案可以解决这些问题,提供新的示能表示,并可以将affor-dance与其他概念区分开来,预测对象上的细粒度交互可能性,并通过不同的域进行泛化。 本文的面向手-物交互视频的细粒度可供性标注方案是一个重要的研究方向,旨在提供更加细粒度的示能表示,解决现有数据集中的问题,并提高计算机视觉和机器人学的研究水平。

相关推荐