面向手-物交互视频的细粒度可供性标注方案：结合目标无关的运动动作和抓握类型

PDF格式 | 1.73MB | 更新于2025-01-16 | 87 浏览量 | 举报

面向手-物交互视频的细粒度可供性标注方案面向手-物交互视频的细粒度可供性标注方案是指通过结合目标无关的运动动作和抓握类型作为示能标签，并引入机械动作的概念来表示两个对象之间的动作可能性，以解决现有数据集中的可供性定义问题。可供性是手-物交互中的一个重要概念，它根据人的运动能力和物体的物理特性提供动作可能性信息。然而，现有数据集中的可供性定义通常混淆了可供性与对象功能、混淆了启示与目标相关的行动，并忽视人的运动能力。本文提出了一种有效的注释方案来解决这些问题，通过使用 affor-dance 标签和机械动作标签来表示细粒度的示能表示。affor-dance 标签是存在于手-物体界面中的与目标无关的运动动作和抓握类型的组合，而机械动作标签是可以描述两个对象之间的交互的动作标签，存在于工具-对象接口中。与对象的示能表示相关的概念有：物体可供性概念、机械动作概念等。物体可供性概念是指物体或环境提供的行动可能性，这是一种非陈述性知识，我们已经学会了自动激活对物体的反应，这是由我们的运动能力决定的，即适合人手的运动动作以及物体的形状等物理特性。机械动作概念是指两个对象之间的动作可能性，例如工具-对象接口中的交互动作。机械动作标签可以描述两个对象之间的交互的动作标签，例如“拿”、“放”、“推”等。在计算机视觉中，许多现有作品研究了启示。他们使用动词作为启示标签来描述可能的行动关联，但这些作品忽视了人的运动能力和物体的物理特性。例如，“切”、“取”和“关”这样的动词并不符合示能性的定义。本文的注释方案可以解决这些问题，提供新的示能表示，并可以将affor-dance与其他概念区分开来，预测对象上的细粒度交互可能性，并通过不同的域进行泛化。本文的面向手-物交互视频的细粒度可供性标注方案是一个重要的研究方向，旨在提供更加细粒度的示能表示，解决现有数据集中的问题，并提高计算机视觉和机器人学的研究水平。

2155

面向以自我为中心的手-物交互视频的细粒度可供性标注

余泽成，黄一飞，古田良介，八木琢磨，右津佑介，佐藤洋一东京大学工业科

学研究所

{zch-yu，hyf，furuta，tyagi，goutsu，ysato} @ iis.u-tokyo.ac.jp

摘要

物体可供性是手

物交互中的一个重要概念，它根据

人的运动能力和物体的物理特性提供动作可能性的信

息然而，现有数据集中的可供性定义通常：

）混淆了

可供性与对象功能

; 2

）混淆了启示与目标相关的行动

;

（

）忽视人的运动能力。本文提出了一种有效的注释

方案来解决这些问题，通过结合目标无关的运动动作

和抓握类型作为示能标签，并引入机械动作的概念来

表示两个对象之间的动作可能性我们通过将此方案应

用于

EPIC-KITCHENS

数据集来提供新的注释，并使用

诸如启示识别、手

物体交互热点预测和启示的跨域评

估等任务来测试我们的注释。结果表明，使用我们的

注释训练的模型可以将

affor- dance

与其他概念区分开

来，预测对象上的细粒度交互可能性，并通过不同的

域进行泛化

介绍

可供性最初由詹姆斯·吉布森（James Gibson）定义

为物体或环境提供的行动可能性。这是一种非陈述性

知识，我们已经学会了自动激活对物体的反应，这是

由我们的运动能力决定的，

即。

、适合人手的运动动

作以及物体的形状等物理特性。识别示能表示可以通

过提供与场景中对象的可能交互信息来有益于动作预

期和机器人动作规划等任务[15]。

计算机视觉中的许多现有作品[13，17，16，20，

24，18]研究了启示。他们使用动词作为启示标签来描

述可能的行动关联-

图1. 在我们的注释方案中使用的定义：a）affor- dance标签

是存在于手-物体界面中的与目标无关的运动动作和抓握类

型的组合;以及b）机械动作标签是可以描述两个对象之间的

交互的动作标签，存在于工具 - 对象接口中（图改编自

[21]）。

与对象。然而，像“切”、“取”和“关”这样的动词并不

符合示能性的定义。更具体地说：a）“切割”是启用的

可能动作直接用“切”作为示能表示，不能区分人的自

然运动能力和物体功能性延伸的能力; b）使用“take”作

为示能表示标签忽略了当以不同的抓握类型执行“take”

时的示能表示的变化，这不能提供细粒度的示能表示

注释;以及c）“关闭”是目标相关的动作，但不是目标无

关的示能表示。在“关闭水龙头”中使用的示能表示也

应该应用于其他交互，例如“按下按钮”。不仅是示能

性与其他概念的混淆，动词也不能代表示能性的多样

性。例如，我们不能通过动词“pick-up”来区分

鉴于这些问题，我们需要一个精确的示能性定义来

区分示能性与其他概念，并具有代表人类运动能力的

能力。受神经科学研究结果的启发[21]，我们通过提

出一个考虑手-物体交互和工具的启示性注释来解决上

述缺点。

下载后可阅读完整内容，剩余8页未读，立即下载

cpongm

粉丝: 6

面向手-物交互视频的细粒度可供性标注方案：结合目标无关的运动动作和抓握类型

video-js-html5视频播放器源码例子

Hunyuan-DiT ： 强大的多分辨率扩散转换器，具有细粒度的中文理解

C# VS2010下前后台交互调用百度地图API 实现标注、测距、画轨迹、画圆

多模态命名实体识别，多模态关系抽取，方面级情感分析，多模态反讽识别

video-js(视频播放器插件)

unity打包成webgl与vue交互demo

百度地图标注插件

java视频上传，转码，截图，播放实现

交互式人机对战五子棋

Android录制编辑播放视频解决方案。

最新资源

Hunyuan-DiT ：强大的多分辨率扩散转换器，具有细粒度的中文理解