人类手在交互式物体理解中的关键作用与数据驱动挑战

PDF格式 | 43.62MB | 更新于2025-01-16 | 162 浏览量 | 举报

交互式物体理解是计算机视觉领域的重要课题，涉及理解物体的功能和操作方式。本文聚焦于人类手部在这一过程中的关键作用。作者提出通过观察自中心视频中的人类手部动作，可以为机器学习提供宝贵的信息，帮助理解物体的状态敏感特征和交互可能性。首先，人类手部作为一个“探针”，能够快速定位并稳定活动中的物体，这对于机器学习来说是非常重要的线索。通过跟踪手部与物体的互动，研究者可以推断出物体可能的交互位置和操作方式，这些都是实现有效交互所必需的。例如，通过观察手部距离的变化，可以形成一个状态敏感的特征空间，使得机器能够识别物体的不同用途，而不仅仅是其基本类别。其次，手部可以揭示物体的抓取区域和适宜的操作位置，这对于机器的探索行为和策略制定具有指导意义。比如，对于柜子这样的物体，它的状态（如关闭、打开、满载等）和提供给用户的抓取点（如把手）对于机器人执行打开或放置物品的任务至关重要。然而，现有的大规模标记数据集在这方面相对匮乏，因为物体的状态和操作方式通常依赖于复杂的上下文，且手动标注这类信息既耗时又难以避免主观偏差。因此，本文提出了一种新颖的方法，利用人类手部在自我中心视频中的动态信息，解决大规模标记数据集的缺失问题。通过这种方法，研究者能够在EPIC-KITCHENS数据集上训练模型，学习到状态敏感的特征和物体的抓取区域，从而更深入地理解物体的交互性。这一研究不仅推进了计算机视觉在交互式场景下的应用，也为未来的机器人交互设计和自主学习提供了新的视角和数据驱动的支持。

3295

归一化w.r.t

物体的位置和尺度

交互对象

轨迹

归一化w.r.t

物体的位置和尺度

归一化w.r.t

物体的位置和尺度

手的轨迹

手的运动

手指抓取标签

接触中接触中接触中接触状态

图2.

数据准备。给定来自EPIC-KITCHENS数据集的主观视角视频，我们从中获取手、交互对象和接触状态的每帧检测结果。这些检测结果在时间

上连接起来，形成配对的交互对象和手的轨迹。我们通过将手框的位置和相对于物体的尺度在3个相邻帧上堆叠来表示手在物体周围的运动。

交互对象的轨迹、手的轨迹和手的运动一起用于学习状态敏感的特征空间（第3.1节）。我们还通过在GUN-71数据集上训练的分类器获得手

抓取标签。检测到的手和交互对象配对以及这些手抓取标签用于学习交互区域和这些区域提供的抓取方式（第3.2节）。

3.方法

我们使用Damen等人的具有挑战性的EPIC-KITCHENS数据

集，并使用Shan等人的手和交互对象检测器。该检测器提

供了每帧的手和正在交互的对象的检测框，以及手的接触状

态（手是否接触某物）。我们还使用Rogez等人的71种抓取

类型分类数据集上训练的模型对检测到的手进行抓取类型的

预测。我们将检测到的手和交互对象在连续帧中连接起来，

形成交互对象和手的轨迹，如图2所示。我们使用这些轨迹

来学习状态敏感的特征（第3.1节）。通过每帧的预测，我

们学习手与物体的互动方式（第3.2节）。

3.1.通过时间和手的一致性获得状态敏感特征

我们的方法建立在两个关键思想的基础上：物体状态在时间

上的一致性和与手势姿态的一致性。我们的训练目标鼓励接

近时间或与相似的手势外观和动作相关的物体裁剪之间的相

似性，同时远离数据集中的随机其他物体裁剪。我们通过对

比学习实现这个直觉，并提出了一个联合损失：Ltemporal

+λLhand。Ltemporal

通过采样自然发生的时间增强作为额外的变换来鼓励时间一

致性。Lhand

使用手作为对比示例；正例是与物体裁剪在时间上对应的手

，负例是其他随机采样的手。Lhand

间接鼓励不同物体之间的相似性，这些物体通过手类似地进

行交互，因此很可能处于相似的状态。我们通过采样一个物

体裁剪oi

和一个时间上接近的手裁剪来构建对比学习的批次。

从图2中显示的轨迹中获取ha

i。我们还通过将手框相对于物体框在三个相邻帧上的位置和

尺度进行连接，来编码手的运动hmi。hai和hm

i共同表示手：hai描述外观，hm

i描述运动。我们从同一物体轨迹中采样另一帧o′i，作为o

i的时间增强。给定N个这样的四元组(oi,o′i,hai,hm

i)，我们构建如图3所示的正对比负对。在Ltemporal

中，对于每个oi，o′i是正样本，所有其他对象oj和o′

j是负样本。在Lhand中，对于每个oi，[hai,hm

i]（手的外观和运动）作为正样本，所有其他对象o′j和手

[haj,hmj]作为负样本；对于每个[hai,hmi]，oi

是正样本，所有其他对象oj和手[haj,hmj]

是负样本。所有的裁剪oi，o′i，hai

都使用标准的SimCLR数据增强进行转换。我们通过将物体

和手裁剪通过卷积主干ϕo和ϕh

进行传递来设置对比损失。我们对于Ltemporal

使用一个投影头fo，对于Lhand使用两个投影头fh，g

h（分别用于物体和手裁剪）。hm

i通过位置编码进行编码，并附加到ϕh(hai)

中，然后输入到投影头gh

中。我们使用余弦相似度和归一化温度缩放的交叉熵损失（

NT-Xent），参考SimCLR

[6]。我们将同时使用这两个损失项的完整公式称为具有对象

-手一致性的时间SimCLR或TSC+OHC。我们还尝试只使用

时间项的时间SimCLR或TSC（即将λ设置为

0）。这些公式的输出是ϕ

o，它是我们的状态敏感特征表示。在第4.1节中，我们评估

了ϕo在物体状态分类任务上的质量。

3.2.通过上下文预测的物体可供性

我们解决的交互式物体理解的下一个方面是推断放置在场景

中的物体能够在哪些位置提供什么样的交互，我们将其统称

为物体

剩余10页未读，继续阅读

cpongm

粉丝: 6

人类手在交互式物体理解中的关键作用与数据驱动挑战

cole_02_0507.pdf

工程硕士开题报告：无线传感器网络路由技术及能量优化LEACH协议研究

【东海期货-2025研报】东海贵金属周度策略：金价高位回落，阶段性回调趋势初现.pdf

图像数据处理工具+数据(帮助用户快速划分数据集并增强图像数据集。通过自动化数据处理流程，简化了深度学习项目的数据准备工作)

diminico_02_0709.pdf

agenda_3cd_01_0716.pdf

A课件Python全栈开发线下班.zip

diminico_02_1108.pdf

基于人工智能大模型技术的果蔬农技知识智能问答系统.pdf

diminico_02_0307.pdf

最新资源