视频弱监督下人机交互检测：挑战与方法

PDF格式 | 975KB | 更新于2025-01-16 | 62 浏览量 | 举报

本文探讨了弱监督学习在视频中人机交互检测任务中的应用及面临的挑战。传统的任务，如在静止图像中识别人与物体的交互，通常依赖于密集的边界框标注数据。然而，视频交互检测更为复杂，因为系统需要在连续的帧中准确识别和定位人物以及互动对象，而这些信息在弱监督条件下通常是缺失的。作者提出了一种新颖的解决策略，即引入对比性弱监督训练损失，它通过结合视频中的时空区域与动作和对象词汇，促使模型理解移动对象在不同时间点的视觉特征。这种方法有助于模型在没有明确边界框标注的情况下学习人机交互的模式。为了构建一个适合该任务的数据集，研究人员设计了一种半自动标注流程，从与视频相关的句子标题中提取人机交互的线索，从而创建了一个包含超过6500个带有交互注释的视频库。相较于传统的强监督学习方法，弱监督学习的优势在于降低了标注成本，但这也带来了显著的挑战，例如识别的不准确性，以及对模型泛化能力的要求。模型必须能够处理各种类型的交互，而且在面对未见过的交互行为时能自我适应。因此，本文的工作不仅关注技术实现，也着重于评估模型在弱监督环境下的性能提升，并证明了在无边界框监督的基准上取得了有意义的进步。本文的研究为视频人机交互检测这一领域开辟了新的可能性，展示了弱监督学习如何在实际场景中克服数据标注的限制，推动了计算机视觉技术向着更高效、实用的方向发展。同时，它也提出了未来研究的方向，即如何进一步优化算法，提高模型在复杂和动态交互环境下的性能。

1847

n=1

不

我

不

n=1

不

i=1

，

H VV

不

。

这会导致错误的类的唯一性，同时抑制所有其他类，

这不允许不太常见或看不见的对象和动词。最后，具

有相似含义的单词没有被解释性地映射到特征空间中

的附近位置，从而导致分类损失。

为了解决这些问题，我们引入了一个对比的spa-

tiotemporal损失，用于学习共享的视觉语言嵌入，如图

3所示。我们的损失利用了与每个训练视频相关联的短

语注释和关于运动对象的时间连续性的线索。我们的

训练损失包含三个见解。首先，我们学习映射的视觉

表示可能的人类和对象区域的输入动词-对象查询和对

比的嵌入式表示的词汇表中的其他不相关的话，对相

应的嵌入式表示。其次，我们鼓励时空区域在视频中

在时间上一致。第三，我们在我们的模型中应用对比

损失，使其能够在测试过程中检测到新的看不见的人-

对象交互。

我们建立在对比损失[5，16，18]的基础上，其目的

是鼓励单位长度特征的正对在特征空间中接近（通过

点积测量），而负对在特征空间中远离。

图2：培训概述。给定一个视频片段和一个动词

物体查询，

对于每一帧，我们首先提取其人和物体区域特征。人

物体

特征被聚集在区域注意模块中，以注意与查询更相关的区

域。我们使用了被关注的人特征、被关注的对象特征、动

词

对象查询特征以及来自其他帧的对象区域特征来计算我

们的弱监督对比损失。（视频来源：最佳画廊工艺[7]）

，

′

，

{

}

−f

′

log

exp

（

）

，

（

）

注意力

其中

是锚特征，

’

是正特征，并且

是

个负特征。我们提出了一种弱

监督的语言

嵌入对齐损失，以将

时空区域与输入动词

对象查询

对齐，并提出了一种

自监督的时间对比损失，以鼓励

基于等式（

）的对象区域的时间连续性。

弱监督语

言嵌入对齐损失。

给定视频帧

，我们提取其人和

对象区域提议特征

和

。设

是

对参与的特征贡献更多。

我们将语言嵌入对齐损失

定义为帧中的关注特征与

目标标签的对齐，同时与动词或宾语否定特征集进行

对比遵循等式（1）中的对比度损失的一般表达式，我

们将帧

中的语言嵌入对齐损失定义为给定关注的人/

对象、语言和否定特征的对比度损失的总和。

一种语言嵌入特征，用于地面真实动词-

输入视频的对象标签我们寻求与相关

（Φ

，

）

（

，

）

、

（

）

将人类/对象区域映射到地面实况动词-对象标签。由于

只有帧级（或视频级）动词对象标签可用，因此我们

还寻求在每个帧中学习全局人/对象特征，其与覆盖词

汇表的语言嵌入特征

其中，

和

分别是目标动词和宾语特征，并且

和

分别是否定动词和否定宾语特征集合。更具体地，

我们将目标项重写为等式（

）：

（

，

）

（

）

+ log

exp

（

）

，

不

不包括基础事实动词-宾语标签。

为了执行对齐，我们提出了一个区域atten-

注意力评分模块，其分别针对每个人和对象区域提

议计算注意力评分

和

，以

测量它们与动词-对象

查询的相关性我们

通过将帧

中的人类区域特征

聚

合为它们的注意力得分

来获得被

，

（

）

其中

〇

是具有类似的

形成如等式（2）中所示的被关注的人的特征，

是目标对象特征，并且

是负特征集合

中的负样本的

数量。人类术语有类似的形式。我们在图3（a）中显

示了这种损失（仅对象项）。“区域关注”模块输出视

频帧的单个“关注的人/对象特征”。这个

其中，

是候选人体区域的数量。关注对象特征Φ

〇

具

有类似的形式。特征

自我监督的时间对比损失。我们试图鼓励时间的连

续性的移动对象。我们

框架的规范注释

剩余10页未读，继续阅读

cpongm

粉丝: 6

视频弱监督下人机交互检测：挑战与方法

opencv视频文件肤色检测

用于人脸检测的一些标准人脸图库

弱监督视觉语言短语学习：基于图像-句子对的空间注意掩模

递归卷积神经网络在弱监督连续手语识别中的应用

深度学习基础概念及其在人脸检测中的应用

【人机协作机制】：RoboTeam软件中的协作机器人与人机交互

机器人自主性与人机交互研究：构建和谐共生的未来

构建高效半监督学习模型：8个挑战与解决方案的终极指南

机器学习算法详解：从监督学习到无监督学习的完整探索手册

监督学习VS无监督学习：如何在正确场景选择最佳算法

最新资源