零射击学习：人机交互中的动作表示与泛化

13 浏览量更新于2024-06-20 收藏 1.7MB PDF 举报

本文主要探讨了人机交互领域中的一项关键挑战——零射击学习问题。在日常生活中，人与物体的交互方式多样且具有丰富的组合可能性，比如“sit on chair”和“stand on table”。然而，现有的动作和人机交互模型往往依赖大量的标注数据，难以扩展到未见过的新动作类别，尤其是在缺乏特定动词-名词对的实例时。作者们提出了一个创新的方法，利用外部知识图和图卷积网络来解决这个问题。外部知识图提供了丰富的词汇关系和上下文信息，有助于模型理解和推断出动作组合的意义。通过图卷积网络，模型能够学习到动词和名词之间的潜在联系，并将这种联系应用到新的组合上，即使这些组合在训练数据中并未出现过。这种方法旨在构建一个能够泛化到未知动作的模型，支持零射击学习，即在测试阶段处理从未在训练数据中见过的动词-名词对。为了验证这个方法的有效性，文中还提供了针对图像和视频的数据集作为基准测试。这些数据集包含了一系列复杂的人机交互场景，既包含常见的动作组合，也包括零射击学习所需的新奇组合。作者期望这些数据集和基准测试能激发更多研究者在这个领域的兴趣，推动零射击学习技术的发展，以更好地模拟和理解人类与环境的交互行为。零射击学习不仅适用于物体识别，也在动作识别领域得到越来越多的关注。它挑战了传统的机器学习模型，要求它们具备更强的泛化能力和对自然语言和动作概念的理解。文章的研究成果对于开发更加智能、适应性强的人机交互系统具有重要意义，这将对未来智能家居、虚拟现实和增强现实等领域产生深远影响。

K.卡托湾Li和A. 古普塔

噪声感知最近，建模人类对象交互的想法已经卷土重来[19]。几种方

法已经研究了建模语义关系[20，57，10]，动作3D关系[14]或完全数

据驱动的方法[13]。然而，他们都没有考虑使用外部知识。

此外，最近的工作集中在为人类对象交互创建大规模图像数据集

[30，7，36]。然而，即使是目前最大的数据集- Visual Genome [30]也

只包含我们日常互动的一小部分（数百），并且没有捕捉到视频中存

在的互动的全部动态。我们的工作向前迈出了一步，使用外部知识来

识别看不见的交互，并探索识别具有挑战性的视频数据集的交互

[48]。我们认为智力和推理的一个重要测试是将原始元素组合成新概

念的能力因此，我们希望我们的工作可以提供一个步骤，为未来的视

觉推理为基础的方法

零射击动作识别。我们的论文的灵感来自于人类对象交互的组合表

示。从Biederman [4]和Hoffman等人的原始工作开始，在心理学和早期

计算机视觉方面已经有了很多关于构图的工作。[23]第10段。最近，

一些工作开始解决零镜头动作识别。与基于属性的对象识别类似，

Liu et al.[35]学会了使用属性识别新的动作。超越认知，Habibian等

人。[21]提出对视频中的概念进行建模以进行事件检测。受零拍摄对

象识别的启发，Xu et al.提出了一种基于嵌入的动作方法[55]。其他努

力包括文本描述的探索[18，51]，演员和动作的联合分割[54]，以及动

作的模型域转移[56]。然而，这些方法只是把动作当作标签，没有考

虑它们的组合性。

也许最相关的工作是从[25，24，28]。Jain等人[25，24]注意到对象

和动作之间的强关系，因此提出使用对象分类器进行零拍摄动作识

别。作为前进的一步，Kalogeition et al.

[28]

提出了联合检测视频中的对象和动作。而不是单独使用对象，我

们的方法模型的身体运动（动词）和对象（名词）。更重要的是，我

们探索使用外部知识将这些概念组装成新的行动。因此，我们的方法

提供了一个重新审视的问题，从组合的角度来看，人类对象的相互作

用。

视觉和语言的组合学习。在视觉问答（VQA）中已经探索了作文学

习。Andreas等人[2，3]将VQA任务分解为模块化子问题的序列-每个子

问题由神经网络建模。他们的方法根据问题的语法从各个模块组装一

个网络，并使用特定于实例的网络预测答案。这一想法由Johnson等人

进一步扩展[27]，其中学习深度模型以从问题生成程序并在图像上执

行程序以预测答案。我们的方法共享组合学习的核心思想，但专注于

人类对象的交互。此外，在[45，50，59]中讨论了使用图形表示对

SVO对进行建模。Sadeghi等人[45]构建了类似于我们的图形表示的

SVO节点的知识图然而，他们的方法旨在验证

剩余17页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

零射击学习：人机交互中的动作表示与泛化

(Unity源码，零积分)像素射击小游戏PixelTopDownShooterEngineV1.0.rar

Unity3D C#脚本中文教程：全面学习指南

Nreal MR眼镜中的手部追踪与交互设计

数据与信息安全期末复习资料（网络信息安全）

基于蓝牙的交通灯系统设计及实现

【信达证券-2024研报-】电影行业专题报告：全国影片推介会在即，25年电影春节档定档前瞻.pdf

计算机网络期末复习.doc

Android开发：：8.WorkManager后台任务处理机制.pdf

【二连杆机构】基于matlab三自由度二连杆力矩控制【含Matlab源码 8933期】.mp4

R语言中CSV文件读取全攻略

最新资源