HOI检测技术:从传统到深度学习的进展

需积分: 5 0 下载量 101 浏览量 更新于2024-08-05 收藏 3.8MB PPTX 举报
"这篇资源包含了2018年关于HOI(Human-Object Interaction)相关研究的PPT,涵盖了各种检测方法、基准数据集、评价指标以及一些具体论文的创新点,如HO-RCNN、InteractNet和iCAN等。" 在人-物体交互检测(HOI)领域,目标是定位图像中的人体、物体,并识别他们之间的交互关系,通常以三元组的形式表示,即<人体,动词,物体>。这一任务对于理解图像内容、视频分析和智能交互系统有着重要意义。 早期的HOI检测方法依赖于手工特征,如颜色、HOG(方向梯度直方图)和SIFT(尺度不变特征变换),并通过贝叶斯模型进行分类。然而,这些方法受限于特征表达能力,逐渐被深度学习方法所取代。两阶段方法将HOI检测分为两个步骤:首先进行目标检测,然后对交互关系进行推理;而单阶段方法则直接从原始图像中检测HOI三元组,简化了流程但提高了计算复杂度。 近年来,新技术不断涌现,如基于Transformer的模型、弱监督学习和零样本学习等,这些都试图提高HOI检测的性能和效率。例如,HO-RCNN在HICO数据集基础上构建了HICO-DET数据集,成为HOI检测的重要基准,其框架结合了深度神经网络(DNN),通过描述两个边界框间的关系,首次引入了人-物空间位置信息,提升了检测效果。 InteractNet提出以人为中心的交互识别模型,利用人的外观特征,通过密度估计器预测人与物体的相对位置概率分布,从而推断目标物体位置。在V-COCO和HICO-DET数据集上分别实现了40.0mAP和9.94mAP的成绩。 iCAN引入了端到端的实例中心注意力模块,通过人体或物体实例的外观特征来强调图像中的相关信息区域。它采用2048维特征向量,经过全连接层(FC)降维至512维,再通过点乘和softmax归一化计算特征相似度,类似Transformer的QK机制,有效识别交互关系。在V-COCO数据集上,iCAN取得了45.3%的mAP。 评价HOI检测性能的指标主要包括mAP(平均精度)、mAProle(有交互物体的平均精度)和mAPagent(无交互物体的平均精度)。这些指标帮助评估模型在检测不同类别交互关系时的准确性。 这篇PPT展示了HOI领域的研究进展,包括不同的检测策略、数据集和关键创新,对于理解HOI检测技术的发展历程和未来研究方向有着重要参考价值。