多/单视图人体动作识别:层次分块词袋法与部分诱导多任务结构学习

0 下载量 68 浏览量 更新于2024-07-15 收藏 2.05MB PDF 举报
本文探讨的主题是"通过部分诱导的多任务结构学习进行多人/单视图人类动作识别",发表在2015年6月的IEEE Transactions on Cybernetics第45卷第6期。研究者们提出了一个统一的框架,旨在解决多视角和单视角人类动作识别问题。他们的方法首先关注于构建层次化的局部和全局视觉注意力表示,这是基于人体结构线索的,即body-wise bag-of-words (BoW) 表征,这有助于捕捉动作中的关键视觉特征。 在这个框架中,作者将多视角和单视角的人类动作识别视为一个部分约束的多任务结构学习(MTSL)问题。这种方法的两个主要优势在于: 1) 一致性与互补性:它维护了基于身体结构的动作分类与基于身体部分的动作分类之间的内在一致性,同时利用不同动作类别之间以及多个视角之间的互补信息。这种一致性有助于提高模型在处理复杂动作场景时的准确性。 2) 特征子空间发现:通过多任务学习,研究者能够发掘出既特定于动作又共享于动作的特征子空间。这样做不仅有助于减少过拟合,还能增强模型的泛化能力,使得模型在未见过的动作样本上也能表现出良好的性能。 值得注意的是,该研究还贡献了两个新颖的人类动作识别数据集,这对于评估和推动该领域的研究具有重要意义。这些数据集的设计和标注对于训练和测试多视角和单视角动作识别算法至关重要,反映了实际应用中可能遇到的多样性。 这篇论文的核心贡献在于提出了一种创新的方法,通过结合多任务学习和部分诱导的结构学习,实现了更有效的人类动作识别,无论是在多人还是单人、单视图的情况下,都能显著提升识别的准确性和模型的泛化能力。这对于计算机视觉和动作识别技术的发展具有重要的理论和实践价值。