双AI：深度学习群体活动中的演员交互分析

18 浏览量更新于2025-01-16 收藏 42.45MB PDF 举报

"双AI：群体活动识别中的双路径演员交互学习" 在群体活动识别（Group Activity Recognition，GAR）领域，理解多个参与者之间的交互行为是至关重要的。传统的单一空间或时间顺序的注意力模型往往不足以描述复杂群体活动中多样化的时空交互。双AI是一种新的方法，它通过双路径演员交互学习来提升GAR的准确性与泛化能力。双路径演员交互学习的核心在于同时考虑空间（Spatial）和时间（Temporal）两个维度的关系。首先，"TSPath"（Temporal-Spatial Path）关注时间序列中的演员动态，它能够捕捉到事件发生的连续性和顺序性，这对于识别时间相关的动作至关重要。例如，"Temporal relation"类别可能表示事件发展的不同阶段或参与者之间的互动顺序。另一方面，"STPath"（Space-Time Path）侧重于空间上的演员位置变化，它可以揭示演员之间的相对位置关系及其随时间的演变。例如，"r-set"和"l-spike"可能代表不同的空间配置或模式，这些模式对于识别集体活动的特征非常重要。"STPath"有助于理解不同演员如何在空间上相互作用，形成特定的群体行为。然而，仅依赖单一路径可能会导致信息的丢失，因为复杂的群体活动往往涉及到多样的时空交互。因此，"DualPaths"结合了TSPath和STPath的强项，通过联合优化空间和时间信息，提供更全面的演员交互描述。这种双路径方法可以更准确地捕捉到复杂群体活动中的动态变化和结构。 "尺度演员对比损失"（Scale Actor Contrastive Loss）是另一种增强模型学习的方法，它鼓励模型在不同尺度上区分不同的演员和他们的交互，从而提高识别的鲁棒性和泛化性能。这一损失函数有助于在大规模数据集中学习到更具区分性的特征，使模型能更好地处理不同规模的群体活动。双AI模型通过双路径演员交互学习和尺度演员对比损失，为群体活动识别带来了显著的进步，提升了对复杂群体行为的理解和识别能力。这种创新方法不仅能够识别个体演员的行为，还能深入理解多个参与者共同构成的集体活动，具有广泛的应用前景，如视频监控、体育赛事分析和社交场合理解等。

(a) l-spike (b) r-set

Accuracy per Category

TS Path ST Path Dual Paths

Dual

TS ST

Dual

Temporal relation

recognize individual action of each actor but also under-

stand collective activity of multiple involved actors. Hence,

it is vital to learn spatio-temporal actor relations for GAR.

Several attempts have been proposed to model actor re-

lations by building visual attention among actors [6, 16, 19,

26,46,49,51]. However, it is often difﬁcult for joint spatial-

temporal optimization [8, 37]. For this reason, the recent

approaches in group activity recognition often decompose

spatial-temporal attention separately for modeling actor in-

teraction [16, 26, 49]. But single order of space and time is

insufﬁcient to describe complex group activities, due to the

fact that different group activities often exhibit diversiﬁed

spatio-temporal interactions.

2990

双AI:用于群体活动识别的双路径演员交互学习

MingfeiHan1,DavidJunhaoZhang2,YaliWang3,RuiYan2,LinaYao5,XiaojunChang1,4,Yu

Qiao†3,6

1ReLER,AAII,UTS2新加坡国立大学3深圳高级技术研究院-商汤联合实验室4RMIT大学5

新南威尔士大学6上海人工智能实验室

https://mingfei.info/Dual-AI/

摘要

学习多个参与者之间的时空关系对于群体活动识别至关重要

。不同的群体活动通常在视频中展示了参与者之间多样化的

交互。因此，从单一的空间-时间演员演化视角建模复杂的

群体活动通常是困难的。为了解决这个问题，我们提出了一

种独特的双路径演员交互（Dual-AI）框架，该框架通过在

两个互补的顺序中灵活安排空间和时间变换器，增强了演员

之间的关系，融合了不同时空路径的优点。此外，我们引入

了一种新颖的双AI互动路径之间的多尺度演员对比损失（M

AC-Loss）。通过在帧和视频级别上进行自监督的演员一致

性，MAC-Loss可以有效区分个体演员的表示，减少不同演

员之间的动作混淆。因此，我们的双AI可以通过融合不同演

员的这些有区别的特征来提升群体活动识别。为了评估所提

出的方法，我们在广泛使用的基准数据集上进行了大量实验

，包括Volleyball[21]，CollectiveActivity[11

]和NBA数据集[49

]。所提出的双AI在所有这些数据集上都取得了最先进的性能

。值得注意的是，所提出的双AI在50%的训练数据上的表现

优于一些最近的方法在100%的训练数据上的表现。这证实

了双AI在群体活动识别中的泛化能力，即使在有限监督的挑

战性场景下也是如此。

1.引言

相等贡献。†通讯作者。

r-setr-spiker-passr-winpointl-setl-spikel-passl-winpoint

时间

空间关系时间关系空间关系

图1.

每个类别的准确率和左尖峰和右集合组活动示例。红色虚线和紫色

虚线分别显示了空间和时间上的演员交互。通过在不同顺序中应用

空间和时间建模，ST路径和TS路径学习了不同的时空模式，因此在

不同的类别上具有不同的技能，这得到了准确率图的支持。

下载后可阅读完整内容，剩余9页未读，立即下载

cpongm

粉丝: 6

双AI：深度学习群体活动中的演员交互分析

人工智能语音识别技术.pdf

【VTK虚拟现实应用】：构建沉浸式环境的专业路径

人工智能-机器学习-浅谈移动互联背景下广播剧的微发展.pdf

【AI艺术挑战与对策】：识别问题并掌握解决之道

构建自适应学习机制：智能诊断系统的关键技术详解

深度强化学习：理论到实践，案例详解

【打造国际化中文软件】：本地化过程中的10个最佳实践

【智能决策算法】：让FOXBOT机器人自主学习的秘诀

cs_SPEL+Ref71_r2.pdf机器学习应用：智能推荐与决策支持的实践案例

推荐系统革新者：强化学习算法如何引领变革

最新资源