没有合适的资源?快使用搜索试试~ 我知道了~
Social Group1: WalkingSocial Group1: WalkingWalkingHolding sthWalkingWalkingHolding sthWalkingSocial Group2SG3Social Group2SG3209830JRDB-Act:一个用于时空动作、社交群体和活动检测的大规模数据集0Mahsa Ehsanpour 1,Fatemeh Saleh 2*,Silvio Savarese 3,Ian Reid 1,Hamid Rezatofighi 401 阿德莱德大学,2 三星人工智能中心,3 斯坦福大学,4 莫纳什大学0https://jrdb.erc.monash.edu/0摘要0大规模视频动作理解数据集的可用性促进了对包含人的视觉场景的解释的进展。然而,在由移动机器人平台捕获的一系列感知数据中学习识别人类行为及其社交互动,这些数据来自于一个可能具有高度不平衡和长尾分布的人群众多的无约束真实世界环境,仍然是一个重大挑战,尤其是由于缺乏一个反映真实情况的大规模数据集。在本文中,我们介绍了JRDB-Act,作为现有JRDB的扩展,它由一个社交移动机械手捕获,并反映了大学校园环境中人类日常行为的真实分布。JRDB-Act已经密集地注释了原子动作,并包含超过280万个动作标签,构成了一个大规模的时空动作检测数据集。每个人的边界框都标有一个基于姿势的动作标签和多个(可选的)基于互动的动作标签。此外,JRDB-Act提供了社交群体注释,有助于根据场景中的互动将个体分组以推断他们的社交活动(每个社交群体中的共同活动)。JRDB-Act中的每个注释标签都标有注释者的置信度水平,这有助于开发可靠的评估策略。为了展示如何有效利用这些注释,我们开发了一个端到端可训练的流水线来学习和推断这些任务,即个体动作和社交群体检测。数据和评估代码将公开提供,网址为https://jrdb.erc.monash.edu/。01. 引言0理解和预测人类行为和意图是解决许多现实世界问题的关键任务,如自动驾驶、机器人导航安全等。0* 在澳大利亚国立大学(ANU)期间完成的工作。02D03D0图1.JRDB-Act数据集的单帧示例。如图所示,使用2D和3D多模态感知平台捕获的数据伴随着一组新的注释,包括个体动作和社交群体形成,从而推断社交活动(每个社交群体中的共同活动),以进一步补充JRDB中的2D和3D检测和跟踪注释。0人机交互和监控系统中危险行为的检测是一项具有挑战性的任务。由于在无约束的真实环境中人类行为的高度变化,开发执行这些任务的AI模型具有挑战性。此外,处理类似高度不平衡、长尾分布的日常行为对许多现有方法提出了新的挑战。最近,已经取得了很大进展,创建了大规模的用于人类活动理解的视频数据集。虽然这些流行的数据集在视觉数据中对人类活动理解的最新进展做出了重要贡献,但它们的主要应用并不针对机器人领域,因此很少反映出人机交互和机器人在人类拥挤环境中的导航等问题的挑战。209840购物中心、大学校园等环境不仅包括许多个体,而且经常有通过某种形式的互动相互连接的人群,例如参与共同活动或目标的人群,这形成了社交群体和活动的概念。此外,在许多机器人问题中,例如在人类环境中进行安全导航和碰撞风险预测,提前预测每个个体的行为和意图是至关重要的,考虑到他们的社交互动。为此,一个时空密集注释的人类动作数据的可用性对于开发和评估机器人感知系统是不可或缺的。出于这个动机,我们介绍了JRDB-Act,这是一个从移动机器人平台捕获的大规模数据集,包含密集的时空个体动作和社交群体注释。JRDB-Act是最近介绍的JRDB的扩展。我们现在详细介绍JRDB-Act和我们提出的方法的独特特点。新的注释。我们为每个人的每个帧提供了一组原子动作标签,这些标签属于人类姿势、人与人之间以及人与物体之间的三个类别,如图1所示。我们的动作词汇包括11个人类姿势、3个人与人之间和12个人与物体之间的交互类别。由于这些动作标签在空间和时间上都有密集的注释,JRDB-Act包含超过280万个动作标签,使其成为公开可用的大规模时空动作数据集之一。此外,该数据集提供了新的独特注释,即社交群体标签,通过为每个帧中的每个人分配一个群组ID,使具有相同ID的个体代表一个社交群体。我们还通过从注释的个体动作和社交群体中推断出的社交活动为每个群组提供社交活动注释。JRDB-Act的另一个新颖之处是为每个注释标签提供的难度级别注释,例如易、中、难,这反映了注释者对相应标签的置信水平。提供的难度级别可以有助于更可靠的评估范式。独特挑战。JRDB-Act中的序列是由移动机器人平台在大学校园的不同室内外场所捕获的人类日常生活,作为一个无约束的环境[35]。因此,它们反映了真实场景中人类行为的高度不平衡分布。此外,这些序列自然地包含不同水平的人口密度。JRDB-Act中每帧的平均人数为30,远高于大多数流行的动作数据集。此外,机器人的运动和捕获序列的透视视图使得该数据集具有挑战性。考虑到上述引人注目的特征、密集的注释和自然的复杂性,JRDB-Act为计算机视觉和机器人学界研究人员提供了研究人类理解中的新问题和挑战的手段。0我们的提出方法。为了展示JRDB-Act中需要解决的潜在研究方向和挑战,我们为个体动作和社交群体检测任务开发了一个端到端可训练的流程。我们的方法使用全景视频剪辑作为输入,并采用与[13]类似的骨干网络提取时空个体特征。然而,我们融合了额外的配对几何特征,并采用一种新颖的基于特征值的损失函数,以提高社交群体检测性能,相比于[13]。我们还提出了一种简单而有效的策略来处理动作标签不平衡的问题,即根据数据集中动作类别的出现频率划分和平衡动作损失函数。02. 相关工作0数据集。在过去的十年中,引入了多个视频动作数据集,如HMDB-51 [28]和UCF101[47],这些数据集由短视频剪辑组成,用于视频分类任务[18,34,42]。由于这些数据集规模不够大且多样化,无法训练深度模型,因此引入了大规模视频数据集,如Sports1M[25],YouTube-8M [1],Something-something[19]和Kinetics[26],用于视频动作分类任务。其他一些视频数据集,如ActivityNet [3],THUMOS [23],MultiTHUMOS[53],Charades [45]和HACS[57],包含用于时序动作定位任务的未修剪视频。少数数据集,如CMU [27],MSR Actions [54],UCF Sports[40]和JHMDB[24],提供空间和时间定位。动作类别数量较少和短视频剪辑数量有限,促使社区引入AVA [20]和AVA-Kinetics[29]这两个大规模时空动作检测数据集。在AVA中,每秒提供一个帧的时空动作标签,其中每个人都用边界框和至少一个动作进行注释。AVA-Kinetics数据集扩展了Kinetics,具有AVA风格的注释。还有一些视频数据集,如SOA[37]和HVU[11],通过在视频中提供场景、对象、事件、属性和概念标签来提供多标签注释,但仍限于视频分类任务。作为另一组数据集,已发布了面向特定领域(如烹饪或家具组装)的教学视频分析数据集[2,9,41,49]。Volleyball[22]和Collective Activity Dataset (CAD)[7]专注于群体活动识别。在这些数据集中,演员用动作标签进行注释,整个场景用一个群体活动标签进行注释。然而,一个真实的场景通常包含几个具有潜在不同社交活动的人群。最近,CAD在注释方面扩展为Social-CAD[13],其中不同的社交群体及其相应的社交活动已经进行了注释。而Social-CAD是209850这是首次尝试解决时空动作和社交群体检测任务,但它只包含了44个序列和有限的标签。尽管所有这些数据集在视频中的人类动作理解方面做出了巨大贡献,但它们无法反映机器人在人类拥挤环境中的应用挑战。为了针对这些特定的应用领域,如社交机器人导航和人机交互,我们提出了JRDB-Act,这是一个从移动机器人捕获的大规模时空人类动作、社交群体和每个群体社交活动检测数据集,其在空间和时间上进行了密集注释。动作分析框架。在过去几年中,对视频分类[4,12,46,55]和时序动作检测[44,45,52,58]进行了广泛研究。最近,通过引入具有时空注释的数据集,如AVA[20],时空动作检测任务[15-17,30,48,50]受到了广泛关注。同时,还存在着专注于数据集上的群体活动识别的工作,如Volleyball [22]和CAD[7],其目标是为整个场景预测一个单一的群体活动标签[5,6,8,31,32]。尽管这些方法试图识别群体活动识别中人与人之间的互动,但它们无法推断社交群体。最近,CAD[7]在[13]中增加了每个群体的社交群体和社交活动标签,并提出了相应的框架来检测场景中个体的动作、社交群体和每个群体的社交活动。然而,根据我们的实验结果,这个框架在JRDB-Act的自然复杂性方面表现不佳。为了改进这个框架的性能,我们(i)利用边界框位置推导出配对几何特征,并进一步引入基于特征值的损失来增强社交群体检测任务,以及(ii)提出了一种简单的策略,即损失划分方法,来处理数据集中动作标签不平衡的问题。03. JRDB-Act数据集0多模态JRDB数据集[35]由移动机器人JackRabbot捕获的64分钟的感知数据组成,包含大学校园环境中的54个室内和室外场景序列,涵盖不同的人体姿势和社交互动。JRDB提供了以下信息:1)对于所有在五个立体RGB相机中可见的人,提供了超过240万个2D边界框,捕获了全景圆柱形360°图像视图;2)对于从两个16阵列LiDAR传感器捕获的点云,提供了超过180万个3D定向边界框;3)将所有3D边界框与相应的2D边界框进行关联;4)对所有2D和3D边界框进行时间上的跟踪ID。虽然提供的注释对于人体定位和跟踪很有用,但JRDB缺乏足够的信息来进行社交人类活动的分析。0因此,我们提出了JRDB-Act,通过在现有的JRDB上提供额外的个体人类动作和社交群体注释。所有这些注释使JRDB-Act成为目前唯一可用于人体检测、跟踪、个体动作、社交群体和群体社交活动检测的多任务学习数据集。JRDB-Act由一组注释者手动注释,并为每个任务提供指导,以确保数据集的一致性。然后,另一组注释者对提供的注释进行质量评估。本节的其余部分详细介绍了JRDB-Act的注释、基准测试和统计信息。A.动作词汇表。由于JRDB是在大学校园环境中收集的,我们的动作词汇表包括常见的日常人类动作。通过对数据集的全面检查,我们总结了11个基于姿势的动作、3个人与人的互动动作和12个人与物体的互动动作标签。图2展示了JRDB-Act中每个类别的现有动作标签列表。B.动作注释。动作注释以每帧(7fps)和每个框为单位密集地提供,适用于LiDAR和视频序列。然而,全景视频用于注释动作标签。在注释过程中,我们利用了JRDB注释的2D边界框和跟踪ID;对于每个边界框,从可用的动作词汇表中选择一个(必选)基于姿势的动作标签和任意数量的(可选)基于互动的动作标签。如果列表中的类别对于边界框来说都不具有描述性,注释者可以将该框标记为每个标签类别的miscellaneous-[description],并且稍后使用这些描述来扩展动作词汇表以包含新发现的标签。注释者还将每个动作标签与其对应的难度级别标记在一起,以表示注释者对相应标签的自信程度。有一些情况下,1)动作标签是明显的,2)动作标签存在不确定性,但我们可以做出合理的猜测,3)人离摄像机很远或被遮挡,但是可以通过一些证据(如过去的历史和当前的移动)推断出动作。我们分别将这些情况标记为easy、moderate和difficult。在某些情况下,由于视频的持续时间内边界框完全被遮挡或者人离机器人很远,无法推断出动作。在这种情况下,基于姿势的动作标签及其对应的难度级别都被标记为impossible。提供的难度级别可以有助于更可靠和公平的评估协议。C.社交群体注释。在场景中的人可能形成不同的社交群体[13],而每个群体都参与一项社交活动。为了提供群体注释,每帧中属于同一社交群体的人被分配一个唯一的群体ID,这个分配可能随时间变化。每个群体标签都标有一个难度级别,以反映注释者对该标签的自信程度。209860图2. 左图:按降序排列的动作类别的分布,使用对数刻度表示,颜色表示动作类型。右图:动作标签注释中不同难度级别的分布。0图3.左图:每个社交活动标签的社交群体大小分布,每个标签用不同颜色的条形图表示,颜色表示大小。右图:整个数据集的社交群体大小分布。0反映注释者的置信水平。我们使用easy,moderate和difficult来表示组成员身份的可识别程度,其中1)易于识别,2)可以基于一些视觉和时间线索进行估计,3)由于与摄像机的距离或遮挡而无法推断。鉴于每帧中的注释社交群体和个体动作标签,我们使用该群体中最常见的个体动作标签为每个群体生成了一个伪地面实况社交活动标签。我们还通过对应的个体动作的困难级别的平均值为推断的社交活动标签分配了一个困难级别。0D.JRDB-Act划分。根据JRDB划分,JRDB-Act在视频级别上分为训练、验证和测试集,因此,一个视频序列的所有帧都出现在一个特定的划分中。这54个视频序列被划分为20个训练视频、7个验证视频和27个测试视频。为了0为了与其他相关数据集的标准评估保持一致,我们在关键帧上评估所有任务,关键帧每秒采样一次,结果为1419个训练样本、404个验证样本和1802个测试样本。0E.基准和指标。我们的评估是在关键帧级别上进行的,遵循[20]中的标准做法。我们采用广泛使用的平均精度(AP),使用IoU阈值为0.5,遵循标准的PASCAL VOC[14]挑战,并对其进行自定义以报告每个任务的性能。为了报告在一组检测到的边界框上的社交分组的性能,我们首先计算每个检测置信度阈值的真阳性框(TP)列表。然后,类似于[13,51],我们通过解决从修正的预测(TP)列表和groundtruth列表之间的ID分配来确定预测和真实组ID之间的对应关系。最后209870我们重新计算了考虑到群组ID的最终真阳性数,并使用AP报告最终结果。平均AP(mAP)也用于报告个体动作和社交活动检测任务的性能,遵循与[20]相同的做法。有关我们评估策略的详细解释,请参见补充材料。F.JRDB-Act统计数据。图2显示了JRDB-Act中注释的个体动作标签的分布,以对数刻度表示数据集中的长尾分布。此外,图2中的饼图反映了动作标签中的困难级别分布,其中只有61.4%的动作标签是基于视觉线索进行注释的(标记为easy和moderate),其余38.6%是基于边界框历史或运动进行推断的(标记为difficult)。图3展示了社交活动标签与社交群体大小的分布关系。图3中的圆环图显示了数据集中社交群体大小的分布。正如图中所示,75.5%、16.6%、5%、1.2%的社交群体分别由一个、两个、三个和四个成员组成,只有1%的数据包含五个或更多成员的群体(最多29个成员)。04. 提议的基线0我们提出了一种用于视频中个体动作、社交群体和群体社交活动的时空检测的端到端可训练基线。我们模型的架构如图4所示。我们使用与[13]中相同的骨干网络fθ(x),包括I3D特征提取器、自注意力和图注意力模块,提取每个个体的丰富时空特征图,其中编码了社交互动。为了进一步提高社交分组性能,并减少与[13]相比训练和推断之间的差异,我们提出在从视觉特征和检测到的边界框之间提取的相似性矩阵上使用基于特征值的损失函数[10]。此外,为了克服数据中动作标签高度不平衡的特点,我们提出使用受[33]启发的softmax/sigmoid损失分区方法。学习社交群体形成。场景中的社交群体可以表示为一个图,其中节点是个体,边表示它们之间的连接。地面实况社交群体的图可以由一个由0和1组成的矩阵ˆA表示,其中ˆA i,j表示对(i,j)对是否属于同一社交群体的指示。模型形成的Aθ由模型形成,对于每对边界框i和j,计算表示每对之间几何相似性的归一化GIoU[39] D G(i,j),其中0和1分别表示远和近的边界框。还计算了两个边界框i和j的视觉特征(从fθ(x)中提取)之间的归一化相似性DV(h i θ, h j θ)。0最终的 A i,j θ 通过将 D V (h i θ, h j θ) 和 D G (i, j)进行串联,并利用一个MLP层将2维向量投影为1维向量来获得。学习社交群体的训练目标是减小预测的 A θ 和 ˆ A之间的差异。为此,我们使用二元交叉熵损失在 A θ 和 ˆ A的元素之间计算差异,该损失在公式 2 中表示为 LBCE。此外,由于地面真值矩阵 ˆ A的连通分量(社交群体)的数量等于其拉普拉斯矩阵 ˆ L的零特征值的数量,我们希望 A θ 的拉普拉斯矩阵 L θ也具有与 ˆ L 相同数量的零特征值。为此,我们使用公式 1中的 L eig (θ) 来计算 L θ。0L eig (θ) = ˆ e T L T θ L θ ˆ e + α exp(−βtr(¯L T θ ¯L θ))(1) 其中 ˆ e 是与零特征值对应的地面真值特征向量,L θ是与预测的相似度矩阵 A θ 对应的拉普拉斯矩阵,α 和 β是系数。公式 1 的证明在补充材料中给出。公式 1的损失受到 [10]中提出的完全可微、无需特征值分解的损失的启发,该损失用于训练一个依赖于网络预测的矩阵的单个零特征值对应的特征向量的深度网络。我们将其扩展到具有多个零特征值的社交群体数量的问题上。为了学习社交群体的数量,我们使用地面真值社交群体数量和从 hθ(边界框视觉特征的最大池化)和 A θ元素求和得到的1维学习特征之间的均方误差函数作为基数损失,表示为 L MSE 在公式 2 中。L G = L BCE (A θ, ˆ A)+ L eig (L θ, ˆ L)+0L MSE (( h θ |0i A i θ ) , GT cardinality ) (2)0学习动作。每个边界框都标注有一个基于姿势的动作标签和任意数量的基于互动的动作标签,数据集中的动作类别出现不平衡。学习动作的一种简单方法是使用交叉熵损失来学习基于姿势的动作和使用二元交叉熵损失来学习基于互动的动作。然而,我们经验性地观察到动作分类器的性能受到动作标签不平衡的严重影响。为了解决这个问题,我们将基于姿势的动作类别和基于互动的动作类别划分为几个不相交的分区。每个分区中最不频繁类别的样本数大于该分区中最频繁类别样本数的0.1倍。在除最后一个分区外的每个分区中,我们添加一个“其他”类别,表示在较不频繁的分区中存在某个动作类别。我们为基于姿势和基于互动的分区分别设置了3个和4个分区。每个分区中的动作标签列表在补充材料中提供。然后,我们使用交叉熵损失和二元交叉熵损失分别训练每个基于姿势和基于互动的分区。87321456..............................23Pose: Walking human-object 1: Holding sth human-object 2: Looking at robot[Walking, Standing, Sitting, Other][No interaction, at least one interaction][Holding sth, Listening to sb, Talking to sb, Other][Looking into sth, Looking at robot, Looking at sth, Typing, Interaction with door, Talking on the phone, Other]Softmax 1Sigmoid 1Sigmoid 2Sigmoid 3Effective loss termsBounding box groundtruth lables209880SG 30SG 1 SG 4 SG 20文本0主干网络0模块0Softmax 1 Softmax 2 Softmax 30其他 其他0其他 其他 互动 无互动0Sigmoid 1 Sigmoid 2 Sigmoid 3 Sigmoid 401024维0最大池化0最大池化0最大池化:0图4. 训练期间我们框架的概览。给定关键帧中个体的时空特征表示 h iθ,我们优化两个任务。首先,为了学习个体动作,我们通过将个体的视觉特征和其对应社交群体的特征图(SG iθ)进行串联来计算个体的特征图。其中,社交群体的特征图是通过对其成员的特征图进行最大池化得到的。然后,为了计算 LAct,我们为每个基于姿势(P)和基于互动(I)的动作组计算交叉熵损失和二元交叉熵损失。其次,为了学习社交群体的形成和社交群体的基数,我们根据个体之间的几何距离(D G (i, j))和从主干网络提取的特征距离(D V (h i θ, h j θ))计算个体之间的相似度矩阵 Aθ,并将其与提取的时空特征(h θ)一起使用来计算不同的损失项,如 L G。0分别使用交叉熵和二元交叉熵损失,如公式3所示。此外,为了保持平衡,我们只训练每个训练样本中存在地面真实标签的分区。我们的动作学习策略的示意图如图5所示。0L Act =0i = 0 λ i L CE ( P i θ ,P i ) +0j = 0 λ j L BCE ( I j θ , I j) (3)0在公式3中,λ是一个系数,P i θ和I jθ是预测的基于姿势和基于交互的动作,P i和Ij分别是相应的地面真实标签。训练。我们的模型以视频剪辑作为输入,其中关键帧位于末尾。然后,将输入剪辑馈送到主干网络,以获得关键帧中个体的时空特征图,表示为h iθ。基于个体之间的几何和特征距离,计算个体之间的相似性矩阵Aθ。然后,利用计算得到的相似性矩阵和提取的时空特征来学习社交分组损失LG,如公式2所示。在训练中,根据地面真实社交连接,通过最大池化其成员的特征来获得每个社交群体的特征图。将每个个体的特征表示与其社交群体特征图连接起来。利用个体获得的特征图来学习动作损失LAct,如公式3所示。如图5所示,对于每个训练样本,我们只激活存在地面真实标签的LAct项,并将其他项设置为零,以避免使用地面真实向量进行训练。0图5. 对训练样本的L Act的不同softmax和sigmoid项的示意图。如图所示,该样本中有3个地面真实动作,包括一个来自基于姿势的动作和两个来自人物-物体交互类别的动作。对于基于姿势的动作,只有一个softmax被激活,因为“行走”属于“Softmax1”。第一个sigmoid确定是否存在基于交互的动作。随后的sigmoid具体确定存在的基于交互的动作标签。在这里,“拿着某物”属于“Sigmoid2”,“看着机器人”属于“其他”。因此,第三个sigmoid被激活以识别“看着机器人”的动作。所有其他项均为零。总的训练目标在公式4中说明。0L total = L G + L Act (4)0推断。在测试时,对于个体动作预测,我们对每个交叉熵的预测执行softmax操作,并对每个二元交叉熵的预测执行sigmoid操作。然后,我们根据层次结构从第一个分区开始,依次选择预测的动作标签。209890方法 分组损失 基数 几何特征 G1 AP ↑ G2 AP ↑ G3 AP ↑ G4 AP ↑ G5 + AP ↑ 总体AP ↑0基线1 [13] BCE H - 8.0 29.3 37.5 65.4 67.0 41.40基线2 BCE H � 26.1 57.0 61.2 63.0 53.7 52.20基线3 BCE MSE � 79.6 63.0 43.7 56.9 40.7 56.80我们的方法 BCE+EIGEN MSE � 81.4 64.8 49.1 63.2 37.2 59.20表1. 使用地面真实边界框在JRDB-Act验证集上进行社交分组消融研究。G1,G2,G3,G4,G5+表示具有1、2、3、4、5个或更多成员的社交群体。0方法 动作mAP ↑0[CE+BCE] 8.00[W-CE+W-BCE] 8.10[M-CE+M-BCE] [我们的方法] 9.00表2.使用地面真实边界框在JRDB-Act验证集上进行个体动作检测消融研究。0只有在预测为“其他”类别时才会执行。对于社交群体预测,我们在个体之间的相似性矩阵上执行图谱谱聚类[56],并利用预测的社交群体数量。由于每个群体的社交活动标签是其成员最常见的动作标签,我们遵循相同的策略,通过个体的预测动作标签推断出每个预测的社交群体的活动。05. 实验0在本节中,我们提供了我们框架的实现细节,评估了其不同方面,并与[13]中提出的现有方法进行了比较。实现细节。骨干设置和超参数与[13]相同。我们使用ADAM优化器,其中β1 = 0.9,β2 = 0.999,ε =10-8。方程1中的α和β设置为1。由于训练目标包括学习社交群体和行为,并且为了有效地学习这两个任务,我们分两个阶段训练模型。在第一阶段,我们使用L G对模型进行50个时期的训练,使用小批量大小为1和初始学习率为10-4。然后,我们使用L total对网络进行50个时期的微调。学习率在验证损失平台上按10-1的因子减小。输入视频剪辑的长度为15帧,其中注释的关键帧位于末尾。有关更多实现细节,请参见补充材料。消融研究。所有表1和表2中的消融实验都是使用验证集上的真实边界框进行的,以消除检测性能对实验的影响。此外,对于每个任务的评估是通过考虑相应的带有易于和中等困难标签的真实标签进行的,而困难标签则从评估中删除。然而,具有困难标签的标签用于表4中的测试集评估。A.社交群体形成:我们将我们的框架与三个基线进行比较,以预测社交群体,其中包括具有不同成员数量的群体的分组AP和获得的分组AP的平均值。在我们的建议框架中,网络通过在训练过程中最小化均方误差损失来估计社交群体的数量;我们在表1的基数列中用MSE表示。相反,[13]中使用的图聚类方法需要事先知道社交群体的数量,因此依赖于启发式方法[36]来推断这个数量;我们在基数列中用H表示。因此,在表1中定义了三个基线。[基线1][13]通过使用基于个体视觉特征的分组损失(在分组损失列中用BCE表示)和图谱聚类来解决群体形成任务。正如我们的实验证实的,这种启发式方法低估了群体的数量;即,谱聚类倾向于将每个人分为少数甚至一个群体。因此,该基线在群体大小为4、5及以上时的性能比其他方法更好,而在较低的群体大小类别上的性能显著较差。[基线2]在视觉特征之外还利用了几何特征。显然,几何特征能够更好地识别小型社交群体。类似地,[基线3]通过学习社交群体的基数而不是采用启发式方法来显著提高小型群体的群体形成性能。最后,[我们的方法]显示了在我们的框架中利用特征值损失的效果,从而产生了最高的整体群体形成结果。B.行为和社交活动预测:我们在表2中展示了我们提出的策略(即损失分区)处理高度不平衡的个体行为标签的有效性。[基线1]利用单一交叉熵损失和单一二元交叉熵损失[CE+BCE]分别学习基于姿势和基于互动的动作类别。[基线2][13]以加权方式利用交叉熵损失和二元交叉熵损失函数[W-CE+W-BCE]。动作标签的归一化权重是基于它们在训练集和验证集中出现频率的倒数计算的。最后,在[我们的方法]中,我们利用多个交叉熵和二元交叉熵损失[M-CE+M-BCE]来使用损失分区策略,如第4节所述。根据我们的实验证实,加权策略不能解决数据中动作类别的不平衡分布问题,而我们提出的策略可以有效解决该问题。0建议的框架中,网络通过在训练过程中最小化均方误差损失来估计社交群体的数量;我们在表1的基数列中用MSE表示。相反,[13]中使用的图聚类方法需要事先知道社交群体的数量,因此依赖于启发式方法[36]来推断这个数量;我们在基数列中用H表示。因此,在表1中定义了三个基线。[基线1][13]通过使用基于个体视觉特征的分组损失(在分组损失列中用BCE表示)和图谱聚类来解决群体形成任务。正如我们的实验证实的,这种启发式方法低估了群体的数量;即,谱聚类倾向于将每个人分为少数甚至一个群体。因此,该基线在群体大小为4、5及以上时的性能比其他方法更好,而在较低的群体大小类别上的性能显著较差。[基线2]在视觉特征之外还利用了几何特征。显然,几何特征能够更好地识别小型社交群体。类似地,[基线3]通过学习社交群体的基数而不是采用启发式方法来显著提高小型群体的群体形成性能。最后,[我们的方法]显示了在我们的框架中利用特征值损失的效果,从而产生了最高的整体群体形成结果。B.行为和社交活动预测:我们在表2中展示了我们提出的策略(即损失分区)处理高度不平衡的个体行为标签的有效性。[基线1]利用单一交叉熵损失和单一二元交叉熵损失[CE+BCE]分别学习基于姿势和基于互动的动作类别。[基线2][13]以加权方式利用交叉熵损失和二元交叉熵损失函数[W-CE+W-BCE]。动作标签的归一化权重是基于它们在训练集和验证集中出现频率的倒数计算的。最后,在[我们的方法]中,我们利用多个交叉熵和二元交叉熵损失[M-CE+M-BCE]来使用损失分区策略,如第4节所述。根据我们的实验证实,加权策略不能解决数据中动作类别的不平衡分布问题,而我们提出的策略可以有效解决该问题。[13]+[13]+MMPAT11.827.522.438.824.625.04.93.51.3[[E,M]42.540.823.125.613.429.15.34.43.4[E]44.442.727.128.413.931.35.74.43.5209900方法 G1 AP ↑ G2 AP ↑ G3 AP ↑ G4 AP ↑ G5 + AP ↑ 总体AP ↑ 动作mAP ↑ G-Act mAP1 ↑ G-Act mAP2 ↑0我们的+Faster-RCNN 42.5 40.8 23.1 25.6 13.4 29.1 5.3 4.4 3.40我们的+MMPAT 56.6 39.5 24.3 22.4 14.8 31.5 5.4 4.7 3.40表3.我们的模型与[ 13 ]在JRDB-Act测试集上使用两组不同的检测边界框(Faster-RCNN [ 38 ]和MMPAT [ 21])进行评估,考虑到评估中具有Easy和Moderate难度标签的标签。0[我们的] G1 ↑ G2 ↑ G3 ↑ G4 ↑ G5 + ↑ 总体AP ↑ 动作mAP ↑ G-Act mAP1 ↑ G-Act mAP2 ↑0表4. E:Easy, M: Moderate和D:Difficult.不同任务在JRDB-Act测试集上与难度标签的性能。0损失分区方法相对于基线表现有所改善。最后,社交活动标签是根据预测的社交群体和个体动作推断出的,作为该群体成员最频繁执行的动作。社交活动标签通过忽略G-ActmAP1列指示的社交群体(类似于个体动作评估)并考虑G-Act mAP2指示的社交群体进行评估。对于G-ActmAP2,我们将正确预测社交群体和社交活动标签的框视为真正的正例。在测试集结果中,在表3中,我们展示了我们提出的框架在JRDB-Act测试集上使用JRDB基准提供的公共检测(来自Faster-RCNN [ 38 ])在每个任务上优于[ 13]。值得注意的是,Faster-RCNN在JRDB-Act测试集上的性能为52.2mAP,这显示了该数据集在检测任务中的复杂性。为了研究检测对每个任务性能的影响,我们使用了在JRDB上性能更好的MMPAT [ 21]进行评估,在表3中测试集的mAP为68.1,并意识到更准确的检测大幅提升了分组性能。然而,它在个体动作和社交活动检测任务上几乎与Faster-RCNN检测框表现相当。这一发现表明,由于数据中的独特挑战,如机器人运动和摄像机视角,理解JRDB-Act中的人类动作本质上是复杂的。这些挑战和结果突出了现有研究方法,包括人类活动检测框架,支持这种在现有数据集中代表性不足的环境中的新应用的需求。在表4中,我们进一步研究了在每个任务的评估中注释的难度标签的影响,包括社交群体、个体动作和社交活动标签。观察到,仅使用E进行评估的easy标签获得了最佳性能。使用easy和moderate标签[E,M]在性能上表现较差,与[E]相比有相对较小的差距,并且使用所有具有easy、moderate和difficult标签[E,M,D]的标签在性能上表现最差,与[E,M]相比有较大的差距。限制和讨论。模型在0给定的任务依赖于检测器在预测个体框以及模型在分类和聚类检测到的框时的性能。表2中使用groundtruth边界框评估的easy和moderate动作标签的低动作mAP,以及在表3中验证了使用更准确的检测边界框的可忽略效果,显示了JRDB-Act在理解人类动作方面的固有复杂性和挑战,这是由于机器人的运动、摄像机视角以及具有不同难度级别的高度不平衡的动作分布。因此,这个数据集可能会挑战现有的动作定位框架,需要进一步研究来解决相关的独特复杂性。此外,JRDB-Act是一个多模态数据集,为3D数据提供了注释,这可能有助于处理的任务的整体性能。然而,利用3D输入主要可以为下游任务(如检测、跟踪和提取更准确的几何特征)做出贡献。更好的检测反过来会导致更高的社交分组性能,如表3所证实的。探索3D传感器模态数据并研究传感器数据融合策略可以被视为潜在的未来工作。06. 结论0在一个包括拥挤场景的无约束环境中,学习识别人类行为和他们的社交群体,从移动机器人捕获的感知数据流中,包括潜在高度不平衡的人类日常行为,仍然是一个挑战,因为缺乏一个反映性的大规模数据集。在本文中,我们介绍了JRDB-Act,这是从移动社交机器人平台捕获的数据集,包括适合同时检测社交群体、个体行为和社交活动的时空个体行为和社交群体注释。我们还开发了一个端到端可训练的流水线,作为解决这个多任务问题的基线。我们相信JRDB-Act的密集注释和自然复杂性为未来的视觉和机器人研究提供了新的挑战。209910参考文献0[1] Sami Abu-El-Haija, Nisarg Kothari, Joonseok Lee, PaulNatsev, George Toderici, Balakrishnan Varadarajan, 和Sudheendra Vijayanarasimhan. Youtube-8m:一个大规模视频分类基准. arXiv预印本arXiv:1609.08675 , 2016.20[2] Yizhak Ben-Shabat, Xin Yu, Fatemeh Saleh, DylanCampbell, Cristian Rodriguez-Opazo, Hongdong Li, 和Stephen Gould. Ikea ASM数据集:通过动作、物体和姿势理解人们组装家具. 在 WACV ,页码847–859, 2021. 20[3] Fabian Caba Heilbron, Victor Escorcia, Bernard Ghanem,和 Juan Carlos Niebles. Activitynet:用于人类活动理解的大规模视频基准. 在 CVPR , 页码961–970,2015. 1 , 20[4] Joao Carreira 和 Andrew Zisserman. Quo vadis, actionrecognition? 一个新模型和Kinetics数据集. 在 CVPR ,页码6299–6308, 2017. 30[5] Wongun Choi 和 Silvio Savarese.一种统一的多目标跟踪和集体活动识别框架. 在 ECCV ,页码215–230, 2012. 30[6] Wongun Choi 和 Silvio Savarese.从视频中理解人们的集体活动. IEEE模式分析与机器
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功