跨模态人体行为理解的研究进展

48 浏览量更新于2023-10-12 1 收藏 1.34MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

8658MMAct：跨模态人体行为理解孔泉1吴子明2邓子伟1马丁·克林吉特1童斌1，3 <$村上智和11日立，有限公司日本R& D集团2香港科技大学3中国阿里巴巴集团{quan.kong.xz，ziwei.deng.qq，martin.klinkigt.ut，tomokazu.murakami.xr}@hitachi.comzwual@connect.ust.hk，tongbin. alibaba.com摘要与视觉模式不同，身体佩戴传感器或被动传感可以避免在视觉相关挑战中的动作理解失败，例如，遮挡和外观变化。然而，不存在标准的大规模数据集，其中集成了跨视觉和传感器的为了解决基于视觉的模态的缺点，并推动多/跨模态动作理解，本文介绍了一个新的大规模数据集，记录了20个不同的主题，具有7种不同类型的模态：RGB视频、关键点、加速度、陀螺仪、方向、Wi-Fi和压力信号。该数据集由37个动作类的超过36k个视频剪辑组成，涵盖了广泛的日常生活活动，例如四种不同场景中的桌面相关和基于签到的活动基于我们的数据集，我们提出了一种新的多模态蒸馏模型与注意力机制，以实现自适应知识转移，从基于传感器的模态，基于视觉的模态。与仅使用RGB信息训练的模型相比，该模型显着提高了动作识别的性能。实验结果证实了我们的模型在跨学科、多视角、- 场景和-会话评估标准。我们相信，这种新的大规模多模态数据集将有助于多模态的行动理解的1. 介绍人类行为理解是一项重要的基础技术，用于支持监控系统、医疗保健服务和工厂效率服务等现实世界的近年来，基于视觉的模型在动作理解领域占据主导地位，这是由于※在日立实习期间完成。图1.我们的数据集的插图。每列显示一种方案下的操作。每行表示四个相机视图之一下的动作。深度学习技术的进步[39，27，34]。同时，利用身体佩戴的惯性传感器，例如加速器、陀螺仪和定向来捕获人体运动是实现人体动作识别的另一种典型方式[28，22，7]。众所周知，基于视觉和基于传感器的信息在动作识别中是互补的。超越不能解决视力相关挑战的仅视力模式，例如闭塞和外观变化，这是相当大的利用基于视觉和基于传感器的模态，以提高性能的行动理解在多模态[26，10，20]和交叉。modal [38，3，19] manners.然而，在行动理解的社区中，不存在标准的大规模基准，其中基于视觉和基于传感器的模式被聚合，并且提供了广泛的活动。目前用于行动理解的多模态数据集存在以下四个局限性。首先，基于视觉和基于传感器的模式规模有限。有一些但数量有限的大规模多模态动作数据集[25，17]专注于3D人类动作识别†工作在Hitachi完成。目前在阿里巴巴。或检测。然而，只有三到四个视力有关view1携带背上沉重检查时间掏腰包view2密切放下进入坐下视图3出口秋天跳电话交谈浏览4pull pickup打开使用电话自由空间遮挡入口办公桌工作8659现有数据集中提供了各种模式。其次，支持的动作理解任务数量有限，每个动作具有足够的实例。现有的大部分数据集只支持动作识别，而几乎不能用于动作检测。第三，现有数据集中的动作在固定位置进行。因此，演员和摄像机之间的距离不会改变。此外，行动总是出现在中心的相机时代.这些限制了摄影视野下的自然性和变化性.第四，在因子化数据结构中，具有不同主题、场景、视图和会话的每个模态的实例数量有限本文提出了一种新的多模态数据集，以克服上述局限性，特别是扩大跨模态研究人类行为的理解。我们的数据集被命名为多模态动作数据集（MMAct），由36，000多个修剪的剪辑组成，具有从20个受试者捕获的七种类型的模态，包括RGB视频、关键点、加速度、陀螺仪、方向、Wi-Fi和压力信号。MMAct是根据半自然数据收集协议[4]设计的，在当前动作结束和下一个动作开始之间执行随机游走。只有在外部监视器发出开始信号后才执行该操作。该协议保证了动作在动作区域内随机发生，从而在不同的摄像机视角下提供不同的动作视频对于传统的多模态模型，模型使用的模态越多，部署在现实环境中。跨模态传输技术，即知识蒸馏[12]是一种有用的方法，它允许仅输入一种模态的模型实现接近于使用多种模态的性能。例如，具有RGB输入的学生模型从其他模态学习补充信息例如深度[13]，其用作教师信息。在测试阶段，仅使用RGB信息的学生网络，这是能够实现更好的性能，动作识别比只有RGB信息训练的模型不同于现有的方法，专注于跨基于视觉的模态模态的模态转移，我们打算向基于传感器的模态到基于视觉的模态的知识转移进一步迈进。提出了一种新的带注意机制的多模态知识提取模型，通过教师模型和学生模型的学习实现自适应知识提取。我们工作的主要贡献有三个方面：据我们所知，MMAct是最大的多模态数据集，包括基于视觉和基于传感器的模态。它有助于研究社区走向跨模态行动分析。受知识蒸馏的启发，提出了一种新的带有注意机制的多模态蒸馏模型。该模型具有输入RGB信息的学生网络，其从输入多个基于传感器的模态的教师网络学习有用的侧我们的实验结果证实了我们的模型在我们的数据集的有效性。在RGB模态可能无法识别动作的情况下，可以实现2. 相关工作在本节中，我们将展示一些相关的数据集和作品理解。最传统和最著名的是列出了简短的介绍。更完整的结论，读者可以参考这些调查文件[1，6，40，41]。2.1. 相关数据集下面讨论了用于动作理解的一些传统和典型的多模态数据集，并在表1中将它们与MMAct进行了比较。MSR-Action 3D [14]是最早的数据集之一，它为一些3D动作分析研究做出了贡献。该数据集由游戏动作的深度序列和由20个不同身体关节组成的3D身体关键点数据组成。多视图3D事件[35]和西北大学-加州大学洛杉矶分校[32]数据集利用多视图方法使用多个Kinect摄像头捕获3D视频。该方法已被广泛应用于许多三维数据集。NTU RGB+D [25]及其NTU RGB+D包含从80个视图中捕获的60个动作类的视频它阐述了一系列大规模数据集的标准，并被许多工作所应用。由于这些数据集中只有剪切序列，因此无法应用于动作检测和其他一些研究。G3D [5]是最早的动作检测数据集，其中大多数序列包含具有固定摄像头的室内环境中的多个游戏动作Watch-n-Patch [36]和Compostable Activities[16]是第一个专注于监督或无监督方法中隐藏的动作相关性的数据集。然而，每个视频中的实例动作的数量不足以满足训练深度网络的基本要求。PKU-MMD[17]是用于人体动作检测的大规模基准，其具有用于不同模态的大量实例，包括RGB、深度、红外辐射和关键点。然而，它仍然局限于视觉模式。CMU-MMAC [28]是一种多模态人类活动数据集，将视觉模态与传感器信号相结合，···8660表1.不同多模态数据集之间的动作理解的比较。D：深度，Acc：加速度，Mic：麦克风，Gyo：陀螺仪，Ori：方向。数据集类实例科目场景查看方式时间定位随机游走闭塞年MSR-Action3D [4]205671011D+关键点没有没有没有2010CAD-60 [29]126045-RGB+D+关键点没有没有没有2011[21]第二十一话126041-RGB+D+关键点没有没有没有2011[8]第四季第2集1468442414RGB+D没有没有没有2012[37]第三十七话102001014RGB+D+关键点没有没有没有20123D动作配对[23]123601011RGB+D+关键点没有没有没有2013多视图3D事件[35]83815813RGB+D+关键点没有没有没有2013[32]第三十二话1014751011RGB+D+关键点没有没有没有2014办公室活动[33]20118010-3RGB+D+关键点没有没有没有2014[25]第二十五话605688040180RGB+D+关键点+IR没有没有没有2016G3D [5]201467101-RGB+D+关键点是的没有没有2012CAD-120 [30]20120041-RGB+D+关键点是的没有没有2013可堆肥活动[16]1625291411RGB+D+关键点是的没有没有2014[36]第三十六话212500713-RGB+D+关键点是的没有没有2015OAD [15]10700-11RGB+D+关键点是的没有没有2016[17]第十七话51215456613RGB+D+IR+关键点是的没有没有2017[28]第二十八话51863915RGB+D+关键点+访问+麦克风没有没有没有2010MHAD [22]1166012112RGB+D+关键点+访问+麦克风没有没有没有2013UTD-MHAD [7]27861811RGB+D+关键点+Acc+Gyo没有没有没有2015MMAct37367642044+自我RGB+关键点+访问+Gyo+Ori+Wi-Fi+压力是的是的是的2019包括RGB、深度、关键点和由加速度计和麦克风获得的传感器信号该数据集在厨房中收集，并记录了25名受试者的烹饪和食物制备。[22]第二十二话[7]还包括传感器信号，提供更多的动作类和实例来支持新的租赁评估。然而，这些数据集对于快速开发的数据驱动算法来说不再足够和满意。因此，我们考虑建立一个包含各种模态和动作的大规模数据集MMAct，结合随机游走和遮挡场景，提供未修剪和动作裁剪的数据，以支持不同层次的研究。2.2. 多模式动作识别动作识别已经发展了很长一段时间，但是由于深度学习技术和硬件（例如深度相机和可穿戴设备）的发展，基于多模态的动作识别是一个相对较新的课题。对于多模态数据的处理，有一些典型的思路.由[27]引入的双流体系结构在几个作品中得到了广泛的发展。[31]提出了一种用于提取时空特征的3D ConvNets，以同时对外观和运动信息进行建模。[26]设计了一个深度自动编码器架构，将其多模态输入（RGB和深度）分解为特定于模态的部分，并设计了一个结构化稀疏学习机，用于适当融合分解的特征分量，在5个具有挑战性的数据集上实现了动作分类的最新准确性。”[10]这是最大的。8661与我们的工作分担同样的任务它提出了一种新的多模态流网络，以利用和利用多种数据模态。然而，本作品中使用的模态仍然是RGB和深度，与大多数多模态作品相同，这显示了模态多样性的限制2.3. 跨模式转移与我们的工作最相关的概念是跨不同模式的迁移学习。传统的迁移学习只关注类别级的知识迁移，而跨模态迁移则致力于将一个数据模态中学习到的知识[13]提出了一种模态幻觉体系结构来模拟深度中级特征，以增强RGB对象检测模型。[38]设计了一个网络来学习从RGB通道到热通道的非线性特征映射，以便当在足部检测任务中只有RGB图像可用时重构热通道。与大多数专注于视觉模态之间转移的工作不同，[42]建议使用视觉数据为基于无线电数据的人类姿势估计任务提供跨模态监督和[3]通过使用未标记的视频将区别性视觉知识从视觉识别模型转移到声音模态来学习声音表示。这些工作在一些多模态数据集上提供了有希望的评估结果，但是对于大多数多模态数据集，由于缺乏大规模的多模态数据集，只能测试有限的模态，这可以提供更多的视觉模态，并满足足够的样本用于网络训练的要求。8662∼∼∼×403530Max平均最小25201510503. MMAct数据集MMAct1是一个新的大规模数据集，专注于动作识别/检测任务和跨模态动作分析。我们在1,900多个连续动作序列中收集了36,000多个时间上局部化的动作以下部分将介绍更多细节。图2.每类修剪动作剪辑的平均长度总的来说，每个动作之间的持续时间变化很大。6500600055005000450040003500300025002000150010005000用于获取加速度、陀螺仪、方位、Wi-Fi和压力信号等数据。智能手机被携带并放在受试者裤子的口袋里加速度和陀螺仪信号都具有3维轴信息，并且定向模态由3种类型表示：方位角、俯仰角、横滚角。这3种模态分别以100 Hz、50 Hz和50 Hz采样率采集，而Wi-Fi信号和压力分别为1 Hz和25 Hz。受试者还佩戴智能手表，其进一步扩展所提供的加速度数据。Wi-Fi接入点安装在空间的四个角落，以便从智能手机和彼此发送和接收Wi-Fi信号3.2.数据建设类别：总共考虑了37个行动类别，分为3个主要组：16个复杂操作：携带、交谈、退出等。12个简单的动作：踢、讲电话、跳等。和9项案头行动：坐着，使用PC，口袋里，等等。动作的分组试图遵循[ 2 ]引入的模式。我们总结了每个类的持续时间，并在图2中打印了每个类的最小、平均和最大持续时间，这说明每个动作类都有大量不同的样本，在我们的数据集中变化很大。我们收集的所有类都显示在图2的横轴中。图3显示了不同剪辑持续时间的样本数量分布，说明我们有一个不同持续时间的大量序列，大多数序列持续3 - 8秒。受试者：我们邀请了20名受试者，其中10名男性和10名女性用于我们的数据收集。岁1234567891011121314151617181920212223>23剪辑持续时间（秒）图3.修剪动作剪辑长度的分布大多数样品在约3秒的范围内。至8秒。3.1.数据模态MMAct数据集提供了七种类型的模态：RGB视频、关键点、加速度、陀螺仪、方向、Wi-Fi和压力信号。RGB视频由四个商业监视摄像机（Hitachi DI-CB520）捕获，所述商业监视摄像机在空间的四个顶角处对准，以1920×1080的分辨率在30FPS下捕获场景受试者佩戴智能眼镜（Google Glass），录制以自我为中心的视频，分辨率为1280720在30FPS支持动作识别研究在这个方向上。一款安装了一些初始传感器，如加速器和陀螺仪的智能手机（华硕ZenPhone AR）被1https://mmact19.github.io/2019/受试者年龄在21岁至49岁之间，在147厘米和180厘米之间。每例受试者在整个数据集中具有一致的ID号。场景：我们在室内环境中设计了4个场景：自由空间、遮挡、入口和案头工作。在自由空间场景中，该区域中没有设置任何内容。这是一个标准场景，遵循大多数相关数据集。在遮挡场景中，在空间中布置了3盆植物，以模拟摄像机的盲点。被摄体在某些方向和位置会被盆栽植物遮挡。遮挡是基于视觉的算法的一个弱点，因此我们提供了这个场景，旨在证明传感器信号是值得开发的，以增强视觉相关系统。在入口场景中，平行设置了3个类似物体的门，空间足够大，可以通过一个手提箱。它被设计成模拟真实世界的应用场景。在办公场景中，一张沙发和一张桌子被安排在空间的中心，目的是记录办公桌的行动。查看：我们有来自5视图的视频。其中四个是从空间的四个顶部角落记录的，持续时间（秒）数量的样本8663▪ 传感器节点▪ 凸轮传感器节点·卡姆（Cam）行动领域5m▪ 凸轮▪ 传感器节点卡姆（Cam）传感器节点·×不一个是通过佩戴智能眼镜从自我中心观点记录的。摄像机位于相同的高度，从顶视图记录。会话：我们将会话定义为一个未经修剪的视频，其中包括9个用于桌面工作场景的动作和26到28个用于其他场景的动作。每个受试者被要求进行几乎5次的运动，方向和位置的随机变化。通过这种方式，收集的数据可以针对每个场景，视图和主题进行区分和平衡。3.3.数据收集相机……随机游走图5.我们收集的动作序列样本。命令操作类的名称。听到开始命令后，受试者应在3秒内开始执行命令的动作，并在结束命令宣布后停止。对于一些连续的动作，如说话和跑步，要求受试者继续做自我摄像机传感器直到监视器给出结束命令为止的操作6米智能手表8m随机游走…智能手机自我判断。对于一些突然的动作，例如投掷和踢，受试者将在动作结束后随机行走，并且监测器将基于自我判断记录结束时间因此，通常小于3秒的随机游走可以被剪切到动作序列中，这对于动作分析是可接受的和合理的图4.行动区的环境设置显示了摄像头和传感器的大小和位置。通常，收集未修剪的数据用于动作识别是一项困难的任务。记录环境和过程必须适当地设计，并且必须控制时间界限。MMAct是在半自然主义收集协议[4]下部署的，以确保动作将在动作区域随机发生，以在不同的相机视图中提供各种视角的动作视频录制环境：如图4所示，我们构建了我们的录音环境在一个6米 8米室内空间，4个摄像头和4个传感器节点的Wi-Fi接入点配备在空间的4个角落。受试者被要求在半径为5米的圆形区域内执行动作，右手配备智能手表，衣服右口袋中配备智能手机和智能眼镜。记录过程：工作表上列出了一系列操作，如图5所示。受试者在当前动作结束和下一个动作开始之间进行随机行走对于案头工作场景，这种随机漫步是静坐的。与在某些位置和方向记录受试者的其他数据集不同，受试者是在随机位置和方向捕获的。当受试者随机行走时，外部监视器通过实时视频进行监督，并会给出一个参考工作表的动作命令。然后，监视器给出了一个开始和一个结束命令，同时使用提供的工具箱标记时间注释。在开始和结束时间之间收集的数据标记为数据集。此外，受试者可以自由决定他们如何执行每个动作。监控器为受试者提供了执行的动作类，但没有设计所涉及的具体我们邀请了20名专业演员来执行这些动作，以使我们的数据集更加自然，真实和多样化。4. 建议的交叉模态方法在本节中，我们介绍了一种新的交叉模态学习方法，这是一种多模态注意力蒸馏方法，用于使用来自惯性传感器的自适应加权边信息，使用我们的MMAct数据集，对基于视觉的人类动作进行建模。4.1. 初步由于我们的方法是基于蒸馏的方法，我们提前介绍了知识蒸馏（KD）[12]作为我们的先决条件。KD的思想是允许学生网络不仅捕获由地面真实标签提供的信息，而且还捕获由教师网络学习的更精细的结构。神经网络通常通过使用softmax输出层来输出类别概率，softmax输出层将为每个类别计算的分类分数输出z i转换为概率p i= softmax（zi），其中T是控制概率分布的温度参数。T的值越高，意味着类上的概率分布越软教师模型或模型集合的分类预测pt被用作“软目标”以指导教师模型的分类8664S--IJΣΣ√ii−^ ^您的位置：IJ不||−||我我 i∈NtIJIJ我我IJGimijm ij 2m ijmij2IJijijΣ^^− ^^^ ^您的位置：^ ^您的位置：培养学生榜样。然后通过基于交叉熵优化以下损失函数来训练学生网络：LKD=H（ygt，ps）+λH（pt，ps）（1）其中ps是学生模型的概率预测，H是交叉熵。超参数λ控制不同损耗之间的平衡。请注意，第一项对应于网络输出和地面真实标签之间的传统交叉熵，而第二项强制学生网络从“软目标”学习，4.2. 提出我们提出的模型的概述如图六、在我们的框架中，教师是一组经过训练的特殊教师模型。我们使用加速度，陀螺仪和方向信号作为我们的教师模式，和RGB视频流作为我们的单一学生模式。我正在学习教师网络。设D={（x，y）}样品在我们的模型中，被最小化的三重态损失是Lt=Σ[||T（g a）−T（g p）||2−||T（g a）−T（g n）||2+ α]（2）其中Tm（gij）表示来自教师模型T m的语义嵌入。我们使用离线三元组挖掘来确保每个批次中包含的其他主题的特定动作的正面片段多模态注意力蒸馏。让Ds=（x i，y i）i∈Nt表示学生模型s的训练集。我们的学生网络是一个基于TSN [34]的网络，只有RGB分支在样本xi上训练，样本x i是第i个动作在学生网的训练过程令wm是当第m个模态时第i个动作剪辑的第j个我们使用M（Fij）作为映射函数，其是由四层前馈神经网络组成的注意力层，该四层前馈神经网络具有三个卷积层和一个FC层，该FC层由ReLU函数激活以将来自每个教师的级联语义码F ij非线性地投影到用于表示的公共子空间中。注意权重为（w1，...，w m，m∈N m），使用softmax表示教师模态m∈Nm的训练集，Nm表示教师模态的数量，xi是第i个动作样本，yi是其对应的标签，Nt表示发送样本数。我们使用滑动窗口生成样本的一组分段{（gij，yi）}i∈NT，j∈Gi回归分析集合层用于聚合来自第i个动作剪辑的多个教师的每个加权语义代码，并且输出集合软目标，如下所示1GiNmx，其中g是x的第j个段，i=wm Tm（gm）（3）这个集合与相同的标签yi共享，Gi表示num-jm动作样本的段的BER 每个教师模型是CNN的适应，其中1D卷积在对应模态的片段gij上训练。注意，三个正交方向（x、y和z）上的加速度、陀螺仪和取向信号可能对传感器放置（例如，在裤子中）敏感。为了解决这个问题，我们使用先前的利用交叉熵损失训练学生网络，学生网络分类损失LCS=H（yi，si），蒸馏损失LD=H（zi，si），其中H为交叉熵，H（zi，si）=izilog（si），si表示学生网络的类概率预测。学生网络丢失组织为：提出的组合信号作为传感器数据的特征提取，由R=arcsin（zi）[9]给出，其中Rx2i+y2i+z2iLs=[λLCSXi+（1−λ）LD（4）是第i个组合信号。组合信号Ri将是输入到以下1D卷积网络。我们对100 Hz加速度数据的64个样本窗口和50 Hz陀螺仪和方向数据的32个样本窗口进行采样，每个动作片段有70%的至于身体佩戴传感器是足够敏感的捕捉不同主体执行的相同动作的差异。因此，我们使用标准的三重损失[24]来训练教师模型以及用于分类的交叉熵损失。这里，我们要确保主体的特定动作的分段ga（锚点）更接近其中λ是平衡参数。注意力模型M旨在生成用于提供更准确的教师信息的自适应权重，其通过同时最小化蒸馏损失和总体教师分类损失来优化：LM=Σ[βLCT+（1β）LD]（5）Xi其中β是平衡参数，L CT=H（y i，z i）是我们的多教师分类损失。国际新闻社另一个gij（正）的同一行动的她自己或任何其他的gn（负数）行动我所欲，||T m（g a）−T m（g p）||2+α<5. 评价5.1. 评价设置IJa n2ij2Tm（gij）Tm（gij）2，其中α用作en的裕度迫使锚点更靠近正而不是负由于数据集的不同分裂，几个集-已经评估过了。IJ8665查准率+查全率特征提取Sensor1（老师）Sensor2（老师）滤波器滤波器教师网1特征提取三重损失…注意力权重蒸馏&ens_cls损失集合软目标蒸馏损失视频（学生）图6.我们提出的多模态注意力蒸馏学习框架的架构我们首先在相应的模态上分别训练教师模型然后，我们使用softmax层输出的语义嵌入作为训练教师模型中相应模态的教师信息。对于softmax层，由于教师和学生共享相同的语义空间，因此域间隙的影响最小。然后，每一个语义嵌入加权的注意力层，根据输入教师模态的特征表示产生自适应权重。语义嵌入及其注意力权重被合并为一个集成的软目标蒸馏。最后，我们将多个教师的知识转移到学生网络，通过训练它与分类损失和加权集成软目标蒸馏损失。交叉主题：来自80%的受试者（受试者ID从1到16）的样本已经用于训练模型，剩余的20%用于测试。交叉视图：来自所有受试者的3个视图的样本已用于训练模型，第4个视图（图4中右上方）用于测试。跨场景：来自除了所有对象的遮挡之外的场景的样本已经用于训练模型，并且来自所有对象的遮挡场景用于测试。跨会话：按照每个对象的会话ID的升序，来自前80%会话的样本用于训练模型，剩余会话用于测试。在这些设置中，跨主题通常应用于动作分类工作，以确认不同主题的方法的现实变化。对于交叉视图，自遮挡（主体以从相机无法看到动作的方式站立）是要克服的典型挑战。在跨场景中，正常遮挡将是典型的挑战。跨会话是一个标准设置，因为没有域转移发生，例如。在训练和测试期间可使用相同的主题、视图、场景。5.2. 评价方法我们根据平均F-度量（2·精度·召回率）评估了我们的方法的性能。为了研究其有效性，我们测试了其他四种不同方法的性能，如表2所示。学生（基线）：我们的学生网络仅使用RGB模式进行训练。多教师：我们的教师网络分别使用3种类型的惯性传感器模态进行训练，并进行集成测试。SMD：使用标准知识蒸馏方法的单一模态蒸馏。加速被用作教师的模态。MMD：我们提出的无注意力机制的多模态蒸馏方法MMAD：我们提出的多模态注意力蒸馏方法。我们使用1D conv ResNet-18[11]作为我们的教师网络，使用ResNet-18的TSN作为我们的学生网络。5.3. 评价结果评价结果见表2、3和4。我们可以在表2中看到，仅具有RGB输入的学生模型已经可以在不同设置中实现约57%至70%的性能用传感器模态（加速器、陀螺仪和定向）训练和测试的多教师可以在仅视觉模态的一些挑战设置（诸如跨场景设置）中显著优于学生模型。将加速器传感器数据引入训练过程可以提高SMD模型在大多数设置中的性能，其中交叉视图设置的性能提高最显著，几乎达到4.1%。进一步增加MMD模型的模态数量，仍然可以提高性能，但不像引入MMD模型那样显著。一维转换ResNet-18TSN（RGB）MLP学习损失……关注合奏…8666表2.F-measure的动作识别结果的所有比较方法，通过使用我们的MMAct数据集。方法列车形态测试模态交叉学科截面视图交叉场景跨届会议学生（基线）RGBRGB64.4462.2157.9169.20多元教师Acc+Gyo+OriAcc+Gyo+Ori62.6768.1367.3170.53贴片[12]加速度+RGBRGB63.8966.3161.5671.23MMDAcc+Gyo+Ori+RGBRGB64.3368.1962.2372.08MMADAcc+Gyo+Ori+RGBRGB66.4570.3364.1274.58表3.提出的方法与基于视觉模态的方法进行了跨会话评估。方法查全率F测度表4.通过MMAD模型与TSN（具有RGB输入）进行组合的前5个改进操作类SVM+HOG[22]45.3147.8146.52方法卡尔·莱特Ope突出塔勒普ThroTSN（RGB）[34]68.3270.1169.20TSN（RGB）[34]11.1228.4131.5761.5348.79TSN（Optical-Flow）[34]71.8973.2772.57MMAD64.5178.6752.6381.3165.30[34]第34话75.6878.5777.09背上沉重…第一附加模态的引入。在所提出的模型MMAD中，在使用与MMD模型相同的训练和测试模式的同时，性能得到了更显著的改善。所提出的MMAD模型与RGB和传感器模态训练可以优于多教师模型与传感器模态在训练和测试中，在所有的设置下，除了跨场景，由于跨场景的预期设置强调由遮挡引起的视觉失真。结果揭示了结合身体佩戴的传感器模式，以改善人类的行动识别在野外与视觉的唯一方式。在训练过程中，通过多模态的额外支持获得的改善在各种设置下从约2%到8%不等。我们进一步评估了所提出的知识蒸馏方法，并与表3中的其他最先进的方法进行了比较，以用于跨会话设置。 SVM+HOG[22]是一种最先进的手工方法，在我们的情况下仅使用RGB模态进行训练。MMAD模型达到最高性能，仅次于使用RGB和光流（OF）作为输入的TSN。我们还研究了我们的方法与TSN（融合）作为学生的MMAD（融合）。在这种情况下，RGB和OF网络分别使用MMAD进行训练，然后，我们将训练的RGB和OF网络的结果融合，以产生MMAD（融合）方法的最终预测。这些结果进一步验证了该方法的有效性。在表4中，我们将具有RGB输入的TSN的性能与MMAD模型的性能进行了比较，该MMAD模型由最显著改进的动作类分割。随着50%以上的改善，对携带轻便行李的班级来说意义重大。加速度（手）加速度（腿）陀螺仪（腿）Ori（腿）图7.样本剪辑与其配对的传感器数据有关的行动在MMAct中，携带相关动作被设计成由携带具有相同外观但从轻到重不同重量的行李图7显示了“携带”相关动作片段及其配对传感器数据的示例在没有任何其他模态的情况下，很难区分类别“携带轻型”与其他携带动作，如携带重型行李。人移动行李的视觉输入在训练期间没有给出足够的交互信息。类似的论点也适用于open、pocket out、talk on phone等。5.4. 结论本文介绍了一种新的大规模多模态数据集MMAct的动作理解。与当前用于多模态动作理解的数据集相比，MMAct具有最多数量的模态，包括基于视觉和基于传感器的模态。我们还提出了一种新的具有注意机制的多模态蒸馏模型，该模型使输入为RGB的学生网络从由多个基于传感器的模态训练的教师网络学习有用的信息。4种不同设置下的实验结果表明，MMAct在跨视觉和传感器模态的跨模态动作理解潜力上的可用性。…ytnet在东WMMAD73.3475.6774.58MMAD（融合）77.5880.1278.828667引用[1] 杰克·K Aggarwal和Lu Xia。从3D数据中识别人类活动：综述。Pattern Recognition Letters，48：70[2] George Awad ， Asad Butt ， Keith Curtis ， YooyoungLee，Jonathan Fiscus，Afzal Godil，David Joy，AndrewDelgado ， Alan F. Smeaton ， Yvette Graham ， WesselKraaij ， Georges Qunot ， Joao Magalhaes ， DavidSemedo，and Saverio Blasi. Trecvid 2018：基准视频活动检测、视频字幕和匹配、视频故事链接和视频搜索。在TRECVID 2018会议记录中。NIST，美国，2018年。[3] 尤瑟夫·艾塔卡尔·冯德里克安东尼奥·托拉尔巴声音网络：从未标记的视频中学习声音表示.在NIPS，2016年。[4] Ling Bao和Stephen S. Intille.根据用户注释的加速度数据进行活动识别。InPervasive，2004.[5] 维多利亚·布鲁姆，迪米特里奥斯·马克里斯，还有瓦西里奥斯·阿吉里奥. G3d：游戏动作数据集和实时动作识别评估框架。在CVPR研讨会上，第7[6] 蔡紫芸、韩俊公、李六、凌少。使用微软Kinect或类似传感器的RGB-D数据集：调查。Multimedia Tools andApplications，76：4313[7] Chen Chen ， Roozbeh Jafari ， and Nasser Kehtarnavaz.Utd-mhad：一个利用深度相机和可穿戴惯性传感器进行人类动作识别的多模式数据集。在ICIP，第168-172页[8] 程仲伟、秦雷、叶一陀、黄清明、齐天。使用多视图和颜色深度数据进行人类日常行为分析。2012年，ECCV研讨会[9] Davrondzhon Gafurov ， Kirsi Helkala ， and TorkjelSøndrol.使用加速度计传感器的生物特征步态认证。JCP，1：51[10] 努诺角Garcia，Pietro Morerio，and Vittorio Murino.用于活性识别的多流网络模态蒸馏。在ECCV，2018。[11] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年[12] 杰弗里·E Hinton，Oriol Vinyals，and Jeffrey Dean.在神经网络中提取知识。CoRR，abs/1503.02531，2015。[13] 朱迪·霍夫曼，索拉布·古普塔，特雷弗·达雷尔。通过模态幻觉学习附带信息。在CVPR，第826-834页[14] Wanqing Li，Zhengyou Zhang，and Zicheng Liu.基于一袋三维点的动作识别。在CVPR Work-shops，第9-14页[15] Yanghao Li ， Cuiling Lan ， Junliang Xing ， WenjunZeng，Chunfeng Yuan，and Jiaying Liu.联合分类回归回归递归神经网络在线人体动作检测。在ECCV，2016年。[16] 伊万·里洛阿尔瓦罗·索托和胡安·卡洛斯·尼布尔斯时空可组合人类活动的区分层次模型。在CVPR，第812-819页[17] 刘春晖，胡跃宇，李阳浩，宋思杰，刘洁英. Pku-mmd：用于连续多模态人类动作理解的大规模基准。abs/1703.07475，2017年。[18] Jun Liu ， Amir Shahroudy ， Mauricio Perez ， GangWang，Ling-Yu Duan，and Alex C.科特Ntu rgb+d 120：三维人类活动理解的大规模基准。IEEE Transactions onPattern Analysis and Machine Intelligence，2019。[19] Zelun Luo，Yuliang Zou，Judy Hoffman，and Li Fei-Fei.跨领域和任务的可转移表示的高效学习。在NIPS，2017年。[20] Pradeep Natarajan ， Shuang Wu ， Shiv Naga PrasadVitalade- vuni， Xiaodan Zhuang ， Stavros Tsakalidis ，Unsang Park，Ro- hit Prasad，and Premkumar Natarajan.多模态特征融合用于网络视频中的鲁棒事件检测。在CVPR，第1298-1305页[21] Bingbing Ni ， Gang Wang ， and Pierre Moulin.Rgbd-hudaact：用于人类日常活动识别的颜色深度视频数据库。在ICCV研讨会），第1147-1153页[22] Ferda Ofli，Rizwan Chaudhry，Gregorij Kurillo，Rene'Vidal和Ruzena Bajcsy。伯克利大学：一个全面的多模态人体动作数据库。第53-60页[23] Omar Oreifej和Zicheng Liu。Hon4d：用于从深度序列识别活动的定向4d法线的直方图。在CVPR，第716-723页[24] FlorianSchroffDmitryKalenichenkoJamesPhilbinFacenet：用于人脸识别和聚类的统一嵌入在CVPR，第815-823页[25] Amir Shahroudy，Jun Liu，Tian-Tsong Ng，and GangWang.Ntu rgb+d：用于3D人类活动分析的大规模数据集。在CVPR中，第1010-1019页[26] Amir Shahroudy、Tian-Tsong Ng、Yihong Gong和GangWang。rgb+d视频中用于动作识别的IEEE Transactionson Pattern Analysis and Machine Intelligence，40：1045[27] Karen Simonyan和Andrew Zisserman双流卷积网络用于视频中的动作识别。在NIPS，2014。[28] 叶卡捷琳娜 ·H Spriggs ， Fernando De la Torre ， andMartial Hebert.第一人称感知的时间分割和活动分类。见CVPR研讨会，第17- 24页[29] 宋在永，科林·庞塞，巴特·塞尔曼，阿舒托什·萨克斯那.基于 rgbd 图像的人体活动检测。 CoRR ，abs/1107.0169，2011。[30] 宋在永，科林·庞塞，巴特·塞尔曼，阿舒托什·萨克斯那.从rgbd图像中检测非结构化人体活动。ICRA，第842-849页，2012年[31] 杜特兰Bourdev，Rob Fergus，Lorenzo Torre- sani，andMa

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

跨模态人体行为理解的研究进展

跨模态深度图像估计及其应用

跨模态行人重识别研究现状

请简述多模态学习的研究进展

预训练电力跨模态大模型研发国内外研究现状

跨模态多头注意力机制

多模态搜索和跨模态搜索的区别

跨模态行人重识别入门

基于检测，跨模态迁移之后应该干什么

行为识别的声音和图像跨模态融合难题怎么解决

音视频跨模态大数据分析国内外研究现状

跨模态迁移之后应该干什么

跨模态注意力机制和交叉注意力机制有什么区别

跨模态transformer

跨模态行人重识别rgb和ir通道数

跨模态特征融合加权公式

进行结构化的跨模态表示一致性

多模态虚假新闻检测的跨模态歧义学习

跨模态多头注意力机制原理

低秩近似与灰度着色网络应用于跨模态行人重识别

最新资源