丰田智能家居：日常生活活动的真实世界数据集

21 浏览量更新于2023-10-13 收藏 1.09MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

833Toyota Smarthome：日常生活的真实世界活动Srijan Das1，2，Rui Dai1，2，Michal Koperski1，2，Luca Minciullo3，LorenzoGarattoni3，Francois Bremond1，2和Gianpiero Francesca31Univ ersite´Cote摘要深度神经网络的性能受到注释数据的数量和质量的强烈影响。大多数大型活动识别数据集由源自网络的数据组成，其不反映日常生活活动中存在的挑战。在本文中，我们介绍了一个用于日常生活活动的大型真实世界视频数据集：丰田智能家居。该数据集由31个活动类别的16K RGB+D剪辑组成，由智能家居中的与以前的数据集不同，视频完全没有脚本。因此，数据集带来了几个挑战：高类内变化、高类不平衡、简单和复合活动以及具有相似运动和可变持续时间的活动。用粗粒度和细粒度标签注释活动这些特征将Toyota Smarthome与其他活动识别数据集区分开来。针对目前的活动识别方法无法解决丰田智能家居所带来的挑战，提出了一种基于注意机制的活动识别我们提出了一个姿势驱动的时空注意力机制，通过三维ConvNets。我们表明，我们的新方法在基准数据集以及Toyota Smarthome数据集上的性能优于最先进的方法。我们发布数据集用于研究用途1。1. 介绍最近的研究表明，识别方法的改进通常与注释数据的可用性相结合。例如，由于ImageNet [9]数据集，AlexNet和VGG架构[20，37]上的图像识别准确性可能会显着提高。类似地，用于活动识别的膨胀3D卷积网络（I3D）[4]在很大程度上受益于Kinetics [4]数据集。1https://project.inria.fr/toyotasmarthome大多数可用的活动识别数据集，如UCF101 [39]，HMDB51 [21]，Kinetics [4]，都是从视频网络服务（例如：YouTube）。这些数据集主要包含与体育、户外活动和乐器演奏有关的活动，因此会导致数据偏差。此外，这些活动具有显著的类间差异（例如：骑自行车与剑锻炼），这通常不是日常生活活动的特征。此外，大多数视频剪辑只持续几秒钟。在过去几年中提出的ADL数据集[33，46，45，40]通常使用静态相机从单视点记录。这些活动是由演员（通常是自愿的学生）在摄像机前表演的，他们事先得到了指导。结果，活动以类似的、有点不自然的方式进行最后，大多数数据集不包括复杂的复合活动，因为它们只关注短暂的原子运动。表1提供了最流行的ADL数据集的列表，概述了它们的关键特征以及上述限制。我们引入了一个新的数据集，旨在解决这些限制：丰田智能家居。丰田Smarthome，在这里-Smarthome之后，包含大约。16.1K视频剪辑，由18名受试者进行31个活动课程。该数据集的挑战的特征在于在真实世界的家庭环境中执行的活动类别的丰富多样性。数据集包含细粒度的活动（例如，用杯、瓶或罐饮用）和复合活动（例如，烹饪）。活动记录在3个不同的场景从7个摄像机的观点。现实世界的挑战包括遮挡和高类内变化。Smarthome的另一个独特特征是活动由没有接收到关于如何执行它们的任何信息的受试者执行为了解决Smarthome中的现实挑战，我们在当前高性能时空卷积网络[4]（3D ConvNet）之上提出了一种新的注意力机制。受[11]的启发，我们的方法同时使用空间和时间注意机制。我们讨论了空间和时间注意机制（而不是834图1.来自Smarthome数据集的样本帧：右上角的1-7标签分别对应于右侧公寓平面图中标记的摄像机视图1、2、3、4、5、6和7。图片来自相机视图（1）从罐中饮用，（2）从瓶中饮用，（3）从玻璃杯中饮用和（4）从杯子中饮用都是带有粗糙标签的精细活动。来自摄像机视图的图像（5）观看电视和（6）插入茶袋显示具有大的源到摄像机距离和遮挡的活动。带有相机视图的图像（7）Enter显示RGB图像和提供的3D骨架。将它们连接起来）。在我们的架构中，两个子网络独立回归的注意力权重，基于三维人体骨骼输入。所提出的注意力机制旨在解决Smarthome中存在的活动类别的多样性。一方面，具有人-物交互的活动需要空间注意来编码活动中涉及的对象的信息另一方面，具有时间动态的活动，例如坐或站起来，需要时间注意力集中在表征运动的关键帧上。所提出的方法在Smarthome和两个公共数据集上实现了最先进的结果：大规模NTU-RGB+D [33]和人-物体交互数据集- Northwestern-UCLA [46]。2. 相关工作在本节中，我们简要回顾了公开可用的日常生活活动数据集和最先进的活动识别算法，重点关注注意力机制。2.1. ADL真实世界数据集为了在现实世界的网站上部署活动识别算法，对复制现实世界挑战的视频进行验证至关重要。为了更好地理解当前可用数据集的局限性，我们确定了一组指标，这些数据集中的每一个如何解决主要的现实世界挑战。Context：上下文是视频的背景信息。一些活动数据集具有丰富的上下文信息（上下文偏向）。在某些情况下，上下文信息是如此丰富，以至于它是它本身足以识别活动。例如，在UCF和动力学中，处理人类周围的帧的部分通常足以识别活动。另一方面，在具有相似背景（无上下文）的环境中记录的数据集中，上下文信息较低，因此不能单独用于活动识别。例如，对于室内记录的数据集（如Smarthome和NTU RGB+D），情况就是如此[33]。自发行为：这表明受试者是否倾向于夸大遵循指导脚本的运动（低自发行为）。受试者以松散的脚本自由行动，倾向于以自然的方式自发地进行活动（高自发行为）。摄像机取景：这描述了视频是如何被记录的。互联网视频由摄像师记录（高相机取景），并且因此捕获执行集中在视频内并且面向相机的活动的主体。与此相反，具有固定相机（低相机取景）的真实世界视频跨视图挑战：在现实世界应用中，场景可以从多个角度记录。由于活动可以从不同角度看起来不同，因此活动识别算法应该对多视图场景具有鲁棒性。因此，我们指出哪些数据集构成交叉视图挑战。持续时间的变化：活动的持续时间可能会有很大的变化，无论是类间和类内。持续时间的高变化更具挑战性并且更能代表现实世界。我们将高持续时间变化分配给视频样本长度变化超过1分钟的数据集;低持续时间变化835表1.对比研究突出了现实世界设置数据集的挑战数据集上下文持续时间变化交叉视图挑战复合活动视图类型自发代理相机成帧细粒度活动类型ACTEV/VIRAT [7]免费有偏的自由介质低高低是的否否是是没有否是否是监测拍摄自我中心拍摄监控拍摄监控拍摄介质高中低低高中高没有否否否否是是是否否否是监控体育YoutubeYoutube电影厨房对象交互烹饪厨房对象交互ADLADL上海大众[32]HMDB [21]动力学[4]AVA [15]EPIC-KITCHENS [6][14]第十四话MPII烹饪2 [31]大丽花[42][46]第四十六话[33]第十三话猜谜[35]SmartHome免费高是的是的监测高低是的ADL否则，请执行以下操作。复合活动：一些复杂的活动可以拆分为子活动（例如烹饪由切割、搅拌、使用炉子等组成）。此指示器仅说明数据集是否包含复合活动及其子活动。细粒度活动：对于实际应用程序，通常需要识别粗粒度和细粒度活动。例如，饮酒是一种粗糙的活动，其中涉及到的物体的细粒度细节，例如罐，杯子或瓶子。表1显示了基于上述指标的公开可用的真实世界活动数据集的比较。ADL通常在室内进行，导致低上下文信息。NTU-RGB+D [33]是ADL的最大数据集之一，包括具有多视图设置的超过55 K个样本。然而，NTU-RGB+D是在实验室房间中记录的，并且活动由具有严格指导的行为者执行。这导致引导活动和演员面对摄像机。MPIICooking 2 [31]是针对装备的厨房中的烹饪食谱记录的ADL数据集。该数据集有8个摄像机视图，具有复合活动。该数据集集中在一个烹饪场所，从而限制了空间背景和活动类别的多样性字谜[35]和某事-某事[14]被数百人在自己的家中用非常细粒度的活动标签记录下来然而，自记录活动非常短（10秒/活动），通常不自然，并且总是面对相机执行。因此，当前ADL数据集仅部分地解决了现实世界场景的挑战。这促使我们提出Smarthome：在半受控环境和真实世界设置中记录的数据集。在这里，我们总结了Smarthome的主要特点：（1）数据集记录在使用7个Kinect传感器监控的真实公寓[49]3个场景：餐厅、客厅和厨房（2）受试者被记录了一整天，在此期间，他们在没有任何脚本的情况下进行典型的日常活动（3）活动持续时间的范围从几秒到几分钟。(4)由于相机位置是固定的，因此相机到主体的距离在视频之间变化很大。（五）子活动标签可用于复合活动，例如烹饪、煮咖啡等。我们的注释包括细粒度标签以及使用不同对象执行的粗活动（例如，从杯中喝，从罐中喝，从瓶中喝）。2.2. ADL识别方法已经针对ADL数据集提出了各种各样的算法。很长一段时间以来，活动识别主要是使用局部特征的方法，如密集轨迹[43，44]，结合Fisher矢量编码[27]。这些方法在小数据集上简单有效。为了处理大型数据集，研究人员通常将局部特征与从卷积网络中学习到的特征连接起来[5，36，10]。这些用于活动识别的流行深度学习方法（例如双流ConvNets [36]）的一个共同问题是难以编码长距离时间信息。作为一种可能的解决方案，Donahue et al.在[10]中，从CNN网络中提取空间特征后来的研究表明，即使在提供大型和稀疏的CNN特征时，顺序网络也无法学习时间动态[8]。因此，序列网络通常被馈送3D姿势信息[48，33]以模拟执行活动的受试者的身体动力学。然而，3D姿态信息本身不足以对诸如活动中涉及的对象的上下文信息进行编码。时空卷积运算[41]已用于大规模互联网视频的活动识别。这些时空操作是从2D内核（I3D）中膨胀出来的，在ImageNet [9]和Kinetics [4]上进行了预训练，以高精度识别各种活动[4，12]。然而，这样的3DconvNet不利用视频的显著部分。最近，深度网络上的注意力机制，如LSTM [38，23]和I3D [47]，已经产生了性能改进。注意机制集中在场景中相对于目标活动的显著部分。注意力机制在活动识别社区中得到了普及。836nity [38，1，3]. Sharma等人[34]提出了一种关于RGB数据的注意力机制，其中空间注意力权重被分配给从CNN提取的卷积特征图的不同部分。Liu等人[38]和Baradel等人[1]将上述注意力机制扩展到3D关节坐标或RGB手部贴片上的空间和时间注意力。这里，姿势驱动的空间注意力选择性地集中在相关的关节或RGB块上，而时间注意力集中在关键帧上。所有这些方法[1，38，3，2]都使用时空注意力来优化RNN计算的特征。如前所述，3D Con-vNet的有效性w.r.t. RNN启发我们使用3D ConvNets来实现时空注意力机制。最近，已经提出了一些使用高级I3D特征的方法[15，13]。时空卷积由对象检测引导，以便聚焦于图像的显著部分。在[47]中，作者提出了一个在I3D之上的模块，该模块将每个像素的注意力计算为沿时空体积的所有像素的特征的加权和。但是，这个模块极其依赖于活动的外观，即，空间-时间体积内的像素位置。因此，它不能识别具有相似外观和低运动的活动。因此，需要对特征图的显著部分进行软加权的更鲁棒且一般的注意力机制。为此，我们提出了一种新的可分离的时空注意机制3. Toyota Smarthome数据集Toyota Smarthome是一个视频数据集，在一个配备了7个Kinect v1摄像头的公寓中录制。它包含31项日常生活活动和18个主题。受试者是60-80岁的老年人，他们知道录音，但不知道研究的目的。每例受试者从上午开始记录8小时，为了确保活动的公正性，没有向受试者提供脚本。对获得的视频进行分析，并注释了31种不同的活动。每个活动都对视频进行了剪辑，总共产生了16，115个视频样本。了数据集分辨率为640×480，提供3种模式：RGB +深度+3D骨架。提取三维骨骼关节从RGB使用LCR-Net [30]。出于保护隐私的原因，使用微小面部检测方法对受试者的面部进行模糊处理[18]。挑战该数据集涵盖了识别自然和多样化活动的挑战。首先，由于受试者没有遵循脚本，而是进行典型的日常活动，因此不同活动的样本数量为不平衡（图）2）的情况。第二，摄像机到主体的距离在视频之间变化很大，并且有时主体被遮挡。第三，数据集包含丰富的图2.Smarthome中每个活动的视频剪辑数量以及不同摄像头视图之间的相对分布。C1至C7表示7个摄像机视图。所有活动类都有多个摄影机视图，范围从2到7。不同复杂程度的活动。子活动标签可用于复合活动，例如烹饪、煮咖啡等。第四，当使用不同的对象（例如，从杯子、罐子或瓶子中喝饮料）执行时，为粗活动分配细粒度标签最后，活动的持续时间差别很大：从几秒钟（例如，坐下）到几分钟（例如，看书或洗碗）。所有这些挑战使得识别Smarthome中的活动成为一项艰巨的任务。图1给出了数据集的可视化概览。3.1. 评估协议我们定义了两个协议用于Smarthome上的活动分类评估：交叉主题和交叉视角。对于每个标准，我们报告平均每类准确度。跨学科评估在跨学科（CS）评估中，我们将18名受试者分为训练组和测试组。为了平衡训练和测试中的每个活动类别的视频数量，训练组由11名ID受试者组成：三四六七九十二十三十五十七十九二十五其余7名受试者保留用于测试。交叉视图评估对于交叉视图评估，我们提出了两个协议，CV1和CV2，包含19个活动2。两种方案都使用摄像机2进行测试，并且使用摄像机2进行测试。2某些活动无法包括在内，因为它们未出现在所考虑的摄像机中。837R5、验证。对于CV1，我们选取相机1的所有样本进行训练。摄像机1和摄像机2都记录在餐厅中，具有从两个不同视点在同一场景中执行的活动。该协议还允许我们验证识别系统的泛化，因为它提供了一个较小的，高度不平衡的训练集。对于CV2，我们从所有相机中获取样本：相机1、3、4、6、7用于训练集。我们仅选择CV1方案中提到的19种活性的样品。4. 该方法输入剪辑骨架输入I3D基础骨架输入为了解决ADL识别挑战，我们在3D ConvNets之上引入了新的姿势驱动注意力机制人体活动的空间和时间显著性可以从姿势动态的时间序列表示中提取，姿势动态由人体的3D关节坐标描述。4.1. 视频的时空表示我们的模型的输入是连续作物的人体沿视频和他们的3D姿态信息。我们专注于从3D ConvNet，这是一个4维特征图的时空表示的相关区域从视频V的64个人类裁剪帧的输入开始，时空表示g是从3D ConvNet I3D的中间层提取的特征图[4]。我们使用的中间层是I3D的全局平均池化（GAP）之前的层。的g的所得维数是t×m×n×c，其中t是时间，m×n是空间分辨率，c是通道。我们定义两个独立的网络分支，一个用于空间而一个用于时间注意（参见图2）。（3）第三章。这些分支将相应的注意力机制应用于输入特征图g，并输出调制的特征图g，s（用于空间注意力）和g，t（用于时间注意力）。gs和gt由GAP层处理，然后级联。最后，根据连接的通过1×1×1卷积运算，然后是softmax激活函数来生成特征映射4.2. 可分离时空注意力在本节中，我们详细阐述了我们的姿势驱动的时空注意力机制，如图1B所示。4.对于时空3D ConvNet特征来说，耦合空间和时间注意力是困难的，因为空间注意力应该集中在图像的重要部分上，并且时间注意力应该集中在视频的相关片段图3.提出端到端可分离时空注意力网络网络的输入是RGB视频的人体轨迹及其3D姿态。这两个独立的分支分别用于空间和时间注意，最后将这两个分支结合起来对活动进行分类。为了更好的可视化，通道的尺寸c在特征图中被抑制。图4.姿态驱动的RNN注意力模型的详细图片，该模型采用3D姿态输入，并计算来自I3D的t×m×n×c时空特征的m×n空间和t我们使用3D骨架姿势来计算时空注意力权重。注意力网络的输入是由RNN在3D姿态上计算的特征向量。该RNN是在用于活动分类的3D关节坐标输入是每个骨架的J个关节的全集，其中关节坐标的形式为X =（X1，… xj），其中xj∈ R3.注意网络由两个完全分离的具有双曲正切压缩的连接层，随后是分别计算空间和时间注意力分数S1和S2的全连接层（参见图2）。4）. 分数s1和s2表示卷积特征图g的元素沿空间和时间的重要性。这些分数s r（即， s1和s2（对于r = 1，2）可以被公式化为：由于这些过程是不同的，我们的想法是解离sr=Ws tanh（Wh h*+bh）+bs（一）他们我们学习两个不同的注意力集，一个用于空间权重，一个用于时间权重。这些权重与特征图g线性相乘，以输出调制后的特征图gs和gt。R rRrr其中Wsr、Whr是可学习参数，bsr、bhr是偏差。h*是来自堆叠LSTM的所有时间步的级联隐藏状态向量��×间隙��×�� ×�� ×��X1x1x1conv卷积特征XI3D地图间隙时间注意力权重可分离时空注意模块可分离时空注意模块Softmax预测838Σ一空间（α）和时间（β= α）的注意力权重{β1，β2，…β t}）域中的值是从得分S1计算的并且S2为：RGB+D数据集[33]和西北-UCLA多视图活动3D数据集[46]。NTU RGB+D数据集（NTU）-NTU数据集是ac-D数据集。使用Kinect v2摄像头拍摄，包含56880个视频α=σ（Wσs1+b ）;βexp（s2，k）=（二）样本有60个活动类别。这些活动是根据-σ kt i=1exp（s2，i）由40个主题组成，从80个视角记录其中 s2={s2 ， 1， s2 ， 2，…S2 ， t}由等式 1 获得。使用softmax对大量的m×n空间注意力权重进行归一化会产生极低的值，这会妨碍它们的效果。为了避免这种情况，我们使用sig-moid激活[38]。该注意力权重对卷积特征映射g的m×n个空间元素起到软选择的作用。最后，具有空间和时间注意力的调制特征图（gsgt）计算为g s=reshape （ α ） g;g t=reshape （ β ） g（三）其中，执行reshape（x）操作以变换x以匹配特征图G的维度。注意力模型与3D ConvNet联合训练。4.3. 联合训练注意力网络和3D ConvNet与现有的用于活动分类的注意力网络不同[38，1]，联合训练可分离的时空注意力网络和3D ConvNet相对简单。训练阶段涉及在没有用于活动分类的注意分支的情况下微调3D ConvNet然后，注意力网络与预训练的3D ConvNet联合训练这确保了更快的收敛，如[3]中所示。3D ConvNet连同注意力网络一起被端到端地训练，其中正则化交叉熵损失L被公式化为mΣ×n¨ ¨Σt对于每个帧，数据集提供帧中每个主体的RGB，深度和25关节骨架[33]。我们使用[33]中提出的两个分离方案对NTU进行实验：交叉主题（CS）和交叉视图（CV）。Northwestern-UCLA多视图活动3D数据集（NUCLA）-NUCLA数据集由三台Kinect v1摄像机同时采集。该数据集由1194个视频样本和10个活动类组成。活动由10名受试者进行，并从三个角度进行记录作为NTU，数据集提供RGB、深度和每个帧中主体的人体骨架。我们使用[46]中提出的交叉视图（CV）协议在NUCLA上进行实验：我们在来自两个相机视图的样本上训练我们的模型例如，符号V3表示我们对来自视图1和2的样本进行训练，并对来自视图3的样本进行测试5.2. 实现细节训练 - 对于可分离的时空注意力模型，我们从Kinetics-400分类模型初始化I3 D基础网络。用于在人体跟踪轨迹上训练I3D的数据增强和训练程序[4]。为了训练姿势驱动的注意力模型，我们使用三层堆叠的LSTM。每个LSTM层由512、512和128个LSTM单元组成L=LC+λ1j=1j+λ2j=1（1−βj）2（4）分别为Smarthome、NTU和NUCLA似-对于[33]，我们将视频剪辑成30（Smarthome），20（NTU）和5（NUCLA）帧的子序列，然后其中Lc是C个活动标记的交叉熵损失λ1和λ2是正则化参数。第一正则化项用于用l2范数正则化学习的空间注意力权重α第二正则化项迫使模型关注特征图中的所有段，因为它倾向于忽略时间维度中的一些段，尽管它们有助于建模活动。因此，我们采用罚分βj≈1。5. 实验5.1. 其他数据集和设置与Smarthome一起，我们在两个流行的人类活动识别数据集上进行了实验：NTU输入到LSTM的样本子序列我们使用50%的dropout来避免过拟合。我们将所有数据集的λ1λ2为了训练整个网络，我们使用Adam Optimizer [19]，初始学习率设置为0.001。我们在4个GPU上使用大小为16的小批处理我们对初始训练集的10%进行采样，并将其仅用于验证，特别是用于超参数优化和早期停止。为了训练NUCLA的I3D基础网络，我们使用NTU预训练的I3D，然后在NUCLA上进行微调。测试-每个测试视频被处理3次，以提取人为中心的裁剪和人边界框周围的两个角裁剪。这是为了涵盖细节的活动，如[12]。通过对softmax得分求平均值来获得最终预测8395.3. 比较研究表2 - 3表明，我们的模型在NTU和NUCLA上都达到了最先进的结果。我们认为PEM [25]的结果与我们的注意力机制所获得的结果接近，它使用了姿势估计的显着性图。然而，这些显着性图在遮挡的情况下可能是嘈杂的，遮挡经常发生在Smarthome以及大多数现实世界的场景中。相反，我们的注意力机制从姿势计算注意力权重，并且分类最终依赖于外观线索。我们的注意力机制通过专注于人与人的交互和人与物体的交互，显着改善了这些数据集上的结果，特别是在NTU上。一个重要的要求是大量训练样本的可用性，这是NUCLA中的一个问题。由于这个原因，我们的注意力机制对NU-CLA的改善不太显著。Smarthome由非常多样化的活动视频组成，这些活动可以与对象进行交互或不进行交互。现有的最先进的方法无法解决Smarthome带来的所有挑战（参见表4）。密集轨迹（DT）[43]对于具有相对较高运动的动作获得了竞争性结果。然而，密集轨迹是基于局部运动的特征，因此无法用细粒度的细节来建模动作，并且无法在识别活动中结合LSTM被馈送有信息3D关节，基于执行活动的主体的身体动力学对粗略活动进行建模，但由于缺乏对象编码而无法区分细粒度活动。最近的膨胀卷积[4]与RNN相比有了显着的改进。作为与我们提出的时空注意力方法的比较基线，我们在I3D之上插入了非本地模块[47]。Smarthome中沿时空的非局部行为不是视图不变的，因为它的注意机制依赖于外观。相反，我们提出的注意力机制是由3D姿态信息指导的，这是视图不变的。我们的可分离STA的跨视图协议的显着改善，显示其视图不变的性质相比，现有的方法。在图5中，我们提供了一些视觉示例，其中我们提出的方法优于I3D（没有注意）。5.4. 注意机制的其他策略表5评价了实施拟议注意机制的其他战略。在这些策略中，我们包括了单一注意机制（空间或时间）的实施以及将它们结合起来的所有不同方法。研究中包括的策略是：I3 D基础网络-工作时（1）没有注意力（No Att）;（2）只有m×n维空间注意力（SA）;（3）只有t维速度-（4）SA后应用的时间注意图5.可分离STA正确区分具有细粒度细节的活动。没有注意力的模型（I3D）被图像中的冒名顶替者对象（显示在红色框中）误导，而我们提出的可分离STA设法专注于感兴趣的对象（显示在绿色框中）。(SA（5）TA后空间注意（TA+SA）;（6）m×n×t时空注意力一次性从姿态驱动模型（联合STA）出发。对于SA+TA和TA+SA的实现，我们采用[38]中提出的联合训练机制。我们提出的可分离STA比其他所有策略都要好。有趣的是，与RNN不同[38，1，2]，3D ConvNets中的空间和时间注意力耦合降低了分类准确性。其原因可以从SA和TA分别在不同数据集上实现的分类准确度看出在Smarthome和NUCLA中，空间注意力比时间注意力更有效，因为两个数据集的几个活动都涉及与对象的交互。另一方面，NTU包含具有实质性运动（诸如踢、打）和人-物体交互的活动。因此，空间和时间的关注有助于提高分类精度。然而，一旦第一关注已经修改了I3D特征图，则第二关注显著修改I3D特征图的可能性是有限的。因此，我们认为，将两种注意机制分开比将它们串联起来更有效。5.5. 消融研究图6比较了具有或不具有可分离STA的I3D基础网络。比较基于Smarthome和NTU-CS（跨学科协议）的每类准确度。我们的可分离STA将I3D的准确性在Smarthome 上平均提高了 4.7% ，在 NTU 上提高了6.7%。对于Smarthome来说，空间注意力本身就有助于大幅改善，因为它能够识别涉及与对象交互的细粒度活动，例如CS的Pour.fromkettle（+21.4%）和CV的Uselaptop（+13.4%），Eat.snack（42.8%）。时间注意力改善了低运动和高运动活动的分类。这方面的例子是静态活动，如CS的WatchTV（+8.8%）和CV的Readbook （ +9.6% ） ; 和动态活动，如坐下（+22.2%）。对于NTU-CS，对于刷牙观察到最大的准确性增益8401 2、表2. NTU RGB+D数据集上的结果，具有交叉主题（CS）和交叉视图（CV）设置（精度%）; Att表示注意机制，◦表示模态已表4. 表3中的平均每类准确度（%）。Northwestern-UCLA Multiview ac-Smarthome数据集（具有交叉受试者（CS））和交叉性3D数据集（具有交叉视图V3设置以及视图（CV1&CV2）设置）的结果。注意，这里姿态指示输入数据模态（以%为单位的准确度）;使用LCRNET从RGB中提取姿势[30]。Att表示仅用于训练。方法姿势RGB AttCSCV仅在培训阶段使用。方法数据属性V3注意机制方法姿势RGBCSCV1CV2一、二STA-LSTM [38]TS-LSTM [22]C××CC×73.274.681.281.3HPM+TM [29]HBRNN [17]深度构成××91.978.5DT[43]×C41.9 20.9二十三点七LSTM[26]42.5 13.4十七点二VA-LSTM [48]C××79.487.6view-invariant [24]构成× 86.1I3D[4]×C53.4 34.9四十五点一I3D+NL[47]×C53.6 34.3四十三点九STA-Hands [1]CCC82.588.6Ensemble TS-LSTM [22]构成× 89.2可分离STACC54.235.250.3修改STA-Hands [2]CCC84.890.6nCTE [16]RGB× 75.8Glimpse Cloud [3]◦CC86.693.2NKTM [28]RGB× 85.6PEM[25]CCC 91.7 95.2Glimpse Cloud [3]RGB+ Pose C90.1可分离STAC C C92.294.6可分离STARGB+姿态C92.4表5. NTU，NUCLA和Smarthome数据集上的活动分类准确度（%），以显示我们提出的可分离时空注意力机制（可分离STA）与其他策略相比的有效性无属性表示无关注。注：为了进行公平比较，我们计算了Smarthome的平均样本准确度。数据集编号属性 SATASA+TATA+SA联合可分离STA STA5.6. 运行时在CS设置下，在Smarthome上的4个GTX 1080 TiGPU上，端到端训练可分离STA模型需要5小时。使用RGB人类作物和具有3D姿势的堆叠LSTM对I3D基础网络进行预训练分别需要21小时和2小时。在测试时，视频的单个前向传递在4个GPU上需要338ms。纽克拉85.59079.374.674.387.992.56. 结论Smarthome-CS7273.170.371.270.471.775.3智能家居-CV156.660.34341.940.955.761本文在分析了现有文献的基础上，我们推出了Toyota Smarthome，a智能家居-CV261.666.45758.356.661.9六十八点二图6.当使用可分离STA和I3 D时，Smarthome和NTU-CS上的每类精度提高。对于Smarthome，我们分别为CS，CV1和CV2提供了前10，前5和前5个类（完整的混淆矩阵见补充材料）。对于NTU-CS，我们提出了10个最好和10个最差的类。头发（+28.2%）、脱鞋（+23.3%）及双手交叉放在胸前（+20.6%）。这些活动中的区别特征在空间和时间上都是局部的即使对于我们的可分离STA比单独的I3D表现更差的那些类别，准确度下降也非常有限。这是一个数据集，对ADL识别提出了几个现实世界的挑战。为了解决这些问题，我们提出了一种新的可分离的时空注意力模型。该模型在Smarthome和其他公共数据集上的表现优于最先进的方法。我们的比较研究表明，与其他数据集相比，所有测试方法在Smarthome上的准确率都较低。我们认为，这种性能差异是由于Smarthome提供的现实世界的挑战。出于这个原因，我们将丰田Smarthome重新出租给研究界。要了解更多关于Toyota Smarthome数据集的信息，请访问项目网站3。作为未来的工作，我们计划整合的额外挑战，识别活动的未修剪的视频流。这将对应于 ToyotaSmarthome数据集的新版本。确认作者感谢Sophia Antipolis - Mediter- ranean引用[1] Fabien Baradel Christian Wolf和Julien Mille 人的动作识别：基于姿势的注意力将注意力吸引到手。在2017年IEEE国际计算机视觉研讨会上，第604-613页[2] Fabien Baradel Christian Wolf和Julien Mille基于姿态驱动的rgb关注度的人体活动识别在3https://project.inria.fr/toyotasmarthomeNTU-CS85.590.590.8899090.392.2NTU-CV87.393.791.292.492.692.594.6841英国机器视觉会议（BMVC），2018年9月。[3] Fabien Baradel、Christian Wolf、Julien Mille和GrahamW.Taylor.一瞥云彩：从非结构化特征点识别人体活动。在IEEE计算机视觉和模式识别会议（CVPR），2018年6月。[4] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在2017年IEEE计算机视觉和模式识别会议，第4724-4733页。IEEE，2017年。[5] Guilhem Cheron 、 Ivan Laptev 和 Cordelia Schmid 。 P-cnn：用于动作识别的基于姿势的cnn特征。在ICCV，2015年。[6] DimaDamen 、 HazelDoughty 、 GiovanniMariaFarinella 、 Sanja Fidler 、 Antonino Furnari 、 EvangelosKazakos、Da- vide Moltisanti、Jonathan Munro、TobyPerrett、Will Price和Michael Wray。扩展以自我为中心的愿景： EPIC-KITCHENS 数据集。 CoRR ，abs/1804.02748，2018。[7] DARPA和Kitware Virat视频数据集。http：//www.viratdata.org/的网站。2月访问2019年28日。[8] SrijanDas，MichalKoperski，FranoisBre' mond，andGian-pieroFrancesca.用于日常生活动作识别的深时间lstm。2018 年第 15 届 IEEE 高级视频和基于信号的监控（AVSS）国际会议，第1-6页[9] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. ImageNet：一个大规模的分层图像数据库。2009年CVPR09中[10] JeffreyDonahue 、 LisaAnneHendricks 、 SergioGuadarrama、MarcusRohrbach、SubhashiniVenugopalan、Kate Saenko和Trevor Darrell。用于视觉识别和描述的长期递归卷积网络。IEEE计算机视觉与模式识别会议（CVPR），2015年6月。[11] 弗德里克·福格拉斯和莱昂内尔·纳卡切。将时间注意力与空间注意力和运动反应准备分离：高密度脑电图研究。NeuroImage，124：947[12] Christoph Feichtenhofer ， Haoqi Fan ， Jitendra Malik ，and Kaiming He.用于视频识别的慢速网络。CoRR，abs/1812.03982，2018。[13] RohitGirdhar，JoaoCarreira，CarlDoersch，andAndrewZisserman. 视频行动 Transformer 网络。CoRR，abs/1812.02707，2018。[14] Raghav Goyal，Samira Ebrahimi Kahou，Vincent Michal-ski ， Joanna Materzynska ， Susanne Westphal ， HeunaKim ， ValentinHaenel ， IngoFründ ， PeterYianilos ，MoritzMueller-Freitag ， FlorianHoppe ， ChristianThurau，Ingo Bax，and Roland Memisevic.学习和评估视觉常识的 “ 某事某事 ” 视频数据库。 CoRR ，abs/1706.04261，2017。[15] 顾春晖，孙晨， David A.Ross ， Carl Von- drick ，Caroline Pantofaru ， Yeqing Li ， Sudheendra Vijaya-narasimhan ， George Toderici ， Susanna Ricco ， RahulSuk- thankar ， Cordelia Schmid ， and Jitendra Malik.Ava：一个时空局部原子视觉的视频数据集行动计算机视觉和模式识别会议，2018年。[16] 放大图片作者：James J.作者声明：Robert J.用于通过非线性循环时间编码的跨视图动作识别的来自运动的3D姿态在2014年IEEE计算机视觉和模式识别会议，第2601-2608页[17] 胡建方，郑伟世，赖建煌，张建国。联合学习rgb-d活动识别的异构特征。 IEEE Transactions on PatternAnalysis and Machine Intelligence，39（11）：2186[18] Peiyun Hu和Deva Ramanan寻找小脸在IEEE计算机视觉和模式识别

下载后可阅读完整内容，剩余1页未读，立即下载