没有合适的资源?快使用搜索试试~ 我知道了~
1使用自我中心多模态信号中村克之2杨小威1AlexandreAlahi1李飞飞1斯坦福大学2日立制作所katsuyuki.nakamura. hitachi.com,alahi@stanford.edu,{serena,feifeili}@ cs.stanford.edu摘要诸如心率的生理信号可以提供关于个体的状态和活动的有价值的信息。然而,计算机视觉的现有工作尚未探索利用这些信号来增强自我中心的视频理解。在这项工作中,我们提出了一个模型的推理多模态数据,共同预测活动和能源支出。我们使用心率信号作为特权自我监督,以获得训练阶段的能量消耗。一个多任务目标是用来共同优化这两个任务。此外,我们还介绍了一个数据集,其中包含31小时的以自我为中心的视频,并添加了心率和加速度信号。这项研究可能会导致新的应用,如视觉卡路里计数器。1. 介绍诸如心率监测器和加速度计之类的可穿戴传感器作为跟踪身体活动和能量消耗的方式而被广泛使用。为了尽可能准确地检测活动,这些传感器被用于许多组合和配置中,并且它们被连接到从胸部到手腕和脚的身体部位。最近,以自我为中心的第一人称相机作为可穿戴传感器的新模态已经流行起来。视觉数据中的活动识别是计算机视觉中广泛研究的问题[22,63,35,2],并且许多作品已经在自我中心视频[48,8,5,30]领域以及与其他可穿戴设备相结合的领域中研究了该任务。传感器[59,44]。然而,计算机视觉算法单独用于能量消耗监测的有效程度仍然是一个悬而未决的问题。我们还想了解有多少相关信息仍然需要其他传感器模式,以及这些其他信号应该如何与视觉最好地融合。开创性的作品[59,44]显示这项工作是在中村克行(Katsuyuki Nakamura)在斯坦福大学做访问学者时完成的能量消耗坐姿任务步行自行车运行加速度图1.以自我为中心的视频增强了心率和加速度信号,使我们能够进一步了解活动和能量消耗。惯性测量单元、音频和加速度计传感器的系统可以在室内设置中仅改善自我中心相机的活动分割和识别然而,这些作品是基于相对简单的视觉特征,如Gist和颜色直方图。然而,他们没有解决能量消耗或生理心率信号的原因。在这项工作中,我们提出了一个多模态活动检测和能量消耗估计的定量研究,使用以自我为中心的相机数据结合生理心率数据和加速度计数据。具体来说,我们对两种最受商业欢迎的可穿戴传感器的真实用例和交互进行了建模:自我中心照相机和心率监视器(其通常另外包含加速计)。给定一个视频帧和加速度信号,我们展示了如何输出对应于每帧的活动我们提出了一个基于递归神经网络的多模态活动检测和能量消耗估计模型,并分析了不同信号的贡献。我们使用心率信号作为特权的自我监督,18681869在训练阶段减少能量消耗由于我们不知道有任何可用的数据集扩展了以自我为中心的视频与生理数据,我们引入了一个以自我为中心的多模态数据集,其中包含31小时的以自我为中心的视频,心率和自由生活设置下的加速度计数据(图1)。2. 相关工作有一个重要的工作机构对自我中心的愿景。最近的调查可以在[48,8,5,30]中找到,这些调查涉及各种任务,如活动识别,对象识别和视频摘要。在这里,我们专注于使用以自我为中心的视频和可穿戴传感器的活动识别。自我中心活动识别自我中心活动识别的工作通常采用以下三种方法之一:基于运动的、基于对象的和混合的方法。基于运动的方法[33,51,55,68,57]假设每个活动都创建了连贯的运动模式。Kitani等人。 [33]使用Dirichlet过程介绍了无监督的自我行动分解。Poleg等人。 [51]提出使用累积运动对自我行为进行分类。基于对象的方法[23,20,17,36,21,12]依赖于视频序列中出现的对象。该设置特别适合于检测日常生活活动(ADL)。[23,20]的原因在家庭对象的状态变化,和[17,54]的原因关于人的对象相互作用。添加中等水平的线索,如面部,凝视和手也被研究[37,19,18,49,6]。混合方法[43,38,56]利用对象和运动信息。然而,这些工作中的大多数都没有解决不同环境中的数据集,而是专注于单一的约束环境,例如,厨房、房屋和实验室。相比之下,我们提出了一个数据集和模型,它解决了在未经修剪(长达数小时)的以自我为中心的视频中的活动检测问题,这些视频来自不同的自然环境,包括室内和室外。基于传感器的活动识别许多工作已经使用非视觉可穿戴传感器进行活动识别,包括加速度计和心率传感器[16,9,47]。Bao等人 [7]使用臀部、手腕、手臂、脚踝和大腿上的多个加速度计对日常家庭活动进行了20类分类。Abdullah等人 [1]将智能手机加速度计与众包相结合,以扩展活动检测。一些作品还将身体传感器与以自我为中心的相机结合起来。 Alahi等人 [4]将摄像头与无线信号相结合,以3D方式定位人类。Spriggs等人。 [59]使用以自我为中心的摄像头,惯性测量单元(IMU)和其他传感器对29类厨房活动进行分类。Maekawa等人 [44]使用 一个腕戴式摄像头和传感器,ADL识别。然而,许多这些作品使用复杂的传感器系统,这是不切实际的广泛使用。此外,他们没有探索视觉,心率和加速度信息的组合,这些信息现在通常与流行的商业设备一起使用。在这项工作中,我们使用智能手机和手腕佩戴的心率监测器构建了一个自然感知系统。我们提供了一个公开的数据集,以自我为中心的视频增强与心率和加速度计信号,我们investi-门融合这些信号的活动检测和能量消耗估计。RecurrentNeuralNetworksforActivityRecognitionDonahue et al. [15]介绍了用于视频活动识别的递归卷积神经网络。 Yeung等人使用基于递归神经网络的模型进行密集活动识别[66]和帧一瞥的动作检测[67]。Haque等人。 [24]使用循环注意力模型(RAM)来重新识别人类。[65,32]使用递归网络用于单三轴加速度计数据,[41]用于心率控制器,[50]用于多模式可穿戴传感器。据我们所知,我们的工作是第一个研究多模态自我中心视频和生理传感器数据的递归神经网络的性能能量消耗估算能量消耗估算的最可靠方法被认为是直接量热法,它测量二氧化碳的产生然而,这种方法非常不方便。作为替代,加速度和心率的测量被广泛使用[39],例如,多个加速度计[40,45,11],心率[10],根据心率和氧摄取关系的间接估计[34],以及心率与加速度的组合[16]。然而,还没有探索从视觉数据估计能量唯一的工作报告估计心率从头戴式可穿戴相机和传感器[26,27]。在我们的工作中,我们表明,以自我为中心的视频数据的推理可以是一个有效的估计下的自由生活设置的能量消耗。3. Stanford-ECM数据集心率等生理数据通常用于评估身体活动和能量消耗。然而,我们并不知道现有的数据集支持以自我为中心的视频与生理传感器增强的研究。表1显示了现有的以自我为中心的视频数据集的比较CMU-MMAC数据集[59]是唯一一个使用可穿戴传感器增强视频的数据集,但它们不提供心率数据。因此,我们引入了一个新的数据集,称为自我中心多模态数据集(Stanford-ECM),它包括1870数据集受试者数量剪辑数量小时数#类决议山视频ACC HR场景任务迪士尼世界[18]811342.061280×720头C--游乐活动CMU-MMAC [59]3917517.029800×600头CC-厨房活动[36,42]4417.0-480×320头C--自然总结[51]第五十一话34410.5-1280×720头C--自然活动[23]第二十三话202010.0181280×720胸部C--房子活动[19]第十九话5309.0441280×960头C--厨房活动[49]第四十九话201226.523640×360头部/腕部C--房子活动[53]第五十三话2102.0-1024×768头C--室内对象[第12话]5581.5-640×480头C--室内对象[19]第十九话14171.040640×480头C--厨房活动GTEA [21]4280.6711280×720头C--厨房活动[33]第三十三话120.537840×480头C--室内活动JPL-互动[54]1620.47320×240头C--室内活动PAMAP 2 [52]9------CC--Stanf ord-ECM(我们的)1011331.024720×1280胸部CCC自然活动表1.与现有的自我中心数据集的比较ECM是唯一包含视频、加速度计和心率信号的数据集31小时以自我为中心的视频,增强了心率和加速度数据。我们用时间活动注释和能量消耗标记数据,特别是任务代谢当量(MET)。我们相信,我们的数据集提供了一个现实的和具有挑战性的数据集多模态自我为中心的活动识别和能量消耗估计,它也可以为其他应用程序,包括视频摘要的兴趣。 我们将在去标识化后公开数据集。我们在第二节中描述了数据收集。3.1节中的活动和MET注释。3.2,以及第二节中的数据集统计。三点三MET活动1. 骑自行车上山14.02. 运行8.03. 骑自行车7.5MET活动13. 购物2.314. 漫步2.015. 食品加工2.03.1. 数据收集使用包括移动电话和腕戴式心率传感器的传感系统收集数据。将手机放置在受试者的胸袋中以收集自我中心视频和加速度计数据,手腕传感器提供相应的心率数据。10名受试者佩戴了传感系统,共录制了113个视频,时长为31小时。个别视频的长度涵盖了从3分钟到约51分钟不等的长度。受试者只被指示进行日常生活活动,而不限制如何,在哪里或在什么环境中度过时间。因此,在自然日常条件下进行数据收集。手机以720×1280分辨率和30 fps的速度收集以自我为中心的视频,以及30 Hz的三轴加速度。 手机配备了一个宽-角透镜,使得水平视场从45度扩大到约64度。使用腕戴式心率传感器每5秒(0.2 Hz)采集一次心率。手机和心率监测器通过蓝牙进行时间同步,所有数据都存储在手机的存储器中。分段三次多项式插值表2. 定义活动类别及其MET值[3]。每种活动对应于四种活动强度之一:活力(≥6 MET)、中度(3.0-5.9 MET)、轻度(1.6-2.9 MET)和久坐(1.0-1.5 MET)。* 表示添加到[3]中的类。测量用于填补心率数据中的任何空白。最后,将数据与30 Hz的毫秒级对齐。3.2. 活动和MET注释由于可能存在的活动的多样性和ActivityNet [25],THUMOS [29],UCF-101 [58]和Sports-1M [31])。怎么-自我中心活动检测的一个重要目标和我们工作的焦点是身体活动和健康跟踪。因此,我们将活动类别定义为身体活动纲要的子集[3] 。 这 些 类 别 中 的 每 一 个 都 与 任 务 的 代 谢 当 量(MET)相关联4. 与孩子一起玩耍5.816. 联系我们1.85. 抗阻训练5.017. 会议室1.56. 上升楼梯4.018. 坐立任务1.57. 健美操3.819. 会议1.58. 步行3.520. 吃1.59. 下降楼梯3.521. 在线留言1.310. 烹饪3.322. 骑1.311. 呈现3.023. 阅读1.312. 驱动2.524. 背景资料 *N/A1871(一)6040200(b)第(1)款(d)其他事项-0.5-1-1.5-2-2.5-3-3.5-4r=0.560-1-2-3-4(e)-5-4.5-5-5.570 80 90 100 110 120 130心率(bpm)遇到0.03-615-0.62-1.27(c)第(1)款15014013012011010090807060-1.9210-2.56-3.21-3.865-4.5-5.15-5.80-6.4460 69 77 86 95 104112121130138147心率(bmp)图2. 数据集的统计。 (a)实例数,(b)每项活动的加速度方差,(c)每项活动的平均心率,(d)心率和加速度方差的散点图,以及(e)心率和加速度方差的MET分布措施[3]。MET是相对于静息代谢率定义的生理量度,并且表示身体活动的能量消耗。例如,安静的坐着是一种...步行为3.0 MET,骑车为7.5 MET(kcal· kg-1· h-1)。MET是一种简单实用的测量方法,广泛用于量化能量消耗。对于数据集的第一个版本,我们在时间上注释了总共24个MET相关活动。我们从纲要[3]中选择了23个活动类,并添加了一个额外的类,即背景,它对应于各种活动,如拍照、乘坐电梯和停放自行车。一个活动可以同时发生。表2显示了每个类别的定义和MET值3.3. 数据集统计数据图2(a)显示了描述每个活动的视频实例的数量。行走出现在最多的视频中; 113个视频中有超过63个包含一些行走。跑步和健美操出现在视频中的数量最少每个视频的不同活动类型的平均数量为4.1,并且通常在视频中多次出现相同的活动持续时间从几秒到半小时不等。时长最长的是见面会,在一段视频中长达2,498秒的最短持续时间是上楼梯的实例,其发生了1.4秒。这种多样性对活动检测提出了挑战。图2(b)示出了按对数标度的活动类别的加速度变化测量的分布,图2(c)示出了按活动类别的心率测量的分布。具有较高心率和较高加速度方差的两个类别往往具有较高MET值,表明其对于预测身体活动和MET的有用性。几个类,如步行,谈话-坐,骑,和会议显示较高的方差,由于频繁的共同出现。这表明,传感器数据本身不足以进行准确的预测。图2(d)显示了每个类别的心率和加速度方差中位数的散点图 该图量化了心率和加速度方差之间的相关性,其相关系数为r=0。五十六最后,图2(e)显示了心率和加速度方差的MET分布,并表明心率和加速度都是MET的强指标。4. 模型在本节中,我们描述了我们的联合活动检测和能量消耗回归模型。我们制定蓬勃(> 6MET)中度(3.0-5.9MET)光(1.6-2.9MET)久坐(1.0-1.5MET)自行车上坡跑步自行车与孩子一起玩耍阻力训练上升楼梯健美操走下楼梯烹饪演示驾驶购物散步准备食物说话站着说话坐着任务会议吃站立内联骑马阅读背景加速度方差的对数(m/s2)平均HR(bmp)实例数加速度方差的对数(m/s2)加速度方差的对数(m/s2)1872一不e不不不2不不活动 ya不我们使用谱熵J,其中N/2 ¯ ¯能量消耗J= −Pi·log2Pi。(一)i=0时¯e不图3. EnergyRCN:一个从自我中心的多模态信号中进行联合活动检测和能量消耗回归的模型。该模型需要作为输入的多模态视频和加速功能,从长,未修剪的序列。多任务损失用于在每个时间步联合优化活动检测yt和能量消耗回归y心率信号被用作这里,Pi是计算的归一化功率谱密度短时傅里叶变换(STFT)我们使用四种类型的窗口(1,3,5和10秒)的时间池[55]所有特征被连接,使得加速特征向量具有维度xa∈R144。多模态融合我们采用早期融合方案。上述特征被连接成一个sin-va特征向量xt=(xt,xt)产生输入,自我监督以获得能量消耗。我们的模型是一个循环的长短期记忆(LSTM)神经网络,它将视频和加速度信号的多模态特征表示作为输入,并输出对应于每帧的活动标签和能量消耗(图3中的概述)。在下文中,我们描述了我们如何使该模型适应我们的多模态输入,以及我们如何使用心率作为能量消耗回归的自监督信号。4.1. 特征表示我们模型的输入是一系列视频帧V={v1,v2,.,vT}和三轴加速度序列,LSTM网络在每个时间步。因此,最终的特征向量是维度xt∈R1168。4.2. 多任务训练与自我监督我们的直觉是,活动检测和能量消耗估计的任务是高度相关的,并且以能量消耗的形式提供具有额外监督的网络将有助于网络实现更强的活动检测性能。因此,我们引入了一个多任务训练目标,以联合优化活动检测和能量消耗回归的任务。多任务 损失给定训练数据,形式为(xt,ya,ye),其中xt∈Rd是输入t t信号A={a1,a2,...,aT}。在下文中,我们描述每个信号的对应特征表示xv和xa不视觉特征受最近用于视频分析的递归卷积神经网络(CNN)的成功的启发[15],我们使用帧级CNN特征xv=CNNθ(vt)来视觉地表示每个视频帧。这里,CNNθ特征向量,ya∈R24是地面真实活动标签,ye∈R是导出的能量消耗,我们优化了以下多任务损失。L=Lact+λLEE(2)这里,第一项Lact是活动检测的交叉熵损失。第二项LEE是能量消耗回归.tc c c使用卷积神经网络将时间t处的视频帧vt变换为M维特征向量。1r2if|R| ≤δLEE(r)=2。Σδ |R| − 1δ否则、(3)在我们的实验中,我们使用了一个Inception网络[60],其中r=ye−ye。由于减少了能源支出,在ImageNet上训练[14]并提取池5特征,例如t txv∈R1024。加速度特征加速度特征直接从原始信号的时间序列中提取。我们遵循标准的时域和频域有限元分析,有离群值,我们通过使用鲁棒的Huber损失来功能λ控制两个任务之间的权衡。能量消耗利用心率(HR)和摄氧量(VO2)之间的线性关系[28],我们通过使用HR信号估计能量消耗:[39]第39话最后一句话:ye=αHR+β权重+γHR权重,(4)服务。对于时域特征,我们计算平均值ttt标准差、偏度、峰度、倾斜度(第10、25、50、75、90次)和每个轴的加速度计数。此外,我们将每个轴之间的相关系数at={axt,ayt,azt}相加。对于频域特征,其中ye是帧t处的能量消耗(kcal·min −1)。设α=4。56,β=0。0265,γ=0。1506,体重60 kg。我们还应用了10以每个帧t为中心的10秒,以平滑HR信号。图像xtht特征提取特征提取信号子集ht+1加速度视频堆叠LSTM心率y1873不5. 实验我们在数据集上评估了我们的模型的两个任务:活动检测和能量消耗回归。我们在本节中描述了每种方法的结果。5.1. 设置所有视频都被下采样到1 fps,并调整为227×227。在训练阶段进行了水平反射和随机裁剪训练集由91,043张图像组成,测试集由30,930张图像组成。 测试集包含两个未知的(零射击)未包含在训练集中的受试者。EnergyRCN模型使用截断的BPTT(时间反向传播)进行训练[46]。使用RM- SProp [13]每参数自适应更新规则基本学习率为2×10−5,衰减为0.95。通过交叉验证设置超参数;的LSTM由2个隐藏层和2048个隐藏单元组成。λ设定为1.0。序列长度为10帧(10秒),批次大小为60个序列。Chainer [61]用于实现。5.2. 活动检测在这项任务中,输入是未经修剪的、以自我为中心的视频和加速序列,输出是每帧的活动标签。使用平均精密度(mAP)评价性能我们将我们的模型与下面解释的不同基线模型进行比较1。• Liu等人。 [40]:基于加速度的基线,将RBF核SVM与加速度特征xa相结合。• Inception [60]:帧级基线,使用在InceptionNet上训练的RBF核SVM。• LRCN [15]:结合CNN和朴素LSTM的时间基线。我们不会反向传播到CNN层。• C3D [62]:时空CNN基线,与线性SVM相结合。使用了在Sports-1 M上预先训练的公开可用的模型• iDT+FV [64]:基于非深度学习的基线。手工制作的功能(HOG+HOF+MBH+Traj)是首先用PCA将维度降低6倍,然后用高斯混合模型(GMM)和Fisher向量(FV)进行编码表3总结了在活性强度下的检测结果。方法VigModLigSed所有Liu等人 [第四十届]68.076.952.739.753.9[60]第六十话80.986.172.466.673.2LRCN [15]84.992.376.661.272.9C3D [62]82.080.665.758.066.3iDT+FV [64]80.872.859.849.759.8能源RCN(A)*58.171.949.442.452.3能源RCN(V)*82.389.970.571.076.2Ener gyRCN(V+A)*82.292.178.370.878.1表3.活性检测结果(mAP)。每一列对应于活动强度。Vig:活力(≥6 MET),Mod:中度(3.0-5.9 MET),Lig:光(1.6-2.9 MET),和Sed:久坐(1.0-1.5 MET)。只有我们的方法联合预测活动检测和能量消耗估计(表示为*)(A:加速特征,V:视觉特征)。不是很大,说明了用于活动检测的视觉模型的强度。属于剧烈和中度的活动可以通过运动模式来区分(见图1)。2(b)),这导致基于运动的方法的更高成功率(例如,iDT、C3D和Liu等人).另一方面,轻活动下的大方差运动导致mAP下降在这种情况下,视觉特征显示出改善性能的有效性图4(a)显示了基于加速度的基线的混淆矩阵。可以看到显著的模糊性,特别是对于轻度活动(矩阵中的右手侧),而图4(c)显示,添加视觉特征可以解决许多类别之间的混淆,例如会议,坐着的任务和排队,这些都是相当久坐的。5.3. 能量消耗回归我们还展示了我们的模型在能量消耗回归任务上的结果。我们将我们的模型与基于MET的回归的额外基线进行比较。MET值可用于使用以下公式计算能量消耗:ΣKEE=α dkmk,(5)k=1其中,mk是检测到的活动k的MET值,dk是活动体重×1.05。 常数1.05代表静止关系的每一列对应于四种活动之一-−1能量消耗(kcal· METs−1· kg−1· h)定义为紧张度:剧烈、适度、轻度和久坐。融合模式在所有活动强度下均达到了相当或最高的绩效,但差异在于1我们使用原始视频帧速率30 fps [62][64]美国运动医学院(ACSM)EE是能量消耗(kcal· h−1)。表4显示了我们的模型估计能源支出的能力。由于基线没有同时估计活动和能量消耗,1874−1骑自行车上山运行1骑自行车上坡跑步1骑自行车上山1运行骑自行车与儿童玩耍0.9骑自行车与儿童玩耍0.9自行车与孩子一起玩耍0.9阻力训练爬楼梯健美操0.8抵抗力训练上升楼梯健美操0.8抵抗力训练上升楼梯健美操0.8步行下降楼梯烹饪演示驾驶购物散步食物准备说话站立说话坐着任务会议吃站在InLine骑马阅读背景(一)0.70.60.50.40.30.20.10步行下降楼梯烹饪演示驾驶购物散步食物准备说话站立说话坐着任务会议吃站在InLine骑马阅读背景(b)第(1)款0.70.60.50.40.30.20.10步行下降楼梯烹饪演示驾驶购物散步食物准备说话站立说话坐着任务会议吃站在InLine骑马阅读背景(c)第(1)款0.70.60.50.40.30.20.10图4. 活性检测的混淆矩阵:(a)基于加速度的基线,(b)初始网络,和(c)EnergyRCN(V+A)。在(a)中可以看到明显的模糊性,其仅使用加速度信号。方法µerr±σerrρMET GT(上限)6.84 ± 3.92N/ALiu et al. [40]0.74 ± 0.290.346初始[60] 0.72± 0.24 0.341检测回归A V V+A A V V+A单任务51.9 72.9 76.70.7710.7320.699多任务52.3 76.2 78.1 0.768 0.7510.696LRCN [15] 0.73± 0.28 0.365表5.消融研究结果多任务训练改进能量RCN(A)* 0.77± 0.36 0.386能量RCN(V)* 0.75± 0.29 0.382能量RCN(V+A)*0.70 ± 0.270.407表4.能量消耗回归的结果。µerr和σerr分别是绝对误差和标准差(kcal·m −1)。ρ是真实能量消耗与估计能量消耗之间的互相关系数。METGT利用地面实况活动标签来确定能量消耗,而我们的方法联合预测活动和能量消耗(表示为 *)。个体回归模型以输出能量消耗。也就是说,SVR和LSTMR接受了培训[40][60][15]。EnergyRCN(V)可以预测能量消耗,具有相似的错误率,同时优于活动检测基线。视觉特征也是一个很好的个体特征,但能量消耗回归的视觉特征和加速度之间的差距小于活动检测。这也表明,加速度信号单独带来的好处,估计能源消耗。这是用数据集统计数据备份的,其中加速度与MET值相关。5.4. 消融研究为了了解多任务训练如何帮助提高性能,我们将其与单任务模型以及特征组合进行了比较(表5)。多任务训练持续改善了活动检测的mAP。此外,能量消耗回归的性能与单个任务相当,表明我们的模型学习了两个任务的共享表示。最后,能量消耗回归的定性结果如图5所示。基于MET的回归利用地面实况活动标签;然而,开支预算能量消耗(kcal· m)的回归误差也相当由于离散输出的准确性较差,因此其性能比我们的模型更差5.5. 讨论通过对多模态活动检测和能量消耗回归的综合研究,我们对视觉信息的力量有了更深的理解。直观的多模态数据可以为活动检测和能量消耗回归提供视觉中不包含的额外丰富信息我们的实验结果量化了这种增益,但也表明,视觉信息本身也可以成为这些任务的强大信号。这种洞察力将我们引向新的应用,例如视觉卡路里计数器。活动量化我们引入模型来估计仅用视觉的能量消耗,以及利用与视觉相关的MET。据我们所知,这些方法是新颖的,使我们能够以量化身体工作负荷的方式对活动进行推理。活动识别本身并不提供这样的内部/不可见状态,因此我们的工作带来了进一步理解活动的好处。未来的工作生理信号不仅可以编码有关身体活动的信息,还可以编码有关心理活动的信息。区分和表征这些将提供丰富的信息,可用于视频分割和视频摘要等任务。对这一点的进一步探索将使我们能够更深入地了解人类活动。1875自行车自行车自行车自行车自行车自行车行走站立阅读呈现通话站立购物说话站立行走行走吃坐任务散步Ground truth EnergyRCN MET预测1541025004422004 642200342210 0图5. EnergyRCN预测示例。 EnergyRCN估计活动(底部数字)和能源支出(上图−1通过kcal· min)同时。在上图中,红线是地面实况,蓝线是EnergyRCN估计值,绿线是线是METGT估计值。虽然METGT只产生具有较大误差的离散值,但我们的模型可以准确地产生连续的能量消耗。下面的例子代表了能量消耗回归的困难情况,这些情况具有相对较大的差异。6. 结论在本文中,我们介绍了任务的能量消耗估计从自我中心的视频的角度来看。为了解决这个问题,我们首先构建了Stanford-ECM数据集,该数据集包含了以自我为中心的视频,并添加了心率和加速度信号。我们探索了数据集的统计数据,并提出了一个递归神经网络架构,用于对以自我为中心的多模态数据进行推理。我们的EnergyRCN模型联合预测能源支出和活动,取得最先进的成果。我们相信,这项工作将导致新的研究方向的各个方面的自我中心的视频理解,从活动检测到视频摘要。鸣谢Serena Yeung、Alexandre Alahi和Li Fei-Fei的部分支持来自英特尔的资助。我们要感谢Emily Tang、JuanCarlos Niebles、CewuLu、MariusCaBautaBaulinIordan、GuidoPusiol以及所有Vision实验室成员提供的有用意见和数据收集。烹饪步行食品烹饪阅读阅读阅读阅读漫步背景坐立任务坐立任务坐立任务坐立任务坐立任务 坐立任务步行步行步行步行步行步行1876引用[1] S.阿卜杜拉,N. D. Lane和T.乔杜里朝向群体规模活动识别:处理数据多样性的框架。InAAAI,2012. 2[2] J. K. Aggarwal和M. S.亮人类活动分析:审查. ACMComputing Surveys,43(3):1-43,2011. 1[3] B. E. Ainsworth,W.L. Haskell,S.D. 赫尔曼,N.梅克斯D. R.巴西特角Tudor-Locke,J. L.放大图片作者:J. C.Whitt-Glover和A. S. Leon. 2011年体育活动纲要:代码和MET值的第二更新。运动和锻炼中的医学和科学,43(8):1575 三、四[4] A. Alahi,A. Haque和L.飞飞RGB-W:当视觉遇上无线。在ICCV,2015年。2[5] S. 班巴赫自我中心视频的计算机视觉算法研究进展在arXiv:1501.02825,2015。一、二[6] S. Bambach,D. J. Crandall和C. Yu.伸出一只手:在复杂的以 自我 为中 心的 互动 中检测 手和 识别 活动 。在ICCV,2015年。2[7] L. Bao和S. S. Intille.从用户标注的加速度数据中识别活动。普适计算,2004年。2[8] A. Betancourt,P.莫雷里奥角S. Regazzoni和M.劳特伯格。第一人称视觉方法的演变:一份调查报告。 IEEETrans. Circuits and Systems for Video Technology , 25(5):744-760,2015. 一、二[9] A. G. Bonomi,A.H. C. 戈里斯湾Yin和K.R. 韦斯特特普使用加速计检测身体活动的类型、持续时间和强度运动和锻炼,41(9):1770-1777,2009。2[10] S. M. Ceesay , A. M. Prentice , K. C. 戴 , 公 关 。Murgatroyd,G. R. Goldberg,W. Scott和G. B.刺。在能量消耗估计中使用心率监测:使用间接全身热量测定法的验证研究。英国营养学杂志,61(02):175-186,1988年。2[11] S. E.克鲁特尔,K. G. Clowers,D. R. Bassett,E.斯科特和A. Jr.一种利用加速度计数据预测能量消耗的新方法。Journal of Applied Physiology,100(4):1324-1331,2006. 2[12] D. Damen和A.卡尔威You-do,I-learn:从多用户自我中心视频中发现InBMVC,2014. 二、三[13] Y. N. Dauphin , J.Chung 和 Y. 本 吉 奥 。 非 凸 优 化 的RMSProp和均衡自适应学习率在arXiv:1502.04390,2015。6[14] J. Deng,W.东河,巴西-地索赫尔湖J. Li,K. Li和L.飞飞。ImageNet:一个大规模的分层图像数据库。CVPR,2009。5[15] 多纳休湖 A. Hendricks,S. Saenko,M. 罗尔巴赫S. Venugopalan湾Saenko和T.达雷尔。用于视觉识别和描述的长期回流卷积网络CVPR,2015。二五六七[16] K. Ellis,J. Kerr,S. Godbole,G. Lanckriet,D.翼和S.马歇尔 一个随机森林分类器,用于预测来自不同年龄组的能量消耗和体力活动类型,手腕和臀部加速度计。生理测量,35(11):2191-2203,2014。2[17] A. Fathi,A. Farhadi和J. M.瑞格以自我为中心的行为。见ICCV,2011年。2[18] A. Fathi,J. K. Hodgins和J. M.瑞格社会交往:第一人称视角CVPR,2012。二、三[19] A. Fathi,Y. Li和J.M.瑞格学习使用凝视识别日常行为。ECCV,2012年。二、三[20] A. Fathi和J. M.瑞格通过状态更改对操作进行建模。CVPR,2013。2[21] A. Fathi,X. Ren和J. M.瑞格学习在自我中心的活动中识别物体。CVPR,2011。二、三[22] D. M.加夫里拉人体运动的视觉分析:调查。CVIU,73(1):82-98,1999. 1[23] P. Hamed和D. Ramanan在第一人称相机视图中检测日常生活CVPR,2012。二、三[24] A. Haque、A.Alahi和L.飞飞用于基于深度的人物识别的循环注意力模型在CVPR,2016年。2[25] F. C. 海尔布隆河谷埃斯科西亚湾Ghanem,J.C. 尼布尔斯,联合北方ActivityNet:一个大规模的视频基准人类活动的理解。CVPR,2015。3[26] J. Hernandez , Y.Li , J.M. Rehg 和 R.W. 皮 卡 德BioGlass:使用头戴式可穿戴设备进行生理参数估计。在 国 际 Conf. Wireless Mobile Communication andHealthcare(无线移动通信和医疗保健会议),2014年。2[27] J. Hernandez,Y.李建民Rehg和R. W.皮卡德使用头戴式运动敏感传感器的心脏和呼吸参数估计。EAI认可交易普适健康与技术,1(1),2015年。2[28] H. K. Hiilloskorpi,M. E.帕萨宁湾G.福格尔霍尔姆河M.Laukkanen和A. T. 我是阿莉。使用心率来预测从低到高活动水平的能量消耗。国际运动医学杂志,24(05):3325[29] H.伊德里斯A。R. Zamir,Y. G. Jiang,中国茶条A.戈尔班岛拉普捷夫R. Sukthankar和M. Shah. THUMOS挑战“野外”视频动作识别。在arXiv:1604.06182,2016。3[30] T. Kanade和M.赫伯特第一人称视角Proc. IEEE,100(8):2442-2453,2012。一、二[31] A. Karpathy,G.Toderici、S.Shetty,T.良河,巴西-地Sukthankar和L.飞飞用卷积神经网络进行大规模视频分类。CVPR,2014。3[32] A. M. 汗湾 K. 李,S。 Y. Lee和T. S. Kim. 基于三轴加速度计的物理活动识别,通过增强信号特征和分层识 别 器 。 IEEE Trans. Information Technology inBiomedicine,14(5):1166-1172,2010。2[33] K. M. Kitani,T. Okabe,Y. Sato和A.杉本第一人称体育视频的快速无监督自我动作学习CVPR,2011。二、三[34] A.库尔帕德河Raj,K. Maruthy和M. 瓦兹 从心率测量成年男性每日总能量消耗和体力活动水平的简单方法。欧洲临床营养学杂志,60(1):32-40,2006。21877[35] G. Lavee,E. Rivlin和M.鲁斯基理解视频事件:自动判读方法综述1878视频中的语义事件。IEEE Trans. Systems ,Man andCybernetics Part C:应用和评论,39(5):489-504,2009。1[36] Y. J. Lee,J.Ghosh和K.格劳曼发现重要的人物和物体,以实现自我中心的视频摘要。CVPR,2012。二、三[37] Y. Li,长穗条锈菌A. Fathi和J. M.瑞格学习预测自我中心视频中的注视。CVPR,2013。2[38] Y. Li,Z.Ye和J.M. 瑞格深入研究自我中心的行为。CVPR,2015。2[39] S. 柳河,巴西-地Gao,和P.Freedson 估算人体体力活动能量消耗的计算方法运动和锻炼中的医学和科学,44(11):2138 二、五[40] S.柳河,巴西-地X. Gao,L.约翰,J.W. Staudenmayer和P. S. Freedson多传感器数据融合用于身体活动评估。IEEE Trans. Biomedical Engineering,59(3):687二六七[41] C.- H. 卢,W.-C. 王角C. Tai和T.-C. 尘以递回模糊类神经网路设计跑步机运动之心率
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功