没有合适的资源?快使用搜索试试~ 我知道了~
7932面向自我中心交互识别的李浩鑫1,3,4,蔡怡君1,4,郑伟世2,3,4,刘伟1中山大学电子信息学院2中国中山大学数据与计算机科学学院3鹏程实验室,深圳5180054机器智能与先进计算教育部重点实验室网址:lihaoxin05@gmail.com,caiyj6@mail2.sysu.edu.cn,网址:www.example.com,wszheng@ieee.org摘要自我中心的互动识别的目的是识别相机佩戴者在这样一个人与人的互动分析问题中,探索相机佩戴者和互动者之间的关系是至关重要的然而,大多数现有的工作直接建模的互动作为一个整体,缺乏建模的两个互动的人之间的关系。为了利用强关系进行自我中心的交互识别,我们引入了一个双重关系建模框架,该框架基于两个人的个人动作表示来学习建模相机佩戴者和交互者之间的关系具体来说,我们开发了一个新的交互式LSTM模块,这是我们框架的关键组件,可以根据他们的个人动作表示来显式地建模两个交互人员之间的关系,这些动作表示是通过交互者注意力模块和全局-局部运动模块协同学习的。在三个以自我为中心的交互数据集上的实验结果表明了该方法的有效性和优越性。1. 介绍自我中心交互识别[11,25,31,35,39]随着可穿戴相机的普及和广泛应用(包括人机交互[2,18]和群体事件检索[3,4])而受到越来越多的关注与离心(第三人称)视频不同,在自我中心视频中,摄像机佩戴者通常是不可见的,并且视频通常以动态自我运动记录(见图1)。摄像机佩戴者的不可见性阻碍了其动作识别学习,而自我运动阻碍了交互者的直接运动描述,这使得以自我为中心的交互识别具有挑战性。*通讯作者(a) 隐形相机佩戴者(b) 相机佩戴者图1.说明相机佩戴者的隐形和自我运动。(a)比较了人(在红框中)从NUSF- PID数据集[25]中接收离心(左)和自我中心(右)视频中的一些(b)显示了来自东京大学PEV数据集[39]的以自我为中心的视频中具有明显自我运动的相邻帧。自我中心的互动包括相机佩戴者和互动者的动作,它们通过关系相互影响。因此,对两个交互人之间的关系进行建模对于交互分析非常重要。为了明确地对两个交互的人之间的关系建模,我们首先需要获得两个人的个体动作表示。因此,我们将自我中心的交互识别问题分解为两个相互关联的子任务:个体动作表征学习和对偶关系建模。近年来,各种作品试图从自我中心的视频中识别交互。现有方法使用透射率和光流的统计特性集成运动信息还采用深度神经网络来整合短期和长期信息进行分类[35]。他们中的一些人[31]试图认识到,7933...交互式LSTM步长n-1交互式LSTM步骤n交互式LSTM步骤n+1...............视频动作表示关系建模框架−������联系我们特征提取参数共享特征提取关注模块运动模块(一)(b)第(1)款(c)第(1)款(d)其他事项123...M(a)全局运动特征;(b)局部运动特征;(c)全局外观特征;(d)局部外观特征。图2.拟议框架。帧Ii(i= 1,...,N)作为输入从视频中采样。特征提取模块提取采样帧的基本视觉特征注意力模块定位互动者并学习外观特征。运动模块估计运动特征学习的全局和局部运动交互模块根据蓝框中说明的学习到的个体特征(a)、(b)、(c)和(d)对关系进行建模,以实现更好的交互识别。从静态观察者的观点来看,这对大多数应用来说是不实际的。其他人[11,25,35]则直接通过外观和动作学习来学习整体互动,就像在常见的个人动作分析中所做的那样他们没有学习互动者的个人动作表征,因此无法明确地建模关系。第一人称和第二人称特征被引入来表示相机佩戴者和交互者的动作[39]。但是他们从多个视点视频中学习了个体动作表示,仍然缺乏显式的关系建模。框架概述。在本文中,我们专注于从单个以自我为中心的视频中识别人与人之间的交互的问题考虑到关系在以自我为中心的交互中,我们开发了一个双重关系建模框架,它集成了两个相互关联的子任务,即个体动作表征学习和双重关系建模,用于识别,如图2所示具体来说,对于双重关系建模,我们开发了一个交互模块,称为交互式LSTM,以明确地基于学习到的个人动作表示来建模相机佩戴者和交互者之间的关系。对于个体动作表征学习,我们引入了注意模块和运动模块来共同学习两个交互人的动作特征。我们最终将这些模块组合成一个端到端的框架,并使用人工分割损失,帧重建损失和分类损失作为监督来训练它们实验结果表明了该方法的有效性。我们的贡献。总之,本文的主要贡献有三个方面。(1)开发了一个交互式LSTM模块,用于建模相机佩戴者之间的关系和来自单一自我中心视频的互动者。(2)一个互动者注意力模块和一个全局-局部运动...7934模块被设计为从单个以自我为中心的视频中联合学习相机佩戴者和交互者的个体动作表示。(3)通过将个体动作表征学习和双重关系建模集成到端到端框架中,我们的方法在三个以自我为中心的交互数据集上显示了其有效性,并优于现有的最新技术。2. 相关工作自我中心动作识别的目的是从第一人称视频中识别相机佩戴者的动作。由于自我运动是以自我为中心的视频的主要特征,因此大多数方法使用基于密集流或轨迹的统计特征[1,13,17,23,24]来识别相机佩戴者的动作。在一些对象操纵的动作中,一些作品提取了手和对象描述符用于识别[10,20,28,43],其他作品根据手的位置和运动进一步探索了凝视信息[12,19]。最近,深度神经网络也被应用于以自我为中心的动作识别。基于帧的特征系列分析显示了他们有前途的结果[16,32,40]。具有多个信息流的CNN网络也在识别任务上进行了然而,这些方法针对的是与人与人之间的交互有点不同的个体行为。自我中心交互识别特别关注第一人称人与人之间的交互。Ryoo等人认识到视频中的人对静态观察者做了什么[30,31],但在大多数日常生活中,这是不现实的。narios。一些作品使用面部方向、个体位置描述符和手部特征来识别交互[5,11]。其他人使用基于轨迹和光 流 的 磁 或 群 集 的 运 动 信 息 [25 , 38] 。 利 用convLSTM聚合连续帧的特征以进行识别[35]。这些方法通常通过直接外观或动作学习来学习交互描述符,但Yonetani等人学习了两个人的个人行为特征,但也缺乏明确的关系建模[39]。与上述现有方法不同的是,我们的框架从单个以自我为中心的视频中联合学习相机佩戴者和交互者的个人动作,并通过交互式LSTM进一步明确地建模它们之间的关系。3. 个体动作表征学习为了对关系进行建模,我们首先需要相机佩戴者和交互者的个人动作表示。在这里,我们学习交互器遮罩,以将交互器与背景分离,并使用at7935i=1i、jn注意特征。优化的注意力模块可以定位交互者,因此掩码M(0)在与交互者对应的位置处具有较高的值,其指示交互者的具体外观信息然后,可以如下利用加权池化来计算从其外观描述交互器的动作的局部外观特征:fn=1小时0小时0小时M(0)·fn、(二)图3.注意力模块的结构。该模块具有功能fn作为输入,并生成注意力加权特征和多个洛杉矶|M(0)|i=1j =1i、ji,j,1:C规模面具哪里|男(0)|=0中国0j=1 M(0)。 因此张力模块同时,本文还集成了一个运动模块来学习运动线索,从而可以联合学习两者各自的外观和运动特征g是一个外观功能,它描述了相机佩戴者从观察到的,计算使用全球平均池化:人,这是第4节中模型关系的基础为 两 连续 采样 帧In−1,In∈RH×W×3,我们使用由以下组成的特征提取模块:g,a=1H0×W02019年02月01日i=1j=1ni,j,1:C.(三)ResNet-50 [14]提取基本特征f(In−1),f(In)∈RH0×W0×C,编码场景或人物信息用多维表示法在其上进一步建模。在下文中,为方便起见,我们将f(I n−1)和f(I n)分别记为f n−1和f n。3.1. 注意力外观特征学习以自我为中心的视频同时记录摄像机佩戴者和互动者的动作。为了了解两个人的个体动作特征,我们希望基于特征fn将交互者与背景分离。姿势引导或CAM引导策略[8,9,27]用于个人注意力学习。同样,我们引入了一个注意力模块来定位与人类分割指导的互动。 我们采用一种反卷积结构[26]在基本特征fn之上,以生成如图3所示的交互器的掩模。MaskM(0)∈RH0×W0用于加权相应的特征图以进 行 注 意 特 征 学 习 。 多 尺 度 掩 模 M( k ) ∈RHk×Wk(k=1,2,3)被应用于在不同尺度上定位相互作用子,以用于更精细的掩模生成和显式的运动估计稍后在子节3.2中。互动者的面具为了定位交互者,我们引入了人类分割损失来指导我们的注意力模块的学习。给定参考掩模MRF,人类分割损失是逐像素交叉熵损失:注意力模块学习局部外观特征以提供交互者的具体描述而不是全局描述,从而辅助稍后的关系建模。同时,定位相互作用物的相互作用物掩模在分离全局和局部运动中起重要作用,这在小节3.2中采用。3.2. 全局局部运动特征学习运动特征对于动作分析至关重要。为了学习两个相互作用的个体的动作表示,我们希望基于基本特征f n,f n-1和相互作用者掩码M(k)(k = 0,1,2,3)来明确地描述相机佩戴者的自我运动(全局运动)和相互作用者的局部运动。可微翘曲方案[15]用于自我-具有帧重建损失的运动估计[36,42]。受此启发,我们设计了一个自监督的运动模块与微分扭曲机制,以联合估计两种类型的运动从自我中心的视频。通过重建的全局-局部运动公式化。为了分离以自我为中心的视频中的全局和局部运动,我们重用在子部分中生成的交互器掩码M(3)。3.1以与输入帧相同的比例来公式化两个相邻帧之间的变换。利用表示变换幅度和密集运动场的可学习参数T和D,我们可以用公式表示变换,Σ3Lseg=−Hk1[MRF logM(k)+从齐次坐标Xn到Xn−1的如:k=1i =1j=1Hk×Wki、ji、j(一)X<$ n−1=T(X n+M(3)<$D),(4)(1−MRF)log(1−M(k))],i、ji、j其中,X是逐元素乘法,Xn和Xn−1 是其中k索引掩码尺度,并且参考掩码为调整到相应的形状进行计算。这里,使用JPPNet[21]获得参考掩码。标架In和In−1的齐次坐标。在等式(4)中,M(3)是相互作用者的局部密集运动场,并且T描述相互作用者的自我运动。FF7936g,m我很nnng、an洛杉矶从注意力模块,以及全局运动特征fg,m 和局部运动特征fnl,m从运动模式,乌莱 全局特征描述整个场景上下文,相机佩戴者的自我运动,其可以表示相机佩戴者的动作。而局部特征则是由交互体掩码得到的,它描述了交互体的具体外观和运动,可以表征交互体的动作这样我们就得到了两个相互作用的人各自的动作表示。为了进一步探讨两者之间的关系,儿子们,我们定义自我特征fn=[f n,f n]图4.运动模块的结构该模块采用基本自我g、ang,m特征fn,fn−1和掩码M(0)作为输入,并估计全局描述相机佩戴者,以及外部特征fexo =[fn,fn]描述交互器。有了它们,以及两个分支中的局部运动参数,在这两个分支中提取全局运动特征Fn和局部运动特征Fn红色圆圈中的符号是乘法补丁比较[7],用于计算两个特征图之间的相关性,其捕获它们之间的相对运动以用于密集流估计。相机佩戴者,因此等式(4)通过点集重构明确地联合表示自我监督。为了学习等式(4)中的参数,我们使用视图合成目标[42]作为监督:Σl,a l,m在第4节中建立关系模型。4. 基于交互式LSTM的对偶关系建模给定动作表示,可以训练分类器用于识别,如在大多数先前的工作中所做的那样。然而,如前所述,以自我为中心的人与人之间的互动的一个显着属性是相机佩戴者和互动者之间的关系,这值得Lrec=|、(五)|,(5)X进一步探索更好的交互表示。我们注意到,只有自我特征或外部特征可能其中x索引像素坐标Xn。 并且In是根据变换点集Xn-1 从 帧 I n-1 变 形 的 重 构 帧 ,其采用双线性采样机制[15],并不完全代表一种互动。对于图6所示的示例,两个交互由类似的个体动作组成:相机佩戴者转动他的头,交互者指向某处。在这种情况下,任何动作的特征都不能充分识别交互然而,在这方面,I(x)=i∈{t,b},j∈{l,r}wijI n−1(xij),(6)某些关系可以清楚地反映出两种相互作用的不同之处,如单个动作的先后顺序和运动方向利用关系,其中,x在投影坐标Xn−1上表示,xij是x i j的相邻坐标,wij与xij和xij之间的空间接近度成比例,并且i,jwij=1。此外,我们还对局部稠密运动与鲁棒学习的平滑损失[36]。利用等式(5)中的重建损失,我们设计了图4中所示的运动模块,其具有学习全局自我运动和局部运动的参数的两个识别,我们开发了一个交互模块,根据3.3小节中定义的自我特征和外部特征来建模4.1. 对称选通和更新为了对两个交互人之间的同步性或互补性等关系进行建模,我们使用LSTM结构整合了他们的动作特征。方程(4)中的运动,由此,我们定义自我状态Fn和外态Fn来表示fn和局部运动特征fn从自我EXOg,m嵌入层。我很直到第n步的潜在状态编码的演变这两个行动,这对应于自我特征和外,运动模块联合估计通过重用交互者掩码,我们学习了两个交互者的具体个体运动特征,从而帮助第4节中的关系建模。3.3. 自我特征和外在特征。对于每个帧对{In-1,In},我们得到全局ap-1。第3.3小节中介绍的功能。我们希望在每个时间步相互结合每个交互人的行动背景,以探索同步性和互补性等关系。因此,我们运用外在状态来过滤掉自我状态中无关的部分,增强相关的部分,补充缺失的部分。同时,外在状态也被自我状态过滤、增强和补充。这个对称的门-概率特征fn和局部外观特征fn更新机制是用两种对称的方法实现的,孔弗斯卷积层德孔夫解卷积层池化全局平均池化双乘法的补丁比较,FC全连接层逐元素乘法池化FC������−���⊛孔弗斯(德孔夫孔弗斯,(a)全球(b)当地...池化7937∗自我Rical LSTM块,其中每个块的工作方式如下:[in;on;gn;an] =σ(Wfn+UFn−1+n−1J+b),Jn=φ(V Fn+v),cn=in an+gn cn−1,(9)F n=o n tanh(c n).(十)这里,输入门、输出门、遗忘门和更新门分别表示为in、on、gn和ann。σ是更新候选的tanh激活函数和其他门的sigmoid激活函数。F是来自对偶块的潜在状态,φ是ReLU激活函数,并且Jn是调制的对偶状态。{W ,U,V,b,v}是每个LSTM块的参数。注意,当前自我状态将自我动作的历史信息以及外部动作的历史信息集成到其自身中,并且对于外部状态,反之亦然。自我状态和外在状态分别从摄像者和互动者的角度描述了互动在这种对称门控和更新方式中,对称LSTM块对交互关系进行建模,而不是两个动作的原始4.2.显式关系建模除了上面介绍的用于将对偶关系隐式编码为自我状态和外部状态的对称LSTM块之外,我们还对对偶关系进行了显式建模。为此,我们引入关系特征rn来显式地计算具有非线性加法运算的关系图5.交互式LSTM图展开的对称LSTM块相互门控并相互更新,如绿色箭头所示。展开的关系LSTM分支以红色突出显示。所有LSTM块都包含N个时间步。这提供了交互的更好表示。给定最终关系状态RN的交互类别的后验概率可以定义为:p(y|R N)=δ(WR N+ b),(15)其中W和b是分类器的参数,δ是softmax函数。然后,采用交叉熵损失函数来监督参数优化,如下:ΣKL cls= −y k log[p(y k|R N)]、(16)k=1在自我状态和外在状态上:rn=tanh(Fnn外)的情况。(十一)其中K是类的个数。结合上面每个模块的损失函数,我们端到端地训练我们的模型,最终目标是:通过每个时间步的关系特征rn,我们进一步用另一个LSTM分支对时变关系进行L最终 =Lcls +αL seg +βL rec +γL 光滑、(十七)把历史关系纳入关系状态可以用公式表示如下:[in;on;gn;an]=σ(Wrn+URn−1+b),(12)cn=in an+gn cn−1,(13)R n= o n tanh(c n).(十四)在上面的等式中,门和参数被类似地表示为对称LSTM块中的门和参数。在等式(14)中,Rn整合历史和当前关系信息以明确地表示交互期间第n个时间步处的两个动作的关系。结合上述两个组成部分,即。对称LSTM块和关系LSTM分支,我们的交互模块如图5所示,我们称之为交互式LSTM。它捕获了两个动作的演化或同步性,并进一步明确地对关系进行建模其中α、β、γ分别是分割损失、帧重建损失和平滑正则化的权重5. 实验5.1. 数据集我们评估我们的方法在三个以自我为中心的人与人的互动数据集。UTokyo配对自我视频(PEV)数据集包含1226个配对的自我中心视频,记录了二元的人与人之间的互动[39]。它由8个交互类别组成,6名受试者记录。我们根据[39]中所做的受试者对将数据划分为训练测试子集,并报告了三次划分的平均准确度。NUS第一人称交互数据集包含152个第一人称视频和������−���EXO块EXO块EXO块EXO块������−���������(七)自我块自我块自我块自我块(八)+F7938133个人-人和人-物体交互的第三人称视频[25]。我们评估我们7939方法PEVNUS(第一个h-h)新加坡国立大学(第一)JPLRMF[1]---86.0[31]第三十一话---89.6Narayan等人[25日]-74.877.996.7Yonetani等人[39](单曲)60.4--75.0convLSTM[35](raw frames)--69.470.6convLSTM[35](帧的差异)--70.090.1LRCN[6]45.365.470.678.5[41]第四十一话49.366.774.784.2双流[33]58.578.680.693.4我们的方法64.280.281.898.4Yonetani等人[39]第三十九话69.2---我们的方法(多路复用)69.7---表1.与现有方法的最新比较(%)。 NUS(first h-h)表示第一人称人-人交互子集NUS(first)表示第一人称子集。值得注意的是,只有PEV数据集提供了多个视频,因此没有报告其他数据集的多个视频结果。方法在第一人称人-人交互子集上的应用,验证了该方法的有效性。为了进一步测试我们的方法在人与物体交互的情况下,我们还评估第一人称子集。采用随机训练试验分裂方案,并报告平均精度。JPL第一人称交互数据集由84个人类与头部安装有摄像头的人形模型交互的视频组成[31]。它包括7种不同的互动。我们验证了我们的方法5.2. 实现细节网络详细信息。在运动模块中,我们将5设置为乘法贴片比较的最大位移。在交互模块中,我们将ego-feature和exo-feature的大小减少到256,并将256设置为LSTM块的隐藏大小。20个等距帧被采样作为输入,如[35]中所做的。数据增强。我们采用了几种数据增强技术,以减轻过度拟合,由于缺乏大量的训练数据。(1)[37]第三十七话我们修好了采样帧的大小为160×320,随机裁剪一个区域,然后将其大小调整为128×256作为输入。(2)每个视频都是随机水平翻转的。(3)我们调整色调,饱和度在HSV颜色空间的每个视频随机。(4)在视频的每次采样时,我们随机转换帧索引以获得同一视频的各种样本。培训设置。全网难以融合如果我们一起训练所有的参数因此,我们将培训过程分为两个阶段。在第一阶段,我们使用ImageNet [29]预训练参数初始化特征提取模块,并在冻结其他参数的同时依次训练注意力模块,运动模块和交互模块。在第二阶段,三个模块是以端到端的方式进行微调。我们使用Adam优化器,初始学习率为0。0001在Tesla M40上使用TensorFlow训练我们的模型,并在损失饱和时降低学习率。为了解决过拟合问题,我们在训练过程中进一步采用了大比率丢弃、高权重正则化和提前停止策略。5.3. 与现有技术方法的我们将我们的方法与最先进的方法进行比较,结果如表1所示。第一部分列举了使用手工特征的方法。第二部分介绍了一些基于深度学习的动作分析方法(除了convLSTM之外,我们还实现了这些方法)。第三部分报告了我们的方法的结果,第四部分使用PEV数据集上的多个视频来比较性能。如图所示,我们的方法优于现有的方法。大多数以前的方法直接学习互动representations没有关系建模,而我们明确的模型之间的关系,两个相互作用的人。实验结果表明,关系建模对于交互识别是有效的.在 比 较 的 深 度 学 习 方 法 中 , 我 们 获 得 了convLSTM[35],LRCN[6]和TRN[41]的明显改进,因为它们主要捕获外观特征的时间变化,但我们的方法进一步明确捕获运动并对两个交互人员之间的关系进行双流网络[33]具有与我们相同的骨干CNN,集成了外观和运动特征,但性能不如我们,这可能是由于缺乏关系建模。在PEV数据集上,Yonetaniet al. [39]达到69. 2%的准确性与配对的视频,当然超过其他人使用-ING单一的视频.我们使用交互式LSTM来融合配对视频中的特征,因为配对视频记录的动作之间7940(a) 互动类别:无表2.相互作用的识别准确率比较(%)。Concat(无关系)是指没有任何关系建模的自我特征和外部特征的串联与sym的互动blocks意味着只使用对称的LSTM块。与rel的交互branch意味着只使用关系LSTM分支。与两者的交互意味着使用两个组件。我们取得了类似的结果(69。7%),这进一步证明了我们交互式LSTM的关系建模能力。在推理时间方面,我们的框架需要大约0.15每段视频20秒,采样帧20帧,仍然接近实时。TRN[41]每个视频需要0.04秒,但它的识别性能明显低于我们。虽然Two-stream[33]的性能略逊于我们,但每个视频需要0.9秒,因为它在提取光流上花费了更多的时间。5.4. 进一步分析5.4.1交互模块研究表2比较了相互作用的识别性能.这表明我们的交互式LSTM明显提高了性能,因为它对关系进行了建模,还驱动了其他模块的特征学习。在不同的数据集上,关系建模获得不同的性能增益.我们在PEV数据集上获得了更清晰的改进,因为它包含了更多依赖于关系的样本。而在NUS(first h-h)数据集中,大多数样本在两个交互的人之间具有较弱的关系。如第4节所述,图6所示的两个交互样本之间的主要差异可能是顺序和运动方向。进一步比较了不同方法对它们的识别结果。据观察,双流[33]和简单的连接都不能充分模拟两种相互作用。而使用显式关系建模,这两个交互被正确区分,这表明我们的交互式LSTM对关系进行建模,以区分混淆的样本,从而更好地识别交互。5.4.2注意力模块的研究我们在表3中比较了不同外观特征的识别精度。据观察,局部外观特征略微改善了性能,因为它提供了交互器的具体描述,而不是一般或(b)互动类别:关注图6.两个交互样本识别结果的比较。W/O关系意味着两个动作特征的连接,而没有任何关系建模用于识别。右侧的条形图表示每个类别的概率。总体特征,与交互作用更相关。此外,关系建模比连接更好,因为它通过数据门控或更新和关系建模来增强特征图7显示了一些学习到的掩码。(See更多的例子在补充材料中。)如图所示,注意力模块学习本地化的互动与JPPNet参考- erence面具作为监督。在额外的分类损失的情况下,它可以定位交互器周围的一些对象并且与交互强烈相关,例如示例中的帽子这显示了在我们的框架中使用设计的注意力模块的优势,而不是在这个识别任务中直接使用JPPNet掩码。此外,只有分类损失,我们的注意力模块未能本地化的互动者在所有,表明互动者本地化的参考面具的必要性。注意模块是我们的个人动作表征学习框架中不可或缺的一部分。它不仅学习具体的外观特征,而且还可以将全局和局部运动分离,进行显式运动特征学习。没有注意力模块,我们的框架只能捕捉全局外观和运动线索,并未能建模相机佩戴者和交互者之间的关系,这导致9。0%和12。在PEV和NUS(第一个h-h)数据集上的准确度下降了3%,证明了注意力模块的重要性。5.4.3运动模块我们在表4中显示了不同运动特征的准确性比较可以看出,双流法是一种有效的方法,但计算效率低。我们的方法明确地捕捉相机佩戴者的运动,并在-特征PEVNUS(第一个h-h)自我特征55.267.9外部特征53.176.1Concat(无关系)60.877.9与sym的互动块62.778.1与rel的互动分支63.079.0与两者的64.280.27941特征PEVNUS(第一个h-h)特征PEVNUS(第一个h-h)双码流[33](RGB)40.763.8双流[33](流量)54.073.2全球亮相40.763.8全局运动51.952.3局部外观43.265.1局部运动51.069.6Concat(无关系)44.266.8Concat(无关系)53.273.4相互作用45.968.2相互作用56.675.0表3.使用外观的功能. Concat(无关系)表示全局和局部外观特征的简单连接。交互意味着关系建模与全局和局部外观特征一起使用。(a) 框架(b)JPPNet掩码(c)面具(d)面具图7.具有不同监督的学习掩码示例。(a)为原始帧;(b)是JPPNet掩码;(c)是仅用人类分割损失训练的学习掩码;(d)是用人类分割损失和分类损失训练的学习掩码。并与双流(流)达到可比的结果,这表明我们的运动模型的有效性此外,我们的方法可以达到更高的精度与关系建模。在不同的数据集上,全局运动和局部运动对识别的贡献不同,这可能是因为全局运动对于区分PEV数据集上的相互作用(例如,积极和积极响应)很重要,但是与全局运动高度相关的这种相互作用不包括在NUS(第一h-h)数据集中。在图8中,我们显示了重建的帧和局部密集运动场。(See补充材料中的更多示例)。从重建的帧中可以看出,捕捉到了向右的轻微头部运动,这使得左侧的条带以蓝色突出显示。局部密集运动场显示了交互器向右伸出手的运动该示例表明,运动模块可以联合学习全局和局部运动。我们的运动模块显式地估计全局和局部运动的摄像头佩戴者和交互器individually,这是重要的关系建模。没有运动模块,我们的方法无法捕获运动信息,只能使用外观特征,这导致18。3%和12。PEV和NUS(第一个h-h)数据集上的精度下降0%,表明运动建模的必要性。表4.识别精度比较(%)使用运动有限元-真的。Concat(无关系)意味着全局和局部运动特征的简单级联。交互意味着关系建模与全局和局部运动特征一起使用。(a)FrameIn−1(b)FrameIn(c)局部密集运动(d)全局运动图8.全局和局部运动的图示。(a)和(b)是两个连续的采样帧。(c)局部密集运动显示了交互器掩模中水平运动矢量的幅度,右侧的幅度与运动场的亮度成比例在交互器掩模之外的运动矢量(d)全局运动显示了头部向右的轻微运动,这反映在以蓝色突出显示的条带上。6. 结论在本文中,我们提出了学习个人的行动表示和模型的关系,摄像头佩戴者和自我中心的互动识别。我们通过开发一种新的交互式LSTM来显式地对关系进行建模,从而构建了一个双重关系建模框架。此外,一个注意力模块和一个运动模块的设计,以联合建模的两个人的个人行动,以帮助建模的关系。我们的双重关系建模框架在实验中显示出良好的效果。在未来,我们将扩展我们的方法,以处理更复杂的情况下,如多人互动,这是不考虑在本文中。确认这 项 工 作 得 到 了 中 国 国 家 重 点 研 究 发 展 计 划( 2018YFB1004903 ) , 国 家 自 然 科 学 基 金(61522115)和广东省的省科技创新领军人物(2016TX03X157)。7942引用[1] 阿贝贝姑娘安德里亚·卡瓦拉罗和泽维尔·帕拉用于第一人称视觉活动识别的鲁棒多维运动特征计算机视觉和图像理解,149:229[2] Pulkit Agrawal,Ashvin V Nair,Pieter Abbeel,JitendraMa- lik,and Sergey Levine.通过poke学习poke:直觉物理学的经验学习。神经信息处理系统的进展,第5074-5082页。2016年。[3] Stefano Alletto,Giuseppe Serra,Simone Calderara,andRita Cucchiara.在自我中心的视野中理解社会关系。Pattern Recognition,48(12):4082[4] Stefano Alletto , Giuseppe Serra , Simone Calderara ,Francesco Solera,and Rita Cucchiara.从自我到非视觉:以第一人称视角探测社会关系。在IEEE计算机视觉和模式识别研讨会会议上,第580-585页[5] Sven Bambach,Stefan Lee,David J Crandall,and ChenYu.伸出一只手:在复杂的以自我为中心的交互中检测手 和 识 别 活 动 。 在 IEEE 国 际 计 算 机 视 觉 会 议(ICCV),第1949-1957页,2015年。[6] J. 多纳休湖A. 亨德里克斯M.Rohrbach,S.VenugopalanS. 瓜达拉马湾Saenko和T.达雷尔。用于视觉识别和描述的 长 期 IEEE Transactions on Pattern Analysis andMachine Intelligence,39(4):677[7] Alexey Dosovitskiy、Philipp Fischer、Eddy Ilg、PhilipHausser、Caner Hazirbas、Vladimir Golkov、Patrick vander Smagt、Daniel Cremers和Thomas Brox。Flownet:使用卷积网络学习光流。在IEEE国际计算机视觉会议(ICCV),第2758-2766页[8] Wenbin Du,Yali Wang,and Yu Qiao. Rpan:一个用于视频动作识别的端到端循环姿态注意力网络。在IEEE计算机视觉和模式识别会议中,第3745-3754页[9] Wenbin Du,Yali Wang,and Yu Qiao.用于视频中动作识别的循环时空注意网络。IEEE Transactions on ImageProcessing,27(3):1347-1360,2018。[10] A. Fathi,A. Farhadi和J. M.瑞格以自我为中心的行为。在 IEEE International Conference on Computer Vision(ICCV),第407-414页[11] Alircza Fathi,Jessica K Hodgins,and James M Rehg.社交互动:第一人称视角。在IEEE计算机视觉和模式识别会议(CVPR),第1226-1233页[12] Alireza Fathi,Yin Li,and James M Rehg.学习使用凝视来识别日常行为。欧洲计算机视觉会议(ECCV),第314-327页,2012年[13] A. Fathi和G.森通过学习中级运动特征进行动作识别.在IEEE计算机视觉和模式识别会议(CVPR)中,第1-8页[14] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残 差 学 习 。 在 IEEE 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR),第770[15] Max Jaderberg,Karen Simonyan,Andrew Zisserman,等.空间Transformer网络。神经信息处理系统进展,2017-2025页,2015年[16] Reza Kahani,Alireza Talebpour,和Ahmad Mahmoudi-Aznaveh.基于相关性的特征表示第一人称动作识别arXiv预印本arXiv:1711.05523,2017。[17] Kris M Kitani , Takahiro Okabe , Yoichi Sato , andAkihiro Sugimoto.第一人称体育视频的快速无监督自我动 作 学 习 。 在 IEEE 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR)中,第3241-3248页,2011年。[18] J.Lee和M. S.亮使用卷积未来回归从第一人称人类视频中学习机器人活动。在IEEE/RSJ智能机器人和系统国际会议(IROS),第1497-1504页[19] Y. Li,长穗条锈菌A. Fathi和J. M.瑞格 学习预测自我中心 视 频 中 的 注 视 。 IEEEInternational Conference onComputer Vision(ICCV),第3216-3223页[20] Yin Li,Zhefan Ye,and James M Rehg.深入研究自我中心 的 行 为 。 在 IEEE 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR),第287-295页[21] X. Liang,K.龚,X. Shen和L.是林书看人:联合体解析amp;姿态估计网络和一个新的基准。IEEE Transactionson Pattern Analysis and Machine Intelligence,41(4):871[22] Minghuang Ma,Haoqi Fan,and Kris M Kitani.深入了解第一人称活动识别。在IEEE计算机视觉和模式识别会议(CVPR),第1894-1903页[23] 杨幂,康正,宋望。通过在固定摄像头视频上训练分类器来识别可在2018年ACM国际多媒体检索会议论文集,第169-177页[24] T. P. Moreira,D. Menotti和H.佩德里尼通过视觉节奏纹理 描 述 的 第 一 人 称 动 作 识 别 。 IEEEInternationalConference on Acoustics,Speech and Signal Processing(ICASSP),第2627-2631页[25] Sanath Narayan,Mohan S Kankanhalli,and Kalpathi RRa- makrishnan.第一人称视频中的动作和交互识别。在IEEE计算机视觉和模式识别研讨会会议上,第526-532页[26] Hyeonwoo Noh Seunghoon Hong和Bohyung Han。用于语 义 分 割 的 学 习 反 卷 积 网 络 。 IEEEInternationalConference on Computer Vision(ICCV),第1520-1528页[27] Y.彭,Y.赵和J。张某基于时空注意力的双流协同学习视频分类。IEEE Transactions on Circuits and Systems forVideo Technology,29(3):773[28] H. Pirsiavash和D. Ramanan在第一人称相机视图中检测日常生活活动。 在IEEE计算机视觉和模式识别会议(CVPR),第2847-2854页[29] Olga Russakovsky , Jia Deng , Hao Su , JonathanKrause,San-jeev Satheesh,Sean Ma,Zhiheng Huang,Andrej Karpathy,7943Aditya Khosla,Michael Bernstein,等.图像网大规模视觉识别挑战。International Journal of Co
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功