没有合适的资源?快使用搜索试试~ 我知道了~
基于事件调节注意的Yang Shen,Bingbing NiJingming,Zefan Li,and Ning Zhuang上海交通大学机器感知与推理联合中心{cohakuel,bingbingni,leezf,ningzhuang}@ sjtu.edu.cn抽象。从自我中心的角度预测未来的活动是特别感兴趣的辅助生活。然而,最先进的以自我为中心的活动理解技术大多不能预测任务,因为它们的同步处理架构在建模事件依赖性或修剪时间冗余特征方面表现不佳 这项工作明确地解决了这些问题,提出了一个异步凝视事件驱动的注意活动预测网络。该网络建立在凝视事件提取模块上,该模块受到以下事实的启发所提取的注视事件被输入到:1)异步模块,其推断事件之间的时间依赖性;以及2)同步模块,其柔和地关注信息性持续时间以用于更紧凑和有区别的特征提取。这两个模块是无缝集成的协作预测。大量的实验结果对自我中心活动的预测以及识别,以及证明了所提出的方法的有效性。关键词:自我中心视频,预测,事件,注视,注意,异步1介绍自我中心(第一人称观点)活动分析[8,28,32]对辅助生活特别感兴趣。 先前的方法[9,22,19]主要集中于活动识别(即, 将那些已经发生的活动分类到不同的类中);然而,对于实际应用,能够在活动发生之前预测该活动是更重要的,尤其是在智能家居场景中。对于一个特定的任务,活动的发生通常是有序的,因此建模连续活动之间的关系可以帮助预测未来的活动。然而,自我中心活动预测的任务对于大多数现有的自我中心方法来说是具有挑战性的,这主要是由于它们的同步处理架构的 局 限 性 , 即 基 于 现 代 化 的 自 我 中 心 的 独 立 性 和冗 余 特 征 。一方面,活动之间的依赖关系是电子邮件:倪冰冰。2杨申等事件调节注意力事件0.30.9 0.6 0.70.5 0.40.8 0.7 0.6 0.9事件“Open“Take“Crack专注的活动预测不图1.一、动机概述。长时程异步依赖在活动预测任务中具有重要意义。因此,我们提出了一种双分支体系结构来处理具有同步时钟的多个事件和同步时钟的信息处理。此外,每个视频序列包含重要帧和冗余帧。事件调节注意模块的目的是修剪冗余特征,得到一个更好的表示序列。通常具有时间依赖性(并且是异步的)。例如,诸如(用)刀舀花生之类的传入活动可能取决于诸如打开花生或“拿刀”之类的其他活动然而,诸如基于LSTM的方法[2,29,4](即,它们通常对不长于10帧的依赖性换句话说,为了预测以自我为中心的活动,好的模型应该利用具有非常长范围的时间上下文的先前发生的相关事件(即,异步依赖性)。在本文中,灵感的事实,视线移动到/离开一个特定的对象密切对应于一个特定的活动的发生/结束,事件被定义为视线移动到/离开一个特定的对象。另一方面,大多数由自我中心的摄像机记录的视频数据是冗余的,这不仅没有传达用于预测后续事件的有用信息,而且还引起对任务有害的噪声。例如,给定一个包括放麦片、取牛奶和打开牛奶的序列,下一个活动是把牛奶倒(到)碗,在这种情况下,放麦片与要预测的活动几乎没有相关性。因此,它是多余的,应该省略。在这个意义上,需要一种机制来暂时关注那些提供信息的帧特征,以用于更高性能的活动预测器。为了明确地解决这些问题,这项工作提出了一种异步注视事件驱动的注意活动预测框架,如图1B所示1.一、同步数据序列异步事件序列基于事件调节注意的3我们构建了一个由凝视事件驱动的双流异步/同步混合网络异步子网络是基于霍克斯过程模型[12]构建的,该模型直接对位于任意时间距离的不同事件之间的相互关系进行建模。同步子网络提取逐帧深度对象和注视特征,并且由注视事件立即触发,以输出信息对象/注视特征的关注时间跨度,从而产生用于事件预测的有区别的局部特征表示。这两个子网络彼此无缝协作,以进行未来活动预测,并且还进行了端到端的训练。大量的自我中心活动预测和识别的实验结果很好地证明了所提出的方法的有效性。2相关工作以自我为中心的视频分析:目前,以自我为中心的视频分析主要集中在活动识别上[8,28,32]。CNN在[26,27]中被用作外观特征提取器,类似于第三人称视觉活动识别研究。[22]提出了一种使用CNN的双流网络来分别分析外观和在以自我为中心的视频分析中,凝视定位是一个重要的线索。凝视分配模型通常来自静态图片观看研究。这导致了用于计算图像显着性的方法[14],其使用低级图像特征,例如颜色对比度或运动,以提供对人类如何定位其注意力的良好解释。然而,与基于对象级信息的那些方法相比,这些低级显著性模型在注视位置预测中表现较差在[9]中,凝视位置Fathi等人[8]提出了一种通过捕获视觉特征和注视点附近的对象的分布来对注视、对象和活动标签之间的时空关系进行建模的方法。Zhang等人[31]提出了一种基于生成对抗神经网络的模型,以预测超出当前帧到未来帧的凝视位置。事件序列分析:递归神经网络[7]被提出来处理具有相关性的序列数据。长短期记忆递归网络(LSTM)是目前最成功的递归神经网络结构,它利用其特殊的单元结构学习帧间的依赖关系,解决了RNN训练中的爆炸和下降消失等难题。LSTM在[13]中首次提出,以遵守远程学习。LSTM用于学习9帧视频片段的特征以实现动作分类[2]。LSTM与卷积神经网络(CNN)相结合,以进一步实现视频分类[25]。除了标准的时间序列建模和RNN的预测之外,异步序列也是RNN的输入,以编码长距离事件依赖性。Du等[5]使用带有事件发生时间戳的异步事件序列作为RNN的输入Xiao等[30]从RNN的角度来看点过程,这是一种有效的数学工具来建模事件数据,4杨申等图二.概述我们的方法。我们建议结合时变特征和长程依赖性来预测未来的活动。时间序列序列(下半部分)和事件序列(上半部分)可以协同建模此外,时间注意力模块输出一系列的注意力分数,以决定哪些帧参加。最后,注意的同步和异步特性都被设置为一个软的大类,以使用activityact=(ymo,yob)来实现冗余。对ATM机维修故障预测的我们的工作是第一次将时间序列和异步序列整合到以自我为中心的视频分析中。注意力机制:注意力机制在序列学习中有很大的作用,通过在编码/解码部分添加一个模型来改变目标数据的权重Mnih等人[23]使用基于注意力的RNN模型从仅具有选定区域序列的图像或视频中提取信息。 Jang等人[15]提出了一种具有空间和时间注意力的基于双LSTM的方法Liu等人[21]在设定级别人员重新识别中增加了质量分数学习在本文中,我们提出了一个新的事件调制的注意力的凝视事件触发处理冗余帧。3方法最先进的以自我为中心的活动研究,主要集中在分类任务[9,8,22,19],不能够预测任务,因为它们的同步处理架构在建模事件依赖性方面表现不佳。另一个缺点是,同步帧包含大量的冗余信息和有害的噪声。出于上述限制,我们提出了一个异步凝视事件驱动的注意活动预测网络。更具体地,给定N个帧的短视频剪辑X ={x1,x2,. . .,xN},我们的网络预测随后的ac-tivity:yact。图 中显示了两个任务的存档。二、此……事件0事件1事件0事件1选择的视频剪辑…异步事件信号序列SSD……评分对应的注视信息目标注视距离特征序列事件调制注意…像素级分割手膜conv6池6FC3乙状L1-正常化平滑-1损失Softmaxfc7FC6FC5异步LSTMFC4评分评分同步LSTMfc2fc1pool5conv5conv4conv3池2conv带注视的对象边界框池1conv基于事件调节注意的5所提出的网络提取同步和异步信息。此外,应用注意力机制,以集中于更高性能活动预测器的信息量更大的帧特征。整个结构主要由三个模块组成:– 异步模块使用凝视事件驱动的LSTM,将事件数据序列作为由凝视触发的输入,处理具有任意距离的事件之间的时间依赖性。– 同步模块使用时间序列LSTM,将手掩模和注视位置信息作为输入,处理同步帧信息,即,即时特征-事件关系。– 事件调节注意力,设计为卷积网络,学习软注意力分数,以暂时注意到那些信息帧特征。然后应用softmax分类器融合提取的同步和异步特征,以预测确保活动(就在giv之后envideoclip):yact. 他的活动被定义为移动+对象(例如,G. 、“c r a c k“+“e gg”)。 yact=(ymo,yob),ymo和yob分别表示最大和最小的标签。3.1异步模块为了对事件依赖性进行建模,基于Hawkes过程[12]构建异步模块,其直接对位于任意时间距离的不同事件之间的相互关系进行Hawkes过程是一种点过程。点过程是用于建模事件数据[1]和事件之间的相互依赖性的原则框架,其位于沿时间轴的任意距离处条件强度函数最初定义如下:λ(t)= lim E(N(t + ∆t)− N(t)|H(t)= E(dN(t)|Ht),⑴∆t→0∆t dt其中λ(t)是以历史Ht为条件的新事件在短时间间隔[t,t+dt)内的发生率 E(dN(t)|H(t)表示在给定历史观测H(t)的情况下,在区间[ t,t + dt)中发生的事件的数量的期望。在霍克斯过程中,条件强度函数由特定的参数化:λHawkes(t)=µ(t)+Σti 1.(八)最后,注意力分数q用作特征分数以确定不同帧特征的重要性。LSTM块:LSTM [13]是处理顺序输入的强大工具具有输入序列:X={X1,X2,. . .,xN},LSTM生成隐藏状态{h1,h2,. . . ,h,N},并输出序列[7]。一个基本的LSTM块包括三个门,输入门it,遗忘门ft和输出门ot,它更新如下[11]:it=σ(Wixt+Uiht−1+Vict−1+bi)ft=σ(Wfxt+Ufht−1+Vfct−1+bf)ct=fcct−1+it*tanh(Wcxt+Ucht−1+bc)(9)ot=σ(Woxt+Uoht−1+Voct−1+bo)ht=ot*tanh(ct)其中Ct是单个存储器单元。σ表示sigmoid函数,*表示逐元素乘法运算符。W、U、V是加权矩阵,b是偏置向量。xt和ht表示输入特征向量和隐藏输出向量。c t的更新方程由两部分组成:先前单元状态的一部分ct-1和创建的新输入状态。双流LSTM:在所提出的框架中,我们设计了两个单独的LSTM模块:同步模块,其单元与时间序列的时间戳对齐,以及异步模块,其单元与事件对齐。如图2、设计了两个LSTM模块:– 为了以任意时间间隔捕获对历史的长程依赖性,异步部分将对象注视距离和事件信号作为其输入。– 同步部分以手势和注视点信息为输入,实时跟踪时间信息。基于事件调节注意的9在LSTM之后建立两个完全连接的层。整个网络由Softmax Loss监控:1ΣNL类=N i=1−yilogyi−(1−yi)log(1−yi),(10)其中,N是训练样本的数量,yi表示地面真值,并且yi是我们的预测标签。4实验在本节中,我们简要介绍数据集(第4.1节),然后分析活动之间的时间依赖性(第4.2节),并给出活动预测(第4.3节),识别(第4.4节)和鲁棒性分析(第4.5节)三个任务的4.1数据集在我们的工作中,我们使用两个公共数据集:GTEA Gaze [9]和GTEAGaze+[8]:这些数据集中的大多数都是在帧和活动标签中的所述公共数据集– GTEA凝视(凝视):该数据集包含14个不同受试者执行的17个膳食准备活动序列,分辨率为640×480。– GTEA凝视+(凝视+):该数据集包含由6名受试者准备7种类型的膳食所执行的37个序列,具有960 × 720的较高分辨率。4.2活动之间的时间依赖性我们将典型的自我中心活动识别任务扩展到未来活动预测任务,因为相邻活动之间存在很强的相关性(例如,在活动取牛奶和打开牛奶之后,很有可能会发生倒牛奶)。为了统计分析相邻活动之间的时间依赖性,我们收集了在Gaze+中制作北美早餐的6个序列和在Gaze中制作三明治的5个序列。相邻活动分布如图所示。在图4中,垂直坐标表示当前活动,水平坐标表示下一活动。此矩阵的每一行表示当前活动之后下一个活动的发生概率百分比。我们的假设是相邻活动之间存在时间依赖性为了验证这一点,我们应用斯皮尔曼相关分析。Spearman相关系数定义为排序变量之间的Pearson相关系数,适用于连续和非连续变量。10杨申等拿面包拿盘子拿花生拿刀拿奶酪拿果酱拿叉子拿勺子打开花生打开果酱打开奶酪放花生放面包放奶酪勺花生/刀涂花生/面包/刀(一)打开冰箱关闭冰箱打开冷冻室关闭冷冻室打开燃烧器关闭燃烧器打开油_容器关闭油_容器打开牛奶_容器关闭牛奶_容器打开柜关 闭 橱 柜 打开 egg_container 关闭 egg_container 打开盐_container关闭盐_container打开冰箱_drawer关闭冰箱_drawer(b)第(1)款见图4。邻近活动的统计数据,以彩色显示效果最佳。(a)凝视16班;(b)凝视+ 18班。垂直坐标表示当前活动,水平坐标表示下一个活动。此矩阵的每一行表示当前活动之后的下一个活动的发生概率百分比。离散有序变量[18]。计算斯皮尔曼相关系数如下所示Σρ=i(xi−x)(yi−y)(xi−x)2(yi−y)2,i = 1,2,…N,(11)我其中xi和yi是原始数据,x和y是数学期望。Gaze+的Spearman相关系数为0。43,相应的p值为6。97× 10 −7 0。05. 根据假设检验理论,我们可以强烈地认为相邻活动之间存在适度的相关性。因此,我们有理由对相邻活动之间的依赖关系进行建模,以预测未来的活动。4.3活动预测我们使用13个序列用于训练和4个序列用于测试GTEA凝视,30个序列用于训练和7个序列用于测试GTEA凝视+。测试集包括每种类型的膳食制备。正如我们在3.1节中所讨论的,我们使用滑动窗口来提取小视频片段(Gaze为1528,Gaze+为4151)作为我们的训练样本,每个包含90- 120帧。在数据准备过程中,我们还得到了手掩模、事件信号序列和目标-注视距离特征训练阶段包括以下步骤:i)单独训练同步分支( 时间序列LSTM,图1A中的下部 )。2,使用 预训练的AlexNet [17]。)而没有注意力分数和异步特征。ii)单独训练异步分支(事件序列LSTM,图1中的上部)2)没有注意力得分和同步特征。iii)用注意力模块和两个分支训练基于事件调节注意的11表1.活动预测和识别的性能。(a)结果来自Fathi”[8]《明史》:“观之以礼,观之以礼。(b)具有对象cnn、SVM融合和联合训练的双流CNN结果[22];(c)2D和3D Ego ConvNet结果(H:手面罩,C:摄像机/头部运动,M:显着图)[28]。(d)我们的方法的结果,对于活动识别,我们使用具有两个同步模型的调整后的网络。凝视(RB)和凝视+(RB)表示通过Rubicon边界标记方法重新注释的子数据集。方法预测识别凝视凝视+凝视凝视+凝视(RB)凝视+(RB)O基于注意力的LSTM 0.648 0.687-对于每个状态,我们使用相同的训练策略:随机梯度下降,动量=0.9,权重衰减=0.0005。我们将指数衰减应用于学习率,Alexnet的初始学习率为0.0001,两个LSTM模块的初始学习率为0.001我们在开源Caffe框架上进行实验[16]。对于预测基线,大多数相关工作集中在活动识别任务上。因此,我们将两个最先进的作品[22,28]调整为活动预测任务,每个包含三种不同的方法。为此,我们只需将识别标签替换为预测标签。 对于我们自己的方法,我们测试了四个不同的网络版本,如下所示:1)时间序列LSTM:没有注意力和异步信息; 2)事件序列LST-M:没有注意力和同步信息; 3)融合LSTM:连接异步和同步特征; 4)基于注意力的LSTM:将异步和同步特征与软注意力分数连接。再现的实验结果示于表1的预测部分中。事件序列LSTM优于时间序列LSTM,这表明历史事件效应对未来活动的发生很重要。所提出的没有注意力的双流LSTM比[22]和[28]好5。6%(7. 3%)和11。8%(13. 7%)。这种改进的原因是,以前的方法只利用同步信息,而我们的网络利用事件触发的异步信息。此外,事件调节注意使预测准确率提高了1. 6%和[8]观察凝视--0.470.510.480.52Object-CNN0.4420.4380.4710.4640.4870.473[22]运动+对象支持向量机0.1920.2640.2840.3470.3050.352运动+对象-关节0.5760.601 0.6240.6640.6360.668H+C+M(2D)0.4370.4620.5080.5340.5230.538[28]H+C+M(3D)0.4920.5040.5250.5420.5360.553H+C+M(2D+3D)0.5140.5370.5490.5810.5600.589时间序列LSTM0.5810.6140.619 0.6710.6540.686事件序列LSTM 0.612 0.659-Fusion LSTM0.6320.674----12杨申等取杯/盘/碗1拿刀2面包3拿花生4号打开花生5勺花生/刀6涂花生/面包/刀7拿果酱8打开果酱9勺果酱/刀10关闭堵塞11涂果酱/面包/刀12三明治面包13关闭花生14喝牛奶15开奶16倒牛奶/杯/盘/碗17关闭牛奶18带上火鸡19号关闭火鸡20拿chees21打开奶酪22拿着carrot 23拿着24号意大利辣香肠拿奶酪25 1 5 10 15 20 25(一)关闭冷冻箱1关闭冰箱2关闭冰箱抽屉3关闭油箱4压缩三明治5裂蛋杯/盘/碗6切蘑菇刀7切辣椒刀 8切番茄刀9打开的面包容器10打开的冷冻室11打开冰箱12打开冰箱抽屉13打开微波炉14打开油箱15倒油油容器煎锅16放面包杯/盘/碗17放杯/盘/碗18放蜂蜜容器19放刀20放刀杯/盘/碗21放生菜容器22放生菜杯/盘/碗23放牛奶容器24放油容器25放塑料刮刀26放番茄杯/盘/碗27阅读食谱28拿面包面包容器29拿杯子/盘子/碗30取杯/盘/碗盘容器31取蜂蜜容器32拿刀33拿刀杯/盘/碗34拿生菜容器35拿牛奶容器36取油容器37取塑料楔子38拿番茄杯/盘/刀39关闭燃烧器40关闭龙头41打开燃烧器42打开龙头43打开蜂蜜容器441 5 10 15 20 25 30 35 4044(b)第(1)款图五、我们提出的用于活动预测的方法的混淆矩阵,最好以颜色查看。(a)凝视25班;(b)凝视+44班。1 .一、在Gaze和Gaze+上分别占3%。这是因为时间注意力机制大大减少了冗余和噪声帧的负面影响混淆矩阵(使用具有注意力的双流LSTM)如图所示五、为了进一步显示注视运动对活动的重要性,我们还测试单个运动预测的准确性。如表2左侧所示,我们的结果优于基线[22]。原因在于,注视运动信息的序列是运动预测的最重要线索。使用光流/CNN来分析运动的传统方法[22]很容易通过摄像机和摄像机的图像来实现,而我们的图像处理技术是可以解决问题。4.4活动识别我们将我们的预测框架应用于一组水平的活动识别任务。我们提取新的视频剪辑(3568用于凝视,10624用于凝视+)作为我们的训练样本,每个视频剪辑包含7帧相同的标签。我们通过移除事件信号序列将异步分支调整到另一个同步分支因此,我们的活动识别网络(包含两个同步分支)由两个时间序列LSTM模块组成。训练策略类似于活动预测任务。对于对比实验,我们在Gaze和Gaze+上训练了三种不同的方法[8,22,28]。Faith等人采用了观察凝视方法[8]通过捕捉视觉特征和注视点附近的对象的分布,对注视、对象和活动标签之间的时空关系进行建模。其他两个模型[22,28]实现了最先进的结果,这是我们的基线。结果示于表1的识别部分中。我们的方法优于Gaze+中最先进的方法,并且略逊于基于事件调节注意的13表2.运动预测和识别的性能。(a)来自Ma等人的联合训练的双流CNN结果。[22];(b)我们的方法的结果,基于注意力的LSTM用于运动预测和时间序列LSTM用于运动识别。方法预测识别凝视凝视+凝视凝视+[22]联合训练CNNs 0.3080.5760.363 0.651我们的时间序列LSTM--0.526 0.788基于注意力的LSTM 0.612 0.842--[22]在凝视中的联合训练方法一个原因是,我们的方法是集级识别,而基线都是帧级识别。序列中的帧是互补的另一个原因是凝视和凝视+包含许多过渡帧(在相邻活动之间),导致这些帧之间的模糊标记问题。因此,我们使用[24]提出的Rubicon Boundaries标记方法来重新注释Gaze和Gaze+的标签(表示为Gaze(RB)和Gaze+(RB))。我们只使用活动阶段的子段作为我们的子数据集,并删除活动前和连接阶段的子段。结果见表1。我们的方法优于所有其他方法的一个很大的保证金。我们还测试了运动识别的准确性,我们的方法优于基线[22],这表明注视运动可以带来比光流更多的运动信息,因为分析运动的光流很容易受到相机抖动的影响。4.5鲁棒性分析为了测试我们的网络的鲁棒性,我们在特征上随机添加具有不同方差的高斯噪声,然后将其发送到LSTM中进行活动预测任务(使用具有/不具有注意力机制的双流LSTM)。对于同步模块,我们随机地在手掩模和注视的级联上添加噪声。对于异步模块,我们在对象定位网络之后的包围盒分数上添加噪声对于我们的基线,我们在手部遮罩、显著性图和光流上添加相同的结果来自Fig. 6表明,我们的方法优于我们的基线后,添加不同方差的高斯噪声。没有注意力的双流LSTM的准确性下降了14。5%(15.5%)的凝视(凝视+),而下降19。7%(19. 8%)的Ma et al.[22]和24。9%(21. 0%)的Singh等。[28]凝视(凝视+)。我们的结论是,这主要是由于不同的功能表示。我们的方法使用序列信息作为输入,主要关注对单帧噪声不敏感的长期上下文特征,而我们的基线关注帧级识别,对单帧噪声更敏感。下降了13。1%(13. 9%)在添加事件14杨申等我们的(凝视)Ours(without attention)(Gaze)Ma et al.关节(凝视)Singh等人2D+3D(凝视)精度0.8 0.80.7 0.70.6 0.60.5 0.50.4 0.40.3 0.30.20 0.02 0.05 0.10.2高斯噪声方差(一)0.20 0.02 0.05 0.1 0.2高斯噪声方差(b)第(1)款见图6。通过在我们的方法和两个数据集的基线上添加高斯噪声的活动预测的结果(a)凝视;(b)凝视+,以彩色观看最佳。虚线和实线分别是关于Gaze和Gaze+的结果我们展示的方法是我们的方法的融合LSTM,马等人的运动对象联合训练[22]和Singh等人的具有2D和3D的Ego[28]第10段。注意,噪声对我们的方法的影响最小这表明我们从时间注意力模块获得的软注意力分数可以进一步降低单帧噪声的影响。这是因为时间注意力模块可以关注那些更重要的帧,并且我们的基线平等地采用所有帧。5结论我们将典型的自我中心活动识别任务扩展到未来的活动预测任务,因为我们证明了相邻活动之间存在适度的相关性。我们已经开发了一个凝视事件驱动的注意力活动预测网络,以整合同步和异步信息,建模为背景和事件激励。异步事件被定义为凝视移入/移出被操纵对象。我们相信,我们的工作肯定会有助于推进自我中心活动分析领域。6承认本研究得到了国家自然科学基金项目(U161146161502301,61521062)的资助。本研究得到了上海交通大学-加州大学洛杉矶分校机器感知与推理联合中心的支持,同时也得到了中国科技大学的部分支持。上海交通大学人工智能研究所,MoE部人工智能重点实验室。这项工作得到了NSFC 61671298,STCSM 17511105400的部分支持。我们的(凝视+)Ours(without attention)(Gaze+)Ma et al.关节(凝视+)Singh等人2D+3D(凝视+)精度基于事件调节注意的15引用1. Aalen,O.,Borgan,O. Gjessing,H.:生存和事件史分析:过程的观点 。 SpringerScienceandBusinessMedia ( 2008 ) , http :doi.org/10.1162/neco.1997.9.8.17352. Baccouche,M.,Mamalet,F.,Wolf,C.加西亚角Baskurt,A.:基于长短期记忆递归神经网络的足球视频动作分类。在:ICANN. pp. 1543. Borji,A.,Sihite,D.N.,Itti,L.:特定任务视觉注意的概率学习。In:CVP R.pp. 4704. 周,K.,van Merrienboer,B., Bahdanau,D., Bengio,Y.: 关于神经机器翻译的特性:编码器-解码器方法。在:SSST@EMNLP的会议记录中。pp. 103- 111(2014),http:// a clw e b. org/a n thology/W/W14/W14-4012.pdf5. Du, N.,Dai,H.,特 里维迪河Upadhyay, U. Gomez-Rodriguez ,M.,Song,L.:回流标记的时间点过程:将事件历史嵌入到向量中。在:第22届ACMSIGK DD Inter natinalConf e r e dinge。pp. 15556. Einhauser,W.,西班牙,M. Perona,P.:物体比早期显著性更能预测注视。视觉杂志8(14),18.1(2008)7. E lman,J. L. :发现了一个新的趋势。CognitiveScience14(2),179 - 211(1990)8. Fathi,A.,李,Y.,J. M. Bogg:学习使用凝视识别日常行为。In:ECCV.pp. 3149. Fathi,A.,Ren,X.,J. M. Bogg:学习在自我中心活动中识别物体。 In:CVPR. pp. 328110. Girshick,R.B.:快速R-CNN。CoRR abs/1504.08083(2015),http://arxiv.org/abs/1504.0808311. 格雷夫斯,A.:使用递归神经网络生成序列。CoRR ab- s/1308.0850(2013),http://arxiv.org/abs/1308.085012. 霍克斯,G.,答:一些自激和互激点过程的谱Springer Science and BusinessMedia(1971),https://doi:10.2307/233431913. Hochreiter,S.,Schmidhuber,J.:长短期记忆。神经计算9(8)、173 514. 伊蒂湖Koch,C.,尼布尔,E.:基于显著性的快速搜索视觉注意模型。IEEETrans.PattternAnal.Mach。我告诉你。20(11),125415. Jang,Y.,Song,Y.,Yu,Y.,Kim,Y.,Kim,G.:TGIF-QA:面向时空关系的虚拟现实。In:CVPR.pp. 135916. Jia,Y.,Shelhamer,E.,Donahue,J.,Karayev,S.,朗JGirshick,R.B.,瓜达尔-拉马,S.,达雷尔,T.:Caffe:用于快速特征嵌入的卷积架构In:ACMMM.pp. 675- 678(2014),http://www.hk.org/hk.org/ acm.org/10。1145/2647868。265488917. Krizhevsky,A.,萨茨克弗岛Hinton,G.E.:具有深度卷积神经网络任务的图像网分类。 In:NIPS. pp. 110618. L ehman , A. , O' R Ourk e , N . , Hatcher , L. , stepapanski , E. :Jmpforrbasicivariateeandmultivariate statistics:研究人员和社会科学家的方法第二版。第123(2005)号决议19. Li、Y. 是的Z Rehg,J. M. :将定义定义为目标跟踪。 In:CVPR. pp. 28720. 刘伟,Anguelov,D.,Erhan,D.,塞格迪角Reed,S.E.,Fu,C.,Berg,A.C.:SSD:singergleshotmutiboxdetectorr. In:ECCV. pp. 2116杨申等21. Liu,Y.,Yan,J.,欧阳文:用于集对集识别的质量感知网络In:CVPR. pp. 469422. 妈妈,M.,Fan,H.,Kitani,K.M.:深入了解第一人称活动识别。In:CVPR. pp. 189423. Mnih,V.,Heess,N.格雷夫斯,A.,Kavukcuoglu,K.:视觉跟踪的递归 模 型 。 In : NIPS. pp.2204- 2212 ( 2014 ) , http : //papersr. nips. edu.org/2014/2014/2014/2014/2014/2014/2014/2014/2014/2014/2014/2014/2014/2014/2014/2014/2014/2014/2014/2014/2014/2014/2014/2014/2014/2014/2014/2014/2014/2014/2014/2014/2014/2014/2014/2014/2014/2014/2014/2014/2014/2014/2014/CC/PAPER/5542-视觉注意力循环模型24. Moltisanti,D.,Wray,M.,Mayol-Cuevas,W.W.,Damen,D.:越界:标记自我中心视频中对象交互的时间边界。In:ICCV. pp. 290525. Ng,J.Y.,Hausknecht,M.J.,Vijayanarasimhan,S.,Vinyals,O.,蒙加河Toderi- ci,G.:除了简短的片段:用于视频分类的深度网络。在:CVPR中。pp. 469426. Poleg,Y.,Ephrat,A.,Peleg,S.,阿罗拉,C.:用于索引以自我为中心的视频的紧凑CNN。 In:WACV. pp. 2016年127. Ryoo,M. S.,Rothrock,B. Matthies,L.H.:用于第一人称视频的汇集运动特征。 In:CVPR. pp. 89628. 辛格,S.,阿罗拉角Jawahar,C.V.:第一人称动作识别。In:CVP R.pp.262029. 萨茨克弗岛Vinyals,O.,Le,Q.V.:使用神经网络工作的序列到序列学习。 In:NIPS. pp. 3104- 3112(2014),http://pp.nips. cc/paper/5346-使用神经网络的序列到序列学习30. Xiao,S.,Yan,J.,杨,X.,查,H.,Chu,S.M.:通过响应神经网络工 作 对 点 的 强 度 函 数 进 行 建 模 。In
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 新代数控API接口实现CNC数据采集技术解析
- Java版Window任务管理器的设计与实现
- 响应式网页模板及前端源码合集:HTML、CSS、JS与H5
- 可爱贪吃蛇动画特效的Canvas实现教程
- 微信小程序婚礼邀请函教程
- SOCR UCLA WebGis修改:整合世界银行数据
- BUPT计网课程设计:实现具有中继转发功能的DNS服务器
- C# Winform记事本工具开发教程与功能介绍
- 移动端自适应H5网页模板与前端源码包
- Logadm日志管理工具:创建与删除日志条目的详细指南
- 双日记微信小程序开源项目-百度地图集成
- ThreeJS天空盒素材集锦 35+ 优质效果
- 百度地图Java源码深度解析:GoogleDapper中文翻译与应用
- Linux系统调查工具:BashScripts脚本集合
- Kubernetes v1.20 完整二进制安装指南与脚本
- 百度地图开发java源码-KSYMediaPlayerKit_Android库更新与使用说明
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功