没有合适的资源?快使用搜索试试~ 我知道了~
无监督学习视频运动动态的压缩编码方法
2203视频长期运动动态的无监督学习Zelun Luo,Boya Peng,De-An Huang,Alexandre Alahi,LiFei-Fei斯坦福大学{泽伦罗,博雅,大黄,阿拉希,菲菲莉}@ cs.stanford.edu摘要我们提出了一种无监督的表示学习方法,对视频中的运动依赖性进行压缩编码。给定来自视频剪辑的一对图像,我们的框架学习预测长期的3D运动。为了降低学习框架的复杂性,我们提出将运动描述为使用RGB-D模态计算的原子3D流的序列。我们使用基于递归神经网络的编码器-解码器框架来预测这些流序列。我们认为,为了让解码器重建这些序列,编码器必须学习一个鲁棒的视频表示,捕捉长期的运动依赖性和时空关系。我们证明了我们学习的时间表示在多模态和数据集(如NTU RGB+D和MSR日常活动3D)上对活动分类的有效性我们的框架是通用的任何输入模态,即,RGB、深度和RGB-D视频。1. 介绍人类活动通常可以被描述为一系列基本动作。例如,像刷头发或挥手这样的常见活动可以被描述为手部的连续升高和降低的序列在过去的几年里,研究人员已经研究了多种策略来有效地表示运动动态并对视频中的活动进行分类[38,20,42]。然而,现有的方法无法对长期运动依赖性进行压缩编码。 在这项工作中,我们建议学习一个表示,可以通过学习预测它来描述运动的序列。换句话说,我们感兴趣的是学习一种表示,给定一对视频帧,可以预测基本运动的序列(见图1)。 我们相信,如果学习的表示已经编码了足够的信息来预测运动,那么它就足以对视频中的活动进行分类。因此,我们的最终目标是使用我们学习的表示来对视频中的活动进行分类。为了对活动进行分类,我们认为视频表示不仅需要捕捉语义,还需要捕捉图1. 我们提出了一种方法,通过预测一系列的基本运动描述为原子3D流来学习视频表示然后从该模型中提取学习的表示以识别活动。长时间序列中的运动依赖性。由于存在鲁棒的表示来提取语义信息[29],因此我们将精力集中在学习对连续帧中的基本运动序列进行编码的表示上。我们将基本运动定义为原子3D流。通过使用RGB-D模型在空间和时间上量化估计的稠密3D流来计算原子3D流。给定来自视频剪辑的一对图像,我们的框架学习可以预测原子3D流序列的表示。我们的学习框架是无监督的,即。它不需要人工标记的数据。不依赖标签有以下好处。 目前尚不清楚有多少标签来理解视频中的活动。对于单个图像,在提取语义信息时,已经使用了数百万个标签来超过人类水平的准确性[29]。因此,我们预计视频将需要多几个数量级的标签来学习监督设置中的把这些标签都收集起来是不现实的。最近,已经提出了一系列无监督方法来从视频中学习时间结构这些2204方法是以各种目标--监督来制定的。一些人专注于构建未来的帧[32,23],或者强制学习的表示在时间上平滑[53],而其他人则利用从视频中采样的帧的顺序排序[17,44]。尽管它们显示出有希望的结果,但大多数学习的表示仍然主要集中在捕获语义特征[17],或者由于输出监督太大和粗糙(例如,帧重构)。当学习预测运动的表示时,需要以下属性:输出监督需要具有i)低维度,i i)易于参数化,以及iii)对于其它任务足够有区别性。我们解决前两个属性,通过减少通过聚类的流的维数。然后,我们通过用深度模态增强RGB视频来解决第三个属性,以推理3D运动。通过推断3D运动,而不是视图特定的2D光流,我们的模型能够学习一个中间表示,捕捉较少的视图特定的时空交互。与2D密集轨迹[38]相比,我们的3D运动具有更低的维度。此外,我们专注于推断基本运动的序列,该序列描述了与在空间和时间上跟踪关键点相反的活动。我们声称,我们提出的运动描述使我们的学习框架能够预测更长的运动依赖关系,因为输出空间的复杂性降低了在第5.2节中,我们定量地证明了我们提出的方法在活动识别方面优于以前的方法。我们的工作贡献如下:(i) 我们建议使用基于递归神经网络的编码器-解码器框架来有效地学习预测基本运动序列的表示。鉴于现有的无监督方法将运动描述为单个光流[37]或2D密集射束[38],我们建议将其描述为长时间内的原子3D流序列(第3节)。(ii) 我们是第一个探索和推广跨不同模式的非监督学习方法我们研究了我们的无监督任务的性能-预测基本运动的序列-使用各种输入方式:RGB →运动、深度→运动和RGB-D →运动(第5.1节)。(iii) 我们展示了我们的学习表示在多个模态和数据集上的活动识别任务的有效性(第5.2节)。在其引入时,我们的模型在模态(RGB和深度)上优于最先进的无监督方法[17,32]2. 相关工作我们首先介绍了以前关于图像和视频的无监督表示学习的工作。然后,我们简要概述了现有的方法,分类活动在多模态视频。无监督表示学习。在RGB域中,视觉表示的无监督学习已经显示出对各种监督任务的有用性,例如行人检测和对象检测[1,26]。 去利用时间结构,研究人员已经开始专注于使用RGB视频学习视觉表示。早期的作品,如[53],专注于通过视频到自动编码器框架的约束。最常见的约束是强制学习的表示在时间上是平滑的[53]。最近,已经提出了一系列基于重建的模型。Ranzato等人[23]提出了一种生成模型,该模型使用递归神经网络来预测下一帧或在帧之间插值。这是由Srivastava et al.[32]他们利用LSTM编码器-解码器框架来重建当前帧或预测未来帧。另一条工作线[44]使用视频数据来挖掘与同一对象相关的补丁Misra et al.[17]提出了一种方法来学习视觉表示与无监督的顺序验证任务,并显示性能增益监督任务,如活动识别和姿态估计。学习表示的一个常见问题是,它们主要捕获我们可以从ImageNet或短距离活动中获得的语义特征,忽略了时间特征。RGB-D /基于深度的活动识别 该领域中的活动识别技术使用外观和运动信息来推理非刚性人体变形活动。基于特征的方法例如HON4D[20]、 HOPC[21]和DCSF[46],在时间网格状结构中捕获时空特征。基于骨架的方法,如[5,22,35,39,50],超越了这种稀疏的网格状池化,并专注于如何提出良好的骨架表示。Haque等人[4]提出了一种替代骨架表示的方法,即使用循环注意模型(RAM)。另一个工作流使用概率图形模型,如隐马尔可夫模型(HMM)[49],条件随机场(CRF)[12]或潜在方言分配(LDA)[45]来捕获时空结构并从RGB-D视频中学习活动中的关系。然而,这些工作大多需要大量的特征工程,并且只能建模短程动作关系。用于RGB-D/基于深度的活动识别的最新方法[15,16]报告了在MSR-DailyActivity 3D [14]和CAD-120 [33]等成熟数据集上的人类水平性能。然而,这些数据集通常是在各种约束条件下构建的2205图2. 我们提出的学习框架基于LSTM编码器-解码器方法。在编码步骤期间,下采样网络(称为请注意,我们使用一对帧作为输入,以减少时间模糊性。然后,LTSM学习时间表示。然后,利用上采样网络(称为“Deconv”)对该表示进行包括单视图、单背景或具有非常少的对象。另一方面,[27]表明有一个大的在T个时间步长上的3D流:Y^1,Y^2,.,Y^T,其中是在时间t处的原子3D流(参见图2)。 注意人类和现有方法之间的性能差距Xi∈R 高×宽 ×深且Y^t∈R高×宽×3,其中D是数字。更具有挑战性的数据集[27],其中包含大量更多主题、观点和背景信息。基于RGB的活动识别。在过去的几年里,活动识别在短期内取得了很大的进展剪辑[13,51,28,38,40]。这些作品大致可分为两类。 第一类聚焦手工制作的本地功能和视觉词袋(BoVW)表示。 最成功的例子是提取改进的轨迹特征[38]并采用Fisher矢量表示[25]。第二类利用深度卷积神经网络(ConvNets)从原始数据(例如,RGB图像或光流场)并以端到端的方式训练识别系统最具竞争力的深度学习模型是深度双流ConvNets[42]及其后继者[43,41],它们结合了ConvNets提取的语义特征和捕获运动的传统光流。然而,与图像分类不同的是,使用深度神经网络相对于传统手工特征的优势并不十分明显。这可能是因为深度网络的监督训练需要大量数据,而目前的RGB活动识别数据集仍然太小。3. 方法我们的方法的目标是学习预测基本运动序列的表示,这些基本运动被定义为原子3D流(在3.1节中详细描述)。问题的公式如下:给定一对图像,我们的目标是预测原子的排列顺序输入通道的BER,H、W分别为视频帧的高度和宽度 在第5节中,我们对来自三种不同模态的输入进行了实验:仅RGB(D=3),仅深度(D=1)和RGB-D(D= 4)。学习的表示-图2中的红色长方体-然后可以用作活动识别的运动特征(如第4节所述)。 在本节的剩余部分中,我们首先详细介绍如何描述基本运动。然后,我们提出了学习框架。3.1. 原子3D流序列为了有效地预测基本运动的序列,我们需要将运动描述为低维信号,以便易于参数化,并且对于其他任务(如活动识别)具有足够的区分力。受用于图像压缩的矢量量化算法的启发[9],我们提出通过在空间和时间上量化估计的3D流(称为原子3D流)来解决第一个目标。我们通过推断3D流的长期序列而不是单个3D流来解决判别属性。有了这些属性,我们的学习表示有能力捕捉长期的运动依赖性。3D推理鉴于以前的无监督学习方法在RGB空间中对2D运动建模[37],我们提出预测3D运动。与RGB输入一起使用深度信息的好处是克服诸如纹理、照明、形状、视点、自遮挡、杂波和遮挡的变化的我们用深度模态增强RGB视频并估计3D流2206×3×∈F ∈ ∈F×^ ^您的位置:∈√图3. 关于预测运动的定性结果:长期流量预测的两个示例(8个时间步,0.8s)。右手边说明了“起床”活动,而右边则表示“坐下”活动。A:Ground truth 3D flow。每一行分别对应于沿x、y、z方向的流。B:预测的3D流。C:地面真实深度。绿色框中的两个帧是输入。D:通过添加地面实况深度和预测流量重建的深度。E:通过将先前重构深度和预测流相加而重构的深度,除了第一帧,在第一帧的情况下使用地面实况深度[8]以减少每个独立模态中存在的模糊程度。用序列推理。以前的无监督学习方法将运动建模为单个光流[37]或多个帧上的密集轨迹[38]。第一种方法具有用单个固定大小的图像表示运动的优点然而,它仅编码短距离运动。第二种方法解决了长期运动依赖性,但难以有效地对每个关键点进行建模。我们提出了第三种选择:模型的运动作为一个序列的流。受RNN最近成功预测图像序列的启发[34],我们提出学习预测长时间内的流序列。为了简化序列的预测,我们可以进一步将流转换为更低维度的信号(称为原子流)。用原子流推理。流量预测可以被视为回归问题,其中损失是地面真实流量和预测流量之间的平方欧几里德距离。不幸的是,像素空间中的平方欧几里德距离不是一个很好的度量,因为它对小的图像变形不稳定,并且输出空间倾向于将结果平滑到均值[23]。相反,我们使用Z =(Y)将流量预测任务公式化为分类任务,其中YRH× W×3,ZRh× w × K,并将Y中的每个非重叠MM3D流补丁映射到K个量化类上的概率分布(即,原子流)。 更具体地,我们为每个MM流补丁在K个量化码字上分配软类标签,其中M=H/h=W/w。 在将每个补丁映射到一个概率分布之后,我们得到了所有补丁上的概率分布ZRh×w ×K我们研究了三种量化方法:k均值码本(类似于[37]),均匀码本和可学习码本(用k均值或均匀码本初始化,并训练端到端)。我们得到了最好的结果,使用统一的码本和训练码本端到端只会导致微小的性能增益。K-均值码本导致较差的性能,因为缺乏平衡导致K-均值产生较差的聚类。我们的均匀量化执行如下:我们通过将有界3D流量化为相等大小的bin来构造码本C R K × 3,其中我们沿着每个轴具有K个不同的类。 对于每个M M3D流补丁,我们计算其平均值并从码本中检索其k个最近邻居(每个表示一个流类)。实际上,我们发现最近邻的数量k>1(软标签)会产生更好的性能。为了从预测分布Z重构预测流Y,我们将每个码本分布替换为码字的线性组合根据经验确定参数,使得K = 125(在每个维度上5个量化仓)并且M=8。3.2. 学习框架为了学习对视频中的长期运动依赖性进行编码的表示,我们将学习框架转换为序列到序列问题。我们建议使用基于递归神经网络(RNN)的编码器-解码器框架来有效地学习这些运动依赖关系。给定两个帧,我们提出的RNN预测原子3D流的序列。图2呈现了我们的学习框架的概述,其可以分为编码和解码步骤。在编码期间,下采样网络(被称为2207^−∈Σ˜图4.我们提出的活动识别网络架构。每对视频帧都是用我们学习的节奏表示(固定权重)编码的然后,训练分类层以推断活动。输入帧。然后,LTSM遍历提取的特征序列然后用上采样网络(“Deconv”)解码该表示LSTM编码器-解码器框架[34]为序列到序列学习问题提供了一个通用框架,其捕获长期时间依赖性的能力使其成为该应用程序的自然选择然而,普通的LSTM并没有考虑空间相关性。事实上,将它们放在上采样和下采样网络之间会导致收敛速度慢得多,性能明显变差,与没有LSTM的单步流预测相似。为了在中间表示中保留空间信息图5. NTU-RGB+D上的运动预测误差。我们绘制了在不同输入方式下估计原子3D流相对于时间的每像素均方根误差流动补丁3.3. 损失函数最后,我们定义了一个损失函数,它是稳定的,易于优化的运动预测。如第3.1节中所述,我们定义原子3D流空间C上的地面真值分布Z和预测的分布Z1:H′W′K站,我们使用卷积LSTM单元[47],它在输入到状态和状态到状态转换中都具有卷积结构这里有更多的细节downsam-Lce(Z,Z)=wki=1j =1k =1兹伊克logZ^ ijk(一)采样和上采样网络:下采样网络(“Conv”)。我们训练卷积神经网络(CNN)从每个输入帧中提取高级我们的网络架构类似于标准VGG-16网络[29],但有以下修改。我们的网络是完全卷积的,前两个完全连接的层转换为卷积,具有相同数量的参数以保留空间信息。最后一个softmax层被一个卷积层替换,卷积层的滤波器大小为1×1×32,结果是一个形状为7×7×32的下采样输出。一批其中wRK是用于基于每个原子流矢量的频率来重新平衡损失的加权矢量。原子3D流的分布强烈地偏向于具有小流量大小的类,因为在背景中几乎在不考虑这一点的情况下,损失函数由具有非常小的流量幅度的类主导,导致模型仅预测表示没有运动的类0。按照[52]中的方法,我们定义类权重w如下:归一化层[7]被添加到每个卷积层的输出。另外,第一卷积层中的输入声道的数量根据以下参数来适配:模态w。λ−1(1−λ)p+K和Σk=1pkwk=1(2)上采样网络(“Deconv”)。我们使用具有分数步幅卷积的上采样CNN[31]来执行空间上采样和原子3D流预测。一叠五个分数步长卷积的上采样,每个输入到预测分布Z^∈Rh×w×K,其中Z^ij其中p是码字的经验分布,码本C,并且λ是平滑权重。4. 活动识别我们学习表示的最终目标是分类-在视频中进行活动我们使用我们的编码器架构K表示第(i,j)个2208^^方法深度RGB我们的建筑只37.534.1我们的方法(使用2D运动)58.8–我们的方法(3步预测)62.554.7我们的方法(8步预测)66.256表1. 使用NTU-RGB+D数据集[27]进行活动识别的定量结果,输入方式如下:深度和RGB。我们报告了消融研究以及完整模型的平均AP百分比(粗体)。我们以百分比报告平均AP。从无监督学习到活动识别。在编码器输出的顶部添加最终分类层以分类活动。为了研究我们的学习表征的有效性,我们考虑以下三种场景:1. 随机初始化我们架构的权重,并使用可用于监督任务的标签学习它们2. 使用我们学习的表示初始化权重,并在活动识别数据集上进行微调;3. 保持预训练的编码器固定,只微调最后一个分类层。请注意,我们没有将我们学习的表示与任何预先训练的语 义表示(例 如在ImageNet 上学习 的fc7 表示[24])相结合。我们认为,为了让我们的模型学习预测基本运动,它需要理解语义内容。我们遵循[28]中描述的相同数据采样策略。在训练期间,通过从8个训练视频中采样来构造8个样本的小批量,从每个训练视频中随机选择一对连续帧。对于场景(i)和(iii),学习率最初设置为10−4,衰减率为0。每2000步96次。对于sce- nario(ii),编码器和最终分类层的初始学习率分别设置为10-5和10-4,具有相同的衰减率。在测试时,我们从每个视频中均匀采样25帧,并对采样帧的分数进行平均,以获得视频的类分数。我们提出的分类方法是故意简单,以显示我们的学习表示的强度。此外,我们的方法是计算有效的。它是实时运行的,因为它包含通过我们编码器的前向传递。最后,我们学习的表示是紧凑的(7×7×32),能够在嵌入式设备上实现表2. 使用NTU-RGB+D数据集进行基于深度的活动识别的定量结果[27]。第一组(行)呈现了最先进的基于监督深度图的方法;第二组报告了基于监督的方法;第三种是基于神经网络的深度学习方法;第四种是我们最近提出的无监督方法;最后一行展示了我们的完整模型。我们以百分比报告平均AP。5. 实验我们首先介绍了我们的无监督学习任务的性能,即。使用包括RGB、深度和RGB的各种输入模态来预测运动序列D. 然后,我们研究了我们学习的表示在多个模态和数据集上对活动进行分类的有效性5.1. 长时间运动的无监督学习数据集。我们使用公开的NTU RGB+D数据集[27]来训练我们的无监督框架。该数据集包含60个动作类、40个子类别和80个视点的57K视频。我们将40名受试者分为训练组和测试组,如[27]所述。每组由20名受试者组成,其中训练集和测试集分别有40,320和16,560个样本。培训详情。我们使用16号的小批量。 该模型使用Adam优化器训练50个epoch,初始学习率为1e−4[10]。每当验证准确率停止上升时,我们将学习率除以10该网络是L2正则化的,权重衰减为5e−4。对于分类,我们使用平滑λ= 0。五、评价我们测量地面实况流Y和预测流Y之间的均方根误差(RMSE)。F1分数用于测量地面实况索引表Z和预测索引表Z之间的分类误差。结果在图5中,我们绘制了不同输入模态(RGB,深度,RGB-D)和预测时间(3和8个时间步)的预测误差。我们还报告了方法深度HOG[19]32.24[48]第四十八话31.82HON4D[20]30.56李群[35]50.08[3]第三届全国政协委员38.62FTP动态链接[6]60.23HBRNN-L[2]59.072层P-LSTM[27]62.93[17]第十七话47.5无监督训练(UnsupervisedTraining)66.22209图6.我们模型的详细架构 Conv显示了我们的下采样网络的架构; LSTM表示编码器-解码器框架; Deconv显示了我们的上采样网络的架构。使用单个输入帧预测下一帧的预测误差类似于[37](蓝点)。直观上,错误是最高的,因为在用单个输入图像进行推理时存在模糊性有趣的是,当预测8个时间步时,所有输入模态的表现非常相似。RGB模态与其他两种模态相比具有相当的竞争力,尽管没有测量3D信息。当使用所有4个通道时,即,RGB-D输入,性能仍然类似于使用其他模态。总误差随着前4帧线性增加,并在最后4帧稳定。与预测较长序列的方法相比,仅预测接下来的3帧的所有方法具有类似的预测误差。因此,我们的模型有足够的能力来学习更难的问题,即。预测长序列。在图3中,我们定性地显示了使用深度模态的预测输出我们通过从预测流重建输入帧(深度图像)来说明结果我们的方法还没有经过训练来准确地重建信号。然而,重建的信号传达了预测的准确性。5.2. 活动识别我们将我们的活动识别性能与每种模态的最先进的监督方法进行比较。此外,我们对我们的无监督方法进行了消融研究,并与最近提出的无监督方法进行了比较。我们的方法与2D运动。而不是预测3D运动,我们预测的量化的2D光流的形式的2D运动我们的三步预测方法。我们预测接下来三帧的动作。请注意,我们提出的方法使用8步预测。[17]第十七话给定来自视频的三个帧的元组,该模型预测这三个帧是否处于正确的时间顺序。我们使用TensorFlow实现了上述模型,并在NTU RGB-D数据集上进行了序列验证任务的训练,遵循与[17]中指定的相同的数据采样技术和无监督训练策略。图7. MSR-DailyActivity 3D数据集上的动作识别混淆矩阵[14]。具有大运动的活动比具有细粒度运动的活动更好地分类。5.2.1基于深度的活动识别数据集。我们在两个数据集上训练和测试我们的基于深 度 的 活 动 识 别 模 型 : NTU-RGB+D 和 MSRDai-lyActivity3D [14]。对于NTU-RGB+D,我们遵循如[27]中所述的跨主题分割。MSRDailyActivity3D数据集包含由10名受试者执行的16项活动。我们遵循与[11]中相同的留一法训练-测试分割。我们有意使用这个额外的MSRDailyActivity3D数据集,它与我们用于非监督训练的数据集不同,以显示我们在新领域(不同的观点和活动)中学习的表示的有效性。NTU-RGB+D上的结果。表2显示了NTU-RGB+D数据集的分类准确性。第一组方法使用深度图作为输入,而第二组和第三组方法使用骨架特征。第三组方法是基于深度学习的模型。我们提出的方法优于最先进的监督方法。我们使用我们学习的表示,预测接下来的8帧,而无需在分类任务中对其进行微调。有趣的是,微调编码器的权重并没有提高性能。NTU-RGB+D的消融研究。在表1中,我们展示了更多关于设计选择的见解。我们首先表明,通过使用我们的编码器架构而不进行预训练来预测运动(称为“仅我们的架构”),分类准确度(平均AP)是最低的。然后,我们表明,建模3D运动,而不是2D运动的积极影响的性能。最后,我们报告的结果时,较短的序列(3步预测)是en-2210方法深度[18]第十八话54.0[39]第三十九话85.8HON4D[20]853D轨迹[11]72无监督训练(UnsupervisedTraining)86.9表3. 使用MSRDailyActivity3D数据集进行活动识别的定量结果[14]。斜体的方法需要完整的骨架检测。我们的方法已经从不同的数据集学习了视频表示,并且没有在这个数据集上进行微调。我们以百分比报告平均AP。在无人监督的训练中被编码了将序列长度增加到8个时间步长可提高分类准确性。通过对长期依赖性进行编码,我们的表示的辨别能力得到了提高。为了完整起见,我们还使用来自NTU RGB-D数据集的RGB视频微调了我们的活动识别模型。我们注意到,结果与基于深度的活动识别相当,并且遵循消融研究的相同趋势(即,在3D中预测较长的运动产生更好的性能)。MSRDailyActivity3D 上 的 结 果 。 表 3 显 示 了MSRDailyActivity3D数据集[14]的分类准确性,图7显示了其混淆矩阵。斜体显示的方法需要骨架检测,而第四个方法使用密集3D轨迹。请注意,我们的无监督学习任务尽管如此,我们的性能优于以前的工作,特别是基于三维拓扑结构的方法的大幅度(+15%)。我们的3D运动的紧凑表示比现有的3D轨迹表示更具鉴别力[38]。5.2.2基于RGB的活动识别数据集。我们在UCF-101数据集[30]上训练和测试我们基于RGB的活动识别模型,以与本领域最先进的无监督方法[17,36]进行比较。该数据集包含13,320个平均长度为6.2秒的视频和101个不同的活动类别。我们遵循与[28]中建议的相同的培训和测试方案。但是,请注意,我们不是在UCF-101数据集上训练无监督任务。相反,该模型是在NTU-RGB+D数据集的RGB视频上进行预训练的我们想研究我们的学习表征在不同领域和活动中的应用能力UCF-101的结果表4显示了基于RGB的活性识别方法在UCF-101数据集上的分类准确性。 通过初始化我们的超-使用学习的表示,我们的模型(即,我们的方法w/o语义)优于两个最近的unsu-表4. 使用UCF-101数据集进行活动识别的定量结果[30]。第一组提出了最先进的监督(S)方法;第二组报告无人监督(U)不使用ImageNet语义的方法;第三个展示了具有ImageNet语义的无监督(U)方法。我们以百分比报告平均AP。监督视频表示学习方法[17,36]。请注意,尽管无监督LSTM[32]方法优于所有其他方法,但它使用在ImageNet上预训练的ConvNet 为了与[32]进行比较,我们使用在ImageNet上预训练的VGG-16网络来提取语义特征(即,,fc7功能),并在其上添加softmax层。我们通过后期融合将模型中的softmax得分与语义softmax得分相结合。6. 结论我们已经提出了一个通用的框架来学习跨不同模态的视频的长期时间表示。通过使用我们提出的原子3D流序列作为监督,我们可以在大量未标记的视频上训练我们的模型我们表明,我们的学习表示是有效的和歧视性的分类行动,因为我们实现了国家的最先进的活动识别性能在两个完善的RGB-D数据集。对于未来的工作,我们的目标是探索我们的方法在基于RGB的数据集上的性能,例如ActivityNet或活动识别之外的其他监督任务。我们希望使用来自视频的其他免费标签,例如从RGB帧预测3D场景交互。我们还希望为密集轨迹提出一种紧凑的表示,它可以有效地减少许多现有数据集中的背景运动。谢谢。首先,我们要感谢我们的赞助商:斯坦福大学计算机科学系,tel , ONR MURI 和 斯 坦 福 人 工 智 能 辅 助 护 理 计 划( PAC ) 。 接 下 来 , 我 们 特 别 感 谢 Juan CarlosNiebles、Ser- ena Yeung、Kenji Hata、Yuliang Zou和Lyne Tchapmi提供的有益反馈。最后,我们感谢斯坦福大学视觉实验室和斯坦福大学计算视觉和几何实验室的所有成员,感谢他们的有益评论和讨论。方法RGBS:Deep Two Stream[42]91.4U:Shuffle and Learn[17]50.2U:VGAN[36]52.1U:我们的方法(无语义)53.0U:无监督LSTM[32]75.8U:我们的方法(w/semantics)79.32211引用[1] C.多尔施A. Gupta和A. A.埃夫罗斯通过上下文预测的无监督视觉表示学习。在IEEE计算机视觉国际会议的Proceedings,第1422-1430页[2] Y. 杜,W.Wang和L.王. 基于骨架的动作识别的层次递归 在 Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition中,第1110-1118页[3] G.埃万格尔湾Singh和R.霍罗德骨骼四头肌:使用关节四元组的人类动作识别。在International Conference onPattern Recognition中,第4513[4] A. Haque、A. Alahi和L.飞飞用于基于深度的人物识别的循环注意模型。在Proceedings of the IEEE Conferenceon Computer Vision and Pattern Recognition , 第 1229-1238页[5] A.哈克湾彭,Z. Luo,中国茶条A. Alahi,S. Yeung和L.飞飞。视点不变的三维人体姿态估计。在欧洲计算机视觉会议(ECCV)上,2016年10月[6] J. - F.胡伟S. Zheng,J. Lai,and J.张某联合学习rgb-d活动识别的异构特征。在IEEE计算机视觉和模式识别会议论文集,第5344-5352页[7] S. Ioffe和C.赛格迪批次标准化:通过减少内部协变量偏移 来 加 速 深 度 网 络 训 练 。 CoRR, abs/1502.03167 ,2015。[8] M. Jaimez,M.Souiai,J.Gonzalez-Jimenez和D.克莱姆斯一种实时密集rgb-d场景流的原-对偶框架。2015年IEEE机器人与自动化国际会议(ICRA),第98-104页。IEEE,2015年。[9] T. Kim.图像的边匹配和重叠匹配矢量量化器。第170-185页[10] D. P. Kingma和 J. BA. Adam :随机最佳化的方法。CoRR,abs/1412.6980,2014。[11] M. Koperski,P.Bilinski和F.布雷蒙用于动作识别的3D轨 迹 2014 年 IEEE 图 像 处 理 国 际 会 议 ( ICIP ) , 第4176IEEE,2014。[12] H. S. Koppula和A.萨克塞纳从rgb-d视频中学习时空结构用于人体活动检测和预测。在ICML(3),第792-800页[13] Z.兰,M。Lin,X. Li,长穗条锈菌A. G. Hauptmann和B.Raj. Be-yond高斯金字塔:用于动作识别的多跳特征堆叠。在IEEE计算机视觉和模式识别会议论文集,第204-212页[14] W. Li,Z. zhang和Z. 刘某 基于一袋三维点的动作识别。2010年IEEE计算机协会计算机视觉和模式识别会议-研讨会,第9-14页。IEEE,2010。[15] C. Lu,J. Jia和C.- K.唐用于动作识别的范围样本深度特征。在Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition,第772[16] J. Luo,W. Wang和H.气基于组稀疏和几何约束的字典学习的动作识别深 度 图 在 ProceedingsoftheIEEEInternationalConference on Computer Vision,第1809-1816页[17] I.米斯拉角L. Zitnick和M.赫伯特洗牌并学习:使用时序验证的无监督学习。欧洲计算机视觉会议,第527-544页。施普林格,2016年。[18] M. Müller和T. 罗德河用于自动分类和检索运动捕捉数据的运动模板在2006年ACM SIGGRAPH/Eurographics计算机动画研讨会上,第137欧洲制图协会,2006年。[19] E. On-Bar和M.特里维迪用于动作识别的关节角度相似性 和 hog2 在 Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition Work-shops,第465-470页[20] O. Oreifej和Z.刘某Hon4d:用于从深度序列识别活动的定向4d正态分布直方图在IEEE计算机视觉和模式识别会议的Proceedings,第716-723页[21] H. Rahmani,A. Mahmood,D. Q. Huynh和A.眠Hopc:用于动作识别的3D点云的定向主成分直方图。欧洲计算机视觉会议,第742-757页。Springer,2014.[22] H. Rahmani 和 A. 眠 新 颖 视 角 下 的 三 维 动 作 识 别 。InCVPR,June,2016.[23] M. Ranzato、A. Szlam,J. Bruna,M.马蒂厄河Collobert和S.乔普拉 视频(语言)建模:基线用于自然视频的生成模型。arXiv预印本arXiv:1412.6604,2014。[24]O. 鲁萨科夫斯基Deng,H.Su,J.Krause,S.萨蒂希S.妈Z。Huang,黄背天蛾A. 卡帕西A.科斯拉,M。伯恩斯坦A. C. Berg和L.飞飞ImageNet大规模视觉识别挑战。国际计算机视觉杂志(IJCV),115(3):211[25] J. 是桑切斯,弗。佩罗宁,T. Mensink ,J。 维尔贝克。Fisher向量图像分类:理论与实践.国际计算机视觉杂志,105(3):222[26] P. Sermanet,K. Kavukcuoglu,S. Chintala和Y.乐存。基于无监督多阶段特征学习的行人检测。在Proceedings ofthe IEEE Conference on Computer Vision and PatternRecognition,第3626-3633页[27] A. Shahroudy,J.刘德铭T. Ng和G.王. Ntu rgb+d:用于3d人类活动分析的大规模数据集。在IEEE计算机视觉和模式识别会议中,2016年6月。[28] K. Simonyan和A.齐瑟曼。用于视频中动作识别的双流卷积网络。In Advances神经信息处理系统,第568-576页,2014年。[29] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。arXiv预印本arXiv:1409.1556,2014。[30] K. Soomro、A. R. Zamir和M. Shah. Ucf101:来自野外视频的101个人类动作类的数据集。arXiv预印本arXiv:1212.0402,2012。2212[31] J. T. Springenberg、A. Dosovitskiy,T. Brox和M.里德-米勒 。 追 求 简 单 : 全 卷 积 网 。 arXiv 预 印 本 arXiv :1412.6806,2014。[32] N. Srivastava、E.Mansimov和R.萨拉赫季诺夫使用lstms的视频表示的无监督学习。CoRR,abs/1502.04681,2,2015。[33] J. Sung,C.庞塞湾Selman和A.萨克塞纳从rgbd图像中检测人体活动。计划,活动和意图识别,64,2011。[34] I. Sutskever,O. Vinyals和Q. V. Le.用神经网络进行序列到序列的学习在Z.GhahramaniM.威灵角Cortes,N. D. Lawrence和K. Q. Wein-berger,编者,《神经信息处理系统进展》27,第3104-3112页。Curran Associates,Inc. 2014.[35] R. Vemulapalli,F. Arrate,和R.切拉帕以谎言群中的点表示三维骨骼来识别人类行为。IEEE计算机视觉和模式识别会议论文集,第588-595页,2014年[36] C. Vondrick,H. Pirsiavash和A. 托拉尔巴 生成具有场景 动 态 的 视 频 。 arXiv 预 印 本 arXiv : 1609.02612 ,2016。[37] J. 沃克,A.Gupta,和M。赫伯特从静态图像进行密集光流预测在IEEE国际计算机视觉会议论文集,第2443[38] H. Wang和C.施密特具有改进轨迹的动作识别。在Proceedings of the IEEE International Conference onComputer Vision,第3551-3558页[39] J. Wang,Z.Liu,Y.Wu和J.元挖掘actionlet ensem- ble用于深度相机的动作识别。在Computer Vision and PatternRecognition(CVPR),2012 IEEE Conference on,第1290-1297页中。IEEE,2012。[40] L. Wang,Y.乔和X.唐 挖掘运动原子和短语用于复杂动作识别。在IEEE计算机视觉国际会议论文集,第2680-2687页[41] L. Wang,Y.乔和X.唐使用轨迹池深度卷积描述符进
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功