活动识别中的广义秩池化方法及其在深度学习中的应用

70 浏览量更新于2023-10-15 收藏 1.09MB PDF 举报

活动识别

视频序列

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1活动识别Anoop Cherian1，3 Basura Fernando1，3 Mehrtash Harandi2，3 Stephen Gould1，31澳大利亚机器人视觉中心，2Data 61/CSIRO3澳大利亚国立大学，澳大利亚堪培拉firstname.lastname@{anu.edu.au，data61.csiro.au}摘要大多数流行的动作识别深度模型将视频序列分割成由几帧组成的短子序列;然后，基于帧的特征被汇集用于识别活动。通常，该池化步骤丢弃帧的时间顺序，否则其可以用于更好的识别。为此，我们提出了一种新的池化方法，即广义秩池化（GRP），它将CNN中间层的特征作为输入，CNN在微小的子序列上进行训练，并将子空间的参数作为输出，该子空间（i）提供对特征的低秩近似，（ii）保留其时间顺序。我们建议使用这些参数作为一个紧凑的表示的视频序列，然后在分类设置中使用。我们将计算这个子空间的目标表示为Grassmann流形上的黎曼优化问题，并提出了一个有效的共轭梯度法。几个活动识别数据集上的实验表明，我们的计划导致国家的最先进的性能。1. 介绍从视频中识别活动是具有挑战性的，因为现实世界的行动往往是复杂的，与背景活动混淆，并且从一个演员到另一个演员变化很大。这个难题的有效解决方案可以促进几个有用的应用，如人机合作，视觉监控，增强现实和医疗监测系统。最近深度学习算法的复兴已经证明了计算机视觉中几个基本问题的重大进展，包括活动识别。然而，这样的解决方案仍然远远没有实际有用，因此活动识别仍然是一个具有挑战性的研究课题[2，12，34，38，45，47]。长视频序列上的深度学习算法需要巨大的计算资源，例如GPU、内存等。一个流行的方法来规避这一实际挑战-图1.我们的联营计划的说明。对于每个视频，我们的公式学习低维子空间的参数，其中投影的视频帧符合它们的节奏顺序。我们使用子空间作为序列的各自表示这样的子空间属于格拉斯曼流形，我们在其上学习非线性动作分类器。LENGE是在由一到几十个视频帧组成的子序列上训练网络。然后通过池化步骤[25，7，38]对来自这种短时感受野的活动预测进行聚合，例如计算生成的CNN特征的平均值或最大值假定特征来自时间排序的输入数据，则它们可能捕获序列中的动作的时间演变。因此，可以使用这种时间结构的池化方案优选用于活动识别。在Fernando et al. [15，13]，使用时间结构的池化问题被投射到学习排名设置中，称为排名池化，其计算输入空间中的线;将输入数据投影到这条线上保持时间顺序。然后，该线的参数被用作视频序列的摘要。然而，几个问题仍然没有得到解答，即（i）当假设线属于输入空间时，不能保证它捕获数据的其他属性（除了命令之外），例如背景、上下文等。这可能对识别有用，（ii）排序约束是线性的，（iii）32223223假设每个数据通道（例如RGB）是独立的，以及（iv）考虑用于排序的单线，而使用多个超平面可能导致对时间动作动态的更好表征。在本文中，我们提出了一种新的重新制定的排名池，解决所有这些缺点。我们的主要思想是使用一个由几个正交超平面参数化的子空间，而不是使用一条直线作为序列的表示。我们提出了一种新的学习排名公式来计算这个子空间，通过最小化一个目标，共同提供一个低秩近似的输入数据，同时也保留了他们的时间顺序的子空间。低秩近似有助于捕获对总结动作有用的数据的基本属性此外，经由二次排序函数来捕获时间顺序，从而捕获输入数据通道之间的非线性依赖性。具体来说，在我们的配方，时间或- der被编码为增加长度的投影的输入数据到子空间。虽然我们的公式提供了几个优点的时间池，它导致一个困难的非凸优化问题，由于正交约束。此外，我们表明，在我们的公式中的子空间satisfy某些数学性质，因此可以作为一个所谓的格拉斯曼流形上的问题，存在有效的黎曼优化算法。我们建议使用一个共轭梯度下降算法，我们的问题，这是经常看到收敛速度快。我们在几个流行的动作识别数据集上进行了实验，这些数据集通过从VGG网络的全连接层中提取特征进行了预处理[39]。按照标准实践，我们使用在单个RGB帧和20通道光流图像上训练的双流网络[38]。我们的实验结果表明，与传统的池化方案或基本形式的秩池化[14]相比，所提出的方案在捕获动作序列中CNN特征的时间结构方面明显更好，同时还实现了最先进的性能。在继续之前，我们总结了我们工作的主要• 我们提出了一种新的学习排名制定捕获的时间演变的视频序列中的行动，学习子空间。• 我们提出了一个有效的黎曼优化算法来解决我们的目标。• 我们表明，CNN特征的子空间表示对于动作识别是非常有益的。• 我们提供标准基准测试实验，展示最先进的性能。2. 相关工作直接在长视频序列上训练卷积神经网络通常在计算上是禁止的。因此，已经探索了各种简化以使问题易于处理，例如使用3D时空卷积[42]，诸如LSTM或RNN的递归模型[7，8]，通过双流模型[38，12]解耦空间和时间动作分量，来自一组帧的预测的早期或晚期融合[25]。虽然3D卷积和递归模型可以潜在地学习长序列中动作的动态，但由于需要非常大的数据集和结构复杂域中搜索空间的体积性质，训练它们是困难的因此，在本文中，我们专注于由双流模型生成的CNN特征的后期融合技术，并参考最近的调查以审查替代方案[23]。通常，CNN沿着视频序列的独立动作预测通过线性SVM [38]进行平均或融合，而不考虑CNN特征的时间演变。秩池[15]通过考虑时间信息证明了更好的性能。他们将这个问题放在一个学习排名的框架中，并提出了一种通过支持向量回归来解决这个问题的有效算法。虽然该方案使用手工制作的特征，但在Fernando等人中探索了扩展。[13，16，41]通过端到端学习在CNN设置中。然而，训练这样的深度架构是缓慢的，因为它需要计算双层优化损失的梯度[18]。如Bilen等人所述，可以通过早期融合框架来避免这种困难。[3]，Wang et al.[46]然而，通过汇集输入帧或光流图像，需要解决非常高维的排序问题（维数等于输入图像的大小），这可能很慢。相反，在本文中，我们提出了使用子空间表示的原始排名公式[15]的推广，并表明我们的公式可以更好地表示动作的动态演化，同时计算成本较低。在过去，已经存在使用子空间用于动作表示的方法。这些方法主要是针对手工制作的特征而开发的，因此它们在CNN特征上的表现并不完全清楚。例如，在Li等人[29]的方法中，假设来自动作的轨迹在相同的子空间中演变，因此计算子空间角度可以捕获活动之间的相似性。相比之下，我们在更一般的CNN特征上学习子空间，并限制它们捕捉动态。在Le et al.[28]，标准的独立子空间分析算法被扩展到从未标记的视频数据中学习不变的时空特征。Karthikeyan等人提出了主成分分析及其变体用于动作识别[26日]3224T2我不使用多组偏最小二乘法来捕获时间动态。该方法还使用了Moghills等人提出的概率子空间相似性学习。[31]学习内部行动和相互行动模型。Tseng等人提出了一种自适应局部保持投影方法.[43]以获得低维空间子空间，其中数据的线性结构（例如，xt在某条直线上的投影保持了顺序。考虑到特征xt通常是高维的（正如我们使用的，来自CNN的中间层因此，我们可以将这样的时间顺序写为：¨ ¨2¨ ¨2人体的形状）被保存下来。与我们提出的方法类似，O 'Hara et al.[32] in-UTxt≤？UTxt+1？-η，（2）提出了一种用于动作识别的子空间森林表示方法，该方法将每个视频片段看作Grassmann流形上的点，并使用基于随机森林的近似最近邻方案来寻找相似视频。Raytchev等人提出了由局部时空特征形成的特征子空间。[35]，并使用Grassmann SVM内核[37]进行分类。Etai和Wolf [30]提出了一种使用多个正交分类器进行域自适应的相似核其中，U∈ S（p，d）表示p维子空间的参数，通常称为框架（p∈d），η是正常数，其控制p维子时间顺序被强制执行。这样的框架有正交规范列，属于Stiefel流形S（p，d）[9]。我们的主要思想是用U来表示序列X。为此，我们提出以下公式，用于从给定秩p的X获得低秩子空间U，如下：基于识别方案也提出了Harandi等人。[21]和Turaga etal.[44 ]第44段。相比之下，我们是第一个提出CNN特征子空间表示的人，minU∈S（p，d）L（U），1年2i=1¨我¨-UUxi？（3）在一个联合框架中的动作识别，该框架包括非线性时间顺序约束，以捕获TEM，受¨¨2“U xi”¨≤？UT¨2xj？-η， i）个元素描述了点xi和xj是否违反给定的序约束.然后，我们可以将上面的梯度重写为：受U T U = Ip，（10）其中F（U）是期望的成本函数，U∈Rd×p。在欧氏空间中，（10）形式的问题通常被转换为特征值问题.然而，我们的成本函数的复杂性阻止我们这样做。相反，我们建议使用基于流形的优化技术-F（U）=ΣΣΣ η x（xTU）- X（XT U），（7）niques.最优化方法U k i i ik k. iΣ作为优化问题关于Stiefel或Grassmann流形[10，1].更多详细信息-其中，ηi=ΣV（i，：）−ΣV（i）、（8）一般来说，（10）中极小化问题的几何正确设置是在Stiefel流形上。其中V（i，：）和V（：，j）代表第i个ro w和第j个col。分别为V。计算ηi的复杂度为O（n），计算梯度的代价降低到O（n+np）。3.3.凸重构在（3）中引入的公式一起估计所有子空间，然而是非凸的。相反，我们在下面表明，如果我们递增地估计3226子空间，然而，如果代价函数F（U）与U所张成的基的选择无关，则问题是在格拉斯曼流形上的。这确实是我们在第3.1节。因此，我们可以利用格拉斯曼优化技术，特别是牛顿型优化，我们在下面简要介绍。Grassmannian 上的牛顿型优化（如共轭梯度（CG））是一种依赖于黎曼梯度概念的迭代优化例程对32271FG（p，d），梯度表示为gradUF（U）=（Id−UUT）<$U（F），（11）其中，f（U）是F（U）关于U的元素的偏导数的d×p矩阵。这在Eq中计算。（9）我们的方法。由gradUF（U）表示的下降方向标识流形上的曲线γ（t），沿着它移动确保成本函数的减小（至少局部地）。γ（t）上的点由指数映射得到在实践中，指数映射在局部上近似于收缩（定义和详细解释见[1]中的第4在格拉斯曼的情况下，这可以理解为强制正交约束，同时确保成本函数减小。在我们的实验中，我们利用共轭梯度（CG）方法上的格拉斯曼。CG方法通过结合当前解和先前解的梯度来计算新的下降方向。为此，它需要将之前的梯度转移到流形上的当前点，这是通过黎曼联络的概念实现的。在格拉斯曼流形上，CG方法所需的操作具有有效的数值形式，这使得它们非常适合在流形上执行优化。3.5.关于Grassmanian的一旦我们使用流形CG方法获得解决GRP目标的子空间表示，下一步就是在这些子空间上训练分类器用于动作识别。由于这些子空间是格拉斯曼的元素，我们必须使用定义在这个流形上的SVM核为此，有几个潜在的内核[20]，其中我们使用指数投影度量内核，因为它对我们的问题有经验优势，如表2所示。对于两个子空间U1和U2，指数投影度量核K具有以下形式：. ¨¨2ΣK（U1，U2）=expβ <$UTU2 <$，当β> 0时.（十二）4. 实验本节在四个关于活动识别的标准基准数据集上评估了拟议的排名方法，即（i）JHMDB数据集[24]，（ii）MPII烹饪活动数据集[36]，（iii）HMDB-51数据集[27]和UCF 101数据集[40]。在我们所有的实验中，我们使用标准的16层Imagenet预训练VGG-net深度学习网络[39]，然后对相应的数据集和输入模态进行微调，例如单个RGB或10个连续光流图像的堆栈我们在下面提供了HMDB数据集：由来自51个不同动作类别的6766个视频组成。视频通常质量低，具有强烈的相机运动和非中心人物。JHMDB数据集：是HMDB数据集的一个子集，由968个剪辑和21个不同的动作类组成。该数据集主要是为了评估人类姿势估计对动作识别的影响而创建的，因此所有视频都包含身体部位清晰可见的人类。MPII烹饪活动数据集：包括高分辨率的视频活动在厨房有关烹饪几道菜。与其他两个数据集相比，视频是由静态相机捕获的。然而，这些活动可能非常微妙，例如切片或切割蔬菜、清洗或擦拭盘子等，需要识别。有5609个视频剪辑和65个注释动作。UCF101数据集：包含分布在101个动作类别中的13320个视频。该数据集与上述数据集的不同之处在于，它主要包含具有强相机运动和低分辨率视频的粗糙体育活动。4.1. 评价HMDB、UCF 101和JHMDB数据集使用3次分割的平均准确度作为其评估标准。MPII数据集使用7倍交叉验证，并报告平均精密度（mAP）的结果。对于后者，我们使用与数据集一起发布的评估代码。4.2. 预处理JHDMB、HMDB和UCF 101数据集的分辨率相对较低，因此我们将图像大小调整为标准VGG-net模型所需的输入大小（即224 x224）。我们使用OpenCV中的TVL 1光流实现来生成10通道的流图像堆栈，其中每个流图像在0-255范围内重新缩放，然后保存为JPEG图像，这是标准做法。对于MPII数据集，由于视频最初是非常高分辨率的，因此我们使用一组形态学操作来裁剪感兴趣的区域，然后将它们转换为CNN输入大小。具体来说，我们首先将图像大小调整为分辨率的一半，然后计算帧之间的绝对差异，并对序列中的差异进行接下来，我们应用中值滤波、膨胀和连通分量分析来生成二元活动掩码，并将序列裁剪为包括所有有效分量的最小矩形。一旦序列被裁剪到这些感兴趣的区域，我们就将它们用作CNN的输入，并使用它们来计算叠加流图像。32284.3. 训练CNN如前所述，我们使用[38]的双流模型，但使用VGG-net架构，因为它具有显着的优势[22，12]。然而，我们的方法并不局限于任何特定的架构，可以用于更深层次的模型，如 ResNet [11] 。这两个网络流针对softmax交叉熵损失独立训练。RGB流是从ImageNet模型微调的，而flow流是从作为[12]的一部分公开可用的UCF 101模型微调的。我们使用10- 4的固定学习率和50帧的输入批量大小一旦验证集上的损失开始增加，CNN训练就对于HMDB和JHMDB数据集，我们在每个分割中使用各自训练集的95%来微调模型，其余部分用作验证集。MPII烹饪活动数据集包含训练、验证和测试集。对于UCF101数据集，我们直接使用[12]中的模型。4.4. 结果本节对模型中各种超参数的影响进行了系统评估，即(i) 我们模型中使用的子空间数量的影响，(ii) 在执行时间顺序中使用的阈值的影响，（iii）在GRP中FC 6和FC 7 CNN层输出的性能差异的比较，以及（iv）各种格拉斯曼内核的分析。我们使用JHMDB和MPII数据集作为此分析的常见测试床。在下文中，我们使用符号FLOW表示10通道流图像堆栈，使用RGB表示单个RGB图像。我们使用VGG-net的全连接层fc 6的整流输出进行所有评估，这些评估是4096维向量。在应用池化之前，所有特征都被单位归一化。我们使用MANOPT [4]软件包实现格拉斯曼共轭梯度.我们在所有的实验中运行100次迭代。除非另有说明，否则我们使用投影度量核[19]来分类格拉斯曼上的子空间。至于FLOW + RGB，其结合了来自FLOW和RGB流的GRP结果，我们使用两个单独的投影度量核的总和，每个投影度量核来自用于分类的每个模态。4.4.1子空间的个数和排序阈值在图2（a）中，我们将准确度与JHMDB数据集的split-1上GRP公式中使用的子空间数量的增加进行了比较我们还比较了性能时，不使用的排名约束的制定。显然，时间顺序约束是本-(a)（b）第（1）款图2.左：针对增加子空间维度的准确度评估右：相对于保持子空间维度固定的增加的排序阈值η的准确度的评估。这两个结果都是在JHMDB数据集的分割1上，并且使用FLOW +RGB，并且在优化中不使用当使用1-2个子空间时，精度提高了约9%，当使用更大的数字时，精度这种差异表明，更接近输入数据的更大数量的子空间可能正在捕获对分类无用的背景为了进一步验证我们的排序策略的有效性，我们固定了子空间的数量，并逐步将（3）中的排序阈值η从10−3我们的阴谋图2（b）显示了当在子空间重建中强制执行时间顺序时，识别的准确性显著然而，当子空间的数量这两个图清楚地证明了我们方案的正确性和子空间表示中排序约束的有用性。在续集中，我们在所有实验中使用2个子空间，因为它通常在验证数据集上提供良好在表1中，我们分别比较了FLOW和RGB通道上的排名约束的影响我们注意到，这些约束对FLOW流的影响比对RGB流的影响更大，这意味着动态主要是在FLOW中捕获的，这是显而易见的，而RGB流CNN可能主要是学习背景上下文。在[46]中也有类似的观察。然而，值得注意的是，这些约束甚至在RGB流上也提高了性能4.4.2Grassmannian核的选择我们设置中的另一个选择是使用格拉斯曼内核。在Harandi et al.[20]，给出了这个流形上几个有用的内核的列表，每个内核的行为都与应用程序不同。为此，我们决定在子空间3229方法/数据集流RGBMPII最大平均接入点（%）最大平均接入点（%）GRP（无约束）GRP-Grassmann5152.148.950.3JHMDBAvg.Acc.（%）Avg.Acc.（%）GRP（无约束）GRP-Grassmann59.464.241.842.5表1.玻璃钢对流动影响的比较和RGB分别在JHMDB和MPII数据集上。这些实验使用各自数据集的split-1。FLOW+RGB的结果见表4。由GRP生成。在表2中，我们比较了MPII和JHMDB数据集的split-1上的这些内核。我们使用标准投影度量和Binet-Cauchy距离的多项式和RBF变体如表中所示，线性内核和Binet-Cauchy内核似乎表现不佳，但两种投影度量内核似乎都表现出显着的优势。方法/数据集MPII（mAP%）JHMDB（平均值累积百分比）线性24.2 46.6多项式项目公制50.4 65.3RBF项目公制52.1 66.8多项式比奈-柯西33.6 40.0RBF Binet-Cauchy 33.5 38.0表2. Grassmannian分类中不同核选择的比较我们仅使用来自FLOW流的CNN特征进行此评估，使用2个子空间。4.5. CNN特性比较接下来，我们评估FC6和FC7层CNN特征的有用性。在表4.5中，我们在JHMDB数据集的split-1上提供了这个组合，分别用于FLOW、RGB和组合流。我们始终看到，FC6层上的GRP表现更好，比层次结构中的上层编码更多的时间信息。然而，这假定甚至更低的中间层特征（例如来自池5的特征）可能更好。然而，这些特征的维数明显更高，使得GRP优化在其当前形式下更难。表3.使用FC6和FC7功能进行精度比较图3. GRP提供的改进与无排名约束的变体以及JHMDB数据集（3-splits）上最近最先进的方法[6]的4.6. 池化技术现在我们已经清楚地了解了GRP在不同场景下的行为，我们将其与其他流行的池化方法进行比较。为此，我们将(i)标准平均池，（ii）秩池[15]，它只使用一条线来执行时间顺序，（iii）我们的GRP方案，但没有排序约束，（iv）GRP-格拉斯曼，这是我们提出的方案，以及（v）我们对GRP的凸重构，如第3.3节所述。对于排名池，我们使用作者公开的代码，无需任何修改。在表4中，我们提供了所有四个数据集的split-1上的这些比较结果表明，GRP在所有四个数据集上都显著优于平均池或秩池。此外，令人惊讶的是，我们注意到CNN特征的低秩重构本身提供了对识别有用的动作的非常好的求和。虽然在过去已经多次使用子空间进行动作识别[21，44]，但我们不知道有任何工作显示CNN特征的这些好处。然而，在低秩子空间上使用排序约束会导致更好的结果。具体来说，JHMDB数据集上的改进约为7%，MPII数据集上的改进约为4%，HMDB数据集上的改进约为我们还注意到，从这些结果中，GRP增量工程类似于GRP格拉斯曼，但平均表现出略低的性能。这并不奇怪，因为这是一种贪婪的方法。在计算上，它被认为是显着慢于GRP-格拉斯曼，计算所有的子空间在一起。4.7. 与最新技术水平的比较在表5、6、7和8中，我们将GRP与使用CNN和手工特征的最先进的池化和动作识别方法进行了比较。对于所有的比较，我们使用公布的结果，并遵循准确的评估特征流RGBFLOW + RGBJHMDBAvg.累积（%）Avg.累积（%）Avg.累积（%）FC6FC764.263.442.540.373.872.0MPII最大平均接入点（%）最大平均接入点（%）最大平均接入点（%）FC652.150.353.83230方法/数据集MPII-mAP（%）JHMDB-Avg.Acc.（%）HMDB平均值Acc.（%）UCF 101-平均值Acc.（%）Avg. [第38话]38.155.953.688.5[15]第十五话47.255.251.463.8GRP（无约束）50.167.562.290.4GRP-格罗斯曼53.873.865.291.2GRP增量51.274.364.689.9表4.比较四个数据集上的各种池化技术我们一起使用RGB+FLOW对split-1进行评估协议.从表中可以清楚地看出，GRP在MPII和JHMDB数据集上的性能优于最佳方法，同时在 HMDB 和UCF101数据集上显示出有希望的结果。例如，相对于排名池[15]，我们的方案在MPII和JHMDB数据集上获得了约10-20%的显着优势（表4），而对于没有手工制作功能的动态图像[3]，它在HMDB和UCF 101数据集上更好2-3%。这表明，使用子空间导致更好地表征的行动。我们在这些数据集上的结果低于[12]中使用复杂的残差深度模型和中间流融合的最近方法。然而，在COM，我们的池计划是非常普遍的，可以用于任何问题，其中排序约束是自然的。在图3中，我们分析了GRP，无约束GRP和最近的P-CNN方案的结果[6]。在这个数据集中的21个动作中，GRP在13个动作上优于P-CNN。在19个动作上，GRP的表现优于或等于没有约束的变量，从而证实了它的好处。算法最大平均接入点（%）P-CNN + IDT-FV [6]71.4交互部分挖掘[49]72.4[36]第三十六话57.9[15]第十五话72.0语义特征[50]70.5[41]第四十一话66.8高阶池化[5]73.1GRP（无约束）66.1GRP68.4GRP + IDT-FV75.5表5.MPII烹饪活动（7分割）算法Avg. Acc.（%）P-CNN [6]61.1P-CNN + IDT-FV [6]72.2[17]第十七话62.5[33]第三十三话69.03[45]第四十五话62.8高阶池化[5]73.3GRP（无约束）64.1GRP70.6GRP + IDT-FV73.7表6. JHMDB数据集（3个分割）3231算法Avg. Acc.（%）两个流[38]59.4空间-时间ResNet [11]70.3[48]第四十八话69.4TDD + IDT-FV [47]65.9动态图像+ IDT-FV [3]65.2这里[13]第十三话66.9动态流量+ IDT-FV [46]67.4GRP（无约束）63.1GRP65.4GRP + IDT-FV67.0表7. HMDB数据集（3个分割）算法Avg. Acc.（%）两个流[38]88.0空间-时间ResNet [11]94.6[48]第四十八话94.2TDD + IDT-FV [47]91.5C3D + IDT-FV [42]90.4动态图像+ IDT-FV [3]89.1这里[13]第十三话91.4动态流量+ IDT-FV [46]91.3GRP（无约束）90.1GRP91.9GRP + IDT-FV92.3表8. UCF101数据集（3个部分）5. 结论本文提出了一种新的算法-广义秩池算法，用于对视频序列中的动作动态进行归纳。我们的主要主张是使用低秩子空间的参数作为池化表示，其中假设来自序列的每个帧的深度学习特征在该子空间中保持其时间顺序。由于这类子空间属于Grassmannian空间，我们提出了一个有效的共轭梯度优化方案。在四个动作识别数据集上的实验证明了方案1的优点。鸣谢：这项研究得到了澳大利亚研究委员会（ARC）通过机器人视觉卓越中心（CE140100016）的支持。感谢国家通讯社--计算基础设施（NCI）的支持，在实验中。1代码将在www.example.com上提供http://users.cecs.anu。edu.au/www.example.com.cn/.3232引用[1] P. - A.阿布西尔河Mahony和R.坟墓矩阵流形上的优化.普林斯顿大学出版社Princeton，NJ，USA，2008. 四、五[2] J. K. Aggarwal和M. S.亮人类活动分析：审查. ACMComputing Surveys（CSUR），43（3）：16，2011.1[3] H. 比伦湾Fernando，E.Gavves，A.Vedaldi和S.古尔德。用于动作识别的动态图像网络。在CVPR，2016年。二、八[4] N.布马尔湾Mishra，P. A. 阿布西尔河Sepulchre等人Manopt，一个用于流形优化的 matlab工具箱。JMLR，15（1）：1455-1459，2014. 6[5] A. Cherian，P. Koniusz，and S.古尔德。通过内核线性化实现 CNN 特征的高阶池化，用于动作识别。在WACV，2017年。8[6] G. 切龙岛 Lap tev和C. 施密特P-CNN：用于动作识别的基于姿势的ICCV，2015年。七、八[7] 多纳休湖A. Hendricks，S. Guadarrama，M. 罗尔巴赫S. Venugopalan湾Saenko和T.达雷尔。用于视觉识别和描述的长期arXiv预印本arXiv：1411.4389，2014年。一、二[8] Y.杜，W. Wang和L.王.基于骨架的动作识别的层次递归神经网络。CVPR，2015。2[9] A. Edelman，T. A. Arias和S. T.史密斯具有正交性约束的算法的几何。SIAM Journal on Matrix Analysis andApplications，20（2）：303-353，1998. 3[10] A. Edelman，T. A. Arias和S. T.史密斯具有正交性约束的算法的几何。SIAM Journal on Matrix Analysis andApplications，20（2）：303-353，1998. 4[11] C. Feichtenhofer、A. Pinz和R.王尔德用于视频动作识别的时空残差网络。在NIPS，2016年。六、八[12] C. Feichtenhofer、A. Pinz和A.齐瑟曼。用于视频动作识别的卷积双流网络融合。 arXiv 预印本 arXiv ：1604.06573，2016年。一、二、六、八[13] B. 费尔南多角安德森，M。Hutter和S.古尔德。用于活动识别的区分性分层等级池。在CVPR，2016年。一、二、八[14] B. 费尔南多 E. 加夫斯， J. Oramas， A. Ghodrati，以及T. Tuytelaars 用于动作识别的排名池。 TPAMI ， 39（4）：773-787，2017年。二、三[15] B. Fernando，E. Gavves，J. M.奥拉马斯A. Ghodrati，以及T. Tuytelaars为动作识别建模视频演变。CVPR，2015。一、二、三、七、八[16] B. Fernando和S.古尔德。学习端到端视频分类与排名池。InICML，2016. 2[17] G. Gkioxari和J.马利克找活动管。CVPR，2015。8[18] S. Gould，B.费尔南多，A.Cherian，P.安德森河S. Cruz和E.小郭。参数化argmin与argmax问题的区分及其在双层最佳化上的应用。arXiv预印本arXiv：1607.05447，2016年。2[19] Hamm和D. D.李你Grassmann判别分析：对基于子空间的学习的统一观点。InICML，2008.63233[20] M. T. Harandi，M.Salzmann，S.贾亚苏马纳河哈特利，还有H.李Grassmannian Kernels：嵌入式透视图。2014年，在ECCV。五、六[21] M. T. 哈兰迪角Sanderson， S. Shirazi和B. C. 洛弗尔Grassmann流形上用于动作识别的核分析。PatternRecognition Letters ， 34 （ 15 ）： 1906-1915 ， 2013.三、七[22] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。CVPR，2016年。6[23] S. Herath，M. Harandi和F.波里克利深入到行动识别：一个调查。Image and Vision Computing，60：4- 21，2017。2[24] H. Jhuang，J. Gall，S.祖菲角Schmid和M. J.布莱克。对动作识别的理解。InICCV，2013.5[25] A. Karpathy，G.Toderici、S.Shetty，T.良河，巴西-地Sukthankar和L.飞飞用卷积神经网络进行大规模视频分类。CVPR，2014。一、二[26] S. Karthikeyan，U.高尔湾S. Manjunath和S.格拉夫顿基于概率子空间的多视角动作识别形状动力学模式学习。在ICCV Work-shops，2011年。2[27] H. Kuehne ， H. Jhuang 、 E. Garrote ， T. Poggio 和 T.Serre. HMDB：一个用于人体运动识别的大型视频数据库。见ICCV，2011年。5[28] Q. V. Le，W. Y. Zou，S. Y. Yeung，和A. Y. Ng.学习分层不变时空特征，用于独立子空间分析的动作识别。CVPR，2011。2[29] B. Li，M. Ayazoglu，T.茅河，澳-地I. Camps和M.斯奈尔使用动态子空间角度的活动识别。CVPR，2011。2[30] E. Littwin 和L. 狼鲁棒迁移学习的多重宇宙损失在CVPR，2016年。3[31] B. Moghaddam和A.彭特兰物体表征的概率视觉学习。TPAMI，19（7）：696-710，1997. 3[32] S. A. Draper先生使用子空间森林的可扩展动作识别CVPR，2012。3[33] X.彭角，澳-地Zou，Y. Qiao和Q.朋使用堆叠费雪向量的

下载后可阅读完整内容，剩余1页未读，立即下载