基于部分观察的动作分析：瞥见、编码与预测

70 浏览量更新于2023-10-16 收藏 985KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

146有限观测比秦杰1、2刘杰3、4刘伟3、4邵凌4、倪冰冰5、陈晨6、沈福民7、王运红1、2 <$1北京航空航天大学北京大数据与脑计算先进创新中心2北京航空航天大学虚拟现实技术与系统国家重点实验室3马龙科技有限公司有限公司、4东英吉利大学5上海交通大学6中央佛罗里达大学计算机视觉研究中心7电子科技大学qinjiebuaa@gmail.com，li. malongtech.cn，ling. ieee.org，nibingbing@sjtu.edu.cnchenchen870713@gmail.com，fumin. gmail.com，yhwang@buaa.edu.cn摘要传统的动作识别方法旨在识别具有完整观察/执行的动作。然而，由于遮挡、中断等，通常难以捕获完全执行的动作。与此同时，行动预测-这个动作是什么？（一）这一行动将是什么？（b）第（1）款这个动作会是什么？（c）第（1）款基于部分观察的预先识别对防止局势恶化至关重要。此外，利用部分观测数据快速发现人类活动是检索系统的一个关键组成部分。受最近成功的数据二进制化的有效检索/识别，我们提出了一种新的方法，命名为部分重建二进制编码（PRBC），动作分析的基础上有限的帧瞥见在任何时期的完整执行。具体来说，我们通过一个联合学习框架学习部分动作的区分紧凑二进制代码，该框架协同处理特征重构和二进制编码。基于离散交替迭代算法，我们在四个现实的行动数据集上进行了广泛的实验，涉及三个任务（即，部分动作检索、识别和预测）清楚地显示了PRBC优于现有技术方法，以及在线测试期间显著降低的存储器负载和计算成本。1. 介绍在过去的十年中，人类动作识别[1，43，26，28，44，5，4，40]已经被广泛研究，大多数现有方法旨在分析事后动作，即，充分观察/执行的行动（图）1（a））。然而，捕捉完整的动作往往过于奢侈，*表示平等缴款。†表示通讯作者。图1. (a)传统的全观测的动作识别/检索：（b）初始部分观测的动作预测;（c）在任何时候都有观测的部分动作识别/检索（如果部分观测非常有限并且具有未知的观测比率，这就变成了我们的问题）。感兴趣的设备或动作被遮挡、视频传输被中断等。在这些情况下，我们只能观察到部分动作，我们将这个问题称为部分动作识别（PAR）（图1（c））。特别是，如果部分观测仅从完整动作执行开始时可用，则PAR变为动作预测（AP）（图1（b））。请注意，在本文中，我们将“完整/完整动作”称为识别部分动作对于广泛的应用是必不可少的。例如，在监视系统中，期望通过基于部分观测提前发出警报来防止潜在的有害活动发生。在智能家居中，机器人需要预测人们未来的活动，并及时提供必要的服务。此外，基于内容的动作检索系统可以受益匪浅。在PAR的帮助下，在搜索相似动作之前不需要获得完整的动作，这大大提高了检索系统的效率已经提出了用于PAR和AP的几种方法[41，3，18，15，11，56，61，14，10]，并且其中大多数都涉及147不后者。例如，Ryoo et al.[41]开发了词袋（BoW）表示的两种变体，即，集成BoW和动态BoW，用于识别视频中未完成的活动。Lan等人。[18]提出了一种基于分层表示的最大边缘学习框架，用于动作预测。Kong等人。[15]将任务表述为结构化SVM学习问题，并提出了用于动作预测的多时间尺度SVM（MTSSVM）。在[14]中进一步引入了MTSSVM的内核化扩展。现有的PAR方法通常需要对完整的动作进行充分的观察，以实现可接受的性能。然而，在大多数现实情况下，我们应该在情况变得更糟之前，根据有限的观察立即采取行动，例如，交通事故。更多的观察通常会导致更多的内存使用和处理时间。另一方面，AP方法需要从完整动作开始时可用的部分观测。然而，由于视频传输过程中随时可能发生干扰或摄像机遮挡，使得AP方法缺乏通用性。此外，大多数示例性方法（例如，[3，15，14]）持有一个不切实际的假设，即部分行动的观测比（OR）1在测试期间是已知的因此，为了克服上述缺点，本文的目的是解决一个更一般和实际的情况下，只有很短的时间段的未知OR，观察在任何时期内的完整执行的动作分析。此外，正如我们提到的，PAR方法对视频检索系统贡献很大。然而，现有的方法是基于高维视频数据开发的，其内存使用和计算成本是不可接受的。例如，如果我们使用4096-d功能表示1000万个视频，则内存负载超过300 GB，这显然是不可行的个人电脑，甚至工作站-S.最近，基于学习的二进制编码/散列方法[34，8，33，12，36，30，46，31，37，27，38，35]已被用于大规模图像/视频检索和分类。基于这些方法，可以通过短二进制码（例如，如果嵌入128位代码，我们只需要大约150MB的内存来加载数据同时，由于算术运算被快速XOR运算所取代，因此计算效率可以因此，如果我们能结合二进制编码的精神来开发PAR方法，我们的解决方案将更具可扩展性。在各种散列方法中，有一系列基于深度学习的方法[23，60，59，24]。虽然它们在检索任务中显示出有希望的结果，但由于查询之间的内在不一致性（即，部分操作）和数据库1观察比率：部分动作的持续时间t与相应的完全动作的持续时间T的比率，即，OR =t。（即全面行动）。此外，跨模态散列（CMH）[2，17，58，6，22]（例如，[22][23][24][25][26][27][28]][29][与我们的问题有关。CMH对多模态数据（例如，视觉/文本特征）。如果我们把部分动作和完全动作看作来自两种模态的数据，我们就可以直接用CMH来处理PAR。通常，CMH学习多模态数据的双向投影或联合投影。然而，在我们的问题中，我们最感兴趣的是将部分数据单向投影到完整数据的特征空间。因此，CMH不是专门为我们的问题而开发的。为了解决上述问题，我们提出了一种新的方法来学习歧视性的二进制代码的部分行动的未知OR在任何时期的完整的行动执行。我们首先通过直观的特征重建方法利用部分和全部动作之间的相关性。通过重构，部分数据可以从完整数据中提取出关键的判别信息.随后，我们结合二进制编码的精神，离散学习紧凑的相似性保持二进制码。然后，通过匹配重建的部分测试数据和完整训练数据的二进制代码之间的汉明距离，可以有效地解决各种任务。所提出的方法是由以下两个考虑因素。首先，我们要寻求一种“重构”的二进制表示，因此，我们的目标是最小化重构的二进制码的部分行动和相应的完整的一个之间的重建误差。第二，我们试图鼓励年龄的“歧视能力”的学习二进制代码。作为一种常见的做法，我们要求来自同一类别的动作的二进制代码具有最小的距离，而来自不同类别的动作的二进制代码被充分分离。此外，为了在分别解决上述两个考虑因素时减轻累积错误，我们提出了一种新的联合学习框架，称为部分重构二进制编码（PRBC），如图所示。2.我们的主要贡献有三个方面：1) 我们提出了一种新的二进制编码方法，有限观察比率的初步行动分析。不像AP方法，我们可以分析在任何完整执行期间观察到的部分操作此外，我们的方法与现有的PAR方法显著不同，因为我们可以处理具有未知和非常有限的OR（通常小于30%）的部分动作2) 提出了一种基于离散交替迭代的特征重构和二进制编码协同学习框架高质量的二进制代码学习没有任何放松。据我们所知，这是第一个提出离散二进制编码技术用于视频中部分动作分析的工作。3) 我们提出了我们的方法在监督和unsupervised时尚和系统地评估它的四个ac-148我·我我∈∈我--我∈∈ij4ij2在三个任务方面的基准，即，部分动作检索、识别和预测。与传统方法相比，PRBC方法具有更高的精度，更少的内存负载和更少的测试计算成本。2. 部分重构二进制编码给定来自某些类别的N个完整动作，目标是学习用于任何部分动作的区分性二进制代码，然后执行部分动作分析（即，检索、识别和预测）。部分动作的持续时间比完全动作的持续时间短得多。通常，更多的观察有助于分析部分动作。因此，我们首先学习一个特征重构函数，（1）以接近完整的。人们可能更喜欢更复杂的方案（例如，多实例学习）用于重建。然而，我们在实验中发现，这个简单的公式可以很好地完成任务。在没有任何附加项的情况下，（1）可以显式求解。然而，该解决方案是微不足道的，因为没有监督（即，语义标签）被利用。我们将在介绍下面的二进制编码问题时考虑这一点。2.2.离散二进制编码我们采用广泛采用的符号函数来获得重构的部分数据点xm的L位二进制码bm，即，bm=h（g（xm））=sign（PTg（xm）），其中我我我恢复部分动作以近似对应的-满的人。其次，我们将重构的部分动作嵌入到紧凑的二进制码中。最后，我们耦合这两个问题，并提出了一个联合优化框架。2.1. 部分动作的特征重构我们的目标是学习一个特征重构函数g（），它将关键信息从完整数据转移到部分数据。具体来说，为了学习这个函数，我们选择M“sign（·）”函数返回“1”，如果该规则是无效的，否则返回“-1”，并且P∈R D×L是编码矩阵。与大多数基于学习的哈希方法类似，我们的目标是根据语义标签保留数据点之间的相似性换句话说，一个好的二进制码被期望将来自原始空间中的相同类的点映射到汉明空间中的相似二进制码。因此，我们有以下目标函数：从N个完整动作中的每一个的短时间段，构造M×N个相应的部分动作。2在u之后-ΣNminΣMs m，nd h（b m，b n），s. t. b = sign（P T g（x）），利用视频表示技术（例如，局部时空特征[7，19，51]和全球深部结构有限元分析，B、Pi，j=1m，n=1i，ji j（二）tures [49，13]），全部和部分动作由yiRD和xm其中i=1，.，N且m=l，…M. xm表示表示第m次部分作用w.r.t.第i个完整动作。投影其中B=bm，i=1，.，N且m=l，…M，d，h是汉明距离与语义亲和性⎧2001年。五、如果i=j且标号m=标号n，吉吉函数g（·）如图所示被学习sm，n=1，如果ij且标号m=标号n，（三）X =[x 1，...， x M，.， x 1，… x m，.， x M，.， x1，… xM]i、j⎩⎪ij-1，否则，111我我（·）N N其中标号m和标号n表示xm的动作类，Y=[y 1，...，y 1，...，我，.，yi，.，yN，.， yN]nijm，ni`˛¸X联系我们联系我们xj分别。换句话说，Si、j是正数，如果xm和M乘以M乘以M乘以xn来自相同的语义动作类，而其他-jm，n特别是，我们定义了特征重建函数，Wises i，j是阴性的。我们进一步采用更大的值（即，1.5）如果部分动作xm和xn来自相同的全AC，作为线性投影函数：g（xm）=WTxm+c，i j这是因为它们彼此更相关其中 WRD×D 和 cRD 是偏置向量。如果我们记x=[xT，1]T和W=[W;cT]，则它等于没有偏差的投影。因此，我们将省略c因此投影变为g（xm）= WTxm。由于二进制码之间的汉明距离可以从平方欧几里德距离导出[22]，（即，dh（bm，bn）=1||bm−bn||问题（2）可以改写为：这是因为更易于优化：在重构之后，g（xi）应该尽可能接近ble到对应的完整数据yi。为此，我们介绍-最小二乘风格的目标函数如下：ΣNminΣMs m，n||bm− bn||2，s. t. b= sign（PTg（x））。ΣNminΣMΣN||yi − g（xm）||2 = ΣM ||二、||2. （一）B、Pi，j=1m，n=1i，ji j2（四）Wi=1m =1I2i=1m =1我2一般来说，这个问题是NP难的，因为离散的na。sign（·）函数。最流行的哈希算法-公式（1）可能看起来太严格了，因为它强制执行所有的Recon-结构化的部分操作（包括那些非常有限的1492如果一个完整动作的持续时间T足够长，即，TM×t（其中t是片段/部分动作的持续时间），我们随机选择没有重叠的片段。否则，我们选择重叠。ODS（例如，[53，52，47，39]）通过简单地放松离散约束来获得近似解。这通常会产生次优的解决方案，并会导致效率较低的性能，特别是在学习长代码时。受离散散列最近成功的启发[45，46，32]，我们保持150F×j/=i我ΣMN图2. PRBC的总体框架。我们协作学习特征重构和二进制编码的联合框架。学习的二进制代码是相似性保持和歧视性的动作识别/检索从部分观察到的行动。我们的问题中的二元约束，并将问题（4）重新表示为最佳具体来说，我们迭代优化一个变量，同时固定其他两个变量。这样，我们就可以实现ΣNminΣMs m，n||bm− bn||2每个变量的最小值问题（6）下界，我们可以进一步保证收敛B、 Pi，j=1m，n=1i，ji j2我们的方法。类似的技术被广泛采用，ΣN ΣM+μ||2+λ||P||2||2[46、25、45]。步（6）B和W的固定，（6）等价于正则表达式。我i=1m =1i2F最小二乘和P有一个封闭形式的解决方案：S. t. B∈ {−1，1}L×MN，（5）P =（g（X）g（X）T+λI）−1g（X）BT，（7）哪里||· ||2表示Frobenius范数，μ是惩罚μ D参数，λ是正则化参数。我们提出一个P上的L2正则化器，以避免过拟合并确保编码期间的数值稳定性惩罚项模拟了由连续函数引起的拟合误差。在实践中，我们可以容忍b和PTg（x）之间的微小差异。此外，P可以处理现实的样本外问题。2.3.联合优化其中g（X）= WTX，并且ID是DD单位矩阵。W步在B和P固定的情况下，我们通过直接设置（6）w.r.t.的导数来获得W的解。W为0。因此，在本发明中，W =（XXT）−1（XYT+μXBTPT）（ID+μPPT）−1。（八）B步如果除B外的所有变量都是固定的，则问题（6）变为Σminsi，j||bi− bj||2+μ||B− PTWTX||2由于b是g（x）的函数，如果我们孤立地考虑特征构造和二进制编码，则可能发生累积错误换句话说，由问题（1）引起的错误Bi、jS. t. B ∈ {−1，1}2FL×MN，（9）在解出（5）之后，将进一步放大在这里，我们提出了部分重构二进制编码（PRBC）来共同解决问题（1）和（5）。联合目标函数定义如下。为了简单起见，我们将省略问题中的m和n（6）从现在开始，通过设置i，j=1，...，MN.为了生成高质量的代码，我们通过一个DIS-A来解决这个问题具体的坐标下降算法。具体来说，我们发现min Σ Σ||yi − g（xm）||2个以上Σ Σs m，n||bm− bn||2B的一列bi的封闭形式解，B、W、PI mΣ Σ+μ||BMi2i，ji j2i，j，m，n-PTg（xm）||2+λ||P||2其他列固定。换句话说，我们迭代地学习每个数据点的二进制代码。由于{bj}是固定的，i i2FI m和bTbi=L（i），以下等式成立：Σ ΣT 2m，n m n 2= min ||F+||F+si，j||bi−bj||2minsi，j||bi−bj||2+μ||B−PTWTX||2B、W、 PT T2i，j，m，n2151B2Fi、jΣ+μ||B−PWX||F+λ||P||F=minsi，j||bi−bj||2+μ||bi−PTWTxi||2+常数S. t. B∈ {−1，1}L×MN，（6）2 2b我 i、j ΣD×MN= min−2bT（ si，jbj+μPTWTxi）+const其中X，Y∈R。由于联合问题是非-我ij/=i凸，没有全局最优解。在这里，我们-用交替迭代算法实现局部S. t. bi∈{−1，1}L，i=1，.，MN.（十）B152K2i/=ak，bk∼i=1i=1i，j=1kk=1k--−算法1：锚点近似策略（AAS）0.740.72输入：B^={ba}K，{si，j}MN.0.70.64kk=1MNi，j=10.680.620.6输出：B ={bi}i=1。1，对于i= 1：MN做ˆ2找到子集{xaj}j=1，使得si，aj=1;0.66500100020004000800016000数目的锚点15000.580.563200064000 1232003j= argmin||Xij-xaj||2,j=1,..., K;10004βi=aj;5端6 返回B ={bβ}MN。500032 48 64 80 96 128码长ii=1图3.UCF101的原子吸收光谱评价平均精度（MAP）和精度内汉明半径2报告使用48位代码。培训点总数为123，200个。上述问题有最优离散解：Σbi = sign（ si，jbj+μPTWTxi）K^j/=i（十一）{bak}k=1。然后，我们关于B近似B，通过重新-哪里 .= sign（B<$isi，<$i+μPTWTxi），si，i =（si，1，.，si，i −1，si，i+1，.，si，MN）T（十二）基于所有点与所选锚点之间的相关性来构造B的缺失列b1MN。如果所有数据点中的x i和锚点中的xak是具有相同标签的最近邻，则我们使用xak的二进制码来近似x i的二进制码。AAS在Al中示出B <$i =[b 1，.， bi −1，bi +1，.，bMN]，也就是说， B<$i表示B，不包括第i列bi。我们可以观察到，计算每个数据点的二进制代码依赖于其余的预学习（MN-1）数据点。因此，我们需要在B步骤中更新BMN次特别地，如果我们将我们的PRBC方法的最大迭代设置为t，则B应该总共更新tMN次。锚点逼近策略。虽然最佳的bina-ry代码可以使用所有训练点学习，我们可以-在处理大规模训练集时不能保证学习过程的效率，即，大N。为此，我们提出了锚近似策略（AAS）。其中βi可以预先计算。在每次迭代中，B的近似可以在恒定时间内操作此外，为了验证AAS的有效性，我们在图中展示了UCF 101 [48]上的一些动作检索结果。3.令人惊讶的是，更好的性能是实现使用更多的锚点。然而，如果我们使用所有的训练数据而不使用AAS，训练时间会随着代码长度的增加而急剧上升。此外，基于5，000 8，000个锚点，与使用所有训练数据相比，我们可以实现具有竞争力的性能。总体PRBC方法总结在算法2. 通过实验，我们发现PRBC可以-具体地，一些锚点{xa}K（K<$N）在t= 3~5次迭代内完全收敛kk=1^被随机选择来学习最佳代码B =算法2：部分重构二进制编码输入：MN对训练数据点{xi，yi}MNw.r.t. 部分和全部观察到的行动;语义属性{si，j}MN;锚点数量K;代码长度L;最大迭代次数t;参数μ和λ。输出：二进制码B ={bi}MN∈ {−1，1}L×MN;特征重构函数g（x）= WTx;二进制编码函数h（x）= sign（PTx）。1随机选取K对数据点{xa，ya}K;随机初始化B^={ba} ∈{−1，1}L×K;初始化无监督学习虽然我们无法获得语义属性si，j在无监督集合中显式存在-因此，我们可以使用基于后验平滑假设的伪亲和性[29，38]。具体来说，我们首先使用k均值聚类来获得基于全训练集的数据聚类，如果xi和xj属于同一个聚类，则si，j = 1，否则si，j=1。通过这种方式，我们的方法以监督和无监督的方式开发，从而得到更一般的解决方案。在线测试一旦联合学习完成，我们就可以获得最优的W和P。在测试阶段，当一个新的部分动作x部分到来时，我们首先通过应用特征重构函数来恢复其表示不KT −1 T也就是说， g（x部件）= Wx部件。然后我们利用二进制W =（XX）(XY）和P使用Eq.（7）;编码函数以获得二进制表示，即，2 循环直到收敛或达到t次迭代：3-B-步骤：使用等式2更新（11）;近似值B，b部分 = h（g（x部分））=符号（PTWTx部分）的情况。至于任何算法1;4- W-步骤：使用等式更新W（8）;5-P-步骤：使用等式更新P （七）、精度@radius2地图使用锚点+AAS进行培训培训时间地图精度@radius2153我们直接将符号函数应用于ob，保留其二进制代码，即，bfull=sign（PTyfull）。通过匹配bpart和 bfull之间的汉明距离，可以有效地解决各种动作分析任务。154√表1.HMDB51 w.r.t.上动作检索性能的比较使用128位二进制代码的16帧部分动作方法平均动脉压（%）精度@半径2（%）精度等级50（%）培训时间测试编码时间（s）单模态二进制编码方法监督[第46话FastHash [21]KSH [34]CCA-ITQ [8]29.8047.465.1034.710.110.0010.0952.5837.9254.058.7742.61477.17 31.56×1031.17×108.90−63.8×10 −49.3×10 −63.4×10 −62.9×10无监督AGH [33]PCA-ITQ [8]3.082.941.27<0.0012.102.4435.587.62−63.8×10 −64.4×10跨模态二进制编码方法监督[22]第二十二话SCM [58][第17话][2]50.2037.1414.4135.8723.423.111.541.8554.1843.6224.9837.8532.14×10204.5225.21895.75−63.7×10 −68.5×10 −62.2×10 −66.4×10无监督[6]5.022.423.93411.37−67.3×10提出监督PRBC-Sup59.71±0.75432.31±0.52163.24±0.630129.01−63.4×10无监督PRBC-Unsup32.27±0.71716.94±0.44839.80±0.692144.34−63.2×104096-d C3 D功能（CF）4096-d C3 D特征+重建（CF+R）2.9112.4--2.0110.76-129.01--‘不‘ 我们的方法的标准偏差为10次运行也报告。4096-d C3 D功能和128位二进制代码的内存负载分别约为180 MB和90 KB计算的计算成本−3 −7两个特征/代码之间的欧几里得/汉明距离大约为1×10和5×10秒。3. 实验和结果我们在现实的动作数据集上进行了广泛的实验，分为三个任务，即，部分动作检索、识别和预测。由于部分动作检索和识别具有相似的实验设置，我们将在下面介绍它。至于动作预测，我们将在3.3节详细说明它的设置。数据集。我们的方法是在两个大规模的现实行动数据集，即，HMDB51 [16]和UCF101 [48]。HMDB 51是一个大型的人类动作识别视频数据库，包含从各种来源收集的51类6,766个动作。UCF101包含来自101个类别的13，320个视频这提供了最大的行动多样性，是迄今为止最具挑战性的行动数据集之一。行动代表。我们采用深度神经网络，即C3D [49]进行时空特征提取。我们严格遵循[49]并将动作分成16帧片段，其中8帧重叠fc 6层激活被提取为每个段的4096-d特征。一个完整的/部分的行动，然后表示的4096-d的描述符，这是平均和L2规范化的功能的所有部分的完整/部分的行动。部分动作的构造。由于我们采用C3 D来提取每个16帧片段的特征，因此我们在实验中使用16/32帧片段来简单地模拟部分动作。在训练过程中，我们从每个训练完整动作中随机选择M个16帧或32帧片段。因此，总共有M×N对部分和完全由于完整动作，OR具有不同数量的帧。这使得我们的方法与其他同行不同 [3] 15，14]要求在测试期间了解OR3) 由于两个数据集上的完整动作平均具有大约140个帧，因此合理的是利用16/32帧段作为满足有限OR要求的部分动作（即，小于30%）。议定书1) 在部分动作检索方面，我们从每个数据集中随机选择1,000个动作进行测试。我们还随机选择M16/32帧片段从每个测试的完整动作作为部分动作。1000M部分动作用作关于16/32帧设置的查询。其余N个完整动作形成训练集，如下所示：以及检索数据库。将从数据库中收集所有完整数据。基于图3.我们从训练集中随机选择5,000对，以达到良好的性能并确保高计算效率。我们基于这些锚点对和相应的语义属性学习优化的重建和二元编码函数。通过对训练集进行交叉验证来调整参数。具体来说，我们设置M=10，μ=10，λ=0。01，t=5。语义动作标签被用作基础事实。类似于其他散列方法，在散列查找（精度）和汉明排名（MAP）方面的实验结果报告，以评估性能。请注意，我们在监督和无监督设置中进行对于无监督设置，我们通过k获得属性si，j。在经验k=N的训练集上进行均值聚类观察到有关16/32帧设置的操作，其中N是训练集的大小。这些段也用于学习特征重构函数。备注。1)由于我们随机选择的部分，部分行动保证在任何时间的完整行动观察。2）虽然我们选择了固定的16/32帧片段作为部分动作，但它们仍然是未知的。[50、38]。由于选择测试动作的随机性我们通过10次运行报告平均性能。2）对于部分动作识别，除了我们需要预测16/32帧测试部分动作的标签而不是寻找它们的相似动作外，大多数协议都与部分动作检索协议等价。因此，基于完整训练数据的二进制代码学习155PRBC-SupPRBC-UnsupSDHFastHashKSHCCA-ITQAGHPCA-ITQSePHSCMCVHCMSSHCMFHPRBC-SupPRBC-UnsupSDHFastHashKSHCCA-ITQAGHPCA-ITQSePHSCMCVHCMSSHCMFH0.60.50.40.30.20.1032 48 64 80 96128码长0.60.50.40.30.20.1032 48 64 80 96128码长0.70.60.50.40.30.20.132 48 64 80 96128码长0.70.60.50.40.30.20.132 48 64 80 96128码长图4.HMDB51上的检索结果使用16帧（左两个数字）和32帧（右两个数字）部分动作作为查询。0.90.80.70.60.50.40.30.20.1032 48 64 80 96128码长0.70.60.50.40.30.20.10-0.132 48 64 80 96128码长0.90.80.70.60.50.40.30.20.1032 48 64 80 96128码长0.80.70.60.50.40.30.20.1032 48 64 80 96128码长图5.UCF 101上的检索结果使用16帧（左两个数字）和32帧（右两个数字）部分动作作为查询。然后应用于部分测试数据的二进制码进行最终识别。我们进行实验的PC与英特尔四核3.4GHz的CPU和32GB的内存。比较方法。由于PRBC是一种数据二进制化方法，我们将其与许多最先进的二进制编码方法进行比较。单模态散列方法包括监督散列方法（即， SDH [46]，FastHash [21]，KSH[34]和CCA-ITQ [8]）和无监督的（即，AGH[33][8]《易经》中的《易经》。我们还采用了几种跨模态散列来分别学习部分动作和完整动作的投影，因为跨模态散列在本质上与我们的解决方案更相似。跨模态监督哈希方法包括SePH [22]，SCM与顺序学习[58]，CVH [17]和CMSSH [2]。CMFH [6]是一种无监督的跨模态方法。为了公平比较，我们将完整和部分数据与相应的标签堆叠到整个训练数据中，然后在单模态方法的训练阶段使用。我们使用所有方法的公共代码，除了CVH，它是通过下面的[17]实现的。比较方法的参数进行了优化，以获得最佳性能，这有助于与我们的方法进行公平比较。3.1. 部分动作检索我们首先在HMDB51上测试我们的方法的有效性和效率。表1显示了使用16帧部分操作作为128位代码的查询一般来说，跨模态方法优于单模态方法，监督方法优于非监督方法。PRBC-Sup明显优于所有其他方法。PRBC-Unsup与其他无监督方法相比也具有显著的优势我们还展示了使用“C3D特征（CF）”和“C3D特征+重建（CF+R）”的结果“CF”的性能非常差，因为完全和部分操作之间存在显著的不一致性。通过特征侦察-结构的改进，性能得到了很大的提高，证明了重构的有效性然而，“CF+R”仍然不能执行以及PRBC，因为缺乏监督的信息。在效率方面，由于我们的AAS，我们的方法在大多数情况下需要较少的培训时间。至于在线编码时间，我们的方法与其他方法相当，但比FastHash快得多。我们在图中显示了HMDB 51在六个代码长度上的结果。4.大多数方法可以实现更好的性能，从16到32帧的更多的观察。值得注意的是，无论代码长度如何，PRBC-Sup始终优于所有比较方法PRBC-Unsup还显示出优于其他无监督方法的优越性，甚至比几种有监督方法更好地工作（例如，CVH和SDH）。图5显示了不同方法对UCF 101的结果。随着比特数的增加，可以获得增强的结果，并且从32到48的改进是明显的。这表明极短的代码可能缺乏区分力，并且不适合大规模复杂数据集。PRBC-Sup算法的性能最好，而PRBC-Unsup算法的性能优于其他无监督算法和几种有监督算法。3.2. 部分动作识别由于我们学习的二进制代码可以被看作是紧凑的功能，我们评估PRBC的有效性方面的部分动作识别。对于这两个数据集，我们遵循标准的3个分割设置[16，48]并报告平均识别准确率。三种代码长度的比较结果如表2所示。随着位数的增加，大多数方法可以获得更精确的结果。我们的PRBC-Sup在所有代码长度上都表现最佳。PRBC-Unsup也取得了可喜的成果。仅用32位，我们的方法已经可以获得令人满意的结果，即，在HMDB 51和UCF 101上的准确率分别超过40%和70%。我们还比较了PRBC与几个地图地图精度@radius2精度@radius2地图地图精度@radius2精度@radius2156≈×≈ ×表2.不同方法对HMDB 51和UCF 101的部分动作识别准确率（%）方法16帧部分测试行动32帧部分测试行动HMDB51UCF101HMDB51UCF10132位64位128位32位64位128位32位64位128位32位64位128位单模态二进制编码方法[第46话FastHash [21]CCA-ITQ [8]KSH [34]AGH [33]PCA-ITQ [8]13.9116.7017.452.235.362.3016.4721.0819.032.856.203.0819.3623.0921.232.625.53.2227.6337.1749.232.871.974.7438.0548.5752.592.281.944.9444.7855.9854.902.471.474.7412.3115.1519.422.583.334.0215.1518.1420.802.733.333.6319.3520.1122.632.314.623.8733.0639.5152.537.983.746.3242.7849.3156.778.024.407.3950.3356.2959.578.853.827.11跨模态二进制编码方法[22]第二十二话SCM [58][第17话][6]32.8931.7825.522.6533.9736.4831.132.6037.1538.6734.933.1557.6140.9445.077.0463.6162.0656.787.3267.8468.5764.707.9537.0731.5726.323.9439.5835.7531.553.8541.2437.9536.044.9159.2141.0345.908.8465.0662.2957.928.4269.1168.9766.179.53提出PRBC-SupPRBC-Unsup42.7829.6445.8032.7648.6034.2570.2758.0675.1162.9478.4667.1546.5231.6449.3233.9050.7934.8471.7956.1577.4760.4980.8064.19交叉视图特征学习方法共同国家评估*[9][54]第五十四话XQDA*[20]CVFL [55]39.51（2048-d）37.71（4096-d）11.53（512-d）40.32（4096-d）70.61（4096-d）66.83（4096-d）40.11（512-d）70.97（4096-d）41.87（2048-d）40.02（4096-d）14.32（512-d）44.12（4096-d）72.26（4096-d）68.05（4096-d）44.14（512-d）73.13（4096-d）C3D功能（CF）C3D特征+重建（CF+R）3.42（4096-d）24.39（4096-d）3.92（4096-d）53.50（4096-d）4.70（4096-d）30.09（4096-d）4.93（4096-d）55.12（4096-d）‘*’括号中的数字表示特征尺寸w.r.t.结果。与CF+R类似交叉视图特征学习方法（即，CCA3 [9]、PLSR [54]、XQDA [20]和CVFL [55]）。PRBC甚至可以胜过最先进的交叉视图学习方法。虽然32位的PRBC- Sup的性能略差于4096-d（2.6105位）特性的CVFL/CCA，但它显著降低了内存负载和计算成本。3.3. 动作预测由于AP是PAR的一个特例，我们还评估了我们的方法在AP的上下文中。我们使用广泛使用的数据集：UT-交互[42]，包含两个子集，每个子集有6类高级交互。由于每个子集中只有60个动作视频，我们从所有训练数据中学习PRBC，而不是使用AAS。我们遵循标准实验设置[41]。具体来说，我们采用长方体描述符[7]并使用具有800个码字的BoW。在[41]之后，我们采用留一序列输出方案，即，每个子集的10倍交叉验证平均预测精度报告，考虑到不同的OR。特别是，由于我们更感兴趣的是预测有限的观察行动，我们评估了所有的方法与三个小OR。表3显示了预测精度。所有的比较结果都是原文中最好的。随着OR的增加，所有方法都能获得更好的性能，这证明了我们的假设，即更多的观察有助于行动分析。在几乎所有的情况下，我们的方法都达到了最佳的精度。性能增益是特别明显的小OR，显示我们的方法在处理部分行动非常有限的值得注意的是，所有比较的方法采用原来的800-d（5104位）的功能，而我们减少到32/64位的二进制代码。这毛皮-3CCA将部分/完全动作作为两个视图来学习公共实值子空间，而CCA-ITQ利用动作及其标签来学习二进制代码。表3. UT-交互数据集#1和#2的动作预测准确度（%）w.r.t.不同的观察比率（OR）。方法UT-国际行动日期样品#1UT-国际行动日期样品#2OR=0.1OR=0.2OR=0.3OR=0.1OR=0.2OR=0.3贝叶斯[41]16.716.716.716.716.717.1BP-SVM [41]16.821.727.816.724.035.5IBoW [41]14.517.930.816.829.934.9[41]第四十一话15.220.230.716.728.943.3SC [3]18.333.356.721.743.350.0[3]18.340.060.021.740.048.3MTSSVM [15]36.746.766.733.350.060.0RPT [57]13.326.756.715.033.363.3AAC [56]45.046.760.051.353.360.0[18]第十八话38.354.568.331.341.356.7MMAPM [14]46.751.770.036.755.063.3PRBC-Sup@ 64位55.058.363.360.065.075.0PRBC-Sup@ 128位56.758.365.060.063.371.7从而证明了所提出的PRBC的优越性。4. 结

下载后可阅读完整内容，剩余1页未读，立即下载