动作序列的无监督共同分割研究及算法

191 浏览量更新于2023-10-15 收藏 1.54MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1序列B序列A三维运动捕捉数据和视频Konstantinos Papoutsakis1，2，Costas Panagiotakis1，3，Antonis A.Argyros1，21计算视觉和机器人实验室，计算机科学研究所，希腊2希腊克里特大学计算机科学系3希腊克里特岛TEI工商管理系（Agios Nikolaos）{papoutsa，cpanag，argyros}@ ics.forth.gr摘要给定两个动作序列，我们感兴趣的是发现/共分割表示相同动作的所有子序列对。我们提出了一个完全无监督的解决方案来解决这个问题。没有先验模型的行动被假定为可用。公共子序列的数量可以是未知的。子序列可以位于原始序列中的任何地方，可以在持续时间上不同，并且相应的动作可以由不同的人以不同的风格执行。我们把这种类型的时间动作共同分割作为一个随机优化问题，采用粒子群优化（PSO）解决。该算法利用动态时间规整算法（DTW）来比较两个动作子序列，并将目标函数最小化。由于通用的问题公式化和解决方案，所提出的方法可以应用于运动捕捉（即，3D骨架）数据或在野外获取的常规RGB视频。我们提出了广泛的定量实验的标准数据集，以及在本文中介绍的数据集所得到的结果表明，所提出的方法实现了显着增加的共同分割质量相比，所有测试的最先进的方法。1. 介绍图像和视频中的共同模式的无监督发现被认为是计算机视觉中的一个重要且尚未解决的问题。我们感兴趣的问题的时间方面，并专注于动作序列（序列的3D运动捕捉数据或视频数据），包含多个共同的行动。这个问题在[10]中被引入为时间共性发现（TCD）。我们的动机和兴趣的问题源于这样一个事实，即发现共同的行动模式，在两个或两个以上的序列提供了一个直观的，以及有效的共同行动扔一个球冲压开合跳鼓掌非共同行动坐下原地跳跃图1：给定两个共享共同动作的图像序列，我们的目标是以完全无监督的方式自动共同分割它们。在这个例子中，有四个公共动作和两个非公共动作。注意，在序列B中有两个序列A的第一个动作的实例灰度背景的每个点编码对应序列帧的成对距离一种方法来分割它们，识别序列中执行的一组基本动作，并在更高的级别上以无监督的方式构建所执行动作的我们提出了一种新的方法来解决这个问题，该方法对多变量时间序列进行操作（即，每帧固定维数的特征假设两个序列/时间序列包含许多共同的动作子序列，我们的目标是以无监督的方式识别这些对，在这个意义上，没有先验模型，没有关于动作的长度和标签的信息。如图所示。1，共享（公共）子序列可以出现在两个序列中的任何地方，并且可以68276828在执行的时间和方式上都不同这种共性由四个值定义：两个序列中共同分段的子序列的起始位置和它们可能我们将搜索单个这样的共性作为基于粒子群优化（PSO）解决的随机优化问题[20]。从本质上讲，粒子群算法搜索一个共性，最大限度地减少共同分割的子序列之间的相异。这通过动态时间规整（DTW）的非线性对齐成本进行量化[35]。此优化过程的迭代调用可识别所有共同点。它们的数量可以是先验已知的，也可以是自动识别的，分别导致我们的方法的监督或实验是在几个数据集上进行的，这些数据集包含实验室环境或野外的人类或动物行为序列数据集涉及运动捕捉数据或传统的RGB视频。对所获得结果的定量分析表明，所提出的策略比现有技术的最佳竞争状态的方法提高了很2. 相关工作术语共分割最初由Rother等人在计算机视觉中引入。[38]，作为给定一组图像的“相似的东西”的联合分割的任务。这个想法旨在消除对繁琐的监督训练的需要，从而实现对许多有趣问题的无监督或弱监督解决方案，例如视频中人类动作的自动注释[11，4]。图像/对象共分割：已经提出了几种最先进的方法，用于共同分割图像中的相似图像区域[27，30，5]和对象共同分割通过提取给定图像对[45，18]或单个图像[13]的一个或多个突出对象。在[40]中提出的方法对多个图像中的对象的多个公共区域执行无监督的共同分割视频共分割：最近，这个想法被扩展到视频分割，朝向共同的前/背景分割[39]和单个或多个对象共同分割[6，44]。在[8]中，多类视频对象共同-即使在对象类和对象类实例的数目未知时也执行分割。这些工作假设视频的所有帧都包含目标对象。在[49]中放松了这一假设，其中目标对象在多个视频中被联合发现和共同分割，即使它们没有出现在某些帧中。时间序列的无监督分割：有几种方法处理在单个或多个序列中找到一个或多个共同的时间模式的问题[29，7]。这个问题的解决方案在从生物信息学和经济学到计算机科学和工程的各种广泛领域中是有用的。各种方法处理与使用时间聚类[54]，分割[21]，时间对齐[53]等的问题。[50]提出了一种基于运动捕捉数据的人体重复动作无监督时间分割方法。这是通过分析频率的运动参数，检测零速度交叉和聚类的序列数据。最近，[2]中的方法研究了使用卷积自动编码器来无监督地挖掘混合在多变量时间序列中的经常性时间模式。[26]中提出的方法还使用CNN来顺序分析输入视频序列中的20个非连续帧的块，以便最终以在线方式对近似相同动作的重复进行计数。[12]中的方法能够自动确定由一个或多个视频或音频序列共享的基序的数量，找到它们在每个序列中出现的位置并确定它们的长度。动态时间规整（DTW）[35]被广泛用于不同长度的两个序列的时间非线性对齐，用于人体运动的时间对齐[53]或无监督语音处理[33]。在[33]中，提出了DTW的分段变体，以无监督的方式发现词汇语音单元的库存。行动共细分：[15]中的方法通过分割包含共同动作的两个视频的帧来在一对视频中执行共同动作提取。该方法依赖于测量密集轨迹的时空特征的共显性。在[54]中提出的方法可以以无监督的方式发现一个或多个人的视频序列中的面部单元。对面部特征进行时间分割和聚类另一项最近的工作[9]通过利用跨多个视频的相同主题的视觉共现来解决视频共概括的问题，使用最大双团查找（MBF）算法来发现两个长动作序列之间和之内的一个或多个共性。[52]中的工作介绍了一种使用吸收马尔可夫链的无监督学习算法，以便从一组视频或单个视频中的多个实例中检测可变长度的共同活动。我们的工作与时间共性差异（TCD）方法[10]最相关，该方法以无监督的方式在一对视频或时间序列中发现共同的语义时间模式。这被视为整数优化问题，该问题使用分支定界（B B）算法[25]来搜索每个视频序列中所有可能片段的最优解我们的贡献：我们提出了一种新的解决方案的问题的时间动作共同分割。所提出的方法是完全无监督的，并假设其输入的一个非常一般的表示。此外，它被证明是perperper-form-form TCD和其他国家的最先进的方法由一个大的margin，而实现了更好的计算性能。68293. 方法描述我们的方法包括四个组成部分，(a)特征提取和数据表示（第3.1节），（b）基于DTW的动作序列比较（第3.2节），（c）量化潜在子序列共性的目标函数（第3.3节），以及(d)在进化优化框架中使用（c），用于在一对序列中发现一个共同子序列（3.4节）和所有共同子序列（3.5节）3.1. 特点和代表性所提出的框架将动作序列视为多变量时间序列。更具体地，假设输入由长度分别为IA和IB的两个动作序列SA和SB这样的每一个序列被编码为特征向量f∈Rd。这一提法的一般性使得能够考虑一个非常广泛的功能。例如，向量f可以代表表示人类骨架关节的运动捕获数据，或者基于来自传统RGB视频的密集轨迹[47，43]的外观和运动特征的第4节介绍了在四个数据集上进行的实验，每个数据集都考虑了人类运动捕捉或图像序列特征的不同表示这证明了所提出的解决方案的通用性和广泛适用性。3.2. 基于DTW的动作序列比较我们的方法的一个关键组成部分是一种方法，作为sesses定量的两个动作序列之间的相似性被视为时间序列，根据其时间对齐的概念在最近的一项研究中，Wang et al.[51]进行了一项扩展研究，比较了来自不同科学领域的38个数据集的9种对齐方法结果表明，DTW算法[3，35，42]最初是为口语识别任务[41]开发的，始终优于其他研究方法。因此，我们采用DTW作为两个序列内子序列对的比对和比较工具。更具体地，给定长度为IA和IB的两个动作序列SA和SB，我们首先计算两个序列的所有帧的成对距离的距离MA，B，如图2a所示。根据序列的性质，可以采用不同的距离函数（例如，运动捕捉数据的欧几里德范数，直方图的χ2矩阵W1，2表示重置成本，即DTW方法的输入[3]。该算法计算具有通过其追踪的最小距离/成本扭曲路径的成本矩阵，提供在两个序列的所有帧之间建立非线性匹配的成对对应。路径上所有值的累积成本提供了(a) 距离矩阵（b）F（p）图2：（a）序列SA，SB的所有帧的成对距离矩阵。(b)示出了目标函数F（p）的得分（等式10）。1）所有可能的起始点和子序列长度（详见第3.3节这两个序列，记为D。所得到的最小距离路径包含数量为np的对角元素，其识别两个序列之间的帧的匹配。如果输入序列是长度为l的相同时间序列，则通过成本矩阵的扭曲路径将是其对角线，其中D= 0且np=l。3.3. 评估候选人共性有了测量两个序列的比对成本的方法，我们的目标现在是定义一个有效的目标函数来评估候选共性。可以由四元组p=（sa，la，sb，lb）完全表示可扩展的共性p，其中sa，sb是起始帧，la，lb分别是SA和SB共性p可以被视为矩形R（p），其左上角位于点（sa，sb）处，并且其边长为la，lb（例如，见图中的任何彩色矩形。①的人。我们感兴趣的是促进低对准成本（或等效地，高相似性）的共性p，其也对应于尽可能多的时间匹配为此，我们定义一个目标函数F（p），量化可能的共性p的质量：F（p）=D（p）+c。（一）np（p）+1四元组p表示原始序列的两个子序列，D（p）是它们的基于DTW的对准成本，并且np（p）是这些子序列的匹配帧的数量。实质上，F（p）通过将时间对准成本D（p）除以匹配帧的数量np（p）来计算使用DTW计算的对准路径上的平均对准成本。c是一个小常数，它保证了较长的共性比小的共性更受青睐，即使在D（p）= 0的不太可能的情况下也是如此。图2a、2b基于给定的序列对提供了关于目标函数及其4D域的我们假设两个序列SA，SB连续，6830我跨帧[200.. 350]和[400.. 600）。图2a示出了基于表示帧的特征向量的欧几里德距离计算的所有帧的成对距离矩阵WA，B图1的地图中的每个单元（i，j）。2b表示在允许长度的所有可能组合上从SA中的帧i和SB中的帧j开始的两个子序列的最小目标函数分数F。因此，所呈现的映射通过F（·）的响应的2D映射来可视化4D参数空间。可以证明，低分数是集中在共同子层序区域附近。3.4. 发现一个共同点发现一个单一的共性相当于优化Eq。（1）所有可能的共同点P。在记法中，最佳通用性p定义为：p= arg min F（p）。（二）p在由可能的共性跨越的4D参数空间中彻底搜索所有候选解决方案我们选择将其视为分布）在搜索空间的有效位置。对粒子的实际数量和世代的决定需要拿出一个准确的解决方案的问题是根据实验证据，并在第4节讨论。最后，序列不一定包含共性。这种情况可以通过注意到，最小化方程。2的结果是一个很大的值。3.5. 发现多种共性在PSO的单次运行中识别N个共同性的问题的联合解决方案将需要探索4N维空间。当考虑大的N值时，这对于PSO来说可能变得棘手。因此，我们诉诸于一个迭代优化过程，确定一个单一的共性在同一时间。应该注意的是，第n个共性pn应该尽可能少地与先前识别的n-1个共性pi重叠，1≤i≤n-1。有一种相当直观的方法来识别这种重叠。两个COM-monalitypi和pj，它们的归一化交集<$（pi，pj）关于p，i定义为：|R（pi）<$R（pj）|基于规范粒子群优化（PSO）算法解决的随机优化问题，（pi，pj）=、（3）|R(pi)|Rithm[20，19，16]，一种功能强大且通用的进化优化方法。PSO是一种无导数优化方法，可处理多模态、具有多个局部极小值的不连续目标函数。优化是通过种群（群）的粒子（候选解）的进化来粒子位于待优化目标函数的参数空间中，并进行演化其中，R（p）是公共性p的区域（见第3.3节），|·|测量2D区域的面积。考虑到这一点，为了识别第i个共性pi，我们精细新的目标函数，该目标函数不仅考虑p1的基于DTW的分数（如前所述），而且考虑其与已经识别的共性的归一化交集。因此，最佳第i个共性被定义为：通过有限数量的代（迭代）协议-一个模仿“社会互动”的政策。PSO的主要参数是粒子数和代数，其乘积决定其计算预算（即，目标函数evalp= arg min<$F（pi）+λpiΣi−1j=1n（pj，pi）n，（4）评估）。PSO和其他元启发式方法（如模拟退火[22]和差分进化[34]）不能保证收敛到全局最优解。然而，在实践中，PSO及其变体是有效的，并实现接近最优的解决方案。因此，PSO已成功应用于计算机视觉中的几个具有挑战性的多维优化问题，例如手部[31，32]，手部和物体[24]以及人类[17]的3D姿态估计和跟踪。对于单一动作共分割，PSO在所有可能共性的4D空间上操作。某些约束适用于参数sa、sb、la和lb。具体地说，它认为la，lb≥lminla，lb≤lmax，sa≤lA−lmin，sb≤lB−lmin，其中lmin、lmax是用户定义的min-最小/最大允许通用长度。的4D对粒子群算法的搜索空间进行了相应的约束。对于每次运行的粒子群算法，粒子被随机初始化（均匀其中，λ >0调整了两项在目标函数较大的λ值排除了与已识别的共性有轻微重叠的共性。在我们的实现中，我们设置λ= 1。注意，Eq.的目标函数(4) 惩罚其区域重叠的共性，但不惩罚共享距离标记的行（或列）的非重叠共性。因此，序列中的动作可以与第二序列中的相同动作的若干实例监督vs无监督行动共分割：到目前为止描述的迭代共分割方法可以应用于已知数量N的迭代，从而产生N个检索到的共性。我们将该算法的这种变体表示为 S-EVACO ，其代表监督进化动作 CO 分割。 S-EVACO是有用的，当在一对公共动作连续性中的数量68311...视频是先验已知的。然而，一个完全无监督的方法，不假设这方面的知识肯定是更可取的。我们的方法开发这样一个无监督的方法作为一个模型选择任务的问题为此，我们考虑一个用户定义的参数，它是公共操作的最大可能数量，记为K。我们对K次迭代运行基于PSO的迭代优化过程，检索K个共性pi以及它们的适应度得分F（pi）。我们把共性按升序排列-f（pi）。最后，我们考虑连续排序的共性之间所有可能的K−1断点。我们接受使其左边和右边的适应性得分的平均值的绝对差最大化的断点j。通过这样做，我们保证，introduc-将P_j+1加入到共性解决方案集合中实质上降低用符号表示最小平均失真片段[33]。对所有竞争方法的参数进行了微调，以优化其性能。我们报告所获得的最佳结果。4.1. 数据集和性能指标实验评估进行了总共373对序列，包括多达2355个动作子序列和1286对共同的行动。所有编译的数据集，所提出的方法的代码和实验中使用的所有方法的详细优化参数设置都可以在线公开获得1。MHAD 101-s 数据集： Berkeley Multimodal HumanAction Database（MHAD）[46]包含由光学运动捕捉系统获取的人体运动捕捉数据以及所获取的常规RGB视频和深度数据jmax=argmax.. Σj.1F（pi）−.ΣKF（pi）. .分别来自多个视图和深度传感器。所有的信息流都是时间同步的，j∈{1，…K−1}。Ji=1K−ji=j+1..（五）经过计量校准原始数据集（参见图。3a）包含由12名受试者（7名男性，5名女性）执行的11个动作。每个动作由每个受试者重复5次共同点p1到pj构成所寻求的解决方案。我们将我们的方法的这种变体表示为U-EVACO。4. 实验评价我们评估了所提出的动作共分割方法的性能，并将其与使用基于3D运动捕捉数据或传统（RGB）视频的各种地面真实数据集的最新方法进行了比较。在第一系列的实验中，我们调查的计算预算（粒子数和代），这是所需的PSO解决共同分割问题。通常，更多的粒子和/或代有助于PSO更好地探索参数搜索空间。然而，在某一点上，精度增益与计算要求的增加相比不成比例地低。这些实验导致选择构成最佳折衷方案在计算要求和精确度之间。然后，我们将基于选定和固定PSO预算的方法的结果性能与最先进的TCD方法[10]（Guo等人提出的方法）的结果性能进行比较。[15]和我们自己的分段DTW的两个变体的实现[33]。在分段DTW中，局部对准过程产生具有有限的时间变化和低失真的多个扭曲路径。每个扭曲路径被限制在给定宽度的对角线区域每个路径的最小长度也作为参数给出。由于分段DTW是一种无监督的方法，因此我们将其命名为 U-SDTW。我们还考虑了一种监督变体，即S-SDTW，其中公共子序列的数量是已知的，并通过选择具有较低长度约束的路径来识别我们考虑了所有可用的动作类别，除了一个（标记为坐下/站起来的动作），因为它是动作No10-（坐下）和No11-（站起来）的组合。这说明了地面实况定义中的潜在问题和模糊性。我们只选择每个受试者执行动作的第一个（五个中的第一个），因此我们收集了一组120个动作序列。我们使用原始数据集的运动捕获（3D骨架）数据，并将其在时间上降低16倍，以达到30fps的标准帧速率。然后，我们考虑了上面定义的人类动作的子集，作为用于合成更大的动作序列的构建块，并通过构造来定义关于共性的基础事实可用的这样的序列对。由此产生的MHAD 101-s数据集包含101对动作序列。在50个配对序列中，每个序列由3个串联的动作片段组成，并且配对序列恰好有1个共同点。在17对中，每个序列由3-7个动作组成，两个序列有2个共同点。在17对序列中，每个序列由3-7个动作组成，成对的序列有3个共同的动作。最后，在17对中，每个序列由4-7个动作组成，成对的序列有4个共同点。还保证（a）序列包含相同主题的动作（b）以促进风格和持续时间的可变性，对于每对，两个序列涉及不同的主题，(c) 序列中的公共动作的放置是随机的。序列和共同动作的长度范围分别在300-2150帧和55-910在MHAD101-s中表示3D运动捕捉数据已经提出了骨架数据的几种表示[23，1http://www.ics.forth.gr/cvrl/evaco/6832(a) MHAD数据集（b）CMU数据集(c)80对数据集图3：（a）伯克利MHAD数据集的快照。(b) 来自CMU-Mocap数据集的快照。(c)来自80对数据集的快照对。28、14、37]。我们采用[37]中提出的表示法的一个变体。据此，人类姿势被表示为30 + 30 + 4 = 64D向量。前30个维度对所选身体部位相对于身体中心坐标系的角度进行接下来的30个维度编码相同的角度，但在以相机为中心的坐标系中。最后，该表示法增加了前臂和前臂之间的4个角度以及大腿和小腿之间的角度。CMU 86 -91数据集：我们还采用了CMU-Mocap数据库2，最初在[1]（图3b）中提出的连续动作序列。我们选择了由14个标记的、基于骨架的人体运动数据的长动作序列组成的集合Subject86，每个动作序列由多达10个动作组成（在4k-8k帧之间）。与MHAD 101- s相比，这些操作不是串联的，而是以连续的方式执行的。我们利用原始数据集的变体，在Chu et.al[9]中提出，其涉及：（a）将动作标签分组为24个类别的相似动作（原始数据集由48个预定义动作组成），（b）基于骨骼根的位置和方向以及相对关节角度的人体运动数据的特征表示，其导致30- 60度的运动。D特征向量，（c）通过因子4暂时下采样的序列，以达到30 fps的标准帧速率，（d）通过组合所有单独的序列，一组91对动作序列。每个序列的基础事实都在[1]中提供。我们认为，sider的中值的三个帧号码提供了可能的行动边界，为每个行动在一个长的序列。我们还注意到，序列的长度范围在330和1570帧之间，并且它们的共同动作的长度范围在70和1000帧之间（30fps）。MHAD 101-v 数据集： MHAD 101-v 数据集与 MHAD101-s在动作组成和共同分割相关基础事实方面相同。然而，而不是2http://mocap.cs.cmu.edu/采用运动捕捉数据流，我们采用相应的RGB视频流。我们的动机是测试所提出的方法的性能时，它是美联储与低级别的视频数据。同时，在完全不同的表示下对相同序列的方法性能的比较，为表示和方法提供了有趣的见解。在MHAD 101-v中表示视频数据：所采用的表示基于改进的密集轨迹（IDT）特征[47]。基于IDT，我们使用公开可用的代码3以及相同的配置和参数计算四种类型的描述符，即轨迹形状，HOG，HOF和MBH [47]，如[48，47]所示。为了对特征进行编码，我们使用Bag-of-Features表示，分别针对数据集中的每种类型的描述符和每对视频。更具体地说，我们使用k均值对在一对中的两个视频的帧上提取的特征构建了每种类型的描述符的码本。然后，我们计算每个帧的特征包表示，这导致每帧特征向量（码字频率的直方图），该特征向量捕获关于在该帧之前的15帧的时间窗口中检测和跟踪我们发现25个码字的码本对于我们的目的是足够的。最后，我们将每帧每种描述符计算的所有特征向量连接在一个100-D特征向量中。80对数据集：我们还采用了公开的480对数据集，专门设计用于视频中常见动作提取的问题，并在Guo等人的工作中提出。[15]第10段。在80对数据集中，50对是来自UCF 50数据集[36]的人类行为的分段片段，30对是从BBC动物文档中选择的，因此，数据集包含在不受约束的设置和环境中执行的连续动作的视频。在80对中表示视频数据密集点传输采用基于光流的投影[43]，并使用MBH描述符[47]进行编码，遵循与基于公开可用代码5的[15]中相同的实验设置。然后，基于方法[15]的公开可用代码4计算每帧特征。指示性地，基于运动的图形-背景分割应用于每个视频以去除背景轨迹，并且使用25个码字采用基于一对视频的所有帧的MBH描述符的特征袋表示因此，每个帧由25D特征向量表示，该特征向量是结束于该帧中的轨迹的码字的频率的直方图。http://lear.inrialpes.fr/people/wang/3www.lizhuwen.com/5http://lmb.informatik.uni-freiburg.de6833表1：MHAD-101和CMU 86 -91数据集（涉及基于3D解剖学的数据）的评价结果。图4：MHAD 101-s（左）和MHAD 101-v（右）数据集的目标函数的重叠分数作为PSO粒子和世代的函数。性能指标：为了评估所评估方法的性能，我们采用了精确度P、召回率R、F1评分和重叠O（交集大于并集）的标准度量[10]。在我们的上下文中，精度量化了有多少帧的共同-分段序列属于两个序列中的共同点集合。召回量化了该方法确实发现/分割了多少实际共性（公共帧）。对于每个数据集，我们计算所有对的每个度量的平均值。4.2. 选择PSO预算粒子群优化算法的有效性和运行时间取决于粒子数s（可达解）和粒子进化代数g（粒子进化）。乘积s·g等于目标函数求值的次数。g和s是实验定义的，因此，适当地设定溶液质量和运行时间之间的折衷。在这个方向上，我们将我们的方法应用于MHAD 101-s和MHAD 101-v数据集，运行{8，16，32，64，128，256}中s，g的所有组合，即，从最低的8×8 = 64到最高的256×256 =65536目标函数评价。对于每个组合-因此，我们考虑了5次运行的平均重叠分数图4总结了两个数据集获得的结果。在两者中，重叠分数随着PSO预算的增加而增加。此外，在这两种情况下，增加粒子数量时的重叠分数增加速度都快于增加代数。最后，虽然最佳性能差别不大，但基于骨架数据的优化似乎比基于视频数据的优化更容易。3D图的概述提供了至少32-32代和颗粒的组合实现良好结果的证据。（32，128），（64，128），（128，32），（128，64）的（g，s）结构达到通过仅使用6. 25%，12. 5%，6. 25%，12. 最大值的5%CMU86-91R（%）P（%）F1（%）O（%）中医药[10]30.951.338.024.1S-SDTW[33]44.920.927.616.1U-SDTW[33]44.920.927.616.1S-EVACO67.677.171.657.5U-EVACO71.367.465.251.04.3. 骨骼数据上的动作协同分割关于MHAD 101-s的结果：我们允许所有方法搜索长度在范围[25]内变化的公共子序列。1370]（从最短动作长度的一半到最大动作长度的1.5倍）。结果报告于表1中。方法的得分在表中表示为%平均得分，在数据集的每个样品（序列对）的所有个体得分上计算。所提出的S-EVACO和U-EVACO方法的分数是在对每个数据集重复实验10次之后S-EVACO的重叠评分为59。4%，超过TCD50%，对于所有报告的指标，分段DTW的两种变体（ U-SDTW/S-SDTW ）均超过 20%U-EVACO的重叠度量比S-EVACO的重叠度量低9%。尽管如此，我们强调，所提出的方法的非监督版本优于最先进的监督方法的一个非常宽的利润率。CMU 86 -91上的结果：我们允许所有方法搜索对于长度在范围[70... 1135]（从最短动作长度的一半到最大动作长度的1.5倍）。 CMU 86 -91数据集的结果报告见表1。在所有报告中，所提出的方法优于TCD[10]指标（重叠率高出27-33%）。我们还注意到，与S-SDTW和U-SDTW相比，我们的方法具有相当高的性能（重叠率高出36-41%4.4. 视频数据的动作协同分割预算，分别。在所有的实验中，我们最终设置（g，s）=（64，128）。原因是生成需要串行执行，而粒子可以并行计算因此，（64，128）配置最终可以比（128，64）配置快两倍。关于MHAD 101-v的结果：结果总结在表2中。给定在每对序列中要发现的公共动作的数量，所提出的S-EVACO方法在重叠和其他度量方面分别优于S-SDTW超过20%和10%MHAD101-sR（%）P（%）F1（%）O（%）中医药[10]16.718.113.88.5S-SDTW[33]61.647.148.535.9U-SDTW[33]65.845.547.735.1S-EVACO77.967.671.359.46834表2：MHAD-101 v和80- 101 v的评价结果100%帧与重叠，骨架视频TCD0.8对涉及视频数据的数据集。8060402000 0.2 0.4 0.6S−SDTWU−SDTWS−EVACOU−EVACO0.810.60.40.200 0.2 0.4 0.60.8 11000.8F1vs重叠，视频TCD8060402000 0.2 0.40.61008060402000.810.60.40.2000.80.60.40.20S−SDTWU−SDTWS−EVACOU−EVACO0.2 0.4 0.6 0.8 10.2 0.4 0.6 0.8 1TCD具有小于20%的重叠分数，并且其性能在召回、精确度和F1指标方面低30%与S-EVACO相比，无监督变体（U-EVACO）的重叠减少了13%。此外，与S-EVACO相比，S-SDTW的重叠、精确度和F1评分分别降低了8%、14%和10%。80对数据集的结果：表2总结了该数据集的结果。除了TCD，S-SDTW和U-SDTW，我们比较我们的方法，郭等的方法。[15]第10段。我们采用了该方法的公开实现，并使用[15]中为该数据集建议的参数运行它TCD、S-SDTW和U-SDTW方法的得分相当，TCD在所有指标中的得分较低，但精度比U-SDTW高5%。所提出的S-EVACO、U-EVACO具有类似的分数，主要是由于该数据集中的所有视频对都包含要被发现的单个共同动作。所提出的方法的两种变体都优于TCD、S-SDTW和U-SDTW方法，重叠部分的改进超过40%，其他指标的改进在17%和53%两种提出的变体在重叠（12%的改善），F1评分（12%）和召回率（20%）方面的得分也高于Guo图5总结了所有数据集中的结果左列显示重叠在上方的对的百分比一定的门槛。右列显示了在将重叠阈值以下的对的F1得分归零后，所有序列对的平均F1图中显示了所有数据集对（顶部）、仅涉及视频数据的数据集对（中间）和仅涉及骨架数据的数据集对（底部）。可以证实，S-EVACO和U-EVACO的性能大大优于现有技术。通常，TCD采用的基于BoW的表示是无序的，因此动作的比较错过了重要的时间内容。图5：所有数据集中获得的结果总结。相反，我们基于DTW的方法捕捉到了这个重要的时间维度。关于执行时间，U-EVACO平均需要10秒来处理一对1000帧的视频，发现8-10个共同的动作子序列。这使得它更慢，但与U-SDTW相当，比TCD快两倍多。5. 总结和结论提出了一种新的动作序列对中所有公共动作的时间联合分割方法。我们将其视为随机优化问题，其解决方案是定义最大相似性的动作段的输入序列的子序列的起始位置和长度。基于迭代粒子群优化算法进行优化，目标函数基于两个子序列的非线性DTW比对成本定义。所提出的方法对多变量时间序列进行操作。因此，它可以呈现各种图像/视频/运动表示。提出了两种变体，一种假设共性的数量是已知的（ S-EVACO），另一种不需要该信息（U-EVACO）。这两种变体都在具有挑战性的运动捕捉和视频数据集上进行了广泛的测试，具有各种特征和表示，并与最先进的方法进行了比较。结果表明，所提出的方法优于所有国家的最先进的方法在所有数据集的大幅度。确认这项工作得到了H2020项目ACANTO和Co4Robots的部分支持。谨此感谢CVRL/ICS/FORTH成员DamienMichel和Paschalis Panteleris所作的贡献F1与重叠，骨架视频TCDS−SDTWU−SDTWS−EVACOU−EVACO0.2 0.4 0.6F1与重叠，骨骼TCDS−SDTWU−SDTWS−EVACOU−EVACO%帧与重叠，骨骼TCDS−SDTWU−SDTWS−EVACOU−EVACO%帧与重叠，视频TCDS−SDTWU−SDTWS−EVACOU−EVACOMHAD 101-vR（%）P（%）F1（%）O（%）中医药[10]20.614.015.419.3S-SDTW[33]65.249.150.537.7U-SDTW[33]69.445.748.035.5S-EVACO76.666.869.856.280对R（%）P（%）F1（%）O（%）中医药[10]22.965.431.221.5S-SDTW[33]27.852.231.421.6U-SDTW[33]34.660.637.325.6S-EVACO75.877.273.964.5U-EVACO61.069.762.054.26835引用[1] J. Barbi c.，A. Safon ov a，J.- Y. 潘角 Faloutsos，J. K.Hodgins，N. S.波拉德将运动捕捉数据分割成不同的行为。在Proceedings of Graphics Interface 2004，第185-194页中加拿大人机通信协会，2004年。[2] K.巴斯科尔河Emonet，E. Fromont和J. - M.奥多贝兹使用自动编码器的时间序列中的无监督可解释模式发现，第427-438页。Springer International Publishing，Cham，2016.[3] D. Berndt和J.克利福德使用动态时间扭曲来发现时间序列中的模式。KDD研讨会，第10卷，第359-370页。1994年，华盛顿州西雅图[4] P. 博亚诺夫斯基河Lajugie，F.巴赫岛Laptev，J.庞塞C. Schmid和J.西维克排序约束下的视频弱监督动作标注。见ECCV，第628-643页。Springer，2014.[5] Y. Chai，V. Lempitsky，and A.齐瑟曼。Bicos：一种用于图像分类的双层共分割方法。在IEEE ICCV，第2579-2586页[6] D.- J. Chen，H.- T.陈和L. W.昌视频对象共分割。在Proceedings of the 20th ACM International Conference onMultimedia，MM ACM。[7] B. Chiu、E. Keogh和S.洛纳迪时间序列模体的概率发现。第九届ACM SIGKDD知识发现和数据挖掘国际会议集，KDD'03，第493-498页，美国纽约州纽约市，2003年ACM。[8] W.- C. Chiu和M.弗里茨基于生成式多视频模型的多类视频在IEEE计算机视觉和模式识别会议（CVPR）中，2013年6月[9] W.- S. Chu，Y. Song和A.詹姆视频共摘要：基于视觉共现的视频摘要。在IEEE CVPR，第3584-3592页[10] W.- S. Chu，F. Zhou和F.德拉·托雷无监督的时间共性发现。以. Fitzgibbon，S.拉泽布尼克P. Perona，Y. Sato和C. Schmid，编辑，ECCV，计算机科学讲义第7575卷，第373Springer Berlin Heidelberg，2012.[11] O. 杜兴岛Laptev，J.Sivic，F.Bach和J.庞塞视频中人类动作的自动注释。在IEEE ICCV，第1491-1498页[12] R. Emonet， J. Varadarajan ， and J. M. 奥多贝兹基于dirichlet过程的模体混合时序分析。IEEE Transactionson Pattern Analysis and Machine Intelligence，36（1）：140[13] A. Faktor和M.伊拉尼按成分共分段。在IEEE ICCV，第1297-1304页[14] D.加夫里拉对人体运动的视觉分析。计算机。目视图像理解，73（1）：82-98，Jan. 一九九九年。[15] J. Guo，Z.李湖，澳-地F. Cheong和S. Z.舟用于有意义动作提取的视频联合分割。在IEEE ICCV中，第2232-2239页。IEEE，2013。[16] S. Helwig和R.旺卡高维有界搜索空间中的粒子群优化算法。2007年，在Swarm Intel- ligence Symposium中。SIS2007。IEEE，第198-205页，2007年4月。[17] V. John，S. Ivekovic和E.特鲁科基于hpso的关节式人体在VISAPP（1），第531-538页[18] A. Joulin、F.Bach和J.庞塞多类共分割。在IEEE CVPR中，第542-549页。IEEE，2012。[19] J. Kennedy和R.埃伯哈特粒子群优化神经网络，1995年。诉讼程序 IEEE International Conference on，第4卷，第1942-1948页，第4卷，1995年11月。[20] J. Kennedy，J.F. 肯尼迪河C. Eberhart和Y.石群体智慧。Morgan Kaufmann，2001年。[21] E. Keogh，S. Chu，D. Hart和M.帕扎尼一种时间序列分段的在线算法。数据挖掘，2001年。ICDM 2001，Proceedings IEEE International C

下载后可阅读完整内容，剩余1页未读，立即下载