鲁棒多任务排序的弱监督演员动作分割

33 浏览量更新于2023-10-15 收藏 1.19MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于鲁棒多任务排序的弱监督演员动作分割严艳1，徐晨良2，蔡大文3，Jason J.Corso11密歇根大学电气工程与计算机科学系2罗切斯特大学计算机科学系3密歇根大学生物物理学系细胞与发育生物学{tomyan，dwcai，jjcorso}@ umich.edu，{chenliang.xu}@ rochester.edu摘要视频中的细粒度活动理解最近受到了相当大的关注，从动作分类转向详细的演员和动作理解，为尖端自主系统的感知需求提供了令人信服的结果然而，当前用于详细理解参与者和动作的方法具有显著的局限性：它们需要大量精细标记的数据，并且它们不能捕获参与者和动作之间的任何内部关系。为了解决这些问题，在本文中，我们提出了一种新的，强大的多任务排名模型，弱监督演员动作分割，其中只有视频级别的标签是给定的训练样本。我们的模型能够在不同的演员和动作之间共享有用的信息，同时学习一个排名矩阵来分别为演员和动作选择代表性的超体素。最终的分割结果是由一个条件随机场，认为不同的排名分数的视频部分。在Actor-Action Dataset（A2 D）上的大量实验结果表明，该方法的性能优于现有的弱监督方法，并与性能最好的全监督方法相当。1. 介绍了解视频中的细粒度活动正在视频分析社区中获得关注在过去的十年中，我们目睹了对活动数量的兴趣的转变，例如。从不超过10 [42，29]到数百[24，5]和数千[1];在活动范围内，例如，从单人动作[45]到人与人的交互[43]，人与物的交互[17]，甚至动物活动[19，60];此外，在建模活动的方法中，例如，从分类[55，53，47]到定位[66，49，38，46，21]，检测[12，40，8，52]和分割[30，36，16]。细粒度的结果也证明了它们在各种新兴应用中的实用性。图1. 弱监督的行动者-动作语义问题。我们的方法从弱监督中学习，其中只有用于训练视频的视频级标签可用，并为给定的测试视频生成像素级演员动作分割例如机器人操作[41，65]和视频和语言[48，61]。在许多细粒度的活动中，人们越来越有兴趣同时理解动作和执行动作的代理。它开辟了一个新的窗口，探索代理人之间和代理人内的活动，以全面的理解。为了解决这个问题，Xu et al.[60]在困难的演员动作数据集（A2D）上引入了一个新的演员动作分割挑战，他们专注于七种类型演员的时空分割，例如：成年人，狗和猫，执行八个不同的动作，例如，走爬跑特别是，Xu和Corso [58]提出的方法在该问题中设定了最新技术水平，其中他们将标记CRF与超体素层次结构相结合，以考虑执行各种动作的各种参与者之间的自适应和长期相互作用尽管成功地推高了性能的数字，但他们的方法与许多活动细分的领先方法[30，36，16]在很大程度上受到以下两个方面的影响。首先，除了Mosabbeb等人。[39]，大多数方法在水疗中心-1298测试输出分割捕鸟捕鸟捕鸟输入视频培训猫跳婴儿学步婴儿爬狗爬...仅使用视频级标签的鲁棒多任务排名跳鸟狗散步鸟飞行成人跑步...行动演员时间1299时空活动分割[60，36，58，16，30]是在一个完全监督的设置，他们需要密集的像素级注释或边界框注释的许多训练样本。当我们处理真实世界的视频时，这些假设是不现实的，其中可用的注释最多是视频级别的标签或描述，并且在执行动作的演员类型中具有极大的多样性。即使是人类自己也可以执行数百种动作[6]，更不用说演员的多样性了。事实上，有一些方法可以解决动作共分割的问题[57，16]。然而，使用弱监管的能力，只有视频级的标签时空活动分割还有待探讨。其次，演员-动作分割[60，58]中的现有方法独立地训练演员和动作的分类器，并且仅在随机字段中对它们的关系进行建模以用于分割输出。尽管在考虑来自各种视频部分的不同演员-动作分类响应方面取得了成功，但它们缺乏对演员和动作在特征和分类器中的相互作用的考虑，这从图像分割的最新进展中可以看出是重要的[35，31]。例如，在分离两个细粒度类dog-running和cat-running时，我们还应该从这两个参与者执行的所有操作的额外信息中受益。为了克服上述限制，我们提出了一个新的鲁棒多任务排序模型，在学习排序矩阵的同时，在不同的参与者和行动之间共享有用的信息。由于这种特征共享，学习的排名矩阵可以用于更好的潜在生成。正则化项由迹范数和1，2-范数组成，使得模型能够捕获相关任务之间的共同特征集并识别离群任务;因此，它是健壮的。我们提出了一个有效的迭代优化计划的问题。有了这个新的学习模型，我们设计了一个流水线来解决弱监督的演员动作分割问题，其中只有视频级别的标签被用于训练视频（见图2）。①的人。具体地说，我们首先将视频分割成超体素并提取超体素上的特征，然后使用所提出的鲁棒多任务排序模型分别为演员和动作选择代表性的超体素，然后使用CRF生成最终的分割输出。我们对最近引入的大规模A2D数据集进行了广泛的实验[60]。特别是，我们将我们的方法与一组完全监督的方法进行比较，包括表现最好的分组过程模型[58]。为了进行全面比较，我们还比较了最近表现最好的弱监督语义分割方法[54]，以及三种学习方法，包括排名SVM [23]，脏模型多任务学习[22]和聚类多任务学习[70]。实验结果表明，我们的方法优于所有其他弱监督方法，并实现与性能最佳的完全监督方法一样高的性能。2. 相关工作我们已经讨论了我们的方法的关系，执行动作分割方法的介绍（节。①的人。最近，有许多关于动作检测[12，40，8，52]和定位[66，38，49，46，21，4]的新兴作品。我们通过考虑像素级分割精度与他们不同。事实上，有一些关于时空动作分割的方法[30，36，16，39]。然而，他们都假设单一类型的演员和不同的目标，我们的演员行动分割。我们的工作也与很多视频分割的工作相关。Liu等人。[32]提出了时空域中的对象增强密集CRF，其捕获超体素之间的长程依赖关系，并在对象和超体素标签之间施加一致性，以进行多类视频语义分割。Kundu等人[27]扩展完全连接的CRF [26]以在视频上工作。Ladic ky'etal. [28]在多尺度分割上建立分层尽管缺乏对参与者和行动的明确考虑，但我们将这些方法的代表性子集[26，28]与第26节进行了比较。五、有许多弱监督视频分割方法[68，34，51，18]和协同分割方法[54，11、56、67、9]。Zhang等人[68]提出了一种通过检测进行分割的框架，以分割具有视频级标签的对象。Chiu等人[9]研究多类视频共分割，其中对象类的数量和帧和视频级别的实例数量Tsai等人。[54]提出了一种从相互链接的视频集合中分割对象并理解视觉语义的方法然而，这些联合分割方法缺乏考虑不同对象类别之间的内在联系，这是弱监督分割方法的一个重要线索相比之下，我们的框架能够在不同的对象之间共享有用的信息，从而比性能最好的联合分割方法[54]（参见第二节）更好的性能（五）。多任务学习在许多应用中是有效的，例如对象检测[44]和分类[37，62，63，64]。我们的想法是联合学习模型，而不是针对每个任务单独学习模型。为了捕获任务依赖性，一种常见的方法是约束所有学习的模型共享一组公共的特征。这种约束促使引入组稀疏项，即。如[ 2 ]中所述的n-1 /n-2 -范数正则化子。然而，在实践中，由于不是每个任务都与所有其他任务相关，因此N1/N2为此，在[22]中提出了基于脏模型的MTL算法，其目标是识别不相关的（out-）1300∈∈≈·ǁ·ǁ∈22KKKKlier）任务。在某些情况下，任务表现出复杂的组结构，并且期望同一组中的任务的模型彼此之间比来自不同组的任务的模型更相似。为了对复杂的任务依赖性进行建模，已经引入了几种聚类多任务学习方法[20，69，70]。与以往的多任务分类和回归问题不同，本文提出了一个鲁棒的多任务排序模型，该模型具有识别离群任务的能力。同时，本文还设计了一个有效的求解器.3. 强大的多任务排序我们的核心技术重点是建立在当前学习排名偏好函数的方法上，该方法已广泛用于各个领域[33]。为了获得良好的分割潜力，并为特定类别选择具有代表性的超体素和动作管（详见第4），我们提出了一个强大的多任务排序方法，以共享不同的演员和行动之间的功能在本节的其余部分中，我们首先介绍SVM排名的一些背景，然后介绍我们的鲁棒多任务排名。将xIRd表示为d维特征向量并且将wIRd表示为学习的权重参数，排序SVM优化问题公式化如下：参数ε ijk和γ ijk是第k个任务中的松弛变量，测量D中满足 wixi> wjxj的相异对（i，j）与S中满足wixiwjxj的相似对（i，j）之间的距离误差。Φ（W）是W的正则化项。在大多数传统的多-任务学习法假设所有的任务都是相关的[2]及其依赖关系[20，69，70]可以通过一组潜在变量进行建模。然而，在许多现实世界的应用，如我们的演员动作语义分割问题，并不是所有的任务都是相关的。当离群任务存在时，强制执行错误的和不存在的依赖关系可能导致负的知识转移。以行动为例，行动任务爬，爬，跳，滚，跑，走可以共享彼此有用的信息，而行动任务吃似乎是一个离群任务。在多任务学习中，重复进食会带来负面的知识共享。相比之下，Chen et al.[7]提出了具有跟踪范数加1，2-范数的正则化项，该正则化项同时捕获相关任务之间的一组公共特征并识别离群任务。他们还从理论上证明了一个约束，以衡量正则化项近似于底层真实评估的程度受其启发，我们将正则化项分解为两项。一个项在L∈IRd×K上强制一个迹范数，以确保-minw，ε122周后Σ+Cεij把矩阵中的理想低秩结构老化到上限，把握不同行为和行为之间的共性S.T. wTxi≥wTxj+1−εijεij≥0（1）其中ε ij是度量排序对（xi，xj）的距离误差的松弛变量。是向量的范数。符号（）T表示转置运算符。C是正则化参数。给定一组相关的任务，多任务学习试图tors. 另一个术语执行组套索处罚在EIRd ×K上，通过引入期望的组稀疏结构来检测离群任务。该公式对离群任务具有鲁棒性，并且基于以下假设有效地实现了联合特征学习：在存在离群任务的情况下，不同的动作和参与者共享相同的基本特征集。因此，我们提出以下优化问题：同时学习一组特定于任务分类或回归模型。多任务学习背后的直觉-min 1 北京赛车F+C1Σ γijk+C2Σ 埃伊克这是一个联合学习过程，W，γ，ε2i，j∈Si，j∈D关系比单独学习每项任务更有效。我们首先将排序SVM扩展到多任务通过以下优化问题进行设置. + λ1<$L1+ λ2.第一章，第二章S.T. . wTxik− wTxjk。 ≤ γ ijkwT xik− wT xjk≥ 1−εijkmin 1WΣ γijk+C2Σ εijk+ λΦ（W）K Kεijk≥0W，γ，ε2.. 不Fi，j∈ST.i，j∈Dγijk≥0S.T.wk xik − wk xjk. ≤ γijkwTxik−wTxjk≥1−εijkW=L+E（3）由方程式3、将学习到的加权矩阵Wεijk≥0到L+E。 1999年，张晓波（LL）是traceγijk≥0（2）norm和范数1，2=ΣΣK1=0（Σdi=1|eij|）Σ1/22是n =1，2-范数。13011∈其中WIRd×K是学习的排序矩阵，... ，wT，... ，wT]。 wk是W的第k列。 K虽然我们采用了与[7]相同的正则化项，但我们提出的优化在三个关键方面有所不同-K K是任务的数量。C1、C2和λ是正则化的期望：（i）[7]中的优化问题是一个回归问题13022F.F2KKKKSF.KKǁ − ǁKK问题，而我们的是一个排名优化问题。这使得[7]不适合用于我们的具有弱监督设置的演员动作视频(ii)[7]中的损失函数是最小平方损失，有时对于真实世界的数据集并不适用，因为最小平方损失有被离群值支配的在我们的行动者-行动分析中，离群任务的存在进一步夸大了这种效应;(iii)[7]和我们的问题之间的优化方法本身是不同的，正如我们接下来解释的那样。3.1. 优化所提出的优化问题（Eq. 3）由于混合了不同的规范和约束，求解困难。为了便于求解原问题，我们引入了一个松弛变量S来交替求解优化问题。通过分别迭代地更新W和S，可以将优化问题分解为两个单独的步骤在松弛变量的情况下，优化问题变为：算法1求解方程4输入：Dk，Sk，k = 1，. . . ，K，λ1，λ2，C1，C2.初始化W0，S0.回路：1. 修复S，优化W对于k = 1至K固定sk，优化Eq. 5使用[23]，更新wk端2. 修复W，优化S优化方程6使用FISTA [3]，更新S直到收敛输出：W第一项在Eq。6惩罚学习的松弛权重矩阵S以接近原始矩阵W。这个问题变成了传统的多任务学习问题，可以通过近似梯度方法FISTA [3]来解决解决所提出的问题的算法总结为算法1。min1 北京赛车F+C1Σ γijk+C2Σ 埃伊克4. 弱监督的Actor-Action分段W、S、γ、ε2i，j∈Si，j∈D+W−S2+λΦ（S）在本节中，我们将描述如何使用我们的ro来解决弱监督演员动作分割问题，S.T. . wTxik− wTxjk。 ≤ γ ijkwTxik−wTxjk≥1−εijkεijk≥0γijk≥0（4）术语 W S2在等式中4使得S的解更接近于W。项Φ（S）是S上的正则化。有两个主要步骤来优化方程。步骤1：固定S，优化W。当量3成为参与者-动作标签（例如，成人吃和狗爬）或背景标签到视频中的每个像素。我们只能访问培训视频的视频级演员-动作标签。这个问题是具有挑战性的，因为超过三分之一的A2D视频有多个演员执行动作。4.1. 概述图2显示了我们的框架的概述。我们首先使用基于图形的高分辨率视频分割成超体素，min 1ΣKwkΣ γijk+C2Σ 埃伊克三维超体素方法（GBH）[14]。同时我们wk，γ，ε2k=1ΣKi，j∈Si，j∈D生成动作管作为最小边界矩形围绕着超体素。我们在不同的GBH层次上提取特征来描述超体素和动作管+.k=1 wk−sk.（参见第二节。4.2）。三种不同类型的潜力（行动，演员，演员行动）计算通过我们强大的多任务S.T. . wTxik− wTxjk。 ≤ γ ijkwTxik−wTxjk≥1−εijkεijk≥0γijk≥0（5）当量5可以分解为K个单独的单任务SVM排序子问题，因此可以通过标准SVM排序求解器来解决[23]。第二步：修正W，优化S。当量3成为最小值S −W2+λΦ（S）（6）2bust多任务排序模型。目标是分配一个1303通过考虑不同参与者和行动群体之间的信息共享，建立了一个排名模型（见第二节）。4.3）。最后，我们设计了一个CRF模型，用于演员动作分割（见第二节）。4.4）。4.2. 超体素和动作管超体素超体素分割定义了一种紧凑的视频表示，其中时空中具有相似颜色和运动属性的像素在[59]中评估了各种超体素方法。在此基础上，我们采用GBH超体素分割方法，1304(b)超体素(c)行动管EEE·····（e）语义标签推断（d）健全的演员行动排名（a）输入视频演员-动作分割吃鸟的吃鸟的图2. 概述我们提出的弱监督演员动作分割框架。(a)从A2D数据集输入视频。(b)超体素生成和特征提取。（c）动作管生成和特征提取。（d）不同行为者和行动之间的共同特点(e)用于演员-动作分割的语义标签推断。图是最好的颜色和缩放下查看。来自层次结构中的三个不同级别的侧面超体素。不同级别的性能在第节中进行了评估五、我们从一个超体素的三个时间切片中提取CNN特征，即。从超体素的开始、中间和结束采样的三个超像素。我们将超像素边界外的像素归零，并使用超像素周围的矩形图像块作为预训练CNN的输入，以获得fc向量，类似于R-CNN [13]。表示超体素的演员的最终特征向量在三个时间片上被平均，如图1所示第2段（b）分段。行动管。每个超体素定义一个动作管，是围绕随着时间的推移，Jain等人。[21]使用这样的动作管来定位视频中的人类动作。在这里，我们使用它们作为一般行动的建议，例如。步行和爬行，以及细粒度的参与者动作，例如走猫狗爬我们从动作管的三个采样时间片中提取CNN特征（fc向量）表示动作管的动作或演员-动作的最终特征向量是FC向量的级联，如图所示。第2段（c）分段。通过将每个任务设置为动作类别（例如，步行，跑步和攀爬），演员猫- egory（例如，成人、猫和鸟）和演员-动作类别（例如，成年人行走，鸟类攀爬和汽车滚动）。4.4. 语义标签推理我们在整个视频上构建CRF 我们表示S ={s1，s2，. . . ，s n}作为具有n个超体素的视频，并定义一组随机变量x ={x1，x2，. . . .. 类似地，我们表示T ={t1，t2，. . . ，t m}作为一组m个作用管，并定义一组随机变量y ={y1，y2，. . . ，y n}，其中y i从动作中获取标签。一图由三组边构成：链接相邻超体素的一组边缘S、链接相邻作用管的一组边缘T、以及链接超体素和作用管的一组边缘S→T。我们的目标是最小化以下目标函数：4.3. 鲁棒演员动作排名我们的假设是，包含在苏-（x，y）= argminx为ohΣ（xi，xj）+Σ（yi，yj）成人跑步视频中的每体素段应该与成人步行视频中的超体素段相关，因为它们共享相同的演员成人。类似地，在同一个一般的细粒度动作之间的动作管的相关性Σ+i∈Sφ（ xi）+（i，j）∈ESΣ（yi）+i∈TΣ（i，j）∈ES→T（i，j）∈ETn（xi，yj），（7）动作，例如猫和狗散步，应该大于非相关动作对之间的相关性。在弱监督设置中，我们只能访问用于训练视频的视频级标签。为了更好地使用这种非常弱的监督，我们提出了一种强大的多任务排名方法，如第2节所述3.有效地搜索每个类别的代表性超体素片段和动作管，同时考虑不同演员和动作之间的有用信息共享。三其中，φ（）、φ（）和φ（）分别是演员、动作和演员-动作的标准化排名分数的负对数，φ（）采用对比敏感的Potts模型的形式以促进平滑。在[58]之后，我们还使用视频级电位作为额外的全局标记成本。与[ 60 ]中的模型相比，我们的模型更灵活，并且允许超体素和动作管的单独拓扑结构（见图2）。第2段（e）分段）。最后，通过将动作管映射到超体素来生成分割。共享执行元功能成人婴儿球鸟汽车猫共享操作功能非#wal$run滚jum$飞吃cra$l$%1305粗级中级精级858075表1.A2D数据集上整体像素精度的比较7065演员行动演员-行动图3. 不同GBH层次超体素的整体像素精度。图最好用彩色显示。5. 实验我们在A2D数据集上进行了大量的实验，以评估我们提出的弱监督演员动作分割方法我们首先描述我们的实验设置，然后提出我们的结果。数据集。细粒度的演员动作分割是一个新提出的问题。据我们所知，只有一个演员动作视频数据集，即。 A2D [60] ， in literature. A2D 数据集包含从YouTube收集的3782个视频。像素级标记的actor和actions都可用于发布的数据集。该数据集包括八个不同的动作，例如爬，爬，吃，飞，跳，滚，跑，走，和一个额外的无动作。noneaction类意味着参与者没有执行一个动作，或者正在执行一个超出他们考虑范围的动作同时，七个演员班，例如。成人、婴儿、球、鸟、汽车、猫、狗被认为是A2D中执行这些动作的人。实验设置。我们使用GBH [15]来生成几何超体素分割。我们评估我们的方法在三个GBH层次级别（细，中，粗），其中每个视频中的超体素的数量从20-200不等。动作管是用围绕超体素的最小边界矩形生成的。对于超体素和动作管特征，我们使用预存的GoogLeNet [50]来提取平均池化层1024维特征向量的CNN深度特征。GoogLeNet是一个22层深度网络，在图像分类和对象检测方面取得了良好的性能。正则化参数λ1、λ2和C1、C2通过范围[0. 010 1，1，10，100]用于训练我们的鲁棒多任务排名模型。我们使用多标签图切割[10]进行CRF推断，并凭经验手动设置参数。我们遵循与[60]相同的设置来分割数据集的训练/测试。评估指标。对于演员动作分割，像素级精度是文献中最常用的测量。我们在论文中使用了两个指标：（i）整体像素精度测量地面实况帧中正确标记的像素与所有像素的比例。(ii)每类精度测量每个类的正确标记像素的比例，然后对所有类进行平均。5.1. 与我们方法的变体比较我们评估我们的方法与不同的GBH层次超体素。分割结果的整体像素精度如图所示。3.第三章。我们观察到，精细级GBH层次结构实现了相当好的结果比粗糙级GBH层次结构。这可能是因为精细级GBH层级对于每个视频具有合理数量的超体素（100-200），这导致三个中最好的原始分割结果我们在其余的实验中使用我们还进行了实验，以显示不同类型的潜在使用的影响。当我们同时使用粗标签（演员和动作）和细粒度标签（演员动作）时，我们实现了81.7%的整体像素准确度，当我们只使用细粒度标签时，整体像素准确度为在后一种情况下，一个简单的成对CRF构造的行动管。结果支持明确考虑细粒度的行动之间的信息共享。5.2. 与最先进方法的我们将我们的方法与最先进的全监督分割方法进行了比较，例如关联分层随机场（AHRF）[28]，随机过程模型（GPM）[58]和全连接CRF（FCRF）[25]。由于我们的方法是在弱监督设置中，我们还将其与最近发表的弱监督语义视频分割（WSS）中的最佳方法进行比较[54]。为了全面理解，我们还将我们的鲁棒多任务排名模型与其他学习模型进行了比较，包括单任务学习和多任务学习方法，例如排名SVM（RSVM），脏模型多任务学习（DM-MTL）[22]和重复多任务学习（C-MTL）[70]。为了公平比较，我们使用作者发布的方法代码[58，54]。对于RankingSVM，我们使用[23]中发布的实现。对于多任务学习方法[22，70]，我们使用MALSAR工具箱[71]。对于学习模型和弱监督方法，我们使用与我们相同的请注意，完全监督方法可以访问训练视频的像素级注释表1显示了所有方法的整体像素精度我们观察到，我们的方法优于所有其他基地-行动演员演员-行动AHRF [28]63.964.963.0GPM [58]82.482.280.8FCRF [25]77.677.976.2RSVM [23]70.170.868.8[22]第二十二话72.372.971.4C-MTL [70]73.173.572.7WSS [54]71.571.970.4我们83.883.181.71306表2.A2D数据集上每个类别准确度的比较（突出显示每个类别的前2个分数婴儿球车方法BK爬爬辊走没有一飞跳辊没有一飞跳辊运行没有一AHRF [28]69.221.35.539.813.50.03.22.313.61.518.168.013.647.912.2GPM [58]88.465.465.058.461.50.011.328.321.10.041.286.370.965.90.0FCRF [25]82.23.423.441.017.80.03.70.31.00.013.778.455.443.71.8RSVM [23]72.70.15.567.83.81.24.05.712.51.614.830.437.837.75.3[22]第二十二话83.051.850.158.347.90.09.411.716.60.033.264.942.347.40.0C-MTL [70]83.049.061.975.440.928.819.516.333.413.230.936.432.538.87.0WSS [54]74.116.010.950.921.97.94.05.049.21.717.852.413.535.15.2我们82.266.273.678.552.533.519.520.162.613.246.265.642.549.422.7成人鸟方法爬爬吃跳辊运行走没有一爬吃飞跳辊走没有一AHRF [28]0.056.06.11.10.00.015.310.914.611.419.95.029.67.50.0GPM [58]74.881.076.449.352.450.441.00.060.638.866.517.545.947.90.0FCRF [25]21.664.546.325.312.050.926.933.825.916.157.317.135.07.40.0RSVM [23]2.927.941.21.72.910.07.657.29.01.039.81.143.214.90.0[22]第二十二话44.543.967.127.734.535.332.70.047.727.451.313.632.130.40.0C-MTL [70]38.538.469.428.846.627.441.046.526.527.755.445.060.236.96.0WSS [54]6.623.550.89.610.111.115.329.033.614.530.18.231.121.00.0我们44.947.874.733.949.242.146.353.147.727.451.313.632.130.40.0狗猫Avg方法爬吃跳辊运行走没有一爬吃跳辊运行走没有一-AHRF [28]13.216.40.00.00.00.00.018.338.80.08.80.09.30.013.9GPM [58]44.161.531.462.625.774.20.042.852.333.771.748.019.10.043.9FCRF [25]11.735.72.231.925.240.20.025.333.62.533.948.921.50.825.4RSVM [23]3.733.65.724.20.69.70.05.038.60.243.80.05.60.116.7[22]第二十二话36.965.626.950.922.259.80.016.946.512.166.225.67.70.032.8C-MTL [70]45.580.924.657.337.742.83.623.652.122.168.924.239.123.138.9WSS [54]16.236.310.324.31.018.41.413.642.08.246.30.515.80.320.3我们64.585.750.172.368.561.17.641.472.936.686.236.765.125.541.7线我们的方法比其他弱监督方法（WSS）的准确率高11%[54]。他们的方法无法在不同的动作和演员之间共享特征相似性，这在弱监督环境中非常重要此外，我们的方法优于其他单任务学习（RSVM）和多任务学习（DM-MTL，C-MTL）方法分别高达20%，9%，3%，这表明我们的方法的鲁棒性表2显示了A2 D数据集上所有参与者-动作对的每类准确度。我们观察到，我们的方法在平均性能方面优于所有其他基线，除了GPM [58]。然而，我们注意到GPM是一种完全监督的方法，即。它需要繁琐的像素级人工标记用于训练样本。此外，我们的方法在演员类别“狗”和“猫”上工作得很好图4显示了我们的方法和其他方法的定性结果。我们观察到，我们的方法可以产生更好的视觉定性结果比其他方法。然而，我们的方法在某些情况下失败了，比如猫跳。这可能是因为有几只猫同时跳跃，视频中的运动很重要。6. 结论和未来工作在本文中，我们提出了一种新的弱监督的演员动作分割方法。特别是，一个强大的多任务排序模型的设计，以选择最具代表性的超体素和动作管的演员，动作和演员的行动。通过相似性检测离群任务的多任务学习，在不同的参与者和动作之间共享特征。CRF模型用于语义标签推理。在大规模A2D数据集上的大量实验表明了该方法的有效性。我们的方法的一个缺点是，在我们的框架中，排名权重是独立于特征提取而学习的。未来的工作包括探索使用CNN进行演员动作分析的可能性，例如使用CNN或FCN进行演员动作分割的多任务学习。谢谢。这工作具有被部分由密歇根大学MiBrain资助，谷歌，三星，DARPA W32 P4 Q-15-C-0070和ARO W 911 NF-15-1-0354支持。1307输入视频Ground-Truth我们的方法GPMWSSRSVMDM-MTLAHRF鸟类飞行鸟类飞行鸟飞成人走遛狗遛狗狗散步成人无鸟滚动成人无滚鸟成人-无滚鸟猫跳成人非猫跳成人非猫跳鸟类飞行鸟类飞行鸟飞成人走遛狗遛狗狗散步成人无滚鸟成人-无鸟滚动成人无滚鸟成人-无猫跳成人无猫跳成人无猫跳鸟类飞行鸟类飞行鸟飞成人走遛狗遛狗狗散步成人无鸟滚动成人无鸟滚动成人无滚鸟猫跳猫跳跳鸟跳鸟跳鸟遛狗遛狗遛狗滚鸟滚鸟滚鸟狗跑狗跑狗跑鸟无鸟无鸟无成人-无成人-无成人无车跑滚鸟滚鸟鸟类爬行猫无猫无猫无鸟无鸟无无鸟无成人狗运行成人无跑狗成人-无溜狗的车跑鸟滚车跑鸟滚狗跑猫跳狗跑狗跑背景背景背景遛狗遛狗背景成人-无鸟滚动成人无滚鸟成人-无滚鸟背景背景背景婴儿学步婴儿学步婴儿学步遛狗吃狗的婴儿爬行婴儿学步婴儿学步婴儿学步成年人遛狗成年人遛狗成年人遛狗婴儿学步婴儿学步遛狗遛狗遛狗婴儿学步婴儿学步遛狗遛狗遛狗遛狗遛狗狗肉狗肉婴儿学步婴儿学步跑狗跑狗跑狗背景背景背景背景图4. 定性结果显示在来自A2D数据集的几个视频序列的采样帧中。从左到右的列分别是输入视频，地面实况，我们的方法，GPM [58]，WSS [54]，RSVM [23]，DM-MTL [22]和AHRF [28]我们的方法是能够产生正确的演员动作分割除了猫跳和成人运行在这些例子中。时间时间时间时间时间时间1308引用[1] S. Abu-El-Haija，N. Kothari，J. Lee，P.纳采夫湾托代里奇，B. Varadarajan和S. Vijayanarasimhan。Youtube-8 m：大规模视频分类基准。技术报告，arXiv预印本arXiv：1609.08675，2016。1[2] A. Argyriou，T. Evgeniou和M.庞提尔多任务特征学习。NIPS，2007年。二、三[3] A. Beck和M.特布勒线性反问题的一种快速迭代收缩阈值算法。 SIAM J. Imaging Science，2（1）：183-220，2009。4[4] P. 博亚诺夫斯基河Lajugie，F.巴赫岛Laptev，J.庞塞C. Schmid和J.西维克排序约束下视频中的弱监督动作标注。2014年，在ECCV。2[5] F. Caba Heilbron，V.埃斯科西亚湾Ghanem和J.卡-洛斯尼布尔斯。Activitynet：人类活动理解的大规模视频基准。CVPR，2015。1[6] Y.-- W. Chao ， Z. 中国地质调查局王河，巴西 - 地Mihalcea和J.邓小平更挖掘视觉对象类别的语义启示。CVPR，2015。2[7] J. Chen，J. Zhou和J.烨集成低秩和组稀疏结构以实现鲁棒的多任务学习。 ACMSIGKDD Conferences onKnowledge Discovery and Data Mining，2011。三、四[8] W. Chen和J. J.高索通过隐式运动聚类的动作检测。在ICCV，2015年。一、二[9] W.- C. Chiu和M.弗里茨基于生成式多视频模型的多类视频联合分割CVPR，2013。2[10] A. Delong，A. Osokin，H. N. Isack和Y.博伊科夫快速近似能量最小化标签成本。国际计算机视觉杂志，96（1）：1-27，2012。6[11] H. Fu，D.徐湾，澳-地Zhang和S.是林书基于对象的多前景视频共同分割。CVPR，2014。2[12]R. D. Geest，E. Gavves，A. Ghodrati，Z. Li，C. 斯诺克，T. Tuytelaars在线动作检测。在ECCV，2016年。一、二[13] R.格希克，J。多纳休，T. Darrell和J.马利克基于区域的卷积网络用于精确的对象检测和分割。 IEEETransactionsonPatternAnalysisandMachineIntelligence，38（1）：142-158，2016。5[14] M. Grundmann，V.Kwatra，M.汉和我艾萨高效的基于层次图的视频分割。CVPR，2010。4[15] M. Grundmann，V. Kwatra，M. Han和E. I.高效的基于层次图的视频分割。CVPR，2010。6[16] J. Guo，Z.李湖，澳-地F. Cheong和S. Z.舟用于有意义动作提取的视频联合分割。InICCV，2013. 一、二[17] A. 古普塔A。Kembhavi和L.S. 戴维斯观察人与物体的相互作用：利用空间和功能的兼容性进行识别。IEEETransactionsonPatternAnalysisandMachineIntelligence，31（10）：1775-1789，2009. 1[18] G. Hartmann，M.Grundmann，J.霍夫曼D.Tsai，V.夸特拉岛，O.Madani，S.维贾亚纳拉辛汉岛Essa，J.格，以及R.苏克坦卡从网络视频中分割对象的弱监督学习。见ECCV研讨会，第198-208页。Springer，2012. 21309[19] Y. Iwashita，A.高峰河Kurazhih和M. S.亮从自我中心的视频中识别第一人称动物活动。在2014年IEEE模式识别国际会议1[20] L. Jacob，F.Bach和J.Vert. 多任务学习：凸公式NIPS，2008年。3[21] M. Jain，J. VanGemert，H. J e'gou，P. Bouthem y，C.Snoek 等人，《运动小管的动作定位》。CVPR，2014。一、二、五[22] A. Jalali，P. Ravikumar，S. Sanghavi和C.阮。多任务学习的脏模型。在NIPS，2010年。二、六、七、八[23] T. Joachims在线性时间内训练线性支持向量机。ACMSIGKDD Conferences on Knowledge Discovery and DataMining，2006年。二四六七八[24] A. Karpathy，G.Toderici、S.Shetty，T.良河，巴西-地Sukthankar和L.飞飞用卷积神经网络进行大规模视频分类。CVPR，2014。1[25] P. Krahenbuhl和V.凯尔顿具有高斯边缘势的全连接crfs中的有效推理NIPS，2011年。六、七[26] P. Kr aühenbuühl和V. 科尔顿具有高斯边势的全连通crfs的有效推理NIPS，2011年。2[27] A. 昆杜河谷Vineet和V.科尔顿。语义视频分割的特征空间优化在CVPR，2016年。2[28] L.拉迪基角Russell，P. Kohli，and P.乇关联分层随机场。IEEE Transactions on Pattern Analysis and MachineIntelligence，36（6）：1056二、六、七、八[29] I. Laptev，M.马萨莱克角Schmid，和B.罗森菲尔德从电影中学习真实的人类动作。CVPR，2008。1[30] C. Lea，A.赖特河Vidal和G. D.海格用于细粒度动作分割的分段时空cnn在ECCV，2016年。一、二[31] G.林角，澳-地Shen，中国古猿A.范登亨格尔和我里德用于语义分割的深度结构化模型的高效分段训练。在CVPR，2016年。2[32] B.刘和X。他外基于对象级主动推理的多类语义视频分割。CVPR，2015。2[33] T.- Y.刘某学习为信息检索排序。信

下载后可阅读完整内容，剩余1页未读，立即下载