弱监督动作学习的基于RNN的细到粗建模方法

130 浏览量更新于2023-10-16 收藏 950KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于RNN的细到粗建模的弱监督动作学习Alexander Richard，Hilde Kuehne，JuergenGall University of Bonn，Germany{richard，kuehne，gall}@ iai.uni-bonn.de摘要我们提出了一种弱监督学习人类行为的方法。给定一组视频和发生动作的有序列表，目标是推断视频中相关动作类的开始和结束帧，并训练相应的动作分类器，而无需手动标记帧边界。为了解决这一任务，我们提出了一个组合的判别表示的subactions，建模的递归神经网络，和一个粗略的概率模型，允许时间对齐和推断长序列。虽然这个系统本身已经产生了良好的效果，我们表明，性能可以进一步提高近似的子动作的数量的不同的动作类的特性。为此，我们通过在训练过程中迭代重新对齐和重新估计来调整子动作类该系统在两个基准数据集上进行了评估，早餐和好莱坞扩展数据集，在各种弱学习任务（如时间动作分割和动作对齐）上表现出有竞争力的性能1. 介绍考虑到大量可用的视频数据，例如在Youtube上，从电影或甚至在监控的背景下，在这些视频中自动查找和分类人类动作的方法在过去几年中获得了越来越多的关注[30，12，26，23，34]。虽然有几种成功的方法对修剪的视频剪辑进行分类[30，26]，但在未修剪的长视频序列中对人类动作进行时间定位和分类仍然是一个巨大的挑战。该领域现有的大多数方法依赖于完全注释的视频数据，即。需要提供训练集中每个动作的确切开始和结束时间[24，23，34]。对于现实世界的应用程序，这需要创建训练数据的巨大努力，并且实现起来可能过于昂贵因此，弱监督方法特别令人感兴趣。这种方法通常假设只有一个有序的动作列表发生图1. 弱学习系统的概述。给定每个视频的有序动作列表，通过均匀分割生成初始分割。基于此输入信息，我们迭代地训练基于RNN的精细到粗略系统，以将帧与相应的动作对齐。在视频中注释，而不是精确的帧开始和结束点[7，3，9]。对于人类注释者来说，这些信息更容易生成，甚至可以自动从脚本[17，20]或字幕[1]中获取。所有这些方法的共同点是，给定一组视频和视频中发生的动作的相应列表，可以学习相关动作类的特征，推断它们在视频中的开始和结束帧，并构建相应的动作模型，而无需手动标记帧边界（见图1）。在这项工作中，我们通过一个从细到粗的模型来解决人类行为的弱学习任务。在细粒度级别上，我们使用子动作的判别表示，由递归神经网络建模，例如。使用[6，35，27，33]。在我们的例子中，RNN被用作基- SIC识别模型，因为它提供了小时间块的鲁棒分类。这允许捕获本地时间信息。RNN补充了一个粗略的概率模型，以允许在长序列上进行时间对齐和此外，为了绕过建模长而复杂的动作类的困难，我们将所有动作划分为更小的构建块。这些子动作最终在RNN中建模，然后通过推理过程进行组合。子动作的使用允许分布异质-754755一个动作类在许多子类上的异构信息，并捕获诸如整个动作类的长度之类的特征。此外，我们表明，自动学习每个动作类的子动作的数量导致显着提高性能。我们的模型是用迭代过程训练的。给定弱监督训练数据，通过在视频中均匀分布所有动作来生成初始对于每个获得的动作片段，所有子动作也均匀地分布在属于相应动作的视频部分中。这样，定义了视频帧和子动作之间的初始对齐。在迭代阶段，RNN然后在此对齐上进行训练，并与粗略模型结合使用，以引入新的动作段边界。从这些边界，我们重新计算每个动作类所需的子动作的数量，再次将它们分布在与相应动作对齐的帧中，并重复训练过程直到收敛。我们在两个常见的基准数据集上评估了我们的方法，早餐数据集[14]和好莱坞扩展数据集[3]，关于两个不同的任务。第一个任务是时间动作分割，这是指组合的分割和分类，其中测试视频没有任何进一步的注释。第二个任务是将测试视频与给定的动作顺序对齐，如Bojanowski等人所提出的。[3]的文件。我们的方法能够在这两项任务上超越当前最先进的方法。2. 相关工作对于动作的完全监督学习的情况，存在研究良好的深度学习和时间建模方法。虽然[34]的作者专注于基于纯神经网络的方法，但Tanget al. [29]建议用隐马尔可夫模型学习视频的潜在时间结构。结合深度学习和时间建模，[18]的作者使用分段CNN和半马尔可夫模型来表示动作之间的时间转换。然而，这些方法不适用于弱监督设置。为了解决动作的弱监督学习问题，已经探索了各种不同的方法。第一个工程，提出了Laptev等人。[17]Marszaleket al. [20]，专注于从电影剧本中挖掘训练样本。它们基于相应的文本段落提取类样本，并使用这些片段进行训练，而无需在提取的片段内应用动作的专用时间对齐。第一次尝试学习，ING行动类，包括时间对齐弱注释的数据是由Duchenne等人。[7]的文件。这里，假设所有片段仅包含一个类，并且任务是从背景活动中暂时分割包含相关动作的帧时间上的对齐-因此，将动作解释为二元聚类问题，将包含动作类的时间片段与背景片段分离。聚类问题是formalated作为一个歧视成本函数的最小化。这个问题的制定是由Bojanowski等人。[3]还介绍了好莱坞扩展数据集。在这里，弱学习被公式化为一个时间分配问题。给定一组视频和每个视频的动作顺序，任务是为每个帧分配相应的类，从而推断相应的动作边界。作者提出了一个判别式聚类模型，使用时间排序约束，结合每个动作的分类和它们在每个视频片段中的时间定位。他们提出使用Frank-Wolfe算法来解决凸最小化问题。该方法已被Alayrac等人采用。[1]用于从教学视频中无监督地学习任务和故事情节。Huang等人提出了一种从节奏有序动作列表中进行弱监督学习的方法.[9]的文件。他们的特点是扩展的连接主义时间分类，并提出了视觉相似性措施，以防止CTC框架退化，并强制视觉一致的路径诱导。另一方面，Kuehneet al. [16]借用语音识别中的平面模型概念。他们通过隐马尔可夫模型（HALGOT）对动作进行建模，旨在通过迭代地推断每个视频的分割边界并使用新的分割来重新估计模型，从而最大化HALGOT生成的训练序列的概率。最后两种方法都在Hollywood extended和Breakfast数据集上进行了评估，因此，这两个数据集也用于评估本文提出的除了关注基于时间有序标签的人类动作的弱学习的方法之外，还探索了其他弱学习场景。一个密切相关的方法来自手语识别领域在这里，科勒等人。[13]将CNN与隐马尔可夫模型集成，以基于弱注释数据的单帧CNN模型学习手语手形。他们在各种大规模的手语语料库上评估了他们的方法，例如。丹麦语和新西兰语手语Gan等人[8]展示了一种从特定搜索查询检索的Web图像和视频中学习动作类的方法。它们具有图像和视频帧的成对匹配，并将其与所选视频帧的正则化相结合，以平衡匹配过程。该方法在标准动作分类数据集（如UCF 101和Trecvid）上进行了评估从网络视频和图像中学习也是[28]的方法。将弱视频标签和噪声图像标签作为输入，并生成局部动作帧作为输出。利用局部化的动作框架进行动作识别训练756N1我1 1111长短期记忆网络模型除其他外，还报告了THU-MOS2014数据集上的时间检测结果Misra等人提出了另一个想法。[21]，旨在通过训练CNN以无监督的方式学习人类动作的时序验证，它为每个帧分配一个动作片段索引。由于我们的模型迭代地优化动作分割，因此最初，这可以简单地是提供的动作的线性分割，参见图4a。给定动作转录aN，视频帧xT的可能性然后被定义为：1正确与洗牌视频片段，从而捕捉TEM-poral信息该系统可用于预培训1YT.Σp（xT|aN）：=pxt|an（t）、（二）小数据集上的特征提取器以及与其他监督方法的组合。Malmaud等人还提出了一种更与语音相关的任务。[19]，试图将食谱步骤与烹饪视频中自动生成的语音转录对齐。他们使用混合HMM模型结合基于CNN的视觉食物检测器来对齐指令序列，例如，从文本食谱到某人执行任务的视频。最后，[32]提出了一种无监督技术，用于从RGB-D视频中导出动作类，分别是人体骨架表示，还将活动视为短期动作片段序列。他们提出Gibbs抽样，用于从基本动作词中学习和推断长时间活动并在RGB-D活动视频上评估他们的方法1 1t=1其中p（xt|An（t））是由动作An（t）生成帧x t的概率。用于培训的动作类通常描述较长的、以任务为导向的程序，自然包括一个以上的重要动作，例如：拿杯子可以包括将手移向橱柜、打开橱柜、抓住杯子并将其放在工作台面上。这使得很难将长的、异构的动作作为一个整体来训练。为了有效地捕捉这些特征，我们提议将每个动作建模为子动作的顺序组合。因此，对于每个动作类a，一组子动作s（a），. . .，s（a）被定义。Ka初始值为1千a数据集。3. 技术细节在下文中，我们将详细描述所提出的框架，首先是弱学习任务和相关训练数据的简短定义。然后，我们定义我们的模型，并描述整个训练过程以及如何将其用于推理。3.1. 动作序列的弱监督学习与完全监督的动作检测或分割方法（其中基于帧的地面实况数据可用）相比，在弱监督学习中，仅提供视频中发生的动作的有序列表，通过启发式估计并在优化过程中细化过程实际上，这意味着我们将原始的长操作类细分为一组更小的子操作。由于子动作显然不是由给定的有序动作序列定义的，因此我们将它们视为需要模型学习的潜在变量在下面的系统描述中，我们假设子动作帧边界是已知的，例如，从先前的迭代或从初始均匀分割（见图4b），并讨论在第3.4节更准确的边界的干扰。3.2. 粗糙动作模型为了将细粒度的子动作组合成动作序列，定义了每个动作a的隐马尔可夫模型HaHMM确保子操作仅在正确的排序，即，s（a）≠s（a），其中i≤j。更训练例如，一段泡茶的视频可能包括拿一个杯子，把茶包放进去，然后倒出来准确地说，让I j（a1）（aN）把水倒进杯子里。虽然全监督任务将提供每个动作开始和结束时间的时间注释，但在我们的弱监督设置中，所有给定的信息都是有序的动作序列取茶杯，放入茶包，倒水。更正式地说，我们假设训练数据是一组图像素（xT，aN），其中xT是视频的逐帧特征Ns（t）：{1，. . . ，T} → {s1，. . . ，sKa（3）是从视频帧到有序动作序列的子动作的已知映射。这基本上是与等式（1）中的映射相同的映射，但是在子动作级上而不是动作级上当从一帧到下一帧时，我们只允许分配相同的子动作或下一个子动作，因此如果在帧t，分配的子动作是s（t）= s（a），则在帧t +1，s（t+1）=s（a）或s（t+1）=s（a）。的可能性具有T个帧，并且a1是有序序列（a1，. . . ，a N）视频中发生的动作的分割视频由映射i i+1视频帧xT给定动作记录aN，则YT.Σ。Σp（xT|aN）：= p x t|s（t）·p s（t）|s（t−1），（4）n（t）：{1，. . . ，T} ›→ {1，. . . ，N}（1）1 1t=175711111 1 11s（a1）s（a1）s（a2）s（a2）s（a2）s（a2）s（a2）s（a3）s（a3）1212s（t）.Σ3 4 5 1 2As（t）行动1行动2行动3图3. 提取器函数A计算由帧到子动作对齐s（t）引起的唯一动作序列。X1X2. ..XT输入：视频xT1GRU. . .GRUGRU图2. RNN使用门控递归单元，以逐帧视频特征作为输入。在每一帧，网络输出每个可能的子动作的概率，同时考虑视频的上下文。在x[t-20，t]上创建一个块，并将其转发到RNN。虽然这实际上将需要处理的数据量增加了20倍，但只需要一次转发短序列，并且我们受益于高并行化程度和相当大的minibatch大小。此外，必须注意，即使是LSTM和GRU也只能捕获有限数量的时间上下文。例如，机器翻译的研究表明，20帧是这些架构可以很好地捕获的范围[4]。这一发现在[27]中的视频数据中得到证实。此外，人类通常不需要太多的骗局-其中p（x t|s）是由细粒度模型计算的概率，参见3.3节。转移概率p（s|s′）是所有训练视频的s（t）-映射中转变s′→s发生的频率的相对频率。3.3. 细粒度子作用模型对于细粒度子动作的分类，我们使用具有门控递归单元（GRU）的单个隐藏层的RNN [4]。它是LSTM的简化版本，在视频分类[2]的情况下也显示出相当的性能[11，5网络如图2所示。对于每个帧，它预测所有子动作的概率分布由于RNN生成后验分布p（s|x t），但我们的粗略模型处理子动作条件概率-联系，我们使用贝叶斯规则将网络输出转换为文本来准确地对动作的一部分进行因此，存储例如在计算帧500的输出的同时计算帧10是不必要的。因此，可以适当地限制时间范围，以有利于更快、更可行的训练。3.4. 推理基于细粒度子动作模型和粗粒度整体动作模型的观察概率，我们现在将讨论这两个模型在视频级别上的组合推理给定一个视频xT，最有可能的动作序列N=argmax{p（xT|aN）·p（aN）}（6）N1并且要找到相应的帧对准。为了限制要优化的动作序列的数量，从训练中创建上下文无关语法G如[16]。我们设p（aN）=1，如果一个N由下式生成：1 1p（x t| s）=const·p（s|xt）p（s）.（五）G和p（aN）=0，否则。因此，在等式（6）中，arg max只需要接管动作序列gen，由G表示，因子p（aN）可以省略。而不是解决效率问题。递归神经网络通常使用时间反向传播（BPTT）进行训练[31]，它要求在一个向前和向后的通道中处理整个序列由于视频可能非常长，并且很容易超过10000帧，因此每个小批量的计算时间更糟糕的是，长视频可能不适合高端GPU的内存，因为在训练过程中，需要为视频的每一帧存储所有网络层的输出，以便计算梯度。1直接寻找最优动作序列，可以等价地在与G一致的所有可能的帧到子动作对齐s（t）上执行。一致意味着由s（t）定义的唯一动作序列由G生成。形式上，我们定义了一个提取器函数A：s（t）›→aN，它将帧到子动作的对齐s（t）映射到它的动作序列，参见图3。然后，等式（6）可以重写为：我们通过使用每个视频帧周围的小块来解决这个问题，这些小块可以有效地处理，并且具有合理的大minibatch大小，以便实现有效的N=argmaxs（t）：A（s（t））∈L（G），YTt=1.Σpx t| s（t）.Σ·p s（t）|s（t −1）目标：子动作标签p（s|x1）p（s|x2）1. ..p（s|xT）1一758，在长视频上进行RNN训练对于每个帧t，我们（7）75911其中L（G）是G可以生成的所有可能动作序列的集合。注意，如果语法是上下文无关，参见例如。[10 ]第10段。为了训练，以及为了将视频与给定的有序动作序列aN对齐的任务，需要推断与单个序列的最佳帧对齐。通过定义仅生成给定动作序列aN的语法，可以使用等式（7）来解决该对齐任务。对于时间动作分割的任务，即当没有动作序列被提供用于推理时，上下文无关语法可以从训练样本中给出的有序动作序列中导出。3.5. 培训模型的训练是一个迭代过程，在递归神经网络和HMM训练之间进行改变，并通过HMM将帧对齐到子动作单元。整个过程如图4所示。初始化。视频被分成N个大小相等的片段，其中N是转录本中动作实例的数量（图4a）。每个动作片段在子动作中被进一步平均划分（图4b）.注意，这定义了从帧到子动作的映射s（t）每个子动作应该覆盖一个动作的m帧.因此，每个操作的子操作的初始数量为帧数、（8）动作实例数·m其中我们通常选择m=10，如[15，16]中所提出的。因此，最初每个动作都是用相同数量的子动作来建模的。这可以在迭代优化期间改变迭代训练。细粒度RNN是用当前映射s（t）作为基础事实来训练的。然后，将RNN和HMM应用于训练视频，帧与子动作的对齐（图4d）是根据新的细粒度概率p（x t）推断出来的|s）从RNN。通过找到最好地解释数据的子作用映射s（t）来并且基于更新的平均动作长度重新估计子动作的数量。特别地，对于动作a，现在存在len（a）/m个子动作，其再次均匀地分布在分配给相应动作的帧之间，参见图10。图4e. 重复这些步骤直到收敛。停止标准。由于系统迭代地近似训练数据上的最佳动作分割，因此我们基于从一次迭代转移到后续迭代的动作边界的总量来定义停止标准。在迭代i中，让change（i）表示与迭代i-1相比被不同标记的帧的百分比。我们停止优化，如果帧变化率在两个迭代次数小于阈值，|别说了。|<ϑ⇒stop.（十二）4. 实验在本节中，我们将详细分析我们的方法。代码和模型可在线获取1.4.1. 设置数据集。我们在两个异质数据集上评估了所提出的方法。早餐数据集是一个大规模的数据集，有1712个剪辑，总时长为66。七个小时。该数据集包括各种厨房任务，如泡茶，但也包括复杂的活动，如煎蛋或煎饼的烹饪。它有48个动作类，平均值为4。每个视频9个实例我们遵循作者在[14]中提出的Hollywood extended [3]数据集是对著名的Hollywood数据集的扩展，包含来自不同好莱坞电影的937个片段这些片段用两个或多个动作标签进行注释，导致总共16个不同的动作类，平均值为2。每个剪辑5个动作实例。功能. 对于这两个数据集，我们使用改进的密集轨迹（IDT）和Fisher向量（FV）遵循[15]中所述的特征计算。为了计算FV表示，我们首先降低IDT主成分分析从426到64个特征，样本150，000个，s（t）=argmax、、、p（xT|aN）（九）domly选择的功能，以建立一个GMM与64高斯。s（t）1 1，YT .Σ。每个帧的Fisher向量表示[25]是com-在20帧的滑风中，Following[22]，= argmaxs（t）t=1px t|s（t）·p s（t）|s（t− 1）.（十）我们将功率和l2归一化应用于所得FV表示.此外，我们通过PCA将最终的FV表示从8，192维减少到64维，注意，可以使用维特比算法来有效地计算等式（10）一旦为所有训练视频计算了重新对齐，每个动作的平均长度将重新估计为对齐的帧数整个视频表示可管理且更容易过程停止标准。对于停止准则，我们固定= 0。02，I.E.如果帧的差在两个ITER之间改变，小于2%，我们就停止迭代。图5len（a）=a实例数（十一）1https://github.com/alexanderrichard/weakly-sup-action-learning760行动记录：行动1行动2行动3(a)线性分段(b)子动作的线性对齐（a1）1（a）2（a1）3（a2）1（a2）2（a2）3（a3）1（a3）2（a3）3(c)重新训练（迭代1）s（a1）s（a1）s（a1）s（a2）s（a2）s（a2）s（a3）s（a3）s（a3）1 2 3 1 2(d)调整3 1 2 3(e)线性对齐到新的子动作（a1）1（a）2（a2）1（a2）2（a2）3（a2）4（a2）5（a3）1（a3）2(f)重新训练（迭代2）s（a1）s（a1）s（a2）s（a2）s（a2）s（a2）s（a2）s（a3）s（a3）1 2 1 2(g)调整3 4 5 1 2(h)线性对齐到新的子动作（a1）1（a2）1（a2）2（a2）3（a2）4（a2）5（a3）1（a3）2（a3）3(i)重新训练（迭代3）（收敛前）图4. 我们模型的训练过程。最初，每个动作用相同数量的子动作建模，并且视频与这些子动作线性对齐。基于这种对齐，RNN被训练并与Hacker结合使用，以将视频帧重新对齐到子动作。最后，重新估计每个动作的子动作的数量，并迭代该过程直到收敛。早餐准确性（Mof）22.第二十二章4第28章. 833 .我的超次元帝国351.第五十一章. 3表1.早餐数据集上的时间分割结果，将所提出的系统（GRU+重新估计）的准确性与没有子动作的相同架构（GRU没有子动作）的准确性以及具有子类但没有重新估计的架构的准确性进行比较。说明了两个示例实验的标准。蓝色曲线是帧精度，红色曲线是两次迭代之间帧变化的差异。可以看出，在几次迭代之后，帧精度不再增加，而是开始振荡，也参见表2。比较训练数据的帧变化率是何时停止迭代的良好指示器。在所有的实验中，我们计算结果的基础上对齐的最后一次迭代之前，阈值的阈值被越过。4.2. 粗模型对于我们的系统的以下评估，我们报告了时间动作分割任务的性能，I.E. 视频分割与分类相结合。给定一个没有任何进一步信息的视频，任务是根据它们的相关动作对所有帧进行分类。这包括推断视频中发生了哪些动作，它们发生的顺序以及它们各自的开始帧和结束帧。我们对早餐数据集的测试集进行了评估，并将结果报告为帧内平均准确度（Mof）（见[14]）。我们使系统停止运行，直到达到3.5节所述的停止标准首先，我们考虑粗动作模型的性质。因此，我们将建议的系统与相同设置的结果进行比较，但没有进一步将动作细分为子动作（GRU没有子动作，表1）。此外，我们认为在优化过程中没有重新估计子动作的系统的结果（GRU w/o reestimation，表1）。对于没有重新估计的系统，我们遵循如图4所示的初始步骤，因此，我们根据动作的数量线性分割视频，生成初始子动作对齐，训练相应的子动作类，并基于RNN输出重新对齐序列。但是，与重新估计的设置相反，我们省略了重新估计子类数量的步骤和随后的对齐。相反，我们只是使用重新对齐的输出来重新训练分类器，并简化训练，对齐和重新训练的过程。因此，在本发明中，训练RNN训练HMM训练RNN训练HMM训练RNN训练HMMSSSSSSSSSSSSSSSSSSSSSSSSSSS761GRU无子行动：GRU w/o reest.：GRU与reest。：地面实况：顺序：取碗，倒入谷物，倒入牛奶，搅拌谷物GRU无子行动：GRU w/o reest.：GRU与reest。：地面实况：顺序：倒入油，鸡蛋破裂，煎鸡蛋，加入椒盐，煎鸡蛋，放鸡蛋2盘图6.早餐数据集中两个样本的分割结果示例，显示了“准备谷物”和“准备friedegg”的分割结果虽然动作并不总是被正确地检测到，但检测到的动作和地面实况边界仍然存在合理的对齐0的情况。360的情况。340的情况。320的情况。30的情况。280的情况。260的情况。360的情况。340的情况。320的情况。30的情况。280的情况。261 2 3 4 5 6迭代1 2 3 4 5 67迭代0的情况。40的情况。30的情况。20的情况。100的情况。40的情况。30的情况。20的情况。10GRU停止迭代GRU +重新评估停止迭代准确度（Mof）（蓝色）准确度（Mof）（蓝色）停止暴击。（红色虚线）762早餐GMM（不含剩余物）MLP w/o reest.GRU w/o reest.GRU，不带HMM1表2.在五次迭代中，与GRU相比，MLP的低级别识别结果 MLP 很快开始过拟合，而GRU在一个恒定的水平振荡。最后一行：没有HMM的GRU，表明短期依赖性被细粒度递归网络很好类模型，但仍然低于系统与子动作重新估计。与此相比，子动作重估计模型的性能提高了5%。我们将重新估计的模型的性能增加归因于以下事实：良好的性能与子动作的正确数目高度相关，因此与单个动作的良好长度表示高度相关。通过在每次迭代后重新估计子动作的总数，该地面真值长度为图5. 两个实验的停止准则，一个使用细粒度模型并且没有子动作重新估计，一个使用细粒度模型并且具有子动作重新估计。蓝色曲线显示迭代的帧精度，红色曲线显示当前迭代和前一次迭代之间的帧变化率。虚线表示阈值λ= 0。02.子类的数量是恒定的，并且粗略模型不适于动作类的总估计长度。最后，我们与一个系统进行比较，在这个系统中，我们使用地面真值边界来计算动作类的平均长度，并根据平均地面真值长度（GRU + GT长度，表1）设置子动作的数量。在这里，所有的动作类仍然被统一初始化，但是较长的动作类被划分为比较短的动作类更多的子动作。我们包括这种人工场景，因为它模拟的情况下，最佳数量的subac- tion类将被发现的性能。从表1中可以看出，没有子动作的识别性能明显低于所有其他的识别性能，这支持了一般的子动作建模有助于这种情况下的识别的想法该模型与子行动，但没有重新估计，改善了单一的近似子动作的数量的影响是-当考虑使用地面实况动作长度时的结果时，在这里，同一个系统的性能，只是不同数量的子动作，增加了近20%。两个示例视频的定性结果如图6所示。4.3. 细粒度模型为了分析递归网络捕获时间上下文的能力，我们将其与使用高斯混合模型（ GMM ）和多层感知器（MLP）的系统进行了比较。两者都只在帧级别上操作，并且不捕获帧之间的细粒度信息。为了提供与递归模型的公平比较，我们为MLP配备了整流单元的单个隐藏层，使得它具有与递归网络相同我们使用一个简化版本的系统，没有子动作重新估计，以达到可比的结果后，每次迭代。早餐数据集上前五次迭代的结果如表2所示。我们发现，GRU的表现明显优于GNP和MLP，从25开始。5%的初始识别，并达到29。3%之后停止暴击。（红色虚线）763早餐好莱坞分机模型准确度（Mof）杰克（IoU）[3]*8. 9-HTK [16]二十五98. 6ECTC [9]二十七岁7-GRU（不含重新估计）28岁811个国家。2GRU+重新评估三十三岁。311个国家。9早餐好莱坞分机模型杰克（IoD）杰克（IoD）OCDC [3]23岁4四十三9HTK [16]四十6四十二4[9]**-41岁0GRU（不含重新估计）41岁550块1GRU+重新评估四十七351岁1表3. 时间动作分割性能基于GRU的弱学习与其他方法的结合。对于Breakfast数据集，我们将性能报告为帧内平均值（Mof），对于Hollywood扩展，我们将Jaccard指数测量为该任务的交集（* 来自[9]）。第四次迭代。特别地，MLP基线持续保持低于该性能。因此，可以假定，在该上下文中通过重复连接获得的附加信息支持分类。可以进一步看出，MLP在第二次迭代之后达到其最佳性能，然后持续下降，而GRU开始在29%左右振荡，暗示MLP也在与GRU相一致的较早阶段开始过拟合。在表2的最后一行，粗略模型，即。HMM从系统中删除。因此，不再有子动作的建模，GRU直接学习原始动作类。性能明显比粗略模型差，但系统仍然非常好，与使用粗略模型的MLP相当（表2的第二行）。4.4. 与最新技术时间动作分割。我们将我们的系统与针对该任务发布的三种不同方法进行比较：第一种是Bojanowski等人提出的有序约束判别聚类（OCDC）。[3]，这是在好莱坞扩展数据集上引入的。其次，我们与Kuehne等人使用的HTK系统进行了比较。[16]，第三个反对黄等人的扩展联结主义时间分类（ECTC）。[9]的文件。对于早餐数据集，我们遵循[14，9]的评估脚本，并将结果报告为四个分割帧的平均准确度对于HollywoodExtended数据集，我们遵循[16]的评估脚本并报告Jaccard指数（Jacc.）作为交集大于并集（IoU）超过10次拆分。结果示于表3中。可以看出，所提出的基于子动作的GRU系统表现出良好的性能，并且基于子动作的系统在两个评估的数据集上都优于当前的方法。它还表明，没有重新估计的基于GRU的系统显示出与其他基于RNN的系统相当的性能，例如[9]的ECTC，它使用具有可比大小的LSTM模型。我们的方法的准确性的显着增加可以归因于重新估计。我们还观察到，表4. Break测试集上的动作对齐结果快速和好莱坞扩展数据集报告为交叉检测（IoD）的Jaccard与好莱坞扩展数据集相比，早餐上的重新估计对系统的提升更为突出。我们将此归因于以下事实：在好莱坞扩展的情况下，所有动作类通常具有一致的平均帧长度，而在早餐的情况下，动作类的平均因此，适应动作类长度的好处随着目标动作类的异质性而增加。行动一致。我们还处理行动协调的任务。在这里，我们假设给定视频和一系列按时间排序的动作，任务是推断给定动作顺序的相应边界。我们报告早餐测试集以及基于Jaccard指数（Jacc.）的Hollywood扩展数据集的结果。如[3]所提出的，将其计算为交叉检测（IoD）。结果示于表4中。这里，没有重新估计的GRU系统与用于早餐数据集上的对准任务的其他系统表现相当，但是具有重新估计的GRU系统再次示出了对当前系统的明显改进。5. 结论我们提出了一种弱监督学习人类动作的方法，该方法基于递归神经网络建模的子动作的区分性表示和粗概率模型的组合，以允许在长序列上进行时间对齐和推理。虽然系统本身已经显示出良好的结果，性能显着提高近似的子动作的数量为不同的动作类。因此，我们建议在训练过程中通过迭代重新对齐和重新估计来调整子动作类的数量。由此产生的模型优于国家的最先进的各种弱学习任务，如时间动作分割和动作对齐。致谢。这项工作得到了DFG项目KU 3396/2-1（视频数据中动作识别和分析的层次模型）和GA 1927/4-1（DFG 2535人类行为研究单位）以及ERC启动资金ARCA（677650）的资助。764引用[1] J. - B. Alayrac ， P.Bojanowski ， N. 阿格拉瓦尔岛Laptev，J.Sivic和S.拉科斯特-朱利安从叙述式教学视频中进行无监督学习。在IEEE计算机视觉和模式识别会议上，2016年。一、二[2] N. 巴拉斯湖Yao，P.Chris和A.考维尔深入研究卷积网络以学习视频表示。 InInt.Conf.onLearningRepresentations，2016. 4[3] P. 博亚诺夫斯基河Lajugie，F.巴赫岛Laptev，J.庞塞C. Schmid和J.西维克排序约束下的视频弱监督动作标注。在欧洲会议中计算机视觉，2014年。一、二、五、八[4] K.乔湾，巴西-地van Merrienboer、D. Bahdanau和Y.本吉奥。关于神经机器翻译的特性：编码解码器接近。在SSST@EMNLP会议录中，第八届统计翻译中的语义，语义和结构研讨会，第103-111页，2014年。4[5] 钟杰角，澳-地古尔塞尔角Cho和Y.本吉奥。门控递归神经网络在序列建模中的实证评估。arXiv预印本arXiv：1412.3555，2014。4[6] 多纳休湖A. Hendricks，S. Guadarrama，M. 罗尔巴赫S. Venugopalan湾Saenko和T.达雷尔。用于视觉识别和描述的长期在IEEE Conf. on Computer Vision and PatternRecognition，2015。1[7] O.杜兴岛Laptev，J. Sivic，F. Bach和J.庞塞视频中人类行为的自动注释。InInt. Conf. on Computer Vision，2009.一、二[8] C.甘角，澳-地孙湖，澳-地Duan和B.龚通过对相关网络图像和网络视频帧进行相互投票的网络监督视频识别。在欧洲会议中计算机视觉，2016年。2[9] D.- A.黄湖，澳-地Fei-Fei和J. C.尼布尔斯弱监督动作标记的连接主义时间模型在欧洲会议中计算机视觉，2016年。一、二、八[10] D. 尤拉夫斯基角Wooters，J.Segal，A.Stolcke，E.福斯勒，G. Tajchaman和N. Morgan.使用随机上下文无关文法作为语音识别的语言模型在IEEE国际Conf. 声学、语音和信号处理，第1卷，第189-192页，1995。5[11] R. Jzefowicz，W.扎伦巴和我Sutskever循环网络架构的实证探索。InInt. Conf. on Machine Learning，2015. 4[12] A. Karpathy，G.Toderici、S.Shetty，T.良河，巴西-地Sukthankar和L.飞飞用卷积神经网络进行大规模视频分类。在IEEE会议计算机视觉和模式识别，第1725-1732页，2014年。1[13] O. Koller，H. Ney和R.鲍登Deep hand：如何在100万张手部图像上训练CNN，当你的数据是连续的和弱标记的。在IEEE会议计算机视觉和模式识别，2016年。2[14] H. Kuehne，A. B. Arslan和T. Serre.行动语言：恢复目标导向的人类活动的语法和语义。在IEEE计算机视觉和模式识别会议上，2014年。二五六八[15] H. Kuehne，J. Gall，and T. Serre.用于视频分割和识别的端到端生成框架。IEEE Winter Conf.计算机视觉的应用，2016年。5[16] H. Kuehne，A. Richard和J.胆从记录中弱监督学习动作。arXiv预印本arXiv：1610.02237，2016。二、四、五、八[17] I. Laptev，M.马萨莱克角Schmid，和B.罗森菲尔德从电影中学习真实的人类动作。IEEE计算机视觉与模式识别会议，2008年。一、二[18] C. Lea，A.赖特河Vidal和G. D.海格用于细粒度动作分割的分段时空CNN。在欧洲会议中计算机视觉，第36-52页，2016年。2[19] J. Malmaud ， J. Huang ， V. Rathod ， N. Johnston ，A.Rabi-novich和K.墨菲什么是烹饪？使用文本、语音和视觉解读计算语言学协会北美分会会议：人类语言技术，2015年。3[20] M.马尔萨莱克岛Laptev和C.施密特在上下文中的动作。在IEEE会议计算机视觉和模式识别，2009。一、二[21] I.米斯拉角L. Zitnick和M.赫伯特洗牌并学习：使用时序验证的无监督学习。在欧洲会议中计算机视觉，2016年。3[22] F. Perronnin，J. S'nchez和T。门辛克改进Fisher核函数用于大规模图像分类。在欧洲计算机视觉会议上，2010年。5[23] A. Richard和J.胆使用统计语言模型的时间动作检测。在IEEE Conf. on Computer Vision and Pattern Recognition，2016。1[24] M. Rohrbach，S.阿明，M。Andriluka和B.席勒用于烹饪活动的细粒度活动检测的数据库在IEEE会议计算机视觉和图案识别，第1194-1201页，2012年。1[25] J. Sanchez，F.佩罗宁，T.Mensink，J。维贝克使用Fisher向量进行图像分类：理论和实践InternationalJournal on Computer Vision，105（3）：2222013年12月5[26] K. Simonyan和A.齐瑟曼。用于视频中动作识别的双流卷积网络。In Advances神经信息处理系统，第568-576页，2014年。1[27] B.辛格，T. K.马克，M。琼斯岛Tuzel和M.邵一种用于细粒度动作检测的多流双向递归神经网络在IEEE计算机视觉和模式识别上，2016年。1、4[28] C.孙习谢蒂河Sukthankar和R.奈瓦提亚通过网络图像的域转移对视频中的细粒度动作进行时间定位。ACMConf. on Multimedia，2015年。2[29] K.唐湖，澳-地Fei-Fei和D.科勒学习复杂事件检测的潜在时间结构。在IEEE Conf. on Computer Vision andPattern Recognition，第1250- 1257页2[30] H. Wang和C.施密特具有改进轨迹的动作识别。在Int.Conf. on Computer Vision，第3551- 3558页，2013年。1765[31] P. J. Werbos。通过时间的反向传播：它的作用和方法Proceedings of the

下载后可阅读完整内容，剩余1页未读，立即下载