基于单时间戳监控的未裁剪视频动作识别

182 浏览量更新于2023-10-18 收藏 1.39MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9915基于单时间戳监控的未裁剪视频动作识别布里斯托大学视觉信息davide. bristol.ac.uk多伦多大学NVIDIA Vector Institutefidler@cs.toronto.eduDima Damen视觉信息实验室布里斯托尔dima. bristol.ac.uk摘要识别视频中的动作依赖于训练期间的标记超级视觉，通常是每个动作实例的开始和结束时间。这种监督不仅是主观的，而且获得成本也很高。弱视频级超视已经成功地用于未修剪视频中的识别我们提出了一种方法，是由位于每个动作实例周围的单个时间戳，在未修剪的视频监督。我们用从这些时间戳初始化的采样分布替换昂贵的动作界限。然后，我们使用分类器我们证明，这些分布收敛到歧视性的动作段的位置和程度我们在三个数据集上评估了我们的方法，以进行细粒度识别，每个视频的不同动作数量不断增加，并表明单个时间戳在识别性能和标记工作之间提供了合理的折衷，执行了全时间监视。我们的更新方法提高了top-1测试的准确性高达5.4%。在评估的数据集上。1. 介绍用于视频中的动作识别的典型方法依赖于全时间监督，即，关于训练的动作开始和结束时间的可用性。当动作边界可用时，由时间边界包围的所有（或大部分）帧可以被认为与动作相关，并且因此现有技术的方法随机或均匀地选择帧来表示动作并训练分类器[30，12，33，6，34，16]。收集这些约束条件不仅是出了名的繁重和昂贵，而且可能是模糊的，往往是任意的[21，29，7]。随着对更大视频数据集的需求不断增加，重要的是扩大注释过程，以促进视频理解的更快发展。在这项工作中，我们试图减轻这种注释负担，使用sin-在未修剪的视频中粗略对齐时间戳注释-即每个动作仅标记有一个时间戳的视频，位于感兴趣的动作附近。这样的标记更容易收集，并且重要的是更容易与注释者通信，注释者不必决定动作何时开始或结束，而仅标记动作内或接近动作的一个时间戳单个时间戳也可以从音频叙述和视频字幕中收集[8，1]。为了利用这种弱监督，我们提出了一个采样分布，从单个时间戳初始化，选择相关的帧来训练动作识别分类器。由于时间戳的潜在粗略位置以及具有不同长度的动作，初始采样分布可能与动作不完全一致，如图1（顶部）所示。因此，我们提出了一种在训练过程中使用分类器响应更新采样分布参数的方法，以便对更多相关帧进行我们的尝试受到基于图像的语义分割[2]中用于单点注释的类似方法的启发，其中使用这种点监督获得的结果具有比使用完全注释的掩模获得的结果略低的准确性，但优于使用图像级注释获得的结果相应地，我们表明，单一的时间戳监督动作识别优于形式的视频级监督。我们在三个数据集上测试我们的方法[15，9，8]，其中[8]用来自现场音频评论的单个时间戳进行注释我们表明，我们的更新方法收敛到三个数据集中的动作的位置和时间范围，并提高了三个数据集上的初始精度。我们还证明了课程学习在此更新过程中的优势，以及我们的方法对抽样分布的初始参数的鲁棒性。当单个时间戳在动作边界内时，我们的方法可与所有数据集上的强监督模型进行比较。9916拿起反过来冲洗反过来放新闻报道放拾放取开勺浇注搅拌杯抽头杯抽头杯按钮杯杯广口瓶匙jar匙匙勺子视频帧图1.在给定单个时间戳的情况下，用未修剪视频中的采样分布替换动作边界（每个分布中心的彩色点）。初始分布（顶部）可以重叠（例如，'put jar'，'take spoon'）并包含背景帧。我们在训练过程中使用分类器响应迭代地细化分布（底部）。2. 相关工作我们回顾最近的作品使用弱时间标签的动作识别和定位。对于使用强监督的作品的评论，我们请读者参考[13]。我们将该部分分为视频级、文字级和点级监督。视频级监控提供了最弱的提示，仅在未修剪的视频中发出动作存在或不存在的信号，而不考虑任何时间顺序。当未经修剪的视频中仅存在几个不同的动作时，视频级监督可以证明足以从长视频中学习动作，如最近所示[32，22，31，28，23]。在这些作品中，作者使用这种监督来训练动作分类和定位的模型，取得的结果往往与强监督方法相当然而，所有这些工作都在THUMOS 14 [15]和Activity Net [11]数据集上评估了他们的方法，这些数据集主要包含每个训练视频的一个类。在这项工作中，我们表明，随着每个训练视频的不同动作数量的增加，视频级标签不能提供足够的监督。转录监督提供了未修剪视频中的动作标签的有序列表，没有任何时间注释[4，5，14，24，18，25，26，10]。一些作品[10，18，24]假设转录包括“背景”的知识在[10]中，视频的均匀采样之后是动作边界的迭代细化。细化使用每个边界周围的类标签的softmax分数的成对比较，以及线性插值。这种迭代边界细化策略在概念上与我们的相似然而，[10]中的方法假设相邻动作之间不允许有间隙这需要背景标签的知识以便该方法操作。点级监督是指使用单个像素或单个帧作为监督形式。这被尝试用于语义分割，通过注释静态图像中的单点[2]，随后用于视频[20，7]。在[20]中，单个像素用于注释动作，在在空间和时间上都是帧的子集。当将这种弱监督与行动建议相结合时，作者表明，有可能实现与使用完整且更昂贵的每帧边界框所获得的结果相当的结果。最近，在[7]中评估了几种形式的弱监督，包括单时间点，用于时空动作本地化的任务。这项工作使用现成的人类检测器从视频中提取人类轨迹，将这些与基于判别聚类的统一框架中的各种注释相结合。在这项工作中，我们还使用了一个单一的时间点每行动的细粒度识别视频。然而，不像上面的工作[20，7]认为给定的注释是正确的，我们积极地细化给定监督的时间范围，假设给定的注释点可能与动作不一致，从而导致不正确的监督。我们表明，当在三个具有不同复杂度的数据集上进行测试时，在未经修剪的训练视频中的不同动作的数量我们接下来详细介绍我们的方法。3. 单时间戳超视觉识别在这项工作中，我们考虑的情况下，一组未修剪的视频，包含多个不同的动作，提供了细粒度的动作识别的任务这是训练分类器f（x）=y的任务，该分类器将帧（或一组帧）x作为输入，以从x的视觉内容中识别类y。我们的方法是分类器不可知的，即。我们不对分类器的性质做任何假设此任务的典型注释由动作的开始和结束时间以及类标签给出，动作的开始我们把这种标记称为时间界限注释。当使用这种监督时，可以使用对应的开始/结束时间戳之间的帧来训练分类器。当用每个动作实例的单个时间戳替换这些注释时，9917y1y2我我我我我我t−1我我不我我什么？？？？？？？标签框架开罐舀糖图2.当开始/结束时间可用时（a），标记边界内的所有帧都可以分配给类别标签。由于动作边界不可用（b），我们的方法旨在迭代更新帧和类标签之间的映射（c）。顶部和底部图描绘了不同的视频。直截了当图2比较了时间边界（a）和单个时间戳注释（b）。在图2b中，当只有粗略对齐的单个时间戳可用时，哪些帧可以用于训练分类器并不明显。当靠近动作时，对应于单个时间戳的帧可以表示背景或另一动作。此外，行动的范围尚不清楚.我们的方法是基于合理的假设，每个类的多个实例已被标记，允许模型收敛到正确的框架。我们提出了一个采样分布（第3.1节），从标注的时间戳开始为分类器选择训练帧，如图2c所示。初始化后（第3.2节），我们根据分类器的响应迭代更新采样分布的参数，试图纠正错位的3.1. 抽样分布我们建议用一个采样分布来代替不可用的动作边界，该采样分布可用于选择用于训练分类器的帧。为了简单起见，我们假设我们的分类器是基于帧的，并将单个帧作为输入我们稍后放宽这个假设。我们认为，抽样分布应该类似于一个强分类器的输出，即。包含动作的连续帧的高分类分数的平台，在其它地方具有低响应这个函数的另一个理想属性高斯概率密度函数（pdf）通常用于对可能性进行建模，但它不会表现出平台响应，而是在平均值附近达到峰值根据定义，门函数显示出尖锐的平台，但它是不可区分的。我们提出以下函数来模拟抽样分布的概率密度：g（x |c，w，s）=1（1）（es（x−c −w）+ 1）（es（−x+c−w）+ 1）它的陡坡。函数的范围是[0，1]。在我们的设置中，g定义在未修剪视频的帧x上。我们将g称为本文其余部分的平台函数3.2. 初始化模型我们从单个时间戳注释初始化采样分布设a v是未修剪视频v中的第i个单个时间戳，并且设y v是其对应的类标签，其中i∈ {1. v ∈ {1.. M}。对于每个av，我们初始化一个以时间为中心的采样分布tamp，默认参数为w和s。我们用β v=（cv，wv，sv）表示相应的抽样分布的参数，其中cv=av，相应地用G（β v）表示相应的抽样分布.我们将使用G（βv）对yv表示的类的训练帧进行采样。请注意，由于某些时间戳非常接近，初始化的平台可能会重叠（图1，顶部）。我们可以通过缩小高原来减少重叠。然而，鉴于我们不知道动作的时间范围，这可能导致丢失重要帧。我们选择允许重叠，并将w和s设置为默认值，使所有动作都有机会从相同数量的帧中学习。从这些分布中采样的帧可能是背景帧，或者与不正确的动作标签相关联。为了减少噪音，我们根据分类器的响应对从所有未修剪视频中采样的帧进行排名，并选择最有信心的帧进行训练，灵感来自当前的视频学习[3]。设P（k|x）表示类k的帧x的softmax得分。假设：Fk=.x← G（β v）：yv= k，∈i ∈ {1. N v}，则Nv ∈{1..{\fn黑体\fs22\bord1\shad0\3aHBE\4aH00\fscx67\fscy66\2cHFFFFFF\3cH808080}S.T. P（k| Fk）≥P（k| F（k）（二）参数c模拟平台的中心，而w和s模型分别其宽度（等于2w）和是来自具有cor的分布的所有采样帧响应类k，根据他们的softmax分数排序我们选择Fk中的顶部T帧进行训练：ts开罐Y1y2舀糖X开罐Y1X xXy2舀糖xxxxxts什么？？？？？标签框架标签框架tstststsa）、b）、c）、9918我我^我我Ji−1J一期+1ity，我们描述了这一过程的一个抽样分布不t=1j jiij jig（x|γj）g（x|γj+1）g（x|γj+2）CCCCCCQv=，γv：cv0。5}。然后将分数定义如下：ρ（β v）=1<$P（y v|x）（5）我我. FkT：T=h| Fk|，h∈ [0，1]（3）|x∈X|x∈X通过这种方法，我们选择的框架，其中类-我们将每个建议的置信度γv∈Qv定义为：J Ifier是最有信心的，这相当于为高原内的每个类选择最相关的帧注意，等式3对来自所有视频的帧进行排名，因此与一个视频中的动作重复次数无关。虽然使用这种策略，我们为分类器提供了更少的噪声样本，但我们仍然可能在初始平台之外丢失相关帧。在训练基本模型之后，（ γv ） =ρ （ γv ） −ρ （ βv ）（6）其基本思想是奖励平台中包含的帧平均得分高于要更新的平台中包含的帧的建议，因此可能与动作更相关因此，我们放弃更新建议与非积极的信心。我们我们继续更新采样分布，目标是v v校正错位的平台，以便我们可以提供更多的相关帧。3.3. 更新分布参数我们假设，总的来说，最初的高原是合理的行动一致。在这样的假设下，我们迭代地更新采样分布参数，在更相关的帧上重新成形和移动初始化的平台，以便加强分类器。我们先亲-为每个βi选择具有最高置信度的建议γ^i：γv=argmax（γv）：γv∈Qv（7）vJ更新提案我们也采用课程学习范式进行更新，仅更新所选提案得分高的发行版。假设：r=.γ^v，γi∈{1.. Nv}，则Nv∈{1.. {\fn黑体\fs22\bord1\shad0\3aHBE\4aH00\fscx67\fscy66\2cHFFFFFF\3cH808080}从softmax分数中提取更新建议，然后对建议进行排名，以选择提供最多我S. t. <$（Γt−1）≥<$（Γt）（八）自信更新对于每个采样分布G（β v），我们找到相应类k = yv的softmax分数的更新建议。对于单纯的-是根据它们的置信度排序的所有选择的更新建议的序列我们在Γ中选择前R个提案来更新相应的采样分布：irR=. ΓR：R=z| Γ|，z∈ [0，1]（9）以及其对应类别k的softmax得分。我们将等式1中的pdf拟合到多个位置和时间尺度处的 softmax 分数这是通过在 softmax 分数上设置阈值γ不 t=19919我我我我我我我我我我我τ∈[0，1]来完成的，并且找到连续帧的所有连通分量然后，相应的采样分布参数βv更新如下：<$γ^v∈ΓR→βv=βv−Λ。βv−γ^v（10）softmax分数高于τ。对于每个连接的组件，我们拟合pdf，并将得到的拟合参数视为更新采样分布的一个候选参数当τ变化时，可以产生各种尺度的多个提议。图3示出了三个更新的示例建议，其中的立场和规模的行动其中Λ ={λ c，λ w，λ s}表示控制更新速度的超参数集。注意，我们对不同的参数（c，w，s）使用不同的更新速率：cv=cv−λc。cv−c^v（11）模棱两可，即。目前还不清楚哪个平台是最适合的。对于wv和sv也是类似的。我们更新提案直到-我我我们用γv=（cv，wv，sv）表示每个更新建议。聚散这很容易通过观察平均值来J因此，βv的更新建议集为j j j所选方案的置信度接近0。9920softmax评分步骤0步骤测试步骤t+n单时间戳（打开冰箱）抽样分布步骤0步骤测试步骤t+n图4.使用分类器响应更新采样分布-例如EPIC Kitchen中的不同的颜色表示不同的训练迭代。设置数据集N。的类N.的视频N.行动平均视频长度每个视频的平均课程数每个视频的平均THUMOS 14 20 200 3003 208.90 1.08 15.01比利时34 46 594 61.31 5.09 12.91EPIC Kitchen 274 79 7060 477.37 34.87 89.36THUMOS 14 20 210 3307 217.16 1.09 15.74比利时34 12 148 57.78 6.58 12.33EPIC Kitchen 274 26 1949 399.62 32.08 74.96表1.数据集信息。平均视频长度以秒为单位。4. 实验4.1. 数据集图5.针对不同数据集的每个视频的不同操作括号中的数字表示每个视频的（最小值、最大值、平均值）唯一动作。对于Activity Net [11]，我们同时考虑了训练集和验证集，而对于THUMOS 14 [15]，我们只考虑了验证集。我们使用对于EPIC Kitchen [8]，我们只考虑使用的子集中的视频。图4示出了用于更新类“open fridge”的一个采样分布的示例。标记的时间戳和相应的初始采样分布（蓝色虚线和蓝色虚线）与动作没有很好地对齐，两者都位于实际发生之前。图5比较了各种常见的数据集[11，15，19，9，17，8]，用于动作识别和定位，基于训练（顶部）和测试（底部）集中每个视频的不同动作的数量。该图显示了这些数据集的范围，从平均每个视频一个动作（Activity Net，THUMOS 14）到最大平均每个视频34个动作（EPIC Kitchen）。当从具有弱时间监督的未修剪视频中学习时，每个视频的不同动作的数量起着至关重要的作用。因此，我们通过选择每个视频类别数量增加的三个数据集来评估我们的方法，即THUMOS 14 [15]，BEFORT [9]和EPIC Kitchen [8]。我们在第4.4节中表明，随着每个视频的不同动作数量的增加，视频级标签不再提供足够的时间监督，而单个时间戳构成了注释工作量和准确性之间的有效折衷。对于THUMOS 14，我们使用时间标记为20个类的视频的子集，而对于BESTOS，我们以80-20%的比例随机分割未修剪的视频用于训练和测试。对于EPICKitchener，我们使用选择参与者P03、P04、P08和P08的数据集的子集。行动上经过几次迭代后，分类器对位于初始平台之外的帧（橙色虚线，顶部）的动作进行了更高的置信度最终的采样分布（绿色实线，底部）成功地与受试者打开冰箱的帧对齐。P22。这个子集总共有13.5小时的镜头长度，占整个数据集的25%。表1总结了所选数据集的各种统计数据。尽管考虑到完整数据集的一个子集，EPIC Kitchen是迄今为止最具挑战性的，因为它的视频非常长，包含火车测试99212许多不同的行动。此外，正如我们在4.3节中讨论的那样，《史诗-基托》提供了新颖的叙事注释。4.2. 实现细节我们使用Inception架构和在Kinetics [6]上预训练的批量归一化（BN-Inception）[27]，并使用TV-L1光流图像[35]，堆栈大小为5。对于训练，我们对每个动作实例采样5个堆栈，并使用[33]中提出的平均共识当与使用开始/结束动作时间的全时间监督进行比较时，堆栈在相等大小的片段内随机采样，如[33]所示。为了更快地评估，我们从修剪的测试视频中均匀地抽取10个堆栈，并使用最终预测的平均得分进行中心裁剪我们使用Adam Optimiser，批量大小为256，固定学习率为10−4，dropout为0.7，没有权重衰减。我们初始化w=45的抽样分布帧（30 fps时为1.5秒）和s=0。75个数据集。正如我们在4.4节中所展示的，我们的方法对初始参数的选择是鲁棒的。我们训练基础模型对于500个时期，以确保足够的初始化，然后更新运行该方法的采样分布用于500个额外的时期。最初的500个历元在很大程度上足以使测试误差在更新开始之前在所有实验中收敛在使用曲线学习训练基础模型之后，我们逐渐增加h（参见等式3），直到达到h=1，这对应于使用所有采样帧。我们使用固定的z=0。25来选择前R个更新建议（参见等式9）。我们改变h以控制训练帧中的噪声，并保持z固定。增加z主要是加速分布参数的更新，类似于改变方法的学习率。到产生更新建议，我们使用τ ∈ {0. 1，0。2、. . . ，1}并丢弃短于15帧的连接分量。我们设置更新参数（λ c，λ w，λ s）=（0. 5，0。25，0。对于所有数据集，每20个epoch更新一次采样分布。我们的代码使用PyTorch，并且是公开可用的1。4.3. 单个时间戳使用两个阶段的方法注释EPIC Kitchenet 数据集[8]：视频首先由参与者通过音频现场叙述来叙述，以产生所执行的动作的粗略时间位置，然后使用众包（crowd sourcing）来细化动作边界。我们使用叙述开始时间戳作为训练的单一时间戳。这些时间戳来自叙述音频轨道，并相对于视频中的动作发生呈现具有挑战性的偏移：55.8%的叙事时间戳未包含在相应的标记边界中。对于边界之外的时间戳，最大、平均和标准偏差距离1https://bitbucket.org/dmoltisanti/action_recognition_single_timestamps/数据集CLh更新前更新后0.2526.1028.88THUMOS 140.5032.6955.150.7533.5956.421.0063.4163.530.2547.9752.700.5071.6283.110.75英镑74.3283.111.0064.8670.270.2520.4722.83EPIC Kitchen0.5021.3925.350.7520.7323.861.0023.5524.17表2.在TS点集上使用单个时间戳监督获得的Top-1精度。CLh表示用于训练基础模型的h参数（参见等式3）。标记的边界分别为11.2、1.4和1.6秒。据我们所知，本文提供了第一次尝试，训练细粒度的动作识别EPICKitchen只使用叙事时间戳。THUMOS 14和BEFORT没有单一的时间戳注释。我们从可用的标签中模拟粗略的单个时间戳，从均匀分布[σ i− 1sec，σ i+1sec]中绘制每个a i，其中σ i和σ i表示动作i的标记开始和结束时间。这种近似模拟EPIC Kitty的相同现场评论注释方法我们将这组注释称为TS。我们还为所有三个数据集使用另一组单个时间戳，其中每个ai都使用正态分布进行采样，平均值为σi+σi，标准差为1秒。这假设当要求注释者只提供一个时间戳时，注释者很可能选择接近动作中间的一个点。我们将这第二组点称为GT中的TS。4.4. 结果用于所有实验的评估指标是前1准确度。我们首先使用电流学习（CL）评估TS时间戳，以训练运行实验的基础模型，h∈ {0}。25，0。50，0。75}，以及使用所有采样帧进行训练（h=1）。如表2所示，对于所有数据集和所有h值，更新后获得的结果始终优于更新前获得的结果。对于BEST和EPIC，我们的CL策略在训练基础模型时减少了噪声帧的数量，即在h = 0时获得最佳结果。50块然而，在THUMOS 14上，CL ap-基本模型的方法效率较低在训练中使用所有帧时实现的性能。我们在图7中进一步分析了这一点，9922初始抽样分布b）a）c）d）（j）k）l）单时间戳标记帧更新采样分布（中间）更新采样分布（最终）e）g）h）f）图6.三个数据集的定性结果，根据CL h = 0获得的结果绘制。50块不同的颜色表示每个数据集的不同类别。仅用于打印的带标签框架。补充材料中带有类别标签的视频。选定帧丢弃帧012525037550001252503755000125250375500012525037550001252503755000125250375500图7.在训练时期内，包含在标记界限内的采样帧的百分比（CL h= 0. 50，更新前）。更新前，由带标签的动作边界（仅用于绘图）包围的选定帧和丢弃帧的百分比。对于 BEFORT 和 EPICKitchen，我们注意到选定和丢弃的帧之间有一个整齐的分离。这表明CL策略在训练期间有效地挑选了平台期内最相关的帧。对于THUMOS 14，我们没有观察到相同的明显趋势。平衡平台宽度和采样帧的数量可能会解决这个问题，但我们将其留给未来的工作。在图8中，我们通过绘制所选更新建议在训练时期内的平均置信度来对于所有情况，平均置信度稳步下降，表明分类器我们在图6中举例说明了每个数据集的几个示例，显示了采样分布的迭代更新根据CL h = 0获得的结果绘制示例。TS点集上的50。我们的更新方法是能够成功地细化的采样分布，即使当初始高原相当大的重叠与其他不相关的行动（子图e，g，i，j）或当初始高原包含很多背景（子图b，c，e，f，k）。我们也列举了一些失败的案例在子图g（浅绿色平台）和h（灰色平台）中，初始平台被推到相关帧之外。在这两种情况下，训练示例的数量都很小（8和5个实例），单个时间戳几乎总是位于动作之外在子图l中，粉红色和灰色的初始平台相对于相应的动作发生了移动，反映了图8.所选更新建议的平均置信度，如公式6中计算的，在训练时期内。EPIC Kitty在使用叙述时间戳时所面临的挑战。虽然更新方法设法恢复粉红高原的正确位置，但灰色高原没有收敛到相关帧。参数初始化我们通过网格搜索评估初始参数w和s对采样分布图9比较了前1精度更新后获得的不同（w，s）的组合，使用- ING CL h=1。00。我们观察到，对于两个大型数据集（THUMOS 14和EPIC Kitchen），我们的方法对w和s的初始化都是鲁棒的，即对于所有参数组合都获得了类似的性能。BEST WESTERN的稳健性降低可能是由于数据集较小。我们注意到，通过网格搜索获得的最佳结果（图中用红框突出显示）略优于表2中先前报告的结果。这是因为当平台被最佳地初始化时，我们在训练时不太可能采样噪声帧。4.5. 监督水平比较我们现在比较不同级别的时间监督，即最弱的视频级标签，单次tamp（TS和GT点集中的TS）和全节奏边界。特别是，我们表明，视频级的超级，虽然是最便宜的收集，不能提供足够的监督时，处理包含多个不同的动作的视频。BEOIDEPIC KitchenTHUMOS 14（γ9923基线联合净收入[32]我们监督APV视频级TSGT中的TS充分THUMOS 141.0864.9266.6864.5367.10BEOID5.0928.3785.1488.5187.83EPIC Kitchen34.872.2026.2232.5335.97图9.在不同初始w和s的情况下更新后获得的Top-1精度，CLh= 1。红框突出显示最佳结果。我们在上述作品[32，22，28，23]中选择UntrimmedNet [32]，由于已发布代码的可用性，它用于提取[23]中的特征，并且是[28我们使用均匀采样和硬选择模块训练Untrimmed Net对于未修剪的网络，我们报告了在RGB图像上获得的结果，因为在我们所有的实验中，这些图像的表现优于流动图像。表3比较了三次临时监督的结果更新后报告单个时间戳结果，CL h=1。00。当只有一个类视频中包含的行动，如在THUMOS 14中，Untrimmed Net显著实现了与完全监督基线几乎相同的结果。然而，随着每个视频的不同动作的平均数量增加，视频级监控越来越难以达到足够的准确性。在[32]中，当视频包含来自多个类别的动作实例时，标签向量被L1归一化，使得所有当前类别对交叉熵损失的贡献相等。因此，在没有任何时间标签的情况下，当视频中存在大量类时，很难训练模型。使用单个时间戳获得的结果仍然可以与所有数据集的全面监督进行比较，尽管需要显著减少标记工作2。对于THUMOS 14和BEST WESTERN，我们观察到GT中的点集TS和TS之间的差异很小。对于每个视频具有最大数量的不同类的EPIC Kitterfly，我们注意到与完全监督的基线相比，性能差距更大。然而，当从标记的边界（GT中的TS）绘制初始时间戳时，我们实现了更高的准确性。从这些结果中，我们得出结论，单时间戳监督构成了准确性和注释工作之间的一个很好的妥协。2对于完成，TS更新前的准确度为64.74、73.65和THUMOS 14、BESTAUTY和EPIC KITTAUTY的价格为25.19美元。对于GT中的TS，更新前的准确度分别为64.74、85.81和31.66。表3.不同时间监控水平的比较。APV表示每个训练视频的平均唯一动作数。TS结果是指最佳初始化获得的准确度（见图9）。更新后报告时间戳结果，h= 1。00。基线mAP@0.1mAP@0.2mAP@0.3mAP@0.4mAP@0.5我们的（满）26.722.518.514.311.1我们的（TS）24.319.915.912.59.0联合净收入[32]44.437.728.221.113.7表4.THUMOS 14在不同IoU的本地化结果4.6. 未来发展方向：TS本地化在这项工作中，我们专注于单一的时间戳监督的动作分类。仅使用帧级分类分数来定位动作的程度将是次优的。我们在表4中显示了这一点，该表显示了使用我们的基线获得的THUMOS 14的平均精度（mAP），与[32]相比。我们遵循[32]的本地化管道，融合RGB和通过完整和单个时间戳（TS）监督获得的流量分数虽然TS执行完全监督，但即使是完全监督也不如[32]，后者针对本地化进行了优化。我们的方法可以通过监督时间模型（例如，RNN）从高原函数学习时间边界。我们把这个留给未来的工作。5. 结论在这项工作中，我们研究使用单时间戳超视训练多类动作识别从未修剪的视频。我们提出了一种方法，初始化和迭代更新采样分布，以选择相关的训练帧，使用分类器的响应。我们在三个数据集上测试了我们的方法，训练视频中独特动作类的数量不断增加。我们表明，相比视频级的监督，我们的方法是能够收敛到的位置和程度的行动，立场，只使用单一的时间戳监督。结果还表明，尽管使用负担少得多的一些注释工作，我们能够实现可比的结果与完整的，昂贵的，时间的监督。将这些注释扩展到其他任务（如本地化）留待将来工作。未来的发展方向还包括以端到端可微分的方式更新采样分布参数由EPSRC LO-CATE（EP/N 033779/1）和EPSRC DTP支持的研究。我们使用公开的数据集，并发布我们的代码。9924引用[1] Jean-Baptiste Alayrac ， Piotr Bojanowski ， NishantAgrawal，Josef Sivic，Ivan Laptev，and Simon Lacoste-Julien. 从叙述式教学视频中进行非监督式学习在CVPR，2016年。1[2] Amy Bearman，Olga Russakovsky，Vittorio Ferrari和LiFei-Fei。重点是什么在ECCV，2016年。一、二[3] YoshuaBengio ， Je´ ro meLouradour， RonanCollobert ，andJa-son Weston.课程学习。InICML，2009. 3[4] PiotrBojano wski ， Re' miLajugie ， Fra ncisBach ， IvanLaptev，Jean Ponce，Cordelia Schmid和Josef Sivic。排序约束下视频中的弱监督动作标注2014年，在ECCV。2[5] 彼得·博扬·奥斯基、雷米·拉朱吉、爱德华·格雷·阿弗、弗朗西丝·巴赫、伊万·拉普捷夫、让·庞塞和科迪莉亚·施密德。视频与文本的弱监督对齐。在ICCV，2015年。2[6] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在CVPR，2017年。1、6[7] GuilhemChe'ron ， Jean-BaptisteAlayrac ， Iv anLaptev ，andCordelia Schmid.一种灵活的培训模式，可在不同级别的监督下进行培训行动本地化。arXiv预印本arXiv：1806.11328，2018。一、二[8] DimaDamen 、 HazelDoughty 、 GiovanniMariaFarinella 、 Sanja Fidler 、 Antonino Furnari 、 EvangelosKazakos、Da- vide Moltisanti、Jonathan Munro、TobyPerrett、Will Price和Michael Wray。扩展以自我为中心的愿景：EPIC-厨房数据集。在ECCV，2018。一、五、六[9] Dima Damen ， Teesid Leelasawassuk ， Osian Haines ，Andrew Calway，and Walterio Mayol-Cuevas.你做我学从多用户以自我为中心的视频中发现任务相关对象及其交互模式。InBMVC，2014. 一、五[10] 李丁和徐晨良。弱监督动作分割与迭代软边界分配。在CVPR，2018年。2[11] Bernard Ghanem Fabian Caba Heilbron、Victor Escorcia和Juan Carlos Niebles。ActivityNet：人类活动理解的大规模视频基准。CVPR，2015。二、五[12] ChristophFeichtenhofer、AxelPinz和AndrewZisserman 。卷积双流网络融合视频动作识别。在CVPR，2016年。1[13] Samitha Herath、Mehrtash Harandi和Fatih Porikli。深入行动识别：调查。在图像和视觉计算，2017年。2[14] 黄德安，李飞飞，胡安·卡洛斯·尼布尔斯。弱监督动作标记的连接主义时间建模。在ECCV，2016年。2[15] 姜玉刚，刘金根，Amir R.Zamir，George Toderici，IvanLaptev，MubarakShah，andRahulSukthankar.THU- MOS挑战：具有大量类的动作识别。http://crcv.ucf.edu/THUMOS14/ ， 2014 年。一、二、五[16] Vicky Kalogeiton，Philippe Weinzaepfel，Vittorio Ferrari和Cordelia Schmid。用于时空动作定位的动作小管检测器。InICCV，2017. 1[17] Hilde Kuehne，Ali Arslan，and Thomas Serre.行动的语言：恢复目标导向的人类活动的语法和语义。CVPR，2014。5[18] Hilde Kuehne，Alexander Richard，Juergen Gall.从成绩单中弱监督学习动作。在CVIU，2017年。2[19] Marcin Marszałek，Ivan Laptev，and Cordelia Schmid.在上下文中的行动。CVPR，2009。5[20] 帕斯卡尔·梅特斯van Gemert和Cees G.M.斯诺克现场：从点监督提案的行动本地化。在ECCV，2016年。2[21] Davide Moltisanti 、 Michael Wray 、 Walterio Mayol-Cuevas和Dima Damen。越界：标记自我中心视频中对象交互的时间边界。InICCV，2017. 1[22] Phuc Nguyen 、 Ting Liu 、 Gautam Prasad 和 BohyungHan。基于稀疏时间池网络的弱监督动作定位。在CVPR，2018年。二、八[23] Sujoy Paul、Sourya Roy和Amit K Roy-Chowdhury。W-TALC：弱监督的时间活动定位和分类。在ECCV，2018。二、八[24] 亚历山大·理查德和尤尔根·加尔。使用统计语言模型的时间动作检测。在CVPR，2016年。 2[25] Alexander Richard，Hilde Kuehne，and Juergen Gall.基于RNN的从细到粗建模的弱监督动作学习。在CVPR，2017年。2[26] 亚历山大·理查德，希尔德·库恩，阿赫桑·伊克巴尔，尤尔根·加尔. Neuralnetwork-Viterbi：弱监督视频学习框架。在CVPR，2018年。2[27] Ioffe Sergey和Szegedy Christian。通过减少内部协变量转移来加速深度网络训练。CoRR，2015年。6[28] Zheng Shou ， Hang Gao ， Lei Zhang ， KazuyukiMiyazawa，and Shih-Fu Chang. Autoloc：未修剪视频中的弱监督时间动作定位。在ECCV，2018。二、八[29] 贡纳河 Sigurdsson ， Olga Russakovsky ， and AbhinavGupta.理解视频中的人类行为需要哪些动作？InICCV，2017. 1[30] Karen Simonyan和Andrew Zisserman双流卷积网络用于视频中的动作识别。在NIPS，2014。1[31] Krishna Kumar Singh和Yong Jae Lee。捉迷藏：迫使网络对弱监督的对象和动作定位进行细致的处理。InICCV，2017. 2[32] Limin Wang，Yuanjun Xiong，Dahua Lin，and Luc VanGool.UntrimmedNets用于弱监督动作识别和检测。在CVPR，2017年。二、八[33] Limin Wang，Yuanjun Xiong，Zheng Wang，Yu Qiao，Dahua Lin，Xiaoou

下载后可阅读完整内容，剩余1页未读，立即下载