时间周期一致性学习及其在视频对齐中的应用

146 浏览量更新于2023-10-19 收藏 1.73MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1时间周期一致性学习Debidatta Dwibedi1，Yusuf Aytar2，Jonathan Tompson1，Pierre Sermanet1，and AndrewZisserman2谷歌大脑2DeepMind{debidatta，yusufaytar，tompson，sermanet，zisserman}@ google.com视频1时间对准视频2嵌入空间图1：我们提出了一种自监督表示学习技术，称为时间周期一致性（TCC）学习。它受到时间视频对齐问题的启发，时间视频对齐问题是指在多个视频中找到对应关系的任务，尽管有许多所学习的表示对于视频中的细粒度时间理解是有用的。此外，我们现在可以通过简单地在嵌入空间中找到最近的相邻帧来对齐多个视频。摘要我们介绍了一个自我监督的表示学习方法的基础上的视频之间的时间对齐的任务。该方法使用时间周期一致性（TCC）来训练网络，时间周期一致性是一种可区分的周期一致性损失，可用于在多个视频中找到跨时间的对应关系。由此产生的每帧嵌入可以用于通过使用学习的嵌入空间中的最近邻居简单地匹配帧来对齐视频。为了评估嵌入的能力，我们密集地标记了Pouring和Penn Action视频数据集的动作阶段。我们表明：（i）学习的嵌入使这些动作阶段的少数镜头分类，显着降低了监督训练的要求;以及（ii）TCC是对视频中的其他自监督学习方法的补充，例如Shuffle and Learn和Time-Contrastive Networks。嵌入还用于基于视频对之间的对准（密集时间对应）的许多应用，包括视频之间的同步模态的元数据（声音、时间语义标签）的传输、多个视频的同步回放以及异常检测。项目网页：https://sites.google。com/view/temporal-cycle-consistency.1. 介绍这个世界为我们提供了大量的顺序过程的例子。一株植物从幼苗长成大树，每天的起床、上班和生活--回家，或者一个人给自己倒一杯水--都是以特定顺序发生的事件的例子。捕捉这些过程的视频不仅包含关于这些事件的因果性质的信息，而且还为我们提供了一个有价值的信号-潜伏在同一过程的多个实例中的时间对应的例如，在倒酒期间，人们可能伸手去拿茶壶、一瓶葡萄酒或一杯水来倒。关键时刻，如第一次接触容器或容器从地面上升起，是所有倾倒顺序的共同点。尽管存在许多不同的因素，如视角、规模、容器风格、事件速度等的视觉变化，可以用作原始视频序列和高级时间抽象（例如，行动阶段）。在这项工作中，我们提出的证据表明，在序列数据中寻找对应关系的行为能够学习丰富和有用的表示，特别适合于视频的细粒度时间理解。视频中的时间推理，理解过程的多个阶段以及它们之间的因果关系，与识别动作类别相比，是一个相对较少研究的问题[10，42]。学习表征，可以区分对象的状态作为一个动作过程是至关重要的感知和行动的世界。期望的是，被赋予学习倒饮料的任务的机器人在继续执行任务时理解世界的每个中间状态尽管视频是理解这种状态变化所必需的序列数据的丰富来源，但它们的真正潜力在很大程度上仍然是未知的。1801嵌入视频时间对准时间1802窃听视频的细粒度时间理解中的一个障碍可能是过度依赖于需要每帧注释的纯监督学习方法。由于涉及手动工作，因此不仅难以在视频中标记每个帧，而且还不完全清楚需要收集哪些详尽的标签集才能对视频进行细粒度的理解。或者，我们探索了视频之间随时间变化的对应关系的自我监督学习。我们表明，新兴的功能具有很强的时间推理能力，这是通过行动阶段分类和跟踪行动的进展等任务证明。当逐帧对齐（即，监督）是可用的，学习对应关系减少到从成对的对齐帧（例如，[3][4][5][6][7][8][9][10][11]然而，对于大多数现实世界的序列，这种逐帧对齐并不自然存在。一种选择是通过多个摄像机记录相同事件来人工获得对齐序列[30，35，37]。这样的数据收集方法可能会发现很难捕捉到野生视频中自然存在的所有变化。另一方面，我们的自监督目标不需要显式的对应来对齐不同的序列。它可以调整动作类别内的重要变化（例如，倾倒液体或棒球场）。有趣的是，从学习对齐中产生的嵌入被证明对于视频的细粒度时间理解是有用的。更具体地说，我们学习一个嵌入空间，它最大化一对一映射（即，周期一致点）。为了做到这一点，我们引入了两个可微版本的周期一致性计算，可以通过传统的基于梯度的优化方法进行优化。该方法的进一步细节将在第3节中解释。本文的主要贡献是一种新的自监督训练方法，称为时间周期一致性（TCC）学习，通过对齐相同动作的视频序列来学习表示。我们将TCC表示与现有自监督视频表示方法[27，35]和监督学习的特征进行比较，用于动作阶段分类和动作的连续进度跟踪任务。当缺少标记数据时，我们的方法提供了显著的性能提升。我们还收集了Penn Action [52]和Pouring [35]数据集的每帧注释，我们将公开发布这些数据集，以促进对细粒度视频理解任务的评估。2. 相关工作周期一致性。通过在两个或更多个样本之间循环来验证良好的匹配是计算机视觉中常用的技术。已成功用于共同分割[43，44]，运动结构[49，51]和图像匹配[54，55，56]等任务。例如，FlowWeb [54]使用集合中所有图像对之间的周期一致流场优化了全局一致的密集对应，而Zhou [56]一个类似的任务，将其公式化为一个低秩矩阵恢复问题，并通过快速交替最小化来解决它。这些方法在固定特征表示（例如，SIFT、深度特征等）通过执行CY-图像之间的空间一致性和/或空间约束。我们的方法与这些方法的不同之处在于，TCC是一种自监督表示学习方法，它学习经过优化以提供良好对应关系的嵌入空间。此外，我们解决的时间对应问题，而不是一个空间。Zhou等人[55]通过利用3D模型的多个渲染之间可用的初始对应关系，学习使用来自3D引导的周期一致性的监督来对齐多个图像使用循环关系的另一种方法是直接学习多个空间之间的双向变换函数，例如用于学习图像变换的CycleGAN[57]和用于域自适应的CyCADA [21]。与这些方法不同，我们相反，我们学习了一个联合嵌入空间，其中欧几里德距离定义了多个序列帧之间的映射。与我们类似，Aytar等人。[7]在时间序列之间应用了周期一致性，但是他们将其用作验证工具，用于学习表征的超参数优化，以实现模仿学习的最终目标。与我们的方法不同，它们的循环一致性度量是不可微的，因此视频对齐。当我们有同步信息（例如，记录相同事件的多个摄像机），然后学习多个视频序列之间的映射，可以通过使用现有的方法来完成，例如经典相关分析（CCA）[3，4]、排名[35]或匹配分类[6]目标。例如，TCN [35]和循环时间编码[30]对齐同一事件的多个视图，而Sigurdsson等人。[37]学习对齐第一人称和第三人称视频。虽然我们有一个类似的目标，这些方法不适合我们的任务，因为我们不能假设任何给定的对应关系之间的不同的视频。动作本地化和解析。由于动作识别在计算机视觉社区中非常流行，许多研究[17，38，46，50，53]探索了视频中动作识别和定位的有效深度架构。过去的工作还探索了视频中细粒度动作的解析[24，25，29]，而其他一些[13，33，34，36]则发现了没有明确监督时间边界的子活动[20]学习监督回归模型，1803˜˜˜˜我 J嵌入空间图2：周期一致性表示学习。我们展示了在示例嵌入空间中编码的两个示例视频序列。如果我们使用最近邻进行匹配，一个点（以黑色显示）会循环回自身，而另一个点（以红色显示）则不会。我们的目标是学习一个嵌入空间，其中最大数量的点可以循环回到自己。我们通过最小化每对序列中每个点的循环一致性误差（如红色虚线所示）来实现它。投票来预测动作的完成，以及[2]使用视频和文本指令之间的弱关联以非监督的方式发现关键事件。然而，所有这些方法都严重依赖于现有的深度图像[19，39]或时空[45]特征，而我们使用原始视频序列从头开始学习我们的表示。最近的邻居。可微或软公式最近邻的定位是公知的方法[18 ]第10段。这种公式最近在少数学习的度量学习中得到了应用[28，31，40]。我们还利用软最近邻公式作为我们的可微循环一致性计算的一个组成部分。自我监督的陈述。那里具有已签署-在从图像和视频中学习方面取得了重大进展，不需要类别或时间分割标签。代替标签，自监督学习方法使用诸如时间顺序[16，27]、跨视点和/或时间邻居的一致性[35]、分类任意时间片段[22]、模态内或跨模态的时间距离分类[7]、补丁的空间排列[5，14]、视觉相似性[32]或此类信号的组合[15]。虽然这些方法中的大多数独立优化每个样本，但TCC一次联合优化两个序列，可能捕获更多最后，我们打算通过使用学习的嵌入空间中的最小距离来最大化可以在两个序列之间一对一映射的点的数量。我们可以通过最大化两个序列之间的周期一致帧的数量来实现这样的目标（参见图2）。然而，循环一致性计算通常不是可微的过程。为了便于使用反向传播来学习这样的嵌入空间，我们引入了两个可微版本的循环一致性损失，我们将在下面详细描述。给定序列S={s1，s2，...，s N}，嵌入计算为u i=φ（s i;θ），其中φ是由θ参数化的神经网络编码器。对于以下内容-在下面的部分中，假设我们给出两个视频序列S和T，分别具有长度N和M 它们的嵌入计算为U={u1，u2，...，，则V ={v1 ， v2 ，… v M}使得u i= φ （ si; θ）且v i= φ （ ti;θ）。3.1. 循环一致性为了检验点u i∈ U是否是循环一致的，我们首先确定它的最近邻，v j= arg minv∈V ||u i−v||. 然后，我们重复该过程以找到 U中v j的最近邻居，即uk=argminu∈U||vj−u||. 点ui是循环相容的，当且仅当i=k，换句话说，如果点ui循环回到自身。图2显示了积极的以及嵌入空间中圈一致点的反例。我们可以通过最大化任何一对序列的循环一致点的数量来学习一个好的嵌入空间。然而，这将需要一个可扩展版本的周期一致性度量，我们将在下面介绍其中的两个。3.2. 分类我们首先计算ui在V中的软最近邻v，然后计算出v在U中的最近邻。我们认为第一个序列U中的每个帧都是一个单独的类，我们的循环一致性检查任务减少到正确分类最近邻Logits使用v和任何uk∈之间的距离计算U和地面真值标签y都是零，除了第i索引，其被设置为1。对于选定的点ui，我们使用softmax函数将其软最近邻定义为：嵌入空间的变化此外，我们还展示了2e−||u−v||TCC在与一些v=α j v j，其中α j=Me−||u −v||第二章（一）Ik上面的无监督损失JK3. 循环一致表示学习这项工作的核心贡献是一种自我监督的方法来学习嵌入空间，其中两个相似的视频序列可以在时间上对齐。更具体-α是相似性分布，它表示ui和每个vj∈V之间的接近程度。然后我们解决了N类（即， U）分类问题中的帧数，其中logits 为 x k=-||v−u k||并且预测的标签是y=softmax（x）。最后我们优化了交叉-...视频1最近邻居...视频2循环一致周期一致性误差周期不一致M1804编码器ΣN− ||v− u||e˜˜KKσ2距离............*...视频嵌入软最近邻循环返回图3：时间周期一致性。嵌入序列U和V 通过对视频序列S和T进行编码来获得，编码器网络φ。对于U中的选定点ui，直观地演示了软最近邻计算和再次循环回到U。最后，指数i和循环返回分布N（μ，σ2）之间的归一化距离（拟合到β）为：最小化熵损失如下：Lcbc=−Jyjlog（yj）（2）3.3. 循环返回回归虽然循环返回分类定义了一个可扩展的循环一致性损失函数，但它没有关于我们循环返回的点在时间上有多近或多远的概念。如果我们能够循环回到较近的相邻帧，而不是时间上较远的其他帧，我们希望减少对模型的惩罚为了在我们的损失中加入时间接近性，我们引入了循环回归。整个过程的视觉描述如图3所示。类似于前面的方法，首先我们计算ui在V中的软最近邻v。然后我们计算相似性向量β，其将v与每个uk∈U之间的接近度定义为：e − ||v− uk||2βk=2（3）JJ请注意，β是相似性随时间的离散分布，我们期望它在时间上的第i个索引因此，我们将高斯先验强加于2通过最小化归一化平方距离|i−µ|作为我们的目标。我们强制β在i附近更高，应用额外的方差正则化。我们的最终目标是：|i − µ|2表1：嵌入网络的架构。3.4. 实现细节培训程序。我们的自监督表示是通过最小化训练集中所有序列对的循环一致性损失来学习的给定一个序列对，它们的帧使用编码器网络嵌入，我们优化每个序列中随机选择的帧的周期一致性损失，我们使用Tensorflow [1]进行所有实验。编码网络。给定视频序列中的所有帧都被调整为224×224。当使用ImageNet预训练的特征时，我们使用ResNet-50 [19]架构来从Conv4c层的输出中提取特征提取的卷积特征的大小为14×14×1024。由于数据集的大小，当从头开始训练时，我们沿着VGG-M [11]的路线使用较小的模型。这个网络以与ResNet相同的分辨率接受输入，50层，但只有7层深。由这个基本网络产生的卷积特征的大小为14×14×512。这些特征作为输入提供给我们的嵌入器网络（如表1所示）。我们把所有给定帧及其沿时间维度的k个上下文帧。这之后是用于聚集时间信息的3D卷积。我们通过使用3D最大池化来降低维度，然后使用两个完全连接的Lcbr=σ2+λlog（σ）（4）层。最后，我们使用线性投影得到128-其中，μ=<$Nβk<$k且σ2=<$Nβk<$（k−μ） 2，且λ是正则化权重。注意我们最小化了方差的对数，因为仅使用方差更容易产生数值不稳定性。所有这些公式都是可预测的，并且可以方便地用常规的反向传播进行优化每个帧的维度嵌入补充材料中介绍了该架构的更多细节4. 数据集和评估我们在两个数据集上验证了我们的表示学习技术的有用性：（i）Pouring[35];（ii）N操作输出大小参数时间叠加k×14×14×c堆叠k个上下文帧3D卷积14×14×512【3×3×3，512】×2时空池512全局3D最大池化全连接层512[512] ×2线性投影1281281805开始端Σ2i=1手手触摸升降液体离开浇注浇注放置Bottle Back手达到瓶瓶瓶液体完成瓶对表后退........................清盘第一千一百一十章大步走投掷坚持到底.....................图4：动作“Baseball Pitch”（顶行）和“Pouring”（底行）的示例标签。关键事件显示在框架下方的框中（例如，[52]第五十二话这些数据集都包含人类执行动作的视频虽然Pouring更关注与之交互的对象，但Penn Action专注于进行运动或锻炼的人类。注释。出于评估目的，我们向这些数据集的视频帧添加两种类型的标签：关键事件和阶段。密集标记视频中的每一帧是一项困难且耗时的任务。仅标记关键事件既减少了需要注释的帧的数量一个过程或动作的信息被嵌入所捕获。我们首先将一个阶段的进展的近似度量定义为任何给定帧和每个关键事件之间的时间戳差异。这通过该视频中存在的帧的数量来归一化。在最近的文献中可以找到类似的定义[8，20，26]。我们使用一个线性回归的功能来预测相位进展值。它被计算为平均R平方测量值（决定系数）[47]，由下式给出： Σn（yi−y（i）2并且还减少了任务的模糊性（并且因此R =1−ni=1 （yi-y'）2注释者之间的分歧例如，注释器当高尔夫球杆击球（关键事件）时，比当高尔夫球杆处于特定角度时，更同意框架。阶段是两个关键事件之间的时间段，并且该时间段中的所有帧具有相同的阶段标签。它类似于[9，12，23]中提出的任务。关键事件和阶段的示例如图4所示，表2给出了我们考虑的所有操作的完整列表。我们使用Pouring数据集中的所有真实视频，以及Penn Action中除两个动作类别外的所有动作类别。我们不使用弹拨吉他和跳绳，因为很难定义明确的关键事件。我们使用原始数据集的train/val分割[35，52]。我们将公开发布这些新的注释。4.1. 评价我们使用三个评价措施计算的vali- dation集。这些指标评估模型对给定动作的细粒度时间理解。注意，网络首先在训练集上训练，然后冻结。SVM分类器和线性回归器在来自网络的特征上进行训练，而无需对网络进行额外的微调。对于所有测量，较高的分数意味着较好的模型。1. 相位分类精度：是每帧相位分类精度。这通过在训练数据的每个帧的相位标签上训练SVM分类器来实现。2. 阶段进展：衡量的是其中，yi是真实事件进展值，y'是所有y i的平均值，y'是线性回归模型的预测值。此度量的最大值为1。3. Kendall不像上述两种方法，它不需要额外的标签进行评估。通过对第一视频（其具有n个帧）中的一对帧（u i，u j）进行采样并检索第二视频中的对应最近帧（v p，v q），在一对视频中的每对帧上计算肯德尔如果i，j和p，q或i >j和p > q，则该四元组的帧索引（i，j，p，q）被称为一致的。否则，它被认为是不和谐的。在第一视频中的所有帧对上，肯德尔τ=（一致对数量-不一致对数量）n（n−1）2我们建议读者参阅[48]，以查看完整的定义，初始化报告的度量是验证集中所有视频对的平均肯德尔Tau。如果我们使用最近邻匹配来对齐一对视频，则它是学习的表示推广到对齐未见过的序列的程度的度量值1表示视频完全对齐，而值-1表示视频以相反的顺序对齐。Kendall的tau的一个缺点如果动作进行得很慢或者存在周期性运动，则可能不是这种情况。对于我们考虑的数据集，这个缺点不是问题。......端球释放手臂伸膝盖完全抬起开始1806行动相数关键事件列车组大小Val set size棒球场4膝盖完全抬起，手臂完全伸展，球释放10363棒球挥杆3蝙蝠完全向后摆动，蝙蝠击球11357卧推2酒吧完全放下6971保龄3球完全向后摆动，球释放13485挺举6臀部横杠，完全下蹲，站立，开始前插，开始平衡4042高尔夫挥杆3球棍向后完全挥击，球棍击球8777开合跳4手放在肩上（向上），手放在头上，手放在肩上（向下）5656Pullups2下巴高于酒吧98101俯卧撑2头部着地102105仰卧起2腹肌完全被压碎了5050蹲4臀部在膝盖（向下），臀部在地板上，臀部在膝盖（向上）114116网球正手3球拍完全向后摆动，球拍触球7974网球发球4球脱手，球拍完全向后摆动，球接触球拍11569浇注5手接触瓶子，液体开始流出，倾倒完成，瓶子放回桌上7014表2：每个数据集中所有关键事件的列表。请注意，除了上面的关键事件外，每个操作还具有Start事件和End5. 实验5.1. 基线我们将我们的表示与现有的自监督视频表示学习方法进行了比较。为了完整起见，我们简要描述了下面的基线，预测全部我们在表3中给出了结果，并观察到方差感知的循环回归损失在所有指标中都优于其他两种损失我们将此版本的周期一致性命名为最终时间周期一致性（TCC）方法，并将此版本用于其余的实验。建议参考原始文件以了解更多细节。Shuffle and Learn（英语：Shuffle and Learn）[27] 我们以[27]建议的方式随机抽取帧的我们训练一个小分类器来预测帧是有序的还是混洗的。用于训练该分类器的标签来自我们采样的三元组的索引。这种损失鼓励这些表示用于对关于动作应当被执行的顺序的信息进行时间收缩网络（TCN）[35]。我们从序列中采样n帧，并将其用作锚点（如度量学习文献中所定义的）。对于每个锚点，我们在固定的时间窗口内对阳性样本进行采样。这给了我们n对锚和正。我们使用n对损失[41]来学习嵌入空间。对于任何特定对，n对损失将所有其他对视为负数。这种损失促使表示在时间上被分离，同时仍然坚持度量约束。组合损失。除了这些基线之外，我们还可以将我们的周期一致性损失与SaL和TCN结合起来，以获得另外两种训练方法：TCC+SaL和TCC+TCN。我们通过计算两个损失并以加权方式将它们相加以获得总损失来学习嵌入，基于总损失计算梯度。通过在3个值0上执行搜索来选择权重。25，0。5，0。75.所有基线共享相同的视频编码器架构，如第3.4节所述。5.2. 不同循环一致性损失的消融我们在Pouring数据集上进行了一个实验，看看不同的损失如何相互比较我们还报告了关于均方误差（MSE）版本的循环回归损失（公式4）的指标，其公式仅为最小化|i − µ|2、忽略方差表3：不同循环一致性损失的消融。5.3. 动作阶段分类从零开始自我监督学习。我们进行实验，比较不同的自我监督的方法从头开始学习视觉表示。这是一个chal的设置，因为我们从头开始学习整个编码器没有标签。我们使用较小的编码器模型（即，VGG- M[11]），因为训练样本有限。我们在表4中报告了Pouring和Penn Action数据集的结果。在这两个数据集上，TCC特征优于SaL和TCN学习的特征。这可能是因为TCC在训练过程中学习了多个视频的功能。SaL和TCN损失仅对来自单个视频的帧进行操作，但TCC在计算周期一致性损失时考虑来自多个视频的帧我们还可以将这些结果与监督学习集（每个部分的第一行）进行比较，其中我们使用相位分类任务的标签来训练编码器对于这两个数据集，TCC可以用于从头开始学习特征，并且在标记数据有限的情况下，比普通监督学习带来了显着的性能提升。自我监督微调。在Ima-geNet数据集上训练用于图像分类任务的网络的特征已用于许多其他视觉任务。它们也很有用，因为从损失阶段分类（%）相位级数肯氏均方误差86.160.65320.6093循环返回分类88.060.66360.6707循环回归91.820.80300.851618070.90.80.70.800.750.700.650.60.51 23510 4386标签视频(a) 高尔夫挥杆0.600.550.500.450.4012351057115标签视频(b) 网球发球表4：当从头开始训练VGG-M时的相位分类结果。数据集标签%0.1 0.5 1.0监督学习67.1082.7886.05宾州行动随机特征ImageNet功能44.1844.9646.1950.9146.8152.86SaL [27]74.8778.2679.96TCN [35]81.9983.6784.04TCC（我们的）81.2683.3584.45TCC + SAL（我们的）81.9383.4684.29TCC + TCN（我们的）84.2784.7985.22表5：微调ImageNet预训练ResNet-50时的阶段分类结果。预先训练的网络导致更快的收敛。我们训练了第5.1节中提到的所有表示学习方法，并在表 5 中报告了Pouring和Penn Action数据集的结果。这里的编码器模型是在ImageNet数据集上预训练的ResNet-50 [19]。我们观察到，现有的自我监督的方法，如SaL和TCN学习功能有用的细粒度的视频任务。 TCC 特征在 PennAction数据集上实现了与其他方法竞争的性能，同时在Pouring数据集上优于它们。有趣的是，最好的性能是通过将循环一致性损失与TCN相结合来实现的（每个部分中的第8行）。组合损失时的性能提升可能是因为使用多个损失进行训练减少了对线索的过度拟合，模型可以使用这些线索来最小化特定损失。我们还可以查看它们各自部分的第一行，以与通过对下游任务本身进行训练而获得的监督学习特征进行比较。我们观察到，自监督微调在低标记数据体系中给出了显著的性能提升（列1和2）。图5：少拍动作阶段分类。TCC功能在缺少标记视频时提供显著的性能提升自我监督的少拍学习。我们还测试了我们在几个镜头的场景中学习到的表征的有用性：我们有许多训练视频，但每帧标签仅适用于其中的一小部分。在该实验中，我们使用与上述微调实验相同的设置。嵌入使用自监督损失或香草监督学习来学习。为了学习自监督特征，我们使用整个视频训练集我们将这些特征与监督学习基线进行比较，在监督学习基线中，我们在有标签的视频上训练模型。请注意，一个标记的视频意味着数百个标记的帧。特别是，我们想看看增加标记视频的数量如何影响阶段分类任务的性能。我们在图5中展示了结果。我们观察到使用自监督方法的显著的per-turbine提升，而不是仅仅对标记的视频使用监督学习。我们目前的结果，从高尔夫挥杆和网球发球类以上。在只有一个标记视频的情况下，TCC和TCC+TCN实现了监督学习在大约50个密集标记视频中实现的性能。这表明原始视频中存在大量未利用的信号，可以使用自我监督来收获。表6：阶段进展和Kendall Tau结果。SL：监督学习。SALTCNTCCTCC + TCN监督学习SALTCNTCCTCC + TCN监督学习数据集→任务→SL from ScratchSL微调SaL [27]TCN [35]TCC（我们的）SaL [27]TCN [35]TCC（我们的）TCC + SaL（我方）TCC + TCN宾州行动进展0.53320.62670.41070.43190.53830.59430.67620.67260.68390.6793τ0.49970.55820.49400.49980.60240.63360.73280.73530.72860.7672浇注进展τ0.55290.69860.66520.61410.77500.74510.80570.80300.82040.83070.52820.61950.65280.66470.75040.73310.86690.85160.82410.8779分类精度分类精度微调划痕数据集标签%0.1 0.5 1.0监督学习50.7172.8679.98PennSaL [27]66.1571.1072.53行动TCN [35]69.6571.4172.15TCC（我们的）74.6876.3977.30监督学习62.0177.6788.41浇注SaL [27]TCN [35]74.5076.0380.9683.2783.1984.57TCC（我们的）86.8289.4390.21监督学习75.4386.1491.55随机特征42.7345.9446.08浇注ImageNet功能43.8546.0651.13SaL [27]85.6887.8488.02TCN [35]89.1990.3990.35TCC（我们的）89.2391.4391.82TCC + SaL（我方）89.2190.6990.75TCC + TCN（我们的）89.1791.2391.511808典型活动异常活动查询检索到的最近邻杯子半满倒出后用手将容器放回原处投掷前腿完全抬起投掷后腿完全抬起图6：嵌入空间中的最近邻可用于细粒度检索。图7：视频中的异常检测示例。在异常活动期间，与典型行动轨迹的距离会增加5.4. Kendall's Tau和Phase Progression我们评估4.1节中描述的剩余任务的编码。这些任务在比阶段分类更细粒度的级别上测量表示的有效性。我们在表6中报告了这些实验的结果。我们观察到，当从头开始训练时，TCC特征在两个数据集的相位进展和Kendall's Tau上都表现得更好此外，我们注意到，当我们使用组合损失来学习特征时，KendallTCC + TCN在细粒度任务的数据集上都显著优于监督学习和自监督学习方法。6. 应用视频中的跨模式传输。我们能够在没有监督的情况下对齐相关视频的数据集。跨视频的对齐使得能够将注释或其他模态从一个视频传输到另一个视频。比如我们可以使用该技术通过仅标记一个视频来将文本注释传送到相关视频的整个数据集。人们还可以传输与时间相关联的其他模态，如声音。纯粹基于视觉表征，我们可以从一个视频到另一个视频产生倒液体的声音。我们从重新检索的最近邻居复制声音，并通过简单地连接检索到的声音将声音缝合在一起。不使用其他后处理步骤。研究结果已发表在学术材料中。视频中的细粒度检索。我们可以使用最近的邻居在一组视频中进行细粒度检索。在图6中，我们展示了当玻璃杯半满时（第1行）或者当手刚刚在倾倒后放回容器时（第2行），我们可以检索帧。请注意，在所有检索到的示例中，液体已经转移到目标容器中。对于Baseball Pitch类，学习的表示甚至可以区分在投球之前（第3行）和投球之后（第4行）腿抬起的帧。异常检测。由于我们在TCC嵌入空间中具有表现良好的最近邻，因此我们可以使用与该空间中的理想轨迹的距离来检测视频中的异常活动。如果视频我们在图7中展示了一个人试图进行卧推的视频示例。在开始时，最近的邻居的距离但是随着视频的进展，我们观察到在这个距离（大约第20帧）的突然尖峰，其中人同步播放。使用学习的对齐，我们可以将视频的节奏转移到同一动作的其他视频。我们在补充材料中包括同步播放不同视频的示例。7. 结论在本文中，我们提出了一种自监督学习方法，能够学习对时间细粒度任务有用的特征。在多个实验中，我们发现当缺乏标记数据时，自监督特征会导致显着的性能提升。只有一个标记的视频，TCC实现类似的性能，监督学习模型训练约50个视频。此外，TCC不仅仅是表征学习的代理任务。它作为一种通用的时间对齐方法，无需标签即可工作，并有利于任何依赖于对齐本身的任务致谢：我们要感谢AneliaAngelov a、ReljaArandjelo vic'、Ser gioGuadarrama、Shef aliUmrania和Vincent Vanhoucke对手稿的反馈。我们还要感谢Sourish Chaudhuri在数据收集方面的帮助，以及 Alexandre Passos 、 Allen Lavoie 、 BryanSeybold和Priya Gupta在基础设施方面的帮助。1809引用[1] Mart 'ın Abadi，Paul Barham，Jianmin Chen，ZhifengChen ， Andy Davis ， Jeffrey Dean ， Matthieu Devin ，Sanjay Ghe-放大图片创作者：Mawat，Geoffrey Irving，MichaelIsard，等. Tensorflow：一个大规模机器学习系统。第十二届{USENIX}操作系统设计与实现研讨会-第265-283页，2016年。4[2] Jean-BaptisteAlayrac ， PiotrBojanowski ， NishantAgrawal，伊万·拉普捷夫，约瑟夫·西维克，西蒙·拉科斯特-朱利安。从叙述式教学视频中进行非监督式学习。在计算机视觉和模式识别（CVPR），2016年。3[3] 西奥多·威尔伯·安德森。多变量导论统计分析第二卷威利纽约1958年2[4] Galen Andrew，Raman Arora，Jeff Bilmes，and KarenLivescu.深度典型相关分析。在International Conferenceon Machine Learning，第1247-1255页，2013年。2[5] 罗德里戈Santa克鲁兹巴苏拉费尔南多Anoop和谢里安·斯蒂芬·古尔德。Deeppermnet：视觉置换学习。学习33：25 3[6] Relja Arandjelovic和Andrew Zisserman。看，听和学习. 2017年IEEE国际计算机视觉会议（ICCV），第609-617页。IEEE，2017年。2[7] Yusuf Aytar，Tobias Pfaff，David Budden，Tom LePaine，Ziyu Wang，and Nando de Freitas.通过观看youtube玩艰苦的探索游戏。 arXiv 预印本 arXiv ： 1805.11592 ，2018。二、三[8] FedericoBecattini，TiberioUricchio，LorenzoSeidenari，阿尔贝托·德尔·宾博和兰贝托·巴兰我说完了吗预测视频中的动作进度。 arXiv 预印本 arXiv ： 1705.01781 ，2017。5[9] 彼得·博扬·奥斯基，雷·米·拉朱吉，弗朗西斯·巴赫，我在洛杉矶，Jean Ponce，Cordelia Schmid，and Josef Sivic.排序约束下视频中的弱监督动作标注欧洲计算机视觉会议，第628Springer，2014. 5[10] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在Computer Vision and PatternRecognition（CVPR），2017 IEEE Conference on，第4724-4733页中。IEEE，2017年。1[11] Ken Chatfield，Karen Simonyan，Andrea Vedaldi，andAn-德鲁·齐瑟曼。魔鬼的回归细节：深入研究卷积网络。arXiv预印本arXiv：1405.3531，2014。四、六[12] 迪玛·达曼黑兹尔·道蒂乔瓦尼·玛丽亚·法里内拉Sanja Fidler ， Antonino Furnari ， Evangelos Kazakos ，Davide Moltisanti，Jonathan Munro，Toby Perrett，WillPrice，et al.缩放自我中心的愿景：epic-kitchens数据集。在欧洲计算机视觉会议（ECCV）的论文集，第720-736页5[13] Luca Del Pero，Susanna Ricco，Rahul Sukthankar和Vit-托里奥·法拉利。使用轨迹对的铰接运动发现。在IEEE计算机视觉和模式识别会议论文集，第2151-2160页，2015年。2[14] Carl Doersch、Abhinav Gupta和Alexei A Efros。不超-通过上下文预测的可视化表示学习在IEEE InternationalConference on Computer Vision的Proceedings，第1422-1430页，2015年。3[15] Carl Doersch和Andrew Zisserman。多任务自1810监督视觉学习在IEEE国际计算机视觉会议论文集，第20513[16] 巴苏拉·费尔南多，哈坎·比伦 Efstratios Gavves，以及史蒂芬·古尔德。自监督视频表示学习与奇一网络。在ComputerVisionandPatternRecognition（CVPR），2017 IEEE Conference on，第5729-5738页中IEEE，2017年。3[17] Rohit Girdhar ，Deva Ramanan ， Abhinav Gupta ，JosefSivic，和布莱恩·罗素Actionvlad：学习动作分类的时空聚合。在CVPR，第2卷，第3页，2017年。2[18] Jacob Goldberger，Geoffrey E Hinton，Sam T Roweis，and鲁斯兰·萨拉胡季诺夫。邻域成分分析。神经信息处理系统进展，第513-520页，2005年3[19] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings of theIEEE conference on computer vision and patternrecognition，第770-778页，2016中。三、四、七[20] 法诺什 Heidarivincheh， Majid 米尔迈迪，关于Dima该死行动完成：一种用于矩检测的时间模型

下载后可阅读完整内容，剩余1页未读，立即下载