视频速度预测网络：自然速度还是加速？

164 浏览量更新于2023-10-23 收藏 1.49MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

19922我们的SpeedNet模型正常速度或兴奋？中国水泥输入视频段随时间变化的预测速度疾驰起正常速度慢动作正常速度慢动作放缓停机时间SpeedNet：学习视频SagieBenaim 1，2阿里尔·埃弗拉特1奥兰·朗1因巴尔·莫塞里1 威廉·T。弗里曼1迈克尔·鲁宾斯坦1 米哈尔·伊朗1，3塔利·德克尔11谷歌研究2特拉维夫大学3魏茨曼研究所摘要我们希望能自动预测视频中移动物体的“速度”它们的移动速度是否比“自然”速度更快、更快或更慢。我们方法的核心组件是SpeedNet-一种新型的深度网络，用于检测视频是否以正常速率播放，或者是否加速。SpeedNet以自我监督的方式在大型自然视频语料库上进行训练，不需要任何手动注释。我们展示了如何使用这种单一的二进制分类网络来检测对象的任意速度我们展示了预测结果的速度网络上的广泛的视频包含复杂的自然运动，并检查视觉线索，它利用这些预测。重要的是，我们表明，通过预测视频的速度，该模型学习了一个强大而有意义的时空表示，超越了简单的运动线索。我们展示了这些学习的特征如何此外，我们还应用SpeedNet来生成随时间变化的自适应视频加速，这可以让观众更快地观看视频，但同时减少了均匀加速视频中常见的抖动和不自然的动作。1. 介绍人类观察者通常可以很容易地注意到物体例如，如果我们以两倍的速度（2×）播放舞者的视频，我们可以注意到不自然，快速和抖动的动作。在许多情况下，我们关于物体在世界上移动方式的先验知识（人，动物，汽车）;我们知道它们的典型动力学和自然运动速率。在本文中，我们试图研究如何训练机器学习这些概念和物体运动的先验知识。解决这个问题需要高层次的推理和理解不同物体在世界上移动的方式。我们通过训练一个单一的模型Speed- Net来实现这一点，以执行基本的二元分类任务：估计输入视频序列中的对象是否以正常速度移动，或者比正常速度更快（图10）。1，顶部）。也就是说，给定L-fps视频中的一组L帧作为输入，我们设置为预测这些帧是否描绘了物体在世界上的1他在Google实习时完成了这项工作。图1.给定一个输入视频，我们的方法会自动预测视频中物体的下图：一段舞者的视频在正常速度和慢动作回放之间交替播放，正如我们随着时间的推移对速度的预测所正确捕捉到的请注意，运动的速度大小，见图。2. 我们的方法的核心组件是SpeedNet（顶部）-一种新型的深度网络，可以检测物体是否以正常速度移动，或者比正常速度更快。超过1秒（对象/视频加速）。我们更喜欢这种方法而不是直接预测（回归到）视频的回放速率，因为我们的最终目标是确定给定视频中的运动是否自然，对于该任务，回归目标可能不必要地难以学习。我们称之为然后，我们展示了如何在测试时应用这种基本的二进制分类模型来预测视频中的任意速度，当对象被不同的因素加速或减速时（图1）。1，底部）。该模型是在Kinetics [16]上训练的，Kinetics是一个大型的人类动作自然视频语料库，以自我监督的方式，而不需要手动标签。我们进行这项研究的动机是双重的。首先，我们问是否有可能在大规模收集的视频上训练一个可靠的分类器其次，我们证明了一个训练有素的预测速度的模型可以支持各种有用的应用。然而，训练SpeedNet远非微不足道。在胡-快速性199231x视频2x视频时间（帧）加快正常速度放缓(a) 运动幅度（每帧）(b) 预测速度（我们的结果）复杂的自然运动，如舞蹈和运动。我们可视化并检查模型用于做出这些预测的视觉线索我们还将该模型应用于生成随时间变化的自适应加速视频，如果对象的速度分数低（或高），则加速对象更多（或更少），以便当加速时，它们的运动对观众来说看起来更自然。这与传统的视频加速相反，例如，在线视频流网站使用统一/恒定的加速，产生不自然的、抖动的运动。给定期望的全局加速因子，我们的方法基于每帧的快速性得分来计算每帧加速因子的平滑曲线。该算法的细节在第2节中描述。四点二。最后，我们还表明，通过学习对视频的速度进行分类，SpeedNet学习了一个强大的空间-图2. 快速性运动幅度一个人在走路可以用于自我监督AC的时间表示，来回移动，起初远离相机，然后靠近相机（顶部）。在整个序列中，运动的幅度变化很大（特别是，当人靠近相机时，运动会变大;中图），但我们的SpeedNet模型能够在整个视频中产生正常速度的稳定分类（速度分数接近零）。如果我们向SpeedNet输入以两倍速度（2×）播放的视频，那么步行片段确实会被识别为比正常人类运动更快（更高的速度分数），而静态片段（场景中没有人）则被归类为正常速度。人类，正确分类物体速度的能力甚至在整个青春期都在不断提高[23]，这意味着需要一个发达的除了解决该任务所需的高级推理之外，训练神经网络以自动预测速度的主要挑战是避免它们检测简单捷径的倾向，例如，在可能的情况下依赖于人工的、低级的线索，例如压缩伪像。这通常会导致学习任务的近乎完美的准确性，这是我们想要避免的结果：我们通过检查实际运动来寻求对快速性的语义理解，而不是人工理解，而不是依赖于与加速视频生成方式相关的伪影（压缩，混叠）。我们描述的战略，以减轻人工捷径，在证券交易所。第3.1条训练SpeedNet的另一个挑战性方面是超越运动幅度的琐碎情况来确定速度。仅依赖于移动物体的速度，仅使用运动幅度，将区分，例如，两个人正常行走在两个不同的距离相机（图。2）。我们解决的快速预测能力的光流在秒。5.1，并证明Speed-Net相对于基于流的原始基线方法具有明显的预测优势。然而，速度和运动幅度之间的相关性确实对我们的方法在极端相机或物体运动的情况下提出了一个巨大的挑战。我们展示了我们的模型视频识别和视频检索。我们的行动记录-在两个流行的基准测试中，点火结果与最先进的自监督方法具有竞争力，并击败了所有其他在Kinetics上进行预训练的方法。我们还展示了跨视频剪辑检索的可喜成果。我们的视频，结果，和补充材料可在项目网页上查阅：得speednet-cvpr20.github.io.2. 相关工作视频播放速度分类。回放速度分类本身被认为是一项有用的任务，特别是在体育广播的背景下，其中重播通常以不同的速度播放。许多作品试图检测体育比赛中的重播[36，5，14，17]。然而，这些作品通常采用特定的领域分析，并使用监督的方法。然而，我们的方法适用于任何类型的视频，并且不使用任何特定运动的独特信息。据我们所知，不存在用于检测慢动作回放速度的公共数据集视频时间重映射。我们的可变加速技术产生非均匀的时间采样的视频帧。几篇论文探讨了这一想法。Bennett和McMillan [2]的早期开创性工作计算了最佳非均匀采样，以满足各种视觉目标，如由帧对之间定义的误差度量捕获的。Zhou等人。 [42]使用基于运动显著性估计的“帧重要性”测量Petrovic等人。 [29]执行基于查询的自适应视频加速-类似于查询剪辑的帧播放得更慢，而不同的帧播放得更快。一个重要的任务是智能快进常规视频[21]或以自我为中心的视频[31，33，11，32]，其中选择帧以保留视频的要点，同时允许用户在更短的时间内观看。所有这些工作都试图根据显着性度量来选择帧，以保持原始视频的最大相比之下，我们的工作重点是检测区域，像素19924比自然速度慢这允许优化变化的回放速率，使得移动对象的加速伪像（如由模型检测到的）将不太明显。从视频中进行自我监督学习。使用视频作为监督的自然来源最近引起了很大的兴趣[15]，许多不同的视频属性已被用作监督，例如：视频帧之间的周期一致性[37，8];区分视频帧序列和其混洗版本[25，10，40];解决时空立方体难题[19]。另一个常见的任务是预测未来，通过预测未来帧的像素[24，6]，或嵌入未来视频片段[13]。Ng等人。 [27]试图预测光流，Von- drick等人。 [35]使用彩色化作为监督。与我们最相关的作品是那些试图预测时间箭头的作品[38，30]。该任务可以被描述为将视频的回放速度分类在-1和+1，而不是我们的工作，试图区分-在不同的正视频速度之间切换并行Epstein et al. [9]利用视频的固有速度来预测视频中的无意动作。3. 中国水泥我们的方法的核心组件是SpeedNet-一种深度神经网络，旨在确定视频中的对象是否以正常速度移动或移动得更快。作为自然和不自然快速运动的代理，我们训练SpeedNet区分正常速度和视频播放的两倍（2×）他们原来的速度。更正式地说，学习任务是：给定从L-fps视频中提取的一组L帧作为输入，SpeedNet预测这些帧是否包含世界上1秒的运动（即，正常速度），或2秒（即，加速）。重要的是要注意，视频播放的两倍，原始速度并不总是包含不自然的运动。例如，慢速步行加速到快速步行仍然可以看起来自然。同样，当场景中没有任何东西移动时，以2×播放的视频仍然不会显示任何运动。因此区分1×和2×速度的代理任务并不总是准确地反映我们的主要目标，快速听写因此，我们并不期望（或期望）我们的模型达到完美的精度。此外，这种性质的网络模糊性的情况下，缓慢与。快速的自然运动正是便于下游使用SpeedNet预测来“优雅地”加速视频的原因我们描述并演示了如何使用该模型来预测以任意速度播放的自然视频中对象的速度。解决该二进制分类问题而不是直接回归到视频此外，区分两种不同的速度对人类来说也更自然我们3.1. 数据、监督和避免人为暗示SpeedNet以自我监督的方式进行训练，不需要任何手动标记的视频。更具体地说，我们的训练集和测试集包含每个视频片段的两个版本，一个正常速度版本和一个通过时间子采样视频帧构建的加速版本。以前的工作表明，网络倾向于使用捷径-训练数据中存在的人工线索，以帮助他们解决手头的任务[38，13，7]。我们的网络也容易受到这些线索的影响，我们试图通过采用以下策略来避免潜在的捷径：空间增强。我们的基础网络，定义在SEC。3.2是完全卷积的，因此其输入可以是任意维度的。在训练过程中，我们随机调整输入视频剪辑的大小，使其空间维度N介于64到336像素之间。在重新调整大小过程中发生的模糊可以帮助减轻由每帧的MPEG或JPEG压缩引起的潜在像素强度在将输入通过基础网络之后，我们在所得到的时空特征中的区域上执行空间全局最大池化。由于输入是可变大小的，这些区域对应于原始未调整大小的输入中的不同大小的区域。这迫使我们的网络不仅仅依赖于大小相关的因素，例如运动幅度。暂时性增强。我们希望以正常速度或两倍于正常速度的速度对视频进行采样。为了在时域中引入可变性，对于正常速度，我们以1×-1的速率对帧进行采样。2、对于速度，上版本我们采样1. 7 × 2。2×。更详细地说，我们从给定视频中选择3T对于正常速度，我们在1 - 1之间随机选择一个跳跃因子f。2，并以概率1−1/f跳过帧。然后，我们从剩余的帧中选择T个对于加速版本，f在1之间选择。七比二二、同批次培训。对于（3T个连续帧的）每个剪辑，我们以上述方式构造正常速度和加速视频，每个视频的长度为T。我们训练我们的模型，使每个批次包含每个视频剪辑的正常速度和加速版本。我们发现，通过这种方式，我们的网络对艺术线索的依赖程度明显降低。我们注意到，在其他自我监督的工作中，同样类型的培训也很重要，如[12]。见table1和讨论在SEC。5.1这些增强战略的量化效果。3.2. SpeedNet架构我们的架构如图所示。3.网络的输入是一个T×N×N视频片段，它要么是从正常速度的视频中采样的，要么是它的加速版本（T和N分别表示时间和空间维度，（tatively）。然后将输入段传递到一个学习时空特征的全卷积基网络。的输出特征的尺寸为T×N×N×1024。32 32接下来描述我们框架的不同组件。也就是说，空间分辨率被降低了32倍，19925i=0时平滑速率Svi图3. SpeedNet架构。SpeedNet是我们技术中的核心模型，经过训练可以将输入视频序列分类为正常速度或加速。完整详情见第3.2.而时间维度被保留，并且信道的数量是1024。我们的网络架构主要基于S3 D-G [39]，这是一种最先进的动作识别模型。我们的基础模型和原始S3 D-G模型之间有两个区别：（i）在我们的模型中，所有最大池化层的时间步长都设置为1，以保持输入的时间维度不变;（ii）我们对所得的时空特征执行最大空间池化和平均时间池化，而不是S3 D-G中的仅平均池化。然后，我们将时间和空间维度折叠成单个通道。直觉上，我们希望预测由最主要的空间移动对象确定，而在时间上，我们希望考虑整个视频片段的运动，以避免对瞬时“尖峰”运动的敏感性因此，我们通过应用全局最大池来减少空间维度，并通过应用全局平均池。这导致1024D向量，然后通过1×1卷积W将其映射到最终的logits。我们的模型使用二进制交叉熵损失进行训练。4. 自适应视频加速我们使用我们的模型来自适应地加速测试视频v。这个想法是：我们会加速视频只要网络认为生成的视频中的一个片段没有加速，我们就可以继续进一步加速该视频片段。4.1. 从预测到加速分数给定一个输入视频v，我们首先生成一组加速视频v0，. - 是的- 是的 vk，通过以指数因子{Xi}k对v进行子采样，其中v0是原始视频。我们使用加速向量{Vi（t）}，通过在每个时间步取最大值将其组合成单个加速向量V（t）换句话说，V（t）包含每个时间步的最大可能加速比，该时间步仍被分类为不是加速本地自适应加速比决定了视频的整体4.2. 优化自适应加速我们的主要思想是根据视频内容不均匀地改变视频的播放速度。其动机类似于可变比特率（VBR）编码，其中分配给数据段的带宽由其复杂性确定直觉是相似的，一些视频片段，比如那些平滑的慢动作，可以比其他视频片段更快地被加速，而不会破坏它的我们如何选择阈值ρ，以及如何保证在最小失真的情况下实现最终期望的总体我们测试九个阈值：ρ∈{0。1、. . . 0的情况。9}，并选择一个整体加速比最接近于期望的加速比。给定每帧加速矢量V（t），如上所述，我们现在的目标是估计平滑变化的加速曲线S（t），其在整个视频上满足用户给定的目标加速率。这个过程背后的动机是，几乎没有动作的片段的加速分数会很高，这意味着人类不太可能注意到这些片段中回放速度的差异。我们使用以下目标来制定这一目标：arg minE（S，V）+βE（S，R）+αE（S′），其中E速度根据我们估计的加速分数V鼓励加速帧。E速率约束整个视频上的总体加速比以匹配用户期望的加速比R。Esmooth是光滑正则化子，其中S′表示S的一阶导数。然后我们插入操作-最佳加速比S最小化以自适应地播放视频。图中的图表。图5描绘了示例“ 速度曲线 ” （红色），以及其对应的最终最佳加速比曲线S （蓝色），总体目标加速比为2×。我们将视频ˆX=1. 在我们的实验中，k=10。我们以滑动窗口的方式将每个视频输入SpeedNet;网络-每个窗口的工作预测被分配给中间帧。这导致针对每个视频vi的时间变化预测曲线Pvi（t）。这里，Pvi（t）表示（softmax）正常速度的概率也就是说，Pvi（t）<$1如果SpeedNet对以t为中心的窗口的预测是正常速度，并且如果加速，则P v i（t）= 0。第一个预测的速度{Pvi}是线性的。早期内插（在时间上）到最长曲线的时间长度（Pv0）。然后，我们使用阈值ρ对预测进行二进制化，以获得每个时间步的加速或不加速分类，由集合{Pρ}表示。然后，将这组二进制快速性预测中的每个向量乘以其对应的加速因子X1，以获得一组二进制快速性预测。其中，V（t）通过将V（t）归一化为在range[0，1].5. 实验在我们的实验中，我们使用了Kinetics [16]数据集，该数据集由246K训练视频和50K以25 fps播放的测试片段组成。由于我们的方法是自我监督的，所以我们在训练时不使用动作识别标签我们还在Need for Speed数据集（NFS）[18]上测试了我们的模型，该数据集由100个以240 fps（总共380K帧）捕获的视频组成。数据集包含许多不同的对象动作，如移动球，跳跃的人，滑雪等。在此数据集上测试模型19926(a)（b）第（1）款图4. 网络预测的说明。（a）示出了来自同一体操运动员视频的不同片段。(b)对于正常速度的体操运动员视频（蓝色曲线）和对于加速的体操运动员视频（红色曲线），显示了“加速”的softmax概率（a）中所示的段被定位在图中。更多细节见SEC。第5.1.1节。模型类型准确度批时间空间动力学NFS是的是的是的百分之七十五点六百分之七十三点六没有是的是的88.2%百分之五十九点三没有没有是的百分之九十57.7%没有没有没有96.9%百分之五十七点四平均流量55.8%55.0%表1. 消融研究。我们认为，在第二节中描述的空间和时间增强的效果。3关于SpeedNet对Kinetics和NFS数据集的准确性。我们还考虑了同批次训练（表中的仅使用同一批中的随机正常速度和加速视频剪辑进行训练（参见第第3.1节）。在最后一行中，我们考虑了仅使用每帧的平均流量幅度来训练简单网络的有效性。5.1. SpeedNet性能我们评估了SpeedNet的性能（它判断视频是否加速的能力我们考虑以正常速度（不变）或均匀加速播放的16帧的片段。对于NFS数据集，加速10倍或20倍，以提供24fps（正常速度）或12fps（加速）的有效帧速率。由于Kinetics视频的帧速率为25 fps，我们预计这些加速比对应于Kinetics视频的1倍和2倍加速比。帧速率的微小变化对于评估我们的模型在视频上的表现与训练时的帧率略有不同。在测试时，我们将帧的大小调整为224的高度，原始视频，然后应用224×224中心裁剪。不应用时间或空间增强。在选项卡中。1，我们考虑了有或没有- out的训练效果第3.1节）。当不在“同批训练”模式下训练时当在没有（1），（2）和（3）的情况下训练SpeedNet时，SpeedNet依赖于学习的然而，在这方面，当在NFS上测试时，这些提示不存在，因此测试准确率下降到57.4%。当使用（1）、（2）和（3）时，对人工线索的依赖显著降低（准确率从96.9%下降到75.6%），并且Kinetics的测试准确率与NFS的测试准确率之间的差距下降到2%，表明更好的泛化。虽然概率水平为50%，但请记住，我们并不期望SpeedNet达到接近100%的准确率，因为在许多情况下，人们无法真正判断视频是否加速（例如，当剪辑中没有运动时）。5.1.1预测曲线图4示出了针对体操运动员视频的正常速度和加速版本的预测（更多的预测重新生成）。结果在我们的项目页面上）。以正常速度（1×）播放的视频的预测显示为蓝色，加速（2×）显示为红色。对于帧t，所示预测为1−Pv0（t）（1×）和1−Pv3（t）（2×），详见第2节。4.特别地，对2×的预测进行线性内插，以便显示在相同的时间轴上。可以看出，对于1×和2×，轻微相机运动的区域（t1）被确定为正常速度。一个人在原地移动（t2）被确定为加速为2倍，正常速度为1倍。对于1×和2×，确定大相机和物体运动（t3）加速。最后，运动中的短暂停顿（t4），对于1×和2×，加速和正常速度的概率大致相等。5.1.2与光流的比较我们考虑训练基线模型的有效性，该基线模型的输入是我们的Kinetics训练集中每个示例的每帧平均流量幅度。这导致每个视频剪辑的大小为T的向量。我们训练了一个简单的网络，它有两个完全连接的层，ReLU激活和批量规范化。可以在Tab中看到。1，该模型在Kinetics和NFS的测试集上仅达到55%的准确率平均光流的一个主要限制是它与物体到摄像机的距离的相关性，这可以在图1中看到。2.虽然SpeedNet明显优于流基线，但它在包含极端相机运动或非常大的对象运动的场景中往往会失败，例如快速移动的对象，19927运动非常接近相机。我们假设这是因为我们的训练集没有包含足够的具有如此大的帧间位移的正常速度视频，这通常是以两倍于原始速度播放的视频的特征。5.2. 推广到任意速度率我们在从网上下载的各种真实视频上测试了我们的模型，这些视频包含慢动作效果，涉及自然的相机运动以及复杂的人类动作，包括芭蕾舞，奥林匹克体操，滑雪等等。我们的算法能够-监督精度方法架构UCF101 HMDB51随机初始化S3 D-G 73.8 46.4准确预测哪些路段处于正常速度，其通过使用在第2节中描述的方法来减慢。4.需要强调的是，即使我们的SpeedNet模型是在正常速度和2倍速度的视频数据集上训练的，我们也可以在我们的框架中使用它来对包含慢动作的视频片段进行分类。其持续时间回放比实时慢。如果视频剪辑的加速版本被检测为“正常速度”，则视频剪辑被确定为1.一、5.3. 现实世界视频为了评估我们的自适应加速与均匀加速的对比，我们寻找视频中对象的“速度”有很大差异的视频例如，对于100米短跑，跑步者最初走向跑步块，然后在短跑之前（当在跑步块处时）根本不移动，最后冲刺。我们对来自YouTube的五个这样的视频进行了自适应加速，然后进行了用户研究，以确定我们结果的客观质量。对于每个视频，我们的自适应加速和相应的均匀加速版本随机显示给用户，要求用户选择“看起来更好”的加速版本我们对30个具有不同研究背景的用户进行了研究，对于我们展示的所有五个视频，我们的自适应加速比均匀加速有明显的优势，如图所示六、之一的示例我们研究中使用的自适应加速视频如图5所示，所有五个视频都在我们的项目页面上。5.4. SpeedNet用于自我监督任务解决快速任务需要对物体的自然运动进行高层次的推理，以及对低层次运动线索的理解。由于SpeedNet是自监督的，我们评估了其内部表示在动作识别和视频检索的预训练的自监督任务上的有效性5.4.1动作识别利用自监督预训练来初始化动作识别模型是评估通过自监督任务学习的内部表示的既定且有效的方式。良好的初始化非常重要，尤其是在小动作识别数据集上进行训练表2. 自我监督动作识别。UCF 101和HMDB 51 split-1上的自监督方法的比较。顶级方法是使用各种形式的初始化训练的基线S3 D-G模型。中间的所有方法都是使用Kinetics的自我监督方法进行训练，然后在UCF 101和HMDB 51上进行微调。在底部，我们展示了在I3D网络上训练时的随机初始化和SpeedNet精度，以供参考例如UCF 101 [34]和HMDB 51 [20]，因为强大网络的泛化能力很容易通过快速过拟合训练集而被在UCF 101或HMDB 51上微调预训练的SpeedNet模型，与随机初始化相比，显著提高了动作在选项卡中。2.我们表明，我们的动作识别准确率击败了在Kinetics上以自我监督方式预训练的所有其他模型。作为参考，我们包括S3 D-G网络在使用ImageNet标签（ImageNet膨胀）进行预训练时的性能，以及使用Kinetics的完全监督时的性能（Kinetics监督）。这两个网络都使用额外的监督，而我们没有。我们所知道的性能最好的自监督模型DynamoNet [6]是在YouTube-8 M数据集[1]上预训练的，该数据集比Kinetics大10倍DynamoNet在UCF 101上的准确率为88.1%和59.9%，HMDB51。请注意，S3 D-G的强随机初始化基线部分是由于在训练期间使用了64帧。Speed- Net是针对“快速”预测的特定要求而设计和训练的，因此，并没有针对动作识别进行优化。作为参考，当使用较弱的架构（如I3D[4]）进行训练时，我们的快速预测下降到63。1%，但我们观察到两个数据集的随机初始化基线有更大的绝对和相对改善二、5.4.2最近邻检索另一种评估SpeedNet学习表示能力的方法特别是，给定任意的视频剪辑，ImageNet膨胀S3D-G86.657.7动力学监督S3D-G96.874.5[19]第十九话3D-ResNet1865.833.7订单[40]R（2+1）D72.430.9DPC [13]3D-ResNet3475.735.7AoT [38]T-CAM79.4-SpeedNet（我们的）S3D-G81.148.8随机初始化i3D47.929.6SpeedNet（我们的）i3D66.743.7199280 50 100 150 200 250 300 350时间（帧）图5. 自适应视频加速。我们应用SpeedNet模型来生成时变的自适应加速视频，基于帧的速度曲线（第二节）。4）.在这里，我们展示了两个孩子跳进游泳池的视频的速度曲线和自适应加速因子。顶部显示了几个选定的帧，指向预测速度曲线上序列中的相应时间。查询检索到的前3个结果100米61.5%38.5%游泳池77.8%22.2%跳高跳舞百分之七十点四百分之八十一点五百分之二十九点六百分之十八点五地板是熔岩59.3%百分之三十七3.7自适应加速（我们的）恒定加速Can’t 他们看起来一样图6. 自适应视频加速用户研究。我们要求30位参与者比较我们的自适应加速结果与5个视频的恒定均匀加速（没有说哪个是哪个），并选择他们更喜欢的一个。我们的自适应加速结果一致（并且明显）优于均匀加速。空间维度和时间长度，我们建议使用最大和平均汇集的时空激活，在第二节中描述。3.2，作为表示剪辑的1024D特征向量。本节中描述的实验表明，提取的特征以便于检索具有类似行为的其他剪辑的方式封装运动在这个实验中，我们从视频中提取16帧序列（查询，参见图7），并旨在从相同（较长）视频（“视频内”）或从短视频剪辑的集合（“跨视频”）中检索相似的剪辑对于前者，我们首先从SpeedNet中提取查询特征向量，然后以滑动窗口的方式在16帧的Win-Bit上从目标视频中计算特征向量然后，我们通过计算查询特征和每个目标视频特征之间的余弦相似性得分来计算相似性图。在第一个实验中，查询是一个篮球运动员投篮3分，从同一个视频中的更远的地方检索不同球员的类似片段，从稍微不同的角度和尺度拍摄在图7（a）中，我们示出了来自相似性图中的每个峰值的代表性帧。在第二个实验中（图）。7（b）），查询剪辑是(a) 视频内(b) 跨视频图7. 视频剪辑检索。左列显示来自查询剪辑的图像，右三列显示具有最接近嵌入的剪辑在（a）中，检索是从同一视频中更远的片段中进行的。在（b）中，从整个UCF 101列车组中重新获得结果。请注意，嵌入更多地关注运动类型而不是动作类，例如，最后一行的女孩正在用她的手做类似的向后/向前/向上/向下运动，就像查询中的手鼓手一样。从UCF101的测试集中提取，我们在训练集中搜索最近的邻居，再次使用余弦sim。4130.820.610.400.2加速系数快速性19929方法架构15102050Jigsaw [28] CFN19.728.533.540.049.4OPN [22]OPN19.928.734.040.651.6布赫勒[3]CaffeNet25.736.242.249.259.5订单[40]C3d12.529.039.050.666.9订单[40]R（2+1）D 10.725.935.447.363.9订单[40]R3d14.130.340.051.166.5我们S3D-G13.028.137.549.565.0表3. 顶部召回。UCF 101不同K值的Top-K精度不一致SpeedNet主要关注对象行为的类型和速度例如图7、最后一排的女孩正在用她的手做类似的来回/向上/向下的动作，就像询问中的手鼓手一样。然而，我们想测量我们学习的表征与特定动作类的相关性。我们考虑第三个实验，其中我们测量Recall-at-topK：如果测试剪辑等同于K个最近的训练剪辑之一的类，则认为该测试剪辑被正确分类。我们使用Xu等人的协议。[40]（表示为Order）。可以在Tab中看到3.我们的方法与其他自监督方法相比具有竞争力，仅略逊于[40]。5.5. 可视化突出的时空区域为了更好地了解哪些时空区域有助于我们的预测，我们遵循类激活图（CAM）技术[41]来可视化最后一个3D层的能量，然后进行全局最大值和平均值池化（见图11）。（3）第三章。更具体地说，我们提取一个T×N×N×1024特征图，其中T和N分别是时间和空间维度。我们首先使用W（从1024D向量映射到最终logits的权重）将通道数减少到T×N×N然后，我们取激活图的绝对值，并将其在0和1之间归一化。图图8描绘了叠加在中显示了几个视频的示例帧。这些示例描绘了高度激活的区域与场景中的主导运动者之间的强相关性，即使在执行诸如翻转和关节运动的复杂动作时也是如此。例如，在顶行第二帧中，网络关注腿的运动，而在第二行中，激活高度集中在体操运动员的身体运动上。有趣的是，该模型能够在存在显著的摄像机运动的情况下拾取显著的运动者在图9中，我们考虑视频我们使用与图1中8，但不要取激活图的绝对而在图8我们感兴趣的整体重要的时空区域的分类，在图。9我们感兴趣的是区分领域图8. 哪些时空区域最我们的速度预测呢CAM可视化，详见5.5.我们将这些区域可视化为叠加的热图，其中红色和蓝色分别对应于高激活区域和低激活区域。有趣的是，该模型能够在存在显著相机运动的情况下拾取突出的图9. 空间变化的速度。在视频“Memory Eleven”[26]中使用CAM 可视化而不取绝对值（因此保持激活方向，见第5.5），我们可以看到模型准确地预测了帧部分的每个部分的速度，从蓝色（正常速度）到红色（慢动作）。在用于将视频分类为正常和加速的帧中。SpeedNet准确预测每个部分的速度，从蓝色（正常速度）到红色（慢动作）。6. 结论我们的工作研究了机器可以在多大程度上学习视频中移动物体的“速度”：物体的运动速度是否比其自然速度更慢、更快或更快。为此，我们提出了SpeedNet，这是一个在一种自我监督的方式，用于确定给定视频是以正常速度播放还是以两倍于其原始速度播放。我们证明了我们的模型学习比运动幅度更复杂的高级对象运动pri ors，并证明了我们的模型在几个任务中的有效性：自适应加速视频比均匀加速更“自然”;作为动作识别的自我监督预训练;作为视频剪辑检索的特征提取器。19930引用[1] Sami Abu-El-Haija ， Nisarg Kothari ， Joonseok Lee ，Apostol（Paul）Natsev，George Toderici，BalakrishnanVaradarajan，andSudheendraVijayanarasimhan.Youtube- 8m ：大规模视频分类基准。在 arXiv ：1609.08675，2016。[2] 埃里克·P·贝内特和伦纳德·麦克米兰。计算延时录像。在ACM图形学报（TOG），第26卷，第102页中。ACM，2007年。[3] UtaB üchler，BiagioBrattoli，andBjoürnOmme r. 通过深度强化学习改进时空自我监督。在 Vittorio Ferrari ，Martial Hebert，Cristian Smin-chisescu和Yair Weiss，编辑，计算机视觉施普林格国际出版社.[4] J. Carreira和Andrew Zisserman。你怎么看，动作识别？新模型和动力学数据集。第4724- 4733页[5] Chun-Min Chen和Ling-Hwei Chen。一种新的篮球直播视频慢动作回放检测方法。 Multimedia Tools andApplications，74（21）：9573[6] 阿里·迪巴，维韦克·夏尔马，吕克·范古尔，和雷纳·斯蒂费尔-哈根. Dynamonet：动态动作和运动网络。arXiv预印本arXiv：1904.11407，2019。[7] Carl Doersch、Abhinav Gupta和Alexei A Efros。通过上下文预测的无监督视觉表示学习在IEEE InternationalConference on Computer Vision的Proceedings，第1422-1430页[8] Debidatta Dwibedi，Yusuf Aytar，Jonathan Tompson，Pierre Sermanet，and Andrew Zisserman.时间周期一致性学习。计算机视觉和模式识别（CVPR），2019年。[9] 戴夫·爱泼斯坦，陈博远，卡尔。冯德里克哎呀！预测视频中的无意动作。arXiv预印本arXiv：1911.11206，2019。[10] Basura Fernando，Hakan Bilen，Efstratios Gavves，andStephen Gould.自监督视频表示学习与奇一网络。在IEEE计算机视觉和模式识别会议论文集，第3636-3645页[11] Vinicius S Furlan ， Ruzena Bajcsy ， and Erickson RNasci-mento.通过听和看来快速转发自我中心的视频。arXiv预印本arXiv：1806.04620，2018。[12] Spyros Gidaris，Praveer Singh和Nikos Komodakis。通过预测图像旋转的无监督表示学习。arXiv预印本arXiv：1803.07728，2018。[13] Tengda Han，Weidi Xie，and Andrew Zisserman.通过密集预测编码的视频表示学习在IEEE计算机视觉研讨会国际会议的会议记录中，第0-0页，2019年[14] 阿里·贾韦德，哈立德·巴希尔·巴杰瓦，哈菲兹·马利克和奥恩·伊尔塔扎.一个有效的框架，自动突出发电机从体育视频。IEEE Signal Processing Letters，23（7）：954[15] 景龙龙和田英丽。使用深度神经网络的自监督视觉特征学习：一个调查。arXiv预印本arXiv：1902.06162，2019。[16] Will Kay ， Joao Carreira ， Karen Simonyan ， BrianZhang，Chloe Hillier，Sudheendra Vijayanarasimhan，Fabio Viola，Tim Green，Trevor Back，Paul Natsev，et al.人体运动视频数据集。arXiv预印本arXiv：1705.06950，2017。[17] 瓦希德·基亚尼和哈米德·礼萨·普尔礼萨。一种有效的压缩足球视频慢动作检测方法。ISRN机器视觉，2012，2012。[18] Hamed Kiani Galoogahi，Ashton Fagg，Chen Huang，Deva Ramanan，and Simon Lucey.速度需求：更高帧率目标跟踪的基准。在IEEE计算机视觉国际会议论文集，第1125-1134页[19] Dahun Kim，Donghyeon Cho，and In So Kweon.用时空立方体谜题进行自我监督视频表示学习在AAAI人工智能会议论文集，第33卷，第8545-8552页[20] H. Kuehne，H. Jhuang、E. Garrote，T. Poggio和T. Serre.HMDB：一个用于人体运动识别的大型视频数据库。在2011年国际计算机视觉会议（ICCV）的会议记录中[21] 兰舒月，拉梅什瓦·熊猫，朱琦，阿米特·K·罗伊-乔杜里。Ffnet：通过强化学习实现视频快进。在IEEE计算机视觉和模式识别会议论文集，第6771-6780页，2018年。[22] 李欣颖，黄嘉斌，Maneesh Singh，杨铭轩。通过排序序列的无监督表示学习。第667-676页[23] 凯瑟琳·曼宁，大卫·阿格腾-墨菲，伊丽莎白·佩利卡诺。速度辨别能力的发展。Vision Research，70：27[24] Michael Mathieu，Camille Coupr

下载后可阅读完整内容，剩余1页未读，立即下载