视频中无意识行动的预测能力

196 浏览量更新于2023-10-20 收藏 14.53MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

19190_ops_ 预测视频中的无意识行动0戴夫∙爱泼斯坦博渊∙陈卡尔∙冯德里克哥伦比亚大学 oops.cs.columbia.edu0时间0有意识行动无意识行动0预测失败0图1：有意识与无意识：这个人是否有意让这个行动发生，还是这只是一个意外？在本文中，我们介绍了一个大规模的野外无意识行动视频数据集。我们通过从网络上下载“失败”视频来收集这个数据集，其中包含超过两万个片段，涵盖了各种活动和场景。利用这个数据集，我们研究了学习预测视频中意图的各种视觉线索。0摘要0仅仅从一个短暂的视频片段中，我们通常可以判断一个人的行动是有意还是无意。我们能否训练一个模型来识别这一点？我们引入了一个野外无意识行动视频数据集，以及一套用于识别、定位和预测其开始的任务。我们训练了一个有监督的神经网络作为基准，并分析其在任务上与人类一致性的表现。我们还研究了利用数据集中的自然信号的自监督表示，并展示了一种使用视频的内在速度来进行高度监督的预训练的方法的有效性。然而，机器和人类的性能之间仍然存在显著差距。01. 引言0仅仅从一个视频的一瞥，我们通常可以判断一个人的行动是有意还是无意。例如，图1显示了一个人试图从一个筏子上跳下来，但意外地跌入海中。在一系列经典论文中，发展心理学家阿曼达∙伍德沃德证明了这种识别行动意图的能力是儿童在他们的第一年学会的[72, 73,7]。然而，对于机器视觉来说，预测行动背后的意图一直是一个难题。0儿童在他们的第一年学会的是预测行动背后的意图一直是机器视觉中的一个难题。最近在行动识别方面取得的进展主要集中在预测视频中的物理运动和原子动作上，这捕捉到了行动的方式，但没有捕捉到行动的意图。0我们认为感知视觉意图的一个关键限制是缺乏具有意图自然变化的真实数据。虽然现在有大量的用于行动识别的视频数据集[30, 20,42]，但人们通常是成功的，这导致数据集对成功结果有偏见。然而，这种成功偏见使得学习和定量评估对于区分和定位视觉意图变得困难。0我们引入了一个新的带注释的视频数据集，其中包含大量的无意识行动，我们通过从网络上爬取公开可用的“失败”视频来收集这些视频。图2显示了一些例子，涵盖了有意识和无意识行动的野外情况。我们的视频数据集将公开发布，规模庞大（超过50小时的视频）且多样化（涵盖数百个场景和活动）。我们用时间位置对视频进行注释，标记视频从有意识行动转变为无意识行动的时刻。我们在这个数据集上定义了三个任务：9200图2：_ops_数据集：每对帧显示了我们数据集中有意识和无意识行动的一个例子。通过从网络上爬取公开可用的“失败”视频，我们可以创建一个多样化且野外的无意识行动数据集。例如，左下角显示了一个人未能看到一个闸门臂，右上角显示了两个孩子玩一个竞争性的游戏，其中一个人无法实现他们的目标。0对行动的意图进行分类，定位从有意识到无意识的过渡，并预测不久的将来无意识行动的开始。为了解决这些问题，我们研究了几个视觉线索，以便在学习中使用最少的标签来识别意图。首先，我们提出了一种新的自监督任务，学习预测视频的速度，这是所有未标记视频中都可用的偶然监督，用于学习行动表示。其次，我们探索了时间上下文的可预测性作为学习特征的线索，因为无意识行动通常偏离预期。第三，我们研究事件顺序作为识别意图的线索，因为有意识的行动通常先于无意识的行动。实验证明，未标记视频具有识别意图的内在感知线索。我们的结果表明，虽然每个自监督任务都有用，但学习预测视频的速度对于帮助最大。通过消除模型和设计选择，我们的分析还表明，我们的模型并不仅仅依赖于低级运动线索来解决无意识行动预测问题。此外，尽管我们的数据集上的人类一致性很高，但我们的模型与人类一致性之间的性能差距仍然很大，这凸显了从视频中分析人类目标仍然是计算机视觉中的一个基本挑战。我们希望这个包含无意识和无约束行动的数据集能够提供一个实用的进展基准。本文的两个主要贡献是：首先，我们介绍了一个新的无约束视频数据集，其中包含大量的意图变化和一组在此数据集上的任务。其次，我们提出了利用未标记视频中的各种偶然线索来识别意图的模型。本文的其余部分将描述这些内容。0详细介绍了贡献。第2节首先回顾了动作识别的相关工作。然后，第3节介绍了我们的数据集并总结了其统计信息。第4节介绍了几种自监督学习方法，用于学习意图的视觉表示。在第5节中，我们进行了定量和定性实验来分析我们的模型。我们在网站上发布了所有的数据、软件和模型。02. 相关工作0视频数据集：计算机视觉通过视频分析在人体动作识别方面取得了显著进展。这一成功的关键是发布了多样化视频数据集以促进这项研究[52, 6, 34, 55, 66, 29, 8, 1,43, 53, 30, 19, 18, 13, 20,42]。大多数现代数据集旨在区分人类活动，以进行动作分类和定位[48, 71, 2, 11,28, 4,78]。在我们的论文中，我们着重分析目标导向的人体动作[61]，并提出了一个允许学习失败目标和从有意识到无意识动作的转变的数据集。我们的数据集包括由于动作执行不完美（例如物理干扰、有限的可见性或有限的知识）而导致的人为错误，以及由于动作规划错误（例如错误的目标或不充分的推理）而导致的人为错误。无意识动作与异常动作相关，但又非常不同。在双人游戏中，一个玩家必须失败，这是无意识但不是异常的。许多无意识动作也相对常见（例如在冰上滑倒），因此它们也不是异常的。动作识别和预测：我们的工作建立在大量的动作分类和预测文献基础上。以前的动作分类研究[36, 32, 65, 51,47]侧重于为给定的输入视频帧设计特征或描述符。最近的进展集中在使用深度卷积网络解决这些任务，并提出了许多方法来学习有用的特征表示，例如视觉信息融合[67,9]，双流CNN[54]，以及接收一段视频的3D卷积网络[58]和用于特征提取的时间推理[80, 15]。在本文中，我们基于3DCNNs的方法。以前的研究还研究了视频中未来动作预测，这与预测无意识动作相关[50, 46, 74, 24,13]。许多方法依赖于动作标签监督以及其他辅助信息来预测未来动作[77,79]。其他方法[62, 59, 75,84]则专注于利用大规模无标签数据集来学习对动作预测有用的视觉表示。自监督学习：我们的工作利用无标签视频在没有手动监督的情况下学习有用的表示。近年来，自监督学习通过操纵或隐瞒输入的一部分来预测数据中自然存在的信息，已成为无监督学习的一种流行范式。各种类型的自监督信号已被用于学习强大的视觉表示，例如空间排列[44]，上下文信息[14, 68]，颜色[37, 64]，时间箭头[70, 75, 23,38, 41, 17]，未来预测[40, 63, 76, 45]，运动一致性[3, 26]，视图合成[83,82]，时空一致性[60, 69, 16, 39, 35]以及预测编码[45,57]。然后利用学习到的表示进行其他任务。510152025300%2%4%6%8%10%12%14%(a) Video lengthsLength (seconds)Frequency20%40%60%80%0.0%1.0%2.0%3.0%(b) Failure label timesTime % of duration)Frequency0%10%20%30%40%50%0%2%4%6%8%(c) Failure label standard deviationsDeviation % of duration)Frequencymotorcyclingdriving carsomersaultingridingscootercatching fishstaring at someonedyeingeyebrowstrimming beardpeeling potatoessquare dancing0.0%0.5%1.0%1.5%(d) Video action classesFrequency...playgroundparking lotski slopehighwaylawnoutdoor churchcottageindoorfleamarketfabric storehotel0.0%0.5%1.0%1.5%2.0%(e) Video scene classesFrequency...9210图3：数据集统计：我们用（a）剪辑长度的分布，（b）故障开始的时间分布，以及（c）人类标注者之间的标准差来总结我们的数据集。中位数和平均剪辑长度分别为7.6秒和9.4秒。三个工作者给出的标签的中位数标准差占视频时长的6.6％，约为半秒，表明高度一致。我们还展示了（d）动作类别和（e）场景类别的分布，这自然地呈现长尾分布。为了易读性，我们只显示每个类别中最常见的5个和最不常见的5个。最好在电脑屏幕上放大查看图像。0预测。以前的动作分类研究[36, 32, 65, 51,47]侧重于为给定的输入视频帧设计特征或描述符。最近的进展集中在使用深度卷积网络解决这些任务，并提出了许多方法来学习有用的特征表示，例如视觉信息融合[67,9]，双流CNN[54]，以及接收一段视频的3D卷积网络[58]和用于特征提取的时间推理[80, 15]。在本文中，我们基于3DCNNs的方法。以前的研究还研究了视频中未来动作预测，这与预测无意识动作相关[50, 46, 74, 24,13]。许多方法依赖于动作标签监督以及其他辅助信息来预测未来动作[77, 79]。其他方法[62, 59, 75,84]则专注于利用大规模无标签数据集来学习对动作预测有用的视觉表示。自监督学习：我们的工作利用无标签视频在没有手动监督的情况下学习有用的表示。近年来，自监督学习通过操纵或隐瞒输入的一部分来预测数据中自然存在的信息，已成为无监督学习的一种流行范式。各种类型的自监督信号已被用于学习强大的视觉表示，例如空间排列[44]，上下文信息[14, 68]，颜色[37, 64]，时间箭头[70, 75, 23, 38,41, 17]，未来预测[40, 63, 76, 45]，运动一致性[3,26]，视图合成[83, 82]，时空一致性[60, 69, 16, 39,35]以及预测编码[45,57]。然后利用学习到的表示进行其他任务。0下游任务，如图像分类、目标检测、视频剪辑检索和动作识别。我们引入了一个新的自监督前提任务来估计视频速度，这对学习视频表示非常有效。其他同时进行和随后的工作进一步探索了这个信号[12, 5]。03. _ops_数据集0我们提供了用于研究非故意人类行为的_ops_数据集。该数据集包含来自YouTube失败合集视频的20,338个视频，总计超过50小时的数据。这些由业余摄影师在现实世界中拍摄的剪辑在行动、环境和意图上都是多样的。我们的数据集包括许多失败和非故意行为的原因，包括物理和社会错误、计划和执行错误、有限的代理技能、知识或感知能力以及环境因素。我们计划在不久的将来发布该数据集，以及预计算的光流、姿势和注释。我们相信，这个数据集将有助于开发和评估分析人类意图的模型。03.1. 数据收集和处理0我们从在线渠道构建我们的数据集，这些渠道汇集了许多不同用户上传的“失败”视频，因为他们分享的视频展示了无约束和多样化的情况。我们手动抓取了具有高多样性和视频质量的选定渠道。图2显示了几个示例帧。The speed of video provides a natural visual clue to learna video representation. We propose a self-supervised taskwhere we synthetically alter the speed of a video, and train aconvolutional neural network to predict the true frame-rate.Sincespeedisintrinsictoeveryunlabeledvideo, thisisaself-supervised pretext task for video representation learning.Let xi,r ∈ RT ×W ×H×3 be a video clip that consists of Tframes and has a frame rate of r frames-per-second. We usea discrete set of frame rates r ∈ {4, 8, 16, 30} and T = 16.Consequently, all videos have the same number of frames,but some videos will span longer time periods than others.We train a model on a large amount of unlabeled video:�iL (f (xi,r) , r)(1)9220我们对视频进行预处理，以去除编辑视觉效果。例如，从这些渠道下载长时间的合集视频后，我们必须划定场景边界，以区分不相关的剪辑。我们尝试了各种方法，并发现scikit-video可以得到良好的结果。我们丢弃所有少于3秒的场景，因为它们不太可能包含完整的场景，以及所有超过30秒的场景，因为它们很可能包含多个场景（由于场景检测中的误报）。一些视频是以纵向拍摄，但在横向拼接，导致出现“信箱”效果。我们运行Hough线变换来检测这些边界，并裁剪掉边界的伪影。03.2. 标注0我们使用亚马逊机械土耳其人对整个测试集和部分训练集的失败时刻进行了时间标记[56]。我们要求工作者的批准率达到99%以上，至少有10,000个批准，来标记视频在失败开始发生时的时刻（即行动开始变得非故意时）。质量控制：我们还使用了多种技术来确保高质量的注释。我们重复注释三次以验证标签质量。我们还要求工作者注释视频是否包含非故意行为。我们删除大多数工作者指示没有失败的视频，或者失败发生在视频剪辑的开头或结尾（表明场景检测中存在错误）。大多数我们标注的视频通过了这些检查。为了控制质量，我们还手动标注了一小部分视频的真实标签，用于检测和删除质量较差的注释。人类一致性：我们第四次注释了测试集，用于分析人类在这个任务上的一致性。我们发现，人类在标记失败时间方面非常一致。工作者之间的中位数标准差约为半秒，或视频持续时间的6.6%。03.3. 数据集统计0图3a显示了视频剪辑长度的分布，图3b显示了数据集中失败时间标签的分布。图3c绘制了来自不同工作者的三个标签的标准差，平均约为半秒。图3d和图3e显示了由在Kinetics和Places[81]数据集上预训练的模型预测的动作和场景类别分布。该数据集涵盖了各种场景和活动的意图。03.4. 基准0我们将我们的数据集用作识别有意动作的基准。我们将数据集分为三组：一个未标记的视频集用于预训练，一个带标签的训练集和一个带标签的测试集。整个数据集包含20,338个视频，带标签的训练集包含7,368个视频，由于基准的目标是评估自监督学习，因此保持相对较小。测试集包含6,739个视频，仅用于定量评估。在我们的基准中，模型可以在任意数量的未标记视频上进行训练，只需少量带标签的视频。图4显示了基准的任务。01我们使用方法为‘edges’，参数1为0.7的scenedet函数，来源于https://github.com/scikit-video/scikit-video0（a）分类（b）定位（c）预测0图4：任务：我们的数据集有三个任务：将动作分类为有意或无意，无意动作的时间定位以及无意动作的预测。0我们研究了各种感知线索，以在最小监督下学习预测有意动作。我们可以将此视为自监督学习问题。在未标记的视频中获得附带监督后，我们的目标是学习一种能够有效转移到不同意图识别任务的表示。04. 通过感知线索推测意图0视频的速度为学习视频表示提供了自然的视觉线索。我们提出了一个自监督任务，其中我们合成改变视频的速度，并训练卷积神经网络来预测真实的帧率。由于速度对于每个未标记的视频都是内在的，这是一项用于视频表示学习的自监督前提任务。令 x i,r ∈ R T × W × H × 3 为由 T 帧组成且帧率为 r帧每秒的视频剪辑。我们使用一组离散的帧率 r ∈ { 4 , 8 , 16 , 30 } 以及 T =16。因此，所有视频具有相同数量的帧，但某些视频的时间跨度可能比其他视频长。我们在大量未标记的视频上训练模型：04.1. 预测视频速度0最小化 f0其中 L是交叉熵损失函数。图5说明了这个任务。我们的实验支持这个假设，即速度是表示学习的有用自监督信号。首先，估计速度需要模型学习运动特征，因为单个帧是不足以区分帧率的。其次，这个任务将要求模型学习与事件预期持续时间相关的特征。例如，模型可以通过将其与平均人行走速度进行比较，检测到一个人行走的视频被合成加速或减速。最后，人对意图的判断受到视频速度的显著影响[10]。例如，一个人悠闲地坐下来看起来是有意的，但一个人突然摔倒到座位上看起来是意外的。最近，虚假新闻活动利用视频的速度来令人信服地伪造和改变意图的感知。2Since unintentional action is often a deviation from ex-pectation, we explore the predictability of video as anothervisual clue for intentions. We train a predictive visual modelon our unlabeled set of videos and use the representation asa feature space. Let xt be a video clip centered at time t,and both xt−k and xt+k be contextual clips at times t − kand t + k respectively. We learn a predictive model thatinterpolates the middle representation φt = fθ(xt) from thesurrounding contextual frames xt−1 and xt+1:maxf,g�ilog�eztezt + �n∈N ezn�for zj = φTj ˆφt√d(2)2https://www.washingtonpost.com/technology/2019/05/23/faked-pelosi-videos-slowed-make-her-appear-drunk-spread-across-social-media/9230视频输入（帧率重新采样）视频CNN0经过的时间0图5：视频速度作为附带监督：我们提出了一个新的自监督任务，即预测视频的速度，这在所有未标记的视频中都是自然存在的。0由于无意动作通常是与预期的偏离，我们探索了视频的可预测性作为另一个意图的视觉线索。我们在未标记的视频集上训练了一个预测性视觉模型，并将表示用作特征空间。令 xt 为以时间 t 为中心的视频剪辑， x t − k 和 x t + k 分别为时间 t − k 和 t + k的上下文剪辑。我们学习一个预测模型，它从周围的上下文帧 x t − 1 和 x t +1插值出中间表示 φ t = f θ ( x t ) ：04.2. 预测视频上下文0其中 ˆ φ t = g θ ( { φ t − k , φ t + k } ) ，其中 f θ 和 g θ是卷积网络。d 是归一化表示的维度，N是负集。最大化这个目标是将目标帧的特征 φ t推向上下文嵌入 ˆ φ t，同时将其与小批量中的所有其他负样本推开。这个目标是噪声对比估计[27]和对比预测编码[45, 57,21]的一个实例，在其他自监督学习任务上取得了很好的结果。我们将其作为基准。我们在小批量上计算损失，因此给定中间剪辑的负集包括除自身以外的所有其他剪辑表示。我们将 g θ设置为一个具有隐藏维度1024、ReLU激活和输出维度 d =512（与视频编码器 f θ 的输出维度相同）的两层全连接网络。0我们还将事件顺序作为一种感知线索来识别无意识动作。由于无意识动作通常表现为混乱或不可逆的运动，我们实现了一个卷积模型，任务是预测应用于洗牌输入视频剪辑的排列，就像[75,70]中一样，我们将其用作强基准。我们采样3个剪辑，剪辑之间间隔0.5秒，因此有6种可能的排序方式。我们将所有剪辑通过一个神经网络 f θ 运行，得到一个特征向量，然后将所有视频对的特征向量连接起来，并通过另一个神经网络 g θ运行，以表示剪辑之间的配对关系。最后，我们将这些配对表示连接起来，并输入到第三个网络 h θ中进行排序预测。网络 g θ 和 f θ 都是具有ReLU激活的线性层。f θ、g θ 和 h θ 的输出维度分别为512、256和6。04.3. 预测事件顺序0我们使用这些自监督线索来拟合一个分类器，以区分有意、无意或过渡动作。我们使用未标记的视频训练自监督模型，并使用最少的注释来拟合线性分类器，以直接比较学习表示在识别意图方面的质量。网络架构：我们在所有方法中都使用相同的卷积网络架构。由于这是一个视频任务，我们需要选择一个能够稳定捕捉运动特征的网络架构。我们使用ResNet3D-18[22]作为所有网络的视频骨干，该网络在Kinetics动作识别数据集[30]上获得了竞争性的性能。我们将16帧输入模型。除了视频速度模型外，我们以16fps采样视频，以便模型获得一秒的时间上下文。我们为每个网络训练20个时期。分类器：在我们的未标记视频集上学习后，自监督模型将产生一种表示，我们将用于我们的意图预测任务。我们将视频输入自监督模型，提取最后一个卷积层的特征，并拟合线性分类器。虽然有多种将自监督表示转移到后续任务的方法，但我们选择使用线性分类器，因为我们的目标是评估自监督特征，这是自监督学习中的推荐做法[33]。我们在训练集的标记部分上使用少量标签来训练一个正则化的多类逻辑回归。我们将任务定义为三分类任务，其中三个类别分别是：a) 有意04.4. 拟合分类器0我们使用这些自监督线索来拟合一个分类器，以区分有意、无意或过渡动作。我们使用未标记的视频训练自监督模型，并使用最少的注释来拟合线性分类器，以直接比较学习表示在识别意图方面的质量。网络架构：我们在所有方法中都使用相同的卷积网络架构。由于这是一个视频任务，我们需要选择一个能够稳定捕捉运动特征的网络架构。我们使用ResNet3D-18[22]作为所有网络的视频骨干，该网络在Kinetics动作识别数据集[30]上获得了竞争性的性能。我们将16帧输入模型。除了视频速度模型外，我们以16fps采样视频，以便模型获得一秒的时间上下文。我们为每个网络训练20个时期。分类器：在我们的未标记视频集上学习后，自监督模型将产生一种表示，我们将用于我们的意图预测任务。我们将视频输入自监督模型，提取最后一个卷积层的特征，并拟合线性分类器。虽然有多种将自监督表示转移到后续任务的方法，但我们选择使用线性分类器，因为我们的目标是评估自监督特征，这是自监督学习中的推荐做法[33]。我们在训练集的标记部分上使用少量标签来训练一个正则化的多类逻辑回归。我们将任务定义为三分类任务，其中三个类别分别是：a) 有意is trained on the full, annotated Kinetics action recognitiondataset, which is either ﬁne-tuned with our labeled trainingset, or used as a feature extractor. Since the model is trainedon a large, labeled dataset of over 600, 000 videos, we donot expect our self-supervised models to outperform it. In-stead, we use this baseline to understand the gap betweensupervised and self-supervised methods.Linear versus Fine-tune: Unless otherwise noted, theclassiﬁer is a linear classiﬁer on the features from the lastconvolutional layer of the network. However, we also evalu-ated some models by ﬁne-tuning, which we do to understandthe best performance that one could obtain at this task. Toﬁne-tune, we simply use the method as the network initial-ization, change the last layer to be the three-way classiﬁca-tion task, and train the network end-to-end with stochasticgradient descent on our labeled set of videos.Fixed Priors: We also compare against naive priors. Wecalculate the mode on the training set, and use this mode asthe prediction. Additionally, we use chance.Human Agreement: To establish an upper expectationof performance on this dataset, we use a fourth, held-outworker’s labels to measure human performance.9240线性分类器微调方法所有标签 10%标签所有标签0Kinetics监督 53.6 52.0 64.00视频速度（我们的方法）53.4 49.9 61.6 视频上下文[45] 50.047.2 60.3 视频排序[75] 49.8 46.5 60.20从零开始 48.2 46.2 59.4 运动幅度 44.0 - 44.0 机会 33.3 33.333.30表1：分类准确率：我们评估每个自监督模型与基线的性能。我们还与使用Kinetics监督训练的模型进行比较，以了解监督和自监督之间的差距。这个结果表明，学习预测视频速度是一种有前途的视频自监督形式。0a) 故意动作，b) 非故意动作，c)从故意到非故意的过渡。如果视频剪辑与工人标记的点重叠，我们将动作定义为过渡。05. 实验0我们实验的目标是分析在现实视频中识别意图的中层感知线索。为此，我们在我们的数据集上对自监督方法进行了三个任务的定量评估（分类、定位和预测）。我们还展示了定量消融和定性可视化来分析限制。05.1. 基线0除了上述的自监督方法，我们还额外比较了几个基线方法。运动幅度：我们使用简单的运动检测作为基线。为了形成这个基线，我们计算视频上的光流[25]，并将运动幅度量化为直方图。我们尝试了几种不同的箱子大小，并发现100个箱子的效果最好。然后，我们在直方图上拟合了一个多层感知器，该感知器在我们的训练集的标记部分上进行训练，以预测三个类别。Kinetics监督：我们与一个在完整的、注释的Kinetics动作识别数据集上训练的模型进行比较，该数据集可以通过我们的标记训练集进行微调，或者用作特征提取器。由于该模型是在超过600,000个视频的大型标记数据集上进行训练的，我们不希望我们的自监督模型能够超越它。相反，我们使用这个基线来了解监督和自监督方法之间的差距。线性与微调：除非另有说明，分类器是网络最后一个卷积层的特征上的线性分类器。然而，我们还通过微调来评估一些模型，这样做是为了了解在这个任务中可以获得的最佳性能。为了进行微调，我们简单地使用该方法作为网络初始化，将最后一层改为三分类任务，并使用随机梯度下降在我们的标记视频集上端到端地训练网络。固定先验：我们还与朴素的先验进行比较。我们计算训练集上的众数，并将其作为预测。此外，我们使用机会作为基线。人类一致性：为了建立对该数据集性能的上限期望，我们使用第四个保留的工人的标签来衡量人类的性能。0图6：多模态评估：非故意动作级联。例如，在这个视频中，人“失败”了两次。为了在评估中处理这个问题，我们认为如果预测与任何真实标签足够接近，则认为预测是正确的。05.2. 分类0我们首先在分类任务上评估每个模型。给定一个短视频剪辑，任务是将其分类为三个类别之一（故意、非故意或过渡）。我们从测试集中提取了一秒钟的时间窗口，每次增加0.25秒。表1报告了每种方法的分类准确率。所有自监督方法都优于基线，这表明在未标记的视频中存在意图的感知线索。在大量标签可用于训练线性层的情况下，使用完整的Kinetics监督训练的模型获得了最佳性能，这表明标记数据仍然无可替代。然而，自监督模型和监督模型之间的差距相对较小。例如，最佳性能的感知线索（视频速度）与Kinetics相当。我们还尝试减少我们标记的训练集中的示例数量。虽然准确性与标签数量呈正相关，但将标签数量减少一个数量级只会导致性能略微下降。05.3. 定位0接下来，我们评估时间定位，这是一项具有挑战性的任务，因为它要求模型检测意图和非意图行为之间的时间边界。我们以滑动窗口的方式在时间轴上使用我们的分类器，并评估模型能否检测到行为从有意到无意切换的时间点。预测的边界是在所有滑动窗口中具有最高置信度的过渡分数。由于视频可能包含多个过渡点，如果预测与数据集中的任何一个真实位置有足够的重叠，则认为预测是正确的（图6）。我们使用两个不同的重叠阈值：一秒内和四分之一秒内。表2报告了定位转变点的准确率。对于这两个阈值，表现最好的自监督方法是视频速度，其性能超过其他自监督方法10％以上，这表明我们的视频速度任务学习到了更细粒度的视频特征。人类在这个任务上的一致性很高（88％的一致性），但是与监督和自监督方法相比仍存在很大差距，突显了在视频中学习人类意图的挑战。图7展示了一些定位的定性结果以及高分的误报。我们的模型做出的不正确预测（图7的后两行）通常是合理的，例如汽车撞到人行道上的行人（真实情况是汽车首先撞到另一辆车）和人从喷泉出来时摔倒（真实情况是人首先摔倒进喷泉）。dows. Since videos can contain multiple transitional points,we consider the prediction correct if it sufﬁciently overlapsany of the ground truth positions in the dataset (Figure 6).We use two different thresholds of sufﬁcient overlap: withinone second, and within one quarter second.Table 2 reports accuracy at localizing the transition point.For both thresholds, the best performing self-supervisedmethod is video speed, outperforming other self-supervisedmethods by over 10%, which suggests that our video speedtask learns more ﬁne-grained video features. Human con-sistency at this task is high (88% agreement), however thereis still a large gap to both supervised and self-supervisedapproaches, underscoring the challenge of learning humanintent in video. Figure 7 shows a few qualitative results oflocalization as well as high-scoring false positives. The in-correct predictions our model makes (bottom two rows ofFigure 7) are often reasonable, such as a car hitting a pedes-trian on the sidewalk (ground truth: car ﬁrst hits anothercar) and person falling when exiting fountain (ground truth:person ﬁrst falling into fountain).9250图7：示例定位：我们展示了预测非意图行为转变的示例。绿色表示正确的预测（在0.25秒内）。红色表示不正确但合理的预测。黄色表示漏检。05.4. 预测0我们还评估了在预测非意图行为开始之前的表示能力。为此，我们像之前一样使用自监督进行模型训练，然后对其进行微调，以进行三分类任务，预测未来1.5秒内的标签。表3报告了预测的分类准确率。视频速度预测模型的特征获得了最好的自监督性能。然而，具有完整Kinetics监督的模型获得了更高的性能。0方法内准确率 1秒 0.25秒0人类一致性 88.0 62.1 Kinetics监督（微调）75.946.7 Kinetics监督（线性）69.2 37.80视频速度（我们的）65.3 36.6 视频上下文[45]52.0 25.3 视频排序[75] 43.3 18.30从零开始 47.8 21.6 运动幅度 50.7 23.1 中间先验53.1 21.0 机会 25.9 6.80表2：时间定位：我们评估模型在定位非意图行为开始时的性能，使用了两个不同的时间阈值。尽管在这个任务上人类之间有很高的一致性，但是无论是监督模型还是自监督模型都存在很大的差距。0方法准确率0Kinetics监督 59.70视频速度（我们的）56.7视频上下文[45] 51.2视频排序[75] 51.00从零开始 50.8 机会 50.00表3：预测：我们通过对模型进行微调来评估在未来1.5秒内预测失败开始的性能，考虑了各种自监督视觉线索。表现最好的自监督视觉线索是视频速度。0大约高出3％的性能，这表明自监督学习在这个任务上仍有提升空间。05.5. 分析0到目前为止，我们的研究结果表明，在未标记的视频中存在可以利用的感知线索，我们可以利用这些线索来学习识别意图。在本小节中，我们对性能进行了分解，以分析其优势和局限性。常见的混淆情况：图8比较了视频速度表示和Kinetics监督表示的混淆矩阵。在这两种情况下，最具挑战性的预测点是意图和非意图行为之间的边界，我们将其标记为“失败”点。此外，模型之间的一个关键差异是自监督模型更容易将有意行为与失败的开始混淆。由于监督模型在这方面表现更好，这表明

下载后可阅读完整内容，剩余1页未读，立即下载