多任务、多标签的视频数据集：场景-对象-动作的实验研究及性能分析

38 浏览量更新于2023-10-13 收藏 1.07MB PDF 举报

视频数据集

大规模数据集

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

场景-对象-动作：多任务、多标签视频数据集Jamie Ray1，Heng Wang1，Du Tran1，YufeiWang1 Matt Feiszli1，Lorenzo Torresani1，2和ManoharPaluri11 2达特茅斯学院{jamieray，hengwang，trandu，yufei22，mdf，torresani，mano}@ fb.com抽象。本文介绍了一个大规模、多标签、多任务的视频数据集场景-对象-动作（SOA）。大多数现有的视频数据集基于预定义的分类法，其用于定义向搜索引擎发出的关键字查询然后由人类注释者验证由搜索引擎检索的视频的正确性。以这种方式收集的数据集倾向于首先生成高分类精度。S〇A数据集采用不同的方法。我们依靠均匀采样来更好地表示Web上的视频受过训练的注释者被要求提供自由形式的文本标签，从三个不同的方面描述每个视频：场景，对象和动作。然后，这些原始标签被合并、拆分和重命名，以生成SOA的分类法所有注释都将基于分类法再次最终的数据集包括562K视频，其中3.64M注释跨越49个场景类别，356个对象类别，148个动作类别，并自然地捕捉到现实世界中视觉概念的长尾分布我们表明，以这种方式收集的数据集是相当具有挑战性的评估现有的流行的视频模型的SOA。我们提供了关于SOA上不同模型的性能的深入分析，并强调了视频分类中潜在的新方向。我们将SOA与现有数据集进行比较，并讨论影响迁移学习性能的各种因素。SOA的一个关键特征是它能够对视频中的场景、对象和动作识别之间的相关性进行实证研究我们提出了这项研究的结果，并进一步分析了使用从一个任务中学到的信息来改善其他任务的潜力我们还演示了扩展SOA以学习更好特性的不同我们相信，SOA带来的挑战为视频分析的进一步发展提供了机会，因为我们正在从单标签分类向更全面地了解视频数据迈进。关键词：视频数据集·多任务·场景·对象·动作1介绍在这项工作中，我们介绍了一个新的视频数据集，旨在推进视频理解的研究。我们将数据集命名为Scenes-Objects-Actions（SOA），如下所示：2J. 雷，H.Wang，中国山杨D.特兰湾，澳-地Wang，M.费斯利湖Torresani和M.Paluri表1：不同任务的SOA数据集的统计数据。图1：SOA视频中场景、对象和动作标签的覆盖范围。 105K 视频（18. 7%）拥有所有三种类型的标签。每个视频相对于三个不同方面被注释：场景、物体和动作。我们的目标是引入一个基准，这将刺激研究视频理解作为一个全面的，多方面的问题。我们认为，为了实现这一目标，视频数据集应该满足几个基本要求，如下所述。1. 大规模的。虽然KTH [29]，HMDB 51 [22]和UCF 101 [34]在过去通过启发设计用于动作识别的有效手工设计特征[23，40]发挥了重要作用，但需要更大的视频数据集来支持深度模型的现代端到端训练。最近引入了Sports1M [18]，Kinetics [19]和AVA [27]等数据集来填补这一空白，它们已经导致了基于深度学习的新一代更有效模型的开发[18，43，6，35，2，38，4]。SOA属于这种新型的大规模视频数据集。尽管只是第一个版本，SOA已经包含了与Kinetics一样多的视频，同时包含了十倍于Kinetics的注释。与Charades [31]和Something-Something [9]等众包数据集相比，SOA更大，标记更密集。表1总结了SOA的统计数据。2. 无偏见的视频在数据集中公平地表示互联网上视频的分布是有用的。通过这样做，在数据集上训练的模型可以直接应用于理解和识别日常互联网视频中的流行概念。为此，我们通过从Web平台统一采样视频来构建SOA该过程避免了对视频长度、内容、元数据和风格的偏见。它提供了一个多样化的收集样本匹配的实际分布的互联网视频。相反，之前的数据集[18，1，34，19]使用基于关键字的搜索来查找匹配预定义概念的Web视频。用于搜索的标记会扭曲数据集的分布。此外，搜索引擎通常在顶部位置返回与查询明确匹配的视频。这会产生易于分类的原型示例。作为证据，Kinetics的前5名准确率已经超过93% [24]，距离其公开发布不到一年。在我们的实验中，我们证明了SOA是一个非常任务场景对象行动SOA#视频十七万三千560K308K562K#类49356148553SOA视频数据集3比以前的数据集更具挑战性的基准，即使是最好的视频分类模型也只能徘徊在45%的前5名准确率1。3. 无偏见的标签我们允许注释者输入描述视频的自由文本标签，而不是像大多数先前的我们认为，这会产生一个更合适的一组注释比那些通过强制标签通过一个固定的本体。自由形式的标签的集合然后经由概念重命名、删除、合并和拆分被手动地后处理以产生最终分类，其直接反映由以不受约束的方式标记数据的注释者给出的标签的分布。此外，SOA自然地捕获了现实世界中视觉标签的长尾分布这打开了研究小镜头学习和知识转移的大门，以在大规模视频数据集上对长尾[41]进行建模4. 多任务。视频不仅仅是对人类行为的描述。它通常描绘一个场景或环境（办公室，篮球场，海滩），并且包括背景对象（图片、门、公共汽车）以及由人操纵或利用的对象（例如，口红、网球拍、扳手）。动作标签提供视频的以人为中心的描述，但忽略此相关上下文信息。然而，今天大多数现有的视频分类数据集只包含人类动作标签。虽然已经提出了一些以对象为中心的视频数据集[28，14]，但还没有建立集成场景，对象和动作的联合识别的视频基准。据我们所知，唯一的例外可能是YouTube-8 M [1]和Charades [31]，其中一些类是纯动作（例如，摔跤），一些表示对象（例如，自行车），和一些DE不E“O B JECTS IN ACTION“（E.G. DRRNKINGFRMACUP）。与上下文信息（场景和对象）以平面分类的形式与动作分类相耦合的原始数据集不同，我们提出了以多任务分类的形式集成场景、对象和动作分类的数据集，其中标签可用于视频中的这三个方面中的每一这使得可以定量评估三个任务之间的协同作用，并在建模过程中利用它例如，使用SOA注释，可以确定对象识别如何有助于消除视频中执行的动作的歧义。此外，这种多任务制定重铸视频理解作为一个全面的问题，包括在动态场景中的多个语义方面的识别。图1显示了SOA视频中不同任务的注释覆盖范围。5. 多标签。最后，我们认为，一个单一的类标签，每个任务往往是不够的，以描述视频的内容。即使是一个帧也可能包含多个突出对象;时间维度添加使得多标签对于视频比对于图像更加重要。如上所述，使用搜索查询来执行有偏采样的数据集1通过独立地考虑来自给定视频的每个标签来计算SOA上的前5个准确度，即，将每个标签与来自模型的前5个预测进行4J. 雷，H.Wang，中国山杨D.特兰湾，澳-地Wang，M.费斯利湖Torresani和M.Paluri图2：采样视频的长度和视图计数的直方图这些distribu- tions包含重尾，将丢失偏置采样。可以回避这个问题，因为它们大多包含单标签假设合理的原型示例。由于更接近真实分布及其包含的所有硬阳性，给定视频的内容不再由给定标签主导。在SOA中，我们要求注释者提供尽可能多的标签来描述识别的三个独立方面（场景，对象和动作），我们相应地采用mAP（平均精度）作为度量标准。2场景-对象-动作本节描述了SOA的创建，分为四个步骤：采样视频、开放世界注释、生成分类法和封闭世界验证。2.1采样视频我们对Facebook上共享的公开视频进行了采样。采样不受长度或视图计数的影响。由此产生的视频是多样的，近似于互联网视频的真实分布，如图2所示。从每个视频中，我们只采样一个大约10秒的片段，开始时间在整个视频中均匀选择。重要的是要注意，无偏采样产生不平衡的长尾类分布，与现有动作识别数据集中流行的动作种类相比，更多的视频包含像“对相机说话”这样的普通标签在收集视频之后，我们遵循用于Kinetics [19]的协议来消除SOA数据集中的重复视频。我们唯一的修改是使用ResNet-50 [11]图像模型作为特征提取器。我们使用相同的协议来删除与以下动作识别数据集的测试和验证集相匹配的 SOA 视频： Kinetics [19] ， UCF101 [33] 和HMDB51 [21]。SOA视频数据集52.2开放世界注释注释的第一个阶段提供了一个带有视频播放器和三个文本输入字段的界面，每个字段分别用于三个SOA方面（场景、对象和动作）。注释者观看剪辑（通常是多次），并键入与这三个方面相对应的任何适用的文本标记。请注意，标签集不是预定义的。每个字段都包含一个自动完成机制，这样注释器就不需要输入整个标记。每个注释者都需要为每个片段的每个方面输入至少一个标签。为了提高回忆率，我们将每个片段发送给至少两个注释者。对于一个受过训练的注释者来说，这个过程平均每个剪辑需要80秒2.3生成分类如上所述，最初一轮标记是不受约束的。然后以几种方式清理所产生的自由形式的注释它们首先被清理以纠正拼写错误，统一同义词和复数，并合并相似的术语。在此通过之后，仅保留具有超过1500个样品的标签。然后手动检查保留的标签并将其细化为最终分类。最终分类法的目标包括：1. R educela belnoise.例如， “head phone” 与 “head s et t” 或“snowbord d”与“kateboard d”都是基于网络的，并且可为该用途提供指导。在一些情况下，这导致重新引入少于1500个样品的标签。2. Vi sualcohernce. 像“jumping”或“we i g h t lifti n g”这样的简单的标签缺乏视觉连贯性，并被更细粒度的标签所取代。如果没有足够的样本将一个标签分成多个标签，我们会消除不相干的标签。3. 共享术语。在构建最终的分类法时，我们求助于经验数据集和本体（例如，MIT Places dataset [45]，WordNet [26]）在可能的情况下提供指导，但没有严格映射到任何现有的分类法。特别地，该过程旨在保持标签的真实分布。分类法在某些区域中被细化，而在其他区域中被粗化，因此粒度被改变，但是没有检索到额外的视频来支持新的标签。相反，所有视频都用新的标签列表重新注释，如下所述。2.4封闭世界验证当将这些标签放入视觉分类时，我们生成了一组从自由格式标签到策展标签的许多自由格式的标签没有改变，并映射到一个单一的策划标签。其他的则与其他的品牌分开或合并这些创建了从自由形式标签到多个策展标签组的映射6J. 雷，H.Wang，中国山杨D.特兰湾，澳-地Wang，M.费斯利湖Torresani和M.Paluri图3：不同的标签倾向于在SOA中共存。在这里，我们将它们与t-SNE的关系可视化[25]。这种嵌入纯粹基于标签同现，而不使用视频内容。上标表示每个类别的样本数量。场景、对象和动作分别为红色、绿色和蓝色这些映射为注释的第二阶段定义了一组验证任务。来自第一阶段的每个标签可以对应于第二阶段中的η个标签。每个方面（场景、对象和动作）的新分类法（其中，如果标签被丢弃，则n为零这些被提供给第二注释工具，该第二注释工具播放视频并将这η个选择显示为选项（经由热键选择），其中包括“NO NE O F T HE AB O VE”选项。请不要观看视频，然后选择所有适用的标签。这个验证步骤平均每个剪辑需要大约30秒。在实践中，n通常等于1，使得任务是二进制的。这个过程可以过滤掉错误的标签，提高精度，但如果原始标签或映射太稀疏，则可能会产生低召回率。我们注意到标签的一个小子集的召回率较低，并将映射致密化为c或rectf或it。我们认为“不超过“的比率这表明我们定义的映射为70%的核查任务。最后，我们删除所有样本少于200的标签，并在表1中总结SOA的统计数据语义相关的标签往往在SOA上共存，我们在图3中使用t-SNE对其进行可视化。3比较SOA本节比较SOA上的不同视频模型。我们概述了实验设置和使用的三种模型，然后提出并讨论了结果。3.1实验装置SOA总共包含562K个视频，这些视频被随机分为训练、验证和测试，分别占70%、10%和20%所有SOA视频数据集7在实验中，我们只使用训练集进行训练，并报告验证集上的指标。SOA的性能是通过计算每个类的平均精度（AP）来衡量的，因为它是一个多标签数据集。对于每个单独的任务（例如，场景），我们报告其所有类的平均AP（mAP）。为了衡量SOA的整体多任务性能，我们使用三个任务的加权平均值，通过不同地加权每个任务来反映三个任务对视频理解的感知重要性：mAPSOA=1/ 6*mAP场景+ 1/ 3*mAP对象+1/ 2*mAP动作。3.2视频模型我们简要介绍了三种流行的视频模型用于评估SOA。Res2D。ResNet [11]是用于图像分类的最成功的CNN模型之一。Res2D[39] 将 ResNet 应用于一组视频帧而不是单个图像。 Res2D 的输入是3L×H×W而不是3×H×W，其中L是帧数，H×W是空间分辨率。由于通道和时间维度被组合成单个维度，所以Res2D中的卷积仅在两个空间维度上。请注意，视频[32]的2D CNN忽略了视频中的时间顺序，并且通常被认为是从视频中学习运动信息的劣化。Res3D。3D CNN [16，38]被设计为通过在3D而不是2D中执行卷积来对视频数据的时间动态进行建模。Res3D [39]将3D卷积应用于ResNet。与Res2D不同，通道和时间维度被分开处理。结果，每个滤波器是4维的（通道、时间和两个空间维度），并且在3D中卷积，即，在时间和空间维度上。本文使用的Res2D和Res3D都有18层。I3D膨胀的3D ConvNet（I3D）[4]是用于视频数据的3D CNN的另一个示例。它基于Inception-v1 [36]模型和批次归一化[15]。I3D最初是作为一种利用ImageNet数据集[5]通过2D到3D膨胀的方法进行视频分类预训练的方法提出的。在这里，我们只采用了这个模型架构，而没有在ImageNet上进行预训练，因为我们有兴趣比较在相同设置下训练的SOA上的不同模型架构（没有预训练）。为了进行公平的比较，我们对所有三个模型使用相同的输入，即包含RGB或光流的32个连续帧的剪辑。由于其效率，我们选择Farneback[7]算法来计算光流。对于数据增强，我们在从给定视频中采样剪辑时应用时间抖动。在将大小调整为171× 128的分辨率后，从视频中随机裁剪出大小为112×112的剪辑。训练是使用Caffe2 [3]在GPU集群上使用同步分布式SGD完成的。交叉熵损失用于SOA上的多标签分类。为了测试，我们从每个视频中均匀地采样10个剪辑，并对10个剪辑进行平均池化以生成视频级预测。除非另有说明，否则我们使用这些设置从头开始训练所有模型8J. 雷，H.Wang，中国山杨D.特兰湾，澳-地Wang，M.费斯利湖Torresani和M.Paluri模型#参数FLOPs输入场景对象行动 SOARes2D11.5M2.6GRGB44.122.826.823.0光流29.714.621.516.7后期融合48.724.732.227.6Res3D33.2M81.4GRGB48.025.933.627.3光流39.420.232.123.6后期融合51.527.437.730.9i3D12.3M13.0GRGB45.422.630.324.5光流34.016.329.220.5后期融合49.424.435.428.5表2：使用SOA的不同输入训练的三个模型对于每个任务，我们只使用该任务的视频和标签进行训练和测试，如表1所示参数和FLOP是为RGB输入计算的对于光流，它们与RGB大致相同。3.3SOA分类结果表2给出了每个模型、输入和任务的mAP。对于RGB和光流流的后期融合，我们从给定视频中均匀采样10个剪辑，并使用训练模型的全局平均池化层从每个剪辑中提取512维特征向量。在10个剪辑上以平均池化来聚合特征。我们规范化和连接的功能，从RGB和光流。一个线性支持向量机进行训练，以分类提取的特征。模型与任务比较表2中不同模型的性能，我们发现3D模型（即，Res3D和I3D）始终优于2D模型（即，Res2D）跨不同任务。这表明3DCNN通常有利于视频分类问题。当我们从场景和对象任务转移到动作任务时，2D和3D模型之间的差距变得更大。这可能是由于场景和对象通常可以从单个帧中识别，而动作需要更多的时间信息来消除歧义，因此可以从3D CNN中受益更多。输入与模型。我们观察到输入模态和模型类型之间的相互作用。当使用3D模型时，光流产生更好的准确性，而在RGB的情况下，2D和3D CNN的性能更接近。例如，当使用Res3D和I3D时，光流产生与用于Ac的 RGB大致相同的mAP，但是当切换到Res2D时，光流的精度下降约5%类似的观察适用于场景和对象。这再次表明3D模型对于利用运动信息是优越任务与输入。为目标任务选择正确的输入至关重要，因为输入封装了模型可以学习的所有信息对于场景和对象，RGB显示出比光流更大的优势正如预期的那样，光流对动作更有用晚期融合已被证明是非常有效的SOA视频数据集9图4：每个类的平均精度与来自该类的训练样本数量之间的关系。场景、对象和动作类分别以红色、绿色和蓝色绘制图5：从混淆矩阵恢复的树结构。我们标记每个类的训练样本和测试AP的数量。用于在双流网络中组合RGB和光流[32]。晚期融合的mAP比表2中的每个单独输入高约2-总的来说，Res3D表现最好，但也是计算成本最高的，具有最高的FLOP和最多的参数，如表2所示。由于其强大的性能，我们使用Res3D进行剩余的实验。3.4讨论在本节中，我们将详细分析SOA的结果，并强调我们的发现。我们选择具有RGB作为输入的Res3D模型，其给出27的mAP。表2中的3。图4显示了AP与每个类别中阳性样本数量之间的强相关性。每个任务最好识别的两个类是人、覆盖文本、草地、室内体育馆、锻炼他人、对着摄像机说话，这些都是SOA中非常常见的类别。为了进一步了解模型的性能，我们构造了一个混淆矩阵。由于SOA是一个多标签数据集，我们采用每个样本的前5个预测，并考虑每个预测和每个地面实况注释的所有对组合。所有这些组合被累加以计算最终混淆矩阵。为了从混淆矩阵中找到有意义的结构，我们递归地合并具有最大混淆的两个类这导致不同的树结构，其中许多类被逐渐合并在一起。图5示出了这样的示例。我们可以清楚地看到，出现在树中的概念在语义上与抽象级别的增加相关。也有一个逐渐转变的概念，从鱼到水，然后与水有关的风景和活动，并漂流远离海滩，沙滩和日落。10J. 雷，H.Wang，中国山杨D.特兰湾，澳-地Wang，M.费斯利湖Torresani和M.Paluri❵❵❵❵❵❵Fine-tuning❵❵预培训UCF101 HMDB51 动力学字谜从头67.633.163.99.8动力学92.669.6N/A16.8Sports-1M90.263.764.613.7SOA84.757.263.915.3表3：用于迁移学习的SOA与Kinetics和Sports-1 M的比较我们考虑了四个目标数据集进行微调，包括 UCF101 ， HMDB51 ， Kinetics 和Charades。请注意，所有这些实验都是基于Res3D模型，RGB作为输入。我们报告mAP的字谜和准确性的其他三个数据集。我们还发现了其他以动物、化妆品、交通工具、健身活动等概念为中心的树。如图5所示，这些树通常包括覆盖场景、对象和动作的多个标签这是另一个证据，即场景，对象和动作任务应该联合解决视频理解和SOA提供了一个机会，推动计算机视觉研究沿着这个方向。4迁移学习强大的迁移学习性能并不是SOA的设计目标，但是很自然地会问到关于这个目标的优点和缺点是什么本节讨论了使用SOA进行迁移学习的结果，即：SOA的预培训和较小数据集的微调我们简要描述了使用的数据集，并比较SOA与现有的大规模视频数据集。然后，我们讨论了SOA的功能，可能会影响其迁移学习能力，并得出结论，与最先进的比较。4.1数据集我们将SOA与Sports-1 M [18]和Kinetics [19]进行预训练，并评估四个目标数据集的微调性能，即：UCF101 [34]，HMDB51 [21]，Kinetics andCharades [31]。Sports-1 M是一个大规模的体育视频细粒度分类基准它拥有487个精细体育类别的110万个视频。我们只使用Sports-1 M的训练集进行预训练。Kinetics拥有约30万个视频，涵盖400个动作类别。测试集上的注释不可公开使用。在这里，我们使用训练集进行预训练，并报告验证集的准确性。UCF101和HMDB51是最受欢迎的动作识别数据集之一。UCF101有13k个视频和101个类，而HMDB51稍小，有7k个视频和51个类。这两个数据集都提供了三个用于训练和测试的分割我们在实验中只使用第一次分裂SOA视频数据集11方法UCF101 HMDB51 动力学字谜ActionVLAD+iDT [8]93.669.8-21.0I3D（双流）[4]98.080.775.7-[44]第四十四话---25.2S3D-G [42]96.875.977.2-ResNeXt-101（64f）[10]94.570.265.1-SOA（光流）86.565.659.116.1SOA（晚期融合）90.767.067.916.9表4：比较SOA上的预训练与最新技术的有效性。对于后期融合，我们遵循第3.3节中描述的相同程序，将表3中的RGB结果与本表中列出的光流结果相结合。与其他数据集不同，Charades是通过众包收集它由157个常见家庭活动的行动类的10k个视频组成我们报告的验证集的字谜mAP。4.2迁移学习结果我们将SOA与两个流行的大规模数据集进行比较：体育-1米和Kinet-ics。在UCF101、HMDB51、Kinetics和Charades上评估微调性能。结果如表3所示。首先，预训练的改进与微调数据集的大小成反比。对于大型数据集（例如，动力学），通过预训练的增益比具有较少样本的数据集小得多（例如，UCF101、HMDB51、Charades）。预训练通常用于缓解目标域上训练数据的稀缺性。如果微调数据集足够大，则可能不需要预训练。我们的第二个观察结果是，这些改进也与用于创建数据集的视频UCF 101、HMDB 51、Kinetics和Sports-1 M都是使用YouTube视频创建的，而SOA使用在Facebook上共享的公开视频。字谜游戏是通过众包构建的。典型地，当预训练和微调数据集使用相同的视频源（例如，YouTube）和采样方法（例如，查询搜索引擎）。这与数据集偏倚的问题有关，已经在几个数据集上观察到[37]。在表3中，Kinetics在UCF101和HMDB51上表现显著良好，但在Charades上的增益变得不太明显。对于SOA，其迁移学习能力与Sports-1 M和Kinetics在Charades上相当，但在UCF 101和HMDB 51上较差。在表4中，我们通过使用SOA作为Res3D的预训练数据集来比较视频分类的最新技术水平最先进的模型倾向于使用更复杂的架构[44，42]，更高级的池机制[8]，更深的模型[10]和重量级输入[4，10]（具有更高分辨率的长剪辑使用简单的Res3D模型对SOA进行预培训通常会产生有竞争力的结果。如5.3节所示，SOA预培训的改进12J. 雷，H.Wang，中国山杨D.特兰湾，澳-地Wang，M.费斯利湖Torresani和M.Paluri35.936.034.734.829.918.3行动SOAA+OA+S行动18.226.514.2对象27.027.326.545.653.949.7场景SOAO+AO+S对象53.250.952.4行动对象场景zzzz任务zzz特征SOAS+AS+O场景(a) 三项任务之间的相关性（b）一项任务对另一项任务的帮助有多大表5：行对应于目标任务，列对应于提取的特征的类型。具有RGB输入的Res3D用于所有实验。随着我们通过添加更多视频或增加类别数量来扩大数据集，它可能会变得更加重要。5多任务调查SOA是专为大规模多任务领域的创新而设计的。在本节中，我们将建立一些关于跨任务学习的功能之间的交互的基线，作为这类问题的一个例子据我们所知，SOA是目前唯一可用的可以进行此类实验的数据集。此前，Jiang et al.[17]提出使用从场景和对象识别中提取的上下文知识来改进电影数据中的动作检索。Ikizler-Cinbis等人[13]提取了可以捕获对象和场景信息的不同类型的特征，并将其与多实例学习相结合以进行动作识别。最近，Sigurdsson et al.[30]研究了完美对象神谕对动作识别的有效性5.1三项任务在这个实验中，我们采用了在三个单独的任务上训练的Res3D模型（以RGB作为输入）。我们依次使用每个模型作为特征提取器分别用于场景、对象和动作。特征提取过程是与第3.3节相同，即，针对给定视频，在10个剪辑上平均池化512维Res3D特征向量。然后，我们针对这三个任务中的每一个，在这三个特征中的每一个上训练线性SVM（总共9次训练运行）。结果总结于表5（a）中。有趣的是，将使用来自表2的RGB的三个任务特定的Res3D模型的性能与表5（a）的对角线轴上的数字进行比较。通过在Res3D特征之上使用SVM分类器来解释这些差异。在考虑所有三个任务的整体性能方面，对象特征是最强的，而场景特征是最弱的。请注意，这个排名也与我们为每个任务提供的注释数量一致（如表1所示）。总的来说，根据表5（a）中的初步结果，例如，即使应用最弱的场景SOA视频数据集13在最难的对象任务上，我们实现了14的mAP。2，考虑到Object任务的难度，这是一个不错的结果这突出了为每个任务利用不同信息的潜力，以及SOA作为激发新研究思路的测试平台的有用性乍一看，表5（a）似乎表明对象特征固有地比场景特征更丰富：对象特征提供更好的准确性（53. 9 mAP）比场景功能（49. 7 mAP）上的场景分类。但是，SOA对对象的注释是对场景的注释的13倍。当我们通过减少对象的特征学习样本数量来控制标签计数时，mAP从53下降。9到465，表明场景特征中可能存在固有价值，尽管场景的标签空间小得多5.2多个任务如何帮助他人在这里，我们研究利用几个任务来解决另一个任务的有效性我们遵循5.1节中描述的相同过程，不同之处在于我们通过将多个特征连接在一起来组合每个任务。结果见表5（b）。乍一看，简单地连接不同的功能似乎并不能显着提高每个任务的性能。对于场景任务，组合所有三个功能确实从49提高了mAP。7到532. 然而，对于对象和动作任务，改进变得微不足道。由于场景是最弱的描述符，将其与更强的特征（如对象）结合可以使场景任务更容易，但反之亦然。此外，通过连接不同的特征来融合它们意味着每个特征在最终分类器中具有相同的权重这不是理想的，因为每个特征的强度不同。因此，设计更复杂的机制来自适应地将不同的特征融合在一起是有吸引力的。有许多创新的方法可以利用不同任务之间的相关性，例如迁移学习和图形模型[20]，我们希望在未来的研究中看到这些方法。5.3视频数量与数量的类别第5.1节中场景特征与对象特征的比较表明，对标签多样性和标记样本数量之间的权衡进行了更仔细的研究在预算有限的情况下，假设每个注释所需的资源是相同的，我们应该如何使用预算来提高SOA的表示能力？作为代表丰富性的代理，我们选择使用迁移学习能力。Huh等人[12]研究了使ImageNet [5]适合迁移学习的不同因素。在这里，我们考虑不同的样本数量和SOA的类别数量的影响。然后，我们将传输性能视为注释总数的函数（而不是视频总数）。我们随机采样子集（即，25%、50%、75%、100%）来构建SOA的较小版本。在第一种情况下，我们随机14J. 雷，H.Wang，中国山杨D.特兰湾，澳-地Wang，M.费斯利湖Torresani和M.Paluri图6：如何有效地扩展SOA的迁移学习能力：视频数量与类别数量。选择视频的给定部分在第二种情况下，我们随机选择一部分标签，从数据集中删除所有其他标签，并丢弃没有标签的视频。第二种情况通常比第一种情况产生更多的视频Res3D模型使用较小版本的SOA进行预训练，然后在UCF101和HMDB51上进行微调。图6中的结果是明确的：对于固定数量的注释，应用于更多视频的较小标签集产生更好的结果。UCF101和HMDB51的微调准确性随着SOA用于预训练的视频数量的增加而迅速增加，而性能似乎随着类别数量的增加而饱和。这表明我们可以通过为SOA注释更多视频来进一步这为我们提供了一个关于将来如何扩展SOA的相关指南。6结论在这项工作中，我们介绍了一个新的大规模，多任务，多标签的视频数据集，旨在铸造视频理解作为一个多方面的问题，包括场景，对象和动作分类。与现有的视频数据集不同，来自SOA的视频被均匀地采样，以避免查询搜索引擎引入的偏见，并且标签源自自由形式的注释，从而避开了固定本体的偏见这就产生了一个比大多数现有的视频分类数据集更具挑战性的基准。我们还提出了一个综合性的实验研究，提供了对SOA的几个因素，包括流行的2D和3D模型实现的性能，RGB与光流的作用，迁移学习的有效性，协同作用和三个SOA任务之间的相关性，以及一些观察，将指导未来的扩展和改进SOA的有见地的分析由于SOA的设计与以前的数据集中采用的设计有很大的不同，我们认为，我们的基准测试的当前和未来价值应该通过其独特的能力来衡量，以支持跨视频识别的不同方面的新类型实验我们相信，这将激发新的研究思路的视频理解。SOA视频数据集15引用1. Abu-El-Haija，S.，Kothari，N.，李，J.，Natsev，P.，Toderici，G.，Varadarajan，B.，Vijayanarasimhan，S.：Youtube-8 m：大规模视频分类基准。arXiv预印本arXiv：1609.08675（2016）2. 北卡罗来纳州巴拉斯姚湖帕尔角Courville，A.：深入研究卷积网络用于学习视频表示。arXiv预印本arXiv：1511.06432（2015）3. Caffe 2-团队：Caffe 2：一个新的轻量级、模块化和可扩展的深度学习框架。 https：//caffe2. ai/4. 卡雷拉，J.，齐瑟曼，A.：你好，动作识别？新模型和动力学数据集。在：CVPR（2017）5. Deng，J.，Dong，W.，索赫尔河Li，L.J.，Li，K.，李菲菲：Imagenet：一个大规模的分层图像数据库。在：计算机视觉和模式识别，2009年。CVPR2009。 IEEEConfencen。pp. 248-255 02TheDog（2009）6. Donahue ， J. ，安妮 · 亨德里克斯 Guadarrama ， S. ， Rohrbach ， M. ，Venugopalan美国，Saenko，K.达雷尔，T.：用于视觉识别和描述的长期递归卷积网络。在： Proceedings of the IEEE conference on computervisionandpat ter nregni t ition中。pp. 26257. F a rnebac¨k，G. ：两个自定义模块将数据存储在聚合物非线性扩展空间中。In：图像分析，第13届斯堪的纳维亚会议，SCIA 2003，Halmstad，瑞典，2003年6月29日至7月2日，出版。pp. 3638. Girdhar 河 Ramanan ， D.Gupta ， A. ， Sivic ， J. ， Russell ， B.C. ：Actionvlad：学习动作分类的时空聚合。在：CVPR（2017）9. 戈亚尔河Kahou，S.E.，Michalski，V.，Materzynska，J.，Westphal，S.，Kim，H. Haenel，V.，弗伦德岛Yianilos，P.，Mueller-Freitag，M.等：什么？什么什么？用于学习和评价视觉常识的视频数据库。见：Proc. ICCV（2017）10. Hara ，K.，Kataoka，H. ，Satoh，Y. ：时空3d cnns能回溯2d cnns和imagenet的历史吗？arXiv预印本arXiv：1711.09577（2017）11. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习。见：CVPR（2016）12. M阿格拉瓦尔，P.，Efros，A.A.：是什么让imagenet适合迁移学习？arXiv预印本arXiv：1608.08614（2016）13. Ikizler-Cinbis，N. Scaroff，S.：对象、场景和动作：结合多个特征进行人体动作识别。在：欧洲计算机视觉会议。pp. 494-507 第二季（2010）14. ILSVRC-2015-VID ： Imagenet 视频挑战中的目标检测。电子邮件www.kaggle.com/c/imagenet-object-detection-from-video-challenge15. Ioffe，S.，Szegedy，C.：批次标准化：通过减少内部协变量偏移来加速深度网络训练。In：ICML（2015）16. Ji，S.，徐伟，杨，M.，Yu，K.：用于人类认知的3D卷积神经网络。IP.A.M. I35（1），22117. Jiang，Y.G.，Li，Z.，Chang，S.F.：建模场景和对象上下文的人的行动检索与几个例子。IEEETransactionsonCircuitsandSystemsforVideoTechnology21（5），67418. Karpathy，A.，Toderici，G.，Shetty，S.，Leung，T.，Sukthankar河李菲菲：用卷积神经网络进行大规模视频分类在：CVPR（2014）19. 凯， W. ，卡雷拉， J. ，西蒙尼扬， K. ，张， B. ，希利尔角Vijayanarasimhan，S.，Viola，F.，Green，T.，退后TNatsev，P.，等：人体动作视频数据集。arXiv预印本arXiv：1705.06950（2017）16J. 雷，H.Wang，中国山杨D.特兰湾，澳-地Wang，M.费斯利湖Torresani和M.Paluri20. 科勒D. Friedman，N.：概率图形模型：原则和技术。麻省理工学院出版社（2009）21. Kuehne，H.，Jhuang，H. Garrote，E.，波焦，T.，塞尔，T.：HMDB51：一个用于人体运动识别的大型视频数据库。In：ICCV（2011）22. Kuehne，H.，Jhuang，H. Garrote，E.，波焦，T.，塞尔，T.：Hmdb：用于人体运动识别的大型视频数据库。In：Computer Vision（ICCV），2011IEEE Inter nati onalConferenceon. pp. 2556-2563 IEEE（2011）23. 拉普捷夫岛：关于时空兴趣点。International Journal of Computer vision64（2-3），10724. 长，X.，Gan，C.，de Melo，G.，Liu，X.，中国科学院院士，李，Y.，Li，F.，温，S.：用于视频分类的多模态无键注意力融合（2018）25. Maaten，L.v.d.，Hinton，G.：使用t-sne可视化数据。Journal ofmachinelearn-ingresearch9（N

下载后可阅读完整内容，剩余1页未读，立即下载