VideoLT：大规模长尾视频识别

56 浏览量更新于2023-10-13 收藏 831KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1VideoLT：大规模长尾视频识别张星1 * 吴祖轩2，3 * 翁泽佳2傅华柱4陈晶晶2，3蒋玉刚2，3†Larry Davis51复旦大学工程技术学院2英特尔上海重点实验室。Info.复旦大学计算机学院，3上海智能视觉计算协同创新中心4Inception Institute of Artificial Intelligence，5马里兰大学摘要现实世界中的标签分布通常是长尾和不平衡的，导致偏向主导标签的模型。虽然长尾识别已被广泛研究的图像分类任务，有限的努力，福尔特已作出的视频域。在本文中，我们介绍了VideoLT，一个大规模的长尾视频识别数据集，作为迈向现实世界的视频识别的一步。VideoLT包含256，218个未修剪的视频，被标记为具有长尾分布的1，004个类。通过广泛的研究，我们表明，国家的最先进的方法用于长尾图像识别不执行在视频域中，由于在视频中的额外的时间维度。这促使我们提出FrameStack，一种简单而有效的长尾视频识别方法.特别地，FrameStack在帧级执行采样以平衡类分布，并且在训练期间使用从网络导出的知识动态地确定采样率。实验结果表明，FrameS-tack可以在不牺牲整体准确率的情况下提高分类性能.代码和数据集可在https://github.com/17Skye17/VideoLT 上获得。1. 介绍深度神经网络在广泛的计算机视觉任务中取得了惊人的成功，如图像分类[18，19，39，41]，对象检测[14，28，34，35]等。训练这些网络需要精心策划的数据集，如ImageNet和COCO，其中对象类均匀分布。然而，现实世界的数据往往具有很长的类别尾巴，训练样本很少，这对网络训练提出了重大挑战。这导致有偏模型在头部类（具有大量训练样本的类别）上表现得*同等缴款。†通讯作者。长尾视频识别通用视频识别图1.长尾视频识别一般的视频识别方法在头部类上过拟合，而长尾视频识别关注头部类和尾部类的性能，特别是尾部类。(Blue方框是头类区域，红色方框是中类和尾类区域。）但对包含有限数量样本的尾类的效果较差（参见图1）。最近，人们对从图像任务的长尾数据中学习越来越感兴趣[4，10，22，29，40，42，47，49，53]。平衡类分布的两个流行方向是重新采样和重新加权。重采样[8，11，16，22，53]方法对尾部类进行上采样，对头部类进行下采样，以从原始数据中获取平衡的数据分布。另一方面，重新加权方法[4，10，27，40，47，52]专注于设计权重以平衡头部和尾部类的损失函数虽然已经针对长尾图像分类任务进行了广泛的研究，但是针对视频分类进行了有限的努力虽然直接将这些方法从图像推广到视频是有吸引力的，但这也是具有挑战性的，因为对于分类任务，视频通常是仅弱79607961为视频序列提供单个标签少量的帧对应于该标签。这使得难以应用现成的重新加权和重新采样技术，因为并非所有片段1都包含信息线索-一些片段直接涉及目标类，而其他片段可能由背景帧组成。因此，对所有片段使用固定权重/采样策略来平衡标签分布是有问题的对于长尾视频识别，我们认为头部和尾部类之间的分布平衡应该在帧级而不是在视频（样本）级执行-应该对尾部类的视频中的更多帧进行采样以进行训练，反之亦然。更重要的是，帧采样应该是动态的，基于训练过程中不同类别的这有助于防止头类的过拟合和尾类的欠拟合。为此，我们引入了FrameStack，这是一种简单而有效的长尾视频分类方法。FrameS-tack操作视频功能，并可以插入到最先进的视频识别模型与最小的手术。更具体地，给定保留输入片段的时间维度的顶级分类模型，我们首先计算特征序列作为FrameStack的输入，即，对于具有T帧的输入视频，我们获得T个特征表示。为了减轻长尾问题，我们定义了一个时间采样率，以选择不同数量的帧从每个视频的目标类的模型的识别性能的条件。如果网络能够为要分类的类别提供不错的性能，那么我们在这个类别中使用更少的视频帧。相反，如果网络不确定其感兴趣的类别，我们使用在训练数据上计算的每个类别的运行平均精度（AP）来证明该比率。直觉上，AP是一个数据集度量，提供有关模型在每个类别上的性能的有价值信息，并且在训练期间是动态的，作为迄今为止取得的进展的直接指标因此，我们可以自适应地对具有高AP的类进行欠采样，以防止过拟合，并对具有低AP的类进行上采样。然而，这导致具有不同时间维度的样本，并且这样的可变长度输入对于当前训练流水线不是并行友好的。受将两个样本[43，50]混合为虚拟输入的最新数据增强技术的启发，FrameStack对一对输入视频执行时间采样，然后将重新采样的帧特征合并以形成新的特征表示，该特征表示与其输入具有相同的时间维度。然后，所得到的特征可以容易地用于最终识别。我们还调整了相应的la-1我们使用贝尔以时间采样率为条件。此外，我们还收集了一个大规模的长尾视频识别数据集VideoLT，该数据集由256，218个视频组成这些视频被手动标记为1，004个类别，以涵盖广泛的日常活动。我们的 VideoLT 有 47 个头部类（ #videos>500 ）， 617 个中等类（ 100#videos=500）和340个尾部类（#videos= 100），自然有一个长尾类别。<我们的贡献总结如下：• 我们收集了一个新的大规模长尾视频识别数据集VideoLT，其中包含256，218个视频，这些视频被手动注释为1，004个类。据我们所知，这是第一个• 我们提出了FrameStack，这是一种简单而有效的长尾视频识别方法。 FrameStack使用从网络学习到的知识导出的时间采样率，以动态地确定应该对多少帧进行采样。• 我们使用流行的长尾方法进行了广泛的实验我们证明了现有的长尾图像方法不适合长尾视频识别。相比之下，我们的FrameS-tack结合了一对视频进行分类，并实现了更好的性能相比，替代方法。数据集、代码和结果可以在https://github.com/17Skye17/VideoLT上找到。2. 相关工作2.1. 长尾图像识别长尾图像识别已经被广泛研究，并且有两种流行的方法：重新加权和重新采样。重新加权重新加权的一个简单的想法是使用逆类频率来加权损失函数，以便重新平衡每个类对最终损失的贡献。然而，逆类频率通常导致在真实世界数据上的较差性能[10]。为了解决这个问题，Cui等人。[10]使用精心挑选的样本为每个类重新加权损失。Cao等人[4]提出了一种理论上有原则的标签分布感知余量损失和一种新的训练时间表DRW，该时间表在训练期间推迟重新加权。与这些方法相反，EQL [40]证明了尾部类在训练期间接收到更多令人沮丧的梯度，并忽略这些梯度7962131211109876543图2. VideoLT的分类结构。有13个顶级实体和48个子级实体，子级实体的子被采样。完整的分类学结构可以在补充材料中找到梯度将防止模型受那些梯度的影响。对于视频，重新加权损失是次优的，因为用于训练的片段包含与感兴趣的类别相关的不同数量的信息线索-向来自尾类别的背景片段分配大的权重将可能为训练带来噪声。重新取样。有两种常见的重新采样类型：过采样和欠采样。过采样[8，16]通常重复来自尾类的样本，欠采样[11]放弃来自头类的样本。最近，类频率用于类平衡采样[22，30，36，53]。 BBN [53]指出，培训长尾数据上的端到端方式的模型可以提高分类器的辨别能力，但是损害了网络的表示学习。Kang等人[22]表明仅通过训练分类器就可以实现强大的长尾识别性能。受这些观察结果的启发[22，53]，我们将长尾视频识别的特征表示和分类但与这些标准的重新采样方法不同，我们通过连接来自不同视频剪辑的帧来重新采样视频。搞混了Mixup [51]是一种流行的数据增强方法，它在像素级线性插值两个样本及其目标。最近有几种从不同角度改善混淆的方法。例如 Manifold Mixup [43]将mixup从输入空间扩展到特征空间。CutMix [50]剪切一个显著的图像区域并将其粘贴到另一个图像。PuzzleMix [24]使用显着信号，而不去除输入的局部属性。ReMix [9]设计了非纠缠混合因子0 110 220 330 440 550 660 770 880 990标记指数图3.现有视频数据集和VideoLT的类频率分布。VideoLT在对数坐标系中具有优良的线性，这意味着VideoLT的类频率分布接近长尾分布。解决分配不平衡问题，提高少数民族班的成绩。最近，一些研究表明，mixup在处理长尾问题时也很强大[9，53]，因为它为模型带来了更高的鲁棒性和更平滑的决策边界，并且可以减少头类的过拟合。我们的方法类似于mixup，因为我们也合并两个视频并混合它们的标签。然而，FrameStack沿着时间维度对帧特征进行操作，但更重要的是，FrameStack中的混合比率基于来自网络模型的知识是动态的2.2. 通用长尾视频识别已经对使用深度神经网络的视频识别进行了广泛的研究[7，12，13，20，26，33，45]或用于视频识别的训练方法[46]。这些方法专注于通过开发插件模块[26，45]或仔细设计端到端网络结构[12，13]来学习更好的时间建模功能。最先进的视频识别模型主要使用一般视频识别数据集进行实验，以证明其在建模长期时间关系[20，45]或捕获短期运动动态[7，12，26，33]方面的能力。然而，有限的努力已经取得了长尾视频识别由于缺乏适当的基准。Zhu和Yang [54]提出了膨胀情景记忆来解决图像和视频中的长尾视觉识别。然而，存储器组在[54]这是一个需要资源的问题。FrameStack使用来自网络的体外知识，计算效率更高DatasetActivityNetCharadesKinetics-400Kinetics-600Kinetics-700FCVID什么什么AVA视频视频/帧数量（日志）7963--V {}V用于重采样，并且因此更高效，而无需关注存储器槽。此外，FrameStack是一种插件式的数据增强策略，可以很容易地应用于模型训练。3. VideoLT数据集我们现在详细介绍VideoLT，这是一个为长尾视频识别设计的大规模基准测试与现有的专注于动作或活动的视频数据集[3，7，23，25，38]相比，VideoLT被设计为通用的，并涵盖广泛的日常活动。我们手动定义一个包含13个顶级类别的层次结构，包括：动物，艺术，美容和时尚，烹饪，DIY，教育和技术，日常生活，家务，休闲和技巧，音乐，自然，体育和旅游。详情请参见图 2 。对于每个顶级类，我们使用ConceptNet来查找子级别类别。最后，我们选择了1004个类进行注释。为了获得更多样化的视频数据集，我们不仅使用分类系统中定义的类别，而且还扩展了具有相同语义的标签。然后我们使用这些标签从YouTube搜索和抓取视频。对于每个类别，删除重复视频和一些非常长的视频，并且所有类别的视频数量大于80。为了确保注释质量，每个视频由三个注释器标记，并且使用多数投票来确定最终标签。更多详细信息，请参见补充材料。VideoLT被分成训练集、验证集和测试集，分别使用70%、10%和20%的视频为了更好地评估长尾识别方法，我们定义了 47 个头部类（#videos>500），617个中等类（100#videos<=500）和340个尾部类（#videos<= 100）。<请参见柔顺。有关详细信息与现有视频数据集的比较我们在图中可视化。3来自ActivityNet v1.3 [3] 、 Cha- rades [37] 、 Kinetics-400[ 7 ]、Kinetics-600 [5]、Kinetics-700 [6]，FCVID [21]，Something-something v1 [15]，AVA [31]和VideoLT。VideoLT在对数坐标系中具有优良的线性度，这意味着VideoLT的类频率分布接近于长尾分布。值得注意的是，YouTube-8 M是一个大规模的数据集，有3,862个类和680万个视频[1]。有了这么多的类别，数据集自然会像我们一样有一个长尾分布。然而，YouTube-8 M中的类是由算法自动推断的，而不是手动定义的。每个视频类至少有200个样本用于训练，比我们高出两倍。此外，它没有提供头部，中等，尾部类，以更好地评估长尾方法。4. FrameStack我们现在介绍FrameStack，这是一种简单而有效的长尾视频识别方法。在图像识别任务中，输入样本总是对应于它们相应的标签。然而，对于视频识别，由于视频数据的弱标记性质而可能不包含信息线索的片段也可以从视频序列中采样用于训练。具有用于长尾图像识别的固定重采样/重加权策略的流行技术因此不适用，因为它们在计算损失时将放大背景片段中的噪声为了减轻视频任务的不平衡类分布，FrameStack在帧级重新采样训练数据，并采用基于网络本身学习的知识的动态采样策略。FrameStack背后的基本原理是动态地从尾部类中的视频中采样更多的帧，并对头部类中的视频使用更少的帧。我们不是直接对原始RGB帧进行采样以平衡标签分布，而是通过使用能够保留视频中的时间维度的最新模型在特征空间中进行操作[13，26]2。这使得FrameStack可以很容易地用作流行模型的插件模块，以解决视频数据集中的长尾问题，而无需重新训练整个网络。更正式地，我们将具有L个帧的视频序列表示为=f1，f2，. . .，fL，并且其标签为y。然后，我们使用一个顶级模型（更多细节将在实验部分中描述）来计算，并且所得到的表示被表示为V=v1，v2，. . .，vL.为了确定应该从V中选择多少帧来训练分类器，我们在训练期间计算运行平均决策（rAP），以评估整个数据集上每个类别的网络性能。对于每个小批量的训练样本，我们记录它们的预测和地面实况。在一个epoch之后，我们计算训练集上每个类的ap我们将此指标称为运行AP，因为模型的参数在每个小批处理中都会发生变化。虽然它不像标准平均精度那样准确，但它提供了关于模型如何针对不同类执行的相对度量。如果模型对rAP建议的某些类别非常有信心然而，这为批量中的不同样本创建了可变长度的输入，这对于当前GPU架构来说不是并行友好的。此外，难以将rAP直接转换为要使用的样本的数量为了解决这个问题，FrameStack对一对视频样本（Vi，yi）、（Vj，yj）进行操作，这对视频样本是在一批中随机选择的。基于它们的地面实况标签，我们可以获得2大多数顶级识别模型直到网络结束才执行时间下采样。7964^ ^您的位置：←∈∈˜~^^端−M（V，y~）∈M对应的rAP，分别用于类yi和yj的rAPi和rAPj然后，我们将时间采样率定义为：算法一：FrameStack的伪代码。结果：更新了rAP列表。更新模型fθ输入：数据集D={（Vi，yi））}n .模型fθβ=rAPirAPi+rAPj 、（1）初始化rAP= 0，ε= 1e−5i=1其中，β指示到目前为止网络对类别yi和yj的相对性能然后，从Vi和Vj采样的帧的数量分别为Li和LjLi=[（1−β）×L.（二）Lj=[β×L然后，我们生成两个新的片段Vi和Vj，长度为Li和Lj分别从Vi和Vj通过uni-表格抽样通过连接V^i和V^j，我们获得/*M：小批量视频*/对于e MaxEpochdo对于（V，y）Mdo（（Vi，yi）），（Vj，yj））采样器（D，M）如果（rAPi+ rAPj）<ε，则β= 0。5其他rAPirAPi+rAP jLi←[（1−β）×LLj←[β×L长度为L的n个新样本V：/*V^i，V^j：均匀采样V〜=Concat（[V^i;V^j]）。（三）来自Vi，Vj的Li，Lj帧* */^No wV~成为包含cat-的多标签片段Vi←Unifor m（Vi[Li]）V^j←Unifor m（Vj[Lj]）yi和yj的理论。我们将按β缩放的V向量关联起来：使用多标签V←Concat[Vi，Vj]y~←（1−β）×yi+β×yjy~=（1-β）×yi+β×yj，（4）L（fθ）←1L（（V~，y~）;fθ）然后，V~和y~可以被时间聚集使用fθ←fθ−δθL（fθ）分类模块。请注意，在训练过程开始时，所有类别的识别准确率都很低，因此β并不准确。为了补救这一点，当（rAPi+rAPj）1∈5时，我们将β设置为0.5以对来自两个视频的一半帧进行<算法1总结了整个训练过程。值得指出的是，FrameStack与mixup [51]具有相似的精神，它将两个样本线性插值作为数据增强来规范网络训练。在这里，我们不是混合帧，而是将采样的视频片段与不同的时间步长连接起来，以解决长尾视频识别问题。如将在实验中示出的，FrameStack在视频分类的上下文中通过清晰的边缘胜过混合。FrameStack可以被视为基于每个类的平均精度的类级重新平衡策略，我们还使用焦点损失[27]，其基于样本预测调整二进制交叉熵。5. 实验5.1. 设置实施详情。在训练过程中，我们将Adam优化器的初始学习率设置为0.0001，并每30个epoch降低一次;我们通过随机采样60帧作为输入来训练最多100个时期，并且批量大小被设置为128。在测试时间，150帧均匀采样的原始特征。对于FrameStack，我们使用β=7965←/*rAP：一个运行每个类别的平均精度*/rAPAPC计算器返回rAP端混合比η，以控制在小批量中混合多少样品，并将η设定为0.5。此外，FrameStackL的剪辑长度设置为60。骨干网。为了验证我们的方法对于长尾视频识别的推广，我们遵循实验设置作为解耦[22]。我们使用两种流行的主干来提取特征，包括：ResNet-101 [18]在ImageNet上预训练，ResNet-50 [18]在ImageNet上预训练。我们还使用ResNet-50 [26]作为其主干对TSM [26]进行了实验，并且该模型在Kinetics-400上进行了预训练。我们从网络的倒数第二层提取特征，得到维度为2048的特征。我们以1fps的速度解码所有视频，然后将帧大小调整为256，并将它们的中心作为输入;这些帧被均匀地采样以构造长度为150的序列。请注意，由于计算限制，我们不会在VideoLT上微调网络此外，我们希望FrameStack可以作为一个插件模块，以最小的手术现有的骨干。此外，鉴于视频的特征，我们主要使用非线性7966ResNet-50ResNet-101LT方法总体[500，+∞）[100，500）[0，100）Acc@1Acc@5头部中尾部总体[500，+∞）[100，500）[0，100）Acc@1Acc@5头部中尾部基线0.4990.6750.5530.3760.6500.8280.5160.6870.5680.3960.6630.837LDAM + DRW 0.5020.6800.5570.3780.6560.8110.5180.6870.5720.3970.6640.820EQL0.5020.6790.5570.3780.6530.8290.5180.6900.5710.3980.6640.838CBS0.4910.6490.5450.3710.6400.8200.5070.6600.5590.3900.6520.828CB损失0.4950.6530.5460.3810.6430.8230.5110.6650.5610.3980.6560.832mixup0.4840.6490.5350.3680.6330.8180.4950.6600.5460.3810.6410.824我们0.5160.6830.5690.3970.6580.8340.5320.6950.5840.4170.6670.843表1.使用从ResNet-50和ResNet- 101（与非线性模型聚合）中提取的特征进行长尾识别的不同方法的结果和比较，我们的方法FrameStack优于其他为图像分类设计的长尾方法。分类器具有两个完全连接的层以在时间上聚合为了证明特征的有效性，我们还使用NetVLAD进行了64个聚类的特征编码[2]实验，隐藏大小设置为1024。评估指标。为了更好地理解长尾分布的不同方法的性能，除了数据集方面的mAP、Acc@1和Acc@5之外，我们还计算了头部、中间和尾部类的平均精度。长尾视频识别要求算法在不牺牲整体性能的前提下，在尾部类上获得良好的性能，这对现有的视频识别模型提出了新的挑战。5.2. 结果与SOTA方法的比较。我们将FrameS-tack与广泛用于图像识别任务的三种长尾方法进行比较（参见补充材料中的细节和其他扩展，包括平方根采样和两阶段方法）：重新采样：我们实现了类平衡采样（CBS）[22，36]，它对来自不同类的数据使用均衡采样策略。在小批量中，它采用随机类，然后随机采样视频，因此来自头部和尾部类的视频共享相同的被选择概率。重新加权：考虑每类的采样频率来计算交叉熵或二进制交叉熵的权重。我们用类平衡损失[10]、LDAM损失[4]和EQL [40]进行实验。数据增强：我们使用流行的方法Mixup [51]进行比较。为了进行公平的比较，在特征空间中以FrameS-tack的形式执行混合。特别是，mixup混合了来自两个通过逐帧地对视频的特征进行求和，以小批量处理视频。表1总结了VideoLT上不同方法的结果和比较。我们观察到，与使用ResNet-50和ResNet-50的头部类相比，尾部类的性能明显更101所有方法这凸显了长尾视频识别算法的挑战。此外，我们可以看到流行的图像分类任务的长尾识别算法并不适合视频识别。与未使用任何重加权和重采样策略的基线模型相比，类平衡采样和类平衡损失导致性能略有下降; LDAM+DRW和EQL在总体类和尾类方面实现了相当的性能。对于mixup，其性能与基线模型相比甚至更差，可能是由于特征之间的混合使得训练困难。相反，我们的方法取得了更好的结果相比，这些方法。特别地，当使用 ResNet-101 特征时，FrameStack实现了53.2%的总体mAP，与基线和性能最佳的基于图像的方法（即LDAM+DRW和EQL）。此外，我们可以观察到，尽管CB损失在尾部类上带来稍微更好的性能，但这是以整体类的性能下降为代价的与CB Loss相比，FrameStack显著提高了尾类的性能2.1%，而不会牺牲整体结果。具有更强大主干的扩展。我们还使用ResNet-50作为其骨干的TSM模型进行了实验，以证明我们的方法与为视频识别设计的更强大的网络的兼容性此外，我们使用两种特征聚合方法，以获得一个统一的表示分类。结果总结在表2中。我们观察到与Ta类似的趋势···7967LT方法总体[500，+∞）[100，500）[0，100）头部中等尾部模型CB战略总体[500，+∞）[100，500）[0，100）头部中等尾部基线LDAM +DRW EQLCBSCB丢失混淆我们的0.565 0.757 0.6200.565 0.750 0.6200.567 0.757 0.6230.558 0.733 0.6120.563 0.744 0.6160.548 0.7360.6020.580 0.759 0.632-0.5160.6870.5680.396β = 0。50.4140.5890.4600.308非线性带CF和rAP0.5200.5320.6800.6950.5710.5840.4050.417-0.6680.7750.7070.584β = 0。50.6480.7580.6840.567NetVLAD带CF和rAP0.6630.6700.7670.7800.6990.7070.5840.590表3.使用运行AP和β的其他变体来确定应该使用来自视频剪辑的多少帧的结果和比较。表2.使用TSM（ResNet-50）的结果和比较。顶部：使用非线性模型聚合的特征;底部：使用NetVLAD聚合的功能。表1使用非线性模型-FrameStack，对于整体和尾部类，分别比基于图像的长尾算法好1.5%和2.3%。此外，我们可以看到，在Kinetics上预训练的TSM模型的特征优于图像预训练的特征（58.0%vs.53.2%）。此外，我们可以看到，我们的方法也是compat- ible与更先进的功能聚合策略，如 NetVLAD 。更具体地说，使用NetVLAD，FrameStack在整体类和尾部类方面分别比基线方法高出0.7%和1.2%。5.3. 讨论我们现在进行一系列的研究，以证明我们的框架中的不同组件的贡献，并提供相应的讨论。AP的有效性。在整个实验过程中，我们主要以AP作为衡量标准来调整帧数特别地，我们采用每个类的逆频率来计算针对头部和尾部类采样的帧的数量，然后将两个剪辑连接为FrameStack。我们观察到，重新采样视频类频率的结果在0.5%的性能下降的NetVLAD模型。相反，使用运行平均精度是用于对帧进行重采样的更好方式，因为它是基于迄今为止由网络学习的知识动态导出的。因此，它根据特定类别的性能改变采样率，这防止了对表现最好的类别的过拟合，同时避免了对表现不佳的类别的欠拟合。如前所述，将弱标记的视频视为图像，然后使用类别频率对其进行重新采样/重新加权可能是有问题的，因为一些片段可能由背景帧组成。损失函数的有效性。如上所述，我们的方法对来自不同类别的数据进行重新采样，并使用焦点损失进行训练。我们现在研究我们的方法与不同损失函数的性能，结果总结在表4中。我们观察到，使用FrameS-tack与两个损失函数兼容，在没有任何重采样/重加权策略的情况下优于基线模型对于非线性模型，FrameStack实现了更好的性能，而对于NetVLAD，FrameStack具有在FrameStack中使用为了测试AP的有效性，我们也可以用恒定的β和类频率进行实验。结果总结于表3中。对于一个常数β，我们测试β的一个变量，其中β=0。在整个训练过程中，对于所有类别采用相同数量的帧。结果表明，与基线相比，非线性和NetVLAD模型的总体mAP分别下降了10.2%和2.0%，这表明在长尾视频识别场景中，对尾类采样更多帧，对头类采样更少帧是一种更实用的策略。类频率是广泛用于基于图像的长尾识别的另一种流行度量[22，30，36，53]。在二进制交叉熵损失（BCE）稍微好一些。混合比的有效性。我们还研究了由混合比η确定的在小批次中混合的样品数量对性能的影响。从表5中我们发现，随着η增加，总体和尾部类别的性能在开始时增加，然后降低-η= 0。5达到了我们的FrameStack中采用的最高性能。这表明在一个时期内混合所有数据会使训练更加困难。FrameStackvs.搞混了我们比较性能整体类和尾部类的FrameStack和Mixup非线性模型NetVLAD模型基线0.6600.8030.7080.554LDAM + DRW0.6270.7790.6750.519EQL0.6650.8080.7130.557CBS0.6620.8060.7080.558CB损失0.6660.8010.7120.566Mixup0.6590.8000.7060.556我们0.6670.8060.7130.5667968TSM（ResNet-50）ResNet-101LT方法总体[500，+∞）[100，500）[0，100）Acc@1 Acc@5总体[500，+∞）[100，500）[0，100）Acc@1Acc@5头部中等尾部头部中等尾部基线0.5650.7570.6200.4360.6800.8510.5160.6870.5680.3960.6630.837FrameStack-BCE0.5680.7510.6220.4450.6790.8550.5210.6840.5710.4060.6600.839FrameStack-FL0.5800.7590.6320.4590.6860.8590.5320.6950.5840.4170.6670.843NetVLAD基线0.6600.8030.7080.5540.6950.8700.6680.7750.7070.5840.7000.864FrameStack-BCE0.6690.8070.7150.5680.7110.8720.6710.7810.7070.5890.7090.858FrameStack-FL0.6670.8060.7130.5660.7080.8660.6700.7800.7070.5900.7100.858表4.我们的方法使用不同的损失函数和与基线的比较的结果。FrameStack补充了非线性模型和TSM（ResNet-50），ResNet-101功能的焦点损失。火箭头装显示器道路施工混凝土浇筑爬上比萨斜塔展示时尚帽子节能灯泡制作ADreamCatcher0.0 0.10.20.3 0.4平均精度0.5 0.6表5.混合比η的有效性，测试结果基于ResNet-101特征和NetVLAD模型。我们观察到，前10个班级中有80%是图4. FrameStack超过Mixup的1004个类中的前10名。40%的班级是行动类。火箭头架展示道路施工浇筑混凝土狼表演时尚帽子节能灯泡制作广告范围捕手seaStar考古学家0.0 0.1 0.2 0.3 0.4 0.5 0.6平均精度图5.FrameStack超过Mixup的340个尾类中的前10名比较图4，我们看到FrameStack主要在尾部类上实现了更好的性能。具体来说，我们计算FrameStack和Mixup之间每个类在图4中，我们将FrameStack优于Mixup的1，004个类中的前10个类比较图4和图5tail类，这表明FrameStack比Mixup更有效，特别是在识别tail类方面。6. 结论本文介绍了一个大规模的长尾视频数据集VideoLT，旨在推动长尾视频识别的研究长尾视频识别是一项具有挑战性的任务，因为视频通常是弱标记的。实验结果表明，现有的长尾方法，取得了令人印象深刻的图像任务的性能是不适合视频。在我们的工作中，我们提出了FrameS- tack，它通过使用- ING运行AP作为动态测量在帧级执行采样。FrameStack自适应地从不同的类中选择不同数量的帧在不同的主干和聚合模型上进行的大量实验表明，FrameStack优于所有竞争者，并在整体和尾部类上带来了明显的性能提升。未来的方向包括利用弱监督学习[32，44]，自监督学习[17，48]方法来解决长尾视频识别。确认这项工作得到了国家自然科学基金（#62032006）的部分资助方法混淆我们的非线性方法混淆我们的η总体[500，+∞）[100，500）[0，100）Acc@1Acc@5头部中尾部00.6680.7750.7070.5840.7000.8640.30.6670.7800.7070.5860.710 0.8600.50.6700.7800.7070.5900.710 0.8580.70.6690.7800.7070.5850.709 0.8600.90.6680.7740.7040.5880.706 0.8597969引用[1] Sami Abu-El-Haija，Nisarg Kothari，Joonseok Lee，PaulNatsev ， George Toderici ， Balakrishnan Varadarajan ，and Sudheendra Vijayanarasimhan. Youtube-8 m：一个大规模视频分类基准。arXiv预印本arXiv：1609.08675，2016。4[2] Relja Arandjelovic，Petr Gronat，Akihiko Torii，TomasPa-jdla和Josef Sivic。Netvlad：用于弱监督位置识别的CNN架构。在CVPR，2016年。6[3] Fabian Caba Heilbron Victor Escorcia Bernard Ghanem和胡安·卡洛斯·尼布尔斯Activitynet：人类活动理解的大规模视频基准。CVPR，2015。4[4] Kaidi Cao ， Colin Wei ， Adrien Gaidon ， NikosArechiga，和马腾宇。学习具有标签分布感知的边际损失的不平衡数据集。在NIPS，2019。一、二、六[5] Joao Carreira，Eric Noland，Andras Banki-Horvath，ChloeHillier和Andrew Zisserman。关于动力学的简短说明-600。arXiv预印本arXiv：1808.01340，2018。4[6] Joao Carreira Eric Noland Chloe Hillier和Andrew Zis瑟曼关于动力学-700人类行动数据集的简短说明。arXiv预印本arXiv：1907.06987，2019. 4[7] Joao Carreira和Andrew Zisserman。Quo vadis，开拍认可？新模型和动力学数据集。在CVPR，2017年。三、四[8] Nitesh V Chawla，Kevin W Bowyer，Lawrence O Hall，andW菲利普Kegelmeyer。Smote：合成少数过采样技术。JAIR，2002年。第1、3条[9] 周新平，张世杰，潘家玉，魏伟，还有大程娟Remix：重新平衡混音。在ECCV，2020年。3[10] Yin Cui，Menglin Jia，Tsung-Yi Lin，Yang Song，andSerge贝隆吉基于有效样本数的类平衡损耗。在CVPR，2019年。一、二、六[11] 克里斯·德拉蒙德阶级不平衡和成本敏感性：为什么欠采样胜过过采样。在ICML-KDD Work-shop，2003年。第1、3条[12] 克里斯托夫·费希滕霍夫。 X3d：扩展高效的视频识别在CVPR，2020年。3[13] Christoph Feichtenhofer ， Haoqi Fan ， Jitendra Malik ，and Kaiming He.用于视频识别的慢速网络。在ICCV，2019年。三、四[14] 罗斯·格希克。快速R-CNN。在ICCV，2015年。1[15] Raghav Goyal，Samira Ebrahimi Kahou，Vincent Michal-ski ， Joanna Materzynska ， Susanne Westphal ， HeunaKim，Valentin Haenel，Ingo Fruend，Peter Yianilos，Moritz Mueller-Freitag，et al.学习和评估视觉常识的“某事某事”视频数据库。InICCV，2017. 4[16] Han Hui，Wen-Yuan Wang，and Bing-Huan Mao.边缘打击：一种新的非平衡数据集学习的过采样方法。ICIC，2005年。第1、3条[17] Tengda Han，Weidi Xie，and Andrew Zisserman. 自我-用于视频表示学习的监督式协同训练。在NIPS，2020年。8[18] Kaiming He，Xiangyu Zhang，Shaoying Ren，and Jian Sun.用于图像识别的深度残差学习。在CVPR，2016年。一、五[19] 杰虎，李申，孙刚。挤压-激发网络7970工程. 在CVPR，2018年。1[20] Noureldien Hussein ， Efstratios Gavves ， and ArnoldWM Smeulders. 复杂动作识别的时间感受。在CVPR，201

下载后可阅读完整内容，剩余1页未读，立即下载