没有合适的资源?快使用搜索试试~ 我知道了~
聚合视点以提升视频分类器性能
17052只见树木不见森林:聚合多个视点以更好地分类视频中的对象黄锡俊1MiranHeo1吴锡俊2Seon JooKim11延世大学2Adobe Research{sj.hwang,miran,seonjookim} @ yonsei.ac.krseoh@adobe.com摘要最近,长尾识别和目标跟踪都取得了很大的进展。TAO基准提出了两者的混合,长尾目标跟踪,以进一步反映现实世界的方面。到目前为止,现有的解决方案已经采用了在长尾分布中显示鲁棒性的检测器,其产生每帧结果。然后,他们使用跟踪算法,结合时间独立的检测来最终确定轨迹。然而,由于这些方法没有考虑场景中的时间变化,视频中不一致的分类结果导致整体性能较低。在本文中,我们提出了一套分类器,提高分类轨迹的准确性,通过聚合信息,从多个观点包含在一个轨迹。为了应对视频中的稀疏注释,我们进一步提出了可以最大限度地提高数据效率的tracklet的增强。集合分类器是即插即用现有的目标跟踪器,并大大提高了长尾目标跟踪的性能通过简单地将我们的方法附加到ResNet-101之上的QDTrack,我们在TAO验证集和测试集上分别实现了新的最先进的19.9%和15.7%的TrackAP50。我们的代码可在此链接1.1. 介绍目标跟踪是计算机视觉中一个长期存在的问题,因为它在监控和自动驾驶应用中起着关键作用。有许多用于跟踪的数据集和基准[1,14,23,31,47]以及一长串跟踪算法[3,4,41,51,58]。与许多其他计算机视觉任务一样,跟踪算法的性能也随着深度学习而发生了飞跃。即使在对象跟踪方面取得了巨大进步,最先进的跟踪器的性能在具有大量对象词汇的现实世界场景中也开始下降[9]。这是因为大多数跟踪基准只包括一小部分对象,如行人、车辆和...1https://github.com/sukjunhwang/set分类器…(一)(b)第(1)款轮椅图1.(a)接收瞬时场景的每帧分类器轮椅)。另一方面,在一项研究中,(b)我们提出的集合分类器通过聚合轨迹片段的多个视点,考虑到整个时空特征,显示出对尾部类别的鲁棒性。imals,针对特定应用,如自动驾驶。为了在一般环境中的真实世界中部署跟踪器,跟踪器必须能够处理更大的对象集,如图像检测问题[15]。为此,最近引入了一种称为TAO [9]的用于跟踪任何对象的该数据集包含800多个类别,比以前的跟踪基准多一个数量级。在[9]中,研究表明,大多数最新的跟踪器不能很好地适应对象词汇量的增加虽然跟踪算法集中在准确地找到对象框并跟踪它们,但对对象的分类关注较少,主要是由于词汇量较小随着对象类别增长到实际大小,分类对于整体跟踪性能变得至关重要。经过全面分析,[9]人人人人轮椅椅子椅子椅子人轨迹片段逐帧分类器集合分17053在本文中,我们表明,聚集多个视点的轨迹是关键的分类大词汇的视频。tracklet指的是不同帧中共享相同标识的一组框虽然轨迹片段中的对象外观可能会发生很大变化,但现有方法[3,9,35]从图1(a)所示的每帧分类结果集合中确定轨迹片段的类别由于没有考虑来自时间变化的场景变化,因此它们容易受到包括运动模糊或遮挡的外观变化的影响。更重要的是,这样的情况下,在尾部类带来严重的性能恶化具体来说,在不平衡数据上训练的检测器对频繁类更有信心,这种情况会导致尾部类的性能严重恶化。为此,我们提出了一个集合分类器,它考虑了整个轨迹的时空特征(图1(b))。通过这种设计,集合分类器被提供有足够的信息以从大词汇表中确定类别因此,集合分类器获得了对时间偏移的鲁棒性和避免最终预测因瞬时故障而崩溃的能力,从而导致尾部准确性的显著提高。为了充分监督集合分类器获得利用时空信息的能力,该模块使用视频数据进行训练。与只能使用逐帧检测[3,9,35]对大词汇表进行分类的现有方法相比,集合分类器的本质是通过聚合来自多个源的信息来评估整个轨迹片段的能力集合分类器的结构设计简单但功能强大;它是几个Transformer层的堆栈[46]。接收与组成轨迹片段的预测框对应的多个区域特征[16],集合分类器关注大型词汇分类所需的相关信息。然而,由于注释视频所需的巨大努力[9],注释预算不足以在复杂的长尾场景下对tracklet进行分类的监督。作为一个解决方案,这个困境,我们提出了增强方法生成的轨迹,具有视频特性:一个对象的各种观点具体来说,tracklet是利用来自多个源视频和图像的区域建议[38]动态生成的为了进一步充分利用有限数量的注释,增强tracklet可以由多个身份组成利用我们的方法,可以获得大量由稀有类组成的tracklet样本,并且集合分类器获得了成功区分视频中大词汇的能力。采用我们的集合分类器的结果在长尾跟踪的高性能改善有了插头-可玩设计,我们在最近提出的QDTrack [35]上显示了实验结果,并在具有挑战性的TAO [9]基准上实现了新的最先进水平:验证集和测试集上的TrackAP50此外,采用相同的方法,我们还在视频实例分割数据集YouTube-VIS 2019 上 实 现 了 37.7% AP 的 竞 争 结 果[54]。我们的工作可概括如下:• 我们提出了集合分类器,它通过聚集来自多个视点的信息来将轨迹片段• 我们介绍了增强方法,可以产生增强的tracklet的近无限的dilemon-unlimited• 我们提出了一个新的训练过程,便于监督的集合分类器使用增强的tracklet。此外,我们建议的辅助损失,带来进一步提高精度。• 我 们 在 TAO 上 实 现 了 新 的 最 先 进 技 术 , 并 在YouTube-VIS 2019上展示了我们方法的有效性2. 相关作品长尾识别。虽然视觉感知在类平衡数据集上取得了相当大的进展[7,26,39],但将尖端模型幼稚地迁移到长尾数据集[15,28,29]显示出严重的失败。随着人们对长尾分布固有问题的日益关注,人们对防止少数类被多数类支配的问题进行了引人注目的这些解决方案可以分为三种:重新平衡分布,重新加权损失和解耦训练。重新平衡方法[6,15,18,21]解决了尾类中注释的稀疏性,这是长尾分布的根本原因。这些方法表明,对具有较高比率的次要类别进行充分抽样可以补充巨大的不平衡,从而显示尾部的改善。不是通过加权采样率来解决不平衡,长尾分布中的问题也可以通过不同地加权类间损失来缓解[8,42,43,48]。不同类别的权重是根据注释的数量来确定的,主要侧重于尾部类别。BAGS [25]和SimCal [49]引入了附加的头部,专门用于对尾类进行分类,并在推理过程中组合来自各种头部的结果。将类别与相似数量的注释分组,BAGS为每个组分配不同的头,这防止了次要类被主要类支配。同样,SimCal的另一位负责人通过接受阶级平衡的建议来避免统治。17054(a) (b)推理图2.概述我们的框架。集合分类器可以即插即用到现有的对象跟踪器。(a)在训练过程中,集合分类器通过从tracklet生成器接收tracklet同时使用QDTrack进行训练。(b)对于推断,对象跟踪器首先预测tracklet。然后,集合分类器通过获取对应于tracklet的框的RoI令牌来将tracklet作为整体。最后,所提出的模块为每个tracklet提供了重新分类的预测。了解视频中的对象。从图像的巨大成功中,有许多任务将焦点转移到视频上[1,23,31,36,47,54]。视频的基本特征是它们是多个连续帧的合成。因此,很好地利用来自多个帧的信息和预测已经成为提高性能的事实因素。为了利用连续帧之间的空间接近度,目标跟踪任务的许多方法通过将运动先验与附加算法融合来关联对象;光流[52,60],位移回归[12,58]和卡尔曼滤波器[3,20]。然而,严重依赖于运动先验显示出对具有低帧速率或大相机运动的场景的脆弱性。为了克服这些问题并处理再现,可以考虑使用表示对象的隐式特征[4,13,30,33,35,41,54]。已经表明,利用来自多帧的信息不仅有利于跟踪,而且有利于提高视频中的检测和分割的质量[2,19,22,34,50]。例如,在视频实例分割任务[54]中,每个剪辑的方法[2,19,22,50]通常显示出比方法更高的分割精度仅使用单个帧信息[5,27,54,55]。大词汇量的视频如前所述,大多数以前的视频相关的研究没有付出太多的注意力,以提高分类性能。相反,主要改进来自跟踪[1,23,31]、检测[39]和分割[36,37,47,54]。这种趋势的主要原因是,大多数视频相关的基准只包括几个主要的对象类。最近提出的基准测试TAO [9]是一个具有大词汇量的视频由于长尾场景通常只处理图像,现有方法[3,9,35]在对视频中罕见类别的轨迹进行分类时表现出困难在本文中,我们引入了一个集合分类器,该分类器重新评估从最近的对象跟踪器QDTrack [35]。即插即用的集合分类器以类似于[24]的方式从对象的各种视角聚合信息,这对于分类大词汇量是必要的。通过提高预测轨迹片段的分类准确性,在TAO和YouTube-VIS中实现了整体准确性的显著改善[9,54]。3. 方法我们的方法可以很容易地实现现有的- ING对象跟踪器,使用两个阶段的检测器。在本文中,我们的框架建立在最近提出的QD- Track [35]上,其中集成了可以联合训练的附加头部:集合分类器(图11)。2)。输入视频首先由对象跟踪器获取,该对象跟踪器每帧检测对象并通过关联预测来生成轨迹接下来,新提出的集合分类器接收作为一个整体的tracklet,其中tracklet中的每个项目都是对应于预测框的RoI- Aligned[16]特征最后,通过结合实例的多个视点的设计,集合分类器头精确地预测给定轨迹片段的类别。在本文中,来自RPN [38]的第k个区域建议被定义为Bk=(bk,ck,ik),其中bk表示框坐标。这里,ck和ik表示与bk匹配的地面实况框的类别和身份。3.1. 集合分类器典型的跟踪器[35,54,58],已专门用于主要类别(例如,汽车和行人),没有给予太多的考虑,分类。因此,他们通常直接使用检测器的类预测[16,38,59然而,当遇到具有长尾分布的对象跟踪基准时,可以看到这种朴素分类的失败[9]。最具争议性的-RPNQDTrack磁头LQDT$% kL(ROIsTracklet生成器集合分类器类别预测RPNQDTrack磁头LQDT$% k集合分类器人集合分类器自行车集合分类器头盔QDTrack17055l=1l=02PC C CCC- -2个- -在这种情况下,分类的一个重要方面是外观随时间的变化。为了克服这个问题,我们提出了一个分类器,从tracklet的多个视图这个简单的扩展通过减轻大多数跟踪器的不一致性来增强tracklet级别的分类准确性;从每个RoI分类结果的简单平均或最大计数中导出类预测我们将我们的集合分类器设计为NETransformer编码器层的堆栈[46](图3)。集合分类器的输入来自两个来源:分类标记和来自tracklet的RoI to- kens。分类令牌是可训练的,类似于最近在变压器中使用的令牌[10,11,45]。每个RoI特征对应于轨道let中的框标签,通过额外的轻量级嵌入头成为RoI令牌。通过将分类标记x0和RoI标记x1L一起插入到集合分类器中分类令牌对总体上下文信息进行编码,给定轨迹片段的形成和集合分类器输出嵌入。使用分类标记z0的输出嵌入,logitsy其中C是数据集的类别数通过预测,可以使用交叉熵(CE)损失计算损失,图3.集合分类器的结构设计。LSC是根据分类标记的预测来计算的,其嵌入了轨迹片段的整体上下文。使用两个辅助损耗,Lins和Lcluster,进一步提高了精度。(Fig.(见第4(a)段)。设计数据扩充时考虑了以下因素,这些因素对于有效监督集合分类器至关重要。来自区域提案的Tracklets。我们不是只使用地面实况框标签,而是在多个帧中组合RPN的许多区域建议,以生成具有新视图的轨迹(图4(b))。与稀疏框注释相比,可以收集大量区域建议,其中每个区域建议对匹配的地面实况具有不同的视角LSC(y,y)=-Xc=1埃伊奇ylog(σ),σ=k=1埃伊扎克、(1)盒子因此,这种增强导致定量增加和进一步多样化的训练样本集分类器。此外,增加适用于其中yc0,1,1c C是独热地面实况label.为了训练集合Transformer,我们首先从训练视频剪辑中提取tracklet,如QDTrack [35]中所做然后,集合Transformer学习为每个轨迹片段预测一个最可能的类这种方法与传统的每帧预测类(或RoI)的方法相比有几个优点它对运动模糊和遮挡等噪声更具鲁棒性,并且通过聚合来自多个源的信息来准确分类尾类。然而,由于视频中缺乏tracklet注释,单独使用上述训练管道不可避免地会遇到过拟合。即使使用最大规模的长尾视频检测数据集[9],我们也观察到训练轨迹的数量不足以防止过度拟合,特别是对于尾部类。这是不可避免的,因为视频的注释比图像需要更多的精力和资源。为了缓解这个问题,我们提出了有效的数据增强方法,可以生成具有视频特征的轨迹。我们的增强方法不仅可以增加现有的视频tracklet的数量,但也从图像合成视频tracklet。3.2. Tracklet增强在本节中,我们将描述用于生成tracklet以解决数据不足问题的不仅是视频[9],而且是图像[15]; tracklet可以从图像中生成。即使组件源自单个图像,可能的对象区域的组合也可以模仿视频中固有的外观过渡通过这种增强,集合分类器可以学习从不同的角度聚合信息,这对于分类大词汇量是必要的。通过混合ROI实现更多样化的轨迹。我们观察到,所提出的tracklet增强显着imap-pact的分类性能。然而,值得注意的是,RPN在头类上提出的ROI多于尾类,这加剧了头和尾之间的不平衡。如果通过收集与单个身份匹配的ROI来生成tracklet,则不可避免地会导致尾类的tracklet比头类的tracklet更少且更不多样化。为了使tracklet多样化并暴露更多的tail类,我们建议进一步增强tracklet以具有多身份和多类tracklet(图2)。4(c))。受混合两个图像的增强技术的启发[56,57],我们将这个想法扩展到我们的增强。换句话说,我们不限制生成的tracklet由单个类组成利用这种方法,通过在训练批次内混合所有ROI,形成轨迹的组合的数量是无数的。这使得我们的集合分类器对过度拟合更加鲁棒。LSCLi$sz0z1z2z$z%z z6z(z)z*Transformer编码器图层L&l(s)*+L&l(s)*+L&l(s)*+L&l(s)*+0一种轻质埋置头17056(P{c=c}CPBSl=1l=1L l=1=k=1kl,(5)- -- -P集合X中的项目如下:Ly=l=1LLCc=12[0,1],Cycc=1=1时。(三)(c)第(1)款地面实况区域提议对于使用增强的tracklet的训练,典型的CE损失(公式10)。(1))可以简单地将单热地面实况标签替换为多类别软标签。3.3. 辅助任务除了增强tracklet的软标签之外,我们还可以利用对应于区域建议的实例级标签。我们进一步引入了两个辅助损失,每一个都提高了集合分类器的准确性实 例 丢 失 。 集 合 分 类 器 的 结 构 设 计 类 似 于 基 于Transformer的ViT [11];它由一堆Transformer编码器层组成,图4. tracklets的增强。实线表示地面实况框注释,虚线表示来自RPN的区域投影。(a)因为注释视频需要巨大的效率,所以视频数据集具有不足以训练大词汇表的稀疏标签(b)Tracklets可以多样化,从子文本框标签到区域建议。(c)对尾类的进一步监督可以从具有多个类的tracklet的混合中导出。暂停执行尾班任务。我们的RoI混合方法还支持对稀疏尾类RoI的无限重排序。最近的研究结果[15,25,32,40]表明,训练数据采样对显示长尾分布的数据集的影响同样,我们观察到,在生成的轨迹中对ROI进行采样的策略也起着重要的作用。受RFS [15]的启发,对RoI进行采样的概率由训练集中每个类别的训练样本总数决定。设nc是训练数据集中被标记为类别c的训练注释的总数。我们在多项分布下对ROI进行采样,其中p0k,采样Bk的概率,定义如下:使用分类标记进行最终预测(图3)。由于ViT的目标是图像分类任务,其中局部补丁可能不包含有意义的信息,因此只有分类令牌可以接收损失。与ViT相反,集合分类器接收从类似对象的区域提议嵌入的令牌。因此,其他令牌,而不仅仅是分类令牌,可以用于计算实例损失Lins。实例损失采用简单的CE损失来预测起源区域的类别,从而加速了集合分类器的训练。群集损失。使用增强的tracklet训练集合分类器的一个关键挑战是令牌来自不同的身份。例如,在图3中,标记x1应该从x2和x3中找到相关性,并从两者中聚合信息。但是,如果x1错误地解释为x4和x5也源自同一实例,则集合分类器的准确性将降低。为了澄清标记的来源,可以考虑在处理跟踪任务的许多方法之后监督标记以嵌入对象外观[35,54]。然而,由于跟踪和分类彼此不同,使用这种监督反而损害了准确性。p0k =pkj=1,pkPJ=1nck.(二)从共享相同起源的ROI的类分布应该相似的假设出发,我们通过利用类分布来轻微地聚类特征表示。与均匀采样ROI相比,加权采样策略导致集合分类器遇到更多包含尾部类ROI的tracklet。使用增强的Tracklets进行训练。使用所提出的增强方法,令X={B}L表示gener-三个选项。使用通过将RoI标记xlL插入线性分类器而预测的类逻辑ylLclusterr(yl,yl)=LCE(yl,yl) +KL(plkQl),(4)PL{i=i}pkQLk =1kL其中L是项目的数量如所提及上面,集合X可以由包含nu的RoI组成。不同的类别。对于C类数据集,我们将标签y定义为L{i=i}其中,yl是第l个RoI的地面实况类别标签,并且pl是由yl得到的类概率分布,(一)(b)第(1)款)X17057≥方法APAP50 AP75APsAPmAPlAP rAPcQDTrack [35]17.229.117.45.713.122.0 六点五11.9 25.9我们18.329.518.96.711.923.713.614.023.8表1. TAO确认集的检测指标结果。在LVIS之后,TAO报告APr(具有1至9个视频的罕见类别)、APc(具有10至99个视频的常见类别)和APf(具有100个视频的频繁类别)。APs、APm和APl分别表示小型、中型和大型盒子的精度。方法TrackAP50TAO验证第50章:你是谁?TrackAP50试道TrackAP75第50章:我的天SORT [3,9]13.2--10.24.44.9QDTrack [35]15.8 6.47.312.44.55.2我们19.98.39.615.76.87.4表2.TAO确认和测试集的跟踪指标结果我们的方法比以前的方法有意义的保证金。YouTube-VIS 2019.大多数MOT基准测试的类数量非常有限:少于10个。因此,我们进一步证明了tracklet分类在视频实例分割基准YouTube- VIS 2019上的重要性[54]。该数据集由40个类别组成,由2,238/302/343个视频组成,用于训练/验证/测试。表3.YouTube-VIS 2019上的结果与使用ResNet-101的自动方法的比较†表示使用ResNet-50。softmax函数KL发散的使用使得类分布类似于质心分布Q。利用这种辅助损失,如果来自相同对象,则到集合分类器的输入共享相似嵌入,这有助于集合分类器聚合相关信息。4. 实验在本节中,我们使用TAO [9]和YouTube-VIS 2019[54]评估了所提出的方法。我们证明了我们的方法通过提高分类性能,特别是对于尾部不频繁的对象类别,实现了整体性能的巨大提高。更多实验和详细信息见补充资料。4.1. 数据集涛. 我们的实验是在长尾对象跟踪基准TAO [9]上进行的TAO是一个大规模数据集,在482个类中具有长尾分布,这些类是LVIS的子集[15]。数据集有500个视频,训练集中有216个类,988个视频,验证集中有302个类,测试集中有1419个视频,369个类值得注意的是,验证集和测试集中的类别不是训练集的子集,因此类别4.2. 实现细节所有模型,包括以前的作品和我们的作品,都使用ResNet-101 [17]作为主干。默认情况下,构成集合分类器的Transformer编码器层的数量为NE=3,其中每层具有8个头部,总深度为512. 对于集合分类器的输入,我们首先平坦化区域建议并通过两个完全连接的层嵌入相应的功能[38]。由于所提出的集合分类器的即插即用设计,我们将该模块附加在QDTrack [35]之上。我们的模型是完全训练的端到端[35],除非指定,否则配置是相同的。QDTrack的训练计划有两个阶段; LVIS上的24个预训练时期[15]和TAO上的12个微调时期[9]。虽然集合分类器只能从图像中训练,但当一起使用真实视频样本时,准确性大大提高(表6)。因此,在遵循[35]的培训计划的同时,我们在预培训阶段同时插入TAO的视频。对于训练的每次迭代,轨迹片段生成器产生256个长度从16到32不等的增强轨迹片段。L-SC、L-ins和L-cluster的权重分别为0.05、0.02、0.1。在推理过程中,我们遵循生成tracklet和重新分类类别的管道,如第二节所述3 .第三章。表示来自集合分类器的预测分类得分为c,来自[35]的tracklet的置信度得分为s,输出得分可以获得为cλcsλs,其中,默认情况下λc=1,λs=2我们完成输出3 3不要重叠。对这种非重叠类别进行分类的能力应该从LVIS中训练[15]。通过乘以每一个的长度来惩罚冗余的短轨迹。方法APAP50 AP75AR1AR10MaskTrack R-CNN [54]31.953.732.332.537.7SipMask† [5]33.754.135.835.440.1CrossVIS [55]36.657.339.736.042.0VisTR [50]38.661.342.337.644.2QDTrack [35]34.455.138.433.541.6我们37.760.439.835.645.8170584.3. 主要结果如第3,我们从跟踪器接收tracklet预测,并将来自集合分类器的新预测类别分配给形成tracklet的每个框。因此,QD- Track [35]和我们的输出之间的唯一区别是分类标签。令人惊讶的是,通过对tracklet进行简单的重新分类,我们的方法大大提高了QDTrack在TAO和YouTube-VIS基准测试中的整体准确性。涛. TAO的结果可以大致分为两部分,如表1和表2所示,其中每个分别指检测和跟踪的准确度。由于我们的方法建立在QDTrack [35]之上,因此预测框坐标的质量与[35]相似。然而,从使用集合分类器对盒子的重新分类来看,我们的模型优于QDTrack,具有1.1%检测AP的明显差距,如表1所示。更重要的是,APr的得分比QD- Track高出一倍多。APr是长尾分布[9,15]基准中的重要标准,因为它代表了对稀有类别进行分类的能力从显著增强的分类结果来看,我们的模型在跟踪指标TrackAP50上达到了19.9%的最佳准确度,与QDTrack相比提高了4.1%这些结果表明,从利用多个信息的轨迹,集合分类器成功地分类大词汇。YouTube-VIS 2019. YouTube-VIS 2019基准测试的结果见表3。由于QDTrack [35]是一个对象跟踪器,因此默认情况下无法生成分割掩码。因此,我们将Mask R-CNN [16]的简单掩码头附加在QDTrack之上。从小的修改来看,QDTrack显示出34.4%AP的准确率,这与以前主要针对视频实例分割任务的方法相当。我们还证明了我们的方法的有效性,重新分类tracklets使用集分类器,在VIS基准。由于VIS数据集的词汇量相对较小(40个类别),因此预计使用集合分类器的影响微不足道。然而,从我们的集合分类器预测的类标签大大提高了3.3% AP的QDTrack的准确性获得的37.7% AP评分高于许多现有VIS模型[5,54,55],并且与最近提出的VisTR [50]具有竞争力。4.4. 消融研究使用TAO的验证集,我们展示了对集合分类器和轨迹生成器的各种消融研究。我们展示了如何设置分类器的准确性,可以通过区分tracklet增强和训练配置来提高。多身份多类TrackAP50TrackAP75第50章:我的天17.77.48.5X17.27.98.5XX19.98.39.6表4.不同tracklet增强的比较。Multi-Identity表示tracklet可以由来自不同身份的区域属性组成。Multi-Class表示tracklet可以是多个类的混合。#tracklets/batch TrackAP50TrackAP75TrackAP50:9532 17.7 8.2 9.164 18.3 7.6 8.9128 18.5 8.2 8.925619.9 8.3 9.6表5.比较每批生成的tracklet的数量。多类轨迹生成。在这里,我们研究了多类tracklet增强的影响(表4)。由于注释框的数量稀疏,仅使用地面实况框标签直接导致严重的过拟合。因此,我们提出了各种增强功能,可以使SEC中的tracklet更加3.2. 使用区域建议增强tracklet,但不允许它们由多个身份和多个类别组成(图4(b)),导致17.7%TrackAP50的准确性。混合不同身份的ROI(图。4(c))可以分为两个,这取决于是否授权使用多个类的ROI来组成轨迹。如表4所示,我们发现允许多个类别将准确度提高了2.2%TrackAP50,而预分类多个类的选择会降低TrackAP50。是因为多个类的组合是重要的,tant因素来使增强的tracklet多样化,特别是在处理大词汇量场景时,其中只有少数区域建议可以收集在尾部。增强tracklet的数量。由于多类tracklet增强,我们现在可以无限制地为集合分类器因此,轨迹片段的数量可以与集合分类器训练所需的数量一样多。如表5所示,通过将数量从32增加到256,TrackAP50增加了2.2。该实验表明,用更多数量的tracklet训练集合分类器带来了进一步的监督,从而导致更高的准确率。视频培训的重要性集合分类器的主要目的是聚集来自对象的多个虽然这种能力可以部分地从从图像生成的增强tracklet中获得,但这样的tracklet不能服务于视频中的真实外观变化。然而,如前所述,仅使用来自视频的稀疏标签会导致过拟合17059S”[9],故有之。Tracklet长度TrackAP50TrackAP75TrackAP50:95表8.分配不同概率的比较使用的多项式抽样;n-cp在第二节。3.2. 随着p的增加,采样策略有利于尾部类的ROI。[ 8、 16][16、32)19.0 7.8 8.719.9 8.3 9.6实例集群第50章:你是我的女人[32、64)18.3 7.0 8.318.7 7.8 8.8表7.生成的轨迹片段的不同长度的比较。(6.5% TrackAP50)。因此,我们提供了TAO的视频,以便在预训练阶段生成更有意义的tracklet。如表6所示,通过使用来自视频的增强tracklet,TrackAP50增强轨迹的长度。在表7中,我们研究了在训练期间使用的增强tracklet的长度如何影响最终的准确性。为了对具有不同长度的跟踪器的输出进行鲁棒分类,我们在训练期间提供不同长度的增强轨迹在TAO验证数据集中,QDTrack预测的tracklet的总平均长度从平均长度可以看出,使用16到32的tracklet进行训练可以带来最佳性能。尾类别的抽样比率。类似于RFS [15],对包含尾部类的图像进行采样,我们调节tracklet的生成,以支持包含尾部类而不是头部类(第二节)。3.2)。可以通过区分在轨迹片段增强中使用的采样ROI的概率来控制调节。使用每个类的训练符号的总数nc来定义概率,如在等式(1)中所表示的。(二)、控制概率的结果如表8所示。如果p=0,则所有ROI被给予相同的采样概率,这指示均匀采样。由于均匀采样没有考虑不同类别之间注释的巨大不平衡,因此它显示出准确性的大幅降低。在许多p值中,0.5被证明是最好的超级参数,它可以很好地消除不平衡并实现最高性能。使用辅助损失。我们研究了引入的辅助损耗:Lins和L团簇的影响。 如第3.3、两个损失辅助集合分类器的训练。从不使用两个损失的基线开始,使用Lins带来0.2%TrackAP50的增量。毛皮-18.9 8.0 9.0X X19.9 8.3 9.6表9. 使用辅助损耗的比较。 实例和群集分别表示使用L ins和L群集。此外,还采用了Lins,帮助集合分类器更容易地聚集相关信息,从而获得了1.0%TrackAP50的改进5. 结论在本文中,我们证明了分类是一个关键因素,在跟踪性能的基准与大词汇量,并介绍了集分类器,采取整个时空特征的轨迹。集合分类器通过聚集来自多个视点的信息来精确地分类大词汇表。为了发挥集合分类器的潜力,我们还提出了tracklet增强,大大多样化稀疏注释。此外,我们还建议采用辅助损失来加强监管。集合分类器在具有挑战性的基准测试TAO上达到了最先进的准确性,并且在YouTube-VIS 2019上也显示了具有竞争力的结果。对于未来的工作,我们计划设计一个视频为目标的分类器,可以精确地分类大词汇量,同时能够在线推理。确认这项工作得到了韩国政府(MSIT)资助的信息通信技 术 规 划 评 估 研 究 所 ( IITP ) 赠 款 、 赠 款 2021-0-02068项下的人工智能创新中心、赠款2020-0-01361项下的人工智能研究生院计划以及赠款2014-3-00123项下的用于大规模实时数据分析的高性能可视化大数据发现平台的TrackAP50TrackAP75TrackAP50:95p第50章:你是我的女人XX17.16.56.92.68.42.8均匀0的情况。2515.617.37.37.27.88.417060引用[1] Mykhaylo Andriluka,Umar Iqbal,Eldar Insafutdinov,Leonid Pishchulin , Anton Milan , Juergen Gall , andBernt Schiele. Posetrack:人体姿态估计和跟踪的基准。在CVPR,2018年。第1、3条[2] Gedas Bertasius和Lorenzo Torresani分类,分割,并跟踪对象实例在视频中与掩模传播。在CVPR,2020年。3[3] Alex Bewley、Zongyuan Ge、Lionel Ott、Fabio Ramos和Ben Upcroft。简单的在线和实时跟踪。在ICIP,2016年。一、二、三、六[4] GuillemBra so'和LauraLeal-Taix e'。学习多目标跟踪的神经在CVPR,2020年。第1、3条[5] JialeCao、Rao Muhammad Anwer、HishamCholakkal、Fa-hadShahbazKhan 、 YanweiPang 和 LingShao 。Sipmask:用于快速图像和视频实例分割的空间信息保存在ECCV,2020年。三六七[6] Nadine Chang,Zhiding Yu ,Yu-Xiong Wang,AnimaAnand- kumar,Sanja Fidler,and Jose M Alvarez.图像级还是对 象级?长尾检 测的两种策 略。arXiv预印本arXiv:2104.05702,2021。2[7] Marius Cordts , Mohamed Omran , Sebastian Ramos ,Timo Rehfeld,Markus Enzweiler,Rodrigo Benenson,Uwe Franke,Stefan Roth,and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在CVPR,2016年。2[8] Yin Cui,Menglin Jia,Tsung-Yi Lin,Yang Song,andSerge Belongie. 基 于 有 效 样 本 数 的 类 平 衡 损 耗 。 在CVPR,2019年。2[9] Achal Dave 、 Tarasha Khurana 、 Pavel Tokmakov 、Cordelia Schmid和Deva Ramanan。Tao:用于跟踪任何对象的大规模基准。在ECCV,2020年。一二三四六七八[10] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert:用于语言理解的深度双向变换器的预训练。在NAACL,2019年。4[11] AlexeyDosovitskiy,LucasBeyer,AlexanderKolesnikov,Dirk Weissenborn,Xiaohua Zhai,ThomasUnterthiner , Mostafa Dehghani , Matthias Minderer ,Georg Heigold,Syl- vain Gelly,et al. An image is worth16x16 words : Trans- formers for image recognition atscale. ICLR,2021年。 四、五[12] ChristophFeichtenhofer、AxelPinz和AndrewZisserman。检测跟踪和跟踪检测。InICCV,2017. 3[13] Junyu Gao,Tianzhu Zhang,and Changsheng Xu.图卷积跟踪。在CVPR,2019年。3[14] Andreas Geiger , Philip Lenz , Christoph Stiller , andRaquel Urtasun. Vision meets robotics:The kitti dataset.IJRR,2013年。1[15] 阿格里姆·古普塔,皮奥特·多勒,罗斯·格希克。Lvis:用于大词汇实例分割的数据集。在CVPR,2019年。一、二、四、五、六、七、八[16] 何凯明、乔治亚·吉克萨里、彼得·多勒和罗斯·吉尔希克。面具R-CNN。InICCV,2017. 二、三、七[17] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,2016年。617061[18] Xinting Hu,Yi Jiang,Kaihua Tang,Jingyuan Chen,Chunyan Miao,and Hanwang Zhang.学习如何分割尾巴。在CVPR,2020年。2[19] Sukjun Hwang , Miran Heo , Seeking Wug Oh , andSeon Joo Kim.使用帧间通信变换器的视频实例分割。在NeurIPS,2021年。3[20] 鲁道夫·埃米尔·卡尔曼线性滤波和预测问题的新方法。J.流体工程,1960年。3[21] Bingyi Kang , Saining Xie , Marcus Rohrbach ,Zhicheng Yan,Albert Gordo,Jiashi Feng,and YannisKalantidis.用于长尾识别的解耦表示和分类器。在ICLR,2020年。2[22] Lei Ke,Xia Li,Martin Danelljan,Yu-Wing Tai,Chi-Keun
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功