没有合适的资源?快使用搜索试试~ 我知道了~
1∼漫游癖:现实世界王建仁1王欣2岳尚观3阿比纳夫·古普塔11卡内基梅隆大学2微软研究院3德克萨斯大学奥斯汀图1:漫游癖:想象一个具身的智能体正在街上行走。它可以同时观察新类和旧类。代理需要快速学习仅给出几个样本(红色),并在提供标签(绿色)后识别类的后续实例。在这项工作中,我们引入了一个新的在线连续对象检测基准,通过研究生的眼睛不断学习不断变化的环境中的新兴任务。摘要在动态环境中从数据流中进行在线持续学习然而,在这一领域仍然缺乏现实的基准和基本为了弥补这一差距,我们提出了一个新的在线连续对象检测基准与以自我为中心的视频数据集,对象周围的克里希纳(OAK)。OAK采用了KrishnaCAM视频,这是一个以自我为中心的视频流,由一名研究生在九个月内收集。OAK为户外场景中的105个对象类别提供了80个视频片段(17.5小时)的详尽边界框注释在我们的基准测试中,新对象类别的出现该数据集还捕获了当人旅行到不同地方时的自然分布变化。这些以自我为中心的长时间视频为持续学习算法提供了一个现实的操场,特别是在在线具体设置中。我们还引入了新的评估指标来评估模型的性能和灾难性遗忘,并为在线连续目标检测提供基线研究我们相信,这个基准将提出新的令人兴奋的挑战,从非静态数据的学习,在不断的 学 习 。 OAK 数 据 集 和 相 关 的 基 准 在https://oakdata.github.io/上发布。1. 介绍现代物体检测器在互联网图像上取得了实质性进展[5,16,37]。然而,在检测小对象[7]、扩展到大量类别[15]或仅从少数标记的示例[19,44]中学习时,仍然存在挑战。当部署在具体环境中的机器人或以自我为中心的视频上时,检测器通常会显着退化[8]。如果我们仔细看看典型的学习设置,那么对象检测的大多数进步都是在离线学习设置中使用静态图像实现在此设置中,数据被标记为一组固定的类别,并分为两部分:培训和测试。有一个训练阶段,其中检测器通过随机洗牌和馈送数百个epoch的训练数据来学习,然后对测试集进行评估然而,这种离线训练和评估设置通常不能反映人类或具体的AI代理如何学习。与当前的静态离线设置不同,人类接收视觉数据的连续时间流,并在相同的视觉数据上训练和测试模型,这是一种在线连续设置。感兴趣的类别是事先未知的。该模型需要学习新的对象类别时,属于以前看不见的类别出现的对象大部分的学习发生在网上;我们不能在数百个时期中重复使用训练数据。这种在线持续学习设置的副作用是1082910830∼灾难性的遗忘[30]。虽然以前的作品[1,21,29,40,48]试图解决这个问题,他们通常是离线评估,并没有像对象检测结构阻碍在线持续学习取得进展的是缺乏现实的数据集和基准。目前的大多数研究[32,41,49]重新利用现有的静态数据集,如VOC和COCO来评估连续的对象检测。这些方法以顺序的方式逐个使用对象类别。这些手动分割和人工设置不同于体现代理经常遇到的场景,其中新任务的出现经常遵循代理的轨迹,并且对象实例的频率因任务而异例如,代理可能在几小时或甚至几天之后观察到相同类别的它们可能比其他物体更频繁地访问一些物体,并重新访问先前观察到的物体。在本文中,我们提出了一个新的在线连续对象检测基准。我们的基准测试包括一个新的标记数据集OAK使用来自KrishnaCam [43]数据集的视频-这是一个以自我为中心的视频数据集,收集了一个研究生九个OAK包含80个带标签的视频片段,总计约17.5小时(约为KrishnaCam中原始视频的1/4OAK提供了一个自然的数据分布和任务出现后的轨迹的一个人。由于日常生活中的冗余,一些对象经常出现该数据集是研究在线持续学习的现实场所,使具身智能体能够从人类的经验中学习我们引入了几个新的在线持续学习评价指标.与之前的任务增量或类增量设置在持续学习中相比,在我们的设置中没有明确的任务边界,并且新的任务按照视频中的时间顺序出现。因此,我们评估的整体性能(连续平均精度,CAP),传输(向后/向前传输,BWT/FWT),遗忘(健忘,F)的模型与一个额外的时间维度。我们定期对来自相同训练视频帧的帧进行模型评估。从这些评估中聚集整体性能,并且通过来自相同任务的实例的出现之间的时间间隔来定义转移/遗忘。我们采用几种典型的连续学习算法(例如,iCaRL [35],EWC [21],Incremental fine-tuning)用于对象检测,并发现这些方法的性能在新的基准中表现平平,这为未来的研究留下了很大的空间。2. 相关工作持续学习基准。已经开发了大量的连续学习算法[1,21,29,40,48,25,46,39,45,18,24],并在Permuted MNIST [14],CIFAR- 100 [22]和ImageNet [9]等图像分类基准上进行了评估最近,Lomonaco 和Maltoni [28]引入了CORe50,这是一个属于10个类别的50个domestic对象的集合,它支持对象级别(50个类别)或类别级别(10个类别)的图像分类以及最近更新的对象检测与我们的工作相反,CORe50中的任务拆分是手动创建的,基准测试用于离线学习。在对象检测领域,几种增量对象检测算法[23,27,32,41]采用现有的对象检测数据集,如PASCAL VOC[11]和MS COCO [26]进行评估。它们拆分类别并按预定义的类别顺序训练对象检测器。Chen等人[6]通过构建NEIL来研究持续学习的问题。 net images.库兹涅佐娃等[23]将评估从静态图像扩展到视频片段,如日常生活活动(ADL)[33]数据集和YouTube对象(YTO)数据集[34],以进行增量域适应。这些基准测试中的任务划分通常是手动确定的,并且数据集中的类是仔细平衡的。此外,现有的基准大多使用静态图像[9,14,22]或来自以对象为中心的短视频片段(15秒)的样本[28]来构建。这些现有的基准可能无法充分揭示构建类人持续学习代理的挑战,因为它们的人工设置和静态数据源。在线持续学习设置。有一个新兴的在线持续学习的作品线[13,2,4,3,36]。Aljundi等[3]开发一个以在线方式随着时间的推移不断学习的系统,数据分布逐渐变化,并且没有单独任务的概念。Ren等人[36]最近将少量学习的标准框架扩展到在线持续设置。 与Aljundi等人类似,我们的在线持续学习设置没有明确的任务边界。由于任务出现的人走动,我们引入新的指标来评估模型转移和遗忘随着时间的推移。以自我为中心的视频识别另一个相关的研究方向是以自我为中心的视频识别[38,12,20]。大多数作品都专注于开发适合于使用离线设置的以自我为中心的视频中的独特视角的方法[47,20]。从这个意义上说,最相关的工作是[10],他们解决了连续图像分类的问题。然而,他们使用的数据集[28]非常短和干净,这不足以揭示以自我为中心的视频识别的挑战。10831∼×图2:OAK中带注释的帧的示例。OAK捕捉了一个研究生的日常户外活动。该数据集涵盖了各种各样的环境和生活经历。3. OAK数据集我们介绍了克里希纳周围的物体(橡树),它标记了克里希纳徘徊和执行他的日常生活中出现的物体。OAK是建立在Krish-naCam [43]数据集上的,这是一个以自我为中心的大型视频流,跨越了一个研究生九个月的生活。原始KrishnaCam数据集包含760万帧460个视频片段,总长度为70.2小时。原始视频的分辨率为720p,帧率为30 fps。在OAK中,我们标记大约1/4的原始数据集,并在网站中释放标记的数据。注释设置。我们考虑了户外场景中的105个对象类别,其中16个类别来自PASCAL VOC数据集[11],其余类别是通过在原始视频上运行LVIS [15]预训练的Mask R-CNN模型[16网站上提供了类别的完整列表。我们从KrishnaCam中抽取了80个视频,这些视频的时间跨度均匀。每个视频片段约7 15分钟长。105个类别的对象以0.5fps的帧速率被详尽地标记。OAK总共包含大约326K个边界框。两个人类注释者参与标记每个帧以确保标记质量。帧中的对象被详尽地注释,除了微小对象(小于20 20像素)。在图2中,我们展示了OAK中带注释的帧训练集和评估集。与离线设置相比,期望模型在在线持续学习设置中对相同数据流进行评估的同时进行训练,以评估灾难性遗忘。因此,我们每16个标记的帧中保留一个帧以构建评估集,并且剩余的帧用于训练。的培训和评价集涵盖相似的9个月时间范围,但抽样率不同这些模型将以在线方式进行培训和评估。数据集统计。 我们在图3中显示了一些数据统计。自然任务分配。在我们的在线持续学习设置中,新任务被定义为识别以前没有遇到过如图3a所示,由于日常生活中的重复模式,所看到的类别的数量逐渐增加,并且新类别的出现率随着时间的推移而降低长尾分布 在图3b和3c中,我们可以看到OAK对于每个类别的实例数量和每个图像的类别计数都具有长尾分布。在图3d中,我们示出了来自相同类别的实例的再现之间的时间间隔的分布。倾斜的盒子大小。如图3e所示,OAK中的框大小偏向于小和中等大小,这使得检测器难以做出正确的预测。不同的地理位置。在图3f中,我们绘制了视频记录的位置。我们可以看到,像校园和家庭这样的地方是经常访问的,而其他地方只是偶尔访问。4. 在线持续学习基准在这个基准测试中,我们考虑了两个在线持续学习设置,这取决于兴趣的类别是否事先已知。在这两种情况下,训练数据和标签在时间戳之后顺序出现,并且每N个训练步骤对模型进行评估主要的如果模特有已知的词汇-10832D××我不是我不是C日我不是(a) 类别的数量随着时间的推移而增加,但新类别的出现率随着时间的推移而下降。(d)来自同一类别的数据点的再现之间的时间间隔的分布(b) 每个类别的实例数揭示了长尾分布,存在许多稀有类。(e) 边 界 框 大 小 的 分 布 ( 像 素 空间)。分布偏向于小/中等大小的对象。(c) 每个图像的类别数的分布也揭示了长尾分布。(f)位置分布。红色的地方经常被访问,蓝色的地方偶尔被访问。图3:数据集统计。最好用数码观看。在称为已知设置的类别的列表中,我们可以简单地报告每次评估时每个类别的平均精度(AP),尽管一些类别在评估时可能尚未被训练(通常导致较低的评估结果)。模型有一个开放的类词汇表的情况,称为未知设置,有点挑战性,但也更现实。我们引入一个IDK(我不知道)类,用于在当前时间戳上看不见的类别。对于来自评估集中未见过的类别的所有对象,模型需要预测IDK以进行正确的预测。预测IDK的平均精度为了简单起见,我们如果两个模型具有相似的CAP,则遗忘更具有可比性我们采用常用的AP50(即,IoU阈值为50%的平均精确度得分)。CAP显示了模型在整个视频流的时间跨度中的整体性能。受OS- AKA [4]的启发,使用当前模型而不是最终模型来评估每个时间步长的准确度。在每个时间t,使用来自训练的小批量(第t个训练帧到第(t+ 1)个训练帧,其中b表示批量大小)数据来训练模型。在时间t之后,不再允许使用这一小批图像我们继续这个训练过程,直到覆盖整个视频流每N个训练步骤,在测试集上评估模型D试验。报告的CAPti(i评估步骤)定义为C1ΣCAP=CAPc,(1)c=0在在线持续学习环境中,我们专注于其中CAPC是c类的平均精度(AP)学习模型的三个方面:模型总体表现如何模型如何传递新知识?模型对灾难性的-测试集。CAP然后被定义为跨不同时间戳的平均值也就是说,T T C得到什么? 为此,我们引入五个评价指标:CAP=1ΣCAP=1Σ ΣCAPc,(2)连续平均精度(CAP)和最终平均精度(FAP)用于总体性能评估;不i=0时ttTC我不是i=0c =0用于转移性能评估的转移(FWT);后向迁移(BWT)和遗忘(F)的遗忘性能评价。值得注意的是其中T是总评估时间。FAP是当模型完成训练时最后一个模型的最终平均精度。这是比较公正的评价4.1.评估指标10833SSRCF火车SE∈RSSΣSSΣ我不是RCΣ1我K(−当与离线学习模型进行比较时,这是一个更好的度量,因为两个模型都观察到了整个视频流。FWT评估受GEM启发的新知识的前向转移能力[29]。FWT示出了学习场景(视频剪辑,表示为t)对未来场景(k,k > t)的性能的影响。在我们的基准测试中,scenar-ios是一个固定间隔为0. 94小时的短剪辑。当模型能够执行“零触发”学习时,正向转移是可能的具体地说,我们将Dtrain和Dtest均匀地分为T场景,图4:增量微调。整个对象检测器,包括特征提取器和框预测器()都使用PASCAL VOC进行预训练。在在线持续学习中,骨干是固定的,而RPN和框预测器是微调的。时间顺序,其中D的每个分割是用作场景S1的训练集和测试集。测试5. 实验在模型完成从场景i的学习之后,我们评估其在所有T场景上的测试性能。通过这样做,我们构造矩阵RT×T , 其 中 Ri , j 是 模 型 在 场 景 上 的 检 验 平 均 精 度(mAP)j在观察来自I. 让B成为对于每个场景的预先训练的对象检测器的测试mAP的向量,我们将FWT定义为:不我们在第5.1节中描述了三种广泛采用的持续学习算法,并在第5.2节中展示了它们在我们的基准测试中的表现。虽然现有的连续学习算法通常比非自适应模型有所改进,但是每个算法的CAP值小于20。这表明我们的基准测试是具有挑战性的,这对未来的算法设计有很大的空间。FWT=1RT−1i=2i−1,i-bi.(三)5.1. 连续学习算法我们选取了三个有代表性的继续学习BWT示出了学习场景(视频剪辑,表示为t)对先前场景(k,k t)的性能的影响。反向负迁移也被称为遗忘。具体来说,我们将BWT定义为:T−1方法根据Parisi等人 [31]。增量微调是直观的,被广泛采用作为连续学习的基线iCaRL [35]是一种广泛使用的基于内存的方法。EWC [21]是一种代表性的基于正则化的方法。我们首先展示如何将每个方法部署到已知设置,然后展示这些方法可以BWT=1RT−1i=1T我-Ri,i .(四)很容易适应未知的环境。增量微调。 第一个基准是增量-Forgetfulness(F)估计由于顺序训练而导致的模型遗忘对于类c,我们根据-对广泛使用的两阶段对象检测器Faster R-CNN [37]进行tal微调,该检测器在设置为时间间隔我不是在评估时间ti和我不是PASCAL VOC数据集。 如图4所示,fea-真实学习组件F包括主干(例如,上次测试时间k模型在c上训练。 在CAPC被排序,所有CAPc(i = 0,. . . ,T)被分成K个仓Bkmin,... B kmax根据时间间隔k。每个仓Bk的平均CAP(aCAP_k)被定义为在模型尚未针对k个时间戳在c上训练之后,模型我们定义健忘(F)作为每次性能下降的加权和:KmaxResNet [17],VGG16 [42]),区域提案网络(RPN),以及作为提议级特征提取器的两层全连接(FC)子网络。还有一个由盒子分类器组成的盒子预测器类-简化对象类别和框回归器以预测边界框坐标。主干功能以及RPN功能都是与类别无关的。然而,我们发现在微调期间保持RPN更新显著提高了性能。因此,我们只在增量微调过程中保持骨干固定。Fc=0.001k−kmin×(aCAP−aCAP)。每当有新数据进来时,我们都会微调RPN、箱分类器和新数据上的回归器iCaRL。 第二个基线从iCaRL调整[35]因此,整体遗忘被定义为CF=Fc.(六)Cc=0Rebuffi等人提出的算法。最初的iCaRL是为图像分类而设计的,我们使用基于Faster R-CNN的检测器实现了这种方法。如图5所示,iCaRL还包括存储器和Dk=kminKmaxk=kmin k−kminkmin10834MD图5:iCaRL的图示。通过最小化流数据和存储的优先化样本的损失来更新网络参数存储库,用于存储在每个步骤期间随机选择和更新的内存库有一个固定的大小(我们将其设置为每个类别5个图像),内存库中的旧示例将被更新的数据点替换。对于每个训练步骤,我们将从内存库的每个类中随机选择一个样本(具有一个对象标签的图像)进行联合训练。与增量微调相同,我们保持骨干固定,并在新数据进入时微调RPN,框分类器和EWC。第三基线根据Kirkpatrick等人提出的EWC算法[21]进行调整。与iCaRL类似,我们将EWC算法应用于Faster R-CNN中的框分类器EWC不需要访问存储体中的地面实况EWC的主要思想是对梯度更新施加约束,使得新示例上的梯度更新不会增加旧示例上的分类损失,如图6所示。感兴趣的读者可以参考EWC论文[21]以获得详细的数学公式。其他基线。我们提供了在PASCAL VOC数据上预训练的Faster R-CNN的性能,在结果表中表示为非自适应。我们还提供了使用离线训练的模型性能在每个评估时间ti(第i个评估步骤),ti之前的整个视频流被用作一个训练集。然后,我们离线进行批量训练,并在测试中报告CAPti。该基线在结果表中表示为离线训练培训详情。为了进行公平的比较,我们使用ResNet- 50[17]作为所有持续学习算法的主干,而基础对象检测器Faster R-CNN是在 PASCAL VOC [11]上预 训练的OAK与PASCAL VOC数据集共享相同的20个类别,因此预训练模型可以用作初始点。在已知的设置中,检测器中的类别的数量是固定的并且被设置为105.在未知的设置中,类别的数量随着时间的推移而增加。当新数据包含以前未看到的类别时,我们向框分类器和框回归器添加一列在预测时刻,如果所有类的置信度都小于一个阈值,而背景的置信度也保持在一个低的状态,智能体应该预测IDK。图6:EWC图示(图改编自[29])。当学习预测新的类B时,梯度更新可能损害旧类A的性能。EWC使分类损失最小化,而不会在旧类上引起5.2. 整体模型性能已知类词汇。在表1中,我们提供了在已知设置下通过连续平均精度(CAP)和最终平均精度(FAP)测量的整体模型性能,其中类的词汇表是预先已知的。PASCAL VOC(非自适应)的预训练模型在新的OAK数据集上仅获得2.86分。即使对于与原始PASCALVOC数据重叠的类(例如,椅子、餐桌等),性能极低。这表明OAK与使用静态互联网图像的现有检测数据集存在很大的域差距。对于三种连续学习算法,基于记忆的方法iCaRL优于香草增量微调。这表明简单复述策略在新的在线持续学习环境中仍然可以发挥重要作用。然而,基于正则化的方法EWC对我们的设置中的整体性能没有帮助同样值得注意的是,与离线训练相比,EWC和iCaRL都有明显的性能差距。这表明新的在线持续学习设置可能需要在算法设计中进行更多的创新,以应对在线学习带来的新挑战另外,由于它们两者都不是针对对象检测而设计的,因此如果可以设计专用于对象检测的模型,则可以改进模型性能。我们注意到离线训练的模型性能仅为49.48分。与其他检测数据集(如PASCAL VOC或COCO)的模型性能相比,这是一个相对较低的模型性能,其中AP50评分通常高于50分。其他以自我为中心的视频挑战也发现了这种差距[8,38]。我们推测OAK带来的新挑战来自以自我为中心的视频的内在特征,例如运动模糊,大量的遮挡和部分观察到的对象,由于有限的视野和长尾分布。我们可视化CAP为每个类在网上CON-10835表1:通过连续平均精度(CAP)和最终平均精度(FAP)测量的现有算法对OAK的总体性能,其中已知类别词汇表(已知)。FAP始终优于CAP,这表明所有算法都受益于从更多数据中学习。由于分布偏移,非适应模型具有最低的性能。基于正则化的EWC方法执行类似于香草增量微调。而基于内存的iCaRL方法明显优于普通的增量微调。离线训练结果表明,即使在离线训练设置下,OAK也对当前的对象检测器有点方法FAP帽前20展位伞遮阳篷袋椅子餐桌消防栓车不适应2.862.8611.720.000.000.000.0023.8826.380.055.90增量12.4710.4733.840.202.464.5818.2431.7036.5139.5369.68EWC12.5510.5233.800.213.024.5317.7931.3836.6738.7369.71iCaRL21.8916.3940.926.886.913.5910.6728.7240.5945.1867.18线下培训49.4837.1167.7720.0535.8628.6542.6966.5171.0964.1578.80图7:OAK测试集上的CAPti变化,按时间顺序排列。CAPti随着模型在每个类别存在的帧上训练而增加,但是随着示例之间经过更多时间,观察到遗忘效应并且性能下降。表2:通过连续平均精度(CAP)和最终平均精度(FAP)测量的OAK上的现有算法的总体性能,其中具有未知类词汇表(未知)。在该评估中,模型需要预测未见过类别中的对象的IDK。与已知设置相比,所考虑的所有连续学习算法具有降低的性能同样,增量微调和EWC实现了类似的性能。iCaRL优于增量微调和EWC,但仍有很大的改进空间。方法FAP整体前20展位伞遮阳篷袋椅子餐桌消防栓车IDK不适应2.862.8611.720.000.000.000.0023.8826.380.055.90-增量11.199.7832.100.061.453.8716.6829.2632.8136.3268.760.32EWC10.349.5731.620.211.633.7216.4629.7633.3933.4168.760.29iCaRL17.5614.7041.423.584.832.7210.1823.8132.8639.8464.020.36线下培训46.4036.8871.3518.9031.9029.3641.3664.5970.5763.7778.361.21持续学习如图7所示,阴影指示代理何时观察到来自特定类的新数据点,而每条曲线上的点是OAK上的评估步骤请注意,在每个类中,性能最初是如何提高的,但随着示例之间的时间推移,观察到for-getting效应,性能下降。当接近结束时看到下一轮数据时,性能再次提高。未知的类词汇表。在表2中,我们提供了用CAP和FAP测量的未知类词汇表在这次评估中-评估,模型需要预测未见过类别中的对象的IDK,这比已知设置更具挑战性。正如我们从表中可以看到的,所有考虑的连续学习算法与已知设置相比具有降低的性能同样,iCaRL优于增量微调和EWC,但仍有很大的改进空间。5.3. 转移与遗忘转移 在表4的第一列中,我们比较三个持续学习的前向可转移性10836∼表3:持续学习算法的遗忘遗忘(F)度量指示灾难性遗忘,并且较小的F分数意味着对所学习的知识的较少遗忘iCaRL在避免灾难性遗忘方面比增量微调和EWC更好方法整体最差-20展位雨伞遮阳篷袋椅子餐桌消防栓车增量5.7722.280.601.101.28-1.952.91-0.2911.895.75EWC5.9623.480.431.851.13-2.002.760.0210.305.76iCaRL1.7814.72-5.652.030.67-1.411.500.686.793.32图8:样本类别的遗忘我们提供了不同时间戳下测试集的评估曲线方法FWT BWT增量15.01-4.51EWC 14.84-3.62iCaRL15.73-5.95表4:已知环境下的知识可转移性。增量微调具有更好的前向传递能力和更差的后向传递能力。这表明梯度正则化可以以信息增益为代价来减轻灾难性遗忘。已知设置下的图。更高的FWT指示更快的学习者。增量微调与EWC相比具有更高的FWT。EWC对于从新数据点学习权重变化的正则化更保守。我们忘了。在表3中,我们呈现了在已知设置下的持续学习算法的遗忘性。遗忘度(F)度量指示catastrophic遗忘的量。较小的F分数表明对所学知识的遗忘较少。iCaRL在避免灾难性遗忘方面明显优于增量微调方法和EWC。为了与现有度量进行更多比较,我们还比较了已知设置下三种连续学习算法的向后可转移性(表4的第二列)。BWT越高,遗忘越少。EWC具有比增量微调更高的BWT,因为EWC为新任务找到解决方案,而不会在旧任务上产生重大损失我们选择-getfulness(F)作为我们的主要度量来估计由于顺序训练而导致的模型我们还可视化了在线持续学习过程中每个班级的遗忘变化如图8所示,遗忘随着从看到最后标记的数据起的时间增加而增加。请注意,在大多数情况下,增量微调基线表现最佳。6. 结论从动态环境中的连续数据流中进行在线持续学习在机器学习和计算机视觉社区中引起了越来越多的兴趣。然而,现实的数据集和基准,特别是对象检测,仍然缺失。在这项工作中,我们提出了一个新的在线连续对象检测基准数据集,称为OAK。OAK使用来自KrishnaCAM数据集的视频,该数据集具有在九个月的时间跨度内收集的以自我为中心的OAK提供了80个视频片段(17.5小时)的详尽注释,具有户外场景中105个对象类别的326K绑定框。我们的持续学习基准遵循一个人的生活模式,这比现有的持续学习基准更现实。我们引入了新的评估指标以及两个评估设置的基线评估。我们希望这项工作能激发对物体检测器的在线持续学习的研究。鸣谢。作者要感谢Yi Ru Wang、Samantha Powers、Kenneth Marino和Shubham Tulsiani对手稿进行了富有成效的讨论和详细的反馈卡内基梅隆大学的努力得到了DARPA MCS,ONR Young Investigator,ONR muri的支持。10837引用[1] RahafAljundi , FrancescaBabiloni , MohamedElhoseiny,Marcus Rohrbach,and Tinne Tuytelaars.记忆感知突触:学习什么(不)忘记。 在欧洲计算机视觉会议(ECCV)的会议记录中,第139-154页,2018年。2[2] Rahaf Aljundi 、 Lucas Caccia 、 Eugene Belilovsky 、Massimo Caccia 、 Min Lin 、 Laurent Charlin 和 TinneTuytelaars。在线持续学习与最大干扰检索。arXiv预印本arXiv:1908.04742,2019。2[3] Rahaf Aljundi , Klaas Kelchtermans , 和 Tinne Tuyte-laars. 无任务的持续学习。 在IEEE/CVF计算机视觉和模式识别会议论文集,第11254-11263页,2019年。2[4] Massimo Caccia,Pau Rodriguez,Oleksiy Ostapenko,Fab- riceNormandin , Min Lin , Lucas Caccia , IssamLaradji , IrinaRish , AlexandeLacoste , DavidVazquez,et al.在线快速适应和知识积累:不断学习的新方法。arXiv预印本arXiv:2003.05856,2020。二、四[5] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测在European Conference on Computer Vision中,第213-229页Springer,2020年。1[6] Xinlei Chen,Abhinav Shrivastava,and Abhinav Gupta.从网络数据中提取视觉知识2013年国际计算机视觉会议。2[7] 宫丞和韩俊伟。光学遥感图像目标检测技术综述。ISPRS Journal of Photogrammetry and Remote Sensing,117:11-28,2016。1[8] DimaDamen , HazelDoughty , GiovanniMariaFarinella , Sanja Fidler , Antonino Furnari , EvangelosKazakos , Davide Moltisanti , Jonathan Munro , TobyPerrett,Will Price,et al.缩放自我中心的愿景:epic-kitchens数据集。在欧洲计算机视觉会议(ECCV)的论文集,第720-736页1、6[9] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议,第248-255页。Ieee,2009年。2[10] Luca Erculiani、Fausto Giunchiglia和Andrea Passerini。持 续 自 我 中 心 的 物 体 识 别 。 arXiv 预 印 本 arXiv :1912.05029,2019。2[11] M. Everingham,S. M. A.埃斯拉米湖凡古尔角,澳-地K.I.威廉斯,J. Winn和A.齐瑟曼。Pascal视觉对象类挑战:回顾。 International Journal of Computer Vision,111(1):98-136,Jan. 2015. 二、三、六[12] Alireza Fathi,Xiaofeng Ren,and James M Rehg.学习在自我中心的活动中识别物体。CVPR 2011,第3281-3288页。IEEE,2011年。2[13] Enric oFini , Ste'phaneLathuilie` re , EnverSangineto ,MoinNabi,and Elisa Ricci.极限记忆约束下的在线持续学 习 。 在 欧 洲 计 算 机 视 觉 会 议 上 , 第 720-735 页Springer,2020年。2[14] Ian J Goodfellow , Mehdi Mirza , Da Xiao , AaronCourville,and Yoshua Bengio.对catas的实证调查10838基于梯度的神经网络中的营养遗忘。arXiv预印本arXiv:1312.6211,2013。2[15] 阿格里姆·古普塔,皮奥特·多勒,罗斯·格希克。Lvis:用于大词汇实例分割的数据集。在IEEE/CVF计算机视觉和模式识别会议的论文集中,第5356-5364页,2019年。第1、3条[16] KaimingHe , GeorgiaGkioxari , PiotrDolla'r ,andRossGir-shick.面具R-CNN。在IEEE计算机视觉国际会议论文集,第2961-2969页第1、3条[17] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition,第770-778页,2016中。五、六[18] Khurram Javed和Martha White用于持续学习的元学习表示。arXiv预印本arXiv:1905.12588,2019。2[19] 秉义康、庄柳、辛王、渔人余、嘉世丰、特雷弗·达雷尔。通过特征重加权的少镜头对象检测。在IEEE/CVF计算机视觉国际会议论文集,第8420-8429页,2019年。1[20] Georgios Kapidis,Ronald Poppe,Elsbeth Van Dam,Lucas Noldus,and Remco Veltkamp. 以自我为中心的手部轨迹与物件为基础的人类动作辨识。2019年IEEE SmartWorld,泛在智能计算,高级可信计算,可扩展计算通信,云大数据计算,人与智慧城市创新互联网(Smart-World/SCALCOM/UIC/ATC/CBDCom/IOP/SCI ) , 第922-929页。IEEE,2019。2[21] James Kirkpatrick,Razvan Pascanu,Neil Rabinowitz,Joel Veness,Guillaume Desjardins,Andrei A Rusu,Kieran Milan,John Quan,Tiago Ramalho,AgnieszkaGrabska- Barwinska,et al.克服神经网络中的灾难性遗忘Proceedings of the National Academy of Sciences,114(13):3521-3526,2017. 二、五、六[22] Alex Krizhevsky,Geoffrey Hinton,等.从微小的图像中学习多层特征。2009. 2[23] Alina Kuznetsova、Sung Ju Hwang、Bodo Rosenhahn和Leonid Sigal。扩展对象检测器的视野:用于视频中对象检测的智力学习框架。在IEEE计算机视觉和模式识别会议论文集,第28-36页2[24] Soochan Lee,Junsoo Ha,Dongsu Zhang,and GunheeKim.无任务连续学习的神经元Dirichlet过程混合模型。arXiv预印本arXiv:2001.00689,2020。2[25] 李志忠和Derek Hoiem。学而不忘。IEEE Transactionson pattern analysis and machine intelligence , 40(12):2935-2947,2017。2[26] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco:上下文中的公用对象。欧洲计算机视觉会议,第740Springer,2014. 2[27] Xialei Liu,Hao Yang,Avinash Ravichandran,RahulBhotika,and Stefano Soatto.用于对象检测的多任务增量学习。arXiv预印本arXiv:2002.05347,2020。210839[28] Vincenzo Lomonaco和Davide Maltoni Core50:用于连续对象识别的新数据集和基准。机器人学习会议,第17-26页。PMLR,2017年。2[29] David Lopez-Paz和Marc'Aurelio Ranzato。持续学习的梯度情景记忆。 法律程序中第31届神经信息处理系统国际会议,第6470-6479页,2017年。二、五、六[30] Michael McCloskey和Neal J Cohen。连接主义网络中的灾难性干扰:顺序学习问题。《学习与动机心理学》,第24卷,第109-165页。爱思唯尔,1989年。2[31] German I Parisi , Ronald Kemker , Jose L Part ,Christopher Kanan,and Stefan Wermter.使用神经网络进行持续终身学习:审查. 神经网络,113 :54-71,2019。5[32] Juan-Manuel Perez-Rua , Xiatian Zhu , Timothy MHospedales,and Tao Xiang. 增量式少数拍摄对象检测。在IEEE/CVF计算机视觉和模式识别会议论文集,第13846-13855页,2020年。2[33] Hamed Pirsiavash和Deva Ramanan在第一人称相机视图中检测日常生活活动。在2012年IEEE计算机视觉和模式识别会议上,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IEEE 14总线系统Simulink模型开发指南与案例研究
- STLinkV2.J16.S4固件更新与应用指南
- Java并发处理的实用示例分析
- Linux下简化部署与日志查看的Shell脚本工具
- Maven增量编译技术详解及应用示例
- MyEclipse 2021.5.24a最新版本发布
- Indore探索前端代码库使用指南与开发环境搭建
- 电子技术基础数字部分PPT课件第六版康华光
- MySQL 8.0.25版本可视化安装包详细介绍
- 易语言实现主流搜索引擎快速集成
- 使用asyncio-sse包装器实现服务器事件推送简易指南
- Java高级开发工程师面试要点总结
- R语言项目ClearningData-Proj1的数据处理
- VFP成本费用计算系统源码及论文全面解析
- Qt5与C++打造书籍管理系统教程
- React 应用入门:开发、测试及生产部署教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功