没有合适的资源?快使用搜索试试~ 我知道了~
10818ORBIT:一个用于可教对象识别的真实世界少镜头数据集Daniela Massiceti1Luisa Zintgraf2John Bronskill3Lida Theodorou4Matthew Tobias Harris4 Edward Cutrell1Cecily Morrison1Katja Hofmann1Simone Stumpf41微软研究院2牛津大学3剑桥大学4伦敦大学摘要对象识别在过去十年中取得了很大的进步,但主要仍然依赖于每个对象类别的许多高质量训练示例相比之下,仅从几个示例中学习新对象可以实现从机器人到用户个性化的许多有影响力的应用然而,大多数少数学习研究都是由基准数据集驱动的,这些基准数据集缺乏这些应用程序在现实世界中部署时所面临的高度变化为了缩小这一差距,我们提出了ORBIT数据集和基准测试,基于盲人/低视力人群的该数据集包含盲人/低视力者在手机上录制的486个物体的3,822个视频该基准反映了一个现实的,极具挑战性的识别问题,提供了一个丰富的游乐场,以推动研究的鲁棒性,少拍,高 变 化 的 条 件 。 我 们 设 定 了 基 准 我 们 在https://doi.org/10.25383/city.14294597上发布数据集,在https://github.com/microsoft/ORBIT-Dataset 上 发 布 基 准代码。1. 介绍对象识别系统近年来取得了惊人的进步[42,47,43,37,14,30,36]然而,大多数系统仍然依赖于训练数据集,每个对象类别有100到1,000个高质量的标记示例这些需求使得训练数据集的收集成本很高,并且限制了它们在除少数应用领域之外的所有应用领域的使用。少镜头学习旨在通过训练模型来减少这些需求,以便仅从几个示例中识别完全新颖的对象[9,49,40,2,38,11,46]。这将使识别系统能够适应现实世界的动态场景,从自动驾驶汽车到用户自己提供训练示例的应用程序元学习算法(a) 来自干净视频的(b) 来自杂乱视频的图1:ORBIT数据集中的高变异示例完整的视频在补充材料。更多示例见图A.5。最近的进展为实现这一目标开辟了令人兴奋的可能性,为轻量级,适应性强的识别。然而,大多数少镜头学习研究都是由缺乏高变化的数据集驱动的-每个对象的示例数量和这些示例的质量(框架,模糊等;参见表1)-当在现实世界中部署时,识别系统将可能面临的问题。例如,Omniglot [23,49]和miniImageNet [49]等关键数据集呈现了高度结构化的基准任务,这些任务假设每个对象有固定数量的对象和训练示例。元数据集[48],另一个关键数据集,提出了一个更具挑战性的基准任务,即在给定少量(随机)训练示例的情况下适应新数据集然而,它的组成数据集[23,17,39,26,32,50,6]反映了Omniglot和miniImageNet的高质量图像,对来自现实世界系统的噪声帧具有鲁棒性。虽然这些数据集已经催化了少数学习的研究,但最先进的性能现在相对饱和,并为算法创新留下了较小的空间[16,4,33]。为了推动针对现实世界影响的少量学习的进一步创新,强烈需要捕获现实世界应用中固有的高变化的数据集我们10819激励数据集和基准测试任务都应该基于潜在的现实世界应用,以将现实世界的识别挑战全部带入生活。一个应用领域,巧妙地封装了几个镜头,高变化的情况是可教对象识别器(TOR)的人谁是盲人/低视力[24,18]。这里,用户可以通过在他们的移动电话上捕获基本对象的少量(高变化)训练示例来定制对象识别器然后在这些示例上训练(在部署中)识别器,使得它可以在新的场景中识别用户因此,TOR捕捉了一个具有高度挑战性和现实条件的缩影,可用于推动现实世界识别任务的研究,并有可能影响广泛的应用,而不仅仅是盲人/低视力社区的工具。我们介绍了ORBIT数据集[31],这是盲人/低视力者在手机上录制的视频集合,以及基于TOR的相关少数镜头基准。两者都是与机器学习(ML),人机交互和可访问性研究人员团队合作设计的,并将使ML社区能够1)加速少数镜头,高变化对象识别的研究,以及2)探索少数镜头视频识别的新研究方向。我们打算将两者作为一个丰富的游乐场,以推动对挑战性现实世界条件的鲁棒性研究,这超出了策划的少数镜头数据集和结构化基准任务所能提供的范围,并最终影响广泛的现实世界视觉应用。总的来说,我们的贡献是:1.ORBIT基准数据集。ORBIT基准数据集[31](第3节)是由77名盲人/低视力者在他们的移动电话上记录的 486 个 对 象 的 3822 个 视 频 的 集 合 , 并 且 可 以 在https://doi.org/10.25383/city.14294597下载。示例如图1和A.5所示。与现有数据集[39,8,26,49,48]不同,ORBIT显示了各种真实条件下的对象,包括对象框架不佳,被手和其他对象遮挡,模糊,以及背景,照明和对象方向的广泛变化。2.ORBIT可教对象识别基准。我们在ORBIT数据集(第4节)上制定了一个基于TOR的几次基准测试,用于盲人/低视力人群。对比现有的几杆(和其他)的作品,基准提出了一种新的以用户为中心的公式,lation措施个性化的个人用户。它还包含反映移动终端上实际部署的潜在计算成本的指标。这些和基准测试3.ORBIT基准测试中的最先进技术(SOTA)。我们实现了4个少镜头学习模型,涵盖了该领域的主要方法类别,将其扩展到视频,并在ORBIT基准上建立了第一个SOTA(第二节)。第5段)。我们还进行了实证研究,表明在现有的少拍学习数据集上进行训练不足以在ORBIT基准测试(表4)上获得良好的性能,从而为可以处理高变化数据的少拍技术的算法创新留下了很大的空间用于加载数据集、计算基准度量和运行基线的代码可在https://github.com/microsoft/ORBIT-Dataset获得。2. 相关工作少量学习数据集。Omniglot [23,49],miniImageNet[49]和Meta-Dataset [48]推动了少数学习的近期进展。Omniglot和miniImageNet [49,16,4,33]已经取得了令人印象深刻的收益,但是结果现在很大程度上饱和,并且高度依赖于所选择的特征嵌入。Meta-Dataset是一个由10个数据集组成的数据集,它制定了一个更具挑战性的任务,其中整个数据集都被展示出来,但这些数据集包含简单而干净的图像,例如字符/符号的剪贴画[23,49,17]和类似ImageNet的图像。年龄[26,39,32,50,6]显示对象在统一的照明,方向,和相机的观点。ORBIT数据集和基准测试提出了一个更具挑战性的少数任务,其中包含在现实世界场景中捕获的高变化示例。高变异数据集。用户在真实世界环境中捕获的数据集自然是高变化的[1,12,7,10]。21,27,18,41,13],但没有收集到迄今explicic-其目标是少镜头物体识别。 ObjectNet[1] 挑战性图像的仅测试数据集(例如,不寻常的方向/背景)用于“多镜头”分类。Something-Something[12]和EPIC-Kitchens[7]分别是Core50[27]是一个在手机上捕获的视频数据集,用于持续学习识别任务。与ORBIT相比,这些视频质量很高 (由有视力的 人拍摄,对 象居中,光 线充足)。其他高变化数据集包括由盲人/低视力者收集的数据集[18,41,13](参见IncluSet获取可访问数据集的存储库[19]),但是,大多数数据集不适合少量学习。TeGO[18]包含19个物体的手机图像,仅由2个用户拍摄(1个视力正常,1个盲)在2个环境中(1个均匀背景,1个杂乱场景)。它验证了TOR用例,但是太小而不能提供一个健壮的、可部署的系统。VizWiz[13],尽管更大规模(由11,045名盲人/低视力用户贡献的31,173张移动电话图像)以图像字幕和问答任务为目标,并且没有用对象标签注释ORBIT数据集和基准测试的动机是缺乏具有少数镜头,高变化的现实世界应用程序所需的规模和结构的数据集,并添加到不断增长的数据集存储库中以实现可访问性。10820±±±[23]第24话:我的世界,我的世界[24]数据类型#类样本数/类样本总数目标任务源数据收集器图像视频帧1623 100 4934 19 48620 600 6- 340,029 180-487 33- 3,60032,460 60,000 52,764,077 11,930 2,687,934图片分类帧分类固定拍摄/方式固定拍摄/方式随机拍摄/方式固定拍摄/方式随机拍摄/方式Turk Web Web移动电话移动电话视力(20)视力(1)盲人(1)盲人(67)不平衡类光照变化背景变化视点变化框架不好的对象模糊联系我们✓ ✓✓ * ✓✗ ✗ ✗ ✓ ✓✗ ✗ ✗ ✓ ✓✗ ✗ ✗ ✗ ✓表1:几次学习数据集的比较请注意,ORBIT基准数据集是收集者提供的所有视频的子集(参见附录B)。* 在2个受控环境3. ORBIT基准数据集我们的目标是推动研究在识别任务下,少数拍摄,高变化的条件,使部署的少数拍摄系统是强大的,这样的条件。为了实现这一目标,我们专注于一个真实世界的应用程序,作为一个缩影的几个镜头,高变化的设置-TOR的人谁是盲人/低视力-收集分两个阶段进行,收集者通过可访问的iOS应用程序记录并 提交所有视频(完 全匿名)(见附录A.2)。收集协议是通过广泛的用户研究[44]设计和验证的,并导致了捕获视频而不是对象图像的关键决定这是基于这样的假设,即视频增加了盲采集器平均7.3(2.8)个对象,5.8(3.9)个干净的视频和每个对象1.8(1.1)个杂波视频图2示出了对象的数量(2a)和每个收集器的视频的数量(2b)。我们在附录B.3中讨论了贡献视频数量超过平均值的2名收集者的影响。12108642与对单个图像的多次尝试相比,收集器的时间/努力成本该研究得到了伦敦城市大学研究伦理委员会的批准完整的数据采集方案见附录A.1,数据集的数据表[10]见附录E。我们在表2中总结了基准数据集,并在下面对其进行了详细描述(数据集准备见附录B,剪辑示例见附录C基准数据集用于运行第4中描述的基准。收藏家的数量在全球范围内,有77个收集者为ORBIT基准数据集做出了贡献。合并仅贡献1个对象的收集器以强制每个用户最少3个对象,使得每个用户分类任务最少为3路,从而产生有效的67个用户。视频和对象的数量。 收藏家贡献a0400350300250200150100500收集器(a) 每个收集器的对象数。收集器总共486个对象和3,822个视频(2,687,934帧,83GB)。2,996个视频孤立地显示了对象,称为干净视频,而826个视频显示了真实的多对象场景中的对象,称为杂波视频。我们收集了这两种类型,以匹配TOR在现实世界中遇到的情况(参见第4.2.2)。每个收藏家都贡献了(b) 每个收集器的视频数(按对象堆叠)。图2:67个收集器中的对象和视频数量对象的类型收集者为每个贡献的视频提供了对象标签。覆盖粗粒度类别的对象(例如远程、密钥、钱包)以及细粒度高变异特征obj 13杂波obj 13 cleanobj12杂波obj 12 cleanobj 11杂波obj 11 cleanobj 10杂波obj 10 cleanobj 9 clutter obj 9 cleanobj 8 clutter obj 8 cleanobj 7 clutter obj 7 cleanobj 6 clutter obj 6 cleanobj 5 clutter obj 5 cleanobj 4 clutter obj 4 cleanobj 3 clutter obj 3 cleanobj 2 clutter obj 2 cleanobj 1 clutter obj 1 clean数量的对象按对象显示10821∼∼∼K∩KKK|P|Pi=1C∈PC{}∈∈ T收藏家对象视频每个对象的平均值/标准差第25/75百分位数最小/最大每视频平均值/标准品25/第75百分位数最小/最大总6748638227.9/4.87.0/7.03.0/46.0703.3/414.1396.2/899.033.0/3600.0清洁29966.2/4.65.0/6.02.0/44.0771.3/420.6525.8/900.033.0/3600.0杂波8261.7/1.51.0/2.01.0/13.0456.7/272.9248.5/599.040.0/3596.0每集电极17.3/2.857.0/47.47.5/4.06.6/7.43.4/38.4728.8/208.8609.4/808.2213.1/1614.3清洁44.7/44.05.8/3.94.8/6.02.4/36.5809.9/244.7664.7/898.5219.3/1872.6杂波12.3/10.81.8/1.11.0/2.01.0/9.9728.8/208.8609.4/808.2213.1/1614.3表2:ORBIT基准数据集。类别(例如苹果电视遥控器、维珍遥控器、三星电视遥控器)。出于总结目的,我们根据对象相似性对对象进行聚类,并观察到长尾分布(见图A.7b)。最大的俱乐部包含不同类型的遥控器/控制器、钥匙、钱包/钱包、指南筒、门、airpods、耳机、移动电话、手表、太阳镜和盲文阅读器。超过一半的集群仅包含1个对象。聚类算法和聚类内容见附录D。边界框注释。由于杂波视频可能包含多个对象,因此我们在所有杂波视频中的目标对象周围提供边界框注释(可在代码存储库中获得)。我们使用这些来计算目标对象花费在每个视频帧内与帧外的时间比例,并在图A.6中显示每个收集器的所有杂波视频的平均值。平均而言,对于任何给定的杂波视频,目标对象在95%的帧内。视频长度。视频长度取决于每种视频类型所需的记录技术(见附录A.1)。平均而言,干净视频为25.7秒(30FPS时为771帧),杂乱视频为15.2秒(30FPS时为457帧)。未过滤的ORBIT数据集。一些收集器不满足基准数据集中包含的最低要求(例如对象不具有干净和杂乱的视频两者)。因此,基准数据集是从97个收集者贡献的588个对象的4733个视频(3,161,718帧,97GB)的更大集合中提取的。我们在附录A.3中总结了未过滤的数据集。4. 可教对象识别基准ORBIT数据集可用于探索从持续学习[27,28]到视频分割[25,34,29]的各种现实世界识别任务在本文中,我们专注于从高变化的例子,并提出了一个现实的和具有挑战性的几杆基准接地TOR的人谁是盲人/低视力的几杆对象在第4.1中,我们描述了TOR如何工作,映射它在我们的例子中,是用户自己捕获的视频。实现TOR的三个步骤是:(1) 火车识别模型在对象的大数据集上训练该模型可以被优化为i)直接识别一组对象[46,5]或ii)学习如何识别一组对象(即,元学习)[9,40,49,38]。这发生在将模型部署到现实世界之前。(2) 个性化。现实世界的用户捕获他们的个人对象的集合的一些示例。部署的模型仅使用这些示例在该用户(3) 认出。用户采用他们现在个性化的识别器来识别他们在新的(测试)场景中的个人对象。当用户将他们的识别器指向场景时,它会提供逐帧的预测。4.1.1TOR作为少数学习问题TOR的(1)训练步骤可以被映射到通常在少数学习设置中使用的“Meta训练”阶段。(2)个性化和(3)识别步骤可以映射到有了这个观点,我们现在形式化的可教对象识别任务,从几杆文献中的命名法绘制[9,40,38,11]。我们构造了一组训练用户训练和测试用户测试(列车test=),类似于少量学习中使用的训练和测试对象类。用户κ具有他们想要识别器识别的一组个人对象κ,设置一个k-way分类问题。 为此,用户捕获每个对象的几个视频,一起称为用户的“context”集合κ=(v’,p)iN,其中v’是context视频,pκ是其对象标签,并且N是用户的上下文视频的总数。 目标是使用κ来学习可以识别用户的对象的识别模型f θκ,其中θ κ是特定于用户κ的模型参数。一旦个性化,用户可以将他们的识别器指向新颖的在4.2节中介绍基准的评估协议和指标之前,我们先讨论几次学习问题yf*=argmaxfθκ(vf)vfv(v,p)yf∈Pκκ(1)4.1. 可示教对象识别我们将TOR定义为一个通用识别器,可以其中,v,f是目标帧,v是目标视频,T κ是所有用户的目标视频,并且y,f ∈ P κ是帧级水平标签。11注意,yf=p,其中p∈Pκ是视频级对象标签10822������������∈������������������������∈ ➚������不CC不∈K∈ K不C不C∈PKKK不∈PC遵循典型范例,在元训练(即,训练步骤)期间,每个用户k训练对多个任务进行采样,其中任务是用户k训练的随机子样本。K和κ(见附录G.2)。识别模型可以使用情景[9,40,49,38]或非情节性方法[5,46,22]。我们在附录F中的职权范围的上下文中对两者进行了形式化。然后,在元测试中,对每个测试用户κ采样一个任务测试包含所有用户的上下文和目标视频。对于每个测试用户,识别器使用他们的所有上下文视频κ(即个性化步骤),然后在K中对用户的每个目标视频进行评估在以下部分中,我们将讨论该评价方案。元训练(1) 火车我们强制要求测试(和验证)用户至少拥有5个对象( 详 见 附 录 B.3 ) 。 分 割 中 的 对 象 总 数 分 别 为278/50/158。我们在附录C中报告了每组训练/验证/测试用户的统计数据,反映了第3中所有用户的统计数据。4.2.2评价模式我们建立了两种评价模式:清晰视频评估(CLE-VE)。我们从测试用户的干净视频中构建测试用户从一组他们的干净视频中设置κ该模式用作用户的干净视频可以用于在对象处于隔离时在新颖的“简单”场景中识别用户的对象的简单检查杂波视频评估(CLU-VE)。我们从他们的干净视频中构建测试用户这种模式与TOR的真实使用情况相匹配,用户可以捕捉干净的视频简体中文联系我们∈➚������������������������������∗∈P������注册对象,并需要在复杂、杂乱的环境中识别这些对象。我们认为CLU-VETrainedove r Ttraintask s pertrai nuse r∈������train元测试(2) 个性化(3)识别是ORBIT4.2.3评估指标对于一个测试用户κ∈ K测试,我们评价他们的个性化简体中文������,������∗∈P识别器f θκ在它们的每个目标视频上。我们将对象p κ的目标视频表示为v =[v1,. . . ,v [F],和其框架预测为y*=[y*,. . . ,y*],其中F是1FTested ontes tuse r∈������test图3:可教对象识别器转换为少量学习问题。P是个性化方法,例如,使用基于优化的方法的几个梯度步骤,或使用基于模型的方法的 参数生成(参见第5.1)。4.2. 评价方案ORBIT为了实现这一点,我们以用户为中心的方式进行测试(和训练),其中任务是按用户进行采样的(即,仅从给定用户这对比了现有的几次(和其他)基准测试,并提供了关于元训练的TOR如何个性化单个用户的强大见解。4.2.1培训/验证/测试用户第4.1.1节中的以用户为中心的公式要求一组不相交的训练用户训练和测试用户测试。因此,我们将67个ORBIT收集器分为44个列车用户和17个测试用户,其余6个标记为验证用户K值为了确保测试用例具有足够的挑战性,数,则f*k。我们进一步记为ym*ode作为视频最频繁的帧预测。 对于给定目标视频,我们计算其:帧精度:正确帧预测的数量乘以视频中的帧的总数。帧识别(FTR):帧的数量(相对于帧的长度)。在进行正确预测之前的第一帧v1)乘以视频中的帧的总数。视频精度:1,如果视频级预测等于视频级对象标签,则ym*ode=p,否则为0。我们为测试中的所有用户的所有任务中的每个目标视频计算这些指标。我们报告了在该扁平化的视频集合上的每个度量的平均值和95%置信区间,表示为全部(参见表3中的等式)。我们还计算另外2个计算成本度量:MACS个性化:使用多个乘法累加运算(MACS)来使用测试用户的上下文视频κ计算测试用户的个性化参数θκ,其被报告为跨测试用户汇集的所有任务的平均值。参数数量:识别器中的总参数。我们将帧精度标记为ORBIT其余指标是互补的:FTR捕获用户将不得不将其识别器指向,PP10823Σ*Σ模式p∈PκF帧精度(↑)帧识别率(↓)视频 准确度(↑)|v|1[y=p]|不所1argminyf*=p1Σ|Tall|所有模式(v,p)∈Tall|v||Tall|(v,p)∈T|v|Ff=1vf∈v1年*=py*=argmax1[y*=p]表3:ORBIT评估指标。符号↑/↓分别表示向上/向下更好Tall是所有目标视频的集合在K测试中,所有测试用户的所有任务之间进行池化。识别目标对象之前的场景(具有较少的帧更好),而视频准确度总结了预测值。在整个视频中。 MACS提供个性化的指示个性化是否可以直接发生在需要用户影响了识别器可以多快地被个性化。参数的数量指示模型在设备上的存储和内存要求,并且如果是基于云的,则指示下载个性化模型所需的带宽按模型容量标准化性能也很有用5. 实验分析和结果5.1. 基线培训设置基线。有三种主要的少拍学习方法。在基于度量的方法中,使用上下文集中的(标记的)示例计算每类嵌入,并且基于目标示例与每个示例的距离对目标示例进行分类[40,49]。在基于优化的方法中,模型在上下文示例上采取许多[51,46,5]或很少[9,52,2]梯度步骤,然后更新的模型对目标示例进行分类最后,在基于摊销的方法中,模型使用上下文示例直接生成分类器的参数,然后将其用于对目标示例进行分类[38,11]。我们在这3个类别的ORBIT数据集上建立基线在情景方法中,我们选择Pro- totypical Nets [40]用于度量系列,MAML [9]用于优化系列,CNAP [38]用于摊销系列。我们还实施了一个非情节微调基线[46,5],他们表明它可以与更复杂的方法相媲美。这种选择的模型提供了良好的覆盖率超过那些有竞争力的当前少数拍摄学习图像分类基准。有关这些基线的所有实施细节,请参见附录G.1。视频表示。在第4.1.1节中,从给定用户的对象的上下文和目标视频我们从每个视频中采样剪辑,并将每个剪辑表示为其(学习)帧级特征的平均值。出于内存的原因,我们不会对视频中的所有剪辑进行采样。相反,在元训练期间,我们从上下文和目标视频中随机采样S个训练非重叠剪辑,每个L个每个剪辑被平均并被视为上下文/目标集合中的“元素”,类似于典型的少数拍摄图像分类中的图像。然而,在元测试期间,遵循第4.2和Eq.(1)我们Σ| (v,p) ∈Tallf=1|v|Σ一个10824不必须评估测试用户所有目标视频中的帧。 因此,我们采样目标视频中的所有重叠剪辑,其中剪辑是每个帧加上其短历史的L大小的缓冲区。理想情况下,然而,这也应该针对上下文视频来完成,因为由于存储器的原因,我们对来自每个上下文视频的非重叠L大小的剪辑进行S测 试采 样,类似于元训练。在我们的基线实现中,Strain=4,Stest=8,L=8(更多详细信息请参见附录G.2和G.3)。在训练/测试期间如何对帧进行采样,以及如何表示视频是灵活的。评估协议每个测试用户的任务数。因为上下文视频在元测试期间被子采样,所以测试用户因此,为了考虑潜在的变化,我们对每个测试用户采样5个任务,并将他们的所有目标视频汇集到所有视频中进行评估。如果记忆不是一个限制,按照第4.1.1节,我们将对每个测试用户的一个任务进行采样,其中包含所有上下文和所有目标剪辑。5.2. 分析基线比较。在CLE-VE和CLU-VE模式下,基线模型的性能基本一致(见表4)。在CLE-VE中,所有方法在帧精度、FTR和视频精度方面是等效的,除了ProtoNets和CNAP在帧精度方面稍微落后与CLU-VE相比,我们看到整体性能下降了10-15个百分点。在这里,模型在帧和视频精度方面总体上是等同的,但是ProtoNets和FineTuner在FTR方面领先。此外,绝对CLU-VE评分在低50 s。查看最佳可能边界(使用边界框注释计算,见图A.6c)表明,有足够的改进空间,并推动了对能够处理从干净(上下文)到真实世界、杂乱场景(目标)的分布变化的方法的需求,并且对更普遍的高变化数据具有鲁棒性在计算成本方面,ProtoNets的个性化成本最低,只需要用户上下文视频的单次向前传递,而FineTuner的成本最高,需要50个梯度步骤。这一点以及参数的总数(在不同的模型中是相似的)表明ProtoNets和CNAP更适合于部署在移动终端上。10825不--清晰视频评估(CLE-VE)杂波视频评估(CLU-VE)mac电脑mac电脑方法表4:ORBIT数据集上的基线。结果被报告为从85个测试任务(每个测试用户5个任务,17个测试用户)汇集的所有目标视频的平均值(95%置信区间)。最佳可能得分使用杂波视频可用的边界框注释计算(参见附录C和图A.6)。表5:当在元数据集上进行元训练和在ORBIT上进行元测试时的CLE-VE性能(对于CLU-VE,参见表A.3)。即使在干净的视频上,与在ORBIT上进行元训练时相比,模型的表现也很差(表4),这表明现有的几个镜头数据集可能不足以用于现实世界的适应。在其他少量学习数据集上进行元训练。原则上,元训练模型应该具有以下能力:0.90.80.70.60.50.40.30.20.10收集器学习任何新的对象(从任何数据集)只有几个例子。我们通过使用其标准任务采样协议在元数据集[ 48 ]上对基线模型进行元训练,然后在ORBIT数据集(即在没有训练的情况下个性化以测试用户)。我们通过对从上下文和目标视频中采样的剪辑中的帧特征取平均值来使元训练模型适应视频(参见第5.1)。在表5中,我们看到,即使在更简单、干净的视频(CLE-VE)上,性能也明显低于表4中的相应基线(对于CLU-VE,参见 表 A.3 ) 。 MAML 和 CNAP 的 表 现 特 别 差 , 而ProtoNets和FineTuner的表现稍好,但在帧精度方面仍比上述同行低6-8个百分点。这表明,即使在现有的少数基准测试上取得了很大进展,但它们并不能代表现实世界的条件,并且在只有高变化示例可用时,在它们上训练的模型可能难以学习每用户性能。除了对所有用户进行平均之外,基准测试而不仅仅是他们的目标视频)。这是有用的,因为它提供了元训练的TOR将如何很好地个性化到个体现实世界用户的度量然而,在图4TOR应该能够适应任何真实世界的用户,因此未来的工作不仅要提高指标的性能,还要减少测试用户之间的差异。图4:CLU-VE帧精度在测试用户(误差线为95%置信区间)使用Pro- toNets [40]。其他指标和模型见图A.10。培训任务组成。最后,我们研究了每个对象的上下文视频的数量(图5)和在训练任务中采样的每个用户的对象的数量(图6)对CLU-VE帧精度的影响。在第一种情况下,我们期望每个对象有更多的上下文视频,模型在元训练期间将看到更多的多样性,因此在元测试时更好地推广到新的(目标)视频。为了测试这个假设,我们在每个训练任务中固定每个对象96帧的配额,并从越来越多的上下文视频中对这些帧进行帧准确度随着更多的上下文视频而增加,但总体上在每个对象4-6个上下文视频之间达到稳定接下来查看每个用户采样的对象的数量,当元训练时,我们分别将所有训练用户的对象限制然后,我们以两种方式进行元测试:1)我们保持测试用户的上限,以及2)我们就把瓶盖拿掉。对于1),我们看到随着对象数量的增加而降低的准确性,正如所预期的,在8个对象之间分类对于2),我们看到相对于1)的准确性显着下降,这表明元训练的对象比元测试中遇到的对象少这是一个重要的现实考虑因素,因为很可能在几个月/几年内,用户将积累比ORBIT数据集中每个用户当前存在的对象更多的对象然而,总的来说,使用上限为6个或更多对象的训练产生帧精度P554P233P271P177P900P455P204P485P198P452P609P953P421P901P999P753P642模型车架附件FTR视频ACC个性化车架附件FTR视频ACC个性化个性化# PARAMS最佳可能----95.31(1.37)0.00(0.00)100.00(0.00)---ProtoNets [40]65.16(1.96)66.15(2.08)7.55(1.35)8.40(1.40)81.88(2.51)79.56(2.63)2.82×10123.09×101284.63× 1012282.09× 101250.34(1.74)51.47(1.81)14.93(1.52)17.87(1.69)59.93(2.48)59.53(2.48)3.53×10123.87×1012105.99× 1012353.30× 10121次向前传球11.17MCNAPs [38]1次向前传球12.75MMAML [9]15个梯度步骤11.17MFineTuner [46]50个梯度步长11.17M模型车架附件FTR视频ACCProtoNets [40]58.98(2.23)11.55(1.79)69.17(3.01)CNAPs [38]51.86(2.49)20.81(2.33)60.77(3.18)MAML [9]42.55(2.67)37.28(2.99)46.96(3.25)10826545250484644424038361、2、3、4、5上下文视频图5:每个对象具有更多上下文视频的元训练导致更好的CLU-VE性能。使用每个视频的剪辑数量(S训练)从每个对象的增加数量的干净视频中采样帧,以保持每个训练任务的上下文帧的总数8075706560555045二四六八每个用户图6:每个用户具有更多对象的元训练和元测试提出了更难的识别问题(实线),然而,与表4相比,具有比元测试中遇到的更少对象的元训练(虚线)仅示出了小的CLU-VE性能下降,表明模型可能能够适应现实世界中的更多对象。大致等同于表4中报告的性能,其中在训练期间没有施加上限。由于ORBIT测试用户最多有12个对象(见图A.3c),我们的结果表明,测试用户的最终对象数量的至少一半可能足以进行元训练。我们对图A.8和图A.9中的其他指标重复这些分析,并在表A.5和表A.6中包括相应的表格。我们还调查了每个训练用户的任务采样数量的影响,包括在附录H中。6. 讨论我们提出了ORBIT数据集和基准测试,两者都基于TOR的少数应用程序,用于盲人/低视力的人。我们的基准性能和然而,进一步的分析表明,当前的几次采样方法在现实的、高变化的数据上挣扎。这一差距为新的和令人兴奋的研究提供了机会,从使模型对高变化视频数据具有鲁棒性到量化模型预测中的不确定性。ORBIT数据集不仅推动了现有思路的最新发展,还开辟了新的挑战,这些挑战来自支持人类-人工智能伙伴关系的系统。最后,我们将讨论其中的三个独特特征。ORBIT这与大多数少数(和其他)基准测试形成对比,这些基准测试没有保留最终用户的概念。我们的研究结果表明,基线不执行consis- tently跨用户。在现实世界中,用户的异质性,他们的对象,视频技术和设备将使这更具挑战性。因此,重要的是模型要量化、解释并最终最大限度地减少用户之间的差异,特别是当模型部署在收集数据集的高收入国家以外的各种场景中时。直接让用户参与收集旨在推动ML研究的数据集会带来挑战:基于用户的数据集比网络抓取的数据集更难扩展[8,26,48],用户需要了解潜在的系统,以便贡献有用的数据。首先构建系统可以解决这些挑战,但如果没有算法创新(这本身就需要数据集),就无法完成ORBIT数据集是一个起点,可用于构建第一代TOR,这些TOR可被部署并用于收集更多真实世界的数据,以推动数据集和应用程序之间的创新循环最后,基于现实世界的应用程序鼓励新方向的创新,以满足现实世界的部署条件。这可能包括从足够轻以直接在用户的手机上个性化的新模型当用户的对象都不在帧中时的场景总之,ORBIT数据集和基准测试旨在为盲人/低视力社区塑造下一代识别工具,从TOR开始,并在广泛的其他应用中提高视觉系统的鲁棒性致谢ORBIT数据集由Microsoft AI for Accessi- bility资助。LZ得到了2017年MSR博士奖学金计划和2020年MSREMEA 博 士 奖 的 支 持 。 JB 由 EPSRC 繁 荣 伙 伴 关 系EP/T005386/1支持。我们感谢VICTA、RNC、RNIB、CNIB、Humanware、Tekvision盲人学校、BlindSA、NFB和AbilityNet。最后,我们感谢Emily Madsen在视频验证方面的帮助,以及所有ORBIT收集者的时间和贡献。帧精度CNAPsProtoNetsMAMLFineTuner帧精度盖@测试无cap @testCNAPProtoNetsMAMLFineTuner10827引用[1] Andrei Barbu 、 David Mayo 、 Julian Alverio 、 WilliamLuo 、 ChristopherWang 、 DanGutfreund 、 JoshTenenbaum和Boris Katz。ObjectNet:一个大规模的偏差控制数据集,用于推动对象识别模型的极限。在2019年第33届神经信息处理系统年会(NeurIPS)上。二个[2] Luca Bertinetto,João F.菲利普·亨里克斯Torr和AndreaVedaldi。使用可微封闭形式求解器的元学习。第七届国际学习表征会议(ICLR),2019年。1、6[3] Piotr Bojanowski,Edouard Grave,Armand Joulin,andTomas Mikolov.用子词信息丰富词向量。Transactions ofthe Association for Computational Linguistics(TACL),5:135-146,2017。十五个[4] Da Chen,Yuefeng Chen,Yuhong Li,Feng Mao,YuanHe,and Hui Xue.用于少拍图像分类的自监督学习在IEEE声学,语音和信号处理国际会议(ICASSP)的会议记录中,2021年。一、二[5] Yinbo Chen , Xiaolong Wang , Zhuang Liu , HuijuanXu,and Trevor Darrell.一个新的元基线为少镜头学习。arXiv预印本arXiv:2003.04390,2020。四五六二十九[6] Mircea Cimpoi , Subhransu Maji , Iasonas Kokkinos ,Sammy Mohamed ,and Andrea Vedaldi.描述野外的纹理。在IEEE/CVF计算机视觉和模式识别会议(CVPR)的会议记录中,2014年。一、二[7] DimaDamen 、 HazelDoughty 、 GiovanniMariaFarinella 、 Sanja Fidler 、 Antonino Furnari 、 EvangelosKazakos、Da- vide Moltisanti、 Jonathan Munro、 TobyPerrett、Will Price和Michael Wray。扩展以自我为中心的愿景:EPIC-KITCHENS数据集。在欧洲计算机视觉会议(ECCV)的会议记录中,2018年。二个[8] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei.ImageNet:一个
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功