扩展第一人称视角的EPIC-KITCHENS数据集

53 浏览量更新于2023-10-13 收藏 3.49MB PDF 举报

第一人称视角

数据集

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

扩展以自我为中心的愿景：EPIC-KITCHENS数据集DimaDamen1[0000−0001−8804−6238]、 Hazel Doughty1、Giovanni MariaFarinella2、Sanja Fidler3、Antonino Furnari2、Evangelos Kazakos1、Davide Moltisanti1、Jonathan Munro1、TobyPerrett1、 Will Price1和MichaelWray11单位。of Bristol，UK2 Uni.of Catania，Italy，3Uni.加拿大多伦多抽象。第一人称视角正引起人们的兴趣，因为它提供了一种独特的视角，可以让操作人员在面对目标、目标和意图时保持冷静然而，由于缺乏足够大的数据集，这一具有挑战性的领域的进展相对缓慢在本文中，我们介绍了史诗厨房，一个大规模的自我为中心的视频基准记录32名参与者在他们的本地厨房环境。我们的视频描述了非脚本化的日常活动：我们只是要求每个参与者在每次进入厨房时开始记录录制在4个城市（北美和欧洲）进行，参与者来自10个不同的国家，导致了高度多样化的烹饪风格。我们的数据集包含55小时的视频，由1150万帧组成，我们密集标记了总共39帧。6K动作片段和454. 3K对象边界框。我们的注释是独一无二的，因为我们让参与者讲述他们自己的视频（在录制后），从而反映真实的意图，我们基于这些群众来源的地面真相我们描述了我们的目标，行动和预期的挑战，并评估了两个测试分裂，看到和看不见的厨房几个基线。关键词：自我中心视觉，数据集，基准，第一人称视觉，自我中心物体检测，动作识别和预测1介绍近年来，我们在许多领域都取得了重大进展，例如图像分类[19]，对象检测[37]，字幕[26]和视觉问答[3]。这一成功在很大程度上归功于深度学习的进步[27]以及大规模图像基准的可用性[11，9，30，55]。在获得关注的同时，视频理解方面的工作更加稀缺，主要是由于缺乏注释数据集。最近，随着动作分类基准的发布，例如[18，1，54，38，46，14]，这种情况发生了变化。除了[46]之外，这些数据集中的大多数包含持续时间非常短的视频，即，只有几秒钟，专注于一个动作。Charades [42]通过收集人类在家中执行各种任务的10K视频，向活动识别迈出了一步虽然这个数据集是收集日常行动的一个很好的尝试，但视频是以脚本的方式记录的这使得视频看起来往往不那么自然，而且它们也缺乏现实生活中发生的动作的进展和多任务处理。2D. Damen等人图1：从顶部：来自32种环境的帧用于说明行动部分的与会者说明;活动对象边界框注释在这里，我们关注第一人称视觉，其提供了关于人们的日常活动的独特观点。这是因为它能实现我们的目标和目标，多任务的能力，以及执行各种重要但平凡的日常任务（如洗碗）的许多不同方式。以自我为中心的数据最近也被证明对人对机器人的模仿学习很有价值[34，53]，并对HCI应用产生直接影响。然而，用于评估第一人称视觉算法的数据集[16，41，6，13，36，8]的大小明显小于其第三人称对应物，通常以正弦形式捕获。环境[16，6，13，8]。可穿戴相机的日常互动也几乎无法在线获得，这使得这成为一个基本上不可用的信息来源在本文中，我们介绍了EPIC-KITCHENS，一个大规模的自我中心的数据集。我们的数据是由32名参与者收集的，他们来自10个国家，在1999年。他们的本土厨房（图）。①的人。参与者被要求捕捉他们所有的日常厨房活动，并记录序列，无论其持续时间。包括视频和声音两者的记录不仅以使用者的机器和应用程序的典型操作为特征，而且还显示了一个人执行的自然的多任务处理，如在烹饪中洗几个盘子。这种并行目标交互尚未在现有数据集中捕获，这使得它更现实，也更具挑战性。一组录音。有关录音的视频介绍，请访问：http://youtu.be/Dj6Y3H0ubDw。缩放自我中心视觉：EPIC-KITCHENS数据集3表1：相关数据集的比较概览* 样本数量>50的数据集自我？非剧本？原生环境？年帧Sequ-埃恩斯行动段行动类对象BBS对象类颗粒裤子号环境史诗厨房CCC201811.5M43239,596149*454,2553233232[16]第十六话C××20182.4M8610,32510600321Charades-ego [41]70%C×C20182.3M 2,75130,51615703871N/ABEOID [6]C××20140.1M58742340051GTEA凝视+[13]C××20120.4M353,3714200131ADL [36]C×C20121.0M2043632137,780422020CMU [8]C××20090.2M165163100161YouCook2 [56]×CC2018@30fps15.8M 2,00013,82989002KN/A[第14话]×CC201737.2M 114K000010.7KN/A猜谜[42]××C20167.4M 9,84867,00015700N/A267早餐[28]×CC20143.0M43330785000521850沙拉[44]×××20130.6M5029675200251[39]第39话×××20122.9M27314,1058800301总的来说，EPIC-KITCHENS有55小时的记录，密集地注释了每个动作/交互的开始/结束时间，以及交互对象周围的边界框。我们描述了我们的对象、动作和操作挑战，并报告了两种情况下的基线，即：看不见的和看不见的。本http://epic-kitchens.github.io。2相关数据集我们将EPIC-KITCHENS与表1中的四个常用[6，13，36，8]和两个最近[16，41]的以自我为中心的数据集以及六个第三人称活动识别数据集[14，42，56，28，44，39]进行了比较，这些数据集专注于对象交互活动。我们排除了专注于人际互动的以自我为中心的数据集[2，12，40]，因为这些数据集针对不同的研究问题。一些数据集旨在捕获本地环境中的活动，其中大部分以第三人称记录[18，14，42，41，28]。[28]专注于根据早餐食谱清单烹饪菜肴在[14]中，通过查询YouTube收集了与30个日常对象的交互相关的短片段，而[18，42，41]是脚本化的-所有以自我为中心的数据集都类似地使用脚本活动，即人们被告知要执行什么动作当遵循指令时，参与者按顺序执行步骤，这与我们的工作中解决的更自然的现实生活场景相反，这些场景涉及多任务处理、搜索项目、思考要做什么、选择自己的想法或每个不期望的步骤。EPIC-KITCHENS与ADL数据集[36]最密切相关，该数据集还提供了原生环境中的自我中心记录。然而，我们的数据集要大得多：它有1150万帧，而ADL有100万帧，90倍以上的注释动作片段，4倍以上的对象边界框，使其成为迄今为止最大的第一人称数据集。3EPIC-KITCHENS数据集在本节中，我们将描述我们的数据收集和注释管道。我们还提供各种统计数据，展示我们收集的数据的不同方面。4D. Damen等人用任何你喜欢的词你可以随意改变你的措辞，或者坚持几个。使用现在时态动词（例如切割/打开/关闭）。使用动词-宾语对（例如洗胡萝卜）。您可以（如果您已更新）备份和更新（例如，G. “cut k i w i”是“I cut h e k i wi”中的一个字）。我们提供了所需的成本（例如G. “p o u r wat t e r i n to ok et tt le“）。我们和其中一个人是一个真正的合作伙伴。G. “hol d mug and pour urwat et er”）。如果Anact i onis taking l ngl ong，则您可以在Anaratega n（e. G. “s t ill s t irr i n g s o up”）。图2：用于从我们的参与者3.1数据收集该数据集由不同国家（北美和欧洲）4个城市的32名个人记录：2017年5月至11月，英国布里斯托尔15家，加拿大多伦多8家，意大利卡塔尼亚8家，美国西雅图1家。参与者被要求连续三天记录所有的厨房访问，在进入厨房之前立即开始记录，直到离开厨房之前才停止。他们自愿记录数据集，没有经济奖励。参与者被要求在所有的录音中独自在厨房里，因此只捕捉一个人的活动。我们还要求他们移除所有会暴露他们身份的物品，如肖像或镜子。使用头戴式GoPro捕获数据，该头戴式GoPro具有可调节的安装件，以便于观察不同的图像和部件。在每次录制之前，参与者使用GoPro Capture应用程序检查电池寿命和视角，以便他们伸展的手大约位于相机框架的中间。相机被设置为线性视野，59.94 fps和1920x1080的全高清分辨率，然而一些受试者进行了微小的改变，如宽或超宽FOV或分辨率，因为他们在家中记录了多个序列，因此在几天内关闭和打开设备。具体而言，1%的视频是以1280x720录制的，0.5%是以1920x1440录制的。此外，30 fps时为1%，48 fps时为1%，90 fps时为0.2%。根据零件的零件规格，重新设计的尺寸各不相同。平均而言，人们记录了1.7小时，最高为4.6小时。烹饪一顿饭可以跨越多个序列，这取决于一个人是呆在厨房里，还是离开并稍后返回。平均而言，每个参与者记录了13.6个序列。图3显示了使用记录的本地时间、高级目标和序列持续时间的一天中的时间统计信息。由于对这样长的视频进行众包注释非常具有挑战性，我们让最初的参与者做一个粗略的第一注释。每个参与者在完成所有记录后，被要求观看他们的录像，并使用手持记录设备叙述所进行的行动。我们选择了录音而不是书面字幕，因为这对参与者来说可以说是更快的，因此他们更愿意提供这些注释。这些类似于视频的现场评论。叙述的一般说明列在图中。2.参与者用英语（如果足够流利）或其母语进行叙述。总共使用了5种语言：17篇以英语叙述，7篇以意大利语叙述，6篇以西班牙语叙述，1篇以希腊语叙述，1篇以中文叙述。图3示出了每种语言中最频繁的单词的单词缩放自我中心视觉：EPIC-KITCHENS数据集5塔齐纳托盘鲁比内pela叉加水萨尔萨塞拉拉沃台地锅0点整18点整12点整六点整比特板grad托利亚taglio二leche库恰拉σφουγγάρι打炉msch edaul etcoke我是号码功率计sgrialllLt搅拌花了情况塔泽科图罗卡斯科dal福利mesto塔瓦廖洛cerca富奥里乌西塔jaarcomrodara恩塞德佩拉杜拉塞卡尔恩丘费托托波斯通卡尔ξεχωρίζωτσόφλιαφλούδες奥诺因工额外开始tepair风扇尖端顶部拨号博博克斯在大基地半我的爱 L我爱你阿普雷恩普达risuila端jugoPico蒂赫拉Olaconοδηγίεςβάζουγρό走厨房撕泡面包装btooaot福福岭罐零木翻转Gallojar浴缸电子邮件：info@nelcanal.com nnnv as oDi芝麻菜龙皮Latta冷藏者和手ψη θούνκανεροχύιτητον清洗碗拿起小刀把放入冰箱用小刀切蟹棒清洗食材把泡面加入里翻岩缘秸秆放卡拉法盒式磁带POI海绵泰加莱尔塔斯lavbeb eraRcambiarchorizo披萨Polloανοίγωπλένσπάτουωλάστόαπό将牛倒入碗里打味包拿出蟹棒用刀切temp引导罐子他妈V60解压载体快速切削add库西纳宪章frig ofupottoo Co曼吉亚宝西安打沃特尔科西纳vlavererrter韦沃πιπεριάσυρτάρικοπής打水并洗小刀用小刀切蔬菜水果装盘芥末倒空撅帽尾捣碎器库基艾尼堡卢斯不皂化合作社拉特瓜错切里塔帕代拉平萨斯坎帕纳特内多雷斯内斯奎克阿格雷加尔θήκηκρεμμυδάκιασκουπίζωκατάψυξηδιαβάζω重启面粉管确保接入jeera 香蕉墙第一冰试图紧固包裹堆积跑步者面包屑混合洗刷器心库奇奥航空公司Fondo弗鲁蒂埃拉潘卡雷苏林萨拉塔托列尔恩富埃戈库维耶托斯埃斯普马德拉συκευασίατορτίγιας图3：顶部（从左到右）：记录的时间、高级目标的饼图、序列持续时间的直方图和数据集徽标;下图：母语（英语、意大利语、西班牙语、希腊语和汉语）的旁白文字表2：.sbv格式时间00：14：44.190，00：14：45.31000：02.780，00：04.640时间04：37.880，04：39.62006：40.669，06：41.669时间00：12：28.00000：00：03.280，00：00：06.000把豆腐倒在锅里打开箱子拿洋葱捡拾铲把意大利面倒进容器里冰箱打开时间00：14：45.310，00：14：49.54000：04.640，00：00.06.100时间04：39.620，04：48.160时间06：41.669，06：45.25000：12：33.000，00：12：33.00000：06.000，00：00：09.349可放下的豆腐容器把包切洋葱搅拌马铃薯拿一罐香蒜酱放牛奶时间00：14：49.540，00：15：02.69000：06.100，00：00.09.530时间04：48.160，04：49.16006：45.250，06：46.25000：12：39.000，00：12：39.00000：00：09.349，00：00：10.910炒青菜豆腐把袋子剥洋葱放下压舌板取茶匙倒牛奶时间00：15：02.690，00：15：06.26000：09.530，00：10.610时间04：49.160，04：51.29006：46.250，06：50.83000：12：41.000，00：12：41.00000：10.910，00：12.690放下压舌板再把袋子系上将果皮放入垃圾箱翻边滚刀把香蒜酱倒进容器敞开式橱柜时间00：15：06.260，00：15：07.82000：10.610，00：14.309时间04：51.290，05：06.350时间06：50.830，06：55.81900：12：55.000，00：12：55.00000：12.690，00：15.089取豆腐容器捡拾袋剥洋葱拾取盘把香蒜酱瓶放在桌上拿碗时间00：15：07.820，00：15：10.04000：14.309，00：17.52005：06.350，05：15.200时间06：55.819，06：57.170时间00：12：58.00000：15.089，00：18.080把某物扔进垃圾箱放下包将果皮放入垃圾箱翻边镶板取木勺敞开抽屉我们决定从参与者自己那里收集叙述，因为与独立观察者相比，他们最有资格标记活动，因为他们是执行行动的人我们选择了录音后的叙述，这样参与者就可以不受干扰地进行她/他的日常活动，而不必担心标签。我们测试了几个自动音频到文本的API [17，23，5]，这些API未能产生准确的转录，因为它们期望相关的语料库和完整的句子用于上下文。因此，我们通过Amazon Me-chanicalTurk（AMT）收集了手动转录，并使用YouTube的自动关闭的dap t i on align- ment工具来生成准确的对于非英语的叙述，我们也要求AMT工作人员翻译句子。为了使这项工作更适合AMT，旁白音频文件通过去除低于预先指定的分贝阈值（压缩和标准化后）的静音来分割。然后将语音块组合成HIT，每个HIT为了确保一致性，我们提交相同的命中三次，并选择与编辑距离为0的至少一个其他命中。当没有达成一致意见时，我们手动更正了病例转录和定时叙述的示例在表2中提供参与者还被要求为每个序列提供一个句子，描述发生的总体目标或活动。总共，我们收集了39596个动作叙述，相当于每4个动作叙述。视频中的9每个短语的平均单词数为2。八个字。这些叙述给我们一个初步标签的所有行动与粗略的时间21点三点15点九点da乐6D. Damen等人对准，从音频叙述相对于视频的时间戳获得然而，叙述也不是地面真相的完美来源– 叙述可以是不完整的，即，参与者是有选择性的，他们选择哪种行为。我们没有在比赛结束前就把球传给对方，因为对方已经进入了下一个我们在评估中考虑这种现象，只评估已经叙述过的行为。– 在时间上，叙述是迟来的，在行动发生之后。这是使用地面实况动作片段进行调整的（参见第2节）。3.2）。– 参与者使用自己的词汇和自由语言。虽然这是一个具有挑战性的问题，但我们认为推动社区超越预先选择的标签列表是很重要的我们在这里通过将动词和名词分组为最小重叠的类来解决这个问题（见第二节）。第3.4段）。3.2动作片段注释对于每个叙述的句子，我们使用AMT调整动作的开始和结束时间。为了确保注释器被训练以执行时间定位，我们使用来自我们自己的预处理器的计算器，并且[ 33]使用动作的最大每个HIT由最多10个连续的字符串组成，其中，第i个动作的起始时间和终止时间不等于或等于Ai=[tsi，tei]添加了两个约束以减少噪声注释的量：（1）动作必须至少持续0.5秒;（2）行为不能脱离行为的真实状态。不允许这些控制器执行的操作重叠。此外，注释器可以指示动作没有出现在视频中。这个手柄被遮挡，无法分辨或者出界的案子为了确保一致性，我们要求Ka= 4个注释器来注释每个HIT。给定一个注释Ai（j）（i是动作，j索引注释器），我们计算一致性如下：α（j）=1ΣKa IoU（A（j），A（k））。我们首先iKak=1i i发现不等于或不具有最大值imagreeentj=argmaxjαi（j），并且发现k=argmaxkIoU（Ai（j），Ai（k））. 最后一个环节是定义为：Ai=.Union（Ai（j），Ai（k）），ifIo U（Ai（（j），Ai（k（）>0. 5Ai（j），otherwise（1）因此，当两个注释具有很强的一致性时，我们将其组合，因为在某些情况下，单个（最佳）注释会导致片段太紧。图4示出了组合注释的示例。总共，我们收集了39，564个动作片段的此类标签（长度：μ = 3。7s，σ = 5。6s）。这些代表了99.9%的叙述片段。遗漏的注释被归类为“不可见“，但不是通过注释中的注释。缩放自我中心视觉：EPIC-KITCHENS数据集7图4：2个连续动作的注释动作段示例图5：来自三个AMT工作者的对象注释（橙色、蓝色和绿色）。由于最终没有选择，因此没有选择绿色部件3.3活动对象边界框注释叙述的名词对应于与动作相关的对象[29，6]。假设Oi是与动作片段Ai=[tsi，tei]相关联的短语p i中的一个或多个名词的集合。对于Oi中的每个对象，我们将siderea chframefwithin[tsi-2s，tei+2s]作为注释边界框的潜在帧。我们建立在[49]的接口上，用于注释AMT上的边界框。每个HIT旨在获得一个对象的注释，最大持续时间为25秒，对应于2fps的50个连续帧。注释器还可以注意到对象在f中不存在。我们特别要求相同的注释器对连续帧进行注释，以避免对对象范围的主观决定。我们还可以通过以下方式来确定是否存在IoU ≥ 0。7在每个HIT的开始处的两个金色注释上。我们要求每个HIT有Ko=3个工人，并选择具有最大一致性β的一个：β（q）=ΣKomax max IoU（BB（j，f，k），BB（q，f，l））（2）jq k，lF其中BB（q，f，k）是帧f中注释者q的第k个边界框注释。通过选择提供更紧密的边界框的工人来打破联系图5示出了序列中的四个关键帧的多个注释总的来说，77%的请求注释导致至少一个边界框。我们总共收集了454，255个边界框（µ = 1。64盒/帧，σ = 0。92）。示例动作片段和对象边界框如图所示。六、3.4动词和名词类由于我们的参与者使用多种语言的自由文本进行注释，因此收集了各种动词和名词我们将这些分组为具有最小语义重叠的类，以适应多类检测和识别的更典型的方法，其中每个示例被认为属于一个类。我们使用SpaC y的英语建模，创建了Spet-of-Spe e ch（POS）。我们选择句子中的第一个动词，并找到句子中的所有名词，不包括与所选动词匹配的任何名词当名词不存在或被代词代替时（例如'it'），我们使用直接在前叙述的名词（例如，pi：' r i n s e c up '，pi + 1：' p l ac eit to d r y '）。8D. Damen等人图6：使用关键帧对象注释对连续动作片段进行我们将最小重叠的动词类的集合称为CV，并且类似地将CN用于名词。我们尝试使用WordNet [32]，Word2Vec [31]和Lesk算法[4]的组合来自动化动词和名词的聚类，然而，由于上下文有限，存在太多无意义的聚类。因此，我们选择手动聚类动词，半自动聚类名词。我们提供组件和新服务。G. “pi zz a cut t e r”作为该电子书的一个子部分。G. 'c u tt e r '。通常，在判断计算结果时，会考虑到针对对象所使用的不同数量，例如：G. “cup” 和 “mug”，以及我们将作为plitting i n g som e b as e noun s，e. G. “我们就像是在做一件事”。我们总共有125个CV类和331个CN类。表3显示了将动词和名词分组到类中的示例。这些类在所有三个定义的挑战中使用。在图7中，我们示出了按动作片段中的出现频率排序的CV，以及按注释边界框的数量排序的CN。这些被分为19个超级类别，其中9个是食品和饮料，其余的包含从电器到餐具的厨房必需品。共现类别如图1D所示。8.3.5注释质量保证为了分析注释的质量，我们选择了300个随机样本，并人工评估正确性。我们报告：– 动作段边界（Ai）：我们检查开始/结束时间完全包围动作边界，其中任何附加帧不是其他动作的一部分-误差：5.7%。– 对象边界框（Oi）：我们检查边界框是否符合-最小化对象或其部分，与其他对象的重叠最小，并且框架中该类的所有实例都已标记– 动词类（CV）：我们检查动词类是否正确– 名词类（CN）：我们检查名词类是否正确这些错误率与最近发表的数据集相当[54]。缩放自我中心视觉：EPIC-KITCHENS数据集9图7：顶部：动作片段中动词类的使用频率;底部：边界框注释中名词聚类的频率，按类别划分图8：左：动作片段中经常出现的动词/名词[例如（打开/关闭，橱柜/抽屉/冰箱），（去皮，胡萝卜/洋葱/土豆/桃子），（调整，加热）];中间：排除相同动作的重复实例的下一动作[例如去皮→切，开机→洗，倒出→混合]。右：一个帧中的共同出现的边界框[例如（壶，咖啡），（刀，案板），（水龙头，海绵）]4基准和基线结果EPIC-KITCHENS提供了从常规理解到活动识别和对象检测的各种潜在挑战。作为一个开始，我们定义了三个挑战，我们提供基线结果，并利用在线排行榜。对于评估协议，我们对27%的数据进行了地面实况注释（表4）。我们特别旨在评估对新环境的可推广性，因此我们构建了我们的测试集，以收集可见和以前未见过的厨房：Seen Kitchens（S1）：在这个分割中，每个厨房都出现在训练和测试中，其中大约80%的序列在训练中，20%在测试中。我们不分割序列，因此每个序列都在训练或测试中。隐形厨房（S2）：这划分了参与者/厨房，因此同一厨房的所有序列都在训练或测试中。我们为该测试方案提供了4名参与者S2的测试集在帧数方面仅为数据集的7%，但挑战仍然相当大。10D. Damen等人表3：动词和名词类样本类别编号（密钥）已删除的单词0（take）3（关闭）12（开启）拿，抓，捡，拿，取，捡...关闭，关闭，关闭turn-on，start，begin，ignite，switch-on，activate，restart，light，...1（平底锅）8（橱柜）51（奶酪）78（顶部）平底锅，煎锅，炖锅，炒锅，...橱柜，橱柜，储物柜，翻盖，橱柜门，橱柜门，壁橱，.奶酪片，马苏里拉奶酪，意大利干酪，帕尔马干酪，...台面，柜台，台面，表面，厨房柜台，厨房台面，瓷砖，...表4：测试拆分的统计：可见（S1）和不可见（S2）厨房受试者数量#序列持续时间%叙述片段行动部分边界框培训/确认2827214173128,58728,561326,388S1试验2810639084百分之二十8,0698,06497,872S2测试45413231占7%2,9392,93929,995现在，我们在我们的基准测试中评估了几种现有的方法，以了解我们的数据集是多么具有挑战性。4.1目标检测基准挑战：这个挑战的重点是我们所有的CN类的对象检测。我们不能只在交互前、交互期间和交互后才进行活动。因此，我们将每个类评估的图像限制为对象已被注释的图像。我们的目标是将性能分解为多镜头和少镜头类组，以便分析快速学习新对象的方法的能力（只有几个例子）。我们的Challengeleaderboardreflectthemethods'abilitison bot h s et sof clas es s.方法：由于其最先进的性能，我们使用Faster R-CNN[37]评估对象检测更快的R-CNN使用区域建议网络（RPN）首先生成类不可知的对象建议，然后对这些建议进行分类并输出精确的边界框预测。我们使用[21，22]中的实现，其中ResNet-101 [19]的基础架构在MS-COCO [30]上进行了预训练。实现细节：学习速率初始化为0.0003，在90K之后衰减10倍，并在120K迭代之后停止。我们在单个计算节点（Nvidia DGX-1）上使用4对8个NvidiaP100GPU的小批量，并进行分布式训练和参数同步-即总的小批量为32。如[37]所示，图像被重新缩放，使得它们的最短边为600像素，并且保持纵横比。我们在最后一个卷积层上使用16的步幅进行特征提取，对于锚点，我们使用0.25，0.5，1.0和2.0的4个尺度;以及1：1，1：2和2：1的纵横比。为了减少冗余，NMS与0.7的IoU阈值一起使用。在培训和测试中，我们使用300个RPN建议。评估：对于每个类，我们只报告Icn∈CN 上的结果，这些都是类c n已被注释的所有图像。我们使用PASCALVOC[11]的平均精度（mAP）指标，使用0.05的IoU阈值，0.5和0.75类似于[30]。结果：我们在表5中报告了多镜头类（在训练中具有≥100个边界框的那些）和少镜头类（在训练中具有≥10个和100个边界框）的结果，以及15个最常见类的AP<那里名词动词缩放自我中心视觉：EPIC-KITCHENS数据集11表5：物体检测挑战图9：物体检测挑战共有202个多镜头类和88个少镜头类。可以看到我们的对象通常比大多数现有数据集更难检测，性能在标准IoU> 0。5低于40%。即使在非常小的IoU阈值下，性能也相对较低。更有挑战性的类是“m e at“、“k n i fe“和“s p o on“，它们是从q o n n e s中提取的部分。请注意，低激发状态的性能大大低于在很多镜头的制度。这为未来指明了有趣的挑战。然而，在对象检测中的可见和不可见分割的性能是相当的，从而显示出跨环境的泛化能力图9示出了定性结果，其中检测结果以颜色示出，并且地面实况以黑色示出。右栏中的示例是失败案例。4.2行动识别基准C halenge：给定一个动作片段Ai=[tsi，tei]，我们将该片段放入其动作类中，其中类被定义为C a={（c v∈ C V，c n∈ C N）}，并且当存在多个名词时，c n是叙述中的第一个名词。请注意，我们的数据集支持更复杂的动作级挑战，例如完整视频中的动作本地化。我们决定首先关注分类挑战（提供了部分），因为大多数现有作品都解决了这一挑战。网络架构：我们将时间段网络（TSN）[48]训练为动作识别中的最先进架构，但调整输出层以联合预测动词和名词类，并具有独立的损失，如[25]所示。我们使用PyTorch实现[51]与Inception架构[45]，批量归一化[24]和ImageNet [9]上的预训练15个最常见的对象类总数mAP平底锅盘碗洋葱水龙头锅子刀匙肉食品土豆杯意大利面橱柜盖多镜头多镜头IoU> 0。05 78.40 74.34 66.86 65.40 86.40 68.32 49.96 45.79 39.59 48.31 58.59 61.85 77.6552.1762.46 31.5951.60四十七点八四IoU> 0。5 70.63 68.21 61.93 41.92 73.04 62.90 33.77 26.96 27.69 38.10 50.07 51.71 69.7436.0058.64 20.7238.81三十五点四十一IoU> 0。75 22.26 46.34 36.98 3.50 26.59 20.47 4.13 2.485.539.3913.21 11.25 22.617.3730.532.70 10.07 8.69IoU> 0。05 80.35 88.38 66.79 47.65 83.40 71.17 63.24 46.36 71.87 29.91不适用55.36 78.02五十五点一七61.55 23.19四十六点六四IoU> 0。2019 - 06 - 22 10：0051.5616.9534.9533.11IoU> 0。75 18.41 60.43 33.32 2.21 6.41 14.55 4.65 1.77 12.80 7.40不适用7.54 36.949.45二十二点一2.46 8.68 8.05S2S112D. Damen等人表6：动作识别挑战的基线结果表7：每个类的动作识别度量的样本基线（使用TSN融合）实施详情：我们训练空间和时间流，后者在RGB帧之间使用TV-L 1算法[52]以30fps提取的密集光流上，使用公式TV-L 1（I2 t，I2 t +3）消除光学闪烁，并将计算的流作为数据集的一部分发布。我们不执行分层或加权采样，允许数据集类不平衡传播到小批量中。我们在单个计算节点（Nvidia DGX-1）上的8个NvidiaP100GPU上训练每个模型80个epoch，小批量大小为512。我们将空间流的学习率设置为0.01，时间流的学习率设置为0.001，在epoch 20和40之后将其降低10倍。在对动作片段内的25个样本进行平均后，每个样本具有10个空间裁剪，如[48]中所示，我们通过对具有相等权重的类预测进行平均来融合两个流。所有未指定的参数使用与[48]相同的值。评估指标：我们报告两组指标：aggregate和per-class，它们相当于[54]中的类不可知和类感知度量。对于聚合度量，我们计算cv，cn的正确预测的top-1和top-5准确度，并且将第二个combination（cv，cn）作为“v e rb”、“n ou n”和“ac t i on”。根据故障测试记录。作为度量，我们计算精度和召回率，对于训练中具有超过100个样本的类，然后跨类平均度量-这些是26个动词类、71个名词类和819个动作类。较小类别的每类指标≈ 0，因为TSN更适合具有足够训练数据的类别。结果：我们在表6中报告了聚合指标和每类指标的结果。我们比较了TSN（3段）与2SCNN [43]（1段）、机会和最大类基线。融合的结果表现最佳或与最佳流（空间/时间）相当。对于可见（前1准确率为20.5%）和不可见（前1准确率为10.9%）的环境，正确获得动词和名词标签的挑战仍然很大。这意味着对于许多例子，我们前1名准确率前5名准确率平均类精确率平均类召回率动词不动作动词不动作机会/随机12.62一点七三最大班级22.41 04.502SCNN（FUSION）42.16 29.14TSN（RGB）45.68 36.80TSN（流量）42.75 17.40TSN（融合）48.23 36.71机会/随机10.71 01.89最大班级22.26 04.802SCNN（FUSION）36.16 18.03TSN（RGB）34.89 21.82TSN（流量）40.08 14.51TSN（FUSION）39.40 22.7000.2243.39 08.1203.67 01.1500.0803.67 01.15 00.0501.5970.20 18.8914.9000.8600.0603.84 01.40 00.1213.2380.58 53.7030.3629.39 30.73 5.35 21.10 04.4619.8685.56 64.1941.8961.6434.3223.8131.6208.8109.0279.52 39.4321.42 13.7502.3315.58 09.51 02.0620.5484.09 62.3239.7947.2635.4210.4622.33 30.5308.8300.2238.98 09.3103.8103.56 01.0800.0803.56 01.08 00.0500.1019.4417.1700.85 00.0600.0003.84 01.40 00.1207.3171.9738.4118.11 15.3102.8610.52 12.55 02.6910.1174.56 45.3425.3319.48 14.6704.7711.22 17.24 05.6706.7373.40 33.7719.98 09.4802.0813.81 08.58 02.2710.8974.29 45.7225.2622.5415.3305.6013.06 17.5215个最常见的动词类（在火车上）放拿洗打开关闭切割混合倒移动打开取出关闭扔干剥离召回精密度36.29 43.21 63.01 69.74 75.50 68.71 68.51 60.98- 四十六点一刻电话：021 - 888888888传真：021 - 88888888精密度29.60 30.68 67.06 56.28 66.67 88.89 70.37 76.47- -05.1153.8500.0000.0005.4524.18 36.49 30.4366.6775.86 81.82 51.8500.0000.00 2.70 00.00--100.0 00.00S2S1S1S2缩放自我中心视觉：EPIC-KITCHENS数据集13ACTIONRECOGNITION ACTIONATICIPATION图10：行动识别和预期挑战的定性结果只有两个标签（动词/名词）中的一个是正确的。结果还表明，对看不见的环境的一般化是一个更难的挑战，行动比它是对象。我们在表7中给出了15个最大动词类的每个类的细分指标图10报告了定性结果，其中成功以绿色突出显示，并且失败以红色突出显示。在第一列中，动词和名词都被正确预测，在第二列中，其中一个被正确预测，而在第三列中，动词和名词都被正确预测。类似于在本地进行的更改正在增加，因为这是从本地开始的，或者只在本地提供一些辅助服务。4.3行动预期基准挑战：预测下一个动作是人类掌握的一项技能，将其自动化对自信的生活有直接影响。考虑到任何即将到来的可穿戴系统（例如，Microsoft Hololens或Google Glass），预测新用户的新行为，从第一个视图开始，计算出更多的本地应用程序，为用户的目标提供一个简单的访问。研究人员已经从自我中心的角度研究了不同的预期任务，例如预测未来的定位[35]或下一个活动对象[15]。我们在此将针对EC的task视为针对该事件的ting动作。在该动作之前的观察视频片段的长度是该动作和该观察视频片段之

下载后可阅读完整内容，剩余1页未读，立即下载