程序活动的大规模多视图视频数据集

124 浏览量更新于2023-10-25 收藏 1.4MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

21096组件101：用于理解程序活动的大规模多视图视频数据集Fadime Sener<$Dibyadip Chatterjee<$Daniel Shelepov<$KunHe<$Dipika Singhania< $Robert Wang<$Angela Yao<$Meta RealityLabs新加坡国立大学{famesener，dsh，kunhe，rywang} @ fb.com{ dibyadip，dipika16，ayao} @ comp.nus.edu.sghttps://assembly101.github.io/摘要Assembly101是一个新的程序活动数据集，包含4321个人们组装和拆卸101个“可拆卸”玩具车的视频参与者在没有固定指令的情况下工作，序列在动作顺序、错误和纠正方面具有丰富而自然的变化Assembly101是第一个多视图动作数据集，具有同步静态（8）和自我中心（4）记录。序列注释有超过100K粗和1M细粒度的动作段，以及18M 3D手部姿势。我们以三个行动理解任务为基准：识别、预测和时间分割。此外，我们提出了一个新的任务检测错误。独特的记录格式和丰富的注释使我们能够研究新玩具的泛化、跨视图迁移、长尾分布和姿势与姿势。外观.我们设想Assembly101将作为一个新的挑战，调查各种活动的理解问题。1. 介绍组装和拆卸任务，如组装一件家具，或拆开家用电器进行维修，在日常生活中很常见。我们经常依赖纸质手册或在线教学视频来指导我们完成这些任务。下一代智能智能机器人，加上增强现实（AR）硬件，可以帮助我们在一个更具体的设置。联合考虑指令或目标和现实世界观察的智能系统可以大大推进AR应用。模型和概念验证已经存在于烹饪[15]，监控工人安全[4]，参观博物馆[11]和学习外科手术[3]。为此，人们对动作理解任务（如识别，预测和时间分割）的兴趣已经增长，特别是对于自我中心的观点[5，17，34]。在查看行动中使用的基准时，请理解-ing，有短剪辑的数据集[16，21，45]，具有来自电影的较长序列的数据集[18，51]和脚本动作[42，43，47]，特别关注烹饪领域[5，12，22，35，37，40，47，50]。与我们的工作最相关的是教学视频数据集[49，50，52]。但这些教学视频都是从网上收集的;它们被制作，具有多个镜头，并且主要针对多模态（视觉+ NLP）学习[40，50，52]。很少有数据集关注厨房领域之外的目标导向的多步骤活动，并且在其他方面规模较小[2，20，34]或任务或序列多样性有限[1，49]。我们介绍Assembly101：362人组装和拆卸101个“可拆卸”玩具车的独特序列（见图1A和1B）。1、3）。该数据集的特点是从8个静态和4个自我中心的观点记录，4321序列共计513小时的镜头。Assembly101由超过1M的动作段表示，跨越1380个细粒度动作类和202个粗动作类。我们以四项任务为基准：动作识别和预测集中在手-物交互，时间动作分割和我们新提出的错误检测任务，致力于调查组装活动中的序列理解。Assembly101具有三个目前在现有视频基准中代表性不足的新颖方面：• 目标导向自由式程序：现有数据集的特点是遵循严格有序的配方[28，40，50，52]或脚本[8，12，34，43，47]的多步活动。程序集101描述了非脚本化的、面向目标的活动。• 丰富的序列变异：参与者的技能水平各不相同，录音的特点是动作顺序、错误和纠正的现实变化。与只有技能分数的前技能评估数据集[7，13，31，33]不同，我们注释了具体的错误和参与者的技能水平。• 同步静态和 egocentric viewpoints:这独特多视图设置给予特权210973D手部姿势粗动作精细标签拿起螺旋轨道位置移除螺钉放下定位螺钉拿起螺旋底盘推底盘用手舱从机舱舱谈室内螺丝刀用螺丝刀玩具图1. Assembly101包括参与者组装和拆卸可拆卸玩具的同步静态多视图和以自我为中心的记录。序列被注释了细粒度和粗动作，3D手部姿势，参与者“attach cabin” highlighted in当前以自我为中心的数据集缺少的静态信息。它还允许研究手-物体交互，具有完整的3D理解和不同视点之间的域转移。2. 行动数据集Assembly101的特点是（1）多步骤内容，（2）多视图记录和（3）动作理解任务。我们根据这种分类法对相关数据集进行粗略比较。2.1. 内容：多步活动多步骤活动在烹饪和教学视频中得到了最好的体现，因此该领域的大多数数据集都来自在线视频平台，例如。YouTube教学[1]，什么[52]，COIN [49]和HowTo100M [29]。使用YouTube视频是有吸引力的，因为数量和种类。然而，这些视频由于它们的“制作”性质而通常不适合AR设置混合的观点、快进、不相关的叙述等。此外，这些数据集大多来自厨房领域，主要用于研究视觉和自然语言中的多模态学习[27，50，52]。记录的数据集，例如早餐[22]，GTEA [12]，50沙拉[47]是多步活动研究的主要贡献者[9，10，39]。但它们要么很小[12，47]，要么排序变化很小[22]。组装任务是在一些数据集中探索的新领域[2，34]，但其有限的规模对于深度学习来说并不理想。2.2. 观点：以自我为中心的多视角以自我为中心的数据为人类活动提供了一个独特的视角，对于可穿戴设备尤其重要。AR眼镜小规模数据集包括[12，20，32，34]。大规模的努力包括史诗厨房[5，6]和重新-[17 ]第17话，这是一种超越了厨房，各种各样的日常活动与这些数据集相比，Assembly101具有以自我为中心和第三人称的视图，同时提供由外向内的特权信息以及用于3D动作识别的多视图以自我为中心的数据多视图固定摄像机数据集包括IKEA [2]和Breakfast[22]。我们的特点是一个同步的自我中心的流，允许研究固定和自我中心的观点之间的域差距。此外，自我中心的头部姿态相对于固定视图被跟踪，从而实现视点之间的几何推理。尽管Charades-EGO [42]也有一个以自我为中心和第三人称的观点，人们执行脚本活动，观点是异步的，即。独立的记录实例。2.3. 任务动作识别：我们专注于细粒度的动作持续几秒钟内的上下文较长的活动序列。这与对短的孤立片段进行分类相反，例如在Kinetics [21]和Something- Something[16]中。我们的任务更类似于EPIC-KITCHENS [5]和Charades [42，43]，其特征在于从具有挑战性长尾分布的较长日常活动视频中提取的细粒度片段。在行动发生之前进行预测是最近引入的一项任务，由史诗厨房[5]和早餐[22]推广。这两者之间的一个显著区别是是标签粒度，因此是预期范围。EPIC的预测方法预测具有短的、几秒长的地平线的细粒度动作，而Breakfast的目标是预测具有几分钟长的地平线的多个粗动作。由于Assembly101具有多粒度标签，因此它可以用于短期和长期预测。像GTEA [12]和50Salads [47]这样的时间动作分割数据集是小规模数据集（28和50个视频附加磁道附加舱分离舱附加内部附加舱螺旋底盘21098××}{e2e1e3e4v2V8v4v1v3V5V7图2.我们的定制耳机（插图）和多摄像头台式钻机，用红色圆圈标记摄像头。分别地）。早餐[22]在时间变化上是有限的，这使得它不太适合作为一个问题来研究排序和排序。我们的数据集中的组装动作具有重复性，顺序上的大偏差，并且还需要建模更长范围的信息。在两个新的数据集FPHA [14]和H2O [23]中研究了来自自我中心视图的手-物体交互。不像EPIC，FPHA和H2O提供了一只或两只手的3D姿态和操纵对象的6D姿态当提供给系统的视觉数据量有限时，从姿态的识别特别重要，例如，因为隐私问题。Assembly101目前为每个帧提供3D手部姿势。与FPHA和H2O相比，它提供了更大的细粒度通过可穿戴设备检测错误和错过的动作可以大大提高穿戴者的安全性。监控视频中的异常检测[48]和技能评估[7，13，30，53]是活跃的研究领域，但据我们所知，检测程序活动中的错误之前尚未研究过。我们的装配序列的粗动作段最接近我们的工作是[46]被遗忘的行动。3. 记录和注释3.1. 记录装置我们建立了一个桌面钻机配备了8个RGB相机在19201080分辨率和4个单色相机在640 480分辨率。RGB摄像机安装在桌子周围的脚手架上，5个在头顶上，3个在侧面。单色摄像头被放置在参与者佩戴的定制耳机的四个角上，并提供类似于Oculus Quest VR的多个以自我为中心的视图耳机图2显示了记录装置和耳机，相机用红色圈出。所有摄像机都与SMPTE时间码同步，并以亚像素精度进行几何校准。参与者被记录为站立，尽管要求较高的参与者坐着以确保他们的手和组装的玩具在所有相机视图中可见。3.2. 参与者、玩具、记录协议参会人员：我们招募了53名成年人（28名男性，25名女性）来拆卸和组装“可拆卸”玩具车。每个参与者被要求在一个小时的录音过程中使用六个玩具，尽管最终数字取决于参与者玩具：序列功能101个独特的玩具，从15个类别的建设，应急反应，和其他车辆。每个类别都有不同的颜色，大小和风格的车辆;在不同的类别中，这些车辆有一些共同的部件，建筑车辆的特征在于相同的底座但不同的臂附件。图3显示了每个车辆类别的样本以及每个类别的玩具和录音的分布。协议：我们感兴趣的是捕捉参与者组装和拆卸玩具的自然顺序，所以我们只在桌子上放置了一个完全组装好的我们没有提供说明，也没有指定零件订购1.这种设计选择使as-summer任务更具挑战性，但也更现实，导致动作顺序的巨大变化。初步录音显示，一些参与者在完成组装任务时遇到了困难为了节省时间，我们调整了方案，让参与者首先拆卸一个完整的玩具，然后再进行3.3. 注释行动标签：我们标记两个粒度的行动和他们的开始和结束时间。细粒度动作是基于单个动词或运动以及交互对象或玩具部件的手-对象交互一个细粒度的操作跨越两个或三个阶段：（1）手（和工具）开始接近物体时的预接触，（2）交互，以及（3）物体被释放时的后接触。此外，我们合并几个共同发生或连续的细粒度的行动到粗糙的行动有关的附加或拆卸的车辆部分。例如，粗动作细粒度的动作可以彼此重叠，因为参与者通常是多任务的，例如，“put down cabin” 请参阅补充资料，了解注释器培训和我们用于标记操作的自定义界面的详细信息。1例。Meccano [34]为参与者提供了一个有序的步骤列表。21099±±±×××±×××−×××××消防车水罐车手提钻夹具垃圾车运输车SUV水泥搅拌车云梯车起重机辊推土机挖掘机翻车机图3. 左：15玩具车类。右图：按类别分发玩具和唱片。(Best（彩色）3D手部姿势：我们使用MegATrack [ 19 ]的修改版本从四个单色自我中心相机执行手部跟踪，以估计双手的3D手部姿势。首先，我们将来自所有视图的特征融合到共享的潜在空间中[36]。然后，我们回归的关节角度和全球变换，为每只手，然后获得土地标记的指尖，关节和手掌中心通过正向运动学。跟踪器在[19]的数据集在自我中心跟踪之后，我们提取世界坐标中的3D1）。4. 数据集统计数据4.1. 记录统计信息我们的主要动机是收集具有不同标签粒度的大型且多样化的过程活动数据集as-sembly 101具有362个拆卸-组装序列;每一个镜头都从12个角度记录，总共有4321个录像和513个小时的镜头。平均序列或视频持续时间为7.1 3.4分钟（图。4左）。表1和表2显示了与类似记录数据集的比较。Assembly101相当大，包含超过100万个细粒度和100K个粗粒度段，使其成为迄今为止最大的程序活动数据集。4.2. 细粒度操作从我们的15个玩具类别中，我们定义了90个对象，例如，轮，包括5个工具连同此外，我们指定了24个交互动词。对象和交互动词总共形成了1380个细粒度的动作标签。图4示出了持续时间分布。平均细粒度动作持续1.72秒。在单个拆卸-装配序列中，236.7 98.4细粒度操作。整个数据集总计超过100万个细粒度动作实例。宾语和动词的分布见补充说明。有一个自然的长尾，其中30%的数据占1238（89%）的细粒度操作。与其他数据集的比较：表1给出了一个定义。与其他细粒度动作数据集的尾数值比较。Assembly101比汇编风格的数据集IKEA和Meccano多了23-44个动作类和56-111Assembly 101与EPIC相比，Assem-bly101在Ego4D的标签镜头中，最重要的子任务相比之下，我们的数据集比Ego4D多了12个动作片段。4.3. 粗动作每个粗略动作由车辆部件的装配或拆卸来定义。粗动作有202个，由11个动词和61个宾语组成.每个视频序列fea- tures的平均24个粗略的行动。平均粗动作包括10个细粒度动作，持续时间为16.515.7秒（见图中的分布4）. 我们还为粗略标签定义了尾类，其中30%的数据占171（84%）个粗略动作。与其他数据集的比较：虽然粗糙的动作也可以用于分类，我们认为他们顺序，并使用它们的动作分割。表2比较了Assembly101和Breakfast 50Salads，这是两个当代的细分基准。我们有2.5多个视频，6.7多小时的镜头，9.3多动作片段和4.2多动作类比早餐。时间动态：我们在表3中定义并报告了两个分数以量化时间动态。重复-分数定义为1ui/gi，其中ui是数量。视频i中唯一动作的BER，并且gi是动作的总数，并且导致范围[0，1）中的得分。0表示没有重复，分数越接近1，序列中出现的重复越多。对所有视频序列进行平均，我们的重复得分为0.18，组装中的重复（0.23）高于拆卸（0.11）。与早餐和50沙拉相比，我们的数据集分别多包含1.6和2.3个重复步骤。我们计算顺序变化作为平均编辑距离-21100-|| ||--表1.细粒度的动作数据集比较。平均总数#avg. #分段。 avg.#标记重叠#parti-数据集小时视频（分钟）段每视频（秒）动词宾语动作框架分段裤梅卡诺[34]6.92020.78,858442.92.8122161百分之八十四点九百分之十五点八20[2]第二章35.03715.617,57747.36.0121033百分之八十三点八-48EPIC-KITCHENS-100 [6]100.07008.589,977128.53.1973004,05371.6%百分之二十八点一37Ego4D [17]120.0--77,002--7487---406Assembly101（自我）167.01,4257.1331,310236.71.724901,38081.4%7.0%53组合101513.04,3217.11,013,523236.71.724901,38081.4%7.0%53表2.粗略操作标签数据集比较。数据集总数平均数视频小时视频长度（分钟）#avg.平均段数每段视频长度的段数#动词宾语动作#partici-pants50沙拉[47]早餐[22]4.577.0501,7126.42.389911,300186.636.815.1614152817482552组合101513.04,3217.1104,7592416.5116120253表3.粗动作段的时间动态表4.与其他具有3D手部姿势的数据集进行比较。数据集重复阶次变化数据集总小时数#帧段数#操作早餐[22]0.110.15[14]第十四话0.1M1K4550沙拉[47]0.080.02H2O [23] 5.50.5M1K36组合1010.180.05大会101 513.0111M82K1456装配101-装配0.230.04组装101 - 1040.110.05tance，e（R，G），并将其相对于两个序列的最大序列长度1e（R，G）/max（R，G）进行归一化。该分数具有范围[0，1];分数1对应于配对之间的排序没有偏差。Breakfast的得分相对较高，为0.15，表明动作遵循严格的排序，因此研究时序动力学不如50Salads（0.02）和Assembly101（0.05）有吸引力。总的来说，我们的数据集包括高频率的重复步骤和组装和拆卸序列中时间顺序的变化，这是日常程序活动的特征，因此为建模动作之间的时间关系提供了一个具有挑战性的基准。4.4. 错误行为即使我们的参与者是成年人组装儿童例如，在附加内部（见图1）之前，先把机舱。1），使它不可能放置内部后，所以一个必须删除机舱作为纠正行动之前，放置内部。我们用一组平行的标签“correct”、“mistake”、“correction”来注释粗装配段错误是许多任务中自然发生的事情，也是AR助理提供帮助的机会。据我们所知，没有现有的行动数据集，承认错误在汇编的60k个粗动作中，错误段和纠正段分别占15.9%和6.7%。技能是密切相关的，但专注于技能评估的数据集会给短片段打分，例如。[7]或[5]，而不是确定什么和什么时候发生的错误。我们还在视频中标注了参与者的技能水平，从1（最差）到5（最好）。总体而言，技能标签在我们序列中的分布从最差到最好分别为9%、6%、13%、25%和47%4.5. 3D手部姿势由于Assembly 101具有手-物交互功能，因此3D手部姿势是一种重要的模式，特别是因为AR/VR系统经常提供此信息[19]。与FPHA [14] H2O [23]相比，我们的数据集包括82倍多的片段和200倍多的帧，如表4所示。4.6. 培训、验证测试拆分我们分别使用60%、15%和25%的视频来创建我们的训练、验证和测试片段，详细的统计数据在补充部分中给出。对于更多的鲁棒性评估，我们将保留测试分裂地面真理用于在线提交排行榜。验证和测试集的结构有助于评估对新玩具和动作的概括以及参与者101个玩具中有25个在培训、验证和测试中共享。还有一些玩具实例不是训练集的一部分，以促进零射击学习。21101图4.持续时间分布：视频、细粒度和粗粒度动作的平均持续时间分别为7.1分钟、1.7秒和16.5秒表5.通过Top-1精度评估的细粒度动作的动作识别。由Top-5 Recall评估的细粒度动作的动作预期整体头尾巴Seen玩具隐形玩具任务测试动词宾语动作动词对象行动动词对象行动动词对象行动动词对象行动固定识别自我中心修复自我64.047.058.550.434.345.239.223.034.069.751.363.763.344.657.251.131.044.649.736.245.318.38.615.19.33.17.363.047.357.855.336.048.942.023.535.964.346.958.748.833.844.038.322.933.3固定预期自我中心修复自我56.651.955.133.321.429.410.45.58.860.354.858.558.149.655.330.722.428.052.849.251.632.821.629.16.72.45.355.651.654.351.128.343.516.97.913.956.951.955.324.419.422.88.25.37.3表6.使用TSM网络，对单个视图进行顶级细粒度动作识别准确性培训v1v2v3v4V5V6V7V8所有v*e1e2e3e4所有e*固定43.140.640.343.627.840.433.337.538.31.71.82.23.12.2自我中心8.17.54.86.02.910.82.68.56.413.213.229.229.321.2修复自我44.142.641.144.828.041.533.438.239.213.913.132.732.723.05. 基准实验我们为四项行动任务设定基准并提供基线：识别，预测，时间分割和我们新定义的错误识别。然而，由于数据非常丰富，我们希望扩展社区在发布后为数据集找到其他用途和任务由于篇幅有限，我们在本节中重点介绍了一些关键结果，并将结构、实现和结果的详细比较推迟到补充部分。5.1. 识别、预期分割对于动作识别（表5），我们使用基于注释的开始和结束时间的预修剪剪辑，在细粒度动作类上定义我们训练了一个最先进的视频识别模型TSM [25]和两个性能最好的图形卷积网络2s-AGCN [41]和MS-G3 D [26]。性能是通过动词、宾语和动作类的Top-1准确度来动作预测（表5）预测未来τ=1秒内即将到来的细粒度动作。我们训练了一个最先进的模型TempAgg [38]。根据[6]，通过类平均前5名回忆评价性能时间动作分割（表7）为视频序列分配逐帧动作标签。我们应用两种最先进的时间卷积网络：MS-TCN++[24]和C2F-TCN [44]，使用逐帧fea.从TSM [25]中提取的tures经过培训，用于将Assembly上的动作识别作为输入。通过平均逐帧准确度（MoF）、逐段编辑距离（Edit）和重叠阈值为10%、25%和50%时的F1评分（用F1@10、25、50表示）评价性能。这三个挑战构成了理解各种粒度的动作的基础。与现有的数据集相比，Assembly101通过将多视图识别、新任务的泛化、长尾分布、不同技能水平和错误序列统一在一个数据集中，显示出将视频理解扩展到新的具有挑战性的自然过程活动的巨大潜力。5.2. 相机视点我们在固定视图和自我中心视图的实例上训练模型，但在表5和表7中分别报告每个视图的性能。不出所料，固定视角比自我中心视角表现得更好，在“总体”识别中的差异为16.2%这些差异突出了从自我中心的角度来认识行动的挑战性表6比较了各个摄像机视图上的Top-1动作识别准确度。高架摄像头v4和v1的精度最高，而侧摄像头v5和v7的精度最低，比v4下降了16%和11%21102表7.时间动作分割的基线;除非另有说明，否则结果来自C2F-TCN。比较F1@{ 10，25，50}编辑MoF表8. 3D手部姿势的动作识别方法动词对象动作2s-AGCN [41] 58.1 30.9 22.2SOTA2s-AGCN [41] w/context64.433.926.7MS-TCN++[24]所有31.627.820.630.737.1[26]第二十六话65.736.328.7C2F-TCN [44]全部33.329.0二十一点三32.439.2TSM自我中心（融合4视图）59.046.533.8固定与自我中心固定35.531.223.2 33.9 41.3Object GT 28.1 98.8 27.2MS-G3D w/ context + Object GT63.4 98.8 62.0自我中心28.724.4 17.5 29.234.8看到与隐形玩具已查看35.831.122.2 31.7 39.8看不见的31.926.617.0 27.9 38.9Seen Assembly 33.028.622.7 30.0 42.5看不见的装配29.926.219.8 32.0 34.8在以自我为中心的视图中，较低的头戴式摄像机e3和e4实现比e1和e2更高的精度，e1和e2不能完全捕获桌子。然而，e3和e4的精度仍然比v4低10%以上。表6显示，如果我们只在以自我为中心或固定视图序列上训练模型，并进行交叉测试，而不是在两个数据源上进行训练，则会存在很大的领域差距仅在固定视图上训练的TSM在自我中心视图上表现得更差，反之亦然。这表明了一个显著的不匹配，并提出了一个新的挑战，研究配对的自我中心和第三人称行动的主要差距。5.3. 头与尾类表5中的单独统计显示，头部和尾部动作识别准确度之间存在37%的显著差距。尾动词的下降比宾语少得多（18%比18%）。下降42%）。同样，头部类的动作预期表现也相当高，表5中的召回率为28%。这是显着大于这种较大的差异可能是由于评估指标，其中类均值平衡了长尾分布，因为89%的动作类是尾类。同样，我们评估了尾部和头部类MoF的时间- poral动作分割。据此，尾部类别的MoF为51.5%，远高于7.2%的尾部MoF。低尾部性能分数鼓励开发少数镜头动作识别方法。5.4. 见与不见，组装与拆卸Assembly101可用于通过“看不见的”玩具来学习对新装配任务的概括表5和表7都显示，对于识别和预测，动词得分几乎没有差异，但对象的差距很大，因为所有动词都是共享的，而对象不是（13%看不见的对象）。我们将装配和装配的评估拆卸表9.从在各种数据集上预训练的TSM中提取逐帧特征动作识别由在这些特征上训练的Tem- pAgg [38预先培训动词对象行动[21]第二十一话28.019.99.8SSv2 [16]28.718.810.2EPIC-KITCHENS-100 [6]44.025.217.3组合10165.950.540.53D姿态-MS-G3 D w/context65.736.328.7表7中的序列的一部分用于动作分割。组装部分的MoF和段分数始终低于拆卸序列，可能是由于其更高的复杂性，因为拆卸部分具有更少的排序变化并且没有错误。总体而言，F1和编辑分数没有显示出显着的过度分割效果相比，拆卸序列，即使装配任务更复杂。5.5. 基于姿态的三维动作识别收集Assembly101的另一个目标是使用3D手部姿势来研究动作识别。手部姿势通常在AR/VR系统中可用，并且是比视频特征明显更紧凑的表示。表8比较了基于3D姿态的识别与基于视频的识别。“2s-AGCN[41]” “2s-AGCN [ 41 ] w/ context”将每个边界扩展0.5秒;该扩展显著地提高了动作精度。最先进的有趣的是，基于姿势的识别的动词准确率比基于视频的识别高6.7%，而其对象得分比基于视频的识别低10.2%。这并不令人惊讶，因为手的姿势可以很容易地编码运动，但不能提供太多的对象信息。我们还添加了一个oracle实验，将地面真实对象标签作为独热编码的帧级特征，并在上面训练TempAgg [38如表8所示，把它和21103--图 5. 技能对分割的影响。 “d” 代表 disas-sense ， “a” 代表assembly。技能较低的参与者“MS-G3D [ 我们离开作为未来的工作的联合建模的3D对象和手构成的动作识别。3D姿态具有对不同环境之间的域间隙较不敏感的附加优点。对于基于视频的模型，从头开始训练特征需要大量的时间和数据，但是使用从预先训练的网络中提取的特征可能并不总是通用的。表9比较了TempAgg[38]在从TSM网络中提取的特征上训练，TSM网络在Kinetics- 400 [21]、Something-Something [16]、EPIC-KITCHENS- 100 [6]和Assembly 101上进行了预训练，用于视图在EPIC-KITCHENS上预训练的TSM特征的表现明显优于其他数据集;尽管与在本机Assembly 101上进行预训练相比，仍然存在23.2%的差距。这表明我们的数据集和现有的动作识别基准之间存在相当大的领域差距。另一方面，姿势是独立于域的低维公共表示，因此比来自其他数据集的分数好得多。5.6. 技能水平图5比较了拆卸和组装序列中从1（最不熟练）到5（最熟练）的不同技能水平的分割分数，分别由前缀“d”和“a”指示研究结果表明，技术水平对拆卸顺序的影响不大。然而，对于最不熟练的组&5.7. 错误检测识别错误需要建模程序知识和保留长距离序列信息。作为输入，我们提供由逐帧特征表示的从组装序列的开始到当前粗略动作段（的结束）的视频序列该任务是预测当前片段是否属于“正确”、“错误”、“校正”三个类别之一我们使用TSM特征应用远程视频模型TempAgg [38]，并评估每个类的Top-1精度和Top-1表10.错误检测结果。错误更正任务特征精度召回精度召回识别GT粗48.662.765.684.9TSM30.846.630.829.6早期预测TSM29.335.026.526.4在两种设置下的召回由于不平衡的类分布，我们惩罚模型更多的错误分类“错误”和“纠正”类。作为oracle基线，我们使用地面实况粗略动作标签基线结果：表10显示了检测错误的挑战-即使使用地面真实粗糙动作标签作为输入，错误和纠正的召回率分别仅为62.7%和84.9%左右。使用TSM输入功能，召回率目前仅为46.6%左右，一旦感兴趣的片段结束，召回率为29.6%。早期预测结果进一步下降11.6%和3.2%。6. 结论在本文中，我们介绍了Assembly101，这是迄今为止最大的程序活动数据集。我们的数据集包括用于跨视图域分析的同步自我中心和静态视点、用于研究面向目标的序列学习的多粒度动作片段和错误标签以及用于推进3D手-物体交互识别的3D手部姿势我们定义了四个挑战，动作识别，动作预测，时间动作分割和错误检测，以评估装配任务的广泛方面，包括对新玩具的概括，跨视图转移，长尾分布，技能水平和姿势与外观.现有的方法显示出有希望的结果，但仍然远远不能以高精度解决这些挑战，如在甲骨文实验中观察到的，为未来的探索留下了空间。Assembly101可用于许多不同的应用。在本文中，我们提出了几个方向，例如训练下一代智能助手识别用户正在做什么，在他们观看装配任务时预测后续步骤我们希望社区能在我们的数据集发布后找到其他应用程序和任务。鸣谢：本研究/项目由新加坡国家研究基金会在其AI新加坡计划（AISG Award No：AISG2-RP-2020-016）。本材料中表达的任何观点、发现和结论或建议均为作者的观点，并不反映新加坡国家研究基金会的观点21104引用[1] Jean-Baptiste Alayrac ， Piotr Bojanowski ， NishantAgrawal，Josef Sivic，Ivan Laptev，and Simon Lacoste-Julien.从叙述式教学视频中进行非监督式学习。在IEEE计算机视觉和模式识别会议的论文集，第4575-4583页，2016年。一、二[2] Yizhak Ben-Shabat ， Xin Yu ， Fatemeh Saleh ， DylanCamp- bell，Cristian Rodriguez-Opazo，Hongdong Li，and Stephen Gould.宜家asm数据集：通过动作、物体和姿势来理解人们组装家具。在IEEE/CVF计算机视觉应用冬季会议上，第847-859页，2021年。一、二、五[3] 劳拉·贝耶-伯约特、圣·埃菲·伯达、丹尼尔·A·桥本、阿拉·达尔齐和拉杰什·阿加瓦尔。腹腔镜结直肠手术的虚拟现实培训课程。外科教育杂志，73（6）：932-941，2016。1[4] Sara Colombo，Yihyun Lim，和Federico Casalegno.深度视觉防护：评估头戴式显示器和可穿戴传感器在智能安全设备中的使用在第12届ACM国际会议上，与辅助环境相关的侵入性技术，第402-410页，2019年1[5] DimaDamen 、 HazelDoughty 、 GiovanniMariaFarinella 、 Sanja Fidler 、 Antonino Furnari 、 EvangelosKazakos 、 Davide Moltisanti 、 Jonathan Munro 、 TobyPerrett、Will Price和Michael Wray。扩展以自我为中心的愿景：epic-kitchens数据集。欧洲计算机视觉会议，2018年。一、二[6] DimaDamen 、 HazelDoughty 、 GiovanniMariaFarinella 、 Antonino Furnari 、 Jian Ma 、 EvangelosKazakos 、 Davide Moltisanti 、 Jonathan Munro 、 TobyPerrett、Will Price和Michael Wray。重新调整自我中心的视野。CoRR，abs/2006.13256，2020。二五六七八[7] 黑兹尔·道蒂沃特里奥·马约尔·奎瓦斯和迪玛·达曼利与弊：用于长视频中技能确定的等级感知时间注意力。在IEEE/CVF计算机视觉和模式识别会议论文集，第7862-7871页，2019年。一、三、五[8] EGTEA。延伸GTEA凝视+-佐治亚理工学院。http：//webshare.ipat。门edu/coc-rim-wall-lab/web/yli440/egtea_gp，2018. 1[9] Yazan Abu Farha和Jurgen Gall。Ms-tcn：用于动作分割的多级时间卷积网络在IEEE/CVF计算机视觉和模式识别会议（CVPR）上，第3575-3584页，2019年2[10] Yazan Abu Farha ， Qiuhong Ke ， Bernt Schiele ， andJuergen Gall.具有周期一致性的活动的长期预期。2020年德国模式识别会议2[11] Giovanni Maria Farinella，Giovanni Signorello，LatianoBattiato ， Antonino Furnari ， Francesco Ragusa ， RLeonardi ， Emanuele Ragusa ， Emanuele Scuderi ，Antonino Lopes，Lu- ciano Santo，et al.Vedi：数据解释的视觉开发图像分析与处理国际会议，第753-763页。Springer，2019年。1[12] Alireza Fathi，Xiaofeng Ren，and James M Rehg.学习在自我中心的活动中识别物体。InProceedings ofIEEE/CVF计算机视觉和模式识别会议（CVPR），2011年。一、二[13] Yixin Gao，S Swaroop Vedula，Carol E Reiley，NargesAh-midi ， Balakrishnan Varadarajan ， Henry C Lin ，Lingling Tao ， LucaZappella ， BenjamınBe´ja r ， D avidDYuh ， etal.Jhu-isi 手势和技能评估工作集（拼图）：用于人体运动建模的手术活动数据集。在MICCAI研讨会上：M2cai，第3卷，第3页，2014年。第1、3条[14] Guillermo Garcia-Hernando 、Shanxin Yuan 、 SeungryulBaek和Tae-Kyun Kim。第一人称手部动作基准标记，带有rgb-d视频和3d手部姿势注释。在IEEE/CVF计算机视觉和模式识别会议（CVPR）中，第409三、五[15] Google.谷歌眼镜库克沿应用程序格雷辛厄姆鸭。电子邮件地址：www.youtube.com/watch?v=WQfu6-Qle2g，2014年。1[16] Raghav Goyal，Samira Ebrahimi Kahou，Vincent Michal-ski ， Joanna Materzynska ， Susanne Westphal ， HeunaKim，Valentin Haenel，Ingo Fruend，Peter Yianilos，Moritz Mueller-Freitag，et al.学习和评估视觉常识的“某事某事”视频数据库。在IEEE/CVF计算机视觉国际会议（ICCV）的会议记录中，第5842-5850页，2017年。一、二、七、八[17] Kristen Grauman，Andrew Westbury，Eugene Byrne，Zachary Chavis，Antonino Furnari，Rohit Girdhar，Jac

下载后可阅读完整内容，剩余1页未读，立即下载