驾驶员行为识别的细粒度分类：基于特定领域的驱动行为数据集

57 浏览量更新于2023-10-16 收藏 1.25MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2801Drive Act：一个用于自动驾驶汽车曼努埃尔·马丁1阿丽娜·罗伊特贝格2莫妮卡·豪里莱特2马蒂亚斯·霍恩1西蒙·雷登2迈克尔·沃伊特1 雷纳·斯蒂费尔登21德国卡尔斯鲁厄理工学院（KIT）平均贡献，按字母顺序排列www.driveandact.com视频6views3种模式3D骨架分层标签任务图1：用于驾驶员行为识别的Drive该数据集包括3D骨架，以及9的逐帧分层标签。通过6种不同视图和3种模式（RGB、IR和深度）捕获600万帧摘要我们介绍了新的特定于域的驱动行为基准的细粒度分类的驱动程序类- ior。我们的数据集包含了12个小时和超过960万帧的人在手动和自动驾驶期间从事分散注意力的活动。我们从六个视图中捕获颜色，红外，深度和3D身体姿势信息，并使用分层注释方案密集地标记视频，从而产生83个我们数据集的主要挑战是：（1）识别车厢内的细粒度行为;（2）多模态活动识别，关注不同的数据流;以及（3）交叉视图识别基准，其中模型处理来自不熟悉领域的数据，因为传感器类型和驾驶室中的放置可以在车辆之间改变。最后，我们提供了具有挑战性的基准采用突出的方法，基于视频和身体姿势的动作识别。1. 介绍虽然自动化的兴起鼓励了驾驶员的分心，但大多数计算机视觉研究都集中在了解车辆外部的情况[13，39，52]。与此同时，车舱内的人具有改善人-车通信、动态驾驶适应性和安全性的强大潜力。大多数交通事故涉及方向盘后面的辅助活动，如果没有分心，估计36%的此类事故可以避免[10]。虽然未来的驾驶员将逐渐从主动驾驶汽车中解脱出来，但向完全自动化水平的过渡是一个长期的过程[1]。过度依赖自动化可能会导致灾难性的后果，并且在很长一段时间内，驾驶员将需要在不确定性的情况下进行干预[1，38，31]。除了出于安全原因识别驾驶员分心之外IRIRRGB RGB深度Depth关于Jacket一0点一点两点两点三点三点4点时间战线副驾驶员车门前区域右后座圈右后座没有地点位置夹克报纸报纸报纸笔记本笔记本安全带对象交互放置达到互动交互伸手去拿交互行动把获取对象在看报纸。开放LaptopWorkingonLaptop紧固安全带中级工作任务报纸阅读任务...以ICCV用户身份登录。搜索首尔当前的天气预报并通过短信发送在ICCV-Weekly中查找宴会时间把答案写在笔记本...2802可以增加舒适度，例如，通过调整驾驶风格，如果人正在喝咖啡或打开灯，当阅读时。驾驶员行为识别与更广泛的动作识别领域密切相关，由于深度学习的兴起，该领域的性能数字迅速增加[7，44，46]。这些模型需要大量数据，并且通常在大型基于颜色的数据集上进行评估，这些数据集具有精心选择的一组高度区分的动作，通常来自Youtube[7，25]。可能是由于训练此类模型的数据集不足，对驾驶员活动理解的研究远远落后。现有的工作通常是在私人数据集上进行的[35，50]，并且仅限于对极少数低级行为（例如，无论人是握着方向盘还是切换档位[35]）。现有的基准没有一个涵盖更高级别的活动（例如：换衣服），尤其是在高度自动化驾驶的情况下。我们的目标是促进在现实驾驶条件下的活动识别研究，如低照明和有限的身体可见性，并提出了新的驱动行为数据集。Drive Act提供了与活动识别模型的实际应用有关的各种潜在挑战，并且是第一个公开可用的数据集，它结合了以下属性：• 自动驾驶和手动驾驶背景下的驾驶员辅助活动（共83节课）。• 多模态：颜色、深度、红外和身体姿态数据，因为传统的基于RGB的动作识别数据集忽略了低照度的情况。• 多视角：六个同步摄像机视角覆盖车辆驾驶室，以应对有限的车身可视性。• 在抽象和复杂性的三个级别上的分层活动标签，包括上下文注释。• 单个类之间的细粒度区分（例如打开瓶子和关闭瓶子）以及动作持续时间和复杂性的高度多样性，这对动作识别方法（例如，从里面打开门通常花费不到一秒钟，而阅读杂志可能持续几分钟）。除了自动驾驶应用外，我们的数据集还填补了大型多模态基准的不足用于在多个抽象层次上的简明识别。对基于视频和身体姿势的动作识别的最先进方法的广泛评估表明了我们的基准测试的难度，突出了进一步广泛的动作识别研究的必要性。2. 相关工作传统和驾驶员动作识别传统的基于视频的动作识别架构通常源自基于图像的模型，其中核心分类应用于视频帧并扩展到时间维度[7，44，34，20，15]。处理附加维度有不同的策略：使用传统的2D CNN对图像帧进行分类，然后对所有帧的结果进行平均[44]，将递归神经网络置于CNN [34，11]之上，或者通过3D卷积滤波器学习时空特征[20，46，7]。相比之下，用于驾驶员行为分析的基于深度学习的方法通常使用类似的结构，同时还记住在现实驾驶场景中遇到的其他挑战，例如，改变照明条件。即使这些模型中的一些利用彩色相机[49，50，33，12]，各种方法选择照明不变传感器，如IR相机[50，30]，深度传感器[8，27，48]或多模态模糊。不同传感器类型的选择[32，8，27]。用于解耦变化的照明条件的另一策略是使用中间级表示，例如，3D电子-表征驾驶员身体姿势的电子。由于骨架的复杂结构，用于扁平化其表示的流行方法包括递归神经网络[32，28]和图网络[51]。这些方法通常通过利用关节层次[43]、运动模型[47]、时空关节图[53，29]和多个流[32]。相关数据集由于动作识别在计算机视觉领域的日益普及，针对各个领域提出了各种各样的数据集：例如烹饪相关的任务[9，24，41]，体育[22，40]，机器人[42，21]或来自Youtube的更多一般视频[45，3，26]。相比之下，Drive Act解决了车内环境中的不同类型的挑战，在车内环境中，由于对环境光的依赖，我们遇到了训练数据的稀缺和仅使用RGB时的困难。因此，接下来我们将更多地关注驱动动作识别的数据集，并仅将我们的基准与传统动作识别的两个流行数据集进行比较[43，7]。在表1中，我们将Drive Act的规格&与两个主要的动作识别数据集进行了比较：动力学[7]和多模态NTU[43]，以及六个驾驶相关数据集[36，35，50，2]。Kinetics人类动作视频数据集是一个大型基准测试，包括从Youtube视频中收集的400个动作类，即没有同步多视图相机的RGB视频。在比较中，NTU RGB+D数据集[43]通过提供来自实验室中Kinect相机捕获的三个不同位置的图像来分析场景的多个视图。我们提出的所有与汽车相关的动作识别数据集都包括手动驾驶模式下的彩色图像，其中HEH [35]包括深度和D. P。[50]还有红外线数据。我们看到这些数据集中的大多数只包含很少的图像2803驱动法案SoA conven. AR多模AR[43]第四十三话：一个女人驾驶员活动识别数据集[36]第三十六话[19]第三十五章：你是我的！[50]第50话真实值[50] AUC-D. D。[二]《中国日报》年20172016201420142015201620162017/182019公开获得CCC–C––CC手动驾驶––CCCCCCC自动驾驶––––––––CRGB/灰度CCCCCCCCC深度–CC不适用b––––CNIR–C–––C––C骨架–C––––––C视频CCC不适用bCCC不适用bCNo图像>76M4M不适用b11K2M29K18K17K>9.6M不同步。意见131221116aRGB分辨率，IR/深度分辨率为512×424b作者未提供信息c可变分辨率dNIR相机分辨率表1：用于动作识别的驾驶和非驾驶相关数据集的比较在该表中，我们描述了记录模式的特征、数据集的内容和所提供的参考标签的属性。（低于30K），但Brain4Cars [19]除外，它包括200万帧，但解决了机动预测的不同任务（例如，驾驶员在接下来的几秒钟内是左转还是右转）。此外，之前的数据集仅分析了人工驾驶模式下的人类行为，并没有考虑自动驾驶环境下的活动与这些数据集相比，Drive& Act包括9个以上。600万帧，比任何其他先前发布的驾驶员动作识别（AR）数据集多四倍以上。此外，我们用总共83个类的细粒度活动来注释我们的数据集（即，比先前的驱动AR数据集多62个活动）。我们的数据集由放置在六个不同位置的多模态同步相机捕获的12小时视频组成。凭借Drive Act的独特特性（例如，多种数据流，分层，细粒度注释），我们的目标是进一步推动驾驶员行为分析领域，同时为一般活动带来新的挑战识别.3. Drive Act数据集为了解决缺乏特定领域的动作识别基准的问题，我们收集并公开发布了Drive Act数据集，该数据集以手动和自动驾驶模式下从事安全任务的12小时驾驶员为特色。3.1. 数据收集即使使用最先进的原型车辆进行自动驾驶，也会在街道上引发分散驾驶员注意力的行为周围的行人处于危险之中。因此，我们在静态驾驶模拟器中收集使用SILAB仿真软件1，车辆周围环境被模拟并投影在改装的奥迪A3周围的多个屏幕上。手动、自动驾驶和接管都可以在我们的设置中引入。补充资料中提供了有关模拟器设置的更多信息。为了鼓励多样化和积极主动的行为，在每个场景中，驾驶员被指示完成12个不同的任务（图1中示出了两个指令示例）。第一项任务包括进入汽车，进行调整，开始手动驾驶，并在几分钟后切换到自动驾驶模式。所有以下说明（例如：用笔记本电脑查找当前的天气预报，并通过短信报告），在安装的平板电脑上随机排序。虽然大多数任务是在自主驾驶时完成的，但在每个会话中，会触发四个意外的接管请求。因此，行程手动地继续至少一分钟。虽然粗略任务的序列被明确地给出，但是它们的执行的确切方式（即，细粒度活动）留给受试者。15人，4名女性和11名男性，参与了数据收集。为了促进多样性，我们选择了不同身高和体重的参与者，以及不同的驾驶风格和对辅助系统和自动化模式的熟悉程度。所有参与者都被记录了两次，导致30次驾驶会话，平均持续时间为24分钟。大多数参与者在第二次会议期间花费的时间较少，因为他们熟悉任务，重新交通或试车道上不安全。要求驾驶员监控车辆，否则会把自己和1WIVW SILAB：https://wivw.de/en/silab决议不适用c1920×1080a680×480不适用b1920×1088640×480 640×480 1920×10801280×1024d无受试者不适用b4084102053115女性/男性不适用b不适用b七分之一三分之一不适用b10/10九月二十二日4 /11No类4006019354 41083多层次的annot。–––––––CNo水平111111 1132804RGB深度骨架+内部前顶部右顶部后面视左上Kinect-IR图2：不同视图和模式下使用笔记本电脑活动的示例图像导致我们的数据集中总体上不同的行为和更多的多样性3.2. 记录的数据流在下文中，我们描述了记录的数据流，涵盖了各种信息类型，包括来自多个视图和模态的原始视频数据，3D身体和头部姿势，以及捕获与汽车内部交互的特征，这些特征在过去已成功应用于驾驶员监控[32]。传感器设置和视频流两种类型的静态定位摄像机覆盖了车辆驾驶室：（1）五个近红外摄像头2（NIR）（分辨率1280 × 1024像素，30 Hz）和;（2）用于XBox One的Microsoft Kinect，其用于获取颜色（950 × 540像素，15 Hz）、红外（512 × 424，30 Hz）和深度数据（512 × 424，30 Hz）（图2）。使用ROS3校准传感器接口并与全局时间戳同步。我们的设置专为现实驾驶条件而设计，例如低照度。我们的目标是从传统的颜色输入中分离出活动识别模型，因此支持轻型近红外相机，这在夜间也很有效。尽管如此，我们还是使用Kinect传感器获取和发布数据，这在尺寸上不太实用，但在研究界非常受欢迎。3D身体姿势为了确定具有13个关节的3D上身骨架，我们使用OpenPose[6]，其在2摄像机规格：en.ids-imaging.com/store/ui-3241le.html3www.ros.org写作的时候，一个流行的选择2D身体姿势估计。我们通过从3个正面视图（右上，前顶，左上）的2D姿态的三角测量来获得3D姿态。应用附加的后处理以使用相邻帧的插值来填充缺失的关节。3D头部姿势为了获得驾驶员的3D头部姿势，我们采用流行的OpenFace[4]神经架构。由于该模型在大的头部旋转方面存在困难，因此我们确定了除背部摄像头之外的所有视图上的头部姿势。对于每个帧，只有所有相机的子集成功预测头部旋转。从这些候选者中，我们选择具有最正面视图的相机的结果，并将其转换为世界坐标。内部模型我们还提供基于3D图元的汽车内部特征，这些图元描绘了驾驶员与周围环境的互动。该表示包括汽车中存在的不同存储空间的位置信息（例如，座椅或脚坑）和汽车控制装置（例如方向盘、安全带和变速杆），过去已成功应用于驾驶员观察[32]。活动类记录的视频帧由人工注释员在三个抽象级别上手动标记，总共产生83个动作类。我们在第4节中详细描述了我们的分层注释方案。它的目标是高级场景、细粒度活动（保留语义含义）和低级原子操作单元（表示环境和对象交互）。3.3. 数据分片由于我们的目标是对新司机的泛化进行评估，因此我们只对分类器未看到的人进行评估。我们根据方向盘后面的人的身份随机将数据集分成三个部分。对于每个分割，我们使用十个受试者的数据进行训练，两个受试者的数据进行验证，以及三个驱动器的数据进行测试（即：分别为20、4和6次驾驶由于标注的动作持续时间不同，我们将每个动作片段分成3秒或更短的块，并将其用作基准测试中的我们提供了评估脚本，以便于比较结果。4. 驾驶员行为的层次词汇为了充分代表真实驾驶情况，我们使用三种来源对手动驾驶过程中的次要任务进行了全面的文献综述：（1）驾驶员访谈，（2）警方对事故的审查，以及（3）自然主义汽车研究[5，17，23，14]。选择驾驶舱内场景的关键因素是驾驶时活动参与的频率和对驾驶员注意力的动作影响（例如，驾驶员的注意力）。通过增加事故几率）。此外，我们还邀请了来自汽车制造业的五位专家和人车交互研究专家2805原子作用单位对象操纵驾驶准备饮食服装定位对象动作身体运动内部设备工作娱乐10000250010004001005020图3：按类划分的细粒度活动（左）和原子操作（右）的采样频率（对数标度）。样本对应于具有指定标签的3s片段。颜色表示活动组（例如食品相关活动）。百分之十四百分之十五百分之四百分之四百分之二百分之二十三百分之五百分之二百分之二百分之三百分之十四百分之十二饮食驾驶准备停车和出口接管转向穿上夹克戴上太阳镜阅读杂志 *阅读报纸 *脱下夹克脱下太阳镜观看视频在笔记本电脑上工作图4：我们数据集中场景/任务的分布。这些任务既包括通过阅读报纸/杂志来寻找关于预先询问的问题的信息，也包括将答案写在笔记本上。根据各项活动对未来应用的有用性对它们进行评级。结果表明，学生对诸如用手机通话、在笔记本电脑上工作、搜索东西和识别基本身体动作（例如，伸手去拿地板上的东西），而吸烟等行为则被评为不太有用。由于技术上的可行性，某些类别（如睡眠）被省略。在文献回顾和专家调查的基础上，我们从八个方面定义了相关驾驶员活动的词汇表：饮食、衣着和配饰、工作、娱乐、进入/退出和车辆调整、身体运动、物体操纵和使用车辆内部设备。我们最终的词汇表包含三个粒度级别上的83个活动标签，构建了一个基于复杂性和持续时间的三个级别的层次结构。4.1. 场景/任务我们的受试者在每次会话中必须完成的12项任务（第3.1节）形成了我们的层级的第一级，并且是手动驾驶期间的典型场景（例如，饮食）或高度分散注意力的情况，这些情况预计随着自动化的增加而变得普遍（例如，使用膝上型计算机）。图4说明了场景的逐帧频率分析，显示我们的受试者将大部分时间（23%）花在娱乐任务（即，观看视频），以及在接管请求之后手动驾驶的最短时间。接管场景是特殊的，因为受试者意外地被要求中断他正在做的事情以接管并切换到手动驾驶。分析对此类事件的反应（例如，与先前活动或人员年龄有关），是一个潜在的安全相关研究方向。4.2. 细粒度活动第二层代表细粒度的活动，将场景/任务分解为34个简明类别。与即将到来的第三级原子动作单元相比，第二级类保留了明确的语义意义。这些细粒度的活动在场景中自由交替，即驾驶员没有被详细告知如何执行任务。当然，不同程度的抽象之间存在着很强的因果联系，因为复合对象通常包括多个更简单的动作。在这个级别上，识别的一个关键挑战是课程的简洁性，因为我们区分了打开瓶子和打开瓶子，或者吃饭和准备食物。我们认为，这种详细的歧视是重要的应用程序，作为粗糙的组成部分的场景（即。车辆驾驶室或松散的身体位置）通常保持相似，并且相关的类别差异以比传统动作识别中更小的尺度发生位置对象原子行动单位行动细粒度活动从背包中取出笔记本电脑将笔记本电脑放入背包打开背包关闭笔记本电脑打开笔记本电脑放置对象获取对象关门外面关门里面开门外面开门内进车退出车解开安全带配制食品封瓶开启瓶饮用吃饭摘墨镜戴墨镜脱下夹克穿上夹克寻找（Searching）坐着不动，按下自动化按钮使用多媒体显示写入在笔记本电脑上工作在电话与手机互动阅读报纸阅读杂志裤子口袋副驾驶门左后座驾驶员侧车门右后座中控台前副驾驶员脚坑中控台后盖圈方向盘副驾驶座无位置前区眼镜盒钢笔变速杆背包眼镜安全带外套自动按钮书写板瓶装笔记本电脑报纸杂志多媒体显示电话无目标食物关闭开口放置，移动，到达，收回交互2806基准。由于这种详细的注释，各个类的频率是变化的，如图3所示，图3给出了类分布的分析。平均而言，我们的数据集每个类别有303个样本，从背包中取出笔记本电脑是最不常见的（19个样本），静坐是最常见的类别（2797个样本）。虽然我们将3秒的块称为我们的样本（第3.3节），但完整片段的持续时间根据活动而变化很大（图5）。4.3. 原子行动单位原子动作单元的注释描绘了最低程度的抽象，并且是驱动程序与环境的基本交互。动作单元与长期语义无关，可以被视为前一层次复杂活动的构建块我们将原子动作单位定义为动作、物体和位置的三元组.我们涵盖了5种类型的行动（例如：17个对象类（例如书写板）和14个位置注释（例如，副驾驶员脚坑），并总结了它们的分布阅读杂志阅读报纸在电话上交谈在笔记本电脑上工作穿上夹克吃脱外套静坐写作准备食物与手机互动系紧安全带饮用把笔记本电脑放在背包打开笔记本电脑把笔记本电脑放在背包里环顾四周（搜索）下车开背包开瓶闭瓶取物戴上墨镜进入汽车解开安全带放置一个物体关闭笔记本电脑摘太阳镜开门内开门外关门外关门内使用多媒体显示器按自动化按钮1 10活动段持续时间（秒）100图3中的总体而言，我们的数据集中捕获了372种可能的动作，对象和位置组合。4.4. 额外注释我们还提供驾驶上下文的密集注释我们还包括接管请求和模拟器内部信号的时间戳，例如：方向盘角度。5. 自动驾驶为了更好地了解我们数据集上最先进算法的性能，我们对各种方法及其组合进行了基准测试。我们将这些算法分为两组：（1）基于身体姿势和3D特征的方法，以及（2）基于卷积神经网络（CNN）的端到端方法。虽然基于CNN的模型通常是传统动作识别数据集的领跑者，但它们处理非常高维的输入，并且对训练数据量和动态变化（如相机视图变化）更加敏感在下文中，我们详细描述这两组方法。5.1. 端到端模型在基于图像的动作识别中，模型直接对视频数据进行操作，即中间表示没有明确定义，而是通过CNN学习。接下来，我们描述了三个突出的基于CNN的动作识别架构，我们采用我们的任务。图5：第二级细粒度活动的持续时间统计，如箱形图（对数标度）。由于空间的原因，一些类的名称被稍微缩短了。C3D模型[46]是第一个广泛使用的CNN，利用3D卷积进行动作识别。C3D由8个卷积层（3× 3× 3内核）和5个池化层组成，然后是两个全连接层。Inflated 3D ConvNet 最先进的动作识别技术目前由Carreira等人提出的Inflated 3D架构（I3D）所持有[7]的文件。该架构建立在Inception-v1网络[18]的基础上，通过扩展具有额外时间维度的2D滤波器。P3D ResNet与以前的型号不同，的P3D ResNet [37]架构使用3× 3× 3内核通过在空间域上组合滤波器来模拟3D卷积（即 3 × 3 × 1）与时间维度（即，1 × 1 ×3）。此外，P3D ResNet利用了剩余连接，因为它们在动作识别领域非常有效。5.2. 车身姿态与汽车内部结构3D身体姿势能够提供关于驾驶员的当前活动的信息线索，同时仍然保持人类可解释性，与基于CNN的架构产生的中级特征图形成对比。因此，我们采用[47]的基于神经元的方法来完成我们的任务，该方法结合了空间和时间流来联合建模身体动力学和骨骼空间运动。每个流由堆叠的两层长●● ●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●● ●●●●●●●● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●2807短期记忆（LSTM）单元[16]后面是一个带有softmax激活的全连接层。这种架构已经由Martin等人改编。[32]用于通过将具有汽车内部信息的网络扩展到三流体系结构来识别驾驶员动作。在下文中，我们描述三个流中的每一个的输入：为了编码驾驶员身体的运动动力学，在每个时间步中，我们通过连接将所有13个关节连接起来，并在我们架构的第一个空间流第二流通过在每个步骤向递归网络提供单个关节的表示来编码关节的空间依赖性。为了平坦化基于图形的身体姿势表示，使用遍历方案，其中关节序列基于[28]中介绍的邻接关系来选择。汽车内部流由于物体在场景中的放置可以提供当前动作的重要线索，我们还为模型提供了汽车内部的表示。为了利用这些数据，我们确定手和头到数据集内部模型中提供的每个对象表面的距离。这有助于网络学习汽车内部和执行的动作之间的关系。根据[47]的方法，对于通用动作识别，我们将时间和空间流与加权后期融合相结合。该模型在下文中被称为双流Martin等人的扩展模型[32]增加了汽车内部网络作为第三个类型模型验证测试基线随机2.942.94构成内部45.2340.30构成53.1744.36[47]第四十七话53.7645.39[32]第三十二话55.6746.95End-to-endC3D [46]49.5443.41P3D ResNet [37]55.0445.32I3D网络[7]69.5763.64表2：Drive Act验证和测试集上的细粒度活动识别。我们将提出的模型分为：（1）基线，（2）仅使用身体姿势表示的网络和（3）直接对输入图像进行预测的基于CNN的端到端方法。是非常高的，我们还报告了正确分类的动作，对象和位置分别（6，17和14类，分别）的性能。在表2中，我们比较了多种已发表的识别细粒度活动的方法，包括三种基于CNN的方法和四种基于身体和内部表示的模型。总的来说，我们实现了平均每类精度在40。3%，63。64%，相比之下，随机基线的94%。膨胀的3D模型产生最好的识别率（63。64%），而基于3D身体姿势的方法显然受益于结合信息流，其中三流方法在该组中最有效（46. 95%）。甚至用于驾驶员动作识别流我们把这个模型三个流在下面。6. 基准和实验结果在我们的基准测试的当前版本中，我们专注于驱动程序行为的细粒度分类及其扩展到多模式和交叉视图设置。给定3秒或更短的动作片段（在较短事件的情况我们遵循标准实践，并通过使用每个类别的前1名识别率的平均值来采用平均每类准确率请注意，随机基线是注释级别特定的，并且在0. 31%和16。百分之六十七在以下-虽然我们包括比多模态NTURGB+D数据集更少的类，但我们看到Wang等人的双流模型。[47]显示Drive Act的性能较低&，突出了我们基准的难度。原子动作单元分类表3报告了原子动作单元分类的结果，其中我们分别显示了{动作，对象，位置}三元组中每个值的性能，以及组合的三元组值的整体毫不奇怪，基于身体姿势的方法是位置分类的领跑者（56.5%），因为三流方法杠杆有关内部的信息。此外，最终-让我们专注于我们的基准模型的性能埃尔斯所有模型的参数化可在补充材料中找到。6.1. 驾驶员动作识别我们为每个层次结构级别分别评估我们的模型：12个场景/任务（第一级），34个细粒度活动（第二级）和原子操作单元，具有372种可能性，{Action，Object，Location}三元组的ble组合（第三级）。因为三重组合的数量表3：原子作用单位的识别定义为{Action，Object，Location}三元组。模型行动valtest对象valtest位置valtest所有Val测试随机16.6716.675.885.887.147.140.390.31构成57.6247.7451.4541.7253.3152.649.187.07内部54.2349.0349.9040.7353.7653.338.766.85双流57.8648.8352.7242.7953.9954.7310.317.11三流59.2950.6555.5945.2559.5456.511.578.09I3D网络62.8156.0761.8156.1547.7051.1215.56十二点十二分2808KinectIRKinect深度KinectRGBNIR左-上NIR面视图表4：粗略场景/任务的识别。终端方法通常采用池化，从而导致精确位置信息的丢失。由于基于身体姿势的方法不使用周围物体的视觉表示NIR回来NIR右上角NIR前顶部NIR前顶部NIR右上角NIR回来NIR面视图NIR左-上KinectRGBKinect深度KinectIR然而，基于CNN的方法对物体显示出更好的效果，(56. 15%）和行动分类（56。07%）。情景/任务识别表4显示了结果的任务分类。基于人体姿态的方法显示出更好的结果，但总体识别率低于其他级别。由于高抽象级别，我们假设识别将从比当前3s段更长的时间窗口中强烈受益6.2. 多视图和模态动作识别在表5中，我们通过Softmax输出分数的平均值报告了基于CNN的I3D方法针对各个视图和模态及其组合的性能正如预期的那样，识别成功与一般场景可见性相关（参见图2中的摄像机覆盖的区域）。例如，面部视图设置实现最低性能（42. 98%），因为在这个视图中，大部分情况下只有驾驶员的面部可见。在摄像机中，前顶摄像头是驾驶员捕捉面部、身体和近距离物体的前视图。虽然最好的单视图结果是使用Kinect IR数据（64. 98%），多个输入的后期融合一致地提高了识别率（69。03%使用所有来源）。相机视图确认测试前顶69.5763.64右上65.1660.80NIR回来54.7054.34相机面视图49.7342.98左顶部68.7262.83组合72.7067.17Kinect颜色69.5062.95Kinect深度Kinect IR右上69.4372.9060.5264.98组合73.8068.51所有组合（平均得分）74.85 69.03表5：不同视图和模态及其组合（I3D模型）的细粒度活动水平结果。目标图6：跨视图动作识别的验证准确性：在目标视图上评估在源数据上训练的I3D模型请注意，随机基线为2。百分之四十九6.3. 交叉视图动作识别我们的下一个研究领域是跨视图和跨模态设置，在此我们评估在以前训练期间未见过的视图上执行最佳端到端方法（结果见图6）。跨视角识别是一项非常困难的任务，性能显著下降。尽管如此，在大多数情况下，模型比随机基线获得更好的结果。二十七岁49%的细粒度活动在Kinect IR到右上角的NIR视图设置中被正确识别，24. 在跨模式Kinect颜色到Kinect IR设置中为74%。我们的研究结果表明，现代基于CNN的动作识别模型的敏感性域的变化，并强调需要进一步研究的方法来处理这种变化。7. 结论我们提出了第一个大规模的数据集，用于在手动和自动驾驶模式下捕获的驾驶员活动识别。驱动&行为基准包括9。600万帧图像由五个NIR和流行的Kinect v2摄像头通过六种不同的视图和三种模式采集。12小时的视频通过层次化注释方案进行注释，范围从（1）驾驶员必须执行的粗略任务和（2）车厢内的细粒度活动到（3）原子动作单元的注释，作为三元组，包括：驾驶员的当前动作、与主体交互的对象以及对象的位置。我们评估各种国家的最先进的模型的基础上，司机的身体姿势和端到端的架构上在我们的实验中，我们强调了由于动作的简洁性而导致的数据集的困难，并旨在促进进一步的研究，使活动识别模型更接近实际应用。型式模型验证试验基线随机8.33 8.33室内造型35.76 29.75姿势37.18 32.96双流三流41.7035.45端到端I3D Net44.66 31.806.66 19.79 7.34 4.27 9.02 10.01 4.58 72.93.3 4.67 7.78 2.95 4.58 5.56 69.43 6.527.47 12.24 7.62 4.13 7.17 69.510.04 5.95 10.04 5.79 68.72 3.75 2.859.02 4.14 6.08 49.73 8.61 5.25 4.42 5.698.65 12.61 54.7 5.52 10.126.36 65.16 9.49 3.57 7.16 8.46 5.7669.57 4.15 6.96 7.39源2809引用[1] 道路机动车辆驾驶自动化系统相关术语的分类和定义SAE J 3016，2016。1[2] Yehya Abouelnaga，Hesham M Eraqi，and Mohamed NMoustafa.实时分心驾驶员姿势分类。智能交通系统的机器学习研讨会在神经信息处理系统会议（NeuroIPS），2018年。二、三[3] Sami Abu-El-Haija，Nisarg Kothari，Joonseok Lee，PaulNatsev ， George Toderici ， Balakrishnan Varadarajan ，and Sudheendra Vijayanarasimhan. Youtube-8 m：一个大规模视频分类基准。arXiv预印本arXiv：1609.08675，2016。2[4] Tadas Baltrusaitis 、 Amir Zadeh 、 Yao Chong Lim 和Louis- Philippe Morency。OpenFace 2.0：面部行为分析工具包。在自动人脸手势识别国际会议上，第59-66页，2018年。4[5] 查德·巴克新西兰车内干扰焦点小组研究的主要发现。分心驾驶，S，第213-254页，2007年。4[6] 曹哲、吉内斯·伊达尔戈、托马斯·西蒙、魏世恩和亚瑟·谢赫。OpenPose：使用部件亲和场进行实时多人2D姿态估计。在arXiv预印本arXiv：1812.08008，2018。4[7] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在计算机视觉和模式识别会议上，第6299-6308页，2017年。二三六七[8] 我是克莱和法克里·卡拉。使用rgb-d传感器的医生分心检测arXiv预印本arXiv：1502.00250，2015年。2[9] DimaDamen ， HazelDoughty ， GiovanniMariaFarinella ， Sanja Fidler ， Antonino Furnari ， EvangelosKazakos ， Davide Moltisanti ， Jonathan Munro ， TobyPerrett，Will Price，et al.缩放自我中心的愿景：epic-kitchens数据集。在欧洲计算机视觉会议（ECCV）的论文集，第720-736页2[10] Thomas A Dingus，Feng Guo，Suzie Lee，Jonathan FAntin ， Miguel Perez ， Mindy Buchanan-King ， andJonathan Hankey.使用自然驾驶数据进行驾驶员碰撞危险因素和患病率评估美国国家科学院院刊， 113（10）：2636-2641，2016。1[11] JeffreyDonahue 、 LisaAnneHendricks 、 SergioGuadarrama、MarcusRohrbach、SubhashiniVenugopalan、Kate Saenko和Trevor Darrell。用于视觉识别和描述的长期递归卷积网络计算机视觉和模式识别会议论文集，第2625-2634页，2015年2[12] Patrick Gebert，Alina Roitberg，Monica Haurilet，andRainer Stiefelders.驾驶员意图的端到端预测使用3D卷积神经网络。智能车辆研讨会（IV），法国巴黎，2019年6月。美国电气与电子工程师协会。2[13] Andreas Geiger ， Philip Lenz ， Christoph Stiller ， andRaquel Urtasun.视觉与机器人技术的结合：Kitti数据集。国际机器人研究杂志. 1[14] 克雷格·戈登。驾驶员分心：初步审查的注意力转移的贡献因素代码从崩溃的报告和焦点小组研究感知的风险。2005. 4[15] 原贤章片冈广胜佐藤丰利用三维残差网络学习时空特征用于动作识别。在ICCV行动，手势和情绪识别研讨会的会议记录中，第2卷，第4页，2017年。2[16] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算，1997年。7[17] Anja Katharina Huemer和Mark Vollrath。这是一个很好的学习方法。2012年。4[18] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。arXiv预印本arXiv：1502.03167，2015。6[19] Ashesh Jain 、 Hema S Koppula 、 Bharad Raghavan 、Shane Soh和Ashutosh Saxena。汽车知道在你做之前：通过学习时间驾驶模型预测机动。计算机视觉会议论文集，第3182-3190页，2015年。3[20] 水忘机、魏旭、明阳、开宇。用于人体动作识别的三维IEEEtransactionsonpatternanalysisandmachineintelligence，35（1）：221-231，2013。2[21] 迈克尔·卡格和亚历山德拉·基尔希一个人类早晨的常规数据集。自治代理和多代理系统国际会议论文集，第1351国际自治代理和多代理系统基金会，2014年。2[22] Andrej Karpathy ， George Toderici ， Sanketh Shetty ，Thomas Leung，Rahul Sukthankar，and Li Fei-Fei.使用卷积神经网络进行大规模CVPR，2014。2[23] Sheila G Klauer， Thomas A Dingus，Vicki L Neale ，Jeremy D Sudweeks，David J Ramsey，et al.驾驶员注意力不集中对近碰撞/碰撞风险的影响：使用100辆汽车自然驾驶研究数据的分析。2006. 4[24] Hilde Kuehne，Ali Arslan，and Thomas Serre.行动的语言：恢复目标导向的人类活动的语法和语义。计算机视觉和模式识别会议论文集，第780-787页，2014年2[25] Hildegard Kuehne，Hueihan Jhuang，Est´ıbaliz Gar

下载后可阅读完整内容，剩余1页未读，立即下载