行人视觉注意力的上下文授权预测方法及其在行人导航中的应用

24 浏览量更新于2023-10-15 收藏 1.34MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

950行人场景中的上下文授权视觉注意预测IgorVozniak，PhilippMüller，LorenaHell，NilsLipp，AhmedAbouelazm，ChristianMüller德国人工智能研究中心（DFKI）Saarbručken，German y{igor.vozniak，philipp.mueller，lorena.hell，nils.lipp，ahmed.abouelazm，christian.mueller} @dfki.de摘要对于在不同的紧急情况和安全偏好下必须导航到期望目标的行人来说，有效和灵活的视觉注意力分配是虽然行人注意力的自动建模在改善行人注意力的模拟方面有很大的希望，但目前的显着性预测方法主要集中在通用的自由观看场景上，并且没有反映行人注意力预测中存在的具体挑战。在本文中，我们提出了Context-SalNET，一种新型的编码器-解码器架构，明确解决了行人视觉注意力预测的三个关键挑战：首先，Context-SalNET显式地在编码器-解码器模型的潜在空间中对上下文因素紧急性和安全偏好进行建模。其次，我们提出了指数加权均方误差损失（ ew-MSE），它能够更好地应对只有一小部分地面真值显着图由非零条目组成的事实。第三，我们明确地建模认知的不确定性，以解释这样一个事实，即行人注意力预测的训练数据是有限的。为了评估 Context-SalNET，我们记录了VR中行人视觉注意力的第一个数据集，其中包括上下文因素紧迫性和安全偏好的显式变化。Context-SalNET与最先进的显著性预测方法以及消融相比实现了明显的我们的新数据集将完全可用，可以作为一个有价值的资源，进一步研究行人注意力预测。1. 介绍行人在十字路口的视觉行为-这种情况受到街道具体布局的影响[13，41]，但在很大程度上也受到时间压力的影响[48，2]。由于其对交通安全的重要性，行人注意力在人类科学中得到了广泛的研究[2，14，20，61]。行人注意力的自动预测可以打开为人类和动物创建更逼真的训练环境的可能性。图1.与经典的静态图像上的自由观看视觉注意预测不同，行人视觉注意预测是高度依赖于上下文的。此外，从行人注意力生成的显着性图比在观看相同图像的多个主体上聚合的自由观看显着性图更稀疏。自主代理此外，它将有助于更准确地建模和理解关键的交通场景[25]。二十多年来，人类注意力的自动预测在计算机视觉界引起了已经取得了重大进展，特别是在数据集采用上下文无关，自由查看范式与静态图像[28，37，18]。这些模型预测的显着性图是平均的凝视被捕获或获得从几个观察者为一个给定的静态图像。很少有作品在交互式环境中提出了考虑导航或搜索任务特征的视觉注意力到目前为止，还没有一种用于预测交互式环境中行人注意力的方法能够考虑到行人行为特有的上下文因素（即，紧急和安全）。同样，据我们所知，没有公开可用的数据集来训练这样的模型。我们通过提出第一种方法和数据集来缩小这一差距，用于在过街场景中预测行人注意力。然而，我们没有解决显著对象检测1的任务，这是一个公认的领域。我们的方法由编码器-解码器架构组成，并解决了区分行人的三个关键挑战1https://paperswithcode.com/task/salient-object-detection951从静态图像上的显著性预测的经典场景的注意力预测。首先，为了捕获行人注意力的上下文依赖性，我们用行人的紧急性和安全偏好的信息来增强编码器-解码器的隐藏状态。其次，与静态图像场景相反，在交互式环境中，视觉注意的显著性图中只有少数像素被激活。为了更好地应对这一事实，我们提出了指数加权均方误差（ew-MSE）。这种损失减少了网络对错误的高显着性预测的惩罚。第三，神经显着性模型通常在多个数据集上训练，以减少模型的不确定性并实现最高性能。由于目前只有我们用于行人注意力预测的新数据集可用，因此我们明确地对模型的认知不确定性进行建模[33]。这项工作的具体贡献有三个方面：首先，我们提出了上下文SalNET，第一种方法，解决行人注意力预测的任务。其次，我们记录了第一个公开可用的数据集pedes-trian注意力预测。该数据集由虚拟现实中记录的各种过街场景组成，并解释了不同的上下文因素紧迫性和安全偏好。该数据集由528个不同的场景组成，这些场景是根据德国深入事故研究（GIDAS）报告形成的，具有不同的街道布局，并在此工作环境中考虑了各种因素。此外，布局组件（如安全岛和移动方向上的多车道）的复杂性有所增加[62，63]。因此，要-记录的帧的总数是35K，其被附加地标记有总共11个部分的上下文信息。完整的数据集将公开提供给未来的研究。第三，我们对这个新的数据集进行了深入的定量和定性评估，显示了我们的上下文建模方法的有效性以及我们提出的ew-MSE损失和建模认知（统计）不确定性的此外，Context-SalNET优于在相同数据集上训练的当前最先进的显着性预测方法[18]，并在MIT/Tübingen基准[36]上改进了当前最佳显着性预测方法，该方法在更大的数据集集合上训练（没有可用于直接比较的训练代码）[44]。2. 相关工作我们的工作涉及人类注意力预测的最新技术，更具体地说，涉及任务依赖的视觉注意力预测。2.1. 视觉注意预测大多数关于人类注意力预测的工作都集中在预测图像上的上下文无关显着图的任务上[28，38，12，18，60]。这项任务的基本事实是是在许多观察者上平均的注视密度图，给定的图像。目前最先进的有影响力的MIT显着性基准[36]是DeepGaze IIE [44]（第一），UniSal [18]（第二）和SalFBNet [16]（第三）。DeepGaze IIE通过融合不同的骨干网络对其之前的版本DeepGaze II [38]进行了改进，因此，精确的训练设置对于避免性能偏差至关重要。在提交时，没有DeepGaze IIE的开源实现可以让我们在我们的数据集上训练网络。 [16] 提出了SalFBNet，它使用伪地面实况学习显着性分布，并随后在现有数据集上进行微调在提交报告时，尚未公布实施情况。另一方面，UniSal [18]利用域自适应来训练用于基于图像和视频的显着性生成的单个模型。我们选择UniSal作为上下文无关的基线方法，因为作者提供了一个开源实现，允许在我们的数据集上进行训练。大多数显着性生成模型[44，18，15]都遵循编码器和解码器的类似架构设计。例如，UniSal [18]由一个MobileNet V2 [56]编码器组成，然后是与学习的先验知识、递归RNN的级联，以及一个具有跳过连接、融合和平滑层的解码器。域自适应模块的使用允许图像和视频显著性数据集之间的域移位。请注意，大量的工作存在于视频显着性预测[46，68，75，30，47，45，39]，以及自我中心。tric显着性预测[64，26，70]。该领域的最新研究通常提取时间特征，如光流，递归或3D卷积[47，45，39，64]。虽然这些技术适用于我们的场景，但我们在这项工作中的重点是研究由上下文属性告知的行人注意力预测，以及我们提出的解决稀疏地面真实显着性挑战的ew-MSE损失。为了隔离这些方面，并增加显着性预测的最新技术水平的可比性，我们选择将时间特征的整合留给未来的工作。2.2. 任务相关的视觉注意预测大量的工作表明任务上下文在人类视觉注意力分配中的重要性[73，5，40，22，21]。例如，[21]研究了自由观看以及搜索和导航任务对虚拟环境中视觉注意力的影响。他们发现，与自由观看和搜索任务相比，导航会产生更多位于中心的注视。此外，在[40]中，作者研究了眼动与日常活动（如食物准备任务）之间的关系，表明几乎所有的眼动都是针对与任务相关的物体。它证实了“自顶向下”组件的高效果952N第2章（1）∼对“内在显著性”的贡献很小。有趣的是，[7]中的作者根据虚拟研究中记录的凝视模式对驾驶类型（手动与自动驾驶）进行了分类。这些研究科学地证实了语境因素对视觉注意的重要性和影响。尽管上下文在人类注意力分配中的重要性在[51]中介绍了一种预测任务依赖性视觉注意力预测的早期计算模型。作者结合了任务依赖的自上而下的调制和自下而上的显著性提取来模拟参与者后来，[6]指导受试者在模拟环境（2D和3D）中导航。任务属性由要点描述器[65，55]以及受试者当前的运动动作建模。最近[74]提出了一个基于任务的网页显着性预测模型。他们的CNN模型在九月的特定任务和无任务方面的注意力，ReLU激活函数[49]。Context-SalNET的输出为了避免过拟合并实现概率推理，将dropout应用于编码器的块4和6以及解码器的1-3块。3.2.指数加权MSE损失与经典的显著性预测相比，其中地面真实显著性图在静态图像的多个观察者上聚合，行人注意力预测中的地面真实显著性图更加稀疏，仅包含很少的非零条目。为了解释这一点，我们修改了显着性预测中常用的均方误差（MSE）损失，通过用预测的幅度对其进行指数加权。由此产生的指数加权MSE（ew-MSE）损失对高预测的惩罚较小，从而对抗了香草MSE由于稀疏地面事实而诉诸于预测零的趋势。为了-网络的分支。与以前的工作它明确地模拟了不同类型的任务（例如，[6]第一次，我们在这里看到的是，玛丽ew-MSE=1Nexp（−yi）（yi−yi）i=1它在行人导航任务的框架内对紧急性和安全优先性的定性方面进行建模3. 方法Context-SalNET的整体架构（图2）由一个编码器-解码器神经网络组成，该网络以上下文属性信息为条件（输入2，图2）。为了应对稀疏的显着性地图的事实，在交互式行人的情况下，我们引入了指数加权MSE（ew-MSE）损失。此外，我们根据[33]对认知不确定性进行建模，以考虑到行人注意力预测的可用数据有限的事实。3.1. Context-SalNET架构我们的编码器-解码器架构受到[50]的启发，但在编码器和解码器之间引入了一个新颖的级联层编码器由CNN层的块组成。每个块之后是最大池化层。级联瓶颈层由嵌入层组成，用于编码上下文信息，然后是具有丢弃和批量归一化的全连接层，以改善优化景观[57]并解决内部协变量移位。解码器镜像编码器，除了增加上采样层以实现相应的分辨率。为了保持细粒度的空间分辨率，我们分别在编码器的块5和6与解码器的块1和2之间添加如[23]中所述的跳过连接在初步实验中，这些跳过连接被证明对性能有很大的影响。除了Sigmoid输出层，我们使用其中，y表示模型输出，y表示地面实况，N对应于y的输出像素的数量。3.3. 模型不确定性虽然人的注意力受到图像证据以及上下文因素的影响，但包括动态车辆、行人、动态交通灯和障碍物的非确定性仿真状态空间由于我们的环境的交互性质，导致不同的头部角度、高度和身体取向，每个FoV图像和相应的眼睛注视固定是唯一的。与经典的显着性预测[28]相反，这种随机性不能被平均，并且由此产生的数据稀疏性导致了一个大型模型（即，不确定性[27]。为了应对这一挑战，我们首次提出在人类注意力预测模型中对不确定性进行建模。我们报告了与[33]一致的认知因此，训练和推理阶段都是用激活的dropout进行的，以便从随机后验概率中进行采样，从而导出每个预测像素的均值和方差。在初步实验中，我们还评估了建模任意不确定性的效果，但我们没有观察到性能改善。3.4. 培训详细信息我们根据公式1训练Context-SalNET，其中AUC指标用作提前停止标准。鉴于总共35K行人视觉关注im-年龄，我们设定的比例为80%至20%的培训-953图2. CNN编码器-解码器架构的生成器网络。输入包括：1）视场图像; 2）对应帧特定上下文属性的样本。目标是输出相应的注意力地图。跳过连接用编码器和解码器之间的箭头指示，其中应用批归一化（BN）以考虑不同的数据分布。验证数据分割，其中测试是在看不见的和特定于主题的数据集上执行的。我们利用亚当[34]优化器的损失率为10-5，整个工作流程中的批量大小为96张图像输入图像分辨率设置为224x224x3，与VGG16架构一致。在leave-one-subject-out交叉验证训练期间，我们使用了Tesla A100（40 vGB）和Quadro RTAX 6000（48 vGb）、2核CPU和128 GBRAM的集群。编码器的权重（卷积层1-5的批次）从VGG 16初始化[59]以便更快地收敛并克服梯度不足。 UniSal [69]在我们的数据集上进行训练，初始培训管道，允许与Context-SalNET 进行公平比较。 UniSal 和引入的Context-SalNET都分别依赖于骨干网络ModelNet V2[56]和VGG 16 [59]，其中两者都在ImageNet数据集2上进行了预训练。4. 数据集本研究的重点是交通场景中的目标导向行人行为以及情境属性的影响。高层次的方面。因此，研究的目标是可以实现的，利用合成环境，即使缺乏真实感引入域差距的真实图像。然而，更一般地说，在训练与测试设置的任何组合中都存在域差距[71]，并且超出了这项工作的范围。4.1. 上下文属性和场景我们操纵两个上下文因素的导航任务，是高度相关的行人场景。首先，我们改变参与者所面临的时间压力其次，我们指导参与者以风险或安全的方式执行任务。为了避免歧义，我们2https://www.image-net.org/我想强调的是，在我们的工作中，我们使用上下文属性的概念（时间压力，风险），这与任务的概念不同（例如，自由观看与搜索vs.导航）在以前的一些作品中使用[21]。为了记录与挑战现实交通状况高度相关的真实数据集，我们将我们的场景基于德国深入事故研究 3（GIDAS），该研究确定了9类关键过街场景（见图4），这些场景指定了街道布局和交通粒子（行人、车辆和潜在障碍物）。我们增加了三个额外的场景，以涵盖额外的城市场景复杂性，如两个相反方向车道之间的安全岛，每个驾驶方向的多个车道，以及涉及连续交通灯的交叉口这有助于额外增加参与者视觉行为的变化以及实现安全或不安全过街行为的机会的数量。为了进一步增加真实感，我们将这些场景嵌入到真实城市的虚拟重建（数字孪生）中，并具有准确的街道布局，包括交通信号灯，步行街交叉口，自行车道，停车位以及实际建筑物的重建。4.2. Recording Setup为了模拟交通场景，我们选择了开源模拟软件OpenDS4 ，而我们考虑了其他模拟器，如Carla5，LGSVL6和GTA 57，但是在进行记录会话时，它缺少一些重要功能，例如，支持以美国为中心VR护目镜，可记录眼睛注视3GIDAS -https://www.gidas.org/start.html4OpenDS -https://opends.dfki.de5Carla -https://carla.org/6LGSVL -https://www.svlsimulator.com/7GTA5-https://www.gta5-mods.com/scripts/驱动模式选择954∼图3.记录数据集的样本和额外提取的信息。左：记录的视场（FoV）图像样本，相应的眼睛注视信息和分割图（与CityScapes颜色方案内联，具有由细粒度场景相关细节引起的扩展右：所有受试者的注视点累积分布，基于上下文进行分割。N表示特定上下文类型的样本数量，其中均值和标准值是不言自明的。图4.基于德国深度Acci- dent研究（GIDAS）的交通场景布局实线矢量代表车辆的近似移动方向，其中虚线矢量指示对象的接近方向。红色矩形代表路上的障碍物。设置、数字孪生设置和工作流程控制。此外，OpenDS的关键优势在于，它将允许其他研究人员重播我们计划发布的记录的行人轨迹，因为原始数据集和后处理数据集将被发布。这将增加我们研究的再现性和数据集的价值，以研究新的研究问题。图3示出了记录的图像的样本（顶行），即分别具有相应的后处理显著性和分割图的RGB帧此外，还记录并发布了相应的深度图。从而为今后的实证研究提供参考。图3中的底行示出了基于情境因素的所有受试者注视点的聚集分布此外，所提供的基于上下文的眼睛注视分布的可视化与经验研究一致，其中在“匆忙/不安全”设置的情况下（图3，左下），受试者倾向于看得更远，垂直平均值=120，28和td=20，79，以寻找更多的潜在危险，如接近车辆。因此，对更高风险的感知会导致更多的原因行为，并在过马路前对交通进行更详细的评估。这些因素是，即，没有交通信号灯和斑马线人行横道，碰撞时间更短然而，在“NoHurry/Safe”设置的情况下因此，游戏引擎的渲染能力不是我们研究的中心。为了在模拟中实现最大程度的真实感和HTC ViveEye8配备了眼动仪。此外，我们使用了两个基站2.0，并通过Xbox One控制器收集用户输入。相机旋转和平移坐标直接从VR护目镜获取。因此，我们的设置支持俯仰，下巴和滚动角度以及跳跃或蹲下等动作，由于强调的复杂性，这使得它成为非常适合的基准测试。为了平衡分辨率与模拟性能，我们选择每秒3帧的采样率来记录受试者4.3. 程序我们招募了15名参与者，其中4人因晕车而退出。在研究之前，所有参与者都同意参与并将其匿名数据纳入数据集中。对于每个参与者，在记录会话开始时校准眼动仪。随后，参与者在模拟中花了5分钟来熟悉控制。向参与者展示了所有12种交通场景的四个模块。每个模块实现了时间压力（是/否）和风险（高/低）的一个组合。一个区块中的12次试验中的每一次都通过视觉指示目标位置5秒开始。数据记录在这5秒之后开始。在每个试验中，参与者能够向前、向后、向左和向右移动，并且头部移动被映射到沿着俯仰、偏航和滚转角的相机移动。因此，我们收集了一个包含528个场景的独特数据集，35k的独特的FoV图像和相应的分割，显着性，深度图以及xml文件存储模拟我们研究的目的是模拟语境的影响-对人类视觉注意力的致敬，而不是低水平的8HTC Vive Eye-https：//www.vive.com/955图5. 定性分析随机选取最佳用（AUC> 0. 99%）和更差（AUC <0. 70%）样品。行1-2代表最佳样本，而行3-4对应于较差的视觉预测。提供的渲染图有两个目的：1）第2-5列和第9列的定性基线评价;2）第6-9列的定性消融评价列1代表具有唯一RGB序列ID的输入相关信息例如，位置、速度、身体方向和头部。5. 实验5.1. 预处理显著性地面实况信息由注视序列组成，即投影到图像平面的记录的X和Y根据之前在行人导航场景中使用固定图的工作[66]，我们汇总了从最后三帧中获得的凝视位置，以创建参与者当前注意力焦点的表示为了获得连续的地面实况注意力图，我们遵循[67]中的显着图计算，其中视角度设置为dva=9。3 .第三章。我们在强度上对先前的注意点进行折扣，以允许神经网络考虑先前的信息，但也过度拟合额外的辅助信息。在从模拟器记录的图像上，我们应用对比度限制自适应直方图均衡化（AE）[76]来获得图像之间的均匀颜色分布，这提高了场景独特属性的不变性，例如。色彩独特的建筑。为了与社区标准保持最佳一致，我们的分割图的标签方案与CityScapes [11]标签约定相匹配，除非我们必须引入CityScapes中缺少的新类（例如，自行车道、停车位）。5.2. 定量评价使用我们的新数据集，我们评估上下文SalNET对行人注意力预测的任务，无论是对国家的最先进的显着性预测方法，以及对消融。我们还评估了Context-SalNET的上下文无关版本与SALICON [32]上最先进的方法，以估计其在已建立的显着性基准数据集上的性能。指标. 与之前的工作[4，67，8]一致，我们采用以下评估指标：AUC-Judd （AUC-J ）、AUC-Borji（AUC-B）、混洗AUC（s-AUC）、相似性度量（SIM）、线性相关系数（CC）、标准化扫描路径显著性（NSS）和Kullback-Leibler散度（KLDiv）[9]。与 SOTA 显着性模型的比较。表 1 显示了 Context-SalNET相对于MIT基准[36]（即UniSal [18]）上最新公开可用的最先进方法的评估结果。我们包括DeepGaze IIE [44]（排名第9）和SalFBNet [16]因为培训代码不是公开的。然而，请注意，这些结果与其他方法不具有可比性，例如，DeepGaze IIE使用几个骨干网络，并在不同的数据集上进行训练，它利用在目标数据集上计算的中心偏差信息。Context-SalNET明显优于中心偏差基线和UniSal [18]（在MIT排名第二956↓↑方法AUC-J↑s-AUC↑AUC-B↑NSS↑SIM↑CC↑KLDiv↓[44]第四十四话0.95260.63130.78422.71580.37260.51460.1326SalFBNet-R18 [16]0.90500.54180.58181.73760.27610.32250.2393SalFBNet-R18Fix [16]0.90140.53400.55911.61210.26050.29020.2646中心偏差0.83600.51010.53811.09400.22310.21300.1322UniSal [18]0.93880.56310.59612.70970.39780.45370.3755Context-SalNET（我们的）0.96050.66540.77233.30480.46460.58430.1690表1.使用不同评价指标的留一受试者基线评价结果。箭头表示更高（）还是更低（）更好。DeepGaze 2 E/SalFBNet是单独显示的，因为它由几个骨干网络组成，并且使用与其他方法不同的训练数据进行训练。粗体数字表示最佳结果。方法AUC-J↑s-AUC↑AUC-B↑NSS↑SIM↑CC↑KLDiv↓没有不确定性vanillaMSE，无上下文0.95870.65890.76423.21630.45080.57100.1782香草MSE0.95800.65670.75373.24410,45440.57220.1795没有上下文0.95810.65420.75953.16700.44960.56450.1764Context-SalNET0.95840.65700.76003.18790.44720.56520.1770认知不确定性vanillaMSE，无上下文0.95750.65520.75033.26820,46200.57110.1959vanillaMSE，随机上下文0.95240.64590.74273.10280.44220.54980.2068香草MSE0.95880.65810.75773.28880.46610.57990.1933没有上下文0.95920.66300.77443.24580.45480.57700.1679随机上下文0.95990.65770.75883.24790.45660.57390.1642Context-SalNET（我们的）0.96050.66540.7723秒3.30480.4646秒0.58430.1690第三表2.使用不同评价指标的留一受试者消融评价结果。我们提出了三个消融维度的组合：不确定性建模，上下文建模（要么删除上下文连接层，要么通过提供随机上下文信息），和香草均方误差（MSE），而不是我们提出的指数加权MSE。基准测试9）涵盖7个指标中的6个。Context-SalNET在7个指标中有5个明显优于DeepGaze 2 E，而在AUC-B中则接近。消融研究。我们的消融研究结果总结见表2。为了量化上下文建模的效果，我们创建了两个不同的消融版本：随机上下文由与Context-SalNET完全相同的体系结构组成，但接收随机上下文信息作为输入。另一方面，对于无上下文条件，我们删除了上下文网络和上下文连接层，从而减少了网络参数。至关重要的是，Context-SalNET明显改善了两种消融条件。在随机上下文条件下，它在7个度量中的6个度量中有所改进，在无上下文条件下，它在7个度量中的5个我们还通过与普通MSE进行比较来评估我们的新型ew-MSE损失在这里，Context-SalNET在7个指标中有6个指标比vanillaMSE的变体有所改进最后，我们观察到认知不确定性建模的明显改善。上下文的消融- SalNET没有不确定性建模（即无辍学.9https://saliency.tuebingen.ai/results.html测试时间）在所有7个度量中均为劣。在SALICON上的表现虽然一般显着性预测不是本文的重点，但我们在SALICON10上评估了上下文无关版本的Context-SalNET，以估计我们的架构如何执行与SOTA方法相关的任务（见表3）。更确切地说，Context-free-SalNET由我们的编码器-解码器架构组成，包括ew-MSE损失和认知不确定性建模，但没有上下文网络和上下文连接层。Context-free-SalNet显示的结果接近最先进的水平，甚至在CC度量中以显著的幅度超过其他方法5.3. 定性评价在图5中，我们随机选择了Context-SalNET的成功案例（上面两DeepGaze2E强烈依赖于中心偏差先验，导致对注意力集中程度的高估。与地面实况相比，UniSal显示了更准确的预测。SalFBNet模型显示，10http://salicon.net/challenge-2017/957−↑ ↑ ↑ ↑ ↑ ↑↓方法AUC-J s-AUC IG NSS SIM CCKLDiv MD-SEM [19] 0.8640.7460.6602.0580.8680.774 0.568EMLNet [29] 0.866 0.746 0.736 2.050 0.886 0.780 0.520SAM-Res [12] 0.865 0.741 0.538 1.990 0.899 0.793 0.610ACNet-V17 [42] 0.866 0.7390.8541.948 0.896 0.7860.228DI-Net [72] 0.862 0.739 0.195 1.9590.902 0.795 0.864MSI-Net [35] 0.865 0.736 0.793 1.931 0.889 0.784 0.307粤ICP备16037766号-1北京赛车pk10开奖结果：FBNet-北京赛车pk10开奖结果_北京赛车pk10开奖结果销售FBNet-Res 18 [15] 0.867 0.733 0.805 1.950 0.888 0.773 0.303销售FBNet-Res 18固定[15]0.8680.740 0.839 1.952 0.892 0.772 0.236Context-free-SalNet（我们的）0.862 0.730 0.750 1.833 0.7630.8700.308表3.比较Context-free-SalNET（由于SALICON基准没有提供上下文因素，因此我们将其从架构中删除）与SALICON自由查看显着性基准上的当前顶级方法的评估结果[31]。KLDiv的值越低，表示性能越好。对于CC度量，值应该接近1（正相关）或1（负相关），其中0表示不相关。值越高，性能规则应用于其余指标的效果就越好。UniSal 结果，但包括更多的假阳性预测。 Context-SalNET能够产生接近地面实况的预测，而不会严重依赖中心偏差或产生假阳性预测。第7-9列显示消融条件的定性结果，支持每种方法贡献的实用性。图3-4显示了低性能注意力预测的样本，这些样本在所有模型的基线和消融评估中均成立确认该陈述，由于该导航任务的巨大状态空间，在过街场景中对行人的视觉注意力预测6. 讨论6.1. 应用我们的方法可以应用于所有需要精确建模行人行为的领域。这包括可用于训练人类的驾驶模拟器，以及自动驾驶训练数据的生成，其中建模和预测行人行为是一个关键挑战[52]。此外，它可以用于关键场景生成，作为[66]的扩展，以便更好地理解和预测危险的交通情况。在这种情况下，对行人的注意力进行准确建模可以帮助改进合理步行轨迹的生成[1]。最后，通过引入某些扩展，它甚至可以应用于解决现实世界中的问题[43]。6.2. 局限性和未来工作虽然我们的方法比以前的方法有了明显的改进，但在未来的工作中还需要解决一些问题。虽然我们评估了环境因素对行人注意力的影响，但未来我们的方法还应扩展到包括额外的与交通情景相关的个人特定因素[58，21，17，5]。汽车驾驶员和行人之间的联合注意力在交通情况下至关重要[53]，因此，显式表示可以增强注意力预测模型。此外，重要的是要包括交通参与者的不同角色（例如，司机，骑自行车的人）在我们的模型中。地理位置也带来了额外的挑战，因为全球各地的交通情况可能存在显著差异。作者在[24]中总结了德国人和日本此外，虽然虚拟现实是收集接近自然数据的有效研究工具，但未来的工作还需要找到在现实世界中验证VR结果的方法不同的预训练权重（例如ModelNet）对最终性能的影响是一个有趣的研究问题。7. 结论我们介绍了Context-SalNET，一种新颖的上下文驱动的视觉注意力生成方法，用于过街行人场景。在对新记录的包括几个任务上下文因素的过街任务的VR数据集的评估中，Context-SalNET优于最先进的显着性预测模型，消融实验证明了我们的方法该数据集，包括驾驶模拟设置和记录的凝视行为将公开提供。与我们的新方法一起，该数据集将成为未来研究pedes-trian注意力预测的重要基石8. 确认这项工作得到了德国研究和教育部（BMBF）在REACT项目中的资助（批准号：01IW17003）。 P.Müller由BMBF资助（赠款编号：01IS20075）。958引用[1] Andre 'Antakli ， Igor Vozniak ， Nils Lipp ， MatthiasKlusch，andChristianMüller. Hail：基于模块化代理的行人模仿学习。在代理和多代理系统的实际应用国际会议上，第2739.斯普林格，2021年。[2] 帕夫洛·巴齐林斯基，迪米特拉·多多，约斯特·CF·德·温特。交通场景中行人的视觉注意：众包实验。在应用人的因素和人体工程学国际会议上，第147-154页。斯普林格，2021年。[3] 阿里·博尔吉深度学习时代的显着性预测：成功与局限。IEEE Transactions on Pattern Analysis and MachineIntelligence，2019。[4] Ali Borji和Laurent Itti最先进的视觉注意力建模。IEEEtransactionsonpatternanalysisandmachineintelligence，35（1）：185[5] Ali Borji和Laurent Itti为雅布斯辩护：眼球运动揭示了观察者的任务。视觉杂志，14（3）：29[6] Ali Borji、Dicky N Sihite和Laurent Itti。特定任务视觉注意的概率学习在2012年IEEE计算机视觉和模式识别会议上，第470-477页IEEE，2012。[7] 尤利亚·布里什特尔，斯蒂芬·克劳齐，托马斯·施密特，杰森·拉斐尔·兰巴赫，伊戈尔·沃兹尼亚克和迪迪埃·斯特里克.基于眼动模式的机器学习对手动与自动驾驶进行分类。 IEEE International Conference on Systems ，Man，and Cybernetics（SMC），第692-697页，2022年[8] Zo yaBylinskii ， Til k eJudd ， AliBorji ， LaurentItti ，Fre'doDu-rand，Aude Oliva，and Antonio Torralba. 麻省理工学院显著性基准。2015. URL：http：//saliency. mit.edu/results mit300. html，12：13，2014。[9] Zoya Bylinskii ， Tilke Judd ， Aude Oliva ， AntonioTorralba和Fre'doDurand。关于显着性模型，不同的评估指标告诉我们什么IEEE Transactions on Pattern Analysisand Machine Intelligence，41（3）：740[10] Chaohui Che ， Ali Borji ， Guangtao Zhai ， XiongkuoMin，Guodong Guo，and Patrick Le Callet.凝视如何受图像变换的影响？数据集和模型。IEEE Transactions onImage Processing，29：2287[11] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集在Proceedings of the IEEEconference on computer vision and pattern recognition，pages 3213[12] Marcella Cornia，Lorenzo Baraldi，Giuseppe Serra，andRita Cucchiara.基于lstm的显著性注意模型预测人眼注视IEEE Transactions on Image Processing ， 27 （ 10 ）：5142[13] 布里吉·特·康朋·德·拉瓦莱特、查尔斯·蒂尤斯、塞巴斯蒂安·普瓦勒诺、克里斯汀·勒普罗、雅克·贝杰龙和让·保罗·德·拉瓦莱特。行人过街决策：情境和行为方法。安全科学，47（9）：1248[14] Joost de Winter ， Pavlo Bazilinskyy ， Dale Wesdorp ，Valerie de Vlam ，Belle Hopmans ，Just Visscher ，andDimitra Dodou.行人在通过停车场时如何分配他们的视觉注意力？眼球追踪研究人体工程学，64（6）：793[15] Guanqun Ding ， Ne vrez stecImamogzuelu ， Ali Caglayan ，MasahiroMurakawa 和 Ryosuke Nakamura 。 Fbnet ： Feedback-recursive cnn for saliency detection. 2021年第17届国际机器视觉与应用会议（MVA），第1-5页。IEEE，2021。[16] Guanqun Ding ， Nevrez Imamouglu ， Ali Caglayan ，Masahiro Murakawa，and Ryosuke Nakamura.Salfbnet：通过反馈卷积网络学习伪显着性分布arXiv预印本arXiv：2112.03731，2021。[17] Aure'lieDommes，M-AGranie'，M-SCloutier，Ce'cileCoquelet和Florence Huguenin-Richard。成年行人闯红灯和在信号人行横道上的其他安全相关行为事故分析预防，80：67[18] Richard Droste，Jianbo Jiao，and J Alison Noble.统一的图像和视频显著性建模。欧洲计算机视觉会议，第419-435页Springer，2020年。[

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

行人视觉注意力的上下文授权预测方法及其在行人导航中的应用

基于社会注意力机制的行人轨迹预测方法研究.docx

注意力机制计算机视觉

上下文锚点注意力机制

flask应用上下文

基于神经网络的行人轨迹预测历史

上下文信息可以通过注意力机制来获取吗

注意力 LSTM 预测

视觉注意力机制预训练模型

多头注意力在时间序列预测可以提取什么特征

线性上下文变换注意力机制

多头注意力机制是如何实现理解文本上下文的

tomcat应用程序上下文

自注意力神经网络预测

Spring应用上下文

使用transformer的行人重识别

自注意力机制在视觉模型

应用程序上下文和应用城西上下文路径分别是什么意思, 生动形象的说明

python flask 应用上下文实例

注意力机制和自注意力机制在图像处理中的应用区别

spring context应用上下文

最新资源