驾驶注意力焦点的语义增强凝视检测方法及预测框架

60 浏览量更新于2023-10-25 收藏 1.69MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

11883“Looking圣地亚哥大学a2pal@eng.ucsd.edu圣地亚哥大学samondal@eng.ucsd.edu亨利克岛加州大学圣地亚哥分校hichristensen@eng.ucsd.edu摘要近年来，预测驾驶员的注意力焦点一直是自动驾驶社区中非常活跃的研究领域。不幸的是，现有的最先进的技术通过仅依赖于人类注视信息来实现这一点，从而忽略了场景语义。我们提出了一种新的语义增强凝视（SAGE）检测方法，捕获驾驶特定的上下文信息，除了原始凝视。这种组合的注意力机制用作聚焦于图像帧中的相关区域的有力工具，以便使驾驶既安全又高效。利用这一点，我们设计了一个完整的显着性预测框架-SAGE-Net，它通过考虑到虚拟方面，如到对象的距离（深度），自我车辆速度和行人过街意图，修改了SAGE的初始预测。通过四种流行的显着性算法进行的详尽实验表明，在49/56（87.5%）的情况下-考虑到整体数据集和关键驾驶场景，SAGE优于现有技术，在训练过程中没有任何额外的计算开销。增加的数据集以及相关代码可作为补充材料的一部分。11. 介绍相机是机器人世界中最强大的传感器之一，因为它们可以捕获有关环境的详细信息，因此可以用于物体检测[51，33]和分割[48，49] -这是用基本范围传感器难以实现的然而，图像/视频可能包含一些不相关的信息。因此，有必要过滤掉这些不重要的区域，而是学会将我们的“注意力”集中这对于自动驾驶场景至关重要，在自动驾驶场景中，车辆应该更多地关注附近的其他车辆、行人和骑自行车的人，而忽略1包括代码和视频的补充材料可在https://sites.google.com/eng.ucsd.edu/sage-net上获得。(a) 输入图像（b）SAGE-Net（我们的）(c)（d）DR（eye）VE [4]图1：不同模型的预测显着性图（最佳彩色视图）。边界框显示行人非法过马路，容易发生事故。虽然其他模型只捕获前面的汽车（部分），但我们提出的模型可以完全学习检测汽车和行人。无关紧要的东西在成功识别感兴趣的对象时，驾驶车辆的控制器仅需要关注它们以便做出最佳决策。我们提出了一个新的框架，通过考虑到图像中的语义上下文，通过学习的显着性图预测驾驶员的注意力集中。驾驶场景中的典型显着性预测算法[39，40，53，45]仅依赖于人类凝视信息，无论是通过车内[4]还是实验室[53]设置。然而，凝视本身并不能完全描述司机的一切。应注意的，主要是由于以下原因：(i) 周边视觉：人类有依赖周边视觉的倾向，从而使我们能够在关注另一个物体的同时将眼睛固定在一个物体上。这是眼球追踪设备无法捕捉到的。因此，仅车内驾驶员凝视[4]并不能传达足够的信息。虽然实验室内的注释确实在一定程度上缓解了这个问题[53]，但它通过聚合多个实验室内的注视，11884依赖的观察者，它并没有完全消除它，因为这也依赖于真实的人类凝视。(ii) 单焦点：当人类驾驶员意识到进入的汽车或行人的轨迹不太可能与自我车辆的轨迹碰撞时，他们的倾向是在迎面而来的交通接近时将视线从迎面而来的交通移开。这是造成事故的一个主要原因。为了解决这一问题，我们提出了一种方法，跟踪运动的每一个驾驶相关的对象检测它的实例，直到它去- yond的视野的摄像机。这是可能的，因为人的单焦点能力的限制(iii) 分心凝视：人类驾驶员在驾驶汽车时可能经常被一些路边物体（例如，色彩鲜艳的建筑物或一些吸引人的广告牌广告等）分心。我们只通过训练来检测那些影响驾驶任务的物体来解决这个问题。实验室内的凝视[53]还通过平均独立观察者的眼球运动来然而，他们假设注释的人位于副驾驶的座位上，因此无法真实地(iv) 中心偏差：对于大多数驾驶任务，人的视线保持在车辆前方的道路上，因为这是车辆前进的方向。当深度学习模型在这个凝视图上训练时，它们总是识别出这种模式，并学会将焦点保持在那里。然而，这是不够的，因为可能存在远离道路中心的重要区域，需要注意-例如当汽车或行人从侧面接近时。因此，仅依赖注视数据无助于捕获这些重要线索。图1示出了事故多发情形的示例，其中示出了来自使用不同目标标签训练的算法的预测显著性图。只有凝视模型能够检测到前面的汽车，但完全错过了行人乱穿马路。相比之下，我们的方法成功地检测到这两个对象，因为它已经学会了预测图像中的语义上下文。但是，需要注意的是，语义本身并不能完全提供对驱动程序在运行时可能采取的操作的深入了解。这是因为仅从语义训练获得的显着性图将对所有存在的对象给予同等权重的关注。此外，当没有相关对象时（即，乡村附近的空旷道路），则该显著性图将不提供任何关注。实际上，这里的重点应该是道路边界、车道分隔线、路缘石等。这些区域可以通过作为驾驶员意图的指示符的注视信息来有效地学习因此，我们设计了一个语义增强的凝视（SAGE）地面实况，它可扩展地捕获凝视和语义上下文。图2显示了我们提出的地面实况与现有的仅凝视地面实况相比的外观。本文有三个新的贡献。首先，我们提出了SAGE -一种组合注意力机制，可用于训练显著性模型，以准确预测自动驾驶车辆其次，我们提供了一个全面的显着性检测框架-SAGE-Net，通过包括驾驶中的重要线索，如到物体的距离（深度），自车速度和行人过路意图，以进一步增强从SAGE获得的初始原始预测。最后，我们进行了一系列的实验使用(a) RGB图像1（b）仅限凝视的地面实况（c）SAGE地面实况（我们的）(d)RGB图像2（e）仅限凝视的地面实况（f）SAGE地面实况（我们的）图2：SAGE与现有的仅凝视地面实况的比较。顶行[a-c]用于BDD-A数据集[53]，而底行[d-f]用于DR（眼睛）VE数据集[4]。仅限凝视的地图显示了自我车辆的航向，但完全忽略了附近和驶来的车辆。相比之下，SAGE捕获驾驶员11885在不同的驾驶数据集上使用多个显著性算法，以评估SAGE的灵活性、鲁棒性和适应性-既包括整个数据集，也包括特定的重要驾驶场景，如十字路口和繁忙的交通区域。本文的其余部分组织如下。第二节讨论了驾驶员显著性预测的现有研究。然后，第3节提供了拟议框架的详细信息，随后在第4节中进行了广泛的实验。最后，第5节总结了讨论，并提到了所进行的研究的现实意义。2. 相关工作显著对象检测的进展：自然场景中显著物体的检测[51，33]和分割[48，49]长期以来一直是计算机视觉界非常活跃的研究领域。最早的显着性预测的作品之一，由Itti等人。[22]，认为一般的计算框架和自下而上的注意力的心理理论，基于中心-环绕机制[46，52，24]。随后的行为[41]和计算研究[6]使用我们的方法与它们不同，因为我们通过扫描整个图像并检测与驾驶相关的对象特征来结合自下而上的策略，以及通过结合纯粹由任务驱动的人类凝视来结合自上而下的策略。一些后来的研究[33，2]将显着性检测定义为二进制分割问题。我们采用了类似的策略，但不是使用无法很好地推广到现实世界场景的手工特征，而是使用深度学习技术进行鲁棒的特征提取。自卷积神经网络（CNN）引入以来，已经开发了许多方法用于通过不同的接收场来学习全局和局部特征，无论是2D图像数据集[51，32，9，15]，还是基于视频的显着性预测[50，34，14，38]。然而，在这方面，这些算法要么过于偏向图像数据集，要么涉及复杂体系结构的设计，这使得它们难以训练。相比之下，我们的方法有助于改进现有的架构，而无需任何额外的训练参数，从而保持复杂度不变。这对于自治系统非常重要，因为我们希望使其尽可能接近实时。关于显著对象检测的详细调查，我们请读者参考Borji等人的工作。[5]的文件。驾驶场景的显著性：最近，由于驾驶次数的增加[25，55，43，42，37]和行人轨道的增加，驾驶员显着性预测受到了一些关注-[11，13，25]数据集。大多数显着性预测模型使用人类凝视信息进行训练，无论是通过车内眼动仪[4，39]，还是通过实验室模拟[53，45]。然而，如上所述，这些方法仅给出注视的估计，这通常倾向于中心偏差或分散的焦点。相比之下，我们的方法涉及将场景语义与现有的凝视数据相结合。这确保了预测的显著性图可以有效地模仿真实驾驶员3. SAGE-Net：语义增强的GaXE检测网络图3提供了整个SAGE-Net框架的简化说明，该框架由三个部分组成：SAGE检测模块、基于距离的注意力更新模块以及最后行人意图引导显著性模块。我们首先描述如何在§ 3.1中获得SAGE图。接下来，在§ 3.2中，我们描述了物体与自我-车辆的相对距离如何影响显著性预测。最后，在§3.3中，我们强调了行人过街意图检测的重要性以及它如何影响注意力的焦点。3.1. SAGE显著图计算我们提出了一种新的方法来预测驾驶注意力地图，它不仅使用原始的人类视线信息，而且还学习直接检测场景语义。这是使用Mask R-CNN（M-RCNN）[20]对象检测算法完成的，该算法返回感兴趣对象周围的分段掩码以及它我们使用了M-RCNN的Matterport实现[1]基于特征金字塔网络（FPN）[28]并使用ResNet-101 [21]作为主干。该模型在MS-COCO数据集上进行训练[29]。然而，在[29]中的总共80个对象中，我们选择了与驾驶场景最相关的12个类别-人，自行车，汽车，摩托车，公共汽车，卡车，交通灯，消防栓，停车标志，停车计时器，长凳和背景。对于每个视频帧，M-RCNN提供每个检测到的对象的实例分割。然而，由于同一对象的不同实例的相对重要性并不是一个重要的线索，我们坚持使用二进制分类方法，即我们将所有对象与背景进行分割。然后将该对象级分段图叠加在由数据集提供的现有注视图之上，以便保留注视信息。这给了我们最终的显着图，如图2所示。在检查时，可以清楚地看到，我们的地面实况已经设法从场景中捕获了更多的语义上下文，而仅凝视地图却错过了这些语义上下文。3.2. 物体与自身车辆之间的相对距离会影响注意力集中吗通过监督[12，30，36]和非监督[16，47]学习方法进行深度估计，作为相对于11886显著性模型单深度2没有vego1），通过该放大因子，强化了地图如果预测的意图是交叉整个SAGE-Net算法的总结在1中描述。算法1SAGE-Net（XRGB，vthresh）1：YRGB←显著性模型（XRGB）2：Xlast← XRGB[−1]3：DRGB←Monodepth2（Xlast）第四章： YRGB-D←Y RGB RGB5：如果vego（Xlast）> vthresh，则返回YRGB-D6：其他BDD-A算法更紧凑，它由一个视觉特征提取模块[26]组成，然后分别是2D卷积和卷积LSTM（Conv 2D-LSTM）[54]网络形式的特征和时间处理单元然而，这两种算法都结合了从最终卷积层提取的特征来制作显著性图。这种机制忽略了低级别的中间表示，如边缘和对象边界，这是重要的检测驾驶场景。因此，我们还考虑了ML-Net [10]，它在最大的公开可用图像显着性数据集SALICON [23]上取得了最佳结果。它提取低，中，高级别的图像特征，并生成细粒度的显着图第七章：IX最后 ←ResEnDec（XRGB）从他们那里最后，PiCANet [31]扩展了这一概念，8：如果我X9：其他最后=不交叉然后返回YRGB-D因此，通过在一个控制器上的每个像素处生成注意力图文本区域与关注语境特征10：bbox ←O（Xlast）11：Yfinal← YRGB-D12：返回Yfinal4. 实验和结果由于我们提出的地面实况计算的简单性，可以使用它运行几个实验这些实验可以分成两阶段层次-（i）在包括驾驶场景中的多个组合的整个数据集上进行-白天与夜晚、城市与郊区、交叉路口与高速公路等。以及（ii）在诸如交叉路口区域和拥挤街道的特定重要驾驶条件下的那些后一组实验的原因是，在所有场景中平均预测结果并不总是反映需要最大人类注意力的最重要情况[53]。对于所有的实验，我们描述了使用的评估指标以进一步增强ConvNets的特征表示能力图4示出了在仅注视地面实况上训练的预测显著性图与从SAGE获得的显著性图的比较对于几乎每一个只凝视模型，注意力的焦点完全朝向图像的中心，从而忽略了其他汽车。相比之下，SAGE训练模型成功地捕获了这些重要信息。我们建议读者参考补充材料的附录B，了解这四种算法的实现细节。4.2. 评估指标我们考虑了一组适合于在驾驶环境中评估显着性预测的度量，而不是一般的显着性预测。更具体地说，出于驾驶目的，我们希望更小心地识别 “ 假阴性（FN）”而不是“假阳性（FP）"，因为前一种错误的成本要高得多。如第3节所示，我们提出的地面实况具有凝视分量和语义分量。因此，我们对集合进行分类11888(a) RGB图像(b) DR（眼）VE [40]与BDDA gt（c）BDDA [53]与BDDA gt（d）ML-Net [10]与BDDA gt（e）PiCANet [31]与BDDA gt(f)DR（眼）VE [40]与SAGE gt（g）BDDA [53]与SAGE gt（h）ML-Net [10]与SAGE gt（i）PiCANet [31]与SAGE gt图4：在BDD-A地面实况（中间行）和我们的SAGE地面实况（底部行）上训练的四个流行显着性模型的预测比较。可以看出，对于每个模型，SAGE训练的结果可以捕获更详细的语义上下文（最佳颜色）。将度量大致分为两类-（i）以固定为中心的和（ii）以语义为中心的。对于第一类，我们选择两个基于分布的度量 -Kullback-Leibler散度（DKL）和Pear-sonDKL是一个不对称的不相似性度量，惩罚FN比FP。抄送：另一方面是对称相似性度量，同样影响FN和FP，从而给出关于发生的错误分类的总体注视度量的另一种变体是基于位置的度量，例如ROC曲线下面积（AUC）、归一化扫描路径显著性（NSS）和信息增益（IG），其对被表示为离散注视位置的地面实况进行操作[7]。但对于驾驶任务，识别相关对象上的每个点，特别是它们的边界，以减轻风险是至关重要的。因此，连续分布度量在这里更合适，因为它们可以更好地捕获对象边界。在第二类中，我们再次考虑两个度量-即F分数，其测量检测的区域相似性，以及平均绝对误差（MAE），其给出像素级精度。F分数由以下公式给出，（1+β2）-查准率-查全率Fβ=β2×精确度+召回率（3）其中，β2是衡量查准率和查全率相对重要性的参数在大多数文献中[50，3，27]，β2是取0.3，因此给出了更高的精确度权重然而，根据先前关于与FN和FP相关联的用于驱动目的的变化成本的讨论，我们认为β2为1，从而为每个分配相等的权重。关于这一点的正式证明，我们请读者参阅补充材料的附录A。4.3. 结果和讨论在本节中，我们讨论了在我们提出的SAGE地面实况上训练的算法的实验和结果，以及它们如何与在现有的仅凝视地面实况上训练的相同算法的性能进行比较[4，53]。我们比较我们的结果与BDD-A凝视在大多数实验中，因为它是更反映场景语义比DR（眼睛）VE凝视。为了公平的比较，我们采用不同的策略来评估固定中心和语义中心的指标。由于传统的仅注视方法和SAGE都包含注视信息，因此我们使用各自的地面实况来评估注视度量（即，对于仅注视训练的模型，并且对于我们的训练的模型，SAGE）。然而，对于语义度量，我们使用Mask RCNN生成的分段映射表1和图5给出的第一组比较是通过取整个测试集的平均值来计算的，而第二组比较是通过取11889以固定为中心的指标以语义为中心的指标DKLCCF1评分Mae模型凝视gtSAGE gt凝视gtSAGE gt凝视gtSAGE gt凝视gtSAGE gt[39]第三十九话1.28±0.430.73±0.380.58±0.130.75±0.130.1±0.060.37±0.140.11±0.060.08±0.05BDDA [53]1.34±0.671.02±0.490.54±0.230.6±0.180.12±0.110.46±0.190.12±0.090.13±0.07[第10话]1.1±0.321.35±0.510.64±0.130.6±0.140.12±0.070.43±0.140.12±0.060.1±0.06PiCANet [31]1.11±0.280.83±0.310.64±0.110.73±0.110.15±0.080.64±0.150.11±0.060.11±0.05表1：在BDD-A凝视gt和SAGE gt上训练的不同显著性算法的比较所有实验都在BDD-A数据集上进行。主要的比较是针对测试集的子集，该测试集涉及两个重要的驾驶场景，即表2中的行人在交叉路口处横穿，以及表3中的汽车接近自身车辆。总体比较-在表1中，我们在BDD-A数据集上训练了§4.1中描述的四个算法[53]。我们展示了评估仅在凝视数据上训练的算法时获得的结果，然后在通过将语义与[53]的凝视相结合而生成的SAGE数据上进行评估。从表中可以看出，在SAGE上获得的DKL和F1值对于几乎所有算法都是最佳的，而对于CC和MAE，它要么表现得更好，要么表现得稍差。总的来说，这项分析表明，我们提出的SAGE地面实况在各种算法上表现良好，从而证明了其灵活性和鲁棒性。我们接下来考虑图5，其中执行了我们的方法相对于不同驾驶数据集的交叉评估。对于这组实验，我们固定了一个算法，即DR（眼睛）VE [40]，同时我们改变数据。我们评估了SAGE的两个变体-第一，通过将场景语义与[4]的凝视相结合，第二，与[53]的凝视相结合。对于这些中的每一个，我们与相应数据集的相应仅凝视地面实况进行比较。像之前一样，我们使用相同的以固定为中心和以语义为中心的指标来评估预测显着性图的性能结果表明，所提出的SAGE模型与数据集的关联性不强，能够适应不同的驾驶行为条件值得注意的是，即使交叉评价（SAGE-D在[53]上测试，SAGE-B在[4]上测试）略有不公平，SAGE的结果仍然显著优于相应的仅注视模型的结果。重要驾驶场景的比较-在表2中，我们考虑了行人在十字路口过马路的场景。为此，我们使用了JAAD数据集[ 25 ]的一个子集，其中包含超过五个行人（不一定是一组）穿过道路。在这种情况下，重新考虑了§ 4.1中描述的相同的四种算法。使用M-RCNN，计算所有交叉行人的分割掩模，并根据该基线评估来自模型的预测显着性图。通过比较，可以看出，在SAGE上训练的模型超过了在仅注视地面真相上训练的模型。值得注意的是，即使没有一个模型是在JAAD数据集上训练的[25]，所有算法的结果仍然非常一致。这表明，从SAGE学习确实产生了一个更好的显着性预测模型，可以更可靠地检测行人在十字路口。最后，在表3中，我们考虑了另一个重要的驾驶场景，其中我们考虑将接近自我车辆的汽车数量的检测作为度量。评估集由我们根据DR（眼睛）VE [4]和BDD-A [53]数据集的不同片段构建，其中单个或一组汽车接近-2.52.01.51.00.5DR（眼）VE数据集1.501.251.000.750.500.25BDD-A数据集0.60.50.40.30.20.1DR（眼）VE数据集0.80.60.40.2BDD-A数据集0.40.30.20.1DR（眼）VE数据集0.50.40.30.20.1BDD-A数据集0.100.080.060.040.02DR（眼）VE数据集0.1750.1500.1250.1000.0750.0500.025BDD-A数据集0.00.000.00.00.00.00.000.000(a) K-L散度（DKL）(b) 互相关(c) F1评分(d) 平均绝对误差（MAE）图5：通过考虑两个不同数据集的凝视对SAGE-gt的交叉评估。[4]和BDD-A [53]用于比较。SAGE-B/D是指语义与BDD-A/DR（眼睛）VE数据集的注视的组合。DKLDKLCCCCF1评分F1评分MaeMae11890以固定为中心的指标以语义为中心的指标DKLCC F 1分MAE模型凝视gtSAGE gt凝视gtSAGE gtgtSAGE gt凝视gt SAGE gt凝视gtSAGE gtDREYEVE [39] 3.36±0.761.56±0.620.19±0.090.55±0.150.07±0.060.21±0.090.08±0.040.07±0.04BDDA [53] 2.37±0.781.87±0.810.28±0.160.43±0.160.2±0.130.37±0.170.09±0.050.12±0.04ML-Net [10] 2.44±0.582.27±0.670.29±0.110.41±0.150.15±0.070.31±0.130.09±0.040.08±0.04PiCANet [31] 2.97±0.681.81±0.720.20±0.110.50±0.140.13±0.070.44±0.160.07±0.040.11±0.03表2：SAGE与用于交叉口场景处的行人过街的注视模型的比较这些片段取自JAAD [25]数据集。在相邻车道中从相反方向使自驾车行驶。再次，我们在这个评估集上评估了四种算法。与表2一样，这里我们也分析了M-RCNN所做的检测表3的结果表明，对于几乎每个实验，与仅通过凝视地面实况训练的模型相比，在SAGE上训练的算法的性能在更准确地检测车辆方面是一致的。总之，实验清楚地表明，所提出的SAGE地面实况可以使用不同的显着性算法轻松地训练，并且所获得的结果也可以在各种驾驶条件下良好地与仅依赖于原始人类凝视的现有方法相比，这使得其对于驾驶任务更可靠。总体而言，我们的方法的性能优于49/56（87.5%）例的仅凝视地面实况，不仅在整个数据集上取平均值时，而且更重要的是，在需要更高注意力的特定驾驶情况下。5. 结论和未来工作在本文中，我们介绍了SAGE-Net，这是一种新型的深度学习框架，可以通过预测的显着图成功预测驾驶使用拟议的SAGE-groundtruth，显着性模型已经显示出关注重要的驾驶相关对象，同时丢弃不相关的或不太重要的线索，而对训练过程没有任何额外的计算开销。大量的实验表明，我们提出的方法提高了现有的显着性算法在多个数据集和各种重要的驾驶场景的性能我们希望本文中进行的研究将激励自动驾驶社区寻找简单但有效的策略，以增强现有算法的性能。我们未来的工作将包括在SAGE-groundtruth中融入深度，然后对整个框架进行端到端的培训。目前，由于深度数据的低方差，这无法实现，导致过拟合。正在考虑的另一个可能的方向是以SegFlow [8]的形式在周围环境中解释分段语义对象的运动动态。这方面的工作正在进行中，因为我们正在通过视觉传感器和相机激光雷达融合技术建立一个校园范围的数据集。确认作者要感谢陆军研究实验室（ARL）W 911 NF-10-2-0016分布式和协作智能系统与技术（DCIST）协作技术联盟对本研究的支持。以固定为中心的指标以语义为中心的指标DKLCC F 1分MAE模型凝视gtSAGE gt凝视gtSAGE gtgtSAGE gt凝视gt SAGE gt凝视gtSAGE gt[39]第三十九话3.87±0.791.28±0.710.18±0.110.62±0.190.08±0.080.33±0.160.08±0.050.07±0.05BDDA [53]2.95±0.961.92±1.010.19±0.160.42±0.180.14±0.130.34±0.190.09±0.090.12±0.07[第10话]2.72±0.61.94±0.90.21±0.10.5±0.180.12±0.070.37±0.140.09±0.050.08±0.05PiCANet [31]3.17±0.61.69±0.880.18±0.10.55±0.170.12±0.070.49±0.20.08±0.050.1±0.04表3：SAGE与用于检测从相反方向接近自我车辆的多辆汽车的凝视模型的比较这些片段取自DR（眼睛）VE [4]和BDD-A [53]数据集。11891引用[1] 瓦利德·阿卜杜拉Mask R-CNN用于keras和tensorflow上的对象检测和实例分割。 https ： //github.com/matterport/Mask RCNN，2017.[2] RadhakrishnaAchanta ，Francisco Estrada， Patricia Wils和SabineSüsstrunk。显著区域检测和分割。计算机视觉系统国际会议，第66-75页。Springer，2008.[3] Radhakrishna Achanta ， Sheila Hemami ， FranciscoEstrada 和 SabineSüsstrunk。频率调谐凸极区检测。IEEEInternational Conference on Computer Vision andPattern Recognition（CVPR 2009），第1597-1604页，2009年。[4] Stefano Alletto ， Andrea Palazzi ， Francesco Solera ，Simone Calderara，and Rita Cucchiara. DR（eye）VE：用于基于注意力的任务的数据集，应用于自动驾驶和辅助驾驶。在IEEE计算机视觉和模式识别会议（CVPR）研讨会上，2016年6月[5] Ali Borji、Ming-Ming Cheng、Qibin Hou、Huaizu Jiang和Jia Li。显著对象检测：一个调查。计算视觉媒体，第1-34页[6] 尼尔·布鲁斯和约翰·措措斯。基于信息最大化的显著性神经信息处理系统的进展，第155-162页，2006年[7] Zoya Bylinskii ， Tilke Judd ， Aude Oliva ， AntonioTorralba和Fre'doDurand。关于显着性模型，不同的评估指标告诉我们什么IEEE Transactions on Pattern Analysisand Machine Intelligence，41（3）：740[8] 程景春，蔡义轩，王胜金，杨明轩。Segflow：视频对象分割和光流的联合学习。在IEEE国际计算机视觉会议论文集，第686-695页，2017年。[9] 崔俊锡和沈贤贞用于弱监督对象定位的基于注意力的丢弃层。在IEEE计算机视觉和模式识别会议论文集，第2219-2228页，2019年[10] Marcella Cornia，Lorenzo Baraldi，Giuseppe Serra，andRita Cucchiara.一种用于显著性预测的深度多层网络。2016年国际模式识别会议（ICPR）[11] PiotrDolla'r，ChristianWojek，BerntSchiele，andPietroPerona.行人检测：对最新技术水平的评价。PAMI，34，2012.[12] David Eigen、Christian Puhrsch和Rob Fergus。使用多尺度深度网络从单个图像进行深度神经信息处理系统的进展，第2366-2374页，2014年[13] Andreas Ess，Bastian Leibe和Luc Van Gool。用于移动场景分析的深度和外观。2007年IEEE第11届计算机视觉国际会议，第1-8页。IEEE，2007年。[14] Deng-Ping Fan，Wenguan Wang，Ming-Ming Cheng，and Jianbing Shen.将更多的注意力转移到视频显著对象检测上。在IEEE计算机视觉和模式识别会议论文集，第8554- 8564页[15] 傅军，刘静，田海杰，李勇，鲍勇军，方志伟，卢汉青.用于场景分割的双注意网络。在IEEE计算机视觉和模式识别会议论文集，第3146- 3154页[16] Ravi Garg ， Vijay Kumar BG，Gustavo Carneiro ，andIan Reid.用于单视图深度估计的无监督CNN：几何学拯救了我们。在欧洲计算机视觉会议上，第740-756页。施普林格，2016年。[17] Cle' mentGodard，OisinMacAodha，andGabri elJBros-tow.具有左右一致性的无监督单目深度估计。在IEEE计算机视觉和模式识别会议论文集，第270-279页[18] Cle' mentGodard ， OisinMacAodha ， MichaelFirman ，andGabriel Brostow.深入研究自我监督的单目深度估计。arXiv预印本arXiv：1806.01260，2018。[19] Pratik Gujjar和Richard Vaughan使用城市驾驶场景的预测视频预先分类行人动作。在IEEE机器人与自动化国际[20] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面罩R-CNN。在IEEE国际计算机视觉会议论文集，第2961-2969页，2017年。[21] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[22] Laurent Itti，Christof Koch，and Ernst Niebur. 基于显著性的快速场景分析视觉注意模型。IEEE模式分析机器智能学报，20（11）：1254[23] Ming Jiang，Shengsheng Huang，Juanyong Duan，andQi Zhao. SALICON：语境中的显著性。在IEEE计算机视觉和模式识别会议（CVPR）上，2015年6月。[24] 克里斯托弗·科赫和西蒙·厄尔曼。选择性视觉注意的转移：朝向潜在的神经回路。见《情报问题》，第115-141页Springer，1987年。[25] Iuliia Kotseruba，Amir Rasouli，and John K Tsotsos.自动驾驶联合注意力（ JAAD ）。 arXiv 预印本 arXiv ：1609.04741，2016年。[26] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。神经信息处理系统的进展，第1097-1105页，2012年[27] Yin Li，Xiaodi Hou，Christof Koch，James M Rehg，and Alan L Yuille.显着对象分割的秘密。在Proceedingsof the IEEE Conference on Computer Vision and PatternRecognition，第280-287页[28] 林宗义、彼得·多尔、罗斯·格希克、何启明、巴拉特·哈里哈兰和塞尔日·贝隆吉. 用于目标检测的特征金字塔网络。在IEEE计算机视觉和模式识别会议论文集，第2117-2125页11892[29] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。Microsoft COCO：上下文中的公用对象。欧洲计算机视觉会议，第 740-755页。Springer，2014.[30] Fayao Liu，Chunhua Shen，Guosheng Lin，and Ian Reid.使用深度卷积神经场从单目图像学习深度。 IEEETransactionsonPatternAnalysisandMachineIntelligence，38（10）：2024[31] 刘念，韩俊伟，杨明轩

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

驾驶注意力焦点的语义增强凝视检测方法及预测框架

语义增强的多模态虚假新闻检测.docx

基于注意力机制的街景图像语义分割方法.docx

语义增强有哪些方法，具体如何实现

语义分割 注意力机制

2021注意力机制 语义分割

注意力机制 语义分割

自注意力机制 语义分割

其中的语义级注意力和节点级注意力是什么

适合语义分割的注意力机制

语义分割注意力机制怎么做

语义分割中优异的注意力机制

遥感语义分割的注意力机制

基于注意力机制分割的车道线检测

介绍一些 sota 自动驾驶目标估计预测方法

注意力机制可以有效提升高层和低层语义信息

语义分割中自注意力机制的作用

无人驾驶场景的实时语义分割，推荐哪个模型

应用语义网络和框架知识表示方法描述椅子，并进行比较

最新资源

语义分割注意力机制

2021注意力机制语义分割

注意力机制语义分割

自注意力机制语义分割