建筑物生长的连续驾驶场景的连续立体匹配

131 浏览量更新于2023-10-25 收藏 1.56MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

18901建筑物生长的连续驾驶场景的连续立体匹配张成浩1，2，田坤1，2，冯斌3，孟高峰1，2，4*，张兆祥1，4，潘春红11中国科学院自动化研究所模式识别国家重点实验室2中国科学3北京科技大学自动化与电气工程学院4中科院香港科学创新研究院人工智能及机器人研究中心{chenghao.zhang，kun.tian，gfmeng，zxzhang，chpan} @ nlpr.ia.ac.cn，{bin.fan} @ ieee.org摘要深度立体模型在驾驶场景中实现了最先进的性能，但在看不见的场景中测试时，它们的性能会严重下降。虽然最近的工作已经通过持续的在线适应缩小了这一性能差距，但这种设置需要在推理时连续更新梯度，并且很难处理快速变化的场景。为了解决这些挑战，我们建议执行连续的立体匹配，其中模型的任务是：1）不断学习新场景，2)克服忘记先前学习的场景，以及3）连续预测部署时的差异。我们通过引入可重用架构增长（RAG）框架来实现这一目标。RAG利用特定于任务的神经单元搜索和架构增长来持续学习新场景。在增长过程中，它可以通过重用以前的神经单元来保持高的可重用性，同时获得良好的性能。进一步介绍了一个名为SceneRouter的模块，用于在推理时自适应地选择场景特定的实验结果表明，我们的方法在各种类型的具有挑战性的驾驶场景中取得了令人信服的性能。1. 介绍周围三维场景结构的重建是许多视觉任务的基础。深度是感测3D几何形状的有用先导，由于其简单的设置、高精度和可接受的成本，优选地通过适定的立体匹配来恢复深度。与卷积神经网络（CNN）相适应，深度立体方法最近在驾驶场景中取得了显着进展[3，5，6，14，45，48]，不断改进*通讯作者。. .-SceneRo. 联合t. 儿. .-新场景成长的架构. .-图1.我们的框架部署在现实世界的连续驾驶场景的示意图将加载场景特定的架构路径，以便根据场景路由器进行推理。立体声基准像KITTI [11，26]。然而，当部署到看不见的场景时，深度立体声模型会遭受性能下降[41]。这通常是由训练和测试数据域之间的差距造成的，例如，合成[25]和真实世界的数据[11，26]。域自适应方法[22，29，39]可以实现良好的性能，但它们本质上依赖于训练时可用的场景类型。不幸的是，从手头的各种场景中收集足够的数据，例如自动驾驶中的各种天气和路况，是相当昂贵的，在现实中是不可行的。想象一辆汽车在图中所示的真实场景中行驶。1.一、汽车可以体验从多云到下雨，或从城市到农村的连续场景具有单一固定架构的立体模型很难在所有类型的场景中表现良好此外，在不忘记先前知识的情况下继续学习新场景也是困难的为了获得最佳性能，18902应该自适应地为推理时的场景加载合适的体系结构。该模型还需要避免在新场景上学习时在先前场景上的先前的方法MADNet [43]利用在线学习方案来不断适应当前场景。后续工作MAD++ [31]利用先前的标签来提高性能，同时减轻立体声中的灾难性损失然而，即使当模型已经很好地适应当前场景时，在推理时也需要连续的在线梯度更新，这在计算上是不必要的。此外，当推理时面临快速变化的场景时，MAD++仍然需要缓冲时间来适应，因为它不能利用先前学习的场景来帮助。相比之下，我们将此问题重新表述为一个连续的立体匹配问题。通过这样做，模型可以不断学习估计新的异质场景的视差，并快速适应快速变化的连续场景，而无需在线梯度更新。在这项工作中，我们提出了一个可重用的架构增长（RAG）框架，以解决持续的立体声问题。RAG可以通过冻结在先前场景中学习的模型参数来克服灾难性遗忘。由于不同的场景在颜色，照明和视差分布方面有所不同，因此我们为每个新场景分配特定于任务的神经单元，并通过架构增长使模型适应它们。为了获得更紧凑的架构，我们在架构增长期间显式地重用学习的神经单元，从而实现模型性能和参数效率之间的平衡。在不同的天气和道路条件下，我们的方法实现了可比的或更好的性能相比，国家的最先进的方法。在部署时，我们进一步提出了一个称为场景路由器的模块，根据输入的场景类型自动选择场景特定的架构路径我们的贡献总结如下：• 我们提出了一个可重用的架构增长框架，由任务特定的神经元搜索和架构增长。该框架可以不断学习估计新场景的差异，而不会发生灾难性遗忘，同时表现出学习的神经单元的良好可• 进一步引入场景路由器模块以在推理时自适应地选择用于当前场景的场景特定架构路径与连续自适应方法[31，43]相比，我们的方法可以快速适应快速场景切换，并且计算效率更高。• 实验证明，我们的方法在不同的具有挑战性的天气和道路条件下，在DrivingStereo [46]，KITTIraw [10]和Virtual KITTI [2]数据集上实现了令人信服的性能。2. 相关工作深度立体匹配。DispNet [25]是第一个利用相关层对匹配信息进行编码的端到端深度立体声模型。沿着这条线，利用残差学习[18，28]来获得更准确的视差。此外，还结合了语义线索[47]和边缘信息[40]。AANet[45]通过自适应聚合进一步提高性能由GC-Net [14]代表的另网络结构的后续改进包括PSMNet [3]，CSPN [5]和GANet [48]。其他方法[12，13，37]探索构建更好的常规或级联成本量。他们在KITTI基准上取得了卓越的表现[11，26]。LEASereo [6]通过分层神经架构搜索进一步提高了基准评分。自适应立体匹配。在[41]中观察到，在合成数据上预训练的深度立体模型在暴露于真实世界场景时会遭受性能下降。为了缓解这个问题，一系列非监督域自适应方法[22，29，39]已经努力缩小域间隙。除了离线学习机制之外，还可以采用在线学习，如时间信息利用[50]，元学习方案[42]和模块化自适应[43]。后者通过先验标签进一步改进，以减轻灾难性遗忘[31]。然而，在线学习需要在推理时进行连续的梯度下降更新，这在计算上是广泛的。相比之下，我们的方法可以执行连续推理，而无需在部署时进行在线梯度更新，同时不会忘记以前的场景。神经架构搜索（NAS）。近年来，自动网络设计引起了越来越多的关注大多数方法针对图像分类任务，通过强化学习[20，30，51，52]，进化算法[32]和一次性搜索[21]搜索性能最佳的架构此外，最近的一些工作试图将NAS开发为语义分割[19]、对象检测[4]和其他任务。AutoDispNet [35]首先通过搜索U形架构的单元单元将NAS应用于立体匹配随后，LEASereo [6]通过分层NAS在多个立体声基准测试中实现了最佳性能。在这项研究中，我们利用NAS来执行特定任务的神经单元搜索和架构增长，以学习不断增加的场景。持续学习。持续学习方法旨在克服灾难性遗忘，主要分为三大类[7]，即：、重放、正则化和参数隔离。重放方法将代表性样本存储在存储器中[33]或通过生成模型构建伪样本[38]。基于正规化的冰毒18903--{T T T}不（火车）（火车）（火车）TT不NΣ.h;→ →→L1不R1gt1LMRMgtM不（火车）gtiDt我，我以及地面实况差异Dt普雷德岛LiRigti--）=L.Σ多云雾阴雨阳光明媚多云雾阴雨阳光明媚示于图二、我们观察到，顺序微调通常在当前场景上进行微调后实现最佳性能，但它在先前学习的场景或未见过的场景上表现不佳。这在对下雨场景进行微调后尤其明显，因为它在颜色、照明和纹理方面与其他三个场景完全不同。实验结果表明，灾难性遗忘在异质驾驶场景中普遍存在。3.2.问题陈述图2.立体声中的灾难性遗忘首先在多云场景上训练深度立体模型，然后在每个其他场景上依次进行红色框表示到目前为止学习的每个场景的性能，而蓝色框表示较差的泛化性能。EPE（左）和D1-all（右）指标用于评估。浅色代表较低的错误率。最好用彩色观看。连续立体声问题可以被公式化为学习N个连续任务序列1，2，.， N，每个对应于异构场景。令=1，2，.，其中，N个连续场景的数据分为训练数据集（train）和测试数据集（test）。对于每个任务Tt，对应的-训练数据由M个三元组组成，即，ODS [15，17，23]通过向损失函数添加正则化项来保留先前的知识，而没有额外的附加要求。尽管如此，这两个家庭仍然不能完全保持以前学到的知识。为了避免任何可能的遗忘，参数隔离方法-（I t，I t，D t），...，（I t，I t，D t），其中Il、I r和D gt分别是左图像、右图像和地面真实视差。表示包含直到当前任务T t为止所学习的所有参数的学习模型h t。该模型依次学习从T1到TN的任务，ods保护先前任务的模型参数，and only the training data of the current task Ωt可以学习新任务。一种方法是选择一个子网对于每个任务从一个固定的网络[8，24，36]，但固定被利用。两个人都很高兴不（测试）将无法在网络对于不断增加的任务具有有限的容量。另一种方式是利用动态架构[1，34]，为每个任务单独分配一个模型，不考虑以前模型的可重用性。其他方法[16，44]在学习新任务时选择性地扩展新单元或适应旧单元，这在一定程度上降低了模型扩展的然而，这些冰毒--后续任务。连续立体声的目标是通过最大化ht在当前任务t上的性能同时最小化对于从1到t-1的先前学习任务。为了达到最大目标，我们可以最小化以下目标功能，ODS都集中于图像分类任务。在这项研究中，我们进一步推进了连续立体匹配的密集回归任务，并实现了学习神经元的高度可重用性。L（h）;（train）Nt=1tt t（火车）Σ（1）L.高密度聚乙烯=1μML.Dt，DtΣ（2）3.1.立体加工我们首先展示了立体声中的灾难性遗忘现象，即深度立体声模型在适应新场景时，通常会在先前学习的场景上出现严重的性能下降。为此，我们选择现成的最先进的模型LEASeroes [6]进行讨论。为了说明，我们使用DrivingStereo [ 46 ]数据集的四种天气条件构建任务序列，即，多云雾阴雨晴天. 训练集和验证集针对每个场景进行划分。我们首先在多云场景中训练模型，然后在其他场景中依次对其进行微调。评估是在迄今为止学到的每个场景和看不见的场景上进行的，其中L_reg是预测视差的平滑l1损失请注意，我们不能一次访问所有的训练数据，因此Eq。（1）不能直接优化。实际上，对于当前任务t，已经优化了在多任务上学习的参数。通过冻结先前学习的参数，我们可以得到优化方程的近似优化目标。（2）对于当前模型ht，同时达到最小化目标。4. 方法4.1. 概述在这项研究中，我们提出了可重用架构增长，以更好地处理当前的任务。在[6]之后，火车FinetuneFinetuneFinetune多云有雾阴雨阳光明媚和Ω3.连续立体匹配Mi=1reg普雷德岛=ht.0.7820.7792.8211.0771.0720.6391.8921.3271.0611.2350.5371.3401.0100.8343.3091.0201.93%1.61%11.07%2.91%3.10%1.04%8.04%3.88%3.31%5.10%0.89%4.70%2.48%百分之一点九百分之十点一2.49%18904重新使用旧单元格新搜索单元格成本量特定任务回归层不不p=exp（pk）Σ∼∼××IJIJk=1IJIJIJIJk=1IJIJIJIJ由每层中的细胞组成，即，，ht=Lβj，其中IJIJJJΣJΣ12CV12Reg’’CV1’Regt场景路由器12CV12Reg12CV12Regt’’’CV’’’Regt(a) 先前模型(b) 单元级搜索（c）网络级增长（d）训练（当前）（e）部署图3.我们的可重用架构增长概述。对于当前任务t，基于先前的模型（a），我们首先搜索特征网（标记为F）和匹配网（标记为M）的任务特定神经单元（b），然后选择合适的单元使网络增长（c），最后训练所选择的特定模型（d）。在测试时，根据场景路由器（e）选择场景特定的架构路径（用红色标记）进行推理。最好用彩色观看。我们的基本模型包括特征网络、成本量、匹配网络和差异回归层。图3示出我们RAG的整体管道。对于当前任务t，我们首先搜索任务特定的神经单元，因为不同的场景具有不同的颜色，纹理和视差分布。bitions。为了使模型适应Tt，而不忘记为了更新P，我们将[49]中的MdeNAS算法应用于修改后的单元级搜索。将每次采样后的选定操作集定义为m。假设验证集上的错误率（D1-all）在一个时期之后是σ2我们将验证分数公式化为m的任务，我们然后执行架构增长，以确定是否使用重用的旧单元或搜索的新的网络级中的每一层。选定的新单位将保留，而未采用的单位将被删除。最后，将训练当前任务的模型。在测试时，我们进一步引入场景路由器模块，自适应地选择特定的架构路径来预测连续图像数据流的视差。在下面的小节中，我们将详细介绍我们的RAG和场景路由器。4.2. 可重用架构增长细胞级搜索。在我们的模型中的神经元是一个可搜索的细胞，由一个完全连接的有向无环图（DAG）。在[6]之后，细胞由来自前两层的两个输入节点，三个中间节点组成。节点，以及一个输出节点。设O表示一个candi集合δij=1 −σ。（三）迭代记录相应地增加1。直觉上，应该优先选择迭代次数少、验证分数高的操作，从而获得概率增益。否则，它应该得到概率衰减的惩罚。根据这一观点，P的更新策略如下：pm =p m+ α（KI（cm<$ δk）−KI（cm>ck，δmδ

下载后可阅读完整内容，剩余1页未读，立即下载