深度强化学习在无人驾驶决策控制中的应用研究

需积分: 43 67 下载量 115 浏览量 更新于2024-08-06 收藏 6.59MB PDF 举报
该资源是一篇关于基于深度强化学习的无人驾驶智能决策控制研究的硕士学位论文。作者通过对比分析两种不同的决策算法——数据聚集(Dataset Aggregation, DAgger)和深度确定性策略梯度算法(Deep Deterministic Policy Gradient, DDPG),探讨了无人驾驶车辆的决策策略。DAgger算法在网络结构设计上简化了原始的DDPG模型,减少了神经元数量,以适应较少训练数据的需求。而示教策略方面,作者设计了一种人为的示教策略,用于为交互数据添加标签,使车辆能在简单车道上保持75公里/小时的速度行驶。实验在Keras平台上进行,并使用TORCS仿真环境进行训练。 在这篇论文中,作者左思翔在朱晓蕊教授的指导下,深入研究了深度强化学习在无人驾驶决策控制中的应用。论文首先介绍了无人驾驶领域的背景,强调了智能决策控制的重要性。接着,详细讨论了DDPGwD算法,这是一种结合深度学习的强化学习方法,用于训练无人驾驶车辆如何做出最优决策。DDPG算法的特点在于它能处理连续动作空间的问题,通过actor-critic架构来学习策略。 然后,论文对比了DDPGwD与DAgger算法。DAgger算法是一种半监督学习方法,其核心思想是在专家策略的指导下逐步改善学习策略。由于DAgger需要较少的训练数据,因此网络结构被简化,但仍保留了双隐层结构。在示教策略的设计中,作者设定了一种基础速度和初始加速度,以实现车辆的基本行驶功能,但在刹车控制上默认设为0,这可能限制了车辆应对复杂情况的能力。 实验部分,作者在Keras框架下构建了网络模型,并在TORCS驾驶模拟器上进行了训练和测试。TORCS提供了一个逼真的环境,可以评估算法在不同驾驶条件下的性能。通过对比两种算法的仿真实验结果,作者可能分析了每种算法的决策效率、稳定性和学习速度,以评估其在无人驾驶决策控制中的优劣。 这篇论文对于理解深度强化学习在无人驾驶中的应用以及不同决策算法的特性具有重要意义,为后续的研究提供了有价值的参考。通过对比分析,不仅可以提升无人驾驶车辆的自主决策能力,还可能推动相关技术在实际应用中的发展。