没有合适的资源?快使用搜索试试~ 我知道了~
首页论文研究-基于深度Q学习的移动机器人路径规划.pdf
论文研究-基于深度Q学习的移动机器人路径规划.pdf
需积分: 0 627 浏览量
更新于2023-05-27
评论 3
收藏 2.99MB PDF 举报
针对传统Q-learning算法在复杂环境下移动机器人路径规划问题中容易产生维数灾难的问题,提出一种改进方法。该方法将深度学习融于Q-learning框架中,以网络输出代替Q值表,解决维数灾难问题。通过构建记忆回放矩阵和双层网络结构打断数据相关性,提高算法收敛性。最后,通过栅格法建立仿真环境建模,在不同复杂程度上的地图上进行仿真实验,对比实验验证了传统Q-learning难以在大状态空间下进行路径规划,深度强化学习能够在复杂状态环境下进行良好的路径规划。
资源详情
资源评论
资源推荐

书书书
测控技术
!"#$
年第
%&
卷第
'
期
机器人技术与应用
(
收稿日期!!"#& )"$ )%"
基金项目! 国家公益性行业科研专项重大项目"!"#*"**"!+
"%#$
江苏省研究生科研创新计划项目",-./#'0"&12#
作者简介!刘志荣"#$$%! #%男%硕士研究生% 主要从事移动机
器人路径规划的研究$姜树海"#$1&! #%男%博士%副教授%主要
从事机器人技术&智能控制技术的研究$袁雯雯"#$$*! #%女%
硕士研究生%主要从事机器人技术&图像处理的研究$史晨辉
"#$$*! #%
男%
硕士研究生%
主要从事机器人的控制研究'
基于深度3学习的移动机器人路径规划
刘志荣
#%!
%
姜树海
#%!
%
袁雯雯
#%!
%
史晨辉
#%!
"#4
南京林业大学机械电子工程学院
%
江苏南京
(!#""%'$
!4
南京林业大学智能控制与机器人技术研究所
%
江苏南京
(!#""%'#
摘要
!
针对传统
3+56789:9;
算法在复杂环境下移动机器人路径规划问题中容易产生维数灾难的问题
%
提
出一种改进方法
'
该方法将深度学习融于
3+56789:9;
框架中
%
以网络输出代替
3
值表
%
解决维数灾难问
题
'
通过构建记忆回放矩阵和双层网络结构打断数据相关性
%
提高算法收敛性
'
最后
%
通过栅格法建立
仿真环境建模
%
在不同复杂程度上的地图上进行仿真实验
%
对比实验验证了传统
3+56789:9;
难以在大状
态空间下进行路径规划
%
深度强化学习能够在复杂状态环境下进行良好的路径规划'
关键词
!3+56789:9;$
深度
3
学习
$
移动机器人
$
路径规划
中图分类号!<=!*!((文献标识码!>((文章编号!#""" )&&!$"!"#$#"' )""!* )"2
!"#!#"4#$'"& ?@4AB@C4!"#&4""4""!
$"%"&'(&)'*(++#+, -(./!"+0//1234/(5+#+,
DEFGH:+8I9;
#J!
JKE>LMNHO+H7:
#J!
J-F>LP69+Q69
#J!
JNRE.H69+HO:
#J!
S#4.I556;6ITU6AH79:A7579V W56AX8I9:AW9;:9668:9;JL79@:9;YI86CX8ZF9:[68C:XZJL79@:9;!#""%'J.H:97\
!4E9CX:XOX6ITE9X655:;69X.I9X8I579V ]I^IX:ACJL79@:9;YI86CX8ZF9:[68C:XZJL79@:9;!#""%'J.H:97_
6%.&5(7&8E9 I8V68XICI5[6XH6`8I^56aXH7XXH6X87V:X:I9753+56789:9;75;I8:XHa:C`8I96XIV:a69C:I9 V:C7CX68
:9 XH6`7XH `5799:9;ITaI^:568I^IX:9 AIa`56b69 [:8I9a69XJ79 :a`8I[6V a6XHIV :C`8I`IC6V4<H:Ca6XHIV :9+
X6;87X6CV66` 56789:9;:9XIXH63+56789:9;T87a6QI8B 79V 86`57A6CXH63+[75O6X7^56Q:XH 96XQI8B IOX`OXXI
CI5[6XH6V:a69C:I975:XZV:C7CX68`8I^56a4E9 7VV:X:I9J^ZAI9CX8OAX:9;7a6aI8Z`57Z^7AB a7X8:b79V 7XQI+57Z+
6896XQI8B CX8OAXO86JV7X7AI88657X:I9 :C:9X688O`X6V XI:a`8I[6XH6AI9[68;69A6ITXH675;I8:XHa4Y:9755ZJXH6
C:aO57X:I9 69[:8I9a69XaIV65:9;:C6CX7^5:CH6V ^Z;8:V a6XHIVJ79V C:aO57X:I9 6b`68:a69XC786A788:6V IOXI9
aO5X:`56a7`CQ:XH V:TT6869XAIa`56b:XZ56[65C4<H6AIa`78:CI9 6b`68:a69XC[68:TZXH7XX87V:X:I9753+56789:9;:C
V:TT:AO5XXI`68TI8a;IIV `7XH `5799:9;:9 578;6CX7X6C`7A6J79V V66` 3+56789:9;697^56C;IIV `7XH `5799:9;:9
AIa`56bCX7X669[:8I9 a69XC4
9/: ;"5!.83+56789:9;\V66` 3+56789:9;\aI^:568I^IX\`7XH `5799:9;
((
路径规划是移动机器人导航的重要组成部分%
其
目标是在复杂环境下能够寻找一条从起点到终点的无
碰撞路径
'
路径规划的核心是算法设计
%
根据训练方
法的不同%算法可分为监督学习&无监督学习和强化学
习'
监督学习和无监督学习以大量的样本数据为基
础%
这使得机器人在先验知识匮乏的情况下很难通过
监督学习和无监督学习进行良好的路径规划
'
强化学
习是一种不需先验知识&与环境直接进行试错迭代获
取反馈信息来优化策略的人工智能算法%
因而广泛应
用于复杂环境下的移动机器人路径规划中
(# )!)
' 根据
求解方法不同%强化学习算法分为直接策略搜索法和
值函数法' 直接策略搜索法将策略参数化表示%通过
优化指标进行梯度上升%最后得到最优或者局部最优
策略%可解决连续动作空间的问题
(%)
%主要应用于机
器人的控制方面
(*)
%但在离散动作空间问题上并不能
很好地评估单个策略%易于收敛到局部最小值' 值函
数法根据状态转移概率是否已知又分为基于模型的强
化学习算法和与模型无关的强化学习算法两类'
基于
**!*
















weixin_38747087
- 粉丝: 72
- 资源: 1271
上传资源 快速赚钱
我的内容管理 收起
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助

会员权益专享
安全验证
文档复制为VIP权益,开通VIP直接复制

评论0