第 42卷 增刊(I)
2012年 9月
东 南 大 学 学 报
(自 然 科 学 版 )
JOURNALOFSOUTHEASTUNIVERSITY(NaturalScienceEdition)
Vol.42 Sup(I)
Sept.2012
doi:10.3969/j.issn.1001-0505.2012.S1.042
基于局部加权 k近邻的多机器人系统异步互增强学习
杨月全
1
韩 飞
1
金 露
1
倪春波
1
曹志强
2
张天平
1
(
1
扬州大学信息工程学院,扬州 225009)
(
2
中国科学院自动化研究所复杂系统管理与控制国家重点实验室,北京 100190)
摘要:针对多机器人系统的增强学习问题,为提高机器人的学习速度和充分利用通信范围内其
他机器人的增强学习的经验和结果,给出了 2类基于局部加权 k近邻时间差分的多机器人系统
的交互式学习策略
.对于机器人之间通信无时滞情形,基于环境感测和任务信息状态描述的局部
加权 k近邻状态选择方法,机器人通过对自身和通信范围内其他机器人 Q值表的比较和分析,
对其自身的 Q值表进行优化迭代更新.在此基础上,分别给出了基于全局通信条件下和局部通
信条件下多机器人系统的异步的互增强学习方案.最后,通过仿真实验进一步验证了所提方案的
可行性和有效性.
关键词:多机器人系统;增强学习;k近邻;运动控制
中图分类号:TP24 文献标志码:A 文章编号:1001-0505(2012)S1020804
Asynchronousinteractionreinforcementlearning
formultirobotsystemsbasedonlocalweightedkNNTD
YangYuequan
1
HanFei
1
JinLu
1
NiChunbo
1
CaoZhiqiang
2
ZhangTianping
1
(
1
CollegeofInformationEngineering,YangzhouUniversity,Yangzhou225009,China)
(
2
StateKeyLaboratoryofManagementandControlforComplexSystems,InstituteofAutomation,
ChineseAcademyofSciences,Beijing100190,China)
Abstract:Toacceleratethelearningspeedofrobotsformultirobotsystemsandmakefulluseofex
perienceandresultsofotherrobotsinthecommunicationdomain
,twokindsofmultirobotlearning
strategiesbasedonthelocalweightedknearestneighbortemporaldifference(kNNTD)algorithm
areproposed.Withoutconsiderationoftimedelaysduringthecommunicationsofrobots,basedon
themethodoflocalweightedkNNTD stateselectionbyusingenvironmentsenseinformationand
taskdestinationinformation,theoptimaliterationofQvaluetableofarobotisupdatedbytheem
ploymentofcomparisonandanalysisofQvaluetablesofitselfandothercommunicatingrobots.Af
terthat,asynchronousinteractionreinforcementlearningschemesarepresentedinthecaseofglobal
communicationandlocalcommunicationintheworkingenvironment
,respectively.Finally,thesim
ulationsverifytheeffectivenessandefficiencyoftheproposedstrategy.
Keywords:multirobotsystem;reinforcementlearning;kNN;motioncontrol
收稿日期:20120615. 作者简介:杨月全(1971—),男,博士,副教授,yangyq@yzu.edu.cn.
基金项目:国家自然科学基金资助项目(61175111,61174046)、江苏省高校自然科学研究资助项目(10KJB510027).
引文格式:杨月全,韩飞,金露,等.基于局部加权 k近邻的多机器人系统异步互增强学习[J].东南大学学报:自然科学版,2012,42(S1):
208 211.[doi:10.3969/j.issn.1001-0505.2012.S1.042]
多机器人系统已成为当前国内外机器人领域
研究的热点.由于机器人所面临的环境往往是未知
的、动态的,因而通过人为的规划来解决多机器人
系统中所遇到的一切问题是不现实的.在这种情况
下,学习能力为机器人克服这些困难提供了行之有
效的方法.机器人的学习可主要通过以下方式进
行
[1]
:借助于自身的各种传感器,机器人可以在与
环境的不断交互中获取知识;借助一些领域知识、
先验知识来缩短学习时间;通过与其他机器人共享
知识促进彼此的技能;模拟进化的有关思想来对自