第
31
卷第
3
期
2011
年
3
月
计算机应用
Journal of Computer Applícations
Vo
l.
31
No.3
M
缸
.2011
文章编号:
1
∞
1
- 9081 (2011
)03
- 0654 - 03
doi:10.3724/SP.J.1087.2011.00654
基于
τ
演算的足球机器人协作
Q
学习方法
柯文德
1
气朴松吴
2
彭志平蔡则苏
2
苑全德
2
(1.广东石油化工学院计算机科学与技术系,广东茂名
5250
∞
2.
哈尔滨工业大学计算机科学与技术学院,哈尔滨
15
仪肌)
(
wendeke@
163.
com)
摘
要:针对多机器人协作学习时出现的学习速度慢、学习效率低等问题,提出了一种基于霄演算心智模型的足
球机器人协作
Q
学习方法,描述了机器人的运动模型,定义了球场现状、目标、意图、行为、协作、请求、扩展知识、能力
判断和联合意图等机器人心智状态,构造了联合奖励函数。最后通过实验验证了方法的有效性。
关键词:多机器人;协作
;Q
学习;心智状态
中图分类号:
T
P2
42.6
文献标志码
:A
Cooperative Q leamiog method based
00
霄
calculus
io robot soccer
KE
Wen_de
1
.
2
,
PIAO
Song-hao
2
,
PENG
Zhi-pingl
,
CAI
Ze-su
2
,
YUAN
Quan-de
2
(1.
Department
of
Computer
Science
αnd
Technology
, Guangdong
University
of
Petrochemical
Technology
,
M
,
ω
ming
Guangdong
525
α
泪
,
Chi
阳;
2.
School
of
Cor
叩
uter
Science
and
Technology
,
H.
α
rbin
Institute
of
岛
chnology
,
H.
α
rbin
Heüongjiang
15
侃lO
l
,
China)
Abstract:
Concerning the low speed and low efficiency of learning in robot soccer when cooperating between multi-
robots, a cooperative Q learning method based on the mental model
ofτcalculus
was proposed, in which the mental states
were defined as the field state
, goal, intention, action,
cωperation
,
request, expanding knowledge, capability judging and
connected intention
, etc, and the combinational reward function was constructed. The validity of method was verified through
expenments.
Key
words:
multi-robot; cooperation; Q learning; mental state
0
引言
协作问题一直是机器人领域的研究热点之→,其目的是
在静态或者动态环境中由若干个同构或异构机器人配合以完
成某一共同目标
[IJ
。由于在执行复杂动态协作任务过程中
机器人之间经常出现时间冲突、空间冲突与资源冲突,很多学
者引入了强化学习方法以解决这些问题,并取得了一些实际
效果
[2J
例如,文献
[3]
中提出了一种强化学习算法并应用在
智能体环境下解决协作问题;文献
[4]
中提出了一种模糊强
化算法并应用在足球机器人双层协作模型上;文献
[5]
中提
出了一种动态环境下的多智能体强化学习协作模型,应用在
多机器人协作追捕上等。
尽管目前对强化学习方法在足球机器人比赛环境下的协
作应用方面进行了相关研究,但仍然存在一些问题,主要原因
在于,当协作环境中的机器人数量增加时,学习空间迅速增
大,导致强化学习方法的学习速度下降。考虑到足球机器人
比赛环境具有信息不完备的特点,强化学习的联合学习模式
具有局限性,特别是多机器人通信和协作时,传统的逻辑方法
加入非逻辑性因子以描述通信,并采用问题求解及推理方法
以实现协作,不适合多机器人协作的并行性和高实时性要求。
由于骨演算是一种刻画多主体通信系统的进程演算,具有多
任务并发执行的特点,其形式化描述手段能够刻画多机器人
体系结构的动态性,较好地表示出具有动态结构的进程内以
及进程间的交互间,例如文献
[7]
基于面向对象的
Petri
网
(Object-Oriented Petri
nets)
和'lT演算,提出一种动态环境下
的多
Agent
系统建模方法,较好地满足了多主体的任务交互
要求。
基于此,本文在
Q
学习方法的基础上,引入了节演算心
智模型,体现出数理分析和心智模型推理方法的优点,使足球
机器人不但具有强化学习的高度反应能力和环境适应能力,
同时具有在动态环境下的推理决策能力。
1
机器人运动描述
多机器人集合
R
=
IR"
…
,
Ri'
…
,
Rml
中,机器人为
3
元
组
Ri
= I
OR
,
SR
,
AR
I
,其中
,
OR
表示机器人的位置与方向
,
SR
表示传感器类型
,
AR
为任务处理能力。
OR
队
'Yi
,
WiJ
T
,
凯、
Yi
为第
i
个机器人的位置,向表示机器人方向,在
tn
时刻
[8J
X~i(tn+l)
=
x~n
+
v:
n
-
1
Docos(
ωι+φ
~n-l
)
Do
+
ZY:
气
!l
t
-
Do)
cos(
叫
+ω
于
'Do
+
w;n(
!l
t
-
Do))
r1
i
(t
n
+
1
)
=
y~n
+
v~n-l
Dosin(ωi+ω:
川
)Do
+
tJ;
气
!l
t
-
Do)
sin(ω+ω
~n-I
Do
+
ω
;n
(!l
t -
Do
))
ωarctan(
iYi(t
n
) -
Yi(t
n
_
1
)
~ì
飞
(X
i
(t
n
)
- X
i
(tn_l ) ) ,
)
'··A
J
,、、
收稿日期
:2010
-09
-08;
修固日期
:2010
-11
-06
。
基金项目:广东高校优秀青年创新人才培育项目
(201180)
;国家
863
计划项目
(2
∞
7
AA041603
;
2006
AAI
悦。
202)
;国家自然科学基金资助项目
(60905047;61075076;61075077)
;国家重点实验室项目
SKLRS200902C)
;广东省
自然科学基金资助项目
(81525α
lOO
2
∞∞
03)
。
作者简介:柯文德(1
976
寸,男,广东茂名人,副教授,博士研究生,主要研究方向:计算机系统结构、机器人、人工智能;
朴松吴(1
972
- ) ,
男,黑龙江哈尔滨人,副教授,博士,主要研究方向:计算机软件理论、机器人、人工智能;
彭志平
(1969-)
,男,福建泉州人,教授,博士,主要研
究方向:电子商务、智能主体、机器人;
蔡则苏(1
966
- )
,男,江苏推宁人,副教授,博士,主要研究方向:计算机软件理论、机器人、人工智能;
苑全德
(1981
斗,男,山东郭城人,讲师,博士研究生,主要研究方向:并行计算、机器人、智能主体。