多机器人系统异步互增强学习：基于局部加权k近邻策略

需积分: 9 23 浏览量更新于2024-08-08 收藏 497KB PDF 举报

"基于局部加权k近邻的多机器人系统异步互增强学习 (2012年)"，这篇论文关注的是多机器人系统中的增强学习问题，利用局部加权k近邻时间差分算法来提高学习效率并共享学习经验。作者提出了两种交互式学习策略，适用于有无时滞的通信情况。在无时滞通信下，机器人通过比较和分析自身与其他机器人Q值表，使用基于环境感知和任务信息的局部加权k近邻状态选择方法，优化自身的Q值表。随后，论文分别讨论了全局通信和局部通信条件下的异步互增强学习方案，并通过仿真验证了方案的有效性和可行性。本文的核心知识点包括： 1. **增强学习(Reinforcement Learning, RL)**: 这是一种机器学习方法，通过与环境的交互，使智能体学习如何在特定环境下采取行动以最大化累积奖励。在多机器人系统中，每个机器人通过尝试不同策略并根据反馈结果调整行为，以达到最优性能。 2. **局部加权k近邻(Locally Weighted k-Nearest Neighbors, Lw-kNN)**: 这是一种非参数机器学习算法，用于回归和分类任务。在多机器人系统中，Lw-kNN被用来选择状态，机器人根据最近邻的Q值来更新自己的策略，而非依赖全局信息。 3. **时间差分(Time-Difference, TD)**: 在增强学习中，时间差分是估计Q值的一种方法，它通过预测未来奖励来更新当前Q值。在本文中，Lw-kNN与TD结合，形成Lw-kNN-TD算法，用于加速机器人的学习过程。 4. **多机器人系统(Multi-Robot Systems, MRS)**: 由多个自主机器人组成的系统，它们协同工作完成任务。在这样的系统中，学习策略需要考虑通信和协作的问题。 5. **交互式学习(Interactive Learning)**: 在本文中，指的是机器人间通过通信分享学习经验和结果，从而加速整体学习进程。这种策略分为全局通信和局部通信两种情况。 6. **异步互增强学习(Asynchronous Interactive Reinforcement Learning)**: 异步意味着机器人可以独立地、不同时进行学习和策略更新。这种学习方式允许系统在不同步的情况下保持高效运行。 7. **仿真实验(Simulation Experiments)**: 为了验证提出的算法的有效性，论文通过模拟环境进行了实验，结果显示提出的策略能够有效地提高学习速度和利用其他机器人的学习经验。这篇论文贡献了一种新的多机器人系统增强学习策略，利用局部加权k近邻的时间差分方法，实现了机器人之间的异步交互学习，提高了整个系统的学习效率和任务执行能力。

第４２卷增刊（Ｉ）

２０１２年９月

东南大学学报

（自然科学版）

ＪＯＵＲＮＡＬＯＦＳＯＵＴＨＥＡＳＴＵＮＩＶＥＲＳＩＴＹ（ＮａｔｕｒａｌＳｃｉｅｎｃｅＥｄｉｔｉｏｎ）

Ｖｏｌ．４２Ｓｕｐ（Ｉ）

Ｓｅｐｔ．２０１２

ｄｏｉ：１０．３９６９／ｊ．ｉｓｓｎ．１００１－０５０５．２０１２．Ｓ１．０４２

基于局部加权ｋ近邻的多机器人系统异步互增强学习

杨月全

１

　韩　飞

１

　金　露

１

　倪春波

１

　曹志强

２

　张天平

１

（

１

扬州大学信息工程学院，扬州２２５００９）

（

２

中国科学院自动化研究所复杂系统管理与控制国家重点实验室，北京１００１９０）

摘要：针对多机器人系统的增强学习问题，为提高机器人的学习速度和充分利用通信范围内其

他机器人的增强学习的经验和结果，给出了２类基于局部加权ｋ近邻时间差分的多机器人系统

的交互式学习策略

．对于机器人之间通信无时滞情形，基于环境感测和任务信息状态描述的局部

加权ｋ近邻状态选择方法，机器人通过对自身和通信范围内其他机器人Ｑ值表的比较和分析，

对其自身的Ｑ值表进行优化迭代更新．在此基础上，分别给出了基于全局通信条件下和局部通

信条件下多机器人系统的异步的互增强学习方案．最后，通过仿真实验进一步验证了所提方案的

可行性和有效性．

关键词：多机器人系统；增强学习；ｋ近邻；运动控制

中图分类号：ＴＰ２４　　文献标志码：Ａ　　文章编号：１００１－０５０５（２０１２）Ｓ１０２０８０４

Ａｓｙｎｃｈｒｏｎｏｕｓｉｎｔｅｒａｃｔｉｏｎｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ

ｆｏｒｍｕｌｔｉｒｏｂｏｔｓｙｓｔｅｍｓｂａｓｅｄｏｎｌｏｃａｌｗｅｉｇｈｔｅｄｋＮＮＴＤ

ＹａｎｇＹｕｅｑｕａｎ

１

　ＨａｎＦｅｉ

１

　ＪｉｎＬｕ

１

　ＮｉＣｈｕｎｂｏ

１

　ＣａｏＺｈｉｑｉａｎｇ

２

　ＺｈａｎｇＴｉａｎｐｉｎｇ

１

（

１

ＣｏｌｌｅｇｅｏｆＩｎｆｏｒｍａｔｉｏｎＥｎｇｉｎｅｅｒｉｎｇ，ＹａｎｇｚｈｏｕＵｎｉｖｅｒｓｉｔｙ，Ｙａｎｇｚｈｏｕ２２５００９，Ｃｈｉｎａ）

（

２

ＳｔａｔｅＫｅｙＬａｂｏｒａｔｏｒｙｏｆＭａｎａｇｅｍｅｎｔａｎｄＣｏｎｔｒｏｌｆｏｒＣｏｍｐｌｅｘＳｙｓｔｅｍｓ，ＩｎｓｔｉｔｕｔｅｏｆＡｕｔｏｍａｔｉｏｎ，

ＣｈｉｎｅｓｅＡｃａｄｅｍｙｏｆＳｃｉｅｎｃｅｓ，Ｂｅｉｊｉｎｇ１００１９０，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：Ｔｏａｃｃｅｌｅｒａｔｅｔｈｅｌｅａｒｎｉｎｇｓｐｅｅｄｏｆｒｏｂｏｔｓｆｏｒｍｕｌｔｉｒｏｂｏｔｓｙｓｔｅｍｓａｎｄｍａｋｅｆｕｌｌｕｓｅｏｆｅｘ

ｐｅｒｉｅｎｃｅａｎｄｒｅｓｕｌｔｓｏｆｏｔｈｅｒｒｏｂｏｔｓｉｎｔｈｅｃｏｍｍｕｎｉｃａｔｉｏｎｄｏｍａｉｎ

，ｔｗｏｋｉｎｄｓｏｆｍｕｌｔｉｒｏｂｏｔｌｅａｒｎｉｎｇ

ｓｔｒａｔｅｇｉｅｓｂａｓｅｄｏｎｔｈｅｌｏｃａｌｗｅｉｇｈｔｅｄｋｎｅａｒｅｓｔｎｅｉｇｈｂｏｒｔｅｍｐｏｒａｌｄｉｆｆｅｒｅｎｃｅ（ｋＮＮＴＤ）ａｌｇｏｒｉｔｈｍ

ａｒｅｐｒｏｐｏｓｅｄ．Ｗｉｔｈｏｕｔｃｏｎｓｉｄｅｒａｔｉｏｎｏｆｔｉｍｅｄｅｌａｙｓｄｕｒｉｎｇｔｈｅｃｏｍｍｕｎｉｃａｔｉｏｎｓｏｆｒｏｂｏｔｓ，ｂａｓｅｄｏｎ

ｔｈｅｍｅｔｈｏｄｏｆｌｏｃａｌｗｅｉｇｈｔｅｄｋＮＮＴＤｓｔａｔｅｓｅｌｅｃｔｉｏｎｂｙｕｓｉｎｇｅｎｖｉｒｏｎｍｅｎｔｓｅｎｓｅｉｎｆｏｒｍａｔｉｏｎａｎｄ

ｔａｓｋｄｅｓｔｉｎａｔｉｏｎｉｎｆｏｒｍａｔｉｏｎ，ｔｈｅｏｐｔｉｍａｌｉｔｅｒａｔｉｏｎｏｆＱｖａｌｕｅｔａｂｌｅｏｆａｒｏｂｏｔｉｓｕｐｄａｔｅｄｂｙｔｈｅｅｍ

ｐｌｏｙｍｅｎｔｏｆｃｏｍｐａｒｉｓｏｎａｎｄａｎａｌｙｓｉｓｏｆＱｖａｌｕｅｔａｂｌｅｓｏｆｉｔｓｅｌｆａｎｄｏｔｈｅｒｃｏｍｍｕｎｉｃａｔｉｎｇｒｏｂｏｔｓ．Ａｆ

ｔｅｒｔｈａｔ，ａｓｙｎｃｈｒｏｎｏｕｓｉｎｔｅｒａｃｔｉｏｎｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇｓｃｈｅｍｅｓａｒｅｐｒｅｓｅｎｔｅｄｉｎｔｈｅｃａｓｅｏｆｇｌｏｂａｌ

ｃｏｍｍｕｎｉｃａｔｉｏｎａｎｄｌｏｃａｌｃｏｍｍｕｎｉｃａｔｉｏｎｉｎｔｈｅｗｏｒｋｉｎｇｅｎｖｉｒｏｎｍｅｎｔ

，ｒｅｓｐｅｃｔｉｖｅｌｙ．Ｆｉｎａｌｌｙ，ｔｈｅｓｉｍ

ｕｌａｔｉｏｎｓｖｅｒｉｆｙｔｈｅｅｆｆｅｃｔｉｖｅｎｅｓｓａｎｄｅｆｆｉｃｉｅｎｃｙｏｆｔｈｅｐｒｏｐｏｓｅｄｓｔｒａｔｅｇｙ．

Ｋｅｙｗｏｒｄｓ：ｍｕｌｔｉｒｏｂｏｔｓｙｓｔｅｍ；ｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ；ｋＮＮ；ｍｏｔｉｏｎｃｏｎｔｒｏｌ

收稿日期：２０１２０６１５．　作者简介：杨月全（１９７１—），男，博士，副教授，ｙａｎｇｙｑ＠ｙｚｕ．ｅｄｕ．ｃｎ．

基金项目：国家自然科学基金资助项目（６１１７５１１１，６１１７４０４６）、江苏省高校自然科学研究资助项目（１０ＫＪＢ５１００２７）．

引文格式：杨月全，韩飞，金露，等．基于局部加权ｋ近邻的多机器人系统异步互增强学习［Ｊ］．东南大学学报：自然科学版，２０１２，４２（Ｓ１）：

２０８２１１．［ｄｏｉ：１０．３９６９／ｊ．ｉｓｓｎ．１００１－０５０５．２０１２．Ｓ１．０４２］

　　多机器人系统已成为当前国内外机器人领域

研究的热点．由于机器人所面临的环境往往是未知

的、动态的，因而通过人为的规划来解决多机器人

系统中所遇到的一切问题是不现实的．在这种情况

下，学习能力为机器人克服这些困难提供了行之有

效的方法．机器人的学习可主要通过以下方式进

行

［１］

：借助于自身的各种传感器，机器人可以在与

环境的不断交互中获取知识；借助一些领域知识、

先验知识来缩短学习时间；通过与其他机器人共享

知识促进彼此的技能；模拟进化的有关思想来对自

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38556985

粉丝: 3
资源: 906

多机器人系统异步互增强学习：基于局部加权k近邻策略

加权K近邻投票：一种众包数据质量控制算法

加权K近邻改进的密度峰值聚类算法

智能烟叶分级研究：聚类与加权K近邻算法的应用

基于加权K近邻的改进密度峰值聚类算法

数据科学-机器学习-WiFi定位系统的位置预测(k近邻与加权k近邻)

基于加权K近邻和卷积神经网络的高光谱图像分类.pdf

计算机研究 -基于聚类和加权K近邻的烟叶分级研究.pdf

论文研究-基于时间加权K-近邻法的无线传感网系统故障诊断.pdf

基于K-近邻法的局部加权朴素贝叶斯分类算法.pdf

基于加权K-近邻分类的非视距识别方法研究.docx

最新资源