操作条件反射学习模型在机器人避障中的应用

83 浏览量更新于2024-08-30 收藏 229KB PDF 举报

"本文提出了一种名为操作条件反射学习模型（OCLM）的方法，用于解决认知机器人的自主学习挑战。OCLM模型利用状态空间、操作行为空间、概率分布函数、仿生学习机制和系统熵等工具来构建。在模型中，引入了状态的“负理想度”概念，并定义了取向函数的计算方式。通过对机器人避障导航问题的仿真实验，验证了OCLM模型的性能，结果显示，基于该模型的机器人能够通过与环境的交互学习和认知，有效避障并达到目标位置，展现出显著的自学习能力，证明了模型的实用性。该研究对于理解和开发认知机器人的自主学习能力有重要意义。" 在这篇研究中，作者阮晓钢、黄静、范青武和魏若岩提出了一个创新的学习模型，其基础是操作条件反射原理，这是心理学家Skinner的行为主义理论。操作条件反射（Operant Conditioning）是通过强化（奖励或惩罚）来改变个体行为的一种学习过程。在OCLM模型中，这一原理被应用到认知机器人的学习机制中。模型的关键组成部分包括： 1. **状态空间**：定义了机器人所处的不同环境状态。 2. **操作行为空间**：描述了机器人可以执行的各种动作。 3. **概率分布函数**：用来表示机器人在不同状态下选择特定动作的概率。 4. **仿生学习机制**：借鉴生物体的学习过程，使模型更接近实际的智能行为。 5. **系统熵**：衡量系统的不确定性或信息含量，用于评估机器人对环境的认知程度。此外，他们提出了“负理想度”这一概念，它代表了当前状态与理想状态之间的差距，反映了机器人对环境的不满意程度。通过定义的取向函数，机器人可以根据负理想度来决定应该采取哪种行动以减少这种差距。在避障导航的仿真测试中，OCLM模型展示了其强大的学习和适应能力。机器人能够根据与环境的互动调整策略，有效地避开障碍物并找到通往目标的路径。这表明，OCLM模型不仅能够帮助机器人学习新知识，还具备自我改进和优化行为的能力。这个基于操作条件反射的学习模型为认知机器人的自主学习提供了一个新的理论框架，具有广泛的应用潜力，尤其是在机器人导航、环境感知和决策制定等领域。未来的研究可能会进一步探索如何优化模型参数，增强其在复杂环境中的适应性和学习效率。

第 29 卷第 6 期

Vol. 29 No. 6

控制与决策

Control and Decision

2014 年 6 月

Jun. 2014

一种基于操作条件反射原理的学习模型

文章编号: 1001-0920 (2014) 06-1016-05 DOI: 10.13195/j.kzyjc.2013.0522

阮晓钢

, 黄静

a,b

, 范青武

, 魏若岩

(北京工业大学 a. 电子信息与控制工程学院，b. 实验学院，北京 100124)

摘要: 针对认知机器人的自主学习问题, 提出一种基于操作条件反射原理的学习模型 (OCLM). 该模型采用状态

空间、操作行为空间、概率分布函数、仿生学习机制、系统熵等进行描述, 给出状态的“负理想度”的概念, 定义了取

向函数的计算方法. 运用模型对机器人避障导航问题进行仿真实验, 并对参数设置进行了讨论. 实验结果表明, 基于

OCLM 模型的机器人能通过与环境的交互获得认知, 成功避障到达目的地, 具有一定的自学习能力, 从而表明了模型

的有效性.

关键词: 学习模型；操作条件反射；自学习；仿生；避障

中图分类号: TP273 文献标志码: A

A learning model based on operant conditioning principles

RUAN Xiao-gang

, HUANG Jing

a,b

, FAN Qing-wu

, WEI Ruo-yan

(a. College of Electronic Information and Control Engineering，b. Pilot College，Beijing University of Technology,

Beijing 100124，China．Correspondent：HUANG Jing，E-mail：mymailhj@sohu.com)

Abstract: Inspired by Skinner’s operant conditioning theory, an operant conditioning learning model is presented to deal

with the autonomous learning problem in cognitive robotics. The model is described by nine elements, including the space

set, the action set, the bionic learning function and the system entropy etc. A notion “negative ideal rate” is deﬁned to

compute the orientation function. The OCLM is applied to solve obstacle avoidance and navigation problems for mobile

robots. The experiment results show that the robot based on the model can autonomously learn how to arrive at the goal in a

collision-free way through interaction with the environment, and show the effectiveness of the proposed model.

Key words: learning model；operant conditioning；autonomous learning；bionics；obstacle avoidance

0 引引引言言言

心理学发展至今, 其理论成果深刻地影响着人工

智能、认知机器人学等相关领域的研究. 学习借鉴心

理学的经典理论, 对其进行数学建模, 用于解决机器

人的实际控制问题, 已成为人工智能、认知机器人研

究的一种新思路.

1938 年, Skinner

[1]

首次提出了操作条件反射的

概念, 并由此创立了操作条件反射理论. 他借鉴巴甫

洛夫的“强化”概念, 并将这一概念的内涵进行了革新.

将“强化”分为正强化和负强化两种, 正强化促使有机

体对刺激的反应概率增加, 负强化促使有机体消除

该刺激的反应增加. 刺激产生反应, 反应影响刺激出

现的概率, 这正是斯金纳操作条件反射理论的核心.

Skinner 的这一理论对智能体的学习行为给出了清晰

的描述, 吸引了很多学者对其进行研究. Zalama 等

[2]

基于 Grossberg 的条件反射模型研究了机器人的避障

问题, 该模型借用经典条件反射理论中“条件刺激”和

“非条件刺激”的概念, 以距离数据为条件刺激, 碰撞

为非条件刺激, 使训练后的机器人能在无导师信号的

情况下学会在任意位置的避障. 此后, Gaudiano 等

[3-4]

进一步发展了该模型, 将其与人工神经网络相结合,

应用在实物机器人 Pioneer 1 和 Khepera 上, 进行了避

障方面的实验, 效果良好, 但是, 模型更侧重于对经

典条件反射的建模, 对操作条件反射涉及较少. Ishii

等

[5]

为了研究动物与机器人之间的交互问题, 基于操

作条件反射理论, 在机器人 WM-6 和老鼠之间对斯金

纳老鼠实验进行了复现, 对比实验表明, 机器人与老

鼠之间的交互加快了操作条件反射建立的速度, 提高

收稿日期: 2013-04-27；修回日期: 2013-07-30.

基金项目: 国家自然科学基金项目(61075110)；北京市自然科学基金项目(KZ201210005001)；国家 973 计划项目

(2012CB720000)；高等学校博士学科点专项科研基金项目(20101103110007).

作者简介: 阮晓钢(1958−), 男, 教授, 博士生导师, 从事控制科学与工程、人工智能与认知科学、机器人学与机器人技术

等研究；黄静(1979−), 女, 博士生, 从事人工智能与认知科学、智能控制的研究.

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38635449

粉丝: 5
资源: 971

操作条件反射学习模型在机器人避障中的应用

一种自治操作条件反射自动机 (2012年)

平行光镜面反射模型DEMO

一种基于Matlab的光伏电池阵列仿真模型.zip

FirstSolar光谱校正模型算法

6s大气校正模型公式和公式法

swerling i 模型 编程

shap from shading 演化方法原理

基于matlab对掺yb光纤激光器仿真分析

介绍一下MODTRAN的作用和原理

csdn广义ras、矩阵平衡/更新

最新资源

swerling i 模型编程