没有合适的资源?快使用搜索试试~ 我知道了~
迭代学习控制器对工厂跟踪性能的显着改善
}第九届国际会计师联合会控制教育进展国际自动控制联合会,俄罗斯下诺夫哥罗德,2012年LEGO NXT用于迭代学习控制方案Anantha Ganesh Kamath, VishnuvardhanAvula, Darine Zambrano,瑞典乌普萨拉大学嵌入式系统硕士,SE-student.uu.se)。信息部系统和控制司技术,乌普萨拉大学,SE-it.uu.se)翻译后摘要:迭代学习控制器(ILC)建立在传统的控制之上,可以帮助工厂有效地跟踪其参考信号在重复的条件下。研究致力于此一直是一个广泛的话题,在过去的十年中,所以是实际应用,包括制造系统,化学过程,机器人等,在本文中,我们处理学习经验的ILC算法。它涵盖了如何在实验室解决实际问题,为学生提供一个全面的方法来理解控制工程。为此,我们选择了跟踪机器人作为我们的工厂。我们在真实平台上进行了一组实验,这是一个基于LEGO的机器人,当ILC以一种有趣且更便宜的方式补充非ILC控制器时,它使我们能够显示跟踪性能的显着改善。关键词:迭代学习控制,控制教育,教育辅助工具,重复干扰,RWTH,LEGONXT。1. 介绍任何需要紧密跟随期望轨迹的工厂都涉及控制系统。在许多情况下,轨迹具有有限长度并且本质上是重复的。因此,干扰和大多数错误是重复的。当从这些错误中学习时,性能会提高然而,传统的基于反馈的控制系统,例如那些采用PID控制器的控制系统,并没有利用这一事实。换句话说,它们不会在后续迭代中提高跟踪性能。或者,前馈控制器使用关于误差的信息预先和使对象的输出收敛到期望的。此类控制器之一是ILC,其依赖于来自先前迭代的误差和控制信号ILC的唯一主要目标是在每次迭代中即兴发挥性能它结合了学习功能,因此实现了单调递减的输出收敛曲线。ILC的最初想法来自于内山在1978年用日文发表的一篇论文 ( 内 山 , 1978 ) 。 术 语 ILC 首 先 在 Arimoto 的 论 文(Arimoto et al.,(1984年)写于1984年。从那时起,已经进行了大量的研究讨论的稳定性,性能,鲁棒性等问题今天,ILC被用于许多实际的工业应用,如工业机器人,感应电动机等。LEGO NXT已被证明是一个多功能的工具,用于不同教学水平的研究和教育目的使用LEGO NXT进行自动控制教学的先前工作包括模糊逻辑来跟踪预定义路径(Azlan等人,2007年)。此外,已经完成了使用卡尔曼滤波器来估 计 车 辆 的 位 置 和 方 向 的 工 作 ( A'ngelValera 等 人 ,2011),其可以扩展到跟踪应用。自适应控制理论也已经被用于有趣的基于LEGO的跟踪应用(Bobtsov等人,2011年)。然而,据我们所知,还没有研究在这个平台上使用ILC。本文介绍了使用LEGO NXT在线跟踪应用程序的ILC评估。从教育的角度来看,这种经验使学生深入了解与系统识别和机器人技术相结合的先进控制技术这使他们能够整合和应用来自不同领域的知识,以获得解决实际问题的方法。这是一个非常有用的技能,工程师,因为真正的问题是多学科的性质,并与团队技能相结合。除了上述好处,这些实践经验是高度重视和激励学生,因为他们可以应用他们的设计来测试他们的结果,也是许多实际方面的影响,如传感器,调整参数,模型不确定性等。本文件的结构如下。第2节向读者介绍了ILC背后的理论及其一些变体。它解释了背后的理论与它的相关术语。然后根据实现算法和因果关系对迭代学习控制进行了分析了迭代学习控制的稳定性、性能和一致性。© 2012 IFAC 128 10.3182/20120619-3-RU-2024.000122012年6月19日至21日,俄罗斯下诺夫哥罗德,国际会计师联合会第九届研讨会129聚散性第3节详细介绍了实验装置的建模和实施方面第4节提供了运行模拟和实际硬件的结果然后,它讨论了一些实际的障碍和原因之间的理论ILC和实施的差异。第5节通过强调在LEGO NXT平台上使用ILC的性能改进来总结本文。2. 迭代学习控制器迭代学习涉及从相同任务的先前经验中它适用于在相同操作条件下进行重复操作的应用在这样的应用中,一个简单的反馈控制器的结果在相同的性能为每个迭代。此外,反馈控制器总是对瞬时输入和干扰做出反应,因此它们在瞬态跟踪中具有滞后(Bristow等人,2006年)。但是在重复应用中,用于先前迭代的误差信号和控制信号是信息丰富的,并且可以用于改进后续迭代的性能这是ILC背后的基本思想,如图1所示。可以看出,plantuj(k)的当前迭代输入序列是先前迭代的结果输入uj−1(k)和输出yj−1(k)序列。在每次迭代过程中,被控对象的输入uj(k)和输出序列yj(k)只以便在随后的迭代中使用。因此,信息丰富的序列以加权的方式对控制信号作出贡献。这里,迭代和离散样本分别由j和k在存在重复干扰的情况下,迭代学习控制中采用的前馈控制有助于克服反馈控制器固有的滞后为了结合基本的ILC算法,有来自自适应控制器,其中控制器参数被修改而不是如ILC的情况中的控制信号2006年)。如果存在噪声和非重复干扰等外源信号,则ILC性能可能是有害的。在这样的应用中,可以选择使用自适应ILC。在(Prenaj,2007)中,讨论了一种这样的方法,其中通过使用卡尔曼滤波器来估计受控误差来降低ILC对外源信号2.1配方ILC算法可以根据许多属性进行分类,例如线性或非线性,离散时间或连续时间,频域或时域以及基于学习控制器的设计(Wall'en,2011)。ILC还可以基于贡献其误差和控制信号信息的先前迭代的数量来分类,以计算用于当前迭代的控制信号。这被称为ILC的命令随着阶数的增加,输出以更快的速度收敛于期望的输出。在这里,我们讨论了一些子变量的ILC的基础上实施的学习算法,这已在本文中进行了实验分析。让我们考虑一个离散时间LTI系统,其输出表示为,yj(k)=P(q)uj(k)+d(k)(1)其中,y是系统输出,k是离散时间索引,j是迭代索引,P是定义系统的函数,Q是前向移位算子,u是控制输入,以及d是外生周期信号。表示线性一阶离散时间ILC生成的控制信号的最常见形式是uj+1(k)=Q(q)[uj(k)+L(q)ej(k+1)](2)图1.一、ILC算法的基本思想需要满足的几个公理(Scholten,2000):(1) 工厂重复执行特定的操作,每次迭代具有有限的时间段。(2) 植物动力学是时不变的。(3) 期望的输出r(k)是先验给定的。(4) 对于每个试验,初始状态是相同的。(5) 设备输出y(k)是可观察的。(6) 存在唯一的输入u∞,它产生期望的输出r(k)。ILC不同于重复控制器(RC),因为在ILC中,初始条件在每次试验中被设置为相同的值,而在RC中,它们被设置为先前迭代的最终条件(Bristow等人,2006年)。此外,RC旨在用于连续操作,而ILC旨在用于不连续操作。ILC也不同其中,u是控制输入,e是误差信号,Q(q)是Q滤波器函数,并且L(q)是学习函数,它决定了迭代学习控制的类型。从(2)可以看出,当前迭代的控制输入取决于先前迭代的误差和控制信号,即:e. uj+1de p在ej和uj 上 结 束。控制输入的当前样本取决于误差信号的未来样本,使其成为非因果信号。然而,由于误差信号来自前一次迭代域,它们被存储在存储器中,从而使得控制信号是可行的,尽管是非因果的。或者,生成因果控制信号的ILC等效于反馈控制器,但是因果ILC在噪声环境的情况下表现更好(Bristow等人,2006年)。Q滤波器通常设计有截止频率,这使得系统鲁棒并提供足够高的带宽(Wal l'en,2011)。学习算法被认为是2012年6月19日至21日,俄罗斯下诺夫哥罗德,国际会计师联合会第九届研讨会130≤−∞J因果的,如果uj+1(k)dep结束于uj(h)和ej(h),对于h如果h > k,则为非因果。对于非因果学习算法,通常没有等价的反馈控制器可以匹配迭代学习控制器的性能这是因为非因果算法预测干扰d(k + 1)并用控制信号uj+1(k)抢先补偿(Brist Ow等人,2006年)。如果conntrol算法还包括反馈,则其变为当前迭代ILC,参见图13。二、由当前迭代ILC生成的控制信号被给出为,uj+1 (k)=Q(q )[uj (k)+L(q)ej (k+1)]+C(q)ej+1(k)(3)其中,C(q)是反馈控制器的增益。在我们的实验中,我们将C(q)实现为PID控制器。参数的选择独立于迭代学习控制器,以最小化误差并保持系统稳定。存在u′∈Rsu c h,|uj(k)|对于所有k={0,. . . ,N−1}且j ={0,1,. . . ,M −1},且对于所有k ∈{0,. . . ,N-1},limuj(k)(5)j→∞存在(Bristow等人,2006年)。等价地,系统可以被认为是渐近稳定的,当且仅当(Bristow et al.,(2006年)ρ(Q(q)(I-LP(q)1(6)<其中,ρ是矩阵Q(q)(I LP(q))的谱半径,并且I是一个单位矩阵。2.3业绩如果我们认为一个系统是渐近稳定的,我们可以找到渐近误差,e(k)=limej(k)(7)j→∞图二.当前迭代迭代学习控制在其学习算法中包括前馈和反馈信号。本文讨论了两种已进行实验分析的离子液体色谱,P和PD型ILC。P型ILC:在这种类型的ILC中,学习函数L(q)是一个比例增益(Wal l′en,2011)。从(2)可以看出,在将来自先前迭代的误差信号应用于控制流之前,对其进行修改在高阶ILC的情况下,在给定最大权重的情况下,按照权重递减的采用Q滤波器来提高控制器对外界干扰的鲁棒性.它是一个低通滤波器,可抑制控制信号中的高频噪声和意外浪涌。误差和控制信息存储在存储器中,并用于生成后续迭代的控制信号。如前所述,输出收敛曲线的速度随着高阶ILC的增加而增加。PD型ILC:PD型ILC还包括除了其学习分量L(q)中的比例增益之外的连续项(Bristow等人,2006年)。这种迭代学习控制的优点是对初始条件的变化具有鲁棒性。然而,它在干扰存在的情况下表现不佳L(q)ej(k+1)=kpej(k+1)+kd[ej(k+1)-ej(k)](4)其中,kp是比例增益kd是差分增益2.2稳定在(1)中描述的系统由ILC控制,如在(3)中描述的,被称为渐近稳定的,如果存在其中,e∞(k)是渐近误差,ej(k)是第j次迭代的误差。然后通过比较算法的收敛误差与初始误差之差来评价算法的性能。定量测量性能的一种方法是使用每次迭代的误差的均方根(RMS)值。这也是我们在实验中使用的度量2.4收敛性质期望具有单调收敛以避免大的学习瞬变。我们可以通过使用渐近误差(Bristow等人,2006)或通过使用渐近线icILC输入(Wall'en,2011)。称该系统是单调收敛的在一定的规范下||·||因为,||≤γ·||e∞ − ej||(八)||(8)或者作为,||2≤ γ·||u∞ − u0||第二章(九)||2(9)其中,e∞是渐近ILC误差,ej是第j次迭代的ILC误差u∞是渐近ILC输入,uj是第j次迭代的ILC输入,以及γ是常数,使得0≤γ 1。3. 实验装置目标是使飞行器沿着预定的轨道连续运行,为此可以采用PID或状态反馈控制器。但使用ILC算法具有一定的优势,因为任务本质上是在我们的实验中,在第一次迭代期间,PID控制器用于保持车辆在轨道上,然后对于连续迭代,ILC算法是2012年6月19日至21日,俄罗斯下诺夫哥罗德,国际会计师联合会第九届研讨会131中国xtec3(t)sin(x1(t))∫W2与PID结合使用以改善跟踪性能,即当前迭代ILC。参见图3,车辆是一辆三轮车,其前部附接有光传感器。两个前轮将由直流电机驱动,而后轮将用于支撑。光传感器给出车辆在轨道上的位置的反馈。我们还使用声音传感器来通知车辆完成单圈。因此,一旦车辆沿着路径移动并到达起始位置,就可以拍手重置初始条件。如第2节所述,ILC算法要求在每次试验中设置相同的初始条件。转化为平移和旋转运动。平移运动发生在垂直于轨道的方向上,不y(t)=L· sin(φ(t))+v·sin(φ(τ))dτ(10)0其中,L是从旋转中心到光传感器的距离φ是车辆轴线与轨道中心所成的角度v是车辆直流电动机的输入电压在车轮上产生扭矩,该扭矩负责车辆的旋转运动。这个合成扭矩可以用两种方式表示,其中,T=R(τl−τr)=Iφr(十一)图3. 使用LEGO NXT制造的车辆我们使用RWTH工具箱(RWT,2011)来编程NXT模块。RWTH工具箱提供了从Matlab控制乐高积木的API。因此,所有的计算都在PC中执行,然后控制信号通过USB电缆传输到乐高积木。 也可以使用蓝牙连接进行通信。T是作用在车辆R是轮轴半径τl,r是车辆左右轮上的扭矩I是机器人绕旋转中心的转动惯量r是车辆从力学上讲,机器人绕旋转中心的角度可以定义如下,与乐高积木沟通,但它有一个延迟,大约60 ms,这可能妨碍算法的性能φ=r(θl−θr)2R(十二)如图4所示,实验轨迹具有从黑色到白色的均匀梯度由于均匀的梯度,反射光的强度将在轨道的宽度上线性变化。轨道中较浅的阴影比较深的阴影反射更多的光。该信息用于测量车辆与轨道中心的距离式中,θl,r为左右轮使用(11)和(12),输入电压和旋转角度之间的关系可以导出为,W·φ¨+φstec=K·u(13)其中W和K是常数。在我们的实验中,W和K的值分别为0.15和0.0262由(10)和(13)描述的非线性系统可以用状态空间形式表示如下,阿勒特x=[x1(t)x2(t)x3(t)]T=[φφstecsin(φ(τ))dτ]T(14)0Textec1(t)图的右边是一个形状,22016年12月20日星期一见图4。图像的左侧显示均匀梯度xstec(t)=−1x(t)+Ku(t)(十五)为了校准,我们在轨道上标记点y= 10、 5、 0、 5、 10mm,其中0 mm与轨道的中心重合记录这些点处的光强度。使用最小二乘法找到y中的点与相应光强度之间的关系为了进行仿真,我们使用车辆的运动学模型车辆在轨道上的运动可以分解为实验中使用的轨道02012年6月19日至21日,俄罗斯下诺夫哥罗德,国际会计师联合会第九届研讨会132{− −}y= [Lsin(x1(t))+vx3(t)](16)4. 实验验证4.1 仿真结果在这一节中,我们验证了迭代学习控制在使用非线性模型进行2012年6月19日至21日,俄罗斯下诺夫哥罗德,国际会计师联合会第九届研讨会133在(15)中描述的车辆。在存在重复干扰的情况下,我们使用PID和ILC进行了6次迭代的仿真。我们选择采样时间为30 ms。图5显示了模拟结果。第一个曲线图是仅使用PID控制器的结果,第二个曲线图显示了使用ILC和PID控制器获得的改进。在任一种情况下,期望响应或参考信号yd是具有1个单位的峰值幅度的方波,其具有渐变的斜率,并且使用虚线表示实线用于表示测量的模拟输出yi。对于仿真,PID控制器的参数kp、kd和ki分别被选择为425、200和20,并且ILC被设计为具有等于0.05的学习增益的P型。结果表明,采用PID控制器的系统不能适应重复扰动,每次迭代的稳态误差保持不变。与PID不同的是,ILC通过学习和拒绝这些重复的干扰而表现得更好当仿真进行了较长的持续时间,可以看出,由ILC产生的输出紧密匹配的参考信号。图五.使用无ILC和有ILC的车辆的非线性模型的结果。4.2 使用LEGO NXT的在真实硬件上的评估比仅仅模拟提供了更丰富的学习经验。模型在捕捉植物及其环境的所有属性方面是不现实的。因此,某些对工厂预期行为至关重要的方面可能会被遗漏,但仍然看起来正常。然而,在实际系统中,忽略这些细微之处的效果是显而易见的。正是这种实现的优势帮助学生熟悉控制系统。这已经通过讨论在LEGO NXT上实施ILC时所面临的一些缺点得到了证实,尽管在模拟过程首先,该工厂是敏感的非重复干扰,这对ILC的性能有威慑作用在开始实验之前,它需要仔细的实验设置其次,在运行实际的硬件. 虽然模拟结果接近理论性能,但它们远远不能解释这种异常现象。因此,在LEGO NXT上进行的评估需要修改,这反过来有助于理解基本理论。在所有的实验中,车辆绕轨道行驶了五圈。采样时间为30 ms,反馈控制参数kp,kd和ki分别为3,1和0。由于系统具有固有的积分作用,因此不需要积分控制来稳定系统。在主动模式下,光传感器减少了环境光条件的影响结果表明,引入迭代学习控制后,由于重复干扰引起的误差明显减小。磁道梯度的不均匀性或磁道宽度的偶然不规则性可以解释这些重复干扰。采用一阶迭代学习控制的结果:第一次迭代采用PID控制器使飞行器跟踪轨迹ILC控制器以0.05的学习增益实现,并且Q滤波器被设计为具有等于10 Hz的截止频率的3阶低通巴特沃斯滤波器。所得结果绘制在图6中,2-范数误差值列于表1中可以看出,使用迭代学习控制后,误差显著减小见图6。一阶迭代学习控制算法表1.用一阶迭代学习控制算法得到了每次迭代的最小、最大误差和2-范数误差迭代12345误差最小值-12.5862-14.8030 -11.8473-12.9557-12.9557最大误差17.0936 16.7241 15.2463 15.1232 12.16752-范数误差 3.04232.3743 1.8761 1.9429 1.7129该图显示,后续迭代(使用ILC)的误差值不会单调下降。这是因为如前所述,在重置初始条件时不准确使用PD型和二阶ILC的结果使用二阶ILC获得的误差的瞬时值2012年6月19日至21日,俄罗斯下诺夫哥罗德,国际会计师联合会第九届研讨会134ILC如图7所示。此外,每次迭代计算的2-范数误差如表2所示。当使用PD型学习控制器重复实验时,我们观察到跟踪性能优于PID,但与第4.2.1节中讨论的一阶P控制器相当。使用PD型ILC获得的结果绘制在图1中8,2-范数误差值列于表3中。表2.用二阶迭代学习控制算法得到了每次迭代的最小、最大误差和2-范数误差迭代12345误差最小值-13.4568 -11.8519-10.3704-12.5926 -10.3704最大误差8.5185 11.6049 10.0000 10.6173 12.09882-范数误差 2.89142.1879 1.5146 1.59371.6349图第七章二阶迭代学习控制算法的瞬时误差值表3.给出了PD型一阶迭代学习控制算法每次迭代的最小、最大误差和2-范数误差迭代12345误差最小值-12.9557 -15.2956-13.3251-13.3251 -12.2167最大误差17.2167 15.8621 15.9852 17.0936 14.87682-范数误差 2.89112.4769 1.7606 1.91671.85135. 结论实验分析表明,在现有的反馈控制器的基础上,采用迭代学习控制器可以在很大程度上提高被控对象的跟踪性能。从模拟4.1中获得的结果,很明显,误差值在连续迭代中单调减小,并且在重复干扰下,与PID相比,ILC提供了更好的跟踪性能。LEGO NXT实验提供了一个宝贵的经验,说明了缺乏准确性的影响,在重置初始条件,重复distur-干扰,噪音测量,以及了解图八、PD型一阶迭代学习控制算法的瞬时误差值在现实条件下的控制器的优点和缺点使用迭代学习控制器的结果产生了明显的减少误差和一个PID控制器的明确改善。迭代学习控制的能力,从重复干扰,再加上一个强大的反馈控制器,使一个重复控制应用实现最佳解决方案。总之,这类教学活动使学生有机会经历学习过程的不同阶段,比纸笔练习甚至模拟更丰富引用(2011年)。http://www.mindstorms.rwth-aachen.de/。A'ngelValera,Val l'es,M., 和Ma'rin,L. (2011年)。卡尔曼滤波器应用于LEGO NXT机器人的设计与实现9830-9835。第18届国际会计师联合会世界大会。Arimoto , S. , Kawamura , S. , Miyazaki , F. ( 1984年)。通过学习改善机器人的操作。卷1,123-140。机器人。系统Azlan , N. , Zainudin , F. , Yusuf , H. , S.F.Toha ,Yusoff,S.,和Osman,N.(2007年)。基于模糊逻辑控 制 的 小 型 LEGO 机 器 人 本 科 生 实 训 系 统 。 2184-2188。工业电子与应用,ICIEA 2007,第二届IEEE会议。Bobtsov , A. A. , Pyrkin , A.A. , Kolyubin , S.A. ,Shavetov , S.V. , Chepinskiy , S.A. , Kapitanyuk ,Y.A. , Kapitonov , A. A. , Bardov , V.M. , Titov ,A.V. , 和苏 罗夫 作 案手 法(2011 年 )。 使用 LEGOmindstorms NXT技术进行自适应控制理论基础的教学9818- 9823。第18届国际会计师联合会世界大会。布里斯托地方检察官Tharayil,M.,和Alleyne,A.G.(2006年)。迭代学习控制综述:基于学习的高性能跟踪控制方法。IEEE控制系统杂志,96普雷纳伊湾(2007年)。一种自适应迭代学习控制算法在直线电机中的应用。瑞士联邦理工学院洛桑工程学院硕士论 文 。Scholten,P.(2000年)。线性马达运动系统之迭代学习控制设计。特温特大学硕士内山湾(1978年)。用轨迹法建立机械臂Trans SICE,14(6),706我们会的,J。(2011年)。基于估计的独立学习控制. 博士林雪平大学电机工程系博士论文
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功