最优控制与微分对策课程的模型空间问题

183 浏览量更新于2023-11-30 收藏 807KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

·V∈第九届国际会计师联合会控制教育进展国际自动控制联合会，俄罗斯下诺夫哥罗德，2012年飞机制导在最优控制和微分对策瓦莱里湾帕茨科·安德烈·A.费多托夫·谢尔盖·A.Ganebny是Sergey S.库姆科夫斯基俄罗斯科学院乌拉尔分院S.Kovalevskaya str.，16，Ekaterinburg 620990 Russia（电子邮件：patsko@imm.uran.ru）.本文描述了作者在最优控制和微分对策课程中使用的模型空间问题。关键词：教育，最优控制，博弈1. 介绍在过去的两年里，第一作者在俄罗斯叶卡捷琳堡的乌拉尔国立大学数学机械系为第一年的硕士生读了一个学期的最优控制和微分对策课程（14堂课）。由于听众的专业各不相同，所提供的材料并不假定他们对这个问题有任何初步的了解。关于最优控制的六次讲座专门讨论了控制系统的可达集的概念，开环控制将系统引导到其可达集的边界上的一点上的陈述满足庞特里亚金最大值原理。在证明了这一陈述之后，线性和非线性最优控制问题与一些具体的最优性准则（例如，具有固定的终止时刻和积分终端支付函数的问题其他八个讲座有关的博弈理论是基于最大稳定桥（MSB）的概念，这是一个关键的克拉索夫斯基的理论解决问题的冲突控制MSB的概念是控制论中可达集管概念的自然推广。在具有payo函数的博弈控制问题中，MSB是从payo函数的水平集（Lebesgue集）通过向后过程建立的。在博弈空间中，桥定义了问题的可解集，其结果不大于某个常数c，其中c值对应于所选的水平集。此外，以下材料被认为是：一个极端的位置策略的概念，与指导的控制方案，方法的基础上的开关表面的位置控制。对于状态向量维数较小的问题这门课的特点如下。在每次讲座结束时，演示了大约20分钟，这些材料与讲座的主题有关作者们组成了航空航天制导问题的模型，这些问题在他们的科学工作中已经被研究文中描述了四个2. 飞机平面运动模型的三维可达集对于导航计算，使用了以下飞机在水平面内运动的模型（Miele（1962）; Pecsvaradi（1972））：xstec = V sin θ，y stec = V cos θ，θstec = g tan γ;|γ|≤ 30 μ m。（一）这里，x和y是飞机的笛卡尔坐标，θ是从y轴的正方向顺时针计数的速度矢量的角度，V是速度的大小，γ是倾斜角，g是重力加速度。假设V= const。然后，在归一化之后，我们从系统（1）传递到以下系统：x stec = sin θ，y stec = cos θ，θstec = u;|u|≤ 1。（二更）模型（2）也用于理论机器人学;它被称为给定时刻t的可达集G（t;x0，y0，θ0）是系统（2）的轨迹在允许分段连续控制u（t;x 0，y 0，θ 0）下从初始点 t（x 0，y 0，θ0）（在起始时刻t0= 0）到该时刻t所能达到的所有位置（x，y，θ）的集合. 在不损失y的一般性的情况下，假设x0=y0=θ0=0。用yG（t）表示这一点的可达集。在论文（Patsko et al.（2003））中，建立了（基于庞特里亚金最大值原理对系统（2）的应用此外，只有6种变体改变控制：1）1，0，1; 2）-1，0，1; 3）1，0，-1;4）−1，0，−1;5）1，−1，1; 6）−1，1，−1.© 2012 IFAC 324 10.3182/20120619-3-RU-2024.000422012年6月19日至21日，俄罗斯下诺夫哥罗德，国际会计师联合会第九届研讨会325≡G≡−−≡≡≡≡−∈−GG−∞ ∞ttytXyXt第二变型意味着控制u1作用于某个区间[0，t1），控制u0作用于区间[t1，t2），并且控制u2作用于区间[t1，t21在中间值[t2，t]上运算。如果t1=t2，则第二个输入值（其中u0）消失，我们从u = 0得到一个开关。 1至 u= 1. 在t1=0的情况下，第一个区间，其中u1消失;在t2=t的情况下，第三个区间u1缺席。如果以下三个条件之一成立，则控制具有恒定值：t1=t，t2= 0，或t1= 0和t2=t。类似的性质对于其他变体也是如此。关于控制u（t）转向可达集G（t）的边界的六个变体的命题它的形式与Dubins 相同的变量是有效的。然而，由于集合之间的关系，4)-1，0，-1Xy第五章）5)一，-一，一四、yx2）2)-1，0，1六、3)1，0，-1第三章6)一，一，一1.51）1，0，1第一章G（t）和（t）（集合（t）是集合G（s）在s[0，t]上的并集），导致集合G（t）的边界的控制的上述性质导致在导致集合G（t）的边界的控制的类似性质中，但反之则不成立。我们将上面关于控制u（t）转向到BRG（t）的结构的公式化结果应用于边界BRG（t）的数值构造。为了构造集合G（t）的边界G（t），我们搜索在时刻t1，t2具有两个开关的形式1-6的所有控制。对于开关的每个变体，参数 t1从区间[0，t]中选择，并且参数 t2从区间val[t1，t]中选择。此外，还考虑了具有一个开关和不具有开关的控制器采用一种特定的切换变体，并在一些表面精细的网格上搜索参数t1，t2，我们得到一个在三维空间x，y，θ中生成曲面的点的集合。因此，六个变体中的每一个都在三维空间中产生其自己的表面可达集G（t）的边界由这些曲面的片组成.这六个表面被加载到可视化程序中，而无需任何额外的数据处理利用该程序提取了可达集的边界。有些曲面（部分或全部）位于可达集之内可视化程序不会绘制这些碎片。利用标准格式的VRML进行交互式矢量图形演示，通过CortonaVRML Client程序绘制三维场景图1示出了集合G（t）在时间t = 1处的边界。5、从两个角度看。边界的不同部分用不同的例如，对于具有两个开关的形式1，0，1的控制u（t）的轨迹，部分2是可达的。由平面θ= const构成的可达集的截面沿着轴θ以一定的步长来描绘。图2示出了在四个时刻t的相同视角但具有不同尺度的可达集合G（t）。注意，在解决问题的过程中，我们假设角度θ可以在范围内变化（、）.这允许看到集合G（t）随着t的增长的演化规律。它图1. 集合G（1. 5π）从两个角度图2.可达集G（t）图3.具有θ的集合G（2π）以2π为模计算可以很容易地传递到集合，其中角度θ是以2π为模计算的。图3示出了这样的集合G（t），其中t= 2π。2012年6月19日至21日，俄罗斯下诺夫哥罗德，国际会计师联合会第九届研讨会326--（）。.uuBvvB−u∈P<$Rp，v∈Q<$Rq，φxi（T），xj（T）沿着初始标称视线进行调节轴OY与OX正交，位于由下式定义的平面内u∈ P， v ∈ Q， φ ∈（T），φ ∈（T）.（四）=v，u∈P，v∈Q，}+∈}+∈在证明非线性系统（2）的这些三维集的瞬时时，我们强调庞特里亚金所得曲面的某些部分位于可达集之内，但也满足极大值原理。3. 具有固定解集的Linear diejeet gamesxstec=A（t）x+B（t）u+C（t）v，t∈（[t0，T]，x∈）Rn，图4.初始时刻拦截问题位置PnomOX轴为二-具有固定的终止时刻T和依赖于相向量的两个分量xi，xj的连续支付函数φ是一类非常重要的博弈。对于这样的游戏，有有效的数值程序来构造水平集的价值函数。我们假设第一（第二）个参与者从凸紧集P中选择控制u（v）（Q）在时刻T最小化（最大化）payoφ的值。的可变变化n（t）=Xi，j（T，t）x（t）提供了一个标准的通行证，以一个等效的电子游戏。这里，Xi，j（T，t）是用于微分方程xstec =A（t）x的基本柯西矩阵X（T，t）的第i行和第j行的组合矩阵。这个等价的博弈是n=D（t）u+E（t）v，t∈（[t0，T]，n∈）R2，12标称速度的矢量（图4）。OZ轴与上述两个正交由于实际速度VP（t）和VE（t）与其标称值（VP）nom和（VE）nom的偏差很小，因此可以认为沿轴线OX因此，可以在标称碰撞的瞬间将未命中计算为平面Y Z中的物体。因此，最小化最近空间脱靶量的问题可以归结为在标称碰撞的固定时刻T处最小化YZ将物体的动力学相对于名义运动线性化x-P=aP，t∈[0，T]，astecP=（u−aP）/τP，xP，xE∈R2，x¨E在讲座课程中，我们描述了一个近似逐步构建游戏（4）的MSBW的时间段W（t该桥从终端集合M构建，该终端集合M被视为平面中的多边形。作为博弈（4）中具有支付函数φ的集合M，我们取水平集Mc= （φ1，φ2）：φ（φ1，φ2）≤c.φx P（T），x E（T）= x E（T）− x P（T）。这里，xP是第一个（追赶）玩家的位置矢量，xE是第二个（躲避）玩家的位置矢量，τP是表征第一个玩家控制动作惯性的时间常数。限定第一和第二玩家控制的集合P和Q4. 线性拦截问题P={2 2罗2：1- 2P P考虑一个与拦截问题有关的二次博弈（Shinar et al.（1984）; Shinar and Zarkh（1996））。Q={2 2罗2：1- 2E E在这个问题中，追踪者是反导弹，是一个机动空中目标自然有效距离是最小接近距离，也就是脱靶量，它由追踪者P最小化，由逃避者E最大化。的载体初始标称速度（VP）nom和（VE）nom是有方向的，这样就有一个精确的colli。沿着标称直线轨迹的方向控制每个物体的方向与当前速度矢量（建筑物纵轴的当前方向）正交。横向操纵加速度的最大值由常数μ和ν限定。假设μ> ν。逃避者直接控制其加速度，但追赶者有一个附加的惯性环节，其时间常数为τP。物体在运动过程中改变其速度方向的能力很小（弱机动物体）。坐标轴的选择按以下方式进行原点O与名义上的追求者半轴A P、B P、A E、B E平行于坐标轴，并且可以基于限定玩家的加速度的常数μ、ν以及角度（χ P）nom和（χE）nom的余弦来计算。终止时刻T是固定的。payo是几何距离在终止时刻的物体之间。第一个参与者最小化收益，第二个参与者最大化收益。通过引入二维向量 y=xE xP ，系统（ 5 ）可以重写为（3）。在坐标系（4）中作了数值计算在图5中，对于情况（V P）nom（V E）no m，在空间t、t 1、t 2中示出了值函数的两个水平集（两个MSB）<。可以看出，较大的集合（对应于c = 1。#36825;有平滑的边界。较小的集合（对应于c = 1。546）具有狭窄的喉部的放大视图如图6所示的一一（三）（五）≤1、22≤1.222012年6月19日至21日，俄罗斯下诺夫哥罗德，国际会计师联合会第九届研讨会327x−P1=aP1，astecP1=（u1−aP1）/τP1，x-P2=aP2，astecP2=（u2−aP2）/τP2，（六）|u1|≤µ1，|u2|≤µ2，a P1（t0）= 0，a P2（t0）= 0.这里，xP1和xP2是追踪器的几何坐标，aP1和aP2是由控制器u1和u2产生的它们的加速度。时间常数τP1和τP2定义了控制系统的速度。逃避者E的动力学是类似的：xE=aE，astecE=（v-aE）/lE，（七）图5.一个水平设置与一个狭窄的喉咙和一个较大的|≤ v，a E（t0）= 0 .|≤ ν, a E(t0) = 0.让我们固定一些时刻T1和T2。在时刻T1，计算第一个追赶者相对于逃避者的脱靶量，在时刻T2，计算第二个追赶者的脱靶量rP1，E（T1）=|xE（T1）−xP1，E（T1）|、rP2，E（T2）=|xE（T2）−xP2，E（T2）|.（八）图6.狭窄喉咙构造了参数T = 7。0，τ P A P= 0。871，B P= 1。30，A E= 0。71，B E= 1。00.=1，假设追捕者协调行动这意味着我们可以将它们加入到一个参与者中（称为第一个参与者）。此播放器管理矢量控制u=（u1，u2）.逃避者被算作第二个玩家。由此产生的未命中如下：φ = min {rP1，E（T1），rP2，E（T2）}.（九）在任何时刻t，两个参与者都知道所有状态坐标xP1，xs t e c P 1，aP1，xP2，xs t e c P 2 ，aP2，xE，xs t e c E ，aE 的精确值.第一个参与者选择反馈控制使失误φ最小，第二个参与者使失误φ最大。研究这个问题，我们把两个一维在课程中涉及这个模型问题的主要目的是展示椭圆约束P和Q如何自然地出现。此外，这个问题表明，解决方案如何戏剧性地依赖于游戏的参数。5. 拦截问题与两个相对几何坐标y1=xE−xP1，y2=xE−xP2并且进一步地，到坐标θ1θ2，其分别是y1和y2到实例T1和T2的预测。在三维空间t，t1，t2中构造值函数（MSB）的水平集。图图7中，可以看到对于问题的以下参数数值获得的值函数的水平集追求者和逃避者µ1= µ2= 1。1， ν = 1， τP1=τP2 =1/0。六，类似于前一个但有两个追踪者的拦截问题是非常困难的，因为如果保持每个追踪者和逃避者之间的几何脱靶的第二维，那么等价博弈（4）具有4维相向量。为了合理地简化问题，我们假设：标称速度（VP）nom，（VP）nom，τ E= 1， T1= T2= 20.随着后向时间的增长，t截面失去连通性，分离为两部分，并随着后向时间的进一步增长而在讲座中，我们向学生展示了问题参数的其他变体的水平集。我们强调，水平集的t-截面的非凸性，（五）1 2价值函数和失去连通性，他们是Enom在初始标称几何形状的平面内所有三个对象的位置和追求发生在这架飞机也是。如果在控制方案中，追踪者的控制被分离成两个通道：“垂直”和“横向”，则可以考虑这种情况这两个通道中的每一个中的未命中是一维的。从数学的角度来看，在每个通道中，我们都有一个问题，两个追赶者P1，P2和逃避者E沿着一条线移动。追踪者P1和P2的动力学描述是（LeM'enec（2011））由支付功能的具体类型规定（9）。如果公式（9）包含max而不是min，则对于任何t≤max{T1，T2}，值函数将是凸的。6. 风干扰飞机在风扰动下的起飞和着陆是应用现代数学控制方法2012年6月19日至21日，俄罗斯下诺夫哥罗德，国际会计师联合会第九届研讨会328×----联系我们≥--图7. 截面失去连通性的值函数的水平集理论和博弈论的实际问题。但这些问题在形式化过程中存在一些困难。飞机有四个控制装置：推力、升降舵、方向舵和副翼。其控制范围的界限是已知的。因此，在形式化过程中，我们可以严格描述的约束，为有用的控制。但是对于扰动的约束即使假设它的某个中间最大水平，并考虑到理论上最坏的实现，该过程的结果此外，如果实际的风干扰很弱，那么结果是好的，但是控制的实现在技术上是不好的：它从一个极值切换到另一个极值，而不是保持一些中间水平。因此，在形式化过程中，我们遇到了一个固定终止时刻的问题。这样，动态干扰的水平是有界的，但先验未知。为了应用标准控制方法，我们执行以下操作。首先，为扰动选择一些单调增长的约束族Qk，k0。对于k= 1的集合Qk称为临界的。它是从干扰的一些“合理”估计中选择的。对于每个值k，我们也定义了一些约束Pk用于有用的控制。它生长其中k∈[0， 1]。当k= 1时，它等于P，即控制的最大能力。如果k≥1，则Pk=P。每对Pk，Qk与某个终端集Mk一起在时空t相矢量x中产生一个稳定的管（桥）Wk。它具有以下稳定性：如果初始位置在管中，扰动的实现在集合Qk内，则从集合Pk取其值的有用控制可以使运动保持在该管内。如果取在k上单调增长的终端集族Mk，则稳定桥系统Wk也是单调的.系统根据以下程序生成控制。在时刻t，我们测量当前相位状态x（t），并求出值k′suchx（t）是Wk′的最小值。然后，我们从集合Pk′中选取一个适当的控制值，并将其保持在某个小的时间段内如果在这段时间结束后，系统的运动离开桥Wk<$，那么扰动实际上是高于Q k<$的水平。因此，在接下来的一段时间里，我们将采用更高层次的控制（如果可能的话控制的值将从某个集合Pk，k>k中导出，该集合对应于一个桥Wk，该桥的边界包含新的系统位置。反之亦然，如果运动进入桥Wk′的内部，到达某个较低水平的桥，那么在下一个时间段内，我们将应用对应于由系统实现的某个桥Wk、k

下载后可阅读完整内容，剩余1页未读，立即下载