基于后验隐马尔可夫模型的机器人轨迹学习方法

132 浏览量更新于2023-12-09 收藏 1.31MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

埃及信息学杂志18（2017）171全文基于后验隐马尔可夫模型状态分布的轨迹学习Asmaa A.E.放大图片创作者：Osman J.El-Khoribi，Mahmoud E.Shoman，文学硕士Wahby Shalaby埃及开罗大学计算机和信息学院信息技术系阿提奇莱因福奥文章历史记录：2016年8月16日收到2016年11月26日修订2016年12月22日接受2017年1月11日在线提供保留字：机器人轨迹学习隐马尔可夫模型后验状态分布A B S T R A C T许多生活应用非常依赖于使用机器人，因此人类正在寻求开发高效的机器人。机器人学习是为了达到目标构形而获取额外的知识。另外，机器人演示学习是指在人的指导下，教机器人如何完成特定的任务。到目前为止，从演示学习依赖于离散的数据，这可能会导致学习结果的失真。因此，数据的预处理阶段是必要的，以处理这种失真。本文提出了一种利用一组演示轨迹生成广义轨迹的新方法。这样，预处理的数据最初使用，而不是原始数据，预处理是使用后验隐马尔可夫模型状态分布。该模型的其余部分基于为每个示范确定的一组关键点。我们提出的方案是实验比较以前的作品。结果表明，我们所提出的方案是能够减少的错误相比，其他最近的计划与微不足道的增加计算成本。©2017制作和主办由Elsevier B.V.代表开罗计算机和信息学院大学这是一篇CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍如今，人类的需求高度依赖于在许多生活应用中使用机器人。因此，生产智能机器人的需求急剧增加。机器人学习被认为是机器人学和机器学习领域的结合。从机器人的当前状态转换到另一个状态以执行新的动作（即策略）是机器人应用的核心。机器学习技术传统上用于开发新策略[1]。为机器人编程的传统技术是有一个人类程序员。程序员需要编写所需的任务，并使机器人适应任何新的情况。在这种技术中，程序员需要将任务分解为许多步骤，然后为每个步骤执行测试。如果机器人遇到了unex-*通讯作者。电子邮件地址：asmaa.a. fci-cu.edu.eg（A.A.E. Osman）。开罗大学计算机和信息系负责同行审查。在对任务进行编码并部署机器人之后，编码过程可能需要大量修改或重复。与这种传统的学习技术相比，机器人从演示中学习不需要专家用户，因此它消除了深入研究技术细节的需要[1通过演示进行机器人编程，可以开发使用机器人作为手术助手的新医疗应用[4]。在从演示技术中学习中，开发了常用的方法，使机器人学习如何使用自己的传感器来完成任务，而不是解释演示者甚至另一个机器人的身体。演示者使用多个演示以迭代的方式教导机器人，从而使机器人能够产生通用的演示。如果在执行任务过程中发现任何错误，演示者将只提供其他演示。其目的是扩大机器人处理新条件的能力，并根据这些条件进行调整。在从示范中学习时，状态和行动之间的映射应该从经历的状态到已经采取的行动来完成。从示范中学习分为两个阶段，首先收集示范，然后根据收集的示范制定新的政策[1]。http://dx.doi.org/10.1016/j.eij.2016.12.0031110-8665/©2017制作和主办Elsevier B. V.代表开罗大学计算机和信息学院这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表埃及信息学杂志杂志主页：www.sciencedirect.com172AAE Osman等人/Egyptian Informatics Journal 18（2017）1712fg许多技术已被应用于在轨迹水平上对演示数据进行建模在文献中已经发现，隐马尔可夫模型（HMM）、高斯混合模型（GHMM）和条件随机场已成功应用于对演示数据进行建模[3，5Alizadeh等人。[3]采用了一种方法，专注于当任务再现存在一些遗漏参数在他们提出的方法中，他们使用高斯混合模型进行轨迹再现。Vakanski等人[8]提出了另一项工作，作者采用了一种追踪繁殖的方法。在他们的方法中，条件随机场被用于对演示进行建模，并找到再现一般化轨迹所需的最重要特征HMM是最广泛使用的技术相比，在文献中发现的其他技术，因为它的能力，模型的空间和时间的变化数据卡里农和比拉德[6] 采用基于隐马尔可夫模型的关键点方法生成轨迹。利用隐马尔可夫模型的前向算法来寻找一组观测序列。然后，对对数似然最高的序列，采用Viterbi算法寻找最可能的隐藏状态序列。三阶样条拟合被应用于寻找广义轨迹。这种方法的缺点是他们只使用了一个演示中的关键点。广义轨迹可能会错过一些重要的关键点，发现在其他的演示。Asfour等人。[7]采用类似的基于HMM的关键点方法进行轨迹学习。作者使用术语“常见关键点”来指代所有演示中的关键点。维特比算法也被用来找到每个演示的最可能的隐藏状态序列。然后，在公共关键点之间使用线性插值来找到广义轨迹。这种方法的缺点是，他们在插值阶段只使用了公共的关键点。因此，它将消除一个重要的关键点，因为它在一次示威中被错过了Vakanski等人[9]采用了一种方法，即在轨迹再现中使用所有演示中作者使用然后，使用离散隐马尔可夫模型对关键点集进行建模。动态时间规整（DTW）应用于对齐的关键点的时间。为每组关键点分配权重系数，以考虑关键点在演示数据中的方差。最后，利用三次样条插值生成广义轨迹。他们的方法的缺点是，他们使用离散HMM（DHMM）来模拟演示的系统，这将导致演示数据中的局部失真。因此，需要对轨迹原始数据进行预处理以克服这种失真问题。Calinon和Billard[10]提出了一种手势识别和再现的方法。他们的方法基于两个主要阶段：（1）使用主成分分析（PCA）或独立成分分析（ICA）作为预处理阶段的数据的分解，（2）应用隐马尔可夫模型（HMM）的手势的编码。用于降维的另一种方法是因子分析器[11]。提出了一种基于概率运动基元表示演示轨迹的轨迹学习方法该方法通过人体记录运动信息，实现人与机器人之间的对应映射。该方法可用于许多应用，例如外科应用[4]。另一种从演示中学习的方法，避免将人类的身体解释为机器人的运动学，称为动觉教学，其中运动是使用机器人的身体记录[9]。这种方法对于高度动态的任务尤其重要[12]。在我们提出的方案中采用动觉教学法。从文献中可以看出，从演示学习主要依赖于离散数据，这可能会导致学习结果的失真。因此，数据的预处理阶段必须处理这种失真。一种通过采用后验HMM状态分布[13]作为预处理步骤，开发了机器人轨迹学习的新方案。后验HMM状态分布被用于使用隐藏状态集重构轨迹数据。使用重建数据代替原始数据来识别初始密钥因此，这将导致在识别初始关键点的位置方面的增强。在识别出初始关键点后，使用HMM对关键点集进行建模。然后，DTW用于关键点的时间对准。分配加权系数，使得低方差部分可以具有比高方差部分更高的权重。最后，最后一步处理使用三次样条插值来对对齐的关键点及其权重的集合进行插值，以找到一个广义的轨迹。本文的其余部分组织如下：数据预处理阶段在第2节，在第3节中的初始关键点的选择进行了讨论，建模的关键点是在第4节，轨迹概括在第5节，实验工作在第6节，最后的结果，比较和讨论报告在第7节。2. 后验HMM状态分布所提出的方案的输入由原始演示轨迹组成，该阶段的输出是预处理轨迹。在该阶段内执行两个步骤：（1）从其余数据中内插由NaN组成的遗漏字段;（2）在内插NaN字段之后，然后使用后验HMM状态分布重建内插数据。2.1. 数据收集本文提出的工作主要是基于从教机器人如何做特定的任务得到的数据。演示者通过移动机器人来教导机器人完成所需的任务，使得机器人将不需要解释教师或甚至另一个机器人的运动数据包含M个示出的轨迹的集合，每个轨迹Xm包含用于位置的6-D测量和用于工具的取向数据的欧拉滚转-俯仰-偏航角，其中m 1 ; 2 ;. M.我们提出了一个模型，用于从一组关键点生成广义轨迹，这些关键点定义了每个演示轨迹中最重要的特征。所提出的方案的框图如图1所示。我们使用后验HMM状态分布来插值数据，最初使用在每个轨迹中定义的状态集2.2. HMM参数初始化需要一组隐藏状态和观察符号来使用后验HMM状态分布。因此，每个轨迹的归一化位置和速度[9]使用K-means算法进行组合和聚类。聚类阶段使用两次：第一次表示一组观察符号中的每个轨迹，第二次表示具有一组隐藏状态。组合后的数据被映射到一组离散的观察符号（即Om）和集群标签（即Cm）。之后，所需AAE Osman等人/Egyptian Informatics Journal 18（2017）1711731;q2;：：;qtX¼英寸联系我们¼]16i6N我XNs我我我我-我PjdtjFig. 1. 拟议方案的框图。● 初始状态概率（p）在时间t处于状态i的概率由pi表示，并且其被初始化为p = [10. 0]。图二. HMM的图形表示为了应用后验HMM，使用聚类标签和观察符号来估计状态分布HMM的图形表示如图2所示，其中q t2 fs1;s2;. ;sTg表示隐藏状态，ot表示观察符号在时间索引f 1; 2;. ;t;t 1;.. . G. HMM可以表示为：k^fA;B;pg。● 转换概率（A）从时刻t的状态i到状态j的转换概率在时间t+1处由aiji]表示，形成状态trans-i。2.3. 轨迹重建在识别HMM的参数之后，计算增量矩阵概率在我们提出的方案中，增量矩阵被用来重建轨迹数据。对于状态Si，定义了任何序列对于前T个观测具有最高概率路径的概率dt ii，dtiqmaxpq1;q2;：：;qti;o1;o2;：：;otjdtiPqω1qω2：：qωti;o1o2：：otjk6我们将考虑：Pqωt ijo1o2· · ·ot;q1q2· ··qt-1位置矩阵A1/4 fa i jg，其中i;j1/4 f 1; 2;.. Nsg，Ns是模型中状态转换图如图3所示。状态转移矩阵计算如下：Pqωt<$i;o1o2·· ·ot;q1q2·· ·qt-1jk7jPqωtj;o1o2· ··ot;q1q2qt-1jk·········ai;i¼1- 1=si1=Z1Pqω<$ijo1o2···ot;q q·· ·qÞ ¼dtðiÞð8Þ不ai;i11=si 1=Z 21 2t-1Xjdtjai;i21= 4si1=Z3其中si是演示中状态i的持续时间，Z是归一化的常数。● 观察概率（B）当模型处于状态i时，符号qk的观测概率表示为bik P qk at t st i，形成观测概率矩阵。其计算方法如下：bi kn iqk =si4其中n i<$q k<$是符号q k的倍数出现在斯泰特岛dti计算如下：● 初始化dtipibiO1;16i6N9● 递归dtjmax½dt-1iaij]bjt;26t6T;16j6N10用于计算Δ矩阵的数值示例示于表1中。在计算增量矩阵之后，新的轨迹数据Ym计算如下：Ymm mtECmtjo1o2· ··otZ1CmtP.Cmtjo1o2· ··ot dt11-1这满足最小均方误差（MMSE）准则，因为Cm ωt是状态的函数，我们可以使用Pqωt <$ijo1o2·· ·ot;q1q2·· ·qt-1。NsYmtCmtPqωtijo1o2· · ·ot;q1q2· ··qt 1Þð1 2Þ1/1YmtXCmtdti1/1ð13Þ图三. 状态转换图。然后用重建数据Ym代替Xm来寻找初始关键点的位置。Þ174AAE Osman等人/Egyptian Informatics Journal 18（2017）171X2245NPa-lnmnme-emaxmin8><. 好的。我J表1计算Delta矩阵的数值例子。假设我们有转移和观察概率的概率矩阵，A =[0.95，0.05; 0.10，0.90]，B =[1/6，1/6，1/6，1/6，1/6，1/6;1/10，1/10，1/10，1/10，1/10，1/2;]对于以下序列：[1、5、2、4、1、4、2、4、5、5、3、1、2、6、1、5、4、6、1、3]Delta矩阵为：[1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，2，2，2，2，1，2，2，2，2，2，1，1，2，2，2，2，2]归一化后，delta矩阵为：[0.0185，0.0185，0.0185，0.0185，0.0185，0.0185，0.0185，0.0185，0.0185，0.0185，0.0185，0.0185，0.0185，0.0185，0.0185，0.0185，0.0185，0.0185，0.0185，0.0185，0.0185，0.0185; 0.0185，0.0185、0.0185、0.0370、0.0370、0.0370、0.0370、0.0185、0.0370、0.0370、0.0370、0.0370、0.0370、0.0185、0.0185、0.0370、0.0370、0.0370、0.0370]3. 初始关键点选择使用后验HMM状态分布重建数据后，将使用K均值算法[14]对新数据进行聚类，并在每次演示中的聚类标签之间K-means算法从初始化一组K个均值m1;. ;m1则算法在以下隐藏状态s1的持续时间，对于i/41; ·· · ;Ns。关键点的新时间索引被分配为使得tK1 1/41，并且第j个关键点的时间索引被设置为j-1tkj ¼1þSI为j2;.. . ;Ns1001/1该修改后的时间序列被用于对齐其余的时间序列。1k个投影，使用动态时间规整算法。描述-重复两个步骤，直到集群分配没有改变。● 分配步骤：将每个点分配到最近的聚类。.¨¨¨¨Σ我我J动态时间规整算法的调整以对齐两个时间序列（长度为I的A）（长度为J的B）如下进行● 初始条件：g（1，1）= 2d（1，1）.联系我们yp：<$yp-mt<$6<$yp-mt<$8j;16j6k14● 动态规划方程：● 更新步骤：每个聚类的质心被更新为26gi;j-1gi;j-37g i新聚类点的平均值。我的天 1Xyð15Þgi;jmingi-1;j-1 2di;j18gi-1;jdi;j. 我 .y j 2 Si4. 关键点在识别每个演示的初始关键点之后，重建的数据被映射到离散观测符号集。离散隐马尔可夫模型用于建模演示的轨迹。应用HMM（a，b，p）所需的参数使用最小失真轨迹初始化，并根据Bakis左右拓扑[15]计算。使用[16]和[17]中提到的标准选择最小畸变轨迹Xr。● 限制条件（调整窗口）：j-r6i6jr时间归一化距离：1DA;BgI; J19应用形状保持约束，使得所有序列的长度等于所有序列长度的平均值[18]。每个关键点的新的时间索引是从扭曲的时间序列中分配的。5.2.加权系数Nmlr^arg minn^1;ð16Þ权重系数被分配给关键点，因为接近和离开部分具有比16m6MNm隐藏状态的数量被设置为等于该最小失真轨迹中的关键点的数量加1，并且Q被设置为等于观察符号的使用初始化的参数在每个观察序列上训练离散HMM维特比算法用于寻找最可能的隐藏状态序列[19]《易经》中的“道”字。加权系数是使用均方根误差来测量的，以检查每组关键点的接近度。以下等式用于计算RMSE和加权系数：vutXM。ﬃﬃﬃﬃﬃﬃDﬃﬃTﬃﬃWﬃﬃﬃﬃﬃﬃﬃﬃﬃﬃﬃﬃDﬃﬃTﬃWﬃﬃﬃﬃΣﬃﬃﬃ2ﬃﬃ对于每个观察序列。之后，重点是模-被指定为处于对应于隐藏状态之间的转变的轨迹的位置和取向值。直到这一步，RMSE最小误差m¼1kj;m-kjð20Þ每个演示都有一组关键点，但它们在时间上并采用动态时间规整算法解决了这一问题。wj¼0;对于RMSE最大值emax-RMSEkj;对于emin6RMSEkj6emax：1; for均方根误差9>=;ð21Þ5. 轨迹综合5.1. 动态时间规整通过找到具有最高对数似然的观测序列来选择参考时间序列[15]。使用平均值来修改参考轨迹的时间序列jmin5.3.关键点在分配权重之后，使用三次样条插值来产生广义轨迹[21]。所提出的模型的伪码算法如表2所示。>>ðtÞ●AAE Osman等人/Egyptian Informatics Journal 18（2017）171175表2提出的模型的伪码算法。开始预处理对于（轨迹数量）使用K-means Eqs.（14）和（15）（14）和（15）（14）和（15）：输出聚类标签使用K-means方程的第二聚类（14）和（15）（14）和（15）（14）和（15）：输出观察符号使用方程计算“a”矩阵（1）（四）（四）设置p = [10.. . 0]。计算重建数据使用方程计算delta矩阵。（9）和（10）（9）和（10）使用等式（1）计算重建数据。（十三）（十三）End_For初步确定关键点对于（轨迹数量）使用K-means方程对重构数据进行聚类。（14）和（15）（14）和（15）（14）和（15）End_For关键点最小失真轨迹是使用方程选择的。（十六）（十六）重构数据使用K均值聚类两次，以输出状态和观察符号，通过等式：（14）和（15）（14）和（15）（14）和（15）对于最小失真轨迹计算如上所述的HMM参数对于（轨迹数量）应用维特比算法找到最可能的隐藏状态序列End_For动态时间规整找到具有最高对数似然的序列。使用等式修改关键点的时间。（17）应用动态规划方程（十八）（十八）根据变形后的时间序列更新关键点的时间索引关键点权重（关键点数量）计算关键点的RMSE计算关键点End_For的加权系数插值应用三次样条插值得到广义轨迹End6. 实验工作为了证明所提出的方案的有效性，在[9]中的数据集已被用于我们的实验研究。操作员被用来移动手动工具，用于对面板进行喷漆，其中该工具作为喷枪工作。由于一些实际的原因，这些画以干燥的形式光学跟踪系统Optotrak Preseon用于跟踪附接在图1所示的手动工具上的光学标记。 4b. 该数据集来自于记录工具相对于板的参考系的姿态，如图所示。 4a. 该数据集包含一组由两个实验得到的演示轨迹。第一个数据集代表一个简单的轨迹情况。然而，在第二个实验中遵循复杂的轨迹，使得它包括具有不同幅度的绘画工具的波动运动6.1. 第一次简单弹道在第一个实验中，演示者的任务是从初始位置开始绘制面板，移动到左上角，顺时针绘制面板的轮廓，从左向右移动绘制其内部，然后返回到初始位置。该任务由四名不同的操作员演示了四次，得到十六个演示轨迹。然后，通过消除不一致的轨迹，得到的数据集由12个轨迹组成。每个轨迹包含位置和方向数据的6-D测量。演示数据的位置如图所示。 4c.图4a. NRC-IAR实验室的实验装置，由NaN组成的遗漏字段从其余数据中插值。应用后验HMM状态分布从一组隐藏状态中插值每个轨迹。如第2.3节所述，为了采用后验HMM状态分布，使用K-means算法对原始数据的归一化位置和速度进行两次聚类：第一次使用256个观察符号，第二次使用64个聚类作为176AAE Osman等人/Egyptian Informatics Journal 18（2017）171图4b. 用光学跟踪系统演示感知。states.每个轨迹Xm被映射到观察符号（即Om）和聚类标签（即Cm）中，其中m ={1，2，.. . ，12}。然后，使用下式估计参数（A，B，p）：如第2.2节所述的聚类标签和观测符号。如第2.3节所述，计算每个演示的增量矩阵（十三）、在重建数据后，重建的数据被用来找到初始的关键点。利用K-means算法对新数据进行64个聚类，然后在聚类标签之间的过渡处分配初始关键点。最小失真轨迹中关键点的初始选择如图所示。五、在确定每个演示的初始关键点后，记录的数据被映射成一组离散的观测符号，然后使用离散HMM对演示轨迹进行建模。观察符号的数量被设置为等于256，与[9]中使用的完全相同。应用HMM（a，b，p）所需的参数使用最小失真轨迹进行初始化，并根据前向算法进行计算[15]。使用[16]和[17]中提到的标准选择最小失真轨迹。使用标准选择的轨迹为X12。隐藏状态的数量被设置为等于该最小失真轨迹中的关键点的数量加1，并且Q被设置为等于观察符号的数量使用初始化的参数在每个观察序列上训练离散HMM然后，维特比算法被用来找到最可能的隐藏状态序列的每个观察序列。然后将关键点修改为对应于隐藏状态之间转换的轨迹的位置和方向值采用动态时间规整算法对关键点进行时间规整。O3被用作参考，因为它具有最高的对数似然性。参考轨迹的时间序列被修改使用隐藏状态的平均持续时间。然后使用该修改的时间序列来对齐其余的射束。每个关键点的新的时间索引是从扭曲的时间序列中分配的。然后，如第5.2节所述，将权重系数分配给关键点。在分配权值后，采用三次样条插值法，在平滑因子为0.975的条件下，生成广义轨迹。广义轨迹的长度被设置为等于所有轨迹长度的平均值。使用我们的方法获得的广义轨迹如图所示。第六章6.2. 第二次复杂弹道在第二个实验中，一个复杂的几何图形被用于绘制面板。演示者的任务是在如图所示的面板的顶部和右侧进行绘画。第七章使用图中所示的三个光学标记物定义面板的参考一个演示者执行了五次任务，演示的轨迹（即X1，. . ，X5）在图中示出。八、轨迹长度的范围在4028和4266之间。在本实验中应用了与第一个实验相同的步骤。使用后验HMM状态分布对原始轨迹进行预处理观察符号的数量设置为256，聚类的数量为64。采用64类K-means算法从重建数据中选取初始关键点聚类标签之间的转换被指定为初始关键点。HMM用于对观察符号集进行建模。DTW应用于将演示与长度4141对齐，长度4141是长度的平均值加权图4c. 第一个实验中演示轨迹的x-y-z位置坐标。AAE Osman等人/Egyptian Informatics Journal 18（2017）171177图五. 初始选择最小变形轨迹中的关键点。见图6。实验一中x-y-z位置坐标的广义轨迹见图7。第二个实验中使用的面板。系数被分配给关键点的集合。图9中所示的一般化轨迹是通过对来自五个轨迹的关键点进行插值而生成的。7. 实验结果和比较在本节中，使用两个度量来呈现实验结果，并将所提出的方案的性能与以前的工作进行比较首先，RMSE度量[22]用于测量广义轨迹的准确性。其次，计算成本的不同的学习计划的处理时间来衡量。在这项比较研究中，所提出的计划[9]的文件。在他们的论文中已经提到，使用他们的方法获得的RMSE小于使用[6]和[7]。此外，已经表明，与[6]中提出的最先进的方法相比，[9]中的方案还降低了总体计算成本。使用RMSE度量的原因是它测量每两个轨迹之间的相似性。具有最小误差意味着所选择的轨迹是与所有演示轨迹最相似的轨迹，并且它应该是机器人遵循的最佳轨迹。因此，使用线性缩放将原始轨迹缩放到具有等于轨迹长度的平均值的相同长度的演示。后来，178AAE Osman等人/Egyptian Informatics Journal 18（2017）171X见图8。第二个实验的轨迹。见图9。第二个实验的广义轨迹。两个轨迹之间的均方根误差使用下面的等式来测量：Nmem1;m2kXm1;t-Xm2;tk22t1/2对于第一个实验，RMSE的累积和如图10所示。Gen-1是使用我们的方法获得的广义轨迹，Gen-2是使用[9]中提出的方法，X1至X12是原始轨迹。Gen-1处的RMSE的累积和意味着Gen-1与原始轨迹（即，X1，. . ，X12），X1处的累积和是X1与（X2，.. .Gen- 2的累积和值是[9]中报告的值。可以看出，“Gen-1”是使用我们的方法获得的广义轨迹，与其他方法相比具有最小误差。具有最小误差的原因是，见图10。在第一次实验中使用我们的方法获得的广义轨迹（Gen-1）和演示轨迹（X1- X12）的RMSE累积和。AAE Osman等人/Egyptian Informatics Journal 18（2017）171179图十一岁在第二个实验中使用我们的方法获得的广义轨迹（Gen-1）和演示轨迹（X1- X5）的RMSE累积和表3计算时间的平均值和标准偏差值代码步骤以秒为单位的实验-A实验-B1. 预处理：后验HMM状态分布2. 初始要点3. 隐马尔可夫离散化4. HMM训练和推理133.548（±33.728）2.707（±0.737）3.272（±0.924）11.329（±4.68）131.254（±7.623）1.096（±0.218）1.839（±0.361）9.498（±1.171）5. DTW对准6. 加权和插值合计：81.709（±19.377）0.772（±0.275）233.33724.92（±1.775）0.761（±0.204）169.37和原始数据的速度来识别初始关键点，如在[9]中所做的，后验HMM状态分布首先被用于重构数据，以避免在所提出的方案中的演示数据新的数据集使用聚类集和每个聚类在每个点处的概率来重建聚类集考虑了演示数据中最显著的变化，这将导致初始关键点的显著识别这种重建有助于为初始关键点找到最佳索引，因此，所提出的方案的一般化轨迹更准确。类似地，在第二个基于复数的几何实验中，RMSE的累积和如图11所示。Gen-1是实验2的广义轨迹，使用我们的方法相对于Gen-2和原始五个轨迹具有最小的误差。为了准确地测量所提出的方案的计算成本，我们在Windows 7上使用1.8 GHz INTEL Core i5 CPU和4 GB RAM并使用MATLAB运行代码10次MEX文件也用于DTW对齐，如[9]所示，以提高其速度。表3包含了我们提出的两个实验方案的每个模块所需处理时间的平均值和标准从该表中可以清楚地看出，预处理步骤（即，后验HMM状态分布）和DTW对齐相位在两个实验中几乎占总计算成本的92%。同时，预处理步骤，单独地，在第一个实验中占总计算成本的近57%，在第二个实验中占总计算成本的77%与[9]中提出的方案相比，预处理步骤仅包括NAN的平滑和去除另一方面，该方法的预处理步骤包括去除NAN和应用后验HMM状态分布用于数据的初始重建。由于[9]中所做的实验工作是使用具有4 GBRAM的2.1 GHz双核CPU报告的，因此[9]被重新缩放，以对应于我们提出的方案的1.8 GHz（四核）i5CPU和4 GB RAM。因此，对于两个实验，发现[9]中的方案的总处理时间分别为235.6 s和143.3 s从表3中可以看出，两个实验的所提出方案的总处理时间分别因此，可以看出，所提出的方法在第一个实验中需要几乎相同的计算成本，其中包含更多数量的轨迹。还可以看出，在第二个实验中，所提出的方法需要在总体计算成本的不显著的增加时，射束的数量是较小的。这些结果表明，尽管增加的预处理阶段的计算成本很大，但与[9]中提出的最先进方案相比，其他剩余模块需要的计算成本更少。8. 结论本文提出了一种机器人从演示中进行轨迹学习的新方案。预处理阶段已被提出，以避免任何失真，可能会发生由于直接使用原始离散数据。预处理数据考虑了每个演示中的最显著点，因此在识别初始关键点方面优于原始数据。首先，使用预处理数据代替原始数据。然后，为每个演示识别一组关键点，并使用HMM对关键点进行编码。关键点在时域内进行扭曲，然后采用三次样条插值。180AAE Osman等人/Egyptian Informatics Journal 18（2017）171极化RMSE已被用来作为一个度量，比较一般化的轨迹，使用我们的方法，在相关的工作。结果表明，我们的方法有能力实现最小的误差与以前的工作相比误差最小的原因是使用了预处理此外，它也已被证明，整体计算成本几乎是类似的国家的最先进的方法。目前，我们正致力于进一步加强拟议的计划，采用其他聚类技术，而不是K-均值识别的关键点。引用[1] [10]李文辉，李文辉，李文辉.从演示中学习的调查。Robot Auton Syst2009;57（5）：469-83.[2] 杨伟华，王晓，王晓华，王晓华.机器人编程演示。在：机器人手册。New York，NY，USA：Springer;2008. ch. 59.[3] 李伟杰，李伟杰.从部分可观察任务参数的演示中学习。In：Proc of the IEEE intlconf on roboticsand automation（ICRA），Hong Kong，China. p. 3309- 14[4] van den Berg J等人，机器人使用人工引导演示的迭代学习进行手术任务的超人表现。In：Proc 2010 int confrobot autom （ICRA），Anchorage，AK，USA. p.2074- 81[5] Aleotti J，Caselli S.机器人编程的鲁棒轨迹学习和逼近。机器人自动化系统2006;54（5）：409-13.[6] Calinon S，Billard A.拟人机器人之随机手势产生与辨识模型。In：Proc IEEE/RSJint conf intell robots syst，Sendai，Japan. p. 2769- 74[7] [10] 杨晓，李晓，李晓 . 仿人机器人双臂操作任务的模仿学习。 In ： Proc 6thIEEERAS int conf humanrobots，Genoa，Italy. p.40比7[8] 杨伟杰，王晓刚.基于条件随机场的机器人轨迹学习示范编程In：Proc IASTEDint conf robot appl，Cambridge，MA; 2010. p. 401-8[9] 杨文斌，李晓斌. 机器人规划之轨迹学习-以隐马尔可夫模型与时间动态变形为例。Robot Auton Syst2012;42（4）：1039-52.[10] Calinon S，Billard A.结合pca，ica与hmm之机率架构于手势辨识与再生。在：ICML' 0 5 ：会议记录的月22国际会议对机器学习ACM; 2005年。p.105比12[11] [10]张文辉，张文辉，张文辉.使用协调的混合因素分析器通过演示学习机器人编程的轨迹。IEEE TransCybernetics 2015.[12] 杨伟，王伟，王伟.基于EM强化学习的机器人运动技能协调。在：Proc IEEE/RSJintl conf on intelligent robotsand systems（IROS）。[13] El-Khoribi Reda A，Hamza Haitham S，Hammad MA.基于隐马尔可夫模型后验状态分布的室内定位与跟踪。第八届通信与网络国际会议，中国。p. 557- 62[14] MacQueen J.多元观测的分类和分析方法。第五届伯克利数学统计与概率研讨会论文集， 1967;1：281-97。[15] 拉比纳湖隐马尔可夫模型及其在语音识别中的应用。Proc IEEE1989;77（2）：257-86.[16] 左SK，刘KP. 用隐马尔可夫模型演示轨迹选择In：Proc IEEE int conf robotautom，Albuquerque，NM. p. 2713- 8[17] LindeY，Buzo A，Gray RM. 矢量量化器设计的一种算法 IEEE TransCommun1980;COM-28（1）：84-95.[18] Sakoe H ， Chiba S. 口语词识别的动态规划算法优化。 IEEE TransAcoust ，Speech，Signal Process 1978;ASSP-26（1）：43-9.[19] Calinon S，Billard A.仿人机器人的手势模仿学习。In：Dautenhahn K，NehanivCL，editors.机器人、人类与动物的模仿与社会学习：社会与沟通维度。剑桥大学K.：北京：人民出版社; 2007. ch. 八、[20] [10]杨文，李文.发现最佳模仿策略。机器人自动化系统20 0 4 ;47（2/3）：69-77.[21] 放大图片作者：J.平滑样条：回归，导数和反卷积。Ann Stat1983;11（1）：141-56.[22] Calinon S，D'halluin F，Sauser EL，Caldwell DG，Billard AG.通过模仿学习和再现手势：基于隐马尔可夫模型和高斯混合回归的方法。IEEE Robot Autom Mag2010;17（2）：44-54.

下载后可阅读完整内容，剩余1页未读，立即下载