没有合适的资源?快使用搜索试试~ 我知道了~
认知机器人2(2022)119Pinocchio:一种动作表现语言Pietro Morassoa,1,2015,Vishwanathan Mohanba意大利理工学院,RBCS(机器人、大脑和认知科学)系,意大利热那亚b埃塞克斯大学计算机科学与电子工程学院,Wivenhoe Park,CO34SQ,英国aRT i cL e i nf o保留字:动作表征被动运动范式运动表象认知神经模拟认知结构a b sTR a cT动作表征语言的发展是认知机器人、运动神经科学、人体工程学、体育和艺术的核心问题,具有双重目标:分析和合成保持生物运动时空不变量的动作序列,包括相关的学习和训练目标。然而,到目前为止提出的符号系统只取得了不确定的结果。通过审查这些系统的基本原理,有人认为,共同的基本原理是选择的“原语”相结合,以产生复杂的手势:基本的运动与不同程度的“粒度”。问题在于,在运动控制论中,运动并不增加:无论所选基元的粒度程度如何,它们的简单求和都无法产生表征生物运动的时空不变量。所提出的替代方案是基于平衡点假设,特别是基于一种名为被动运动范式的计算公式,其中全身姿势是通过将一小组力场应用于内部身体图式的特定关键点来产生的:通过精心选择的力场进行的动画类似于使用电线或绳子的木偶动画。关键的一点是力场确实会增加,因此建议将力场用作一组一致的基元,而不是基本运动。这是提出一种基于力场的动作表示语言的起点,命名为匹诺曹,与著名的木偶类比。所提出的用于动作描述和生成的语言包括三个主要模块:1)原始力场生成器,2)由原始生成器动画化的身体模型,以及3)用于表达任何指定手势的图形化站系统。我们认为,这样的语言是一个重要的积木的认知架构的合作机器人的发展。1. 介绍我们可以将动作定义为有目的的人类运动,即不同身体部位的一系列运动,包括使用合适的工具,允许人类熟练的代理人单独或与另一个代理人合作实现目标。这一定义也适用于工业4.0的协作机器人或下一代先进服务机器人。然而,在人类和机器人运动认知的大量文献中,“运动”和“动作”这两个术语经常被混淆和/或被我们认为,这是至关重要的,以保持他们分开调查的原则,开发一个认知架构的合作机器人,接地在人类运动认知。通讯作者:意大利理工学院,人类技术中心,机器人,大脑和认知科学系,Via Enrico Melen 83,Bldg B,Genova 16152,意大利。电子邮件地址: Pietro. iit.it(P. Morasso)。1 王:http://sites.google.com/site/pietromorasso/https://doi.org/10.1016/j.cogr.2022.03.007接收日期:2022年3月14日;接收日期:2022年3月30日;接受日期:2022年3月30日2022年4月6日在线发布2667-2413/© 2022作者。Elsevier B. V.代表KeAi Communications Co. Ltd.提供的出版服务。这是CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)可在ScienceDirect上获得目录列表认知机器人期刊首页:http://www.keaipublishing.com/en/journals/cognitive-robotics/P. Morasso和V. 莫汉认知机器人2(2022)119120在以前的论文[1]中,有人认为,在合作机器人的设计中,旨在诱导人类接受机器人作为可信赖的合作伙伴的通过这种方式,机器人的手势变得可预测,并且在人类伴侣的眼中通常是“可读的”,从而通过肢体语言建立了人类与机器人通信的坚实基础。在本文中,我们解决了进一步的要求,即内部表征的行动,这是一个基本的积木规划,推理,并支持增长和检索的程序和情节记忆。在这个框架中,我们还认为,机器人和人类动作表示机制之间的强大等效性,在手势形成水平[2]的等效性之上,对于运动认知水平的更一般等效性至关重要,这是人类-机器人伙伴关系的基石然而,人类行为的表示是一个在许多领域中已经解决的话题,并且很长一段时间没有解决。达成令人满意的协议。表征问题对于捕捉熟练行为所需的动作的组成性质是至关重要的:一般来说,复杂的手势是通过选择“运动原语”来构建的,使它们适应特定的任务要求,并在空间和时间上连接它们。在本文中,我们回顾了迄今为止开发的主要形式系统:1)Rudolph Laban提出的运动符号系统[3],主要集中在舞蹈和编舞; 2)用于优化工业程序的Therblig动作分析[4]; 3)旨在将动作描述与自然语言联系起来的人类动作语言[5]。这些系统的边际成功将在下面的章节中具体分析,但主要原因,在我们看来,是简单运动方面的运动原语的选择另一种解决方案,在这项研究中提出的,是使用力场作为运动原语,这种选择是基于运动神经科学。从历史上看,20世纪初对运动分析的兴趣是由Eadweard Muybridge和Etienne-Jules Marey在19世纪末实现的计时摄影技术进步推动的。后来,运动捕捉系统的发展提供了精确获取人体运动的运动学和动力学方面的手段然而,这些系统提供的丰富的经验数据本身并不足以理解人类行为的深层组织,这些行为来自大脑所面临的支持智能行为和击败运动冗余的基本挑战,即尼古拉斯·伯恩斯坦定义的自由度问题(DoF问题)。在我们看来,一个语言的行动表示应该建立在一个理论的运动控制能够解决的自由度问题。本文中提出的新型生物启发方法基于协同形成的被动运动范式(PMP)[7提议的动作表示语言被称为匹诺曹,作为对最着名的木偶的致敬,由Carlo Collodi发明[12]。匹诺曹,被视为一种语言,由一系列力场(基本运动原语)组成 到匹诺曹,被认为是一个木偶,代表身体模型。这种语言类似于用于乐谱的乐谱系统,“音符”对应于施加在身体末端矢量上所提出的用于动作描述和生成的语言的初步实现被公式化为Matlab®(MathWorks)中的高维非线性普通微分方程它包括三个主要模块:1)原始力场生成器,2)由原始生成器动画化的身体模型,以及3)用于表达任何特定标记手势的图形化姿态系统。2. 运动记谱系统在本节中,简要回顾了运动符号的三种范式方法,重点关注我们认为的主要弱点,从而为本文提出的基于力场的方法提供了基线2.1. Labanotation/Laban运动分析Labanotation,或Kinetography Laban,是一种在纸上记录人类运动的系统,重点是舞蹈,最初由Rudolph Laban提出[3,13]。这种记谱法在某种程度上类似于音乐记谱法(音乐五芒星),最初由Guido d'Arezzo在10世纪发明。关键是,虽然音乐记谱法很快被采纳为作为一个世界性的标准,Labanotation只成功地涵盖了一个记谱系统的一小部分基本功能:作曲、演奏、记忆和检索。音乐音阶系统由五条水平线和四个相应的空格组成,本质上是一个图形:垂直轴是音高,水平轴是时间(从左到右,与希腊罗马书面语言的约定一致图形符号识别音符,音符的持续时间由图形标记编码类似地,拉班舞台系统是一种图表,它描绘了舞者将要表演的原始动作的序列。该图由三条(而不是五条)平行线组成,但它们是垂直的而不是水平的,因此时间在图中自下而上运行,原因是它应该被“读取”。 由一个移动的表演者;换句话说,它是从表演者的角度写的根据Labanotation,中心线对应于舞者的脊柱:身体右侧发生的动作写在舞台的右侧,反之亦然。特别是,中心线和任一侧线之间的空间 实际上被分成两个或三个垂直列,并且附加列出现在垂直线之外。图形符号的形状和纹理标识身体部位的基本运动的特征,并且相应的持续时间由符号的长度编码。由于舞蹈通常伴随着音乐,所以用竖条表示的音乐记谱法的小节和公制结构在拉班记谱法中由相应的竖条再现P. Morasso和V. 莫汉认知机器人2(2022)119121Fig. 1. 音乐符号(上图)和Labanotation(下图)的示例。请注意,乐谱采用五行音阶系统, 水平书写,从左到右读取。与此相反,Labanotation采用三行式,通常是垂直书写的,应该从下往上阅读,即它是表演者的一个特定指南:为方便起见,所描绘的例子旋转了90°。总之,拉班记谱系统包括在舞台上放置特定的图形符号来代表动作成分,表演者可以通过这些符号来解释和再现一个记谱的舞蹈序列。多个图形符号用于表示机芯部件的特征,包括销和钩在内的其他符号系列可用于表示次要身体部位,并表示修改主要动作的细节拉班系统和其他最近开发的符号系统的问题,如Benesh系统[14]或Eshkol-Wachman系统[15],是很少有编舞家-甚至更少的舞者-在他们的识字。目前,大多数Labanotation的使用是为了记录,而不是创造和学习。关键的一点是,与标准乐谱相比,这些系统是相当静态的,并且提供相当差的3D表现力。此外,虽然它们专注于运动,但它们只能提供非常近似的运动表示。目前,运动符号的不稳定传统甚至受到了新技术的挑战,包括计算机图形学,运动捕捉系统和动画技术。这种系统能够存储所有关节的旋转模式在这个框架中最近的尝试是William Forsythe的Motion Bank项目[16]。然而,这些技术的大量使用以及它们产生的大数据流对运动表示带来了更大的挑战:上面提到的自由度问题总之,拉班记谱法提供的全身运动的符号另一方面,运动捕捉系统提供的表示是无用的,因为它太详细,因此对运动的“认知内容”是不透明的。在这两种情况下,它是不是合适的框架上接地的认知架构的合作机器人。2.2. 热动力分析与专注于全身运动表示的拉班运动分析不同,Therblig分析处理特定工业环境中的动作表示,例如装配线或建筑场景,目的是评估工作场所的运动经济性,以进行优化。这种行为表征的方法是由两位工业心理学家(Frank Bunker Gilbreth和Lillian MollerGilbreth)发明的,“Therblig”这个名字就是从他们那里特别是,热动力被定义为工人执行手动操作或任务所需的基本运动元素或原始动作。该方法的关键点是,根据提议者[4,17],热动力可以在某种意义上进行编号,即一小组热动力足以描述工业环境中的任何人类活动。特别是,这一套包括18个元素,每个描述一个标准化的活动:搜索,查找,选择,抓住,保持,运输装载,运输空,位置,组装,使用,拆卸,检查,前置,释放负载,不必要的延迟,避免延迟,计划,休息。每个Therblig也可以用一个图标符号来表示(图2),因此一个给定的任务可以用形式化语言中的一系列图标来可视化。热动力分析暗示了工作结构的金字塔式观点:工作由任务组成;任务由工作元素组成;工作元素由一系列基本动作组成,即:兽怪热动力学分析的一个工具是使用SIMO图表,其中“SIMO”代表同时运动循环。这样的图表以图形方式呈现所研究的操作者的每个相关肢体(例如左手和右手)的可分离步骤。它同时代表一个或多个操作员身体的不同部位在一个共同的时间尺度上执行的不同热动力,以“眨眼”(1眨眼= 1/2000分钟= 30毫秒)测量分析的主要目标是找出不必要或无效的运动,并利用或消除已识别的“浪费时间”间隔除了工作效率的优化,TherbligP. Morasso和V. 莫汉认知机器人2(2022)119122图二、1 8 T h e r b l i g 的集合礼貌的教授。克里斯托夫·罗瑟分析已被应用于人因设计和人体工程学的工业工程方法的背景下,旨在减少疲劳和伤害产生的运动。虽然Therblig分析在工业工程框架中已经并且仍然是相当成功的,但是在机器人认知体系结构得到巩固之前,其在认知机器人中的潜在应用是微不足道的。考虑SIMO,它被定义为“微运动”研究:这意味着组成的热动力是可以立即实现的原始运动,而无需任何进一步的分析。相比之下,从运动神经科学和机器人控制的角度来看,Therblig是复杂的动作,而不是原始的运动:Therblig需要多个运动被招募,并仔细适应不同的任务和不同的环境条件。例如,2.3. 自然语言和动作表示自查尔斯·达尔文[18]时代以来,人们普遍认为熟练的工具使用和熟练的口语是同时进化的,这是基于这样一种假设:以对手拇指为特征的人手的进化是出于便于控制工具的需要,而人类声道的进化是为了允许口语的发音手势。这足以表明语言和动作表征之间的相似之处,尽管对许多语言学家来说,语言句法和动作组织之间的类比似乎定义得太松散,无法承载太多的解释力[19]。然而,可以挑出两个值得注意的例子,试图在计算框架中解决这个问题:1)HAL(人类动作语言[5]),用于象征性地描述动作;2)开发一种方法,用于从全身运动描述中导出语言描述[20在这两种情况下,定义形式语言的第一步是通过分割和符号化从运动捕捉数据档案中识别全身运动原语然后,可以用计算语言学中发展起来的成熟的符号处理方法来处理动作上述两种语言学方法在所研究的符号运动原语的复杂性和维度上存在差异。在HAL公式中,运动基元是从所谓的“运动空间”中提取的全身关节角旋转(包括P. Morasso和V. 莫汉认知机器人2(2022)119123角速度和加速度)与存储在运动捕捉数据档案中的时间的关系。使用统计方法分析这样的高维数据集以识别不变簇:可以称为“运动协同”的簇类似于从高维数据集中类似地在这个框架中,运动基元是运动学或肌肉激活模式,在自然人类运动的(潜在无限的)领域中频繁出现。在用于生成动作描述的系统中[20虽然Labanotation和Therblig分析是在运动捕捉技术不可用的时候构思的,相反,本节中审查的两个“语言”系统的动机是这些技术的可用性,试图弥合自然语言对动作的表示与感觉运动能力之间的差距。尽管有一些特定的应用可以让这种发展找到实际用途,比如自动视频注释,但自然语言和自然动作语言之间的差距仍然太大,无法为构思、学习、推理和执行一般动作序列提供可信和合理的基础。一种适合自然动作的语言应该达到类似于音乐符号的生成性表达水平,为作曲家和表演者提供强大的工具。此外,它应该提供一个广义的具身框架,在这个框架中,内在身体意象可以扮演双重角色:作为一个模拟模型,为表演做准备,作为一种乐器,用于演奏。在上面总结的两种语言学方法中,自然语言和自然行为之间的联系隐藏在神经网络或统计过程中,因此对解释和概括是不透明的。2.4. 另一种方法尽管存在差异,但无论是在动作捕捉时代之前还是之后,为自然动作描述定义语言的尝试都有一个共同的概念,即语言的分子元素,即运动基元是以不同的方式和不同的“粒度”定义的基本运动在我们看来,这是本节中所回顾的尝试的共同规律,这种失败类似于这样一个事实,即通过连接乐高块,可以近似任何给定的形状,但总体结果永远不会是平滑的。此外,运动基元越小,描述/再现给定模式所需的元素的数量越大,每个组成基元的认知相关性消失。另一种观点认为,无论选择何种行动观察粒度,从高维运动学模式中检测和提取的相应原始运动都是协同形成过程的结果,而不是关键的一点是,与运动相反,力场确实会累加,产生在任何情况下都是连续和平滑的手势,同时保持与生物运动典型的时空不变量一致。这种观点是平衡点假说[24 - 26]的结果,该假说将有目的的运动解释为在多维力场中从一种平衡构型过渡到另一种平衡构型。此外,在这个框架中,可以限制原语的数量,并保留其认知相关性。提出的用于动作描述和生成的Pinocchio语言基于被动运动范式(PMP),这是平衡点假设的计算推导,它包括三个主要模块:1)原始力场生成器,2)由原始生成器动画的身体模型,以及3)用于表达任何特定标记手势的图形化状态系统3. 基于PMP的人体动画模型被动运动范式是一种协同形成计算模型[7-身体被建模为刚性连杆的骨架,这些刚性连杆以串联和/或并联的方式通过粘性弹性关节互连,这些粘性弹性关节的静止长度在身体模型的动画期间以这样的方式移动,以随着动作恢复整体平衡。因此,高维弹性能量函数表征了网络在任何给定时刻的状态:这种状态将自动从初始配置演变到最近的平衡点。PMP的基本原理是,有目的的行动是通过向身体模型施加力场来吸引它到目标配置来表示的这种力场是协同形成机制的运动基元,作为对基元定义的一种替代,基元是前一节所回顾的运动符号系统所采用的基本运动关键的一点是,虽然原始运动不会增加,但作为原始运动源的力场确实会增加,从而提供了一个一般的构图方案。PMP模型的基本机制如下:从平衡状态开始,模型通过系统地屈服于扰动来对扰动作出反应,以这种方式恢复失去的平衡。图图3示出了原始力场发生器的结构和动力学,其被实例化和链接以根据匹诺曹语言表达给定的合成手势。每个发生器都由两个元素表征:1)一个矢量 ���,它是主力场的最终平衡点或源; 2)一个时基发生器Γ(���),它控制主力场和辅助力场,指定每个原始发生器的启动和持续时间。由刚度参数调制的主要力场 ���产生由最终平衡吸引的移动平衡点 ���(���) ���,而由刚度参数调制的辅助力场 ������通过产生要传递到身体模型的力()将身体模型的端部矢量()吸引 ���������向移动平衡点 ���(���) ���������。Γ-命令(参见函数X)将两个梯度下降过程与终端吸引子动力学相一致P. Morasso和V. 莫汉认知机器人2(2022)119124图三. (A):原始力场发生器,其特征在于目标平衡点为 和一个移动平衡点���(���)。两个协同两个力场同时产生:其中一个( ���)将移动平衡点吸引到端点,另一个(������)将端点矢量吸引到移动平衡点。它们由非线性门控函数Γ(t)联合激活和同步。该发生器将力场传输到身体模型���������,与其他力场结合,并收敛到相同的端部矢量, 从身体模型中预测出的末端向量的时变位置。(B):Γ函数的时间过程和所使用的对应符号匹诺曹符号系统[27、28]。由Γ-命令提供的非线性门控的一个显著特征是,它以隐式方式诱导由基元生成的移动平衡点的钟形速度分布。图4示意了一个简化的身体模型,用于下面所示的模拟:该模型包括两个手臂,每个手臂有7个自由度,1和躯干,有3个自由度,2,总共有17个自由度。每个臂的7个自由度串联连接,而两个臂并联连接到公共干线。这个身体模型是通过应用于两个端点矢量的原始力场的组合来动画化的。该模型可以扩展到包括两条腿,以及相应的力场,骨盆,通过表达平衡子任务的字段设置动画。在本研究中展示的模拟中,腿部和骨盆保持固定。与PMP模型一致,传递到每个臂的力场( ������) ������通过臂的转置雅可比矩阵()映射到相应的扭矩场()������。扭矩 ������场可以与其他表达特定任务或身体约束的场相结合,例如在图中由RoM模块表示的运动范围约束。该模块为手臂的每个关节计算 扭矩,该扭矩将相应的关节角度从关节极限排斥开(参见���������此功能的简单实现)。两个转矩矢量( ������. 和关节旋转矢量的时间导数)被组合,共同地引起臂的松弛(即,关节旋转矢量的时间导数)到目标驱动的扰动,由���每个臂的顺应性矩阵X调制 根据图中的人体模型, 4这样的关节旋转模式被映射到末端向量的相关运动现在我们通过相同的雅可比矩阵,关闭与基本体生成器的循环,使身体模型动画化。该循环包括由躯干的并发旋转确定的坐标变化,由旋转矩阵X(躯干DoF的函数)表示,以说明手臂雅可比矩阵提供与躯干相关的手臂坐标的事实���身体模型的躯干部分间接地参与了全身协同的形成,因为它的方向受到双臂传递的力场的扰动:它们被转换成相应的扭矩场( 分别是右臂和左臂的扭矩场),并与一个约束躯干对目标驱动的扰动(右臂的扭矩场和左臂的扭矩场)的顺应性的扭矩场相结合������������两个额外的循环将躯干模型的动力学连接到两个手臂模型的动力学,以这种方式将动作以平滑和柔和的方式分配到身体模型的所有17个DoF:躯干模型的输出,即表征空间中躯干取向的三个关节角度,更新旋转矩阵,其重新定向外部空间中每个手臂的末端矢量的位置总而言之,使身体模型动画化的被动运动范式是被动的,因为协同形成过程是弹性木偶对外部或内部力场产生的扰动的响应,但这种响应包括所有DoF对扰动的主动屈服,值得注意的是,计算过程是分布式的,并且通过局部交互运行,而不需要任何全局调度、优化机制或不适定的逆变换(如逆运动学),而是依赖于由门控动作引起的终端吸引子动力学。1 每只手臂的7个自由度是指躯干、肩的偏航、俯仰滚转角、肘的滚转角和偏航、俯仰滚转角。&手腕的滚动角度2躯干的横摆、俯仰、横滚角度,参照环境。P. Morasso和V. 莫汉认知机器人2(2022)119125见图4。 人体模型它包括三个模块,分别与右臂(7自由度),左臂(7自由度),躯干(3自由度)。动画人体模型的建模是一个根据PMP组织的过程:������由任一手臂上的基元生成器传递到人体模型的力场,表示计划的平衡点,通过双臂的转置雅可比矩阵映射到相应的扭矩场 ������������;这些场与其他场()组合���������,以强制满足每个手臂DoF的RoM(运动范围)。每个手臂的组合扭矩场诱导���手臂关节的屈服运动,然后���������通过相同的雅可比矩阵,用基元生成器闭合循环,同时考虑躯干的旋转(旋转矩阵X )。后备箱 运动由两个臂的力场发生器引起的两个扭矩场(���������-������������和���������-������������)的组合驱动,通过相应的雅可比矩阵,与主干的RoM函数并行通过Γ-函数的力场。此外,局部相互作用可以通过调节刚度和顺应性参数来调制,所述刚度和顺应性参数可以在大范围内改变而不会将整体动态推向不稳定。正如已经强调的,人物的身体模型只是一个例子,包括躯干和两个手臂。它可以概括为包括其他身体部位,如腿,头和手。相应DoF的募集和协调需要额外的力场,但PMP机制提供的身体模型的整体动画是相同的,即由吸引子动力学表征的高维非线性动力学系统,由一小组低维基元驱动。4. Pinocchio动作表示语言在前一节中所示的动画身体模型形式主义是开发合成框架的起点,该合成框架允许通过组合和链接原始姿势来表示和再现复杂的任意姿势,即匹诺曹动作表示语言。 对于图的身体模型。 基本动作基元是力场生成器(PG)的序列,一个序列用于右手,另一个用于左手。 图图5(顶部面板)示出了以何种方式组织和表示复合手势。 首先,必须选择一个有序的PG序列(就像音乐乐句的音符)。序列中的每个PG都有两个特征:1)一个3D向量,它标识力场的原点( 1,���2,������������������ ���������...);2)一个Γ函数,它由开始时间(1,2,...)和持续时间(1,2,...)标识,具有激活相应PG的功能。每个基元的输出是一个时变力场(1,���2,������...),由相应的Γ函数门控。PG序列连接到身体模型,遵循的原则是,基本力场相加,而基本运动不相加:这意味着PG的输出力场相加,从而在每个时刻用活动基元的组成来刺激身体模型。同时,身体模型向每个活动PG返回身体模型的当前位置在一个实施例中,该方法包括生成对应的结束向量,从而关闭PG的滚动列表与身体模型之间的循环。图5的底部描绘了相应的定位系统,该定位系统包括三条线:一条线用于左端定位器,一条线用于右端定位器,第三条线用于躯干。该图还表明,不同的PG可以在时间上分离或部分重叠。如图中的身体模型所示。在图4中,每个臂的输入力场驱动相关关节角矢量的松弛,从而驱动端部矢量的演变,端部矢量被中继回力场发生器。总之,动画身体模型和基本模块之间的相互作用的特征在于,力被添加并且位置被改变P. Morasso和V. 莫汉认知机器人2(2022)119126图五. 根据匹诺曹语言,17个自由度身体模型的协同形成过程的动作表示和组织。复合动作由施加在双手上的一系列原始力场发生器(���力场1,力场2,���图的底部显示了一个合成手势的图形渲染,该手势表示为一系列PG,这些PG可以在时间上分离或部分重叠:这个匹诺曹图类似于音乐符号的stainting系统。将端部矢量的信号广播到活动PG。后续PG可以在时间上重叠或分离的事实表明与乐谱的类比:PG重叠对应于和弦,而分离的PG对应于单个音符的实例化4.1. 一个简单的9-基元字符串为了阐明如何在动作语言的原型中形式化上述方法,让我们考虑一个简单的例子,每个手臂包括9个原语。图6显示了相应的脚本:用于表示这种双手手势的动作符号类似于具有三条线的音乐舞台系统,分别对应于右手,左手和躯干。时间从左到右。类似于音乐符号中用于识别声音原语(音符)的图形符号,每个原语的Γ函数用等腰三角形表示,其顶点标识原语生成器的启动,其高度指示相应的持续时间。在该示例中,前两个基元在时间上重叠,然后是三个重叠基元的字符串,由重叠基元的最后字符串分隔。在该示例中,一只手的定时被复制用于另一只手,但这不是必需的。除了由三角形表示的定时之外,每个基元的特征在于其平衡点的空间位置,即,相应力场的源:这在球坐标系中用矢量表示,如图2所示。 6图形和一个等效的三元组,即。由三个数字组成的代码,分别表示方位角、仰角、P. Morasso和V. 莫汉认知机器人2(2022)119127见图6。 双手手势的匹诺曹符号,包括9个原始力场发生器(PG)。每个PG由图形符号标识对应的Γ函数和目标平衡点的指定,以两种等价的方式表示:作为一个矢量������,在球坐标系中,和作为一个三元组的值,分别对应于方位角,仰角和归一化长度������的矢量。角度和向量的归一化长度。通过在图5的模拟系统上运行该脚本,即通过对17个DoF的微分方程进行数值积分,可以生成复合动作的电影。图7示出了从电影中提取的帧的代表性集合。3使用Matlab®(MathWorks)进行模拟,其中前向欧拉方法用于以0.1 ms的时间步长积分微分方程模拟中使用的模型参数的数值在附录中列出。图8示出了针对身体模型的17个自由度的双手的运动学和对应的关节旋转模式。该图表明,极简主义的匹诺曹动作符号形式主义可以通过身体模型的动画再现生物运动的平滑度和纹理,从而捕捉到表征人类手势的生物运动的深层结构。特别是,图中的面板A和B绘制了双手的速度曲线,并澄清了在大多数情况下,速度峰值发生在原始力场发生器的开始时间。此功能可以帮助从记录的运动的运动捕捉数据中提取匹诺曹脚本。5. 动作表征与运动想象拟议的匹诺曹语言的动作表征的可扩展性是密切相关的运动想象在运动认知中的关键作用,在一个具体的认知框架。运动想象可以被定义为一种动态状态,在此期间,受试者在心理上模拟给定的动作。这种现象体验意味着主体感觉自己正在执行一个给定的动作,它对应于运动心理学家所谓的内部意象(或第一人称视角)因此,运动想象与那些参与编程和准备实际行动的过程属于同一类过程此外,有反复的证据表明,运动想象对运动技能学习有显著的积极影响[29]。从神经生理学的角度来看,对运动想象的功能相关性的分析表明,想象和执行的动作共享相同的中央结构[30]。更具体地说,发现在运动执行和运动想象期间记录的激活模式之间存在很大的重叠[31,32]。运动想象在认知上的重要性得到了专业运动员和音乐表演者心理练习成功的证实:相同的大脑区域参与视觉转换/运动规划和音乐处理,强调了音乐家参与音乐和运动想象的皮层区域的多模态特性,并澄清了心理排练的主要运动想象,被定义为一种动态的心理状态,在此期间,给定的运动行为或运动的表征在工作记忆中排练而没有任何明显的运动输出[33],与心理想象密切相关,这意味着一种认知模拟过程,通过这种过程,我们可以在没有特殊感觉输入的情况下在我们的头脑中表征感知信息[34]。运动想象是探索具身认知的有力工具更具体地说,Moulton和Kosslyn[36]建议,3电影对应的脚本图。6:https://bit.ly/3JKDTbEP. Morasso和V. 莫汉认知机器人2(2022)119128见图7。 图6中表示的来自复合手势的动画的代表性帧集合。这些数字对应于不同的PG 每个红色的“星星”标识活动PG的最终平衡点,红色虚线表示在任何给定的坐标系中,作用力场的方向。在帧2、5、8、9中,仅一个基元是活动的(分别为基元2、4、6、7);在所有基元中,其它帧中,两个图元同时作用于末端矢量。这些帧是从以下电影中提取的:https://bit.ly/3JKDTbE。(有关此图例中颜色的解释,请参阅本文的网络版本意象实际上是本体感受的或动觉的意象,在这个意义上,一个人体验到的是运动的身体感觉,而不是运动本身的命令,尽管这两个特征是同一枚硬币的两面关于运动想象的认知作用的一个相关问题是第一人称和第三人称视角之间的区别Decety[30]认为,运动意象这一想法得到了Jeannerod的认可[37],他区分了视觉/第三人称意象和运动意象,前者是人们想象看到自己或其他人在执行动作,后者是从内部体验到的,作为“第一人称”过程的结果,自我感觉像一个演员而不是观众。正如Fourkas等人所阐明的那样,人们通常可以使用第一人称或第三人称视角来形成运动图像。从更具体的计算角度来看,Decety和Ingvar[39]提出,心理练习(或系统地使用运动想象在物理执行之前秘密地排练动作)是运动动作的虚拟模拟,他们还假设运动想象需要在工作记忆中构建动态运动表征,这利用了从长期记忆中提取的空间和动觉成分。运动想象技术被广泛用于提高特殊人群的技能学习和技能表现,如精英运动员[40特别是,有证据表明,专家可能比新手更有效地利用他们的动觉意象,但仅限于他们擅长的活动[45]。此外,福尔摩斯和柯林斯P. Morasso和V. 莫汉认知机器人2(2022)119129见图8。这三个面板对应于由9个PG序列生成的合成手势,如图1A和1B所示。6和图7绿色虚线对应于9个基元的开始时间(所有基元的持续时间均为1 s)。(A):左手轨迹(X:蓝色,y:红色,z:黑色;整体速度曲线:灰色)。(B):右手的轨迹)。(C)17个自由度的时间进程(右手的关节角度:蓝色;左手的关节角度:红色;躯干的关节角度:黑色)。(有关此图例中颜色的解释,请参阅本文的网络版本。[46]详细研究了运动想象和它所代表的运动之间的关系,确定了优化表现的六个关键问题:身体,环境,任务,时间,学习和情感。6. 讨论上述关于运动想象的研究线索表明,大脑依赖于某种语言来表示、组装、拆卸、排练,并最终执行复合手势和复杂动作。此外,这种语言并不是抽象的,尽管它处理的是内部的、无肌肉的表征[10]:它本质上是具体化的,在这个意义上,它的原语符合生物运动的时空不变量,它通过内部模拟过程产生信息流[32,47从实现的角度来看,Pinocchio目前是一个早期的原型,在Matlab®(MathWorks)中开发,可以在许多方向上扩展。一个与身体模型相关,以这种方式包括头部和下肢,以及处理平衡的模块,以及许多其他可能性。一个重要的扩展是在动作捕捉数据的方向:这将需要开发从数字化手势中提取匹诺曹脚本的程序,即识别原始力场发生器(开始时间,持续时间,目标平衡点的位置)以及身体模型的刚度和顺应性参数。从给定姿势的经验运动学数据中识别这样的脚本可以用于多种目的,以下列表仅是其中的一个示例:P. Morasso和V. 莫汉认知机器人2(2022)119130{r=0−0������������Δ���Δ���• 探索无尽的手势变化,通过平滑地改变产生相应动画的匹诺曹脚本的时空参数来获得。• 允许编舞者和表演者以组合的方式创作,概括,扩展动作脚本。• 为录制的手势视频添加注释。• 训练机器人学习动作序列,而不是以严格的方式,基于纯运动学回放,而是具有可修改脚本的灵活性。值得注意的是,匹诺曹语言本质上与运动想象的基本原理相匹配,包括记忆、排练和执行太极拳等形式化动作的隐喻方面[50]。因此,匹诺曹脚本结合基于力场的内部身体模型,可以支持工作记忆、程序记忆以及与动作表征相关的情景记忆。在认知机器人的背景下,毫无疑问,语言是一个重要的支柱,在学习,训练,教学,推理,理解和人机交互的基础上。《匹诺曹》是对具身认知框架中的动作和技能表征的贡献。另一方面,智能机器人的认知架构也应该能够访问其他“非实体”的信息源,并且不能以第一人称的角度来表达。特别是,智能机器人的几种认知架构正在开发中,例如CRAM[51]或Clarion[52]:它们允许通过使用大型知识库进行推理,将高级指令转换为机器人动作,使用主流AI[53]的典型符号方法,包括抽象,准自然语言。然而,这种方法还没有解决许多其他问题,是典型的具身认知,包括强调前瞻性。因此,一个有前途的研究方向是将匹诺曹语言的具身认知方法与人工智能的无身抽象方法相结合。与此同时,我们也应该考虑到目前对主流人工智能的批评,这些批评建议从人工智能过渡到大脑智能[54]。竞争利益作者声明,没有已知的竞争性经济利益或个人关系可能会影响本文中报告的工作。致谢这项工作得到了西亚区域局意大利技术研究所基金会在iCog倡议框架内的支持附录A1. Γ-函数该函数门控施加到身体模型的末端矢量的力场,以诱导末端吸引子动力学。将函数的起始时刻定义为θ0,并将相应的持续时间定义为θ 1,则函数由以下等式给出���̇1−���Γ = 0 −0≤ 0��������������� ��������� ���−���0≥���其中,= 65 −154 + 103������是平滑的0→1过渡,是归一化时间:���=−0。A2. RoM模块该模块为身体模型的任何关节生成将关节角度从其关节极限排斥的扭矩让我们将关节角θ的RoM定义为θ和 θ之间的间隔。������������RoM模块通过根据以下等式产生扭矩来排斥关节角度远离这些极限值���=−[(−���)−���−(���−���)]���������式中,Δ =(−)������������������。A3. 模拟中使用的参数值在图1和图2所示的模拟中,在图7和图8中,使用了以下参数值:• 原始力场发生器的参数单位重量=1 N/m100 N/mP. Morasso和V. 莫汉认知机器人2(2022)119131• 人体模型参数10 rad2/Nms1 rad2/Nms引用[1]P. 莫拉索河谷Mohan,The Body Schema:Neural Simulation for Covert and Overt Actions of Embodied Cognitive Agents,Curr.Opin. Physiol. 21(2021)219-225。[2] P. Morasso,(2021)手势形成:基于认知的人类-机器人伙伴关系的关键构建块 1(2021)92-110。[3] R. Laban,Schrifttanz,Universal Editions,Wein,Leipzig,1928.[4] F.B. 小吉尔布雷斯例如Carey,Cheaper By the Dozen,HarperCollins,纽约,1948年。[5] G. Guerra-Filho,Y.Aloimonos,A Language for Human Action,IEEE Comput. 40(5)(2007)42-51。[6] N. Bernstein,《运动的协调与调节》,Pergamon出版社,O X ford,1967年。[7] F.A. Mussa Ivaldi,P. Morasso,R.扎卡里亚,运动网络。一个分布式模型表示和规范电机冗余,生物。60(1988)1-16。[8] 编辑F.A. Mussa Ivaldi,P. Morasso,N. Hogan,E. Bizzi,多自由度运动系统的网络模型,在:M.D. Fraser(Ed.),控制网络和大规模并行分布处理模型的进展。公司名称:新泽西州诺伍德,1989年。Editor.[9] 诉Mohan,P.Morasso,被动运动范式:最优控制的替代方案,前线。神经机器人。 5(4)(2011)4-28。[10] V. Mohan,A.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 弹道matlab代码-MetaCoDDeM:多抽样决策过程中元认知控制的行为和计算驱动因素
- doppelganger:检查用户名是否跨多个站点使用
- memories:一个带有博客文章的MERN堆栈应用程序
- P5.Create
- nweb:用C语言编写的小型Web服务器
- SVMA
- company_mirror:pkandc.com的公司镜像
- linhtruong123.hub.io
- NAT66 for Netfilter-开源
- sandbox
- chocolatey-git:混合了巧克力的巧克力的好处
- 行业文档-设计装置-一种利用农作物秸秆无污染造纸工艺.zip
- 21S-8803MM:CS 8803网站(适用于2021年Spring)
- verifydata-id:印尼数据验证服务
- Java搭建宝塔部署实战毕设项目WMS仓库管理系统源码.zip
- Turntable:转盘选吃食 固定8个选项
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功