2020：虚拟现实智能硬件的非接触式交互系统优化与应用研究

72 浏览量更新于2024-01-24 收藏 1.25MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

虚拟现实智能硬件2020年第2期引文：刘嘉欣，张红欣，李传康。COMTIS：可定制的大屏幕可视化非接触式交互系统。虚拟现实智能硬件，2020，2（2）：162-174DOI：10.1016/j.vrih.2020.01.003·文章·COMTIS：可定制的大屏幕可视化刘亚东，韩洪星，李焕康浙江大学CAD CG国家重点实验室，浙江杭州310058*通讯作者，jiaxinliu@zju.edu.cn投稿时间：2019年11月4日修订日期：2019年12月29日接受日期：2020年1月15日国家重点研发项目（2017YFC 0804401）和国家自然科学基金（U1909204）资助。大屏幕可视化系统已广泛应用于许多行业。这些系统可以帮助说明不同生产系统的工作状态。然而，与这些系统的有效交互仍然是相关研究的焦点。方法本文提出了一种基于RGB-D摄像头的非接触式交互系统，该系统采用了一种新的骨骼长度约束方法。所提出的方法优化了从RGB-D相机收集的联合数据，在非常嘈杂的数据上具有更准确和更稳定的结果。用户可以通过修改系统中的有限状态机来定制系统，并在多个场景中重用手势，减少需要设计和记忆的手势数量。结果/结论作者在两种情况下测试了该系统。在第一种情况下，我们说明了一个过程中，我们改进了我们的系统上的手势设计，并通过用户研究测试系统。在第二种情况下，我们在采矿业中使用了该系统，并进行了用户研究，用户表示他们认为该系统易于使用。关键词人机交互; RGB-D摄像头;非接触交互;手势识别1引言随着显示技术在成本方面变得更加可接受，大屏幕显示器在许多领域和应用中变得越来越流行，其中额外的显示区域对于可视化特别有用。更大的屏幕可以向用户呈现更多的内容和细节;然而，出现了与系统交互的问题。除了传统的输入设备之外，还引入了其他交互机制，例如激光检测、触摸屏[1]、代理屏幕和基于非触摸手势的交互与其他交互方法相比，基于手势的交互更高效、更方便[2]。非接触式交互是一种使用光学设备（例如测距相机）来识别用户的手势而不与计算机直接接触的人机交互方法，在包括会议演示、地下采矿和用户不方便用键盘或鼠标控制设备的其他情况的许多情况下，非接触式交互被广泛地在煤矿中，由于2096-5796/©版权所有2020北京中科学报出版有限公司Elsevier B. V.代表KeAi Communization Co. Ltd.提供的出版服务。这是CC BY-NC-ND许可证下的开放获取文章（http：//creativecommons.org/licenses/by/4.0/）。www.vr-ih.comJiaxin LIU et al：COMTIS：可定制的大屏幕可视化非接触交互系统163多个子系统和传感器进行监控，常用大屏幕可视化系统。更大的屏幕可以更清晰地展示所有不同设备和系统的实时工作状态，对于这样的场景，非接触式交互非常有用。与传统的标记方法相比，基于测距相机的系统更容易使用，更简单，更便宜，精度更低。无触摸交互方法的核心是深度摄像头，例如微软的Xbox One控制台的Kinect One和英特尔的RealSense。Kinect One因其较长的有效检测范围和相对较少的噪声深度图而被广泛应用于许多应用中。然而，作为一种交互设备，Kinect不够精确，无法进行精确控制，这阻碍了它在许多实际应用中的普及。闭塞是另一个常见问题。当用户与设备交互时，不可避免的是用户的一部分被遮挡，这对手势识别造成显著影响并且给用户带来不舒适的体验。与提供对光标的足够精确的控制的传统交互设备不同，当前的非触摸交互系统只能提供有限的交互动作。使用信号处理方法（例如中值滤波和卡尔曼滤波）的常规解决方案可以平滑噪声数据，但是所得到的关节不够精确，或者对于交互来说延迟太大。此外，滤波器参数需要由设备的数据集定义或训练，从而防止滤波器被其他设备重用。自Kinect诞生以来，从医学到教育等各个领域都引入了大量的交互系统和应用。然而，这些应用中的大多数只关注单一场景，只有少数关注Kinect的关节数据去噪。有一些关于这个主题的工作，其中大部分描述了根据应用设置传统滤波器的参数的过程。为了解决上述问题，我们设计了一种新的通用的关节数据处理方法，以提高关节数据的质量，并将其应用到一个交互系统，允许用户定义自己的手势和相应的动作。此外，我们已经嵌入了有限状态机（FSM）在我们的系统中，它使用户能够重用手势根据一个具体的情况。在我们的系统实现后，我们进行了一个案例研究的大屏幕应用程序设计的煤矿行业。我们的系统的UI和用户研究中使用的应用程序如图1所示，其中左上方代表我们的系统。用户可以使用右侧的上部按钮打开配置文件，并使用下部按钮退出系统。图1 我们的系统的UI和用户研究中使用的3D地图应用程序（左）以及用户使用系统（右）。2相关工作2.1 RGB-D 相机交互系统随着RGB-D相机越来越受欢迎，这些相机的许多不同应用已经设计并付诸实践。在许多情况下，在可能不方便或不可能的情况下，164虚拟现实智能硬件2020年第2期用户触摸屏幕或键盘，RGB-D相机将是一个相当有用和强大的交互工具。Mendes等人介绍了CEDAR系统作为一种审查工具，以支持石油行业的协作任务[3]。Kinect还被应用于手术室，医生可以在不接触计算机的情况下检查和浏览有关患者的所有文件和数据，以避免任何感染的可能性[4，5]。Qian等人利用该设备与机器人进行交互[6]，类似地，Garzotto和Valoriani给出了智能家电交互的解决方案[7]。Hsu将Kinect引入了教室，该设备应该提供更好的课堂沉浸感的教育体验[8]。Kinect还参与了许多虚拟现实（VR）和增强现实（AR）应用，其中控制器被替换，环境被实时重建。手势交互是当前VR系统（如HTC Vive和PS VR）使用的控制器的流行替代方案。Kinect可以为用户提供更高的沉浸感和更好的体验。Buchmann等人介绍了一种基于手势的AR系统，该系统使用图像处理方法和手上标记来跟踪用户的双手。这种方法允许用户使用自然的手势与虚拟对象进行交互[9]。Hettiarachchi和Wigdor使用Kinect扫描周围环境中的物体，并将它们注册为类似形状的虚拟物体的代理[10]。Ma等人的研究人员将Kinect应用于交互式AR解剖学学习[11]。他们设计了一个AR魔镜的原型，可以直观地可视化用户的真实解剖信息。Cassola等人将Kinect用于在线3D健身房系统，以允许用户参与在线体操课程[12]。同时，大多数应用程序都集中在特定的场景，这使得这些系统不方便用户根据自己的应用和需求进行定制。此外，这些限制可能会给具有不同文化背景的用户在学习所设计的手势时带来困难。2.2RGB-D摄像机关节数据去噪根据RGB-D相机的技术特点，RGB-D相机产生的关节数据含有严重的噪声，难以直接将检测到的数据用于交互，因此在应用交互之前需要进行手势重建和优化。Fürntratt和Neuschmied通过对准确性和指向和点击难度的测试讨论了联合数据的噪声[13]。Microsoft在[14]中提供了许多传统数据过滤方法的信息，包括中值滤波器和加权平均滤波器。然而，这些传统的简单滤波器在许多应用中不能很好地工作。必须应用一些更复杂的滤波算法。Loumponias等人使用Tobit卡尔曼滤波器来改善联合数据，并将该算法与传统卡尔曼滤波器进行了比较[15]。Moon等人融合了来自两台RGB-D相机的数据，并使用卡尔曼滤波器来获得更好的结果[16]。不过，官方并不支持在一台电脑上使用多个RGB-D摄像头，而且RGB-D摄像头如果位置不成直角，会互相干扰。使用这样的解决方案在大多数应用中是相当复杂和不可实现的。2.3手势交互系统的设计为了在VR和AR系统中实现更友好的用户交互，应该合理设计和测试手势。一些工作集中在手势设计和优化的方法。Medeiros等人描述了构建手势词汇表、一组手势和相应语义的迭代过程，并设计了用户研究来验证系统的可用性[17]。Piumsomboon等人设计了一个用户研究过程来开发基于用户的手势集，并总结了手势设计的一些规则：可逆和可重用，大小确实重要，来自现有UI的影响，以及明显和模糊，165Jiaxin LIU et al：COMTIS：可定制的大屏幕可视化非接触交互系统为手势设计提供有用的指导[18]。Lin等人利用FSM在虚拟对象上进行更多交互。虚拟对象根据当前状态给出不同的响应，并在执行特定动作或交互时在状态之间转移[19]。Kou等人介绍了新用户在没有学习的情况下理解手势语义的困难的概念，提供了评估手势的措施和改进设计的指导[20]。3系统结构在本文中，我们提出了一种新的可定制的基于RGB-D相机的非接触式交互系统。用户可以定制手势和手势的语义。对于该系统，我们提出了一个国家的最先进的骨架处理方法，它优于现有的模型。此外，我们还引入了有限状态机来帮助用户减少内存压力。FSM允许用户重复使用类似动作的手势，而不是为每个动作设计不同的手势。系统的工作流程如图所示2.该系统包括3个阶段：数据处理，手势识别和命令发射。当系统启动时，用户可以指定配置文件，其中列出了手势模板和相应的语义。然后，系统加载文件列表中指定的所有手势模板并存储手势。当用户执行手势时，来自RGB-D相机的用户数据在数据处理阶段进行处理和优化。然后，系统在手势识别阶段识别用户输入。如果任何手势模板与输入匹配，则模板的名称发送到控制模块，并发出或执行相应的事件或动作。4数据处理阶段图2我们系统的基本工作流程。传统的滤波器由于其简单性而在许多应用中被广泛使用，但这些方法和解决方案具有以下缺点：对设备知识的要求。对人体限制的无知。具有2个关节的骨骼通常在传统滤波器解决方案中被处理为具有6个自由度（DoF）的2个自由关节，但实际上，只有5个DoF。如[14]中所讨论的，传统方法应用滤波器来提取输入的特定通带，但滤波器的参数应根据数据计算。这阻碍了过滤器迁移到不同的设备，其中参数应重新计算。在本文中，我们介绍了一个国家的最先进的数据处理方法，涉及骨长度的限制，并产生更好的结果，并可用于实时应用。此外，我们的算法可以适应其他设备没有任何修改。4.1输入数据RGB-D摄像头最多可识别6个用户的骨骼，每个骨骼包含25个关节，虚拟现实智能硬件2020年第2期166St我我St我我我Pi，Pj$∈E我J我JSt每秒帧数。该模块收集RGB-D相机传感器检测到的所有骨架，选择最接近的一个作为活动用户以避免干扰。以下所有过程仅对活动用户起作用。活动用户的骨架是包含25个关节的关节集合P =，E2P的元组，并且骨组E =连接关节的骨组E。每个关节Pi=xi，yi，zi是摄像机中的一组坐标帧，在相机坐标系中以米为单位测量。骨骼中有24块骨头，骨Est= {Ps，Pt}连接关节Ps和关节Pt。4.2损失函数定义和优化在交互过程中，活动用户的骨骼长度应保持恒定。传统的方法不约束用户骨骼的长度，这增加了骨架的自由度。在这里，我们将约束添加到系统中并优化输入的关节数据。输入数据中的骨骼长度可能随时间而变化，因此我们对数据进行过滤以重建骨骼在整个过程中保持相同长度的骨骼。考虑到由RGB-D相机检测到的关节是关节的真实位置的估计，我们构造以下优化问题：min∑P*-P2（1）我我S. t.  E*-=0s，t（2）在这里，P*是连接P的优化输出，而D 则表示优化输出绑定该连接的值在一个预处理模块中。d乘数如下：是相应骨骼的恒定基础真值。我们应用拉格朗日JP*1，P*2，P*3，∑P*-P2+λ∑P*-P*-dE中国（3）minnnP*1，P*2，P*3，.，P*n最小化该Loss函数，并且我们可以使用Newton的方法来迭代地找到其梯度的零点，其可以表示为：α2JP*ΔP* =-P*（4）利用该方程和所有关节的初始猜测（前一帧的输入和结果是合理的和良好的初始猜测），我们可以计算用户的收敛最优骨架J的二阶偏导数的典型形式是：H_x（i，j）i=j2JPi，Pj$∈E你好，-λ Hi，ji<$j和P，P∈E（五）哪里ijI j0其他2dE ijy *-y * 2 +z*-zHi，j 2-P*-P第二章（六）2dE i*-x2y *-y *Gi，j=St我J我J我J我JStJiaxin LIU et al：COMTIS：可定制的大屏幕可视化非接触交互系统167我JP*-P第三章（七）其余的二阶导数类似于上面的方程具有适当的步长阈值α，算法收敛速度快，输出稳定准确。在该系统中，α被设置为0.001。虚拟现实智能硬件2020年第2期166通过计算12个J_P*的迭代次数，并在两侧进行多次迭代，得到迭代的ΔP *，从而简单地解决了这一问题。重复该过程直到ΔP*足够小并且结果收敛。我们将整个骨架分成几个部分，优化每个部分，并将所有部分集成为一个整体。对于每个部分，我们选择一个根关节，并将其他关节的所有坐标替换为根的相对坐标。然后，模块优化所有零件，并将所有坐标改回来。这种优化以树的方式处理骨架，并且大大减小了要优化的系统的规模。为了估计所有骨骼的长度，系统要求用户在RGB-D相机前静止1秒。然后，该算法使用平均骨骼长度作为地面实况。4.3优化结果为了测试我们的算法的性能，我们在Microsoft Kinect One上进行了测试，并测量了我们的结果的稳定性。我们要求用户慢慢地挥动他的右手几次，并将他的左手从左边移到右边。在这个测试中，左臂会遮挡右手，使得RGB-D摄像头很难准确识别手和手臂。用户与设备之间的距离约为1米，处于设备的最佳检测范围内。图3显示了我们的算法得到的骨长度。横坐标是帧的数量，从第一帧的1开始，纵坐标是以米为单位测量的长度。在图中，绿线表示原始数据中的骨骼长度，绿点表示输入的平均值。同时，蓝线表示优化结果，蓝点表示优化骨长度的平均值。原始数据中的骨长度波动很大，因为RGB-D相机对数据没有任何限制优化后的骨骼长度稳定，除了骨骼图3与原始数据相比，我们的骨长度算法的结果。所有数据都以米为单位。（一）左肩肘骨长度;（b）左腕肘骨长度;（c）右肩肘骨长度;（d）右腕肘骨长度。虚拟现实智能硬件2020年第2期168连接右肘和右腕开始时，当我们的系统是估计实际长度，表明我们的算法成功收敛。然后计算原始数据和优化结果的骨长度偏差。记录的偏差如图4所示。我们可以发现，原始偏差在10-3左右，而优化后的骨架非常稳定，偏差为10-6。优化后的结果更加平滑、稳定。在图5中，我们将结果与图4记录优化骨骼和原始数据的10个骨长度的偏差。原始数据和传统的卡尔曼滤波。图5a至图5d示出了2只手的X和Y坐标的变化。图5e和5f分别示出了右手的轨迹和所提出的方法图5双手位置的结果，假设大多数手势都在x-y平面内。(a)右手X位置;（b）右手Y位置;（c）左手X位置;（d）左手Y位置;（e）优化结果;（f）卡尔曼结果。Jiaxin LIU et al：COMTIS：可定制的大屏幕可视化非接触交互系统169方法和卡尔曼滤波模型。从图中我们可以发现，Kinect检测到的双手的原始位置波动非常快。在第100帧左右，右手的X和Y坐标都有明显的振荡。此时，右手几乎处于图5e和图5f中最左边的位置，在这里我们可以发现手的原始轨迹非常嘈杂。我们应用卡尔曼滤波方法和所提出的算法的原始数据，并比较结果。在图5a至5d中，原始数据用绿色表示，我们的数据用红色表示，卡尔曼方法的结果用蓝色线表示。我们可以观察到，卡尔曼滤波方法可以紧密地跟踪原始数据，但在去噪方面表现不佳。卡尔曼滤波器处理后的数据仍然是非常嘈杂的。这使得用户很难执行一些需要准确性的操作，例如控制鼠标指针。相比之下，我们的模型即使在原始数据非常嘈杂的情况下也能给出更平滑的结果。在实验中，右手的轨迹应该近似为几个弧线，因为用户正在缓慢地挥动他的手。从图5e中可以观察到，所提出的方法给出了预期的平滑结果。5手势识别阶段在这个阶段，我们已经利用了2种手势子模块用于不同的目的。一个是连续手势，用于模拟控制器和鼠标光标;另一个是离散手势，为按键事件设计。当用户执行手势时，这两个模块将手势与模板进行匹配。如果任何子模块找到匹配，则返回相应的模板。5.1连续手势连续手势主要用于模拟鼠标光标移动和鼠标滚轮事件。手势的强度被测量为对应事件的程度。例如，当用户将他的手向右移动时，光标将向右移动，并且光标移动的距离与手的移动成比例。这在查看3D地图、玩简单游戏或浏览网页等应用程序中非常有用。在我们的系统中，我们已经实现了预定义的连续手势详细的用户研究的结果，这将在后面讨论。通过连续手势，理论上，用户能够用我们的系统完成任何任务，方式与使用键盘和鼠标相同，例如用户使用左手控制光标，右手执行离散手势来模拟按键事件。通过这种配置，用户可以浏览网页，玩简单的游戏，以及进行其他复杂的操作。5.2离散手势离散手势用于离散事件，例如按键或释放。离散手势是在x-y平面中从一侧开始到另一侧的连续手势。如[20]中所讨论的，用户通常更喜欢与在诸如电话和平板电脑的表面显示器上使用的手势类似的手势。此外，RGB-D相机在检测X和Y位置时比深度更敏感，因此在x-y平面中使用手势更准确和稳定。系统中使用的算法是方向敏感的，因此如果另一条相同形状的曲线在相反的方向上，则该曲线无法匹配模板。当用户闭合他的手时，手势记录的过程开始，并且当用户张开他的手时结束。模板文件是x-y平面上的一组点，用户可以轻松修改。由于模板将在识别过程中重新采样和调整大小，用户不需要关心点的数量或手势的大小。虚拟现实智能硬件2020年第2期170D2s2有多种手势识别算法，如[21]和[22]。在我们的系统中，当考虑计算效率和速度时，手势识别模块使用$1算法，该算法在识别连续轨迹时简单、快速且鲁棒，并广泛用于鼠标手势识别[23]。该算法输出两个输入的连续轨迹的相似度，其中一个是用户输入，而另一个是模板。该算法分为4个步骤。(1) 将两个轨迹的大小调整到大小为s的同一边界框中。(2) 用相同数量的点对它们重新采样，并将两个轨迹中的点配对。(3) 计算点对之间的平均距离，并使用二分法，找到距离最小的角度。(4) 使用最小距离d和边界框s的大小计算相似度：评分= 1-0.5（八）如果分数大于预定义的阈值，则两个输入相互匹配。通常，阈值设置为0.7左右。如果模板与输入匹配，则模板的名称被发送到控制模块以执行配置文件中指定的相应动作和状态转移。6指令发射级在许多场景中，例如控制地图或切换幻灯片，用户可能需要使用一个手势来执行类似但不同的命令，例如，转到下一页，以及在嵌入式视频中跳到下一分钟。受[19]的启发，我们设计了一个基于FSM的系统，其中手势是多路复用的。在这些场景中，用户可以为每个场景分配一个状态，在这些状态中重复使用相同的手势，并通过另一个手势在状态之间切换。这有助于用户通过减少系统中使用的手势总数来减轻记忆负担。FSM是一个5元组的向量空间，S，s0，δ，F。S是输入手势的集合; S表示所有状态的集合;s0是初始状态，在我们的系统中称为原点，状态转移函数表示为δ：S ×→在该系统中，用户可以为应用程序中的不同场景指定几种状态，并配置不同场景之间的过渡手势。这允许用户在不同场景中针对不同语义和命令使用相同手势。7为例7.1案例一在第一种情况下，我们使用该系统来操作基于Web的3D地图应用程序。对于非接触式用户界面，手势的设计是至关重要的。对用户来说不直观的手势会给最终用户带来障碍和困难[20]。然而，很难找到用户接受的手势。在这种情况下，我们提出了一个过程中，我们设计的手势进行迭代的用户研究的地图应用程序。在第一次迭代中，我们向用户展示了应用程序上的所有类型的操作：平移（T）：用户可以移动地图上的视点位置。旋转（R）：用户可以沿向上轴顺时针或逆时针旋转地图。Pitch（P）：用户可以改变视角方向171Jiaxin LIU et al：COMTIS：可定制的大屏幕可视化非接触交互系统和地图平面。缩放（Z）：用户可以放大或缩小。对于每个动作，我们要求用户在没有限制的情况下执行他最喜欢的动作。用户给出的手势被记录到数据库中并被分类。对于每种类型的操作，我们收集了15种不同的手势，对于每种手势，我们计算了实例的数量。表1中列出了每种操作类型的前2个手势及其相应计数。表1 每个操作秩翻译交互类型旋转间距变焦1右手握拳并在x-y平面内拖动：72右手握拳并在x-z平面内拖动：5右手握拳画圈：6用右手掌画圆：3手掌上下移动：5双掌上下移动：双手握拳并向两侧拖动：8打开或握住拳头：5然后，我们通过要求用户从表1中列出的前2个手势中选择最佳手势，并选择具有较高投票的手势作为候选手势来进行第二次迭代。为了方便起见，我们称之为表1中等级1的手势，每种类型的手势1，另一种类型的手势2在这次迭代中，表2 中列出的手势的投票交互类型16名没有接触式设备交互体验的用户参与实验，实验结果如表2所示。手势编号12翻译115轮调12413号球场3变焦106基于表2中给出的结果，我们实现了该系统，并将其用于Web地图应用程序。在最后的迭代中，我们邀请另外11个用户来测试我们的系统。然后，由每个用户填写调查问卷。在调查问卷中，用户可以通过对三个主要方面进行打分来判断系统：难用性，指的是系统是否足够准确和灵敏，让用户操作地图。模仿压力，指的是设计的手势是否难以记忆。物理压力，指的是互动过程是否令人疲惫或疲惫。评分范围为1至5分。1分表示使用该系统或记忆手势很难，或者该系统非常累人。此迭代的结果如图6.从图中我们可以发现，大多数手势和操作都很好地被用户接受。可以观察到，用于平移和缩放的手势具有高分数，因为这两个手势与平板电脑和电话上的手指操作几乎相同。值得注意的是，俯仰手势并不被用户所接受。根据用户反馈，有时需要多次重试以调整到3D地图上的最佳视角以避免遮挡。对于这样的场景，手势应该改进。7.2案例二在这种情况下，我们利用我们的系统来控制一个采矿公司的大屏幕可视化系统图6调查表的结果172虚拟现实智能硬件2020年第2期来说明我们系统的可用性。该系统可以显示地下环境，地理结构的信息，以及所有涉及的设备。用户还可以在场景中四处走动，观察矿井的细节。可视化系统和我们提出的系统如图1所示。在系统中，用户首先进入系统，并选择场景的视图。有三种类型的视图：指定点、固定路线和自由漫游。在指定点，用户可以从预设的特定角度观察场景。在固定路线中，相机沿着穿过场景的指定路线移动。在自由行走中，用户可以观察周围并控制相机的位置。在每种模式下，用户可以返回到上一级菜单并选择场景的其他视图。根据应用程序，我们为系统设计了FSM，如图7所示。系统中使用了3种状态和9种手势。所使用的手势在图8中示出。我们选择这些手势是因为它们通常用于其他应用程序和容易记住。在测试中用户首先做一个帽子手势进入系统，然后他可以移动他的手来控制鼠标光标并握住拳头来选择他想要进入的视图。在该场景中，用户可以执行圆圈手势以返回到上一个菜单，或者执行X手势以退出系统。此外，在自由行走模式下，用户可以使用上、左、下和右手势来控制相机的移动。受试者需要通过所有不同的视图，并在最后一个视图后退出系统图7系统中使用的有限状态机。矩形表示状态，箭头表示转换，箭头上的名称是转换条件。图8系统中使用的手势。在案例研究中，10名没有使用RGB-D相机或其他非接触式交互设备经验的用户尝试了该系统，他们回应说，他们认为该系统易于使用，手势易于记忆。在测试过程中，手势被准确识别，并发出指定的控制命令。然而，3名受试者认为用手控制系统有点累，这表明手势仍需改进和精心设计，以获得更好的用户体验。8结论和今后的工作在本文中，我们介绍了我们的基于RGB-D相机的非接触式定制交互系统与一个新的RGB-D相机骨架数据优化算法。与传统的卡尔曼滤波方法相比，该算法采用了骨长约束，取得了更好的效果。此外，我们的方法可以直接应用于其他设备，无需任何修改或定制。在我们的系统中，用户可以定义自己的手势，FSM模型，以及相应的动作和事件，为不同的应用程序和场景。本文设计的有限状态机模型使用户能够在同一应用程序中重用手势，从而减少了应用程序所需的手势。然后，我们进行了一次迭代的用户研究来改进手势，这个过程成功地实现了更友好、更高效的手势。我们已经展示了手势创建、优化和验证的整个过程。在整个系统的开发过程中，由于人体检测的精度有限而导致的手势识别准确率低的挑战出现了。目前的RGB-D摄像机可以捕捉关节数据，173Jiaxin LIU et al：COMTIS：可定制的大屏幕可视化非接触交互系统实时性和可接受的计算，但精度太低，严重的应用，如车辆控制。基于卷积神经网络（CNN）和RGB相机的新方法，如[24]，可以产生更准确的人体姿势估计，但对于实时交互应用来说，时间成本太大。在保持较高精度的前提下，加快计算速度，还有待进一步的研究。引用1威尔逊，TouchLight：用于基于手势的交互的成像触摸屏和显示器。在：第六届多模态接口国际会议论文集，2004年，692Malik S，Ranjan A，Balakrishnan R.通过视觉跟踪的多指手势输入从远处与大型显示器进行交互。第18届ACM用户界面软件与技术研讨会论文集。西雅图，WA，USA，ACM Press，2005，43DOI：10.1145/1095034.10950423Mendes D，Sousa M，Araujo B，Ferreira A，Noronha H，Campos P，Soares L，Raposo A，Jorge J.大屏幕显示器上的协作3D可视化。在：互动，超高分辨率显示器的Powerwall国际研讨会。ACM，CHI，20134[10]杨文，李文.手术中的无接触交互。ACM通讯，2014年，705Wachs J P，Stern H I，Edan Y，Gillam M，Gillam J，Feied C，Smith M.一个基于手势的工具，用于无菌浏览放射学图像。Journal of the American Medical Informatics Association，2008，15（3）：321-323 DOI：10.1197/jamia.m24106钱克，牛健，杨华.利用kinect开发基于手势的远程人机交互系统。国际智能家居杂志，2013，7（4）：2037Garzotto F，Valoriani M.不要触摸烤箱：与家用电器的基于运动的非接触式交互。In：Proceedings of theInternational Working Conference on Advanced Visual Interfaces，2012，7218许慧敏。Kinect在教育上的潜力。国际信息与教育技术杂志，2011年，365-370DOI：10.7763/ijiet.2011.v1.599放大图片作者：J. J.指尖。第二届计算机图形学与交互技术国际会议论文集。新加坡，ACM出版社，2004年，第212DOI：10.1145/988834.98887110Hettiarachchi A，Wigdor D.附接现实：在增强现实中实现机会主义地使用日常物品作为有形代理。在：2016年CHI计算机系统人为因素会议论文集，2016年，195711[10]马M，法拉沃利塔P，布鲁姆T，埃克U，桑多尔C，Weidert S W J，纳瓦布N. Kinect用于交互式AR解剖学学习。混合和增强现实（ISMAR）IEEE国际研讨会，2013，27712Cassola F，Morgado L，de Carvalho F，Paredes H，Fonseca B，Martins P. Online-gym：a 3D virtual gymnasiumusing kinect interaction. Procedia Technology，2014，13，130-138DOI：10.1016/j.protcy.2014.02.01713Fürntratt H，Neuschmied H.评估kinect v2传感器的指向精度。多媒体与人机交互国际会议（InternationalConference on Multimedia and Human-Computer Interaction，MHCI）2014年，12414阿兹米Skeleton关节平滑白皮书。MSDN数字图书馆，2012年15[10]杨文，王文，王文.使用tobit卡尔曼滤波，以改善微软Kinect记录的运动。在：应用概率IWAP国际研讨会的会议记录。201616Moon S，Park Y，Ko D W，Suh I H.基于卡尔曼滤波的多kinect传感器融合人体骨骼跟踪。International Journal ofAdvanced Robotic Systems，2016，13（2）：65DOI：10.5772/62415虚拟现实智能硬件2020年第2期17417Medeiros A C S，Tavares T A，da Fonseca I E.如何设计基于手势的用户界面？国际设计、用户体验和可用性会议（International Conference of Design，User Experience and Usability）2015年，第6318张文辉，张文辉，张文辉.增强现实的用户自定义手势。IFIP会议人机交互，2013，28219林伟华，杜立，哈里斯-亚当森C，巴尔A，Rempel D.虚拟环境中操作物体的手势设计现实人机交互用户界面设计，开发和多模态。Cham：Springer International Publishing，2017，584DOI：10.1007/978-3-319-58071-5_4420郭耀斌，郭耀明，郑凯.开发用于与大型公共显示器进行空间交互的直观手势。分布式、环境式和普及式交互。Cham：Springer International Publishing，2015，174-181 DOI：10.1007/978-3-319-20804-6_1621任正，孟建杰，袁建生，张振元.基于kinect传感器的鲁棒手势识别。第19届ACM多媒体国际会议论文集。亚利桑那州斯科茨代尔，ACM Press，2011，759-760 DOI：10.1145/2072298.207244322李玉使用Kinect进行手势识别。软件工程与服务科学（ICSESS）In：IEEE 3rd International Conference on. IEEE，2012，19623放大图片作者：Wobbrock J O，Wilson A D，Li Y.没有库、工具包或培训的手势：一个用于用户界面原型的1美元识别器。第20届年度ACM用户界面软件和技术研讨会论文集纽波特，Rhode Island，ACM Press，2007，159DOI：10.1145/1294211.129423824曹Z，西蒙T，魏S，谢赫Y.利用局部仿射场进行多人2d实时位姿估计CVPR，2017

下载后可阅读完整内容，剩余1页未读，立即下载