没有合适的资源?快使用搜索试试~ 我知道了~
引文:Egemen Eertugrul,Ping Li,Bin Sheng.实现用户友好的手势界面来控制现有的GUI。虚拟现实智能硬件,2020,2(2):153-161DOI:10.1016/j.vrih.2020.02.001虚拟现实智能硬件2020年第2期·文章·实现用户友好的手势界面来控制现有的GUIEgemenERTUGRUL1*,PingLI2,BinSHENG11. 上海交通大学计算机科学与工程系,上海2002402. 中国澳门科技大学信息技术学院*通讯作者,egertu@sjtu.edu.cn投稿时间:2019年10月20日接收时间:2020年2月12日接受时间:2020年2月26日手势接口是主要执行手跟踪和手势预测以提供替代控制和交互方法的专用程序。它们利用最自然的交互和通信方式之一,提出新颖的输入,在人机交互领域显示出巨大的潜力。开发一个灵活而丰富的手势界面是一项耗时而艰巨的任务。以前发表的研究已经证明了有限状态机(FSM)方法的意义时,检测到的手势映射到GUI动作。方法在我们的手势界面,我们扩大了FSM的方法,利用手势特定的属性,如手之间的距离,距离相机,发生的时间,使用户能够执行独特的GUI操作。这些属性是从手势界面中使用的RealSense SDK检测到的手势中获得的。通过这些特定于手势的属性,用户可以激活静态手势并将其作为动态手势来执行。我们还提供了补充功能,以提高我们的手势界面的效率,方便性和用户友好性。此外,我们还开发了一个补充应用程序,通过捕获深度和彩色图像中的手部关键点来记录手势,以便于生成手势数据集。结果我们进行了一个小规模的用户调查,15个科目测试和评估我们的手势界面。从用户获得的匿名反馈表明,我们的手势界面是足够方便和不言自明的使用。此外,我们还收到了关于界面响应性方面的小缺陷的建设性反馈。结论我们提出了一个手势接口,以及关键概念,以达到用户友好性和有效性,在现有的GUI控制。关键词人机交互;手势识别;计算机视觉应用1引言手势无疑是任何环境中最自然的互动和交流方式之一,无论是用于执行动作还是人际交流。有时,非语言交流比语言交流更有效,特别是当利用手势时。这些事实被发现是有用的和有前途的人机2096-5796/©版权所有2020北京中科学报出版有限公司Elsevier B. V.代表KeAi Communization Co. Ltd.提供的出版服务。这是CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by/4.0/)。www.vr-ih.com虚拟现实智能硬件2020年第2期交互(HCI)。在个人计算机和移动设备的现有用户界面中寻找新的输入技术,以及最近对虚拟现实和增强现实的研究[1-8]指出了当前对在图形用户界面(GUI)和虚拟环境中使用手部姿势和手势的兴趣。先前提出的用于徒手跟踪的方法主要利用运动捕获传感器或相机。前一种技术对于一般用户来说是不太容易获得的,因为它需要专用硬件(例如。例如,在一个实施例中,配备有多个运动传感器的手套)。基于相机的方法[9,10]充分利用相机的可用性,使具有各种目标的众多用户能够在不需要专用硬件的情况下测试和开发他们的应用程序。然而,仅仅拥有无处不在的硬件是不够的。在基于手势的界面的运行时和开发阶段之间存在不同的需求,这可能是冲突的。一个可定制和可扩展的手势界面,以满足其用户的需求,需要相当大的努力和时间在开发阶段的迭代。此外,手势识别的低级微调需要计算机视觉和机器学习方面的知识和专业知识。Krupka等人通过引入一组开发工具来解决这些问题,这些工具利用简单的语言进行手部姿势和手势描述[11]。所提出的开发工具和手势接口依赖于有限状态机(FSM)模型,该模型可以帮助用户无缝地将手势映射到动作,从而根据他们的需求定制接口。我们进一步发展这个想法,并引入一个手势接口,不仅利用手势,但也有其独特的功能。在我们的方法中,每一个手势都会激活一系列的动作,这些动作利用了手势特定的此外,我们提供了我们认为对于手势界面上的更好用户体验至关重要的附加功能,例如用于向用户提供实时视觉反馈的视口界面,用于显示警报的屏幕通知,倒计时计时器,用于处理异常行为的动作,光标平滑,和屏幕分辨率映射。这项研究的贡献是双重的。第一个是手势界面,这是一个长达六个月的迭代开发的产品,来自该领域专家的建设性反馈。第二个是一个补充应用程序,用于捕获深度和彩色图像中的手部关节和关键点,以轻松即时地生成手势数据集。我们相信,我们的方法和研究结果是显着的未来实践上实现用户友好的手势界面和人机交互。在本文的其余部分,我们首先解释所提出的手势界面中采用的方法,然后讨论我们的结果和用户调查,最后提供结论。2方法在本节中,我们将详细解释在我们建议的接口中使用的方法。2.1系统概述我们的系统由三个主要层组成:手势界面、输入模拟器和图形用户界面(图1),其中GUI是与操作系统直接关联的唯一预先存在的元素。图2展示了所提出的手势界面的流程图。第一层是建议的手势界面,它主要是为了获得对现有GUI的控制,在现成的操作系统(OS),特别是Windows。我们采用英特尔实感SDK[12]来捕获和处理深度和彩色摄像头捕获的图像流,以访问全手骨骼/关节并检测用户的手势。除了我们的接口,我们还使用了一个外部库,称为“输入模拟器”[13],它在我们的接口和最终层之间形成了一个基本的桥梁和层,即,内置GUI。154Egemen ERTUGRUL et al:关于实现用户友好的手势界面来控制现有的GUIInput Simulator 是 一 个 包 装 库 , 它 执 行 与Windows机器兼容的本机Win32输入命令。我们将手势接口(第1层)检测到的手势映射到键盘或鼠标输入,并通过输入模拟器(第2层)模拟它们。所采用的输入函数的控制参数为如下所示:图1显示主要组件的系统概述。图2建议手势接口的流程图。· 老鼠. MoveMouseTo(X_position,Y_position):此函数在每次帧更新时调用。X_position和Y_position是屏幕空间中鼠标光标移动到的坐标。这些值是通过将手的中心相对于摄像机空间映射到屏幕空间而获得的(见2.3小节)。· Mouse.LeftButtonClick()、Mouse.RightButtonClick():这些函数在鼠标光标的当前位置执行一次性单击事件。· 老 鼠 . LeftButtonDown ( ) : 在 鼠 标 光 标 的 当 前 位 置 执 行 单 击 并 按 住 事 件 , 直 到 调 用Mouse.LeftButtonUp()函数。· 释放由Mouse.LeftButtonDown()发起的单击按住事件。· 老鼠. VerticalScroll(Direction):执行滚动事件。它用于放大缩小操作。根据用户执行的所需放大/缩小操作,方向· 键盘. KeyDown(KeyCode):模拟按键按住直到键盘的效果。KeyUp(KeyCode)函数在相同的KeyCode上调用。KeyCode参数一般设置为CTRL键,进行放大缩小操作。155虚拟现实智能硬件2020年第2期·键盘。KeyUp(KeyCode):模拟按键释放效果,以结束键盘启动的进程。KeyDown(KeyCode).2.2特定于手势的属性手势特定属性是在执行手势时获取的有用手势属性。使用这些属性的主要优点是,它们使用户能够以动态手势的形式使用任何静态手势,并启用附加的一系列动作。我们的实现包括在四种状态之间切换,如图3所示:(1) BeginIdle :执行动作之前的状态。空闲手势(即,手指的伸展)。图3当前实现的状态机图。(2) BeginAction:用户开始执行操作时的状态。该状态包括非空闲手势(即,拳头、V形标志、捏等)并保存手势属性(即,手部关键点的坐标、手部与相机之间的距离等)相对于发生时的相机空间。(3) EndAction:用户完成执行操作时的状态。接口执行映射的操作(即,例如,缩放、选择、点击),直到其达到该状态。(4) EndIdle:执行动作后的状态一个空闲的手势(即,手指张开)。其中一个最重要的例子是利用双手之间的距离,以及它们相对于相机的各自深度。在我们的界面中,我们将这些手势映射到缩放操作。图4演示了使用双手进行放大和缩小。拳头手势执行映射的操作,并且张开手指停止该映射的操作帐户时执行缩放操作。此外,用户可以在缩放操作之间连续切换,而无需在过渡期间展开手指。图4用于表演的双手之间的距离GUI上的缩放操作。第二步和第三步显示了使用双手的激活器拳头手势的激活阶段。张开手指的手势是抑制手势。另一种方法结合了V形手势和仅使用一只手的手指伸展手势。在前面的例子中,我们强调发生的时间。该方法的关键区别在于使用检测到的手势的深度特征(即,V-手势)。图5和图6显示当用户执行V符号时启动深度跟踪。直观地说,这个操作也可以用来执行缩放操作。用户体验直接关系到系统的效率和易用性。我们将手势映射到不会引起用户混淆的动作。此外,由于对检测准确性的担忧,RealSense SDK对一次性使用某些手势有限制。因此,我们根据执行时的自然程度以及SDK检测到的准确程度来选择激活器和抑制器手势。156Egemen ERTUGRUL et al:关于实现用户友好的手势界面来控制现有的GUI2.3补充接口功能补充界面功能是手势界面的附加组件,可显著补充用户体验。在没有这些特征的情况下,手势接口将能够照常操作;然而,它将缺乏用户友好性和易用性。首先,我们在用户界面上包含了一个viewport显示,它向用户提供连续的实时视觉反馈(图7)。在没有视口显示的情况下,用户容易在使用界面时遇到困难,特别是在确定他们的手是否在用户的手内时。相机的视场(FOV)此 外 , 我 们 还 包 括 屏 幕 通 知 , 用 于 显 示RealSense SDK触发的警报和重大事件。这些警报显示实时状态,例如手部检测、跟踪、校准、入/出边界(FOV)以及相对于摄像机的远近等。2 秒)在屏幕的角落,而不会分散用户的注意力。通过倒计时计时器,我们的界面可以防止用户执行非预期的操作。本质上,我们为需要重复或连续性的时间关键GUI操作(例如双击鼠标操作)采用了倒计时计时器(即,快速点击)或鼠标右键点击(即,通过保持手势预设的持续时间)。图5用于在GUI上执行缩放操作的手和相机之间的距离。第二和第三步骤示出了由使用双手的V手势激活的阶段。张开手指的手势是抑制手势。图6在每个预定义的距离/从相机放大/缩小操作。此外,它们还用于避免使用SDK返回的错误预测。例如,捏手手势被映射到单个鼠标左键单击事件(单击并释放),而拳头手势被映射到连续鼠标左键单击事件(单击并保持)。这两个手势经常被SDK混淆和误解。因此,在每个手势之后运行具有短持续时间的倒计时器有助于界面补偿由SDK引起的此类错误。人工关节位置,称为“JOINT_CENTER”,图8被用作手的中心位置。我们映射这个位置,由SDK跟踪,以控制光标。用户选择手(左侧或右侧)用作光标。这是一个简单的过程,但是,当直接映射到现有桌面环境的屏幕分辨率时,中心关节通常不准确。因此,我们在光标的当前位置和新映射的位置之间的每一帧执行线性插值,以在光标控制期间实现更好的精度和更平滑的过渡。此外,该界面处理其用户的异常行为,例如当预测置信度低或手的位置接近/超出边界时执行手势。157虚拟现实智能硬件2020年第2期当跟踪手穿过相机的FOV的边界时,置信水平显著降低。由于这个原因,当用户决定在桌面屏幕的角落周围执行点击操作时,它变得具有挑战性。而不是直接将相机分辨率映射到桌面分辨率(例如,例如,在一个实施例中,640480深度分辨率到19201080桌面分辨率),我们包含了偏移量,帮助用户毫不费力地达到映射的桌面分辨率的角落。2.4姿势记录器手势记录器通过RealSense SDK捕获的颜色和深度图像无缝记录手部关键点。记录的手部特征和图像对于训练自定义手势预测器和模型是必不可少的。而且必须图7手势界面的视口显示和用户界面。用户正在使用双手控制PDF阅读器应用程序。在记录手势时仔细考虑人手的解剖结构。该软件应该充分定制和通用化,以便为每个使用它的人工作图8和表1显示了RealSense SDK可以准确访问的22个关节关键点,同时将手从背景中分割出来,无需任何校准。图8在左手(左侧)和父子关节(右侧)之间的连接的代表性图像上显示关节编号和位置。我们的目标是使手势记录过程尽可能简单。首先,用户在记录手势之前设置手势名称和时间间隔一旦记录器启动,用户158Egemen ERTUGRUL et al:关于实现用户友好的手势界面来控制现有的GUI执行的手势,而程序表1关节编号、名称和对应的父关节记录并保存计时器每次滴答时的关键点和图像数据。因此,较短的时间间隔将导致获得更多的数据。完成后,用户手动停止记录。最后,记录会自动保存在相应的文件夹中,如图9所示。第一级的目录以用户输入的手势名称命名。如果存在具有相同手势名称的目录,则重用现有目录。随后,每个新的记录在对应的手势名称下创建新的手势,并且时间戳作为其名称。这些记录手势的子目录包含一个名为“joint_data”的文本文件。txt”和“.bmp”格式的深度图像。文本文件包括时间间 隔 ( TimeInter- val , ms ) 、 记 录 编 号(RecordNo )、手的身体侧(HandSide ,Left/Right/Unknown ) 和 22 个 关 节 的 位 置(x,y,z)(单位:米)。每个记录编号与深度图像文件的名称匹配。联名编号联名共同家长图9记录目录和联合数据的结构。3结果和讨论我们测试了我们的手势界面上的笔记本电脑与Windows 10操作系统,英特尔酷睿i7- 4700 HQCPU,在2.40 GHz和8 GB RAM。除了现有的GUI之外,我们还选择了非常适合一般用途的程序来测试我们的界面,例如PDF文档阅读器和演示软件。为了收集用户体验的反馈,我们对来自不同背景的15名受试者进行了小规模的用户研究。来自用户的客观反馈表明,手势足够直观,可以毫不费力地控制现有的GUI和流行的桌面应用程序。相比之下,大多数用户报告在手势和手势之间切换时手势识别延迟引起的不适,1591关节_手腕-2关节中心13关节_拇指_底座14 JOINT_THUMB_JT135 JOINT_THUMB_JT246关节_拇指_尖端57接头_索引_底座18 JOINT_INDEX_JT 179 JOINT_INDEX_JT 2810关节指数头端911中间底座接头212 JOINT_MIDDLE_JT 11113 JOINT_MIDDLE_JT21214中间接头头端1315接头环底座116 JOINT_RING_JT 11517 JOINT_RING_JT21618接头环头端1719关节_粉红色_底座120 JOINT_PINKY_JT 11921 JOINT_PINKY_JT22022关节_粉红色_尖端21虚拟现实智能硬件2020年第2期执行需要响应的操作。我们发现,这些短暂的延迟是由RealSense SDK引起的,无论硬件规格如何,它们在不同手势之间的快速转换过程中最常见。如第2.3小节所述,我们减轻了此类延迟的不良后果。最后,用户普遍对所提供的一系列行动感到满意。图10显示了我们的用户研究结果,表明用户体验总体上是积极的。图11示出了用户对所提出的手势界面进行实验。图10条形图显示用户对每项标准的满意程度。重要的是要认识到,我们在这项研究中的目的是提出一种替代用户界面来控制现有的GUI,而不是提供传统界面的替代品。我们承认,在某些情况下,我们的方法可能存在缺陷,在这些情况下,使用现有方法更合理。然而,在用户体验方面没有灵丹妙药。不同形式的用户界面可以在不同的环境中提供各种好处4结论图11用户正在测试手势界面。我们提出了一个手势接口来控制现有的桌面GUI。首先,我们强调用户友好性和效率时,开发建议的接口。我们在本文中描述了实现这些优先事项所采用的基本概念。我们相信,我们的研究结果将是有价值的未来研究的手势接口和人机交互领域。作为未来研究的一部分,我们的目标是改进所提出的界面,以支持更大数量的手势具有更高的复杂性,取代RGB-D摄像头与仅RGB摄像头,并适应移动界面上的技术。致谢:作者要感谢FreePik免费提供我们用于手势插图的手的矢量图像。引用1[1]葛林华,梁华,袁建生,塔尔曼.单深度图像中的鲁棒3D手部姿态估计:来自单视图CNN到多视图CNN 2016年IEEE计算机视觉和模式识别会议。拉斯维加斯,美国,IEEE计算机协会,2016160Egemen ERTUGRUL et al:关于实现用户友好的手势界面来控制现有的GUIDOI:10.1109/CVPR.2016.3912刘伟,王伟,王伟. Vulture:一个半空中的文字手势键盘。SIGCHI计算机系统中人为因素会议论文集。加拿大多伦多,SIGCHI,2014DOI:10.1145/2556288.25569643张文辉,张文辉,张文辉.增强现实的用户自定义手势。在:人机交互开普敦,南非,IFIP,2013DOI:10.1145/2468356.24685274[10]李志华,李志华.准确、稳健、灵活的实时手部跟踪。第33届ACM计算机系统人为因素年会论文集。韩国首尔,ACM,2015DOI:10.1145/2702123.27021795李国伟,李国伟,李国伟.研究多指输入在半空中文字输入的灵活性。 ACM Conference on Human Factors inComputing Systems计算机系统中的人为因素会议美国纽约,ACM,20156吴伟杰,王晓刚,王晓刚.使用检测引导优化的快速和鲁棒的手部跟踪。2015年IEEE计算机视觉和模式识别会议(CVPR)。美国波士顿,IEEE,2015 DOI:10.1109/cvpr.2015.72989417[10] Tagliasacchi A,Schröder M,Tkach A,Bouaziz S,Botsch M,Pauly M.用于实时手部跟踪的鲁棒铰接式ICP。计算机图形学论坛,2015,34(5):101DOI:10.1111/cgf.127008李伟杰,李伟杰.手持平板电脑的多指和弦:可识别和难忘。SIGCHI计算机系统中人为因素会议论文集。SIGCHI,20149Chen Q,Sun X,Wei Y C,Tang XO,Sun J.从深度进行实时和鲁棒的手部跟踪。在:2014 IEEE会议 计算机视觉和模式识别Columbus,USA,IEEE,2014DOI:10.1109/cvpr.2014.14510Sridhar S,Oulasvirta A,Theobalt C.使用RGB和深度数据的交互式无标记关节手运动跟踪。2013年IEEE计算机视觉国际会议论文集。悉尼,澳大利亚,IEEE,2013 DOI:10.1109/ICCV.2013.30511Krupka E,Karmon K,Bloom N,Freedman D,Gurvich I,Hurvitz A,Leichter I.走向逼真的手势界面:为开发人员和机器保持简单。2017 CHI Conference on Human Factors in Computing Systems 会议论文集。美国纽约,ACM,2017DOI:10.1145/3025453.302550812英特尔RealSense™ SDK for Windows。https://software.intel.com/en-us/articles/realsense-sdk-windows-eol13努南·M Windows输入模拟器161
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功