儿科急诊虚拟现实培训的交互设计及可用性研究

41 浏览量更新于2024-01-24 收藏 1.28MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

虚拟现实智能硬件2020年12月第4·文章·儿科急诊虚拟现实培训的交互设计TJMATTHEWS1，FenggTIAN2*，TOMDOLBY31. 英国伯恩茅斯大学数字娱乐中心2. 英国伯恩茅斯大学科技学院3. 模拟主管，AiSolve，英国*通讯作者，ftian@bournemouth.ac.uk接收日期：17 April 2020修订日期： 21 June 2020接受日期： 8 July 2020支持：Centre for Digital Entertainment（EP/L016540/1，EPSRC，UK）引文：TJ MATTHEWS，Feng TiAN，Tom DOLBY。儿科急诊VR培训的交互设计。虚拟现实智能硬件，2020，2（4）：330-344DOI：10.1016/j.vrih.2020.07.006虚拟现实（VR）在医疗保健培训中的应用和支持越来越多，但是仍然需要努力减轻可用性问题。方法本研究进行了一项可用性研究，在使用中的急诊医学VR培训应用程序，可在市售的VR硬件和标准的交互设计。9名没有VR经验但具有相关医疗专业知识的用户完成了两个模拟场景，共记录了18个会话。他们在每次会议后完成了NASA任务负荷指数和系统可用性量表问卷，并记录了他们的表现，以跟踪用户错误。结果和结论我们的结果显示了一个中等（和潜在的最佳）的系统可用性评分和高于平均水平。在用户的第一次和第二次会话之间的几个因素有显着改善，特别是增加了性能评估。然而，与可用性相关性最强的用户错误并不直接与交互设计有关，而是与有限的“可能性空间”有关。提出了关闭这个“执行鸿沟”的建议，包括“语音控制”和“手动跟踪”，这些建议只有在Oculus Quest耳机可用的情况下才适用于这个商业产品。此外，还概述了VR医疗培训的更广泛影响，并确定了标准化设计的潜在下一步。关键词虚拟实境;医学训练;人性化设计;互动设计1介绍虚拟现实（VR）技术已被广泛用于医疗模拟和培训，特别是自2016年现成的现代一代以来[1]。有强有力的有效性研究支持使用VR技术来增加/加强学习成果并改善知识保留[2-4]。由于目前大多数用户首次使用VR引入VR培训系统[5]，以及可用性与学习成果的相关性，强大，直观的交互对于通过入门和后续课程留住用户至关重要。医疗保健领域的绝大多数VR培训应用和研究项目都集中在手术上[2，4]，这适合VR，适合大量基于程序的实践。其他应用2096-5796/©版权所有2020北京中科学报出版有限公司Elsevier B. V.代表KeAi Communization Co. Ltd.提供的出版服务。这是CC BY-NC-ND许可证下的开放获取文章（http：//creativecommons.org/licenses/by/4.0/）。www.vr-ih.comTJ MATTHEWS等：儿科急诊VR培训331包括诊断[6]和护理[7]，以及临床决策技能[8-10]，如儿科急诊VR应用，这是本文的重点。在本应用和研究中，VR是指具有位置和旋转头部和手部跟踪的“桌面”或“完整”VR硬件（例如使用Oculus Rift），而不是仅具有旋转头部和手部跟踪的“移动”或“有限”VR硬件（例如Oculus Go）。这项研究建立在以前的研究Chang等人。[11]使用AiSolve[12]开发的相同VR复苏培训应用程序。由儿科医学专家设计和制作的VR培训应用程序为学员提供了一个急诊医学场景，他们必须诊断，提供干预和稳定患者。关于场景设计和交互的更多信息见第2.1节。Chang等人的研究比较了住院医生在现实生活复苏事件和虚拟现实应用程序中模拟的急诊医学事件中经历的压力水平[11]。研究结果表明，这种VR应用程序将受训者置于“最佳”压力水平，可以显示出比低压力模拟更大的学习成果。然而，有一项建议是“如果VR是一种可行的模拟模式，则需要减轻VR系统的新颖性和“外国”感觉的策略”[11]，以改善学员的入职过程，特别是那些没有VR经验的学员。这表明需要为VR培训应用程序提供标准化，直观的交互设计。由于虚拟现实（VR）作为培训应用程序的广泛采用相对新颖，交互设计的最佳实践的证据，用于培训目的，是缺乏的。Jason Jerald概述了一系列VR交互设计[13]，灵感来自Norman的以人为本的设计[14]，但这些设计主要基于现代一代（2016年以后）VR硬件之前的设计，以及当前一代（2018年以后）的设计，这些设计带来了独立的耳机和额外的交互功能。Alger[15]提出的建议也是如此，这些建议专注于VR中的用户界面交互。在这一代中有一些VR交互研究，他们倾向于探索运动控制[16-18]，否则不会超越先前定义的交互功能;例如，没有研究可以调查Oculus Quest[19]或Valve Knuckles[20]的特定跟踪功能的交互设计。这一潜在的VR交互研究浪潮与其前身之间存在差异的风险，即在当前迭代之前的研究可能会引用负面的可用性结果，因为当前的硬件可能性可以否定[21-23]。考虑到这一差距，本研究旨在评估VR复苏培训应用程序[12]当前交互设计的可用性，因为它与几个VR医疗培训应用程序共享一个共同的设计，还应确定设计建议，以通过标准化交互进一步缩小“执行鸿沟”[14]，以实现VR培训的目的，并将特别比较探索可用性可以通过替代的当前一代VR硬件来增强的地方。如Norman[14]所定义的，这里的“执行鸿沟”是指用户的目标或意图（即“给予20 mg药物X”）与用户对如何执行该目标（即“指向并选择药物组，指向并选择药物X”）的理解之间的差距。本研究将可用性定义为ISO 9241-11：“系统、产品或服务在特定使用环境中可被特定用户用于实现特定目标的有效性、效率和满意度的程度”，并特别关注交互设计（与以人为中心的设计保持一致）。它使用标准的可用性度量来与Chang等人的一致性。[11]，并且重点是在训练执行期间识别用户错误，包括例如与上述“执行间隙”相关，以便不仅识别组合硬件的可用性332虚拟现实智能硬件2020年12月第4软件培训系统，但可用性的潜力从任何可能的硬件限制分离。该用户测试的结果发现与Chang等人[11]相似的可用性评分，以及可接受的可用性评分。记录了一些类似但不常见的用户错误，唯一发生率较高（平均>40%）的错误组与VR硬件接口直接相关。本文最后确定了其他用户错误和可用性指标之间的联系，以概述理论上存在于VR医疗培训标准中的差距，因此最适合未来的研究和开发工作，特别是考虑到当前一代VR硬件的可供性。2方法本研究招募的用户均为美国洛杉矶儿童医院的医生员工，他们被认为具有适用的现有医学知识，可以了解解决所述复苏情况所需的程序。这些用户是有针对性的，因为他们具有与VR应用程序的目标学员相同的知识和经验。有些人之前了解/意识到VR技术，但没有本研究中使用的儿科急诊VR培训或任何其他VR培训应用的直接经验。本研究排除了既往有过本研究中使用的儿科急诊VR培训经验的任何用户，包括参与先前Chang等人研究[11]的2.1仿真本研究中使用的儿科紧急VR培训是一种适用于Oculus Rift[24]和Oculus Go[25]硬件的应用程序，使用Oculus Utilities插件和Unity游戏引擎[26]开发。受训者被置于沉浸式复苏室环境中，并负责完成模拟复苏紧急情况。两种初始情况是婴儿癫痫持续状态和儿科过敏性休克：高风险、低频率的儿科复苏情况。这些研究是在先前研究的主题专家和医生作者的投入下设计的[11]，需要观察、诊断和干预知识和技能。选择这些场景是为了与Chang等人的研究保持一致[11]，在该研究中，这些场景最初被设计为满足高风险、低频复苏练习中的感知差距。它们也适用于测试组用户，其现有的医学知识涵盖了场景的先决条件。测试使用Oculus Rift DK2和两个跟踪Oculus Touch控制器进行，通过VR就绪的桌面PC运行。选择这些头戴式耳机是为了与Chang et al.[11]，但在使用具有类似规格和功能的替代VR头显（如HTCVive）时，预计结果不会有重大差异，尽管这需要进一步调查。该应用程序以每秒90帧的速度稳定运行，并使用第三方屏幕捕获软件来记录用户的表现（这对帧速率没有明显影响）。在VR场景中，受训者充当“代码队长”，并指导其他医务人员执行哪些操作。在环境中，存在与在紧急情况期间在现实生活复苏室中预期的相同的人（化身），包括（图1）：• EMT-提供最初已知的借口信息和场景症状介绍。• 护士-提交基于仪器的操作，并提供有关患者状态的持续反馈。• 呼吸治疗师-执行基于气道的操作。• 以患者为中心的场景，可以进行检查，并具有响应受训者决策的现实生理状态变化。333TJ MATTHEWS等：儿科急诊VR培训图1虚拟仿真环境中的化身。• 药剂师-提交基于药物的操作。• 监护人-对患者状态做出情感反应（包括沉浸/现实）。方案将患者症状编程为有限状态机，其中受训者根据患者变化和刺激的提示，按照预定义的优先顺序执行适当的步骤;这是为了支持这种培训，以类似于脚本一致性测试[27]，因为这两个包含的方案具有受训者应遵循的预定义决策算法。在“婴儿癫痫持续状态”场景中，虚拟患者患有癫痫发作、呼吸困难和呕吐。这是视听显示，由其他虚拟代理人传达，并显示在医疗检查（即。当听患者呼吸时，呼吸变浅/减少正确的程序确定为：清理气道，提供氧气以稳定病情，然后设置静脉注射癫痫药物（在此版本中定位为劳拉西泮），以及定期检查患者瞳孔和毛细血管反射。在“小儿过敏性休克”场景中，虚拟患者患有危及生命的过敏反应和呼吸困难。这是视听显示，由其他虚拟代理沟通，并显示在医疗检查（即。e.当听患者呼吸时，呼吸变浅/减少）。正确的程序确定为：提供药物以升高血压（局部为沙丁胺醇），按照过敏反应治疗方案提供药物（局部为肾上腺素、甲泼尼龙、苯海拉明和雷尼替丁），然后设置预先气道插管，并定期检查患者呼吸、脉搏和毛细血管反射。每个场景需要3-5分钟才能完成，并且有两个可用的变量轴：• 难度：在初学者难度中，护士化身为接下来的步骤提供了强烈的指导建议，并且针对场景症状的标准（最常见）程序已经足够了。在高级难度中，护士化身将不提供提示，并且需要额外的步骤来响应场景的非标准症状。• 分心：较高的分心水平包括训练环境中更多的视听压力源和外部刺激，例如背景噪音水平，唤起语言，视觉混乱。为了这项研究的目的，所有用户都完成了初级难度和低分心的场景。与之前的研究[11]不同，在之前的研究中，选择高级难度和高度分心来诱导更高的压力水平，对于本研究，选择这些低设置来最大限度地减少场景难度和压力源对可用性评分的影响。2.2交互设计在VR环境中，受训者指导其他医务人员执行哪些操作，334虚拟现实智能硬件2020年12月第4导航到并选择适当的仪器或药物。除了选择要使用哪些工具和对象之外，用户不直接与虚拟化身交互，并且类似地不直接利用工具和对象执行动作。选择被认为是虚拟化身的指令，模仿代码队长在现实世界复苏场景和基于人体模型的训练中给出的指示。瞳孔检查和毛细血管反射等程序可以直接通过选择患者的适当热点来执行。交互使用带有半现实手的指向模式[13]，其中光线从用户的优势手（在应用程序菜单中选择）延伸，类似于用户“指向”他们希望选择的对象（图2）。光线跟踪用于确定由该选择光线覆盖的最近的可交互对象，然后高亮显示，并使用控制器触发按钮完成选择。图2虚拟仿真环境中的可选对象，以及Oculus Go和Oculus Rift的指针控制器。该应用程序是一个“站立的VR”体验[28]，其中用户有一个小区域，相对于他们的起始物理位置定位，可以移动，旋转和环顾四周，但不能在整个虚拟环境中物理行走。与“房间级VR”相反，这种方法是为了支持Oculus Rift和Oculus Go硬件（根据客户的要求），并支持目标医疗机构中学习者可用的有限培训空间。为了指示要执行的操作，用户首先选择相关的物品架（仪器托盘、气道推车、供应推车），并通过“闪烁远距传送”[17]移动到物品架附近更近的有利位置。从那里，他们选择对应于他们将提交的动作的适当对象，即选择劳拉西泮小瓶以向患者施用劳拉西泮。这些交互是使用Unity游戏引擎的Oculus Utilities插件构建的[30]，该插件为VR应用程序提供预制组件，包括该应用程序中使用的虚拟手和指针光线。用户选择的每个对象（以及因此做出的决策）都可能提示以下结果之一：• 肯定：此决策被定义为对于场景的当前状态是正确的，将对其采取行动• 中立：这个决定被定义为不必要的，但不是无害的，对于场景的当前状态，将采取行动。• 否定：此决定被定义为对场景的当前状态不正确和有害，不会采取行动并给出反馈。• 未定义：此决策尚未针对场景的当前状态进行定义，不会对其采取行动，也不会给出反馈。还包括一个向用户介绍交互控制方案的教程场景。它包括学习如何选择物体和在复苏室中导航。此处使用非医学提示，以不影响完整培训场景中的诊断能力。335TJ MATTHEWS等：儿科急诊VR培训2.4观察指标为了记录可用性，本研究使用NASA任务负荷指数（NASA-TLX）[31]评级量表和系统可用性量表（SUS）[32]。NASA-TLX是一个经过验证的量表[31]，用于任务和系统的工作量估计，包括六个分量表（心理，身体和时间需求，挫折，努力和表现）。选择它是为了与Chang et al.[11]并确定用户错误和相关TLX分数之间的相关性。SUS是一个由10个Likert分量表组成的既定列表，用于提供“人们对系统可用性的主观感知的度量”[32]。选择它是为了快速，可靠地测量可学习性和可用性[32]，并提供特定的可用性评分来关联用户错误。为了识别导致用户错误的可用性中的潜在差距，记录了每个模拟场景中的性能，并在通用错误建模系统中记录和编码每个错误[33]，如下所示：• 基于技能的错误：• 控制器问题（CI）-由于物理控制器处理不正确/对如何选择或导航环境感到困惑而导致的问题。示例：难以引导光线指针导致意外的对象选择。• 状态错误识别（SM）-识别场景的理解状态和实际状态之间的差距。例如：以为药物已经给予，而实际上并没有。• 环境感知（EA）-用户无法找到他们希望选择的对象。例如：无法找到要选择的特定药物。• 基于规则的错误：• 未编码药物申请（UMR）-受试者专家共同作者要求提供的药物不适用于该情况。• 未编码气道请求（UAR）-受试者专家共同作者要求提供气道工具，但该工具不适用于该场景。• 未编码程序请求（UPR）-受试者专家共同作者请求的医疗程序不适用于该场景。示例：用户希望能够订购该场景不必要的特定测试。• 未编码的行动命令（UAO）-做出了一个明确的决定，需要在可行之前做出先行决定。示例：在选择IV线开始之前选择了IV药物。请注意，与上面列出的基于技能/规则的错误不同，基于知识的错误（例如故意选择被定义为对该情况有害的药物）未被跟踪，因为这些属于培训结果的范围，因此不应量化为与可用性相关。2.5测试设计在开始测试会话之前，向用户提供了研究的概述，并提示用户完成包含的教程，以熟悉基本的控制器交互。在此之后，为了确保所有用户从相同的基础知识开始，用户在物理提示卡上显示虚拟环境中的主要对象持有者，以及他们可以期望在每个上找到哪些项目。没有列出具体的对象，以免用户倾向于特定的选项。提示卡，与Chang et al.[11]，在通常的程序中，受训者将熟悉现实世界，336虚拟现实智能硬件2020年12月第4在VR模拟中复制的环境。为了减少房间布局/对象放置（由真实世界环境决定）对可用性的任何影响，无论先前的经验如何，都向受训者展示提示卡。他们还了解了在场景开始时预期的刺激，特别是EMT将向他们提供信息，以减少他们在场景开始时的心理负荷，并允许处理所提供的信息，如果不这样做，将影响剩余的场景决策，从而无意中影响可用性评分。这种性质的载入在基于人体模型的模拟中起着至关重要的作用（这种VR应用程序是补充/复制），并且之前在Chang等人的研究中发现了这一点。[11]研究表明，在开始VR模拟之前没有获得一些熟悉度的用户被认为不会在场景开始时记录信息或刺激。用户完成了两个可用的培训场景，癫痫持续状态和过敏反应。由于在本研究中没有可行的方法来验证个人用户在这些场景中的评分，而不揭示所涉及的场景的症状（从而使测试数据无效），因此选择了一致的场景顺序。每次会议都由研究人员观察，他们注意到错误（如结果测量所定义的），并对用户的表现进行语音和屏幕记录。用户被要求遵守一个有声思维协议[34]，在这个协议中，他们说出他们的决策过程和他们在每个阶段理解的场景。这包括：自我识别的用户错误、控制器问题的发声和不正确的状态分析。还捕获了来自Resuscitation VR应用程序的数据日志，其中包含与本研究相关的虚拟环境中对象选择和刺激触发的时间条目。这些语音记录的抄本随后与屏幕记录和数据日志交叉引用，以推断结局指标定义的进一步错误。测试会话按以下顺序进行：(1) 非VR：研究介绍(2) VR：控制和交互教程(3) 非VR：环境加载(4) VR：场景1（癫痫持续状态）(5) 非VR：用户调查问卷和性能后汇报(6) VR：场景2（速发过敏反应）(7) 非VR：用户调查问卷和性能后汇报汇报包括自发的反馈收集，然后是对观察到的错误的即时讨论。这些包括在涉及上述语音记录的交叉引用中，以识别用户错误的实例（第2.4节）。3结果9名用户完成了总共18次性能的研究（不包括教程场景）。这些都是洛杉矶儿童医院的住院医生，他们在为期三周的访问中接听了招聘电话，并拥有现有的医学知识，使他们能够成功完成这些场景。一名用户的SUS评分被确定为离群值（所有量表的最低评分，超出平均值的2个标准差），并从分析中删除。这位参与者在进行研究之前也表达了对虚拟现实模拟的直接厌恶，并希望结束TJ MATTHEWS等：儿科急诊VR培训337在第二个场景结束之前，研究人员确定他们的评分也无效。示例问题（分别针对TLX心理需求、TLX、物理需求、SUS频率（1）、SUS复杂性（2）、SUS简单性（3））如图3所示。图3来自NASA TLX和SUS问卷的示例问题。NASA TLX上的每个分量表的评分在0和100之间，分数越高表示任务负荷越高（性能除外，这是相反的）。总TLX（原始TLX）量表是平均值计算，因此使用性能的倒数（正量表）来匹配其他TLX评分（均为负量表）。每个SUS量表的评分在0到5之间，高/低可用性方向与每个因素交替（i. e. SUS频率是一个“阳性”评分子量表，SUS复杂度是一个“阴性”评分子量表）。“总体评级”的附加Bangor评级在Likert量表上从1到7进行评级，并提供主观质量评级以锚定用户感知。如表1中的结果所示，物理任务负荷得分较低，平均为13.82±6.76。其他NASA TLX因素平均接近中等任务负荷，最高的是努力，为61.63±13.93。总体任务负荷为47.96±13.11。积极的SUS因素（频率、简单、集成、快速学习）平均最接近同意，表1NASA TLX和SUS评分TLX心理1TLX身体1TLX颞1TLX性能2TLX努力1TLX干扰1kHz（原始TLX）1SUS频率2，3SUS复杂性1.3SUS简单2.3SUS支持1.3SUS集成2.3SUS不一致1，3SUS快速学习2，3SUS尴尬1，3SUS Confident2，3SUS Learn Before1，3系统可用性评分2Bangor评级2场景#157.22 ± 22.3713.89 ± 6.9857.22 ± 26.8943.33 ± 26.0363.89 ± 13.2957.78 ± 25.2951.11 ± 8.744.38± 0.482.25± 0.973.88± 0.783.13± 0.933.88± 0.332.75± 0.663.88± 0.602.13± 1.053.50± 1.122.25± 1.0967.50 ± 14.685.63± 0.70场景#258.13 ± 24.9913.75 ± 6.5061.88 ± 28.2861.88 ± 26.3359.38 ± 14.2458.75 ± 27.9248.33 ± 12.924.43± 0.732.00± 0.763.86± 0.992.86± 0.993.71± 0.452.43± 0.493.86± 0.832.00± 1.073.57± 1.051.86± 1.1270.71 ± 15.225.57± 0.73变化+2%-1%+8%+43%-7%+2%-百分之五+1%-11个百分点-0.5%-9%-4%- 百分之十二-0.5%-6%+2%- 百分之十七+5%-2%虚拟现实智能硬件2020年12月第4338平均值57.67 ±23.6513.82 ± 6.7659.55 ± 27.6552.60 ± 27.7661.63 ± 13.9358.26 ± 26.5749.72 ± 10.994.40± 0.612.13± 0.883.87± 0.882.99± 0.973.79± 0.402.59± 0.613.87±0.722.06±1.063.54±1.092.05± 1.1269.11 ± 15.055.60± 0.71注：1越低越好;2越高越好;3 1=非常不同意，5=非常同意;数值表示为平均值± SD。TJ MATTHEWS等：儿科急诊VR培训339频率最高，为4.40±0.61。负SUS因素（复杂性，支持，不一致，尴尬，之前学习）在不同意和中性之间平均，最高为支持，为2.99±0.97。没有负SUS因子平均值高于中性。根据Sauro Lewis[35]，总体系统可用性评分为69.11，高于平均水平，并处于“C”字母等级范围内。与第一次会议相比，第二次会议的性能（+43%），复杂性（-11%），支持（-9%），不一致性（-12%）和之前学习（-17%）得分有显着改善。两次会议之间的总体评分没有显着差异，班戈评级也没有显着差异。错误结果如下（表2），分为计数（发生此错误的会话数，按场景划分）和总和（发生此错误的总次数，因为场景会话中可能发生多个错误，也按场景划分）以及每个场景的平均值（发生此错误的场景表2用户错误发现CI1SM2EA3UMR4UAR5第六次普遍定期审议UAO7计数S16 67%8333%8 222%81 11%8444%8 111%83 33%8计数S25 56%8111%8 222%85 56%8333%8 111%81 11%8计数总计11 61%8422%8 422%86 33%8739%8 211%84 22%8差异计数17%67%0%的百分比百分之四百25%0%的百分比67%和S18523423和S25227331总和137410754差异和38%67%0%的百分比百分之一百三十三25%百分之五十67%每个场景的1.181.751.001.671.002.501.00注：1控制器问题;2状态错误识别;3环境意识;4未编码药物请求;5未编码气道请求;6未编码程序请求;7未编码行动命令;8发生错误的场景会话百分比大多数用户在至少一个场景会话期间遇到了控制器问题（CI）（总体为61%）。在这些控制器问题中，具体细分（与总和相比）如下：• 38%-界面混乱：例如忘记按钮在屏幕上的物理位置。控制器，或者如何用手“指向”物体。• 31%-选择错误：示例包括由于瞄准不精确而意外选择错误的对象/对象。• 23%-意外按下：例如意外按下返回或选择按钮，通常是由于混淆了两者。• 8%-假设功能：示例包括应用程序具有语音控制的假设。对于大多数错误类别，与第一个和第二个场景会话相比，错误计数和总和都有所减少。唯一的例外是未编码的药物请求，在第二个场景会话中，其数量增加了400%。由于第二种情况（速发过敏反应）编码4种强制性药物和2种可选药物，而第一种情况（癫痫发作）编码1种强制性药物，因此这可能是由于对药物的关注增加而导致的假阳性。每个场景的错误率最高的是未编码程序请求，平均为2.5。但是，此错误的仅有两个实例来自同一用户（在他们的场景会话中），并且频率很高，因此可以将其视为离群值。最后，为了了解NASA TLX/SUS评分与用户错误之间的相关性，在这两个因素之间进行了双变量（Pearson）相关性分析。这是为了确定用户错误类型是否以及哪些用户错误类型对用户对可用性的感知的哪些元素有影响，虚拟现实智能硬件2020年12月第4340反过来又可以指导今后的发展和研究工作。下表3仅显示了存在显著相关性的情况：表3双变量皮尔逊相关分析TLXTLXSUSSUSSUSSUSSUSSUSSUSSUSSUS BangorPerf.努力Comp.容易辅助核算印加人LQuick真恶心Conf.LBeforeSM3EA4UMR50.58010.56810.53310.53310.51410.51510.59210.51810.54210.5551磅0.6051磅0.5241 0.5771 0.6952第六次普遍定期审议0.49310.63610.54910.69820.5411美元0.6602磅0.6762磅0.8622磅注：1相关性在0.05水平上显著;2相关性在0.01水平上显著;3状态错误识别;4环境意识;5未编码药物请求;6未编码程序请求显然，状态错误识别（SM）错误发生率与复杂性，支持度，不一致性，之前学习和班戈评级的负面评分之间存在显着相关性。从表3中还可以注意到，环境感知（EA）错误发生率与快速学习的负面评分之间存在显著相关性。然而，也有显着的相关性与积极得分的不一致性，这意味着用户与EA错误的感觉更多的是“有[没有]太多的不一致性，在VR模拟”，这似乎是对立的。EA错误发生次数的总和较低（4），因此这可能是离群值。对于未编码的药物请求（UMR），复杂性、简单性、置信度、事先学习、系统可用性和Bangor评分与负评分显著相关。然而，这也是UMR和性能之间的显著相关性，并且性能得分为正。这表明，犯UMR错误的用户认为他们“更成功地完成了”他们的任务，这是对立的。该离群值的可能解释是，场景2（速发过敏反应）是大多数UMR错误发生的地方（表2），并且性能也增加了43%（表1），可能是由于它是第二种场景。因此，这表明这种相关性不是因果关系的结果。未编码的程序请求（UPR）也与工作量、复杂性、容易性、尴尬性、信心、事先学习、系统可用性和班戈评级的负评分有显著相关性。不幸的是，如表2所示，两个UPR错误都是由同一用户进行的，因此可以对这些相关性进行有限的外推。4讨论NASA-TLX的总体因素，包括NH3，在两种情况下的中等任务负荷得分，这再次验证了该模拟属于复苏训练的“最佳”压力水平，与Chang等人的研究结果一致。[11]第10段。“最佳”压力在这里被定义为用户精神压力负荷（与TLX分数匹配），其不足以使用户由于缺乏兴趣或无聊而脱离，并且不足以使用户由于沮丧或不堪重负而脱离。在系统可用性方面，69.11分（与“C”等级相关）表明该培训系统适合VR新手，但仍有改进的空间发现与可用性有效相关的用户错误是状态错误识别（SM）和未编码药物请求（UMR）错误。这表明“执行的鸿沟”[14]并不直接存在于交互设计中，而是存在于提供的“可能性空间”[36]中。“可能性空间”是一个来自游戏设计研究的术语，概念是“一组规则使所有手势成为可能”[36]，在本研究中，它具体指用户可用的交互范围和类型。这些结果表明，用户错误的来源不是来自现有的交互控制的困难，而是来自信息可以是什么的限制TJ MATTHEWS等：儿科急诊VR培训341使用这些交互提供/接收。在一般游戏研究[36，37]和最近的游戏风格研究[38，39]中，已经很好地探讨了满足设计师和用户/玩家意图的足够“可能性空间”的邪恶问题。一些关于虚拟现实培训的“可能性空间”和启示的研究[40-42]，但是，就像这项研究一样，一直专注于物理界面交互设计，而不是全面的审查。“执行鸿沟”限制了VR应用程序可以捕获的决策数据，因此可以作为基于人体模型的培训的补充（因为它目前在合作机构内[11]），但不能完全取代基于人体模型的培训，以获得学习成果和汇报能力。应该注意的是，尽管控制器问题（CI）构成了所有用户错误的大部分，但CI和可用性评分之间没有显著相关性。这可能表明用户认为软件系统的可用性方面与发生问题的硬件是分开的;对此的解释可能是CI导致中断存在[43]，从而将心理工作负荷从培训应用程序中转移出来，影响沉浸感（因此影响学习结果），但不影响可用性评分。探索这种可能性需要进一步的用户测试。通过增加可用于药物和状态信息请求的选项的数量（以虚拟对象/界面的形式）来改进可供性与现有的物理交互可能具有负面影响。有两种设计策略：第一种是将虚拟对象/界面添加到现有环境中，这可能会增加视觉混乱，并可能导致用户错误（特别是控制器问题和环境感知）;第二种是将虚拟对象/界面替换为所需的虚拟对象/界面，这可能会“引导”用户做出他们原本不会做出的选择。此外，在有声思维过程中描述的一些动作是可选的，通常不包括在人体模型培训中-例如想要安慰监护人，想要重新定位患者，想要提供后续护理等。通常，用户和受训者对VR应用程序有很高的期望[44-46]，并且预期这些启示可以匹配高期望。因此，有人认为，这些发现引起了人们对一个公认但尚未解决的问题的关注，即如何最好地复制闭环通信，如在虚拟现实中的医学人体模型模拟中所使用的那样[47，48]。对于物理接口，由于上述原因，这种广泛的选项是不可行的。有人建议，一个可能的功能，以允许这将是一个自然语言界面，或“语音控制”。语音控制，对模拟说出命令的能力，已经在增强现实和虚拟现实医疗应用中实现，特别是在手术[49]和诊断[50]中，但需要进一步的研究来影响和采用策略。这将允许增加选项的数量，而不会出现之前概述的问题，并且还将允许在请求未编码的操作时提供用户反馈（例如，未编码的药物请求）。这也可以减轻状态错误识别错误，因为这为用户打开了一个接口来发声请求状态更新。但是，仍然需要与虚拟对象进行一些物理交互，并且仍然存在较高的控制器问题频率。每个结果有两个主要问题：物理控制器（界面混乱，意外按下）和选择方法（选择错误）。一个经常开发的替代物理控制器是使用“手跟踪”接口。这涉及到视觉算法，可以跟踪和理解用户的位置，旋转和手势，手和手指，这允许例如在虚拟空间中可复制自然的指向和抓取动作。直到最近，这些都使用昂贵的第三方硬件[51，52]或定制的有限计算机视觉算法[53-55]。然而，截至2019年12月，手动跟踪功能可在TJ MATTHEWS等：儿科急诊VR培训341Oculus Quest头显的架子[19]，并可通过本项目使用的相同Oculus Utilities插件[56]获得。这支持将当前物理界面转换为手跟踪界面的探索。然而，手跟踪并不能缓解选择错误的第二个主要问题。由于用户和要选择的环境对象之间的距离，需要当前的指向模式交互设计。另一种选择是使用邻近选择或直接手部选择[13]，这需要更接近物体。由于上面概述的“语音控制”应该减少对对象选择的物理表示的需要，因此可以通过将用户定位在最接近剩余物理对象的位置来支持手部选择，在该应用中，剩余物理对象是患者交互，如检查脉搏。探索其他具有决策过程的VR医疗模拟[8，9，57，58]表明，这种“执行鸿沟”可能很常见，因为发现了类似的交互设计。因此，上述这些后续步骤应该对整个VR医疗培训应用的标准化设计产生进一步的影响。4今后工作上述分析支持未来的开发工作，以整合和评估“语音控制”和“手部跟踪”功能对该VR模拟的影响，包括可用性影响和/或减少错误（以及对训练表现的任何可确定的影响）。由于本研究中使用的样本量相对较小，此处的结果确实具有降低的统计功效，应视为指示性而非完全结论性。在这些努力之后，未来的研究和用户测试应该涉及更大的样本。此外，虽然参与本研究的所有用户都适用于VR应用程序培训结果的目标受众，但有关特定设计和功能的一般可用性的结论需要进行抽象的任务练习，不需要先决条件的知识。上述未来功能开发的初步验证应涉及这些任务设计。由于关注交互设计，本研究并未全面了解系统的可用性，未来将努力全面评估VR模拟在其预期培训目的中的整合，特别是检查基于人体模型的培训中的保留元素例如训练环境和用户处理/分级。最后，它也可以提供有用的结果进行元分析的VR的评价方法5结论本研究使用NASA任务负荷指数和系统可用性量表测量评估了使用中儿科VR培训应用程序的工作量和可用性。用户按顺序完成了两个VR场景，并在自我报告性能以及一些SUS因素方面有所改善。该应用程序被发现具有中等（因此可能是最佳的）的可用性，以及“C”级可用性排名，这表明该培训应用程序的当前交互设计适合作为基于人体模型的培训的补充。然而，尽管控制器问题的频率最高，但与Norman[14]的“执行海湾”相关的其他用户错误与可用性得分有唯一的显著相关性，并证明了使用现有VR交互设计完全复制基于人体模型的培训的决策启示的局限性。在以人为中心的设计范围内确定了潜在的下一步[13]，即“语音控制”和“手跟踪”，以关闭“执行海湾”。这些功能的广泛采用虚拟现实智能硬件2020年12月第4342以前受到硬件功能的限制，但随着当前Oculus Quest耳机的推出，这些交互设计的开发将是一个合适的下一步。希望这些发现和建议对整个VR医疗培训具有更广泛的影响，并且未来的交互模式可以解决当前标准设计中发现的潜在问题。引用1虚拟现实协会。电子邮件www.vrs.org.uk/virtual-reality/history.html2王文，王文.基于虚拟现实的骨科手术训练模拟器综述。医学工程物理，2016，38（2）：59 - 71DOI：10.1016/j.medengphy.2015.11.0213放大图片作者：J.虚拟现实训练中的自适应技术概述。计算机科学评论，2016，22：65DOI：10.1016/j.cosrev.2016.09.0014Moglia A，Ferrari V，Morelli L，Ferrari M，Mosca F，Cuschieri A.机器人辅助手术虚拟现实模拟器的系统综述。欧洲泌尿外科，2016，69（6）：1065 - 1080DOI：10.1016/j.eurou.2015.09.0215[10] Cohen L，Duboé P，Buvat J，Melton D，Khadikar A，Shah H.操作中的增强现实和虚拟现实。20186陈伟，蔡玉艳.用于医疗模拟的多模态VR。国际虚拟现实杂志，2009，8（1）：1-7DOI：10.20870/ijvr.2009.8.1.27077[10] Kleven N F，Prasolova-Førland E，Fominykh M，Hansen A，Rasmussen G，Sagberg L M，Lindseth F.培训护士并教育公众使用Oculus Rift的虚拟手术室。2014年国际虚拟系统多媒体会议（VSMM）。中国香港，IEEE，2014，206 - 213DOI：10.1109/vsmm.2014.71366878[10]李文辉，李文辉.在Oculus虚拟现实中开发和评估创伤决策模拟器。美国外科杂志，2018，215（1）：42-47DOI：10.1016/j.amjam.2017.02.01192001年10月23日，李文龙，李文龙.为儿科提供者提供的沉浸式虚拟现实课程，用于分享对羟基脲的决策。血液，2019，134（补充_1）：3402DOI：10.1182/血液-2019-12866110杨文龙，杨文龙.虚拟病人教育干预对发展共享决策技能的作用：一项试点研究。BMJ模拟与技术增强学习，2019，5（4）：215-217 DOI：10.1136/bmjstel-2018-00037511张T P，贝赛Y，霍林格T，谢尔曼J M.现实复苏和虚拟现实模拟复苏中提供者的应激生理学比较。模拟医疗保健，2019，14（2）：104 112 DO

下载后可阅读完整内容，剩余1页未读，立即下载