科学家研究表明，计算机科学的发展对人类生活和工作产生了深远影响，意义重大

44 浏览量更新于2023-12-06 收藏 1.89MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

计算机&教育：X现实2（2023）100006测量虚拟培训的有效性：系统综述PawePastrojnya，b，*，1，NataliaDuz_man′ska-Misiarczyka，1a波兰克拉科夫雅盖隆大学管理与社会传播学院应用心理学研究所bNanoGamesSp. zo.o.，波兰克拉科夫A R T I C L E I N F O保留字：虚拟现实虚拟环境培训学习成效A B S T R A C T虚拟现实学习工具的研究量随着时间的推移而增加尽管不同的环境和理论基础，足够的数据已经积累在最近几年提供了一个系统的审查所使用的方法。我们提出十个问题，这些研究的方法方面。我们根据PRISMA指南在三个数据库中进行了检索，并评估了几个特征，特别强调了研究人员的方法学决策。我们发现，随着时间的推移，关于基于VR的学习效果的研究数量有所增加我们还发现了与培训课程的持续时间和数量报告方式有关的缺陷我们认为这两个因素可能会影响基于VR的培训的有效性此外，当使用柯克帕特里克模型时，与“行为”和“结果”水平相比，可以观察到“反应”和“学习”水平的结果明显不平衡在330项审查的研究中，没有使用最后一项这些结果突出了研究VR培训有效性的重要性考虑到已确定的方法缺陷，将允许在未来对这一主题进行更重要的研究1. 介绍在某些领域，虚拟学习已经在教育和培训中发挥了重要作用（例如，参见Zhao，Jiang，&Ding，2020）。现在的注意力主要集中在开发软件的技术方面，并解决阻碍其更广泛使用的问题然而，从学习的角度来看，另一个方面不能忽视，即开发测试这些工具的教育效果的方法正如我们将在下面展示的那样，近年来可以观察到与虚拟环境在教育中的使用相关的研究量的快速增长，尽管对与教育技术相关的其他研究领域的兴趣已经稳定（Chen，Zou等人， 2020; Chen，Xie，Zou，&Hwang，2020）。根据这些见解，可以得出结论，该领域正在建立自己的过程中，现在是整合过去二十年获得的数据并根据用于评估虚拟教育有效性的方法对其进行分析的正确时机迄今为止所使用的方法的知识的系统化将允许它们中的每一个的优点和缺点被识别，并将在未来的研究中激发更深思熟虑和理论驱动的选择反过来，这将有助于下一步：重新引导研究人员的兴趣决策者和用户从技术方面转向与教育有效性有关的问题，这些问题被理解为引起最终用户的变化。这就是这项工作致力于的。我们回顾了这一领域的研究，并提出了解决方案，可能有助于提高未来研究的可靠性和教育工具和学习过程的有效性（见图1和图2）。 8- 16）。1.1. 培训和教育在现代，生活几乎是不可能的，没有任何形式的虚拟环境（VE）或虚拟现实（VR）。这些被定义为计算机生成的显示器，其允许用户通过使用多个感官通道、输入和输出设备以及模拟场景来感知、感觉和与类似于物理环境的环境交互（ Jayaram 等人， 1997; Parsons 等人， 2017;Schroeder，2008）。这些技术也可以在现实-虚拟连续体中描述（Milgram &Kishino，1994）。在这个概念中，有两个极端的规模：纯现实和纯虚拟。介于这些类别之间的一切都被定义为混合现实（MR）。增强现实和增强虚拟之间的区别也被学术界所使用：增强现实是由虚拟对象增强的真实世界，而*通讯作者。应用心理学研究所UJ，UL。斯坦尼斯·瓦哈瓦·奥贾谢维奇扎4，30-348，克拉科夫。电子邮件地址：p. uj.edu.pl（P。Strojny）。这些作者对本书的贡献是平等的，因此他们应该被视为平等的第一作者。https://doi.org/10.1016/j.cexr.2022.100006接收日期：2022年7月25日;接收日期：2022年12月19日;接受日期：2022年12月20日2949-6780/©2023作者。爱思唯尔有限公司出版这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）。可在ScienceDirect上获得目录列表计算机教育：X现实&杂志主页：www.journals.elsevier.com/computers-and-education-x-realityP. 斯特罗伊尼湖Duz_man'ska-Misiarczyk计算机教育：X现实2（2023）1000062增强虚拟性是其中存在真实世界的一些元素的VE然而，当将环境放置在现实-虚拟连续体上时，重点通常放在视觉刺激上，但是诸如声音、运动、触觉、嗅觉和气味的其他模态也可以通过这样的环境来传递（Skarbez等人， 2021年）。可以使用各种技术来递送虚拟刺激，其中之一是头戴式显示器（HMD），其递送立体图像，从而使用户沉浸在三维环境中。通过阻挡周边视觉，HMD增加了环境的真实性（Shibata，2002）。VE的另一个示例是洞穴自动虚拟环境（CAVE），其由房间中的几个投影仪组成，这些投影仪显示模拟环境的各种角度（Cruz-Neira等人， 1992年）。 VE也可以通过使用桌面应用程序或基于固定的模拟器（如驾驶模拟器）来实现。虚拟环境具有许多特性，使它们成为学习的好工具。它们被广泛用于职业培训，特别是在实践成本高或危险的专业中（例如，医学，Seymour等人，2002年;军事，史密斯，2010年;消防，Narciso等人，2020年）。虚拟环境允许在类似于将来应用这些知识的条件下获得知识和技能，即，通过经验学习（Psotka，1995）。此外，现实的虚拟环境允许更容易的知识或技能转移，这从有效学习的角度来看是极其重要的（见，例如，卡尔森等人，2015年）。VR技术允许创造一种“存在”的感觉&这种VE特征可能会引起参与，从而有利于学习（Psotka，1995）。此外，沉浸可以减少认知负荷，因为它允许直接感知VE（Psotka，1995）。此外，由于使用在VR中，技能和程序可以在安全的环境中练习值得注意的是，今天，特别是在面临COVID-19大流行的世界中，各种形式的虚拟或在线学习比以往任何时候都更受欢迎然而，本文件所界定的虚拟培训应区别于其他形式的远程学习。虚拟培训本身并不像前面几段中所定义的那样创造虚拟价值计算机在这里只是作为一种交流媒介，整个学习过程本质上是建立在现实世界的基础上的。另一方面，VT环境创造了一个全新的虚拟世界，受训者沉浸在其中，他们可以与之互动，从而学习。换句话说，VT不应该等同于使用VR技术作为显示刺激的方式的训练，因为VT的区别特征不是刺激呈现技术，而是VR中使用的工具的内容实际上重要的是使用数字创建的环境进行培训，这些环境提供了与环境互动的机会。因此，VT，这是这项工作的主题，可能属于研究人员区分的各种类别;例如，VT可以被认为属于背景和协作学习，混合学习或在线/基于网络的学习等主题类别，所有这些都具有巨大的和不断增长的科学兴趣（Chen，Zou，et al.， 2020; Chen，Zou，Cheng，&Xie，2020）。为了有效地使用一项技术，首先应该对其进行设计和测试。在一个强有力的，以研究为基础的理论框架（迈耶&莫雷诺，1997年）。到目前为止，已经有一些关于虚拟教育学习主题的综述和荟萃分析;然而，它们集中在特定领域（例如，医疗培训，Alaker等人， 2016年）或培训模式（例如，严肃的游戏，Calde ro'n &Ruiz，201 5）. 本文旨在更广泛和更全面的分析范围，旨在概述这一研究领域的发展我们相信，在过去的二十年里已经收集了足够的经验数据，可以采取下一步行动，这意味着进行数据合成并从这些数据中得出结论这样的综合应有助于发展的通用标准，在设计验证程序的个人教学解决方案。因此，现在是时候从领域无限的角度来看待VR培训，重点是发现验证其有效性的最佳方法。1.2. 理论框架有许多理论可以应用于教育虚拟企业的设计还有一些研究没有明确纳入任何框架。本节将介绍两个最常用的理论框架：Mayer的多媒体学习认知理论（Mayer，1997;Mayer&Moreno，1998）和技术接受模型（Davis，1989）。1.2.1. 迈尔的多媒体学习认知理论多媒体学习的认知理论（Mayer，1997）是基于认知心理学的几个概念和理论，如双重编码理论（ Paivio ， 1990; Clark&Paivio ，1991 ）、工作记忆模型（ Baddeley ， 1992 ）、认知负荷理论（ Chandler&Sweller ， 1991; Sweller 等人， 1990 ），生成理论（Wittrock，1989）和多媒体学习的选择-组织-整合（SOI）模型（Mayer，1996）。多媒体学习被定义为以一种以上的模式接受教育材料（Mayer，1997）。学习发生的模式是传递媒体、呈现模式和感觉模式。几乎所有以计算机为媒介的学习都是多媒体学习，因为它包含图片和文字。然而，更先进的VT工具，如沉浸式VR，也可以作为多媒体学习的例子。在沉浸式VR中，学习者被置于多模态环境中，在那里他们不仅体验声音和图片，而且体验整个动画和交互式环境。因此，多媒体学习的认知理论，从其基本概念来看，似乎适用于所有类型的VT。交互性是多媒体学习的核心概念;在Mayer的理论中，学习者被视为知识的构建者，他积极地选择和连接视觉和语言知识（Mayer，1997，第100页）。 4）。值得注意的是，这个概念是共享的科尔布的经验学习理论（科尔布，1984年），虽然迈耶的理论更侧重于认知比经验。此外，教学应用程序的设计强烈地影响学习，因为它影响学习者在处理材料时的参与程度。学习者必须选择一些刺激或信息，然后将其组织成一个心理模型，然后将其整合成一个全面的表征（Mayer，1997）。Mayer和Moreno（1998）根据以下内容提出了五项设计原则：Mayer的多媒体学习认知理论：(1) 多重表征原则：由于多重表征，学习者可以建立多种心理模型，并在它们之间建立联系，从而提高学习效率。(2) 连续性原则：因为信息片段必须同时出现在工作记忆中，以便在它们之间建立联系，所以应该同时呈现不同的信息传递模式以增强学习。(3) 注意力分散原则：使用听觉和视觉刺激会使视觉和语言信息处理系统同时参与，而呈现带有字幕的视频可能会使视觉系统过载。(4) 个体差异原则：具有高水平先前知识的学习者已经有一些心理模型，因此创建新模型对他们来说更容易。(5) 连贯性原则：当使用多种学习模式时，最好提供主题的连贯总结，而不是长文本或叙述。由于其多模式和交互性，所有基于VR的教学工具都有可能实现这五个原则中的每问题是在多大程度上它们在每一个国家得到执行P. 斯特罗伊尼湖Duz_man'ska-Misiarczyk计算机教育：X现实2（2023）10000631.2.2. 技术接受模型技术接受模型（Davis，1989）旨在解释为什么人们想要使用特定的技术创新。它基于理性行动理论（Fishbein&Ajzen，1975），该理论使用预先存在的态度和行为意图来预测实际的人类行为。班杜拉（Bandura，1982）的自我效能理论。在技术接受模型中，感知易用性和感知有用性作为行为意图的预测因子，这反过来又会导致实际的行为。感知有用性被定义为人们相信使用应用程序将帮助人们更好地执行某些任务的程度，而感知易用性则是人们相信使用应用程序将毫不费力的程度（Davis，1989）。感知的有用性和易用性越高，人们将来使用系统的机会就越大。技术接受模型，由于其简单性，已被用于许多关于技术创新的研究（例如，由King&He，2006和Schepers&Wetzels，2007进行的荟萃分析）。首先，这一理论是基于职业背景，但它也被用来解释其他背景下的用户行为，例如，教育（侯&琳，2017）。1.3. 衡量培训效果验证教育的有效性，使用VE是一个条件，其广泛适应作为一种教学方法，而不是一个技术逻辑的好奇心。学习工具和程序的有效性可以通过许多不同的方式来衡量。有许多不同类别的可能的学习成果或相应的变量，可用于衡量培训或学习效果。下面列出了最受欢迎应该注意的是，这种分类并不详尽，因为这些测量在很大程度上取决于训练的具体内容。首先，可以测量关于所学习的主题的知识。陈述性知识是直观的，是一种非常方便的操作结果的方式，因为它可以很容易地测量和知识最常使用测试来衡量，多答案问题是评估和比较个体之间的最简单方法其次，技能是可以衡量的。毫不奇怪，当学习的内容是实用的（例如，谈判; Ding等人，2020年）。技能测量的一个特殊类别是技能转移。技能可以在各种情况下教授和衡量虽然最快实现的解决方案利用学习环境来测量学习成果（在本文中，这种情况下，最有可能是某种形式的VE），技能也可以在目标环境中进行测量，这被称为技能转移。这种衡量特别有益，因为它可以确定所获得的技能是否可以从人工环境转移到与实际使用技能的环境相似或相同的真实环境中态度的测量可以用来评估培训方法或材料的有效性。态度在某种程度上与培训的主观评估有关，这是非常常用的。该测量由旨在捕捉主观体验的特征的各种问题组成，并且可以以许多不同的方式应用：封闭式问题、开放式问题、一对一访谈（ Dalinger 等人， 2020 ），焦点小组（Adams等人，2019年，更多。主观经验可能是最非正式的学习成果，不应作为测试培训环境有效性的唯一在培训有效性研究中使用的一个常见结构是动机，这是非常有用的，因为它表明了参与学习活动的意愿;没有动机，有效地提供学习材料是非常困难的。定期问卷调查（例如，Sattar等人， 2019）是衡量动机的一种方式，但由于由于VR训练体验的沉浸式和连续性，研究人员还在寻找测量参与度的其他方法，例如指示任务中涉及的努力的参数的非侵入性测量（例如，Czarnek等人， 2021年）。当然，还有许多其他结构可以用作培训有效性的指标。这些包括情绪（Harley 等人， 202 0），控制点（Nyk€ane等。，2020），注意力（Hart&Proctor，2020），注意力（Hou&Lin，2018）或观察训练中的行为（den Haan等人，2020年）。此外，生理指标可以用来间接衡量特定学习工具的有效性。使用这样的指数在今天不是很常见，但是在过去的十年中已经做出了一些努力，使用心血管测量、皮肤电活动、眼睛跟踪、功能性近红外光谱和EEG（例如，Legrand等人， 2011年）。1.3.1. 柯克帕特里克培训评估模型上述方法可以在一定程度上映射到Kirkpatrick的培训评估模型，该模型已经使用了几十年，并且仍然有效（ Kirkpatrick ， 1976 ，1994）。这一框架相当普遍，可适用于多种形式的培训，但它主要是为职业背景设计的柯克帕特里克首先定义了评估的实际含义及其目标。培训方案的有效性是通过对其进行评估来确定的，以改进现有方案，并确定和进一步排除实践中无效的方案在该模型中，定义了四个培训效果评估级别(1) 反应作为对培训的情感反应（参与，满意度）及其与日常实践的相关性（贝茨，2004）。(2) 学习对学习成果的实现情况进行评估。良好做法是对学习成果进行事前和事后测试。(3) 行为在这里，评估新知识和技能在日常实践中的应用这在职业环境中最容易做到，但在某种程度上也可以应用于其他领域。(4) 结果这一步的培训效果评估超出了个人的利益。从整个组织的角度来评估测试结果1.3.2. 培训效果测量的时间方面当研究任何形式的学习的有效性时，有几个特定的时间点可以测量感兴趣的学习成果。在预测试中，测量知识、技能或其他变量的初始水平这是一个非常有价值的衡量标准，因为它可以确定学习成果的基线水平，减少天花板效应的风险，并可以计算学习收益指数。还可以应用训练中测量，其中在不中断学习的情况下测量学习结果。这种非侵入性测量允许在学习过程实际发生时洞察学习过程。例如，可以通过计算学习应用程序中的分数或通过分析训练中的行为来执行训练中测量的另一种方法是使用生理指标来间接测量学习进度。这种非侵入性测量也是有益的，因为它们不会中断学习过程。在中期测试中，学习成果测量应用于整个学习活动的单独会话当训练分为几个阶段时，这种方法特别有用后测试发生在学习之后，而保留测试是在一段时间之后完成的;这可能是几天或几个月。通过使用上述测量的组合，可以计算次级指数，例如，学习增益，或测试后和测试前分数之间的差异通过多次测量，人们还可以更详细地观察学习曲线，并实施Mayer和Moreno（1998）的个体差异原则。P. 斯特罗伊尼湖Duz_man'ska-Misiarczyk计算机教育：X现实2（2023）10000641.4. 研究目的这次审查有三个目标。首先，其目的是总结VT评估有效性的当前技术状态为了实现这一目标，进行了广泛的文献综述。在对文献进行分析的基础上，本文还指出了VT有效性研究中存在的一些方法上的不足，并提出了VT有效性研究的进一步发展方向最后，本文提出了一个框架，希望能对从事这一领域研究的学者有所帮助具体而言，提出了以下研究问题：(1) 考虑到所使用的技术，关于VT有效性的研究如何随着时间的推移而发展(2) 在教育和人类活动的哪些领域中，虚拟方法被用于教育目的？(3) VT有效性研究的样本量是多少(4) 在测试场景的数量和时间组织方面使用了什么样的研究设计(5) 在实验组和比较方面使用了什么样的研究设计？(6) 用什么方法来评估VT的有效性(7) 在VT的有效性方面，从综述的文章中可以得出什么结论？(8) 在关于VT有效性的研究中发现了哪些方法上的缺陷？在寻找问题1和2的答案时，我们的目的是确定VT研究人员在时间和领域方面的兴趣状态。如前所述，VT不应等同于VR培训，因此我们还调查了所使用的技术在问题3-5的情况这些参数可能会影响得出结论的可能性为了概括关于VT有效性的结论，因变量的操作化是至关重要的。在寻找问题6的答案时，我们试图确定哪种数据收集方法占主导地位，哪种学习成果吸引了研究人员的最大关注，以及在柯克帕特里克看来，这些成果是在哪个层面上测量的。此外，我们决定检查在我们分析的研究中评价的VT有效性的基本参数（问题7），并确定可能的缺陷（如果有）（问题8）。2. 材料和方法2.1. 搜索策略使用来自PRISMA声明（Page等人， 2021年）。在三个电子数据库（Science Direct、Scopus、Taylor&Francis）中进行文献检索，无出版日期限制。使用了以下关键词和逻辑：（“虚拟培训“或“虚拟学习”）和（有效性或“学习成果”）。关键词和逻辑是基于这样的假设，即我们感兴趣的主题是VT的研究，有时被称为“虚拟学习”，但唯一的目的是评估VT的有效性，有时也表示为“学习成果”。换句话说，我们的目的是排除没有报告任何尝试验证VT有效性的文章检索仅限于研究文章（原始实证研究）。对于Sci-ence Direct和Scopus数据库，检索于2020年11月6日进行;对于Taylor和Francis数据库，检索于2020年12月7日进行。从Science Direct和Scopus数据库中，分别检索到1291和1253条记录。从Taylor &Francis数据库中，获得了2000个最相关的记录（由于技术原因，检索仅限于此数量的记录）。约束）。共检索到4544条记录。2.2. 资料选择我们通过几个步骤选择文章进行分析，如图所示。1.一、我们评估了标题、摘要和可能的重复研究。随后，排除了关于用于医疗程序的VT工具的文章，因为已经有许多关于该特定主题的系统性综述，并且用于评价的记录数量非常大。使用以下标准对全文检索的文章进行评价入选标准：2.2.1.本研究的重点是评估在一个互动虚拟企业中进行培训的有效性2.2.2.提供全文2.2.3.同行评议的学术文章;2.2.4.对健康人群进行的实证研究。排除标准：(1) 研究重点是测试特定硬件;(2) 研究侧重于测试整个课程，而不是某一特定的培训方法;(3) 出版语言不是英语或波兰语。图1.一、相关文献检索和选择过程的流程图。P. 斯特罗伊尼湖Duz_man'ska-Misiarczyk计算机教育：X现实2（2023）1000065¼在此过程之后，选择了317篇文章进行进一步审查，其中178篇因不符合上述标准而被拒绝最终数据库共包含317篇文章（330项研究）。3. 结果和讨论3.1. 问题1：考虑到所使用的技术，关于VT有效性的研究如何随着时间的推移而发展？在分析研究中使用了各种类型的技术。显然，这些差异在某种程度上取决于时间，因为每年都有新技术出现，但仍然可以观察到一些差异。技术类型根据现实-虚拟连续体进行分类（Milgram&Kishino，1994）。桌面和移动终端应用程序，因为它们不直接属于任何类别的连续体，被分开处理。使用真实世界输入来增强虚拟体验的工具（例如，触觉设备）大多被置于增强虚拟类别中。当在一项研究中使用不同类型的技术时（例如，在不同的实验条件下），通常是最先进的领先技术被选择用于这种分类的目的如可见于图 2、大多数研究使用某种桌面软件进行（166项，50%）。这是合理的，因为桌面软件很容易获得，而且今天开发起来并不昂贵这些工具和应用程序不仅有很好的机会用于科学目的，而且还可以应用于现实生活中。VR在使用频率方面排名第二，有110项研究（33%）。增强现实（26项研究，8%）和增强虚拟（23项研究，7%）的使用频率较低，在综述的研究中使用最少的技术是移动终端应用程序（5项研究，2%）。所审查的研究进行了近三十年。最早的研究发表于1994年，最新的研究发表于2021年。如可见于图3、探讨VT有效性的已发表研究数量呈强劲增长趋势。从1994年到2007年，每年只有几项研究发表;然而，从2008年开始，发表的研究数量逐渐上升，2019年至2020年出现高峰可以预测，这一趋势将在未来几年继续下去当时间轴上的研究根据其中使用的技术进行分类时（使用现实-虚拟连续体;Milgram&Kishino ，1994），可以看出，随着时间的推移，使用VR技术的研究数量有所增加，因为这种技术变得越来越流行，先进和可访问。特别是在2008年至2018年的十年间，桌面应用程序最受欢迎，但在2019年和2020年，使用VR进行的研究数量超过了使用桌面应用程序进行的研究数量。在2021年的论文中，使用VR的研究是桌面应用的两倍。值得注意的是，虽然VT可以有效地图二. 利用现实-虚拟连续体标准（Milgram&Kishino，1994）分类的技术类型的研究数量，以及桌面和移动工具的其他类别。虽然使用2D显示器实现，但是用于VR和增强现实/虚拟的更高级显示器的一些特征允许更高级别的存在（Shu等人，2019年）。考虑到在场证明是学习成果的预测器（见，例如，Dengel&M€agdefrau，2020年6月），可以预期，随着这些技术的发展和日益可用性，它们在研究和实际应用中的份额应该会增加。在推广这些技术的过程中，不仅客观因素（成本效益比）可以发挥关键作用，而且关于新解决方案可能优点的可靠信息也可以发挥关键作用;这应该有助于克服工具提供者和教育工作者的习惯。这也是为什么识别和解决VT有效性研究项目的缺点很重要的另一个原因。3.2. 问题2：在哪些教育和人类活动领域，虚拟方法被用于教育目的？虚拟技术用于教育目的的领域很广，从训练简单的运动技能（Peterson等人， 2018年），通过许多工具的学校教育（张等人，2020年），职业培训（见，例如，Herrington&Tacy，2020年）。根据每项研究的领域对审查的研究进行了分类如可见于图 4，35%的研究是在大学环境中进行的（117项研究）。实际和工作相关技能培训占接下来的40%（130项研究）。其余类别（83项研究）约占审查研究的25%。有趣的是，VT在运动和身体康复等领域的潜力似乎比已发表的研究表明的要大得多。由于这些技术的发展处于早期阶段，大学环境的主导地位并不令人惊讶。可能的原因是测试的容易性和工具的可用性然而，应该预期，随着时间的推移，这方面的研究与其他方面的研究（与可能的实施领域更直接相关）的比例将发生变化，有利于后者。不能指望最终用户会被说服支付实施这些方法的费用，除非他们有可靠的数据来证实在他们工作的特定教育领域使用这些方法的合法性。3.3. 问题3：VT有效性研究的样本量和训练时间是多少平均而言，一项研究中有91名参与者;然而，这个数字差异很大（SD203.98）。在回顾的研究中，参与者人数最多为2，727人，最少为4人。这种较大的变异性与研究设计和评估方法的变异性有关。出于审查的目的，每个审查研究中的参与者数量被分为六个类别之一：1 如可见于图 5，在回顾的研究中，最常见的参与者人数在51到100之间（108项研究，33%），这对于实验研究来说是相当大的样本。较小的样本量，11 -30（71项研究，21.5%）和31 - 50（66项研究，20%）也很常见。18项研究（5%）报告了200多名参与者，其中大多数是使用非实验设计和自我评估方法对培训效果进行大规模评估。尽管研究人员已经强调了很长一段时间（见，例如， Schef f'e，1959），功效分析是合理的统计决策所必需的，这些假设的实现曾经是困难和不方便的，因此很少实践。随着G*Power等易于使用的工具的出现，情况发生了变化（Faul等人， 2007年）的报告。如上所述，样本量的巨大变化可能是由于研究目标和设计的变化然而，如果这是唯一的原因，那么特定研究项目的作者将根据他们的目标选择他们的样本量，P. 斯特罗伊尼湖Duz_man'ska-Misiarczyk计算机教育：X现实2（2023）1000066图三. 已发表的关于虚拟培训有效性的研究报告的数量，按所调查的技术分列。使用功率分析工具的存在和重要性可能会逐渐增长，我们特意决定从过去几年中提取论文然而，所获得的比例似乎并不令人满意，因为它可能会导致错误的研究结论，由于不足和过度的设计。这些研究可能具有误导性，因为它们表明存在着在教学实践中可能实际上并不重要的效果。3.4. 问题4：在测试会话的数量和时间组织方面使用了什么样的研究设计图四、按教育领域分列的关于虚拟培训效果的已发表研究报告的数量。图五、关于虚拟培训有效性的研究数量，取决于参与者人数。设计为了简单地检查是否有理由考虑这种推测，我们从过去两年中随机选择了20篇论文（2019年10篇，2020年10篇;总共22个实验），并扫描了方法描述，以寻找关于样本量决定的实质性理由仅一篇扫描文章的作者报告称，他们使用G*Power应用程序确定样本量。由于假设意识到在比较关于VT有效性的研究时，学习时间本身可能是一个相关因素。不同的报告之间的差异不同，在某种程度上取决于进行研究的领域。毫无疑问，学习运动技能比学习复杂的材料（如科学概念或职业技能）更容易，耗时更少为便于回顾，将训练时间分为8组（0会话、自定进度和N/A的比较属于这些类别的研究的数量可以在图中看到。第六章在一些研究中（9项研究，3%），学习是自定进度的，因此学习者可以根据自己的需要调整花在学习活动上的时间。通常，培训阶段在不同的日子跨越几个会议（67篇论文，20%）。单次训练中最长的训练时间为10小时（Hatz，1999），而一些文章报道了持续约3小时的训练或学习阶段（Annetta等人， 2014; Beaumont等人，2011; Carenys等人，2017; Chen，2014;Chen &Huang，图第六章按培训持续时间分列的关于虚拟培训效果的已发表研究报告的数量。P. 斯特罗伊尼湖Duz_man'ska-Misiarczyk计算机教育：X现实2（2023）10000672012年; Hays &Jumenzi，2000年; Wener等人，2015年）。报告的最短训练时间约为2分钟（Burigat&Chittaro，2016）。还应该注意的是，在许多研究中没有明确报告培训时间（117，35%）。但是，应提供这些信息，以便充分理解实验程序因为纵向设计更复杂，但特别信息，我们决定看看他们的细节。在下一步中，分析了基于多次VT会话的67项研究。针对涵盖多个阶段的每项单独研究收集以下信息：单个阶段的长度、阶段数量、阶段之间的延迟和整个研究计划的长度就一届会议的长度而言，没有明确的主导类别。然而，在审查的研究中，可以区分两类关于单次会话长度的类别：较短（最长60分钟，21项研究）和较长（超过60分钟，20项研究）。然而，最常见的观察结果是关于单次会话长度的数据缺失（见图7）。关于会话的数量，最常见的选择是进行2至6个会话，最高数量为48个（Okutsu等人，2013年，见图。（八）。大多数缺失的数据涉及会话之间的延迟（67项研究中的47项，70%）。然而，在这些数据可用的研究子集中，最常应用的延迟持续时间是一周（见图2）。 9）。在审查的研究中，整个研究项目的持续时间从一天到一年不等，最常见的持续时间为两周在该类别中观察到的缺失数据量最小（见图1）。10）。显然，多期研究在其特征方面的高度差异是可以理解的。研究设计必须与作者提出的个人研究问题相对应;因此，所呈现的结果不应成为批评的理由。然而，令人失望的是，相对较大的数据缺失，这阻碍了对单个程序进行更详细的分析，因此很难得出关于学习动态的一般性结论。关于两次治疗之间的延迟时间，有47例数据缺失;因此，这部分分析的可靠性最低。这里应该注意的是，在其他病例中，在审查的文章中观察到大量信息缺失，不仅与延迟时间有关。在描述研究程序时缺乏对细节的关注，使得很难正确评估研究的方法和结果，并且几乎不可能复制。此外，从教学的角度来看，这些缺陷可能会阻止（当然也会阻碍）在实践中实施所研究的教学方法。很容易想象，一个教育工作者谁是计划尝试实施VT方法，已经很好，图第七章关于虚拟培训有效性的多期研究的数量，按单期持续时间划分。图八、关于虚拟培训有效性的多阶段研究的数量，由组成整个计划的课程数量决定。图第九章关于虚拟培训有效性的多阶段研究的数量，按阶段之间的延迟。当他们意识到研究的描述缺乏基本信息（例如，所选择的方法在一定数量的会议中使用，但其长度或时间间隔不详）。3.5. 问题5：就实验组和比较而言，使用了哪些研究设计？根据研究设计对所审查的研究进行了分析就比较类型而言，通过受试者间设计、受试者内设计或混合设计研究以及在培训计划的哪个阶段进行评估（预测试、培训中测量、中期测试、后测试、保持测试）对它们进行分类。毫不奇怪，混合设计研究是最常用的（141项研究，43%），其中在受试者之间和受试者内进行比较通过这种方式，人们不仅可以测试给定的VT工具是否比其他学习模式更有效，而且还可以测试学习效果如何随时间变化一种非常常见的方法是使用前测和后测（例如， Dalim等人，2020），或预测试、后测试和保持测试（例如，Ding等人，2020年，学习成果。这允许在分析中考虑初始知识或技能水平具有一个测量点的纯受试者间设计也很常见（76项研究，23%），其次是受试者内设计（67项研究，20%）。令人惊讶的是，大量研究根本没有使用任何比较（46项研究，14%），因为它们专注于纯粹探索性的学习成果定量或定性分析（见图11）。 11）。所分析的论文在测量点方面也有所不同在几乎所有的研究（306，93%）后测试应用。考前P. 斯特罗伊尼湖Duz_man'ska-Misiarczyk计算机教育：X现实2（2023）1000068见图10。关于虚拟培训有效性的多阶段研究的数量，按整个计划的持续时间划分。见图11。研究数量，取决于研究设计。测量也很常见（187项研究，57%）。其他测量点并不常见，61项研究（18%）使用了培训测量，25项研究（7.5%）使用了保持测试，只有8项研究（2%）使用了中期测试（在一段培训后进行的测试）（见图1）。12）。VT可以与许多不同的学习模式进行比较，以评估其有效性。在审查的研究中，传统学习、其他见图12。研究数量，取决于测量时间。大多数研究进行了一次以上的测量，因此结果加起来不等于330。VT类型和无学习是观察到的对照组类型。传统的学习可以采取各种形式，如阅读，观看演示文稿，现场培训或观看视频。VT的有效性也可以通过与其他形式的VT进行比较来评估;在这里，不同的忠实程度、反馈的存在或不存在、技术、刺激类型和困难程度可以作为例子（见图10）。 13）。控制组性质的不同将导致有效性评估的不同将一个新的学习工具与完全没有学习进行比较是最简单的选择，并且可能会给出有利于测试工具的显著结果然而，将创新与传统的学习形式进行比较更有价值，因为它允许人们实际确定测试的创新是否值得在日常实践中实施此外，不同类型VT之间的实验比较也可以提供有价值的信息。还应该注意的是，从方法学的角度来看，控制组应该尽可能接近实验组，理想情况下，只有一个方面不同，这样其他因素就不会混淆结果。尽管这在学习效果评估中很难实现，因为学习和学习干预可能很复杂，很难分解为主要因素，但应尽可能朝这个方向努力，以尽量减少从观察到的归因于不受控制的次要变量的影响3.6. 问题6：用什么方法来评估VT的有效性培训的有效性可以用许多不同的方式来衡量在许多回顾的研究中，使用了一种以上的方法，因此下面列出的数字加起来超过330。在回顾的研究中，最常见的方法涉及使用某种客观方法（例如，知识测试）;这些方法被应用于271（82%）的审查研究。在239项（72%）研究中还使用了对培训工具、学习成果、动机或其他心理结构的主观评价专家观察（21项研究，6%）作为评估学习效果的一种形式并不经常使用。它主要用于无法应用客观评估方法的情况（例如，分析行为; Bart等人， 2008），或用于学习期间学习者反应的定性评估（例如，Alves Fernandes等人，2016年）。生理测量（10项研究，3%）是最不常用的这种方法允许使用生理标记间接评估学习（见图11）。 14）。P. 斯特罗伊尼湖Duz_man'ska-Misiarczyk计算机教育：X现实2（2023）1000069图十三. 在已发表的关于虚拟培训有效性的研究中使用的比较组。如上所述，许多研究使用了一种以上的方法;特别是，使用两种不同类别的方法的组合是最受欢迎的选择（181项研究，55%）。大量研究仅使用一种方法来评估培训效果（134项研究，41%），而只有15项研究使用三种不同方法的组合（5%）。从至少两个角度来评估培训效果似乎是一个很好的选择，因为可以捕捉到所研究的学习方法的更多独特特征。忽略主观体验评估可能会导致创建在教授某些技能或知识方面非常有效的工具，但同时对最终用户来说非常令人沮丧或压力。由于在大多数情况下，学习成果是使用教学方法的预期直接效果，因此学习成果作为因变量发挥了重要作用（无论测量方法如何，无论是主观的，客观的，观察的还是生理的），这并不奇怪学习成果可以用不同的方法和指数来衡量。有时使用简单的客观方法（如知识或技能测试）;有时使用其他结构来得出有关学习成果的结论。回顾的文章进行了分析的学习成果的测量。毫不奇怪，最常用的学习结果指标是对培训的主观评估（通过图14. 使用各种学习效果评估方法的研究数量。一些研究使用了多个类别的方法，因此结果加起来不超过330。感知有用性、感知易用性、满意度等，169项研究，51%）知识（149项研究，45%）和技能（144项研究，44%），因为它们是直接的，易于理解和解释。文章中使用的其他指标包括动机（38项研究，11.5%），技能转移（其他任务或现实任务; 38项研究，11.5%），自我效能（22项研究，7%），态度（20项研究，6%）和参与（13项研究，4%）。其他指标是情绪、焦虑、自信或享受等结构。所有这些都可以被描述为培训效果的间接指标（见图1）。 15）。学习成果可以根据Kirkpatrick概述的培训评估水平进行分类：反应

下载后可阅读完整内容，剩余1页未读，立即下载