没有合适的资源?快使用搜索试试~ 我知道了~
《中华人民共和国电信与信息服务业务经营许可证》编号:2020-随机对照试验中统计功效强化评估的效果:抑郁症Raphael Schustera,J.P.,Manuela Larissa Schreyerb,Tim Kaisera,Thomas Bergerc,Jan Philipp Kleind,Ste Eschen Moritze,Anton-Rupert Laireitera,f,Wolfgang Trutschnigba奥地利萨尔茨堡大学心理学系b奥地利萨尔茨堡大学数学系c瑞士伯尔尼大学临床心理学和心理治疗系d德国吕贝克吕贝克大学精神病学和心理治疗系德国汉堡-艾彭多夫大学医学中心精神病学和心理治疗系f奥地利维也纳大学心理学系A B S T R A C T基于智能手机的设备越来越多地被认可用于评估日常生活中的疾病症状(例如生态瞬时评估,EMA)。尽管数字精神病学有了这种发展,但临床试验主要基于精神病理学的点评估。本研究通过随机对照试验(RCT)中的强化评估,一项模拟研究基于三种情景和几组经验数据,估计评估前后的功率增益为2或5倍对于每种条件,生成各种效应大小的数据集,并将AN(C)OVA应用于感兴趣的样品(N=50功率增加范围从6%到92%,在功率不足的情况下增益更高,重复评估的次数更高。ANCOVA得益于对基线协变量的更精确估计,从而获得了统计功效的额外收益。5倍的术前和术后EMA产生了最高的绝对统计功效,并且明显优于传统的问卷评估。例如,自动化PHQ-9问卷数据的ANCOVA导致绝对把握度为55(N= 200,d= 0.3)。然而,五倍EMA的功效为88.9。非参数和多水平分析产生了可比的结果。除了提供心理治疗外,数字心理健康还有助于优化基于RCT的研究的敏感性。当需要在评估前和评估后以高精度评估精神病理学时(例如,小样本量,小治疗效果,或应用机器学习等优化问题时),强烈的评估似乎是可取的。首先,经验研究是有希望的,但需要更多的证据。为研究规划提供了各种效应的模拟和流行的电源软件的简短指南。1. 临床研究统计功效是实际检测到正在寻找的现象的概率(假设现象存在)。因此,统计功效是每项统计研究的关键组成部分从神经科学和心理学研究的持续争论(以及相关的复制危机)中可以看出,许多研究仍然动力不足(Button et al.,2013; Halpern等人,2002年)-这意味着很大的机会忽略效果。在心理学和神经科学领域对效应大小进行的评估显示,检测小效应的中位把握度为0.12,检测中等效应的把握度为0.44(Szucs和Ioannews,2017)。考虑统计功效的惯例(来自0.8至0.9),则报告的缺乏可归类为严重缺乏。最后,低统计功效也降低了统计显著结果实际反映真实结果的可能性。临床研究中的情况是类似的,其中感兴趣的患者可能自愿参加临床价值有限的试验,或者其中研究在入院过程的后期阶段失败(Halpern等人,2002; Khan等人,2018年)。尽管这种现象并不均匀地存在(Maddock和Rossi,2001; Marszalek等人,2011年),临床领域中动力不足研究的实践可以被描述为广泛且难以改变-最终增加了Meta分析评估中聚集错误发现的风险(Cali Einstein et al.,2012; Maxwell,2004;Roozenbeek等人,2010; Wampold等人,2017年),或在复制以前的研究时增加失败尝试的概率(复制危机)。由于临床研究的资源有限,已经开发了多种策略来优化统计功效。这些技术可以分为维持统计能力的策略和增加统计能力的策略。除了更详细的程序外,通讯作者:Department of Psychology,University of Salzburg,Hellbrunnerstraße 34,5020 Salzburg,Austria.电子邮件地址:raphael. sbg.ac.at(R。Schuster)。https://doi.org/10.1016/j.invent.2020.100313接收日期:2019年6月21日;接收日期:2019年12月4日;接受日期:2020年2月28日二零二零年六月二十九日之估值2214-7829/©2020TheAuthors.由ElsevierB.V. 这是一个不可操作的CC,它与CCBY-NC-NDLicense(http://creativecommons.org/licenses/BY-NC-ND/4。0/)。可在ScienceDirect上获得目录列表互联网干预杂志首页:www.elsevier.com/locate/invent《中华人民共和国电信与信息服务业务经营许R. Schuster等人2在文献中提出了通用策略(Hansen和Collins,1994; Harrison,2009;Roozenbeek等人,2009年)。突出的例子有:i)维持样本量(例如防止损耗和缺失数据),ii)最大化效应量(例如维持程序完整性、预后靶向),或iii)减少方差(例如研究同质群体)。尽管有意识地考虑这些策略可能有助于提高功率,但所描述的一些技术也带来了重大的缺点。例如,一个高度同质的群体可能会限制发现的有效性,而预测目标可能会导致相当多的额外工作。为了找到有效的解决方案,科学家们还开发了先进的统计方法,以增加临床研究的力量。最突出的策略是:i)缺失数据的插补,ii)重复测量,iii)协变量调整,或iv)线性混合模型(LMM)。这些技术大多有助于改善临床研究。然而,虽然这些技术中的一些技术增加了确定的模型的准确性(例如,重复测量),但是其他技术需要额外的假设,这可能倾向于引入进一步的偏差。例如,如果插补协变量在试验条件下分布不均匀(例如,没有真正的随机化),则协方差调整会导致偏倚结果(Harrison,2009; VanBreukelen,2006; Zhang等人,2014年)。此外,给定协变量的确切影响并不总是事先清楚的,因此,协变量调整有时对于先验把握度或样本量计算的价值有限(Pocock等人, 2002; Raab等人, 2000年)。2. RCT不能充分捕获个体内变异随机临床试验(RCT)主要使用精神病理学的点评估进行(例如,在研究开始时随机一天然而,最近的研究表明,许多心理结构(如抑郁情绪)在随时间(如不同天数)测量时显示出显著的个体内变化。即使在改进测试长度之后,如果使用点评估,这种波动仍然未被检测到。Fisher等人(2018)表明,抑郁症状和焦虑的个体内变异是个体间变异的三倍。与其他研究一起(PfeiMer等人,2015年),作者得出结论,未来的研究应该尝试更广泛地捕捉个体内差异。在RCT中实施EMA或其他密集评估策略可以被视为一种务实的方法,因为个体内波动是在几天内捕获的,而研究设计则保持在既定的实践中(参见。图①的人。在临床研究中,强化评估越来越多。从历史上看,多次评估的(实际)成本很高,与样本量或研究持续时间等其他因素相比,单次增加测量的研究影响相对较小(Moerbeek,2008; Venter等人,2002年)。过去几年的技术进步使得密集的评估不那么有效,导致EMA或其他形式的基于时间序列的分析的明显趋势(Bhugra等人,2017; Holmes等人,2016年)。此外,其他形式的自动化密集评估已被证明是可行的(例如,每周或每两周评估一次)。这一点由数字心理健康这一总括术语所表明,它涵盖了数字治疗的提供和评估。考虑到上述方面,本文探讨了在基于RCT的研究设计中实施短问卷或短EMA(本文简称sEMA)的强化评估的影响 虽然进行经验研究将提供第一手数据,但模拟产生的优势是独立于特定研究背景来测试基本假设。为了优化研究的有效性,我们使用了来自实验室的第一手数据以及几个外部来源。这项模拟研究的目的是推断在何种程度上,激烈的评估可以有助于增加功率的随机对照试验。在这方面,将模拟以下情景(表1), 以测试问卷-Fig. 1.作为测量日函数的不同改进斜率引入测量误差。注.精神病理学的点评估(通过标准问卷)由于症状随时间波动而引入测量误差。例如,对于包含16个项目且标准差为SD=5的问卷,给定Likert量表的2个项目上的1分将导致SD的40%波动。如果评估前和评估后都受到同等程度的影响,这种不精确性就会增加。绿线代表单点评估的三个斜率。红线表示三个测量位置的移动窗口上的平均斜率。基于精神病理学的点评估与密集评估相比:在情景1(标准情景)中,我们假设在测量前和测量后使用一次、两次或五次平均心理简短问卷(高相关性)。在情景2中,这些参数由经验数据确认(Klein例如,2016; Nuij等人,2018年)在一个经常使用的简短问题上-PHQ-9的自动化版本-也已被验证用于数字化应用(Erbe等人,2016年)。在场景3中,我们假设sEMA(低相关性)被用于评估状态样抑郁或抑郁情绪(Torous和Powell,2015),而不是应用调查的自动化问卷。因此,在这种情况下,单一的评估前或评估后的相关性要低得多。3. 方法3.1. 参数估计场景1中的参数对应于临床心理学领域中频繁(自动化)抑郁问卷的平均可靠性(Drake et al.,2013; Löwe等人,2004; Vittengl等人, 2005年)。因此,场景1将被称为标准场景。在场景2中,建模基于两个数据集 。 第 一 个 数 据 集 是 EVIDENT 试 验 ( N= 1013 ) ( Klein 等 人 ,2016),一项多中心试验 在线抑郁症治疗的效果。在本试验中,PHQ-9在治疗过程中每两周自动应用一次。两次重复评估之间的时间间隔各不相同,提供了真实世界相关性的细粒度梯度。这些数据还允许我们对学习效应(随着时间的推移,相关性增加)进行建模。因此,情景2构成了情景1的经验性模拟。估计的PHQ-9参数得到了Nuij等人(2018)提供的初步研究的进一步数据集的证实。第二项研究通过在大学样本中应用自动化的PHQ-9项目来调查基于智能手机的自我监测,两项研究的相关性仅略微偏离(r=0.1)。<对于场景3中的EMA数据,我们将相关性设置为r=0.4,这是由我们实验室对高频时间序列的研究数据(Kaiser和Laireiter,2019)以及Fisher等人(2017)的数据提供的。Fisher及其同事在30天内评估了40名患有广泛性焦虑症(GAD)、重度抑郁症(MDD)或GAD和MDD共病的个体GAD和MDD量表的每日相关性《中华人民共和国电信与信息服务业务经营许R. Schuster等人3表1测试密集评估影响的情景情景1(标准情景)场景2(emp.试验数据)场景3(emp. EMA数据)评估方法平均调查表自动化PHQ-9自动化EMA重复预评估的可靠性(r)0.70.40.4重复后评估的可靠性(r)0.70.40.4预评估数量2或52或52或5评估后数量2或52或52或5缩略语:EMA =生态瞬时评估; PHQ-9 =患者健康问卷(抑郁);r=自相关。有密集评估(2倍)无密集评估有密集评估(5倍)图二.功率曲线映射场景1(标准场景)的效应大小(X轴)和实现功率(y轴)。注. 绿线=功率增益;红线=80%功率水平;虚线:标准AN(C)OVA;实线:强度评估。(基于DSM-V标准)范围从MDD的r= 0.36(r=0.19的SD)到GAD的r=0.44(r= 0.20的SD)此外,平均量表值波动,但在一段时间内既不增加也不减少(调整后的R2=0.056-尽管与其他EMA研究的正在进行的研究一致,r=0.4的相关性代表了一种估计,在实践中,这取决于潜在的疾病亚型(例如,抑郁症与双相情感障碍)和给定综合征的严重程度;以及确切的EMA说明(例如, 为了解释这种复杂性,我们提出了在x1中具有更高相关性的结果3.2. 数据模拟仿真和图形是使用R软件包copula、reshape和ggplot2生成的。在第一步中,相应的协方差结构是从给定的真实世界数据集中提取的例如,RendediX 1的第1节提供了基于N=1013例真实世界患者的PHQ-9问卷数据(场景2)的数据提取过程。同样的程序也适用于场景3中的EMA数据在下一步中,我们使用Clayton und Frank copula将各自的协方差结构实现到模拟模型中。Copula函数是连接联合分布及其一维边缘分布的常用数学函数,它表示所需的协方差结构,并为数据集的生成提供数学基础。为了确保生成的数据集的正确性,Bernstein估计器指出了每个场景1 - 3的拟合优度(参见图2的EscherdiX1),以及三种评估类型:单,两,或五倍。Bernstein估计量是用于估计闭区间上平滑分布拟合的多项式(Leblanc,2012)(例如,统计功效在0%和100%之间)。同样,方案2中的PHQ-9数据可作为该模拟步骤的示例(第2节,第1页),并具有相应的前后评估《中华人民共和国电信与信息服务业务经营许R. Schuster等人4(第2.1节),以及重复的预测量和重复的后测量(第2.2节)。图图2和图3显示了经验数据(蓝线)和伯恩斯坦估计量模拟模型(红色曲线)之间的拟合。拟合模型后,可以生成最终患者数据集。对于我们的例子,这导致了平滑的略微倾斜的分布(图1)。4的PastudiX 1)。我们制作了1000个虚拟RCT,62个不同的样本量,样本量N=50,100,150,200。在最后一步中,对方案1-3的62 × 1000项虚拟RCT进行了感兴趣的统计模型(ANOVA或ANCOVA;以及LMM或非线性Bootstrap置换检验用于其他分析)。适用时,对每个模拟患者生成的前后值(两倍或五倍)取平均值。例如,如果模拟患者在预测量时在PHQ-9上得分为9、13、14、8、10,则所得值将为10.8个标度点。该过程导致所应用的统计模型中受试者内误差方差的预期降低。最后,记录单个结果,并计算统计功效,即显著结果在所有进行的测试中的比例(例如,800个显著结果超过1000应用AN(C)OVA:功效=80%)。相应的结果通过功率曲线打印,映射出效应大小(X轴)和实现功率(y轴)。附加功率曲线见第1卷第34. 结果4.1. 标准情景在场景1中,我们测试了基于药物的RCT中多重评估对可实现把握度的影响。图2描绘了作为样本大小和评估次数的函数的功效曲线。因此,无多重评估的ANOVA的把握度最低(例如,N= 50,d=0.63,53%),而有五重问卷评估的ANOVA(例如,N= 50,d= 0.63,65%)和无多重评估的AN-COVA(例如,N= 50,d=0.63,63%)的把握度相当。具有明显可辨别的差异,ANCOVA的功效最高,有5次前后评估(例如,N=50,d=0.63)。此外,样本量的增加导致更高的功效(样本越大,曲线越陡),但获得的功效比例这表明,多个基于量表的评估产生的优势与相应的样本量无关。然而,双重前后评估仅导致边际功率增加。4.2. 经验性简短问卷情景在场景2中,我们测试了多个评估对获得功率的影响,该评估基于一个模型,该模型从两个外部来源实施经验参数(自动化PHQ-9评估)。结果(图3)与情景1一致,因此支持标准情景的有效性(例如,简单ANOVA 49%;五倍前后评估ANCOVA82%)。4.3. 经验EMA情景在情景3中,我们测试了短EMA评估对RCT功效的影响。由于它们的自相关性较弱,在这种情况下,潜在的功率增益(每秒)预计会更高。结果如图4所示,其中ANOVA的五倍sEMA(例如,N= 50,d=0.63时为78%)已经优于标准ANCOVA。五倍sEMA与基线ANCOVA联合使用的把握度最高(例如,N= 50,d= 0.63时为94%),仅应用两倍sEMA时把握度最低。4.4. 绝对权力此外,这两种策略的绝对功率可以是比较了表2列出了情景2(经验PHQ-9数据)和情景3(经验sEMA)的相对和绝对功率增益比例。把握度的相对增加范围为6%至92%,把握度严重不足的研究的增加率最高。重要的是,sEMA在绝对统计功效方面优于精神病理学的点评估例如,简单PHQ-9问卷数据的ANCOVA得出的绝对统计功效为55(N= 200,d=0.3)。然而,以基线作为协变量的五倍sEMA导致在可比样本中检测到可比效应的把握度为88.9。4.5. 其他调查结果为测试结果的稳健性,我们根据非参数检验及简单线性混合模型(LMM)进行额外模拟。作为概念证明,并为了避免冗余,相应的结果在图1中给出。非参数和参数检验产生了相当的结果,表明独立于缩放的良好稳健性(有序与区间数据)。如果将基线用作协变量,则LMM导致与ANCOVA中获得的结果相当。先验(预定义)与观察到的效应大小的图见第6节,第1节。该图表明,在两次或五次评估前或评估后取平均值(以实现预期的方差降低)不会使结果产生偏倚(例如高估真实效应)。5. 讨论本研究探讨了密集的前后评估对RCT中可达到的统计功效的影响。它基于这样的假设,即重复评估将允许更精确地估计心理病理学,减少受试者内无法解释的差异(就时间相关波动而言)。误差方差的减少增加了可解释方差与不可解释方差的比例,从而增加了统计功效,从而提高了对变化的敏感性。为了测试预期功率增加的幅度,模拟了三种情况。主要发现表明,强化评估的RCT导致功效增益超过精神病理学点评估的标准方法。基于来自两个外部来源的经验参数的模拟(情景2)与相应的标准情景(情景1;通过简短问卷进行的一般评估)相吻合,表明所呈现的结果具有高度的普遍性。此外,与自动化点评估相比,短前后EMA(sEMA)的绝对统计功效最高。因此,研究结果表明,sEMA或类似形式的强化重复评估可能非常适合优化基于RCT的研究中的统计功效。从更广泛的角度来看,自动化的多重评估可以提供一种解决临床研究中动力不足研究问题的策略(Khan et al., 2018; Roozenbeek等人,2010年; Szucs和Ioannovich,2017年),因为小样本量情况下表现出最高的改善。5.1. 类似数据(高相关性)主要研究结果表明,前后评估的五倍明显优于两倍,后者导致边际功效增加(参见图2)。这一发现与研究一致,研究表明,通过偶尔的重复评估,功率仅略有增加(Moerbeek,2008; Venter等人, 2002年)。对于五倍前后评估,ANOVA的功效增益与应用点评估和以基线作为协变量的ANCOVA图2)。到目前为止,没有强烈评估的基线ANCOVA将被指示,因为它构成了优化功效的最有效方法(VanBreukelen,2006; Zhang等人,2014年)。然而,由于多重预评估提供了更精确的估计,《中华人民共和国电信与信息服务业务经营许R. Schuster等人5有密集评估(2倍)无密集评估有密集评估(5倍)图3.第三章。针对场景2(基于自动化PHQ-9评估的经验数据),映射效应大小(X轴)和实现功效(y轴)的功效曲线注. 绿线=功率增益;红线=80%功率水平;虚线:标准AN(C)OVA;实线:强度评估。研究的结构(例如抑郁情绪),基线协变量的精度也提高了。根据我们的模拟,密集评估和ANCOVA的结合导致了大量的功率增益。与ANCOVA中附加第三变量的影响有时未知相反(Harrison,2009;Pocock等人,2002),潜在的样本量减少可以通过标准参数(例如,重测可靠性)进行评估。这意味着多重评估适用于先验样本量计算,从而有助于降低进行临床研究的成本RendiX 2提供了一个实用的指南,说明如何通过流行的G*Power软件来实现预期的样本减少。5.2. EMA类数据(低相关性)尽管EMA和其他基于时间序列的程序越来越多地用于临床研究(Bhugra等人,2017; Holmes等人, 2016),将其实施到RCT中以提高统计效力的做法并不普遍。然而,存在第一个经验证据。例如,最近一项关于抑郁和焦虑的基于EMA和纸笔测量的比较的研究报告了10次前后评估的变化敏感性(需要治疗的数量,NNT)的25- 50%的改善(Moore等人,2016年)。进一步的支持性证据来自一项关于肠易激惹的医学研究综合征(IBS),其中EMA提高了回顾性症状评级的敏感性(Vork等人,2019年)。在本研究中,每个测量期连续7天进行10次评估。总之,最近的经验发现支持这样的假设,即心理结构的变化可以通过时间序列来评估,而不是通过精神病理学的点评估(Fisher等人, 2018;Moore等人,2016; Vork等人,2019年)。这种强烈的评估可以同时用于研究疾病症状(或综合征)的时间动态(Bos等人,2015年),以改善分类(Pfeier等人,2015),并提高临床试验的统计能力。关于每个测量周期的最佳评估次数(例如,基线、评估后和随访),5 - 10次评估的范围似乎是可取的,以平衡统计功效的预期增益虽然上述经验性研究(Moore等人,2016; Vork等人,2019)实施了10项评估,我们的计算机模拟显示合理的改进,其中5项有效评估。因此,如果考虑到20-30%的缺失数据,每个测量周期进行6 - 7次评估似乎是可取的。在这种情况下,常见的统计功效计算器可以有助于提供预期功效增加的粗略估计。因此,我们提供了一个实用的指南,说明如何通过Xpludi x 2中流行的G*Power软件来实现样本缩减。在这一点上,限制存在许多开放《中华人民共和国电信与信息服务业务经营许R. Schuster等人6带空头EMA(2倍)不带空头EMA带空头EMA(5倍)不带空头EMA见图4。情景3(经验EMA数据)的功效曲线映射效应大小(X轴)和实现功效(y轴)。注. 绿线=功率增益;红线=80%功率水平;虚线:标准AN(C)OVA;实线:强度评估。表2通过自动化的简短问卷或sEMA进行密集的前后评估,实现了功效ANOVAANCOVA标准前置后置双重前置后置五重前置后置标准前置后置双重前置后置五重前置后置仿真功效(%)功效(%*)功效(%*)功效(%)功效(%*)功效(%*)设想2(自动化PHQ-9)N=50;d=0.8a68.0(100)72.1(106)76.7(113)79.8(100)83.8(105)90.4(113)N=100;d=0.5a58.3(100)61.7(106)66.7(114)70.1(100)76,7(109)83.8(120)N=200;d=0.3a43.8(100)47.9(109)52.9(121)55.0(100)60.4(110)71.3(130)场景3(自动化EMA)N=50;d=0.8a58.2(100)71.9(123)92.8(159)75.2(100)89.5(119)99.4(132)N=100;d=0.5a51.3(100)64.4(125)87.2(169)66.9(100)82.3(123)97.5(146)N=200;d=0.3a38.4(100)50.0(130)73.9(192)51.4(100)67.5(131)88.9(173)注.五倍sEMA(场景3的第3和第6列)明显优于基于量表的精神病理学评分(场景2的第1和第4列) 在绝对的统计力量方面缩略语:sEMA=剧烈前后生态瞬时评估; %*= 相对于参考值的百分比增加;N=参与者数量粗体数字表示基于问卷和环境管理评估的预期功效a Cohen's d.软件计算器仅允许在覆盖矩阵X中指定一个单个值,假设组之间或重复测量内的相关性相等。此外,模型通常需要评估之间的等距离(例如,治疗期间连续每周或每两周进行一次点评估),从而导致不良反应。统计模型和经验数据(包括治疗引起的额外方差)。相比之下,sEMA的每个测量周期之间和之内的重复评估的相关性将大大偏离。因此,RightdiX2提供了一个表格来估计G*Power和我们的模型之间的偏差。独立于特定《中华人民共和国电信与信息服务业务经营许R. Schuster等人7评估策略(基于问卷或EMA),两种模型的总体收敛性足以进行样本量规划。5.3. sEMA的优点和综上所述,sEMA(以及短问卷的多种应用)可能是一种很有前途的方法,通过融合EMA和基于RCT的范式来解决临床研究中的一些当前问题。虽然在整个研究期间的每日EMA评估可能会使患者迅速超载,但在临床研究的前期和后期进行有限数量的评估似乎更可行(Verdegan等人,2016年)。然而,这种额外的分类导致数据质量的显著提高。特别是早期研究阶段的小型试验和使用活性对照药物的大型试验(例如,针对金标准治疗进行的试验)可能会从选择一组待密集评估的项目中获益。在这方面,对于建议的研究背景(例如,多基线设计),sEMA的可行性可能更高,而对于常规护理中的标准应用,sEMA的可行性可能更低。另一方面,许多常规的基于互联网的治疗以每周监测方面的密集评估为特征,并且可比较的方法正在被实施到常规混合治疗中(Lutz等人,2019年)。因此,每周评估可以是优化统计功效的有用替代方案。最后,在这两种形式的密集评估之间做出决定取决于研究目的(例如,关注治疗过程与结果,或中介分析的类型,或额外过程变量的评估强度)。作为一个相关的主题,EMA被怀疑不仅可以测量,而且可以测量心理健康的症状。到目前为止,精神病学研究中“反应性测量“的确切情况尚不清楚(Mehl和Conner,2011 ; Schrimsher和Filtz,2011),相应的研究仍在进行中(van Ballegoijen等人,2016年)。Experts先前建议EMA可能禁忌用于患有严重精神疾病的患者(Rot等人,2012),或具有高社会期望(例如酒精摄入)(Johnson et al.,2009年)。在抵消潜在反应性(并增加参与)的其他策略中(Sandstrom等人,Torouset al.(2015)研究了物品运输的益处。关于当前研究的经验数据,我们没有发现任何反应性测量在时间过程中增加或减少的尺度值。然而,为了测试另一种形式的反应性(增加的自相关性)的潜在影响,在场景2中实施了这种学习效应。本报告未摘录与所列结果相关的任何信息。为了考虑密集评估的利弊,表3提供了相关方面的概述。对应用研究人员的建议:在随机对照试验中使用强化评估制度,以优化统计功效。在实验组和对照组中采用相同的方案,以确保研究的有效性。活性治疗期(治疗前至治疗后)最多选择10次有效的重复评估。表3强化考核的利弊优势劣势符合临床研究的最新趋势需要更多可行性研究提高测量精度可作为干预措施减少缺失评估的影响增加参与者的负担解释缺失数据。考虑EMA作为精神病理学经典点评估的一种有用的替代方法。在治疗前后需要以最大精度评估精神病理学时,考虑sEMA(例如,以估计治疗效果)。考虑sEMA用于过程研究,例如将心理结构与生理点评估(例如EEG或fMRI)或治疗调节器和介质或优化问题(例如机器学习)相关联。使用图1和图2中的信息进行样本量规划。注意限制(例如,待评估的结构数量有限)和密集评估的可能风险(例如,患者负担更高)。5.4. 优势和局限性这项研究有几个值得注意的优点和局限性。其最重要的优势之一是,报告的结果是基于大量的数据集和模拟,因此具有可重复性和良好的可解释性,提供的见解仅独立于单一试验中的波动。此外,根据标准参数(情景1)建模的复制以及基于非参数检验和基本线性混合模型的补充分析支持主要结果。此外,模拟过程由四位作者(RS,MS,TK,WT)进行,从而在多学科团队中实现了高度的相互控制。在此过程中,两个模型是独立开发的,并逐步集成。关于研究的局限性,从经验研究中获得的进一步证据对于某些形式的强化评估是有必要的。由于sEMA的新颖性,其对统计功效的积极影响仅存在稀少的经验证据(Moore等人,2016; Vork等人,2019年)。诊断结果可能无法解释具有更复杂症状动力学的精神疾病(例如PTSD或进食障碍),或预期患者反应强烈的情况。作为进一步的限制,所呈现的模拟不包括缺失数据或脱落。因此,随着脱落率的增加,计算出的效果将降低。另一方面,密集评估削弱了遗漏单个评估的影响-这相当于RCT中的脱落。在这一点上,每个测量场合最多进行五次评估的调查有些武断,八次或十次评估构成了一个可行的替代方案。缺失数据的具体影响将取决于研究背景。当数据随机缺失时(例如, 20%缺失数据)对报告结果的影响相对较小,并且很容易通过一次额外评估(例如,6次而不是5次)进行补偿,治疗后参与者参与度非常低的情况(例如,高脱落率)将导致对统计功效的有益影响降低。作为最后一个限制,更复杂的时间序列分析方法也适用。其中一种策略包括来自非线性时间序列的复杂性或熵度量,正如我们的研究所调查的那样(Kaiser和Laireiter,2018)。或者,分层方法(LMM)是经典和最近文献中建议的一种标准方法(Schwartz和Stone,1998;Bolger和Laurenceau,2013)。为了加快模拟过程,我们的主要分析是基于AN(C)OVA,与补充分析基于LMM和排列测试。在这一点上,进行的偏倚分析表明了结果的稳健性(参见1)。一个可能的解释是,多次评估提供有关疾病动力学的更多信息改进数据源的三角测量(例如神经科学)增加统计功效/减少所需样本量适用性随着项目构成了一个数据汇总,而不是分解程序(Nezlek,2001),优化其他统计要求,如基本的正态分布或方差齐性,模拟过程。·········《中华人民共和国电信与信息服务业务经营许R. Schuster等人85.5. 结论综上所述,密集的评估策略表明,多个评估的精神病理学经常使用的点评估的明显优势。在这一点上,基于时间序列的程序(如EMA)可以通过非常低的重复评估次数超过经典的点评估。这是因为心理学构建了内在的自然波动,而这些自然波动无法通过测试扩展来解决。由于自动化使得多次评估不那么有效,因此在临床和研究背景下更频繁地看到密集评估策略(例如每周评估或多次基线评估)。关于sEMA可行性的进一步证据是有希望的,但需要在不同人群中进行更多的研究。随着临床研究从动力不足的研究中脱颖而出,密集的评估应该在基于RCT的设计中得到更多的认可。竞合利益作者声明没有任何利益冲突。所有材料均为原创,之前未出版,在审议期间未提交其他地方出版。确认我们要感谢Wouter van Ballegoijen和他的研究团队分享EMA数据。此外,我们还要感谢Aaron Fisher通过在线存储库提供EMA数据附录A. 补充数据本文的补充数据可在doi.org/10.1016/j.invent.2020.100313上找到。引用布格拉,D.,Tasman,A.,Pathare,S.,Priebe,S.,史密斯,S.,托罗斯,J.,...首先,M. B.,2017年。柳叶刀精神病学委员会关于精神病学的未来。The LancetPsychiatry 4(10),775-818.博尔格,N.,Laurenceau,J.P.,2013.密集纵向方法:日记和经验抽样研究介绍。北京:人民出版社.Bos,F.M.,Schoevers,R.A.,aan het Rot,M.,2015.精神药理学中的经验取样和生态瞬时评估研究:系统综述。EUR. 神经精神药理学25(11),1853-1864。巴顿,K.S.,约恩尼斯,J.P.,Mokrysz角,Nosek,文学士,Flint,J.,Robinson,E.S.,M.R.穆纳夫利,2013.电源故障:为什么小样本量破坏了神经科学的可靠性。Nat. Rev. Neurosci. 14(5),365.CaliCali,R.M.,扎林检察官克莱默,J.M.,谢尔曼,R. E.,Aberle,L.H.,Tasneem,A.,2012. 2007 -2010年在www.example.com注册的临床试验的特征ClinicalTrials.gov。 Jama307(17),1838-1847.德雷克,G.,Csipke,E.,Wykes,T.,2013.在线评估你的情绪:Moodscope的可接受性和使用。Psychol. Med. 43(7),1455-1464.Erbe,D.,Eichert,H.C.,Rietz,C.,Ebert,D.,2016.患者健康问卷的格式间可靠性:PHQ-9计算机化版本的验证。互联网访谈5,1-4。费舍尔,A.J.,Reeves,J.W.,G律师Medaglia,J.D.,Rubel,J.A.,2017.通过网络分析探讨情绪与焦虑的具体动力学。J. 异常。心理学。126(8),1044-1056。费舍尔,A.J.,Medaglia,J.D.,Jeronimus,B.F.,2018.缺乏群体对个体的概括性是对人类受试者研究的一个威胁。Proc. Natl. Acad. Sci. 201711978年。Halpern,S. D.,Karlawish,J.H.,Berlin,J.A.,2002.继续不道德的行为缺乏动力的临床试验。 Jama 288(3),358-362.Hansen,W.B.,柯林斯,L.M.,1994.七种方法可以在不增加N的情况下增加功率。NIDARes. Monogr. 142,184。哈里森地方检察官2009年增加随机对照试验的效力暴击Care Med.37(10),2840霍姆斯,E.A.,Bonsall,M.B.,Hales,S.A.,米切尔,H.,Renner,F.,Blackwell,S.E.,... DiSimplicio,M.,2016.时间序列分析在双相情感障碍情绪波动中的应用,以促进治疗创新:病例系列。翻译心理学6(1)(e720)。约翰逊,E.I.,Grondin,O.,Barrault,M.,Faytout,M.,Helbig,S.,赫斯基,M.,......这是什么?斯温德森,J.,2009.精神病学中的计算机化动态监测:可接受性、依从性和反应性的多中心对照研究。 国际精神病学研究方法杂志18(1),48-57。Kaiser,T.,Laireiter,A.R.,2018.门诊心理治疗中会话间过程的日常动态评估和建模:概念验证研究。心理医生Res.1-12号。Kaiser,T.,Laireiter,A. R.,2019.心理治疗中的过程-症状-桥梁:一种个体网络方法。Journal for Person-Oriented Research 4(2),49-62.汗,A.,Fahl,M.K.,布朗,西弗吉尼亚州,2018年效力不足的研究对临床试验结果的影响。Am. J. 精神病学175(2),188。Klein,J.P.,伯杰,T.,Schröder,J.,Späth,C.,迈耶湾,卡斯帕,F.,...Hautzinger,M.,2016年。网络心理干预治疗轻度至中度抑郁症状的效果:一项随机对照试验--EVIDENT研究的结果 Psychotherapy and psychosomatics 85(4),218-228.Leblanc,A.,2012.用伯恩斯坦多项式估计分布函数。Ann.机构统计。Math.64(5),919-943.Löwe,B.,Unützer,J.,卡拉汉,C.M.,帕金斯,A.J.,Kroenke,K.,2004.使用患者健康问卷监测抑郁症治疗结果-9。医疗护理1194-1201。卢茨,W.,Rubel,J.A.,Schwartz,B.,Schilling,V.,Deisenhofer,A.K.,2019.将个性化反馈研究融入临床实践:Trier治疗导航器(TTN)的开发。行为举止。Res. Ther.120 ,103438。Maddock,J.E.,罗西,J.S.,2001.发表在三种健康心理学相关期刊上的文章的统计功效。健康心理学。 20(1),76-78。Marszalek,J.M.,巴伯角,Kohlhart,J.,库珀,B.H.,2011年。过去30年心理学研究的样本量。感知。Mot. Skills 112(2),331-348.Maxwell,S. E.,2004.心理学研究中动力不足研究的持续性:原因、后果和补救措施。Psychol. Methods 9(2),147.梅尔
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功