互联网干预2：增长模型的设计、统计分析和结果报告方法

80 浏览量更新于2024-01-11 收藏 654KB PDF 举报

统计分析

报告建议

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

互联网干预2（2015）110使用生长模型模拟随机实验中的个体差异：互联网干预结果的设计、统计分析和报告建议Hugo Hesser瑞典林雪平大学行为科学与学习系a r t i c l e i n f o文章历史记录：2014年11月17日收到2015年2月20日收到修订版2015年2月22日接受2015年3月4日在线发布保留字：增长模式结构方程建模因特网干预a b s t r a c t增长模型（也称为线性混合效应模型、多水平模型和随机系数模型）具有研究群体和个体水平变化的能力。此外，这些方法在重复测量数据的分析中比传统的数据分析方法具有明显的优势。这些优点包括，但不限于，纳入随时间变化的预测，以非常灵活的方式处理重复观测之间的相关性，并在相当不受限制的缺失数据假设下提供准确的估计。增长曲线模型方法在分析变化方面的灵活性使其成为评价直接、间接和适度干预效果的首选方法虽然增长模式提供了许多好处，但在设计、分析和报告结果方面存在挑战本文提供了一个非技术性的增长模型在随机实验中的变化分析的概述，并主张他们在互联网干预领域的使用。为增长模型的设计、分析和结果报告提供了实用的建议© 2015作者由爱思唯尔公司出版这是一篇CC BY-NC-ND许可下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）中找到。1. 介绍尽管多年来应用统计学和方法学取得了相当大的进步，但随机实验仍然是唯一建立的方法来评估随机效应（P e a r l，2 00 9）。通过将参与者绑定到条件并保存所有内容，保存一个变量（即，实验操作），在各种条件下恒定，治疗参与者和对照组之间的平均差异是治疗的平均因果效应的无偏估计（Rubin，1974）。一个设计良好的随机实验也允许探索治疗和结果之间的这种直接影响是如何产生的（即，调解/间接影响），以及在什么情况下或为谁（即，这种效应最为显著（Baron和Kenny，1986）。在随机化实验中，许多因素会使直接、间接和调节效应的估计产生现代的重复测量数据的统计分析提供了潜在的补救措施，在现场实验中遇到的常见问题，例如，解决问题的磨损/缺失的数据，重复观测之间的依赖性，统计功率。方法学方面取得进展*通讯作者：林雪平大学行为科学与学习系，SE-581 83林雪平，瑞典。联系电话：+46 13 28 58 45;传真：+46 1328 21 45电子邮件地址：hugo. liu.se。在变化的分析中，也为研究者提供了极好的分析工具来回答关于个体差异的重要研究问题。这些进展是最相关的随机实验中的调解和适度的统计分析。尽管这些技术的好处，然而，这些方法也提出了具体的和真正的挑战，研究人员在设计，分析和报告治疗试验的结果互联网干预领域在过去十年中迅速发展（Andersson，2009; Andrews等人，2010年）。已经进行了许多随机对照试验来评估互联网递送的干预是否相对于对照条件、其他治疗或用于各种健康问题的递送形式产生有益的结果（参见综述Andersson等人，2011，2014; Andrews等人，2010; Hedman，2014; Spek等人，2007年）。然而，就所使用的科学方法而言，在互联网干预研究中存在明显的异质性（Barak等人，2009;Danaher和Seeley，2009; Ritterband和Tate，2009）。最近，为了提高该领域的研究质量，制定了一般研究指南，为研究人员提供如何最好地报告该领域研究的建议（Proudfoot等人，2011）;然而，据我所知，没有指导方针提供如何适当设计和分析互联网干预的随机实验的建议。这样的指导方针对于整个领域的科学进步至关重要，因为适当的实验方法是科学声明的核心，http://dx.doi.org/10.1016/j.invent.2015.02.0032214-7829/© 2015作者。由爱思唯尔公司出版这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表互联网干预杂志首页：www.invent-journal.com/H. Hesser / Internet Interventions 2（2015）110 -120111推论（Mayo，1996）。特别是，没有制定任何指导方针，为如何利用现代统计技术分析互联网干预实验的变化也许正因为如此，再加上该领域研究的快速增长，互联网干预临床试验中使用的数据分析程序在研究之间存在差异，一些研究使用过时的方法来分析临床试验数据。这可能会导致错误的结论，从长远来看，这对该领域来说是个问题。此外，该领域的研究还没有充分利用现代数据分析技术的优势，在实验设计中研究个体变化的差异和个体变化的相关性本文的总体目的是提高人们对现代数据分析程序在重复测量数据方面的优势的认识，并鼓励在互联网干预领域使用传统方法本文对生长曲线模型在分析直接、间接和适度治疗效应中的作用进行了非技术性概述，并总结了纵向数据分析领域内主要方法学权威的一些建议其目的不是提供如何进行这些分析的详细技术说明为此，读者可以参考许多可用的教学文章和书籍（Bollen和Curran，2006年; Hedeker和Gibbons，2006年; Kwok等人，2008年; Peugh和Enders，2005年; Singer，1998年; Singer和Willett，2003年; Snijders和Bosker，2012年）。本文的结构如下。本文首先简要回顾了随机试验中变化分析的增长模型在这里，我还关注使用增长模型时的相关设计问题。提供了一个例子来说明如何实现和解释一个线性增长模型的背景下，随机对照试验。然后，我提供了一些建议，建模建设问题的功能形式的变化，编码的时间和方差分量。接下来，我将关注随机化实验中一个常见的问题，它会严重影响推论：缺失数据。在Rubin（1976）缺失数据理论的背景下，我讨论了增长模型中的最大似然估计，并认为它在临床试验中的使用与其他常见的特设缺失数据处理技术的不完整数据。在随后的部分中，我将讨论如何充分利用增长模型的建模能力，对随机实验中的中介和适度进行统计分析最后，本文提出了一些建议，报告的结果，从增长模型在互联网干预的研究。2. 随机试验当研究人员进行随机实验以评估干预的结果时，他们或隐或显地关注结果如何随时间变化。他们可能感兴趣的是，个体在某个时间点表达的一组特定行为或行为学是如何对干预做出反应的。因此，在评估干预的结果时，他们需要考虑如何建模和衡量变化。历史上，通常使用一个或两个评估点来检查变化，例如在治疗前和治疗后设计中（Francis etal.，1991年）。对于这样的研究设计，经常采用重复测量方差分析（RM-ANOVA）或多元回归分析（包括协方差分析，这是多元回归的一种这里的主要目的是研究平均组差异。与这些平均值的个体偏差被视为误差方差，而不是反映在个体水平上发生的真实变化量（Duncan和Duncan，2004）。虽然这种设计和数据分析的选择是可以辩护的，但方法学家从概念和统计的角度提出了关注，特别是与变化相关性研究有关的关注（Rogosa和Willett，1985）。在概念层面上，这些模型没有明确地模型个体变化和变化被视为增量而不是随着时间的推移而展开的连续发展过程（ Francis 等人， 1991; Rogosa ， 1988; Rogosa 和 Willett ，1985）。在统计水平上，这些模型是令人担忧的，因为差异评分的（不）可靠性，不能充分处理时变预测因子，缺失数据以及不平衡数据（ Duncan 和 Duncan ， 2004; Francis 等人， 1991; Gueorguieva 和Krystal，2004;Kwok等人，2008; Rogosa和Willett，1985; Willett和Sayer，1994）。此外，我们的数据分析方法必须能够处理重复测量数据中的嵌套数据结构和观测之间的依赖性（即，观察随时间嵌套在个体内）。传统的数据分析方法（例如，RM-ANOVA）依赖于关于用于处理重复测量之间的依赖性的协方差结构的强数据分析假设（例如，球形假设）并且如果违反这些假设则将导致不正确的决定（Francis等人，1991; Gueorguieva和Krystal，2004;Kwok等人， 2008年）。另一种方法是将变化视为任何两个时间段之间发生的连续过程变化是由个人潜在的成长轨迹捕捉的增长模型（也称为随机系数模型、多水平模型和混合效应模型）非常适合研究群体和个体水平的变化（Bryk和Raudenbush，1987;Hedeker和Gibbons，2006; Meredith和Tisak，1990; Muthén和Curran，1997; Willett和Sayer，1994）。这使得数据分析方法与随机化实验中的变化分析高度相关。与传统的数据分析方法相比，这些模型在分析重复测量数据方面具有几个明显的优势。这些优点包括但不限于，能够纳入时变预测因子，以非常灵活的方式处理重复观测之间的相关性，以及在相当不受限制的缺失数据假设下提供缺失数据的准确估计（ Duncan and Duncan ， 2004; Gueorguieva andKrystal，2004; Muthén and Curran，1997）。数据分析方法还允许研究人员处理由于聚类而导致的观察结果之间的其他类型的依赖性例如，在某些干预研究中，效应可能是由于提供治疗的治疗师之间的变异性，随机效应建模可以是控制实验设计中治疗师所致聚类的一种方法（Wampold和Serlin，2000）。最后，虽然这在很大程度上是一个未研究的话题，统计功率检测非零参数可以增加在某些情况下，当使用增长模型。例如，与传统的数据分析方法（例如，RM-ANOVA）在分析组间设计的重复测量数据时，生长模型在检测线性斜率估计值的差异时显示出更大的统计功效时间组相互作用）在小到中等样本量（Fan，2003）。2.1. 设计建议虽然可以将生长模型应用于两波数据，但传统的预处理设计不是最佳的，特别是如果研究人员打算模拟生长中的[1]也就是说，当只有两个时间点可用时，无法将误差方差与变化的个体异质性这就排除了对变化中的个体差异和个体变化的相关性的研究此外，如果研究人员怀疑变化的函数形式（时间趋势）不能用直线充分描述，则两个数据点是不够的。此外，在测量期间包括多个测量值，1即使研究的目的不是研究个体的生长，在某些情况下，研究人员仍然可能希望考虑传统方法的生长模型（例如，RM-ANOVA），因为它们提供了其他明显的优势，例如包括时变协变量、处理缺失和不平衡数据以及将各种形式的方差分析结果拟合到数据的能力。112H. Hesser / Internet Interventions 2（2015）110 -120当有缺失数据时，试验是有益的对治疗前和治疗后评估之间的结局进行更多观察可以提供关于未能返回研究中最后一个评估点的个体的有价值信息;这些信息可用于在不完整数据的情况下获得准确的参数估计值（当我在第5.1节和第5.2讨论缺失数据时，我将回到最后一点）。最后，增加测量次数可以积极影响个体变化评估的统计功效和可靠性（Muthén和Curran，1997; Raudenbush和Bryk，2002）。因此，通常首选两个以上的时间点，并且在某些情况下，过少的测量可能不利于纵向研究（Collins，2006）。可以使用几个因素来确定要评估的时间点的数量需要考虑变化的基本理论，例如变化最有可能发生的时间，并在这些时间段内频繁和紧密地测量相关结构（Collins，2006）。研究者还需要考虑用于评估变化的测量的性质，例如测量是否足够敏感以检测在该时间段内的显著变化，是否存在天花板效应或天花板效应的风险，以及重复测试是否改变了被测量的结构的含义（J akson，2 0 1 0）。在决定测量次数时，还应考虑到中断和电源问题的可靠性作为一般性建议，研究人员应在试验中至少包括四个测量点，因为当超过三个时间点可用时，建模方法的灵活性会大大增加然而，只要有可能，目标应该是在积极干预阶段包括更多的测量，例如，每周或每两周测量一次主要结局（和过程变量）可能是有益的，特别是在试验中检查调节者和中介者时。3. 实施和解释增长模型增长模型可以在多层次、混合模型或结构方程模型框架内进行估计尽管建模能力存在一些差异，但不同的框架通常会产生相同的结果（Bollen and Curran，2006; Enders，2011 b）。事实上，Preacheret al. （2008）指出，框架之间的差异在很大程度上是软件的产物，随着软件新版本的发布，框架之间的差异变得更加难以识别。在本文中，我使用了通用术语增长模型（或增长曲线模型），但读者应该意识到，框架之间存在一些差异，这些差异会影响某些类型模型的结果具有时变预测器的模型）。与另一个框架相比，在一个框架内也可以更容易地估计一些模型（例如，与线性混合或多级框架相比，在结构方程建模框架中更容易实现并行过程增长模型和随机增长模型Jackson（2010）提供了一些一般性的建议，当一个框架可能优于另一个框架时，但如前所述，软件可能在这里扮演更重要的角色3.1. 随机试验背景下的线性增长模型示例为了说明如何实施和解释线性增长模型，考虑以下假设的随机抑郁症试验，其中参与者被随机分配到互联网提供的干预或积极控制条件，并且在整个积极治疗阶段每周四个时间点测量主要结局。图1示出了观察到的个体轨迹的随机选择的样本和整个样本的平均均值趋势（即，治疗组与对照组合并）。从图中可以看出，个体开始的水平不同，随着时间的推移，变化的速度也不同，但平均而言，随着时间的推移，抑郁症评分下降现在考虑研究人员是否希望将线性增长轨迹拟合到观察到的数据中，并评估与分配到控制条件的个体相比，分配到干预措施的个体是否以更快的线性速度减少抑郁症状（因此在治疗期结束生长模型可以以线性回归方程的形式表示，其中结果被建模为时间预测变量的函数，该时间预测变量捕获个体如何随时间改变结果。线性增长模型是，Yti/β0 β1其中Yti是个体i在时间点t的结果，TIMEti是个体i在时间点t的预测值（例如，自研究开始以来经过的时间），β0是平均截距，β1是平均生长速率（即，作为时间预测变量的1个单位变化的函数的结果的预期变化），b0i和b1i是所谓的随机效应，其允许截距和生长速率在个体之间变化，并且εti是时间特异性残差，其表示个体的拟合线性轨迹与观察到的数据之间的差异因此，该模型包括两个固定效应（即，个体间的平均值）和随机效应（即，这些平均值的个体偏差）;因此，使用术语混合效应模型。该模型最值得注意的方面是随机效应b0i和b1i，它们捕获了个体异质性（通常假设为多变量正态分布）。因此，每个个体将得到他或她自己的截距b0i（此处为初始评估时结果的值）和斜率b1i（作为1个单位变化的函数的结果的预期变化，例如，一周，在时间预测变量上此外，通过估计随机效应之间的协方差，我们可以获得关于个体的截距和斜率是否相关的信息;也就是说，在这种情况下，个体的起始值和个体对结果的变化率之间是否存在关系例如，研究人员可能会预期，与基线时得分较低的人相比，初始抑郁得分较高的人会随着时间的推移以更快的速度变化截距和斜率之间的协方差是在与随机效应相关的协方差结构中估计的（误差方差也有一个相关的协方差结构;我将在第4.1中回到这个协方差结构）。当模型中仅包含两个随机非结构化协方差结构）或将其约束为零（即，对角协方差结构）。765432100 1 2 3周图1.一、观察平均趋势和随机选择的个人轨迹与人工抑郁试验数据。抑郁评分（0-7）H. Hesser / Internet Interventions 2（2015）110 -120113到目前为止，该模型只检查了整个个体样本随时间的变化，而没有考虑到个体被随机分配到不同的组。当然，治疗试验的主要目标是确定与对照组相比，随机分配到干预组的个体随时间的变化速度是否更快（或更慢）为了实现这一点，我们的线性增长模型需要包括一个代表条件的二进制编码预测变量（1=干预，0=对照）。然后模型变成，Yti<$β0<$β1时间ti时间其中β0是对照组截距的总体估计值，β1是对照组线性斜率的总体估计值控制=0），β2和β3捕获条件之间截距和斜率的平均差异的估计值，b0i和b1i是随机效应，允许截距和生长速率在个体之间变化，εti是时间特异性残差，表示个体拟合线性轨迹与观察数据之间的差异当然，与研究的主要目标最相关的是测试β3（即，条件与时间的相互作用;条件之间斜率的平均差异然而，重要的是要注意，如果该系数显著不同于零，则它将解释线性斜率轨迹中的一些方差，也就是说，通过在模型中包括条件变量，我们的目标是解释个体异质性，随机效应现在作为残差（即，无法解释的个体异质性不受条件的影响事实上，这个模型有时被描述为条件增长模型，其中随机效应（即，截距和斜率）是以预测变量为条件的，而前一种模型通常被称为无条件增长模型，因为它只包括时间的时间预测因子，而没有其他解释变量（Bollen和Curran，2006）。因此，通过允许截距和斜率在个体之间变化，我们可以添加预测变量来解释这种生长轨迹的异质性。为了帮助解释这个线性增长模型，我使用了artifi-社会数据来模拟抑郁症试验的结果，并使用SPSS 21版（随机效应的非结构化协方差结构和误差方差的同一性协方差结构的全信息最大似然估计）在线性混合效应框架结果见表1。从表中可以看出，初始水平存在显著的个体异质性截距）和斜率。参与者，无论任务如何，抑郁评分平均每周下降-0.71（β1）分。最值得注意的是，斜坡异质性可能部分是通过在生长模型中包括条件预测变量来解释（即，与随机斜率相关的方差从0.14减小到0.11，见表1）。事实上，3.2. 结构方程模型框架下的增长模型如前所述，增长模型可以在不同的框架中实现。结构方程模型是一个有用且灵活的框架虽然对结构方程模型的回顾超出了本文的范围，但在这里我简要地展示了如何在这个框架内构建线性增长模型在结构方程模型中，线性增长模型是一种双因子的确认因子分析，其中随机截距和斜率由两个潜在因子捕获。图2描绘了条件线性增长模型的路径图。椭圆是潜在变量（具有均值和方差），矩形是观察到的测量变量，单头直箭头表示回归系数，双头箭头表示协方差。具体而言，与潜在变量相关的方差反映了生长曲线的异质性（截距和斜率; b0 i和b1 i），潜在截距和潜在斜率变量的平均值对应于截距和斜率的平均值（β0和β1;此处为对照条件的平均初始水平和变化率，因为条件状态变量包含在模型中）。将条件状态变量（二进制编码变量）连接到潜变量的单箭头的系数对应于条件之间的平均差异（β2和β3;初始水平和斜率的平均差异最后，截距（1，1，1和1）和斜率（0，1，2和3）的因子载荷具有等间隔测量的线性模型）。3.3. 增长模型中的预测因子类型这种建模方法的优点之一是它可以在模型中包含各种形式的预测因子预测值可以在个体内随时间变化，即所谓的时变协变量（例如，药物使用随时间的变化），或者值可以在个体内随时间固定但在个体间变化，所谓的时不变协变量（例如，组间设计条件）（Singer和Willett，2003）。换句话说，预测因子可能随时间的推移与结果协变，或者代表不随时间变化的稳定特征。时变协变量通常解释个体内的方差（即，误差方差），而时不变协变量说明个体之间的方差（即，随机效应;尽管这些方差分量在一般协方差结构内是相关的，因此方差内和方差之间都可能受到包括两种类型的预测因子的影响，Singer和Willett，2003; Wu等人，2009年）。使用时变协变量的一个应用实例可以在一项研究中找到，该研究检查了患者在与治疗师的文本交流中使用特定词语的频率与治疗结果之间的关联表1结果来自人工抑郁试验数据的线性增长模型时间交互作用显著条件，β3=−0.40，表明与对照组相比，被分配到干预组的参与者平均每周的抑郁评分下降了0.4因此，条件可以系统地解释个别斜率估计值中的一些方差为了帮助解释这种效应，可以将伪R2计算为条件预测变量在随机效应中解释方差的比例（Singer和Willett，2003）。通过减去条件增长模型中随机效应方差的估计值（即，具有预测器的模型）从无条件增长模型中的方差估计（即，无预测变量的模型），并将该差值除以无条件随机效应方差，我们得到预测变量解释的方差的比例。基于表1中的信息，可以得出结论，条件预测变量占斜率方差的约21%（0. 14比0 11）/0。14=21。4%）。无条件条件估计SE估计SE注.无条件增长模型不包含条件，而条件增长模型包含条件。条件为二进制编码变量（1=干预，0=对照）。SE=标准误差。*pb.001。固定效应初始水平，β05.33米0.065.39分0.13时间，β1-0.710.04-0.390.08条件，β2––−0.080.15时间按条件，β3––-0.400.09随机效应差异初始水平，bi0.33磅0.090.33磅0.09方差斜率，b1i0.14磅0.030.11公斤0.03协方差初始水平-斜率0.050.040.050.04残差，εti0.69公斤0.050.69公斤0.05114H. Hesser / Internet Interventions 2（2015）110 -120eeeeY1Y2Y3Y411123110拦截斜率b0B1条件对广泛性焦虑障碍互联网传递的心理干预（Dirkse等人，2014年）。研究人员还可以在增长模型中加入随机效应之间的回归;在这样的模型中，随机效应（截距和/或斜率）可以作为模型中其他随机效应的预测因子（当我在6.1节和6.2节讨论适度和中介时，我会回到这种类型的增长模型）。3.4. 时间的编码和截取对平均值和个体截距和斜率的解释随着方程中预测变量的编码而因此，有必要知道时间是如何编码的，以便解释这些系数。与标准回归分析类似，截距表示模型中预测变量为零时的时间点值。例如，如果从治疗前到治疗后（4周）每周测量一次个体，则可能的时间编码可以是0、1、2和3。由于第一个时间点编码为零，我们将截距解释为第一次评估时的平均水平和该时间点的个体异质性（在无条件生长模型中）。我们也可以重新编码变量，使截距位于评估期结束时，如，-3，-2，-1和0。这只是同一模型的重新参数化，但它将改变截距和相关方差的解释（即，随机效应）（Biesanz等人， 2004年）。在模型中包含除时间之外的其他预测变量也会改变截距的解释，因此了解每个预测变量在模型中的编码方式非常重要尽管可以使用标准回归或ANOVA中常见的编码方案，例如居中或多项式对比，但通常不推荐使用（Biesanz等人， 2004年）。时间编码应产生易于解释的估计，反映实质性的研究问题（Biesanz等人， 2004年）。例如，如果研究人员希望在治疗期结束时评估结果，则将最后一个测量点作为截距是有意义的。当然，如果对所有评估点中间的时间点感兴趣（例如，作为两个阶段之间的过渡点），将时间变量居中是一种选择（Raudenbush和Bryk，2002年）。同样重要的是要注意，时间编码应反映时间图二. 具有条件状态变量（1=干预; 0=对照）的线性生长模型的示意图，预测个体截距和斜率。测量事件之间的间隔;例如，如果每隔一周而不是每周进行测量，则时间编码将为0、2、4和6（对于线性模型）。4. 增长模型为了不获得有偏的参数估计，我们需要将一个精确的模型拟合到观测数据。与大多数模型构建策略一样，目标是确定一个简约的统计模型，该模型在令人满意的程度上描述了观察到的数据为了确定适当的增长模型，重要的是要考虑时间趋势以及个体内的方差（即，误差方差）和个体之间（即，随机效应）（Wu等人， 2009年）。考虑到该方法的灵活性和许多可供选择的模型，建议通过绘制随时间推移的平均趋势和个体趋势来开始分析阶段（Kwok等人， 2008年）。在随机对照试验中，将这些趋势绘制为条件的函数有助于识别变化的功能形式，并允许检查个体异质性。该目视检查用于限制需要测试的模型数量。4.1. 修改时间趋势和方差分量几种不同的时间趋势或变化的函数形式可以在增长模型中指定，这是通过改变模型中的时间编码来实现的（Bollen和Curran，2006）。增长模型可以包含多项式项（作为标准回归）以捕获非线性变化。例如，为了获得二次函数，我们可以简单地对线性项进行平方（使用上述抑郁试验示例，二次项为0，1，4和9），然后将两项都包含在模型中。如前所述，我们可以通过在模型中包括与截距、线性和二次项相关的随机效应，在轨迹由于二次函数从直线捕获曲率，因此它可能适用于具有随访数据的试验;即，个体可能在积极治疗阶段迅速变化，然后在试验的随访阶段变化可能稳定。然而，在这种情况下，更好的数据分析方法是通过估计试验每个阶段的独立回归系数，将治疗试验建模为定性不同的阶段（Duncan和Duncan，2004; Muthén和Curran，1997）。这可以通过分段函数来有了足够数量的数据点（每个阶段至少3个，假设每个阶段的线性变化模型），研究人员可能希望考虑这样一个模型，因为这将允许他们在同一分析中包括所有数据点，并且以一种很好地适应大多数试验（包括随访评估）中可能发生的变化的方式来模拟变化。此外，使用分段生长模型，可以使用一组预测因子来预测一个阶段中的个体生长（例如，治疗前至治疗后）并且在试验的另一阶段可以使用单独的组（例如，（Duncan和Duncan，2004年; Muthén和Curran，1997年）。该模型的一个例子可以在一项研究中找到，该研究使用随机设计在三年的时间内比较了互联网提供的认知行为疗法与面对面的抑郁症团体疗法（Andersson et al.， 2013年）。功能性变化形式的选择应基于变化和先前对所研究的特定现象的检查事实上，方法学家强调了理论在纵向数据分析中模型构建和设计的重要性（Collins，2006）。有时，关于变化的理论假设是不可能的（Jacks on，2 0 1 0）。在这种情况下，研究人员可能会选择测试许多不同的模型，以确定最适合观测数据的模型。这里可以使用几种不同的相对和全局拟合度量，并且还可以获得一些用于模型构建的实用指导（Bollen和Curran，2006; Wu等人， 2009年）。H. Hesser / Internet Interventions 2（2015）110 -120115评估模型参数的统计（和实际）意义通常是适当的（例如，均值、方差和协方差）。假设样本足够大，检验参数显著性的常用方法是Wald检验，其中点估计值除以其标准误差;如果比值超过1.96，则称其在0.05水平上与零显著不同。当模型嵌套时，研究人员可以使用似然比检验来确定模型中包含的其他参数（一个或多个）是否对模型有显著贡献（Snijders和Bosker，2012）。该测试是一个偏差分数，它是限制性较低的模型和限制性较低的模型之间的-2对数似然值之差。更严格的一偏差测试值的意义是根据卡方分布进行评估，其中自由度等于在更严格的模型中设置为零的参数数量当以随机效应和相关协方差结构、误差方差协方差结构以及固定效应的形式检查个体异质性时，似然比检验可能有用（Snijders和Bosker，2012）。[2]然而，应该注意的是，在某些情况下，Wald检验和似然比检验过于保守，可能会产生有偏的标准误差（对于方差分量尤其如此，因为这些分量是有界的;它们被定义为非负的，使得标准正态对称抽样分布不适用）（Snijders和Bosker，2012）。对这些常用检验的各种校正和修改可以减少此类偏倚，并为参数创建更有效的检验（Molenberghs和Verbeke，2007）。有关多水平模型中固定和随机效应的假设检验的更多详细信息，请参见Snijders和Bosker（2012）的文本。一旦分析确定了随机效应的数量，研究人员也可以决定修改误差方差（Kwok等人， 2007年）。纵向数据分析在历史上经常在模型中并入相关误差项以解释重复测量之间的依赖性（例如，自回归结构）（Willett和Sayer，1994）。依赖性现在至少部分地通过在模型中包含随机效应来解释（即，相关性与随时间重复测量相同个体相关）;然而，检验误差方差独立性的假设是否成立可能是有意义的测试误差方差是否随时间变化（即，对角协方差结构）而不是假设方差在测量点上是均匀的（即，恒等协方差结构）（Willett和Sayer，1994），这是大多数多水平或线性混合软件的默认值。4.2. 建模的总体方法不幸的是，当涉及到模型中应添加哪些组件以及从何处开始修改增长模型时，方法学文献几乎没有提供明确的指导（Wu等人， 2009年）。有些人建议估计模型中的所有部分，然后删除对模型没有显著贡献的组件（例如，Verbeke和Molenberghs，2000年）。其他人则主张采用自下而上的方法，即从一个简单的模型开始，评估是否包含额外的组件，从多级重复测量术语中的第1级向上（例如，Raudenbush和Bryk，2002年; Snijders和Bosker，2012年）。Wu等人（2009年）提供了一个基线模型，作为在多层次和结构方程框架中评估和重新指定增长模型的起点。通常建议从2当使用限制性最大似然估计（REML）时，似然比检验不能用于检验固定效应，也不能用于比较具有不同协变量的模型，因为该方法调整了模型中协变量数量的似然性（Hedeker和Gib-bons，2006）。修改和评估变化的功能形式，然后根据需要添加随机效应（也参见最近的一篇文章，其认为随机效应结构应该在确认性假设检验中保持最大，Barr等人， 2013年）。在考虑了时间趋势和个体水平的异质性之后，研究者可能想要修改误差方差。在随机试验中，在将所有组纳入同一模型之前，对每种条件分别进行此过程通常很有用最后，预测因素（例如，条件），可以添加到帐户的个人异质性的增长轨迹。在模型规范方面没有明确和固定的规则可遵循，在选择数据模型时应考虑实质性和统计学因素（Snijders和Bosker，2012）。如前所述，理论应该指导研究人员，通常建议不要孤立地测试模型，而是比较竞争性的理论推导模型（Preacher等人， 2008年）。同样重要的是，特定模型准确地反映了研究设计和理论预测。这也意味着研究人员不应该仅仅根据统计标准（例如，显著性水平）。Snijders和Bosker（2012）区分了数据分析模型的两个部分，这两个部分在模型构建阶段可以被区别对待：涉及参数的先验假设的部分和使模型很好地拟合数据所需的部分，这是有效检验假设的先决条件。对于后一部分，他们认为，归纳数据驱动的方法有时是足够的，而对于模型的前一部分，数据驱动的模型规范方法是不合适的。然而，也参见Barr et al. （2013）对于假设检验中随机效应结构的数据驱动方法的具体问题。5. 具有缺失数据的增长模型的统计推断缺失数据可以说是随机对照试验中最大的数据分析问题之一例如，在抑郁症的干预研究中，可以合理地预期，对治疗没有反应的参与者，随后是最抑郁的，更有可能退出研究，并且不返回完成后续评估。这是一个例子，当结果和缺失数据的概率之间存在关系时，所谓的不可验证的缺失数据（Enders，2010，2011 b）。为了理解缺失数据如何影响统计推断，以及缺失数据在多大程度上影响统计推断，Rubin（1976）缺失数据理论是至关重要的。虽然这个框架在方法论文献中早已确立，但它并不总是传播到应用科学。一个原因可能是术语有点混乱，理论的实际含义对大多数研究人员来说往往是难以捉摸的（Graham，2009）。三种所谓的缺失数据机制是该理论的核心：完全随机缺失（MCAR），随机缺失（MAR）和非随机缺失（NMAR）（Little和Rubin，2002）。这些机制中的每一个都描述了缺失数据和其他变量的概率与结果变量本身之间的缺失机制是重要的考虑因素，因为它们作为缺失数据处理技术的假设，并决定这些技术的性能（ Enders ，2010）。5.1. 可忽略的缺失数据：MCAR和MAR在MCAR的情况下，变量缺失数据的概率应与其他测量变量和该变量的潜在值无关（Enders，2011 a）。例如，如果我们在随机对照试验（如抑郁症试验）中的四个测量点测量了参与者，并且我们只有最后一个时间点的缺失数据，则MCAR要求在该时间点的缺失与治疗组状态无关，与先前评估的结局变量评分无关，并且与116H. Hesser / Internet Interventions 2（2015）110 -120最终时间点的结果变量换句话说，如果缺失数据是整个数据集的随机样本，则MCAR成立。这往往是一个不切实际的假设。然而，处理缺失数据的最简单形式的策略成对或列表删除）或单次回归或平均插入，假设MCAR。事实上，许多模拟研究表明，当MAR或NMAR机制下数据缺失时，这些技术会产生有偏差的估计值（参见Enders，2010 年;Graham，2009年）。一个更宽松的缺失数据假设是MAR，其中允许变量缺失数据的概率与其他观察变量相关，但不与该变量的潜在值相关（Enders，2011a）。尽管名称含义（随机缺失），但这实际上是系统性缺失，因为它允许缺失数据的倾向与数据分析模型中包含的观察变量相关例如，Graham（2009）提出，条件随机缺失可能是一个比MAR更好的词使用上述示例，MAR允许最终评估时缺失数据的概率与治疗组状态和既往评估评分相关，但与最终评估时的可能值无关因此，MAR是一个比MCAR更合理的假设，因为其他观察到的变量不太可能与结果和缺失数据的倾向无关。MAR允许这种关联，假设这些变量包含在数据分析模型中（Enders，2010）。5.2. 增长模型中的极大似然估计非技术性地，全信息最大似然估计是一个迭代过程，目的是确定具有最高概率重现样本数据的总体参数值（对最大似然的技术细节感兴趣的读者可以参考，Enders，2010）。该技术并不严格估算缺失值，而是从所有观察到的数据中借用信息使用抑郁症的例子，没有完成最终评估的个体在前三个测量点上向估计过程提供观察到的数据，并且在估计模型中的所有参数时使用该信息。假设一个多元正态分布，来自不完整案例的信息将估计过程转向更准确的参数估计（Enders，2010，2011 a）。因此，而不是忽视不完整的情况下，全信息似然估计使用所有可用的数据在估计过程中的参数值。这种将所有个体纳入分析的方法在涉及随机对照试验时最相关，主要原因有三首先，为了获得治疗的平均因果效应的无偏估计，需要将所有随机化的个体纳入分析中（即，意向治疗）。其次，如果由于部分缺失数据而删除个体，则预计会损失统计功效。第三，缺失数据现在根据MAR而不是MCAR处理。事实上，全信息最大似然估计是其中之一，处理缺失数据的两种推荐方法（另一种是多重插补）（Schafer和Graham，2002），该技术已显示优于临床试验中常用的其他方法。最值得注意的是这种技术和临床试验文献中经常采用的特殊缺失数据策略之间的直接比较：末次观察值结转。方法学研究一再证明，全信息最大似然估计是比上次观测值结转更好的替代方法，因为它提供了更准确的估计值和标准误差以及更高的统计功效（例如，Lane，2008;Mallinckrodt等人，2001; Salim等人， 2008年）。事实上，尽管其广泛使用，但末次观察值结转已显示会产生显著偏倚，即使在MCAR机制下也是如此（Enders，2011 a）。因此，完全信息最大似然估计与临床试验中缺失数据的传统补救方法相比在互联网干预的文献中也有几个研究的例子，这些研究使用最大似然估计来有效地应对MAR下的数据丢失（例如， Hesser等人，2012;Ljótsson等人，2014; Newby等人，2013年）。5.3. 不可验证的缺失数据：N

下载后可阅读完整内容，剩余1页未读，立即下载