A/B测试中的p-hacking:显著性操纵对实验结果与成本的影响

需积分: 10 0 下载量 129 浏览量 更新于2024-07-09 收藏 947KB PDF 举报
本文研究了在线A/B测试中的一种现象,即"p-hacking"(通过操纵统计显著性来获得期望结果的行为)。作者通过对2,101个商业实验数据的深入分析,揭示了实验者在实验过程中对p值的依赖程度及其可能产生的影响。 首先,实验设计采用了一种称为回归不连续性设计的统计方法,以确定达到特定p值时停止实验这一行为的因果关系。研究发现,约有73%的实验者在发现积极效果达到90%置信水平时选择停止,这表明他们倾向于寻找显著性结果,即使这些结果可能是由于随机波动造成的虚假信号。 令人担忧的是,大约75%的实验效果实际上是无效的,这意味着许多所谓的"成功"实际上是由p-hacking引起的错误发现。当实验者在90%置信度下进行p-hacking时,这会导致错误发现率(False Discovery Rate, FDR)从33%上升到40%。这意味着每10个声称有效的效果中,就有4个实际上是误导性的。 对于假阳性(false positives)的影响,作者假设错误发现可能会促使实验者过早地停止探索可能更有效的治疗方法。这种过度依赖p值的结果是,实验的成本被高估,因为每次错误发现都可能导致潜在收益的损失。具体来说,作者估计错误发现的预期成本相当于观察到的提升(lift)的1.95%,这相当于提升的第76个百分比,这反映了在追求显著性时可能忽视了真正的价值和效率。 这篇研究强调了在A/B测试中p-hacking的普遍性和潜在危害,提醒研究人员和实践者应谨慎对待统计显著性,确保实验结果的可靠性和有效性,避免过度解读数据,以维护科学实验的严谨性和业务决策的质量。