A/B测试中的p-hacking:显著性操纵对实验结果与成本的影响
需积分: 10 86 浏览量
更新于2024-07-09
收藏 947KB PDF 举报
本文研究了在线A/B测试中的一种现象,即"p-hacking"(通过操纵统计显著性来获得期望结果的行为)。作者通过对2,101个商业实验数据的深入分析,揭示了实验者在实验过程中对p值的依赖程度及其可能产生的影响。
首先,实验设计采用了一种称为回归不连续性设计的统计方法,以确定达到特定p值时停止实验这一行为的因果关系。研究发现,约有73%的实验者在发现积极效果达到90%置信水平时选择停止,这表明他们倾向于寻找显著性结果,即使这些结果可能是由于随机波动造成的虚假信号。
令人担忧的是,大约75%的实验效果实际上是无效的,这意味着许多所谓的"成功"实际上是由p-hacking引起的错误发现。当实验者在90%置信度下进行p-hacking时,这会导致错误发现率(False Discovery Rate, FDR)从33%上升到40%。这意味着每10个声称有效的效果中,就有4个实际上是误导性的。
对于假阳性(false positives)的影响,作者假设错误发现可能会促使实验者过早地停止探索可能更有效的治疗方法。这种过度依赖p值的结果是,实验的成本被高估,因为每次错误发现都可能导致潜在收益的损失。具体来说,作者估计错误发现的预期成本相当于观察到的提升(lift)的1.95%,这相当于提升的第76个百分比,这反映了在追求显著性时可能忽视了真正的价值和效率。
这篇研究强调了在A/B测试中p-hacking的普遍性和潜在危害,提醒研究人员和实践者应谨慎对待统计显著性,确保实验结果的可靠性和有效性,避免过度解读数据,以维护科学实验的严谨性和业务决策的质量。
1451 浏览量
2023-07-16 上传
243 浏览量
119 浏览量
111 浏览量
2021-10-25 上传
2021-08-21 上传
2021-10-25 上传
2021-08-21 上传

weixin_38724370
- 粉丝: 5
最新资源
- 掌握PerfView:高效配置.NET程序性能数据
- SQL2000与Delphi结合的超市管理系统设计
- 冲压模具设计的高效拉伸计算器软件介绍
- jQuery文字图片滚动插件:单行多行及按钮控制
- 最新C++参考手册:包含C++11标准新增内容
- 实现Android嵌套倒计时及活动启动教程
- TMS320F2837xD DSP技术手册详解
- 嵌入式系统实验入门:掌握VxWorks及通信程序设计
- Magento支付宝接口使用教程
- GOIT MARKUP HW-06 项目文件综述
- 全面掌握JBossESB组件与配置教程
- 古风水墨风艾灸养生响应式网站模板
- 讯飞SDK中的音频增益调整方法与实践
- 银联加密解密工具集 - Des算法与Bitmap查看器
- 全面解读OA系统源码中的权限管理与人员管理技术
- PHP HTTP扩展1.7.0版本发布,支持PHP5.3环境