A/B测试中的p-hacking:显著性操纵对实验结果与成本的影响
需积分: 10 129 浏览量
更新于2024-07-09
收藏 947KB PDF 举报
本文研究了在线A/B测试中的一种现象,即"p-hacking"(通过操纵统计显著性来获得期望结果的行为)。作者通过对2,101个商业实验数据的深入分析,揭示了实验者在实验过程中对p值的依赖程度及其可能产生的影响。
首先,实验设计采用了一种称为回归不连续性设计的统计方法,以确定达到特定p值时停止实验这一行为的因果关系。研究发现,约有73%的实验者在发现积极效果达到90%置信水平时选择停止,这表明他们倾向于寻找显著性结果,即使这些结果可能是由于随机波动造成的虚假信号。
令人担忧的是,大约75%的实验效果实际上是无效的,这意味着许多所谓的"成功"实际上是由p-hacking引起的错误发现。当实验者在90%置信度下进行p-hacking时,这会导致错误发现率(False Discovery Rate, FDR)从33%上升到40%。这意味着每10个声称有效的效果中,就有4个实际上是误导性的。
对于假阳性(false positives)的影响,作者假设错误发现可能会促使实验者过早地停止探索可能更有效的治疗方法。这种过度依赖p值的结果是,实验的成本被高估,因为每次错误发现都可能导致潜在收益的损失。具体来说,作者估计错误发现的预期成本相当于观察到的提升(lift)的1.95%,这相当于提升的第76个百分比,这反映了在追求显著性时可能忽视了真正的价值和效率。
这篇研究强调了在A/B测试中p-hacking的普遍性和潜在危害,提醒研究人员和实践者应谨慎对待统计显著性,确保实验结果的可靠性和有效性,避免过度解读数据,以维护科学实验的严谨性和业务决策的质量。
点击了解资源详情
点击了解资源详情
点击了解资源详情
2023-07-16 上传
2019-09-13 上传
2021-06-05 上传
2021-08-21 上传
2021-10-25 上传
2021-10-25 上传
weixin_38724370
- 粉丝: 5
- 资源: 931
最新资源
- 俄罗斯RTSD数据集实现交通标志实时检测
- 易语言开发的文件批量改名工具使用Ex_Dui美化界面
- 爱心援助动态网页教程:前端开发实战指南
- 复旦微电子数字电路课件4章同步时序电路详解
- Dylan Manley的编程投资组合登录页面设计介绍
- Python实现H3K4me3与H3K27ac表观遗传标记域长度分析
- 易语言开源播放器项目:简易界面与强大的音频支持
- 介绍rxtx2.2全系统环境下的Java版本使用
- ZStack-CC2530 半开源协议栈使用与安装指南
- 易语言实现的八斗平台与淘宝评论采集软件开发
- Christiano响应式网站项目设计与技术特点
- QT图形框架中QGraphicRectItem的插入与缩放技术
- 组合逻辑电路深入解析与习题教程
- Vue+ECharts实现中国地图3D展示与交互功能
- MiSTer_MAME_SCRIPTS:自动下载MAME与HBMAME脚本指南
- 前端技术精髓:构建响应式盆栽展示网站