高维数据下的FDR控制与估计方法研究进展

需积分: 34 105 浏览量更新于2024-09-13 收藏 2.37MB PDF 举报

"多重假设检验中FDR的错误率控制" 在统计学中，多重假设检验是一个关键问题，尤其是在基因组学、蛋白组学和代谢组学等高通量数据分析中。由于这些领域的数据通常包含大量变量（如基因），但样本数量相对较少，因此采用传统的单一假设检验（如t检验或卡方检验）可能导致大量的假阳性发现，即错误地宣称某些变量具有显著差异。在这种情况下，控制假阳性错误率变得至关重要。 FDR（False Discovery Rate，假阳性发现率）是一种用于控制错误率的统计方法，它不再关注维持全局错误率（如家族错误率，Family-Wise Error Rate,FWER）在某个低水平，而是允许一定比例的错误发现，以换取更高的发现力。FDR控制方法由Benjamini和Hochberg于1995年提出，它定义为在所有被拒绝的假设中，假阳性的比例。FDR相比于FWER更适应现代高维度数据的分析需求，因为它允许研究者在不牺牲太多真实性的情况下，发现更多的显著性结果。在FDR控制中，Benjamini-Hochberg (BH) 算法是最常用的方法之一。该算法首先对所有p值进行排序，然后选取一个阈值，使得在该阈值下，预期的FDR不超过预设水平。这种方法既简单又实用，但可能会过于保守，导致部分真正有显著差异的结果被忽视。除了控制FDR之外，对其进行估计也是重要的研究方向。通过估计FDR，可以更好地理解在当前数据集中预期的假阳性发现的数量，从而帮助研究人员评估发现的可信度。例如，Benjamini和Yekutieli提出了一个调整后的FDR控制方法，考虑了变量间的依赖关系，适用于非独立的假设检验。传统的方法，如Bonferroni校正和Holm校正，虽然能有效控制FWER，但在高维数据中往往过于严格，可能导致很多潜在的重要发现被忽略。相比之下，FDR控制方法在生物医学研究中越来越受到青睐，因为它能够在保持实验的总体错误率在一个可接受范围内的同时，提高发现真正差异表达基因或其他生物标志物的能力。在实际应用中，研究人员需要根据研究目标和数据特性选择合适的错误率控制方法。例如，如果追求极低的假阳性率，可能需要使用FWER控制；而在寻找尽可能多的显著信号时，FDR控制可能是更好的选择。同时，随着统计学的发展，新的FDR控制和估计方法不断出现，如False Discovery Proportion (FDP) 和 Positive False Discovery Rate (pFDR)，这些方法旨在提供更精细的错误控制和更准确的估计。 FDR的错误率控制和估计在高通量数据的分析中扮演着至关重要的角色。它不仅帮助研究人员在大量测试中找到真实的信号，还为统计学方法的研究提供了新的挑战和机遇。通过持续探索和改进FDR的控制策略，我们可以更好地挖掘隐藏在复杂数据背后的生物学意义。

Dedia

粉丝: 2
资源: 3

高维数据下的FDR控制与估计方法研究进展

多重比较的 Bonferroni-Holm 校正：通过 Bonferroni-Holm 方法调整 p 值族，以控制错误拒绝的概率。-matlab开发

bonferroni_holm:Bonferroni-Holm 方法来控制家庭明智的错误率。 更正多重比较/假设检验（返回调整后的 p 值）-matlab开发

两阶段 Benjamini、Krieger 和 Yekutieli FDR 过程：用于控制假设检验系列中的错误发现率的两阶段过程-matlab开发

fdr_bh:Benjamin & Hochberg / Yekutieli 一组统计检验的错误发现率控制程序-matlab开发

multicmp:在多重比较期间调整 p 值以控制 1 类错误率的函数。-matlab开发

multipy：Python中的多个假设检验

多重假设检验中的估计问题与新方法

多重检验与微阵列数据分析：FDR控制与原假设估计的改进方法

正相依条件下两步检验过程的FDR控制方法研究

正相依下两步检验的无偏性质与FDR控制

最新资源

bonferroni_holm:Bonferroni-Holm 方法来控制家庭明智的错误率。更正多重比较/假设检验（返回调整后的 p 值）-matlab开发