多重检验与微阵列数据分析：FDR控制与原假设估计的改进方法

版权申诉

72 浏览量更新于2024-07-02 收藏 798KB PDF 举报

多重检验技术是生物信息学和基因组学等领域中不可或缺的数据分析工具，特别是在微阵列数据分析中发挥着关键作用。该论文深入探讨了多重检验中两个核心问题：错误发现率（False Discovery Rate, FDR）的控制和正确原假设比例（true null hypothesis proportion, m0）的估计。多重检验的目标是在众多独立测试中，既要控制因过度解读而导致的第一类错误（Type I error），即误判非差异基因为差异，又要提高显著性水平，从而找出真正有意义的差异基因。论文首先介绍了多重检验的基本理论，特别强调了控制第一类错误的重要性，通常通过调整Family Wise Error Rate (FWER)和FDR来实现。FWER虽然传统上被广泛采用，但过于保守；而Benjamini-Hochberg (1995)提出的FDR控制方法提供了一种更为灵活且效果更好的策略。文章重点研究了四种能够有效控制FDR的算法，包括Bonferroni方法，通过对模拟数据的对比分析，展示了q值方法在控制FDR的同时保持较高检验功效的优势。其次，论文针对估计原假设比例m0的问题进行了深入研究。通过模拟实验，文中对几种常见的估计方法进行了比较，如Jiang&Doerge(2008)的均值法，以及作者对其进行了改进，使用三次样条法替代bootstrap法，以提高估计精度。实验结果显示，改进后的样条平滑估计方法在估计m0时比李伟(2014)的方法更为精确。论文还通过实际案例，如Hendenfalk(2001)的乳腺癌数据和FengPan等人(2009)的B细胞数据，验证了改进的估计方法在微阵列数据分析中的性能。相比于Hochberg&Benjamini(2000)、Storey&Tibshirani(2002)和Langaas等人(2005)提出的降密度算法，作者的方法能够发现更多或更少数量的差异基因，同时保持了与李伟算法相当的功效，这证明了改进的均值估计法的有效性。总结来说，这篇论文深入探讨了多重检验技术在微阵列数据分析中的应用，重点在于如何有效控制FDR和准确估计m0，从而提高基因差异筛选的精确性和效率。通过实际案例和模拟实验，作者提出了改进的估计方法，对于生物信息学研究者而言，这些研究成果为微阵列数据分析提供了实用的工具和技术指导。

第一章绪论

pFDR 三个测度的研究。在这里我们特别关注其对 FDR 理论的研究，他将数据分为独立

分布情形、相依分布情形、自由分布情形，分别介绍了 FDR 的控制算法，为我们提供

了坚实的理论基础

[20]

。山东大学的姜凌在其论文中针对 FDR 准则提出差值法来对 FDR

进行调整。在他的论文中明确提出使用 q 值来对错误发现率进行控制，然后选用差值法

来对零假设中的 p 值作差，从而确定 p 值存在相对较密集的区间，从而确定一个拒绝域，

拒绝处在拒绝域中的零假设

[21]

。此外，李兵(2014)在其文章中提出了错误发现率的参数

混合模型的估计以及非参数模型的估计，对参数模型进行研究时，采用随机检验，分别

使用正态分布模型和 Beta 混合模型给出了 m

的计算方法，这也是我们以后可以发展的

方向

[22]

。

1.3 本文研究的主要内容

本文主要探讨多重检验技术中错误发现率控制以及正确原假设比例估计两类问题，

并且把它们用于进行微阵列数据差异基因的筛选。本文第一章介绍了课题的研究背景以

及多重检验技术的研究现状。本文第二章先介绍假设检验中的基本概念，从而扩展到多

重检验，而后从多重检验假设的错误测度的角度出发，引入 FWER 和 FDR 两个错误发

现率的标准。实验部分以四类能有效控制 FDR 的算法为主要研究目标，以控制 FWER

的 Bonferroni 算法作为其他算法比较的基准，使用模拟数据对各种控制算法进行比较，

并且对原始 p 值进行优化调整，在新的 p 值集合下比较每种错误率控制方法的功效大小。

在第三章中，我们着重探讨中正确原假设的个数 m

的估计方法，最重要的是改进的均

值算法以及样条平滑法都作为比较的对象，以表格形式列出了各种算法估计 m

的值，

将各种算法估计出的 m

的值与理论值的偏差以折线图的形式进行展示，从而作为我们

评定算法好坏的一个辅证。第四章以微阵列数据为例，进行仿真研究，比较各个方法正

确寻找有效基因的效果。第五章对本文进行一个系统性的总结，同时指出在仿真环境下

存在的一些问题，给出了对以后研究内容的建议。

万方数据

第二章多重假设检验的理论基础

2.1 假设检验的基本概念

假设检验是统计推断中的一个重要内容，假设检验是根据样本来推断总体的一些给

定陈述是否成立的过程。这些陈述称为假设，我们可以观测一批和假设相关的数据，或

是不相关的一批数据，或是根本没有数据，然后得出接受或拒绝假设的结论，尽管这个

结论是可疑的。但我们所要讨论的假设检验的类型是比较合理的，它称为统计假设检验。

我们不是需要确定样本本身的指标计算是否存在问题，而是要针对我们提出的某个指

标，我们所检验的样本以及样本代表的总体之间是否存在差异。关于如何定义差异存在

的标准我们在后面的文章中会给出具体的指标。从这个意义上来看，我们可以把假设检

验称为显著性检验。

假设检验的基本思想是小概率反证法思想。发生概率在 0.01 甚至 0.005 以下的事件

就会被我们定义为小概率事件。步骤是先对总体提出假设（检验假设 H

），然后根据

一次实验得到的结果，如果小概率事件在我们的假设条件之下确实发生了，我们应该否

定先前提出的假设。如果没有发生，我们就不拒绝提出的假设

[23][24]

。该原理流程可用

图 2-1 表示:

图 2-1 小概率抽样过程

Fig. 2-1 Minor probability sampling process

针对单个假设检验的问题,定义如下：

是参数空间,

为参数。首先要有一个需要

被检验的假设，常称为原假设或者零假设。与之对应，为了能够更加明确地阐述问题，

还常常提出一个为之对应的假设，称为备选假设，也就是我们希望证实的假设。定义原

假设与备选假设表示为：

110

ΘθΘθ

∈∈ H

Θθ

∈

代表原假设,记为 H

；令

Θθ

∈

代表备选假设，记为 H

。其中

ΘΘ

和

是

的

两个不相交的子集。即

ΘΘ

=∩

且

ΘΘΘ

=∪

。此时对于某一个特定的子集，我们的

目标是推断它来自于 H

还是 H

。

万方数据

剩余39页未读，继续阅读

programyp

粉丝: 89
资源: 9323

多重检验与微阵列数据分析：FDR控制与原假设估计的改进方法

人工智能技术在辅助农业微生物科研选题中的应用分析.pdf

人工智能-数据分析-某数字阵列雷达旁瓣对消系统设计与实测数据分析.pdf

人工智能-数据分析-基于贝叶斯统计思想的基因表达数据分析.pdf

高密度蛋白微阵列芯片技术及其在疾病研究中的应用.pdf

任丛林研究生课题\DNA微阵列技术及其在生物医学中的应用.pdf

蛋白质微阵列芯片在临床分析中的应用.pdf

微阵列芯片技术在儿童畸形中的应用.pdf

人工智能-图像处理-硅微通道阵列红细胞变形性测量系统图像处理分析方法研究与实现.pdf

微阵列PCR生物芯片及其检测技术的研究.pdf

R语言--数据分析.ppt

最新资源