基因表达数据的信息学应用和改进的迹比算法在基因选择中的有效性研究

163 浏览量更新于2023-12-26 收藏 791KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

信息学在医学解锁5（2016）39使用改进的迹比算法对基因表达数据进行Shruti Mishra，Debahuti Mishra，Siksha 'O' Anusandhan University，Bhubaneswar 751030，Odisha，印度A R T I C L E I N F O保留字：基因选择信息增益痕量比典型相关分析分类A B S T R A C T微阵列技术能够通过分析包含少量样本的高维数据集来理解和研究基因表达水平。随着时间的推移，已经收集了微阵列表达数据用于研究疾病的潜在生物学机制。理解该机制的一个这样的应用是通过构建基因调控网络（GRN）。GRN发现的最重要的关键标准之一是基因选择。为网络的结构选择一组慷慨的基因是非常可取的。为此，提出了两种合适的方法来选择合适的基因。第一种方法包括一种称为信息增益的基因选择方法，其中数据集被重组并与另一种称为跟踪比率（TR）的独特算法融合。我们的第二种方法是实现我们的投影修改TR算法，其中重新设计了用于查找权重矩阵的评分基础。这两种方法的有效性都通过不同的分类器显示出来，包括人工神经网络分类器的变体，如弹性传播，快速传播，反向传播，曼哈顿传播和径向基函数神经网络以及支持向量机（SVM）分类器。在研究中，它证实了这两种方法都能很好地工作，并以较少的数量获得高精度与原始跟踪比率算法相比，1. 介绍基因和它们的产物（蛋白质）一样，是生命活动的基本结构块，它们不能自主发挥作用。相反，对于一个细胞适当地发挥作用，它们相互作用并形成一个复杂的网络[1]。理解基因行为及其表达水平的一个应用是构建一个基因网络，该网络表示协调以实现不同任务的基因组之间的关系。基因调控网络（Gene Regulatory Network，GRN）[2]是理解生物学核心过程及其分子系统的重要组成部分。然而，这些网络的建模是一个需要解决的重大挑战。除此之外，了解GRN的结构和功能是生物学的一个基本问题。随着基因表达数据和全基因组序列的可访问性，已经开发了几种计算方法来通过识别其调控状态成分来发现其调控网络[3]。在当今时代，精确的GRN模型[4]的形成在生物医学研究中占据了重要的比例。微阵列数据的基因表达同时监测数千个基因的行为，这提供了最大的机会来研究大规模的监管网络。最后，一个绝对GRN模型允许我们结合有关元素和因子相互作用的实验事实，从而了解网络的最终状态或动力学行为。基因选择[5，6]作为一个主要标准。从微阵列数据（这是一个高维数据集）中选择基因是一个统计上困难的问题。通常，样品的数量与其表达水平被测量的数千个基因相比是相当少的。因此，重要的是通过选择或排序操作从数千个微阵列基因中将疾病相关基因抑制到少数。有许多基因选择或特征选择方法[7，8]处理微阵列数据中的维数灾难问题。除此之外，它还有助于减少总是产生问题的时间和内存复杂性。通常，基因选择或特征选择方法分为两类：分类器独立和分类器依赖。过滤器方法[9]被认为是依赖于分类器的，因为选择是基于一些启发式标准和分数，而包装器和嵌入式方法被认为是依赖于分类器的方法的一部分。包装方法[10]根据变量对给定预测因子的效能评估变量子集，而在嵌入式方法中，变量选择是*通讯作者。电子邮件地址：shruti_m2129@yahoo.co.in（S. Mishra），mishradebahuti@gmail.com（D. Mishra）。http://dx.doi.org/10.1016/j.imu.2016.09.005接收日期：2016年5月10日;接收日期：2016年9月25日;接受日期：2016年9月26日2016年9月30日在线发布2352-9148/© 2016由Elsevier Ltd.发布这是CC BY-NC-ND许可下的开放获取文章（http：//creativecommons.org/licenses/by/4.0/）。可在ScienceDirect上获得目录列表医学信息学杂志主页：www.elsevier.com/locate/imuS. 米什拉湾米什拉信息学在医学解锁5（2016）3940作为学习实践的一部分执行，并且通常对于给定的学习机器是精确的。除了基因选择，基因排序也是一个重要的考虑因素，在文献中有不同的方法用于研究类数据。其中一些是倍数变化（FC），适度的t统计，微阵列的显著性分析（SAMs）等。还有另一种方法称为RP方法，这是唯一的基于秩的非参数方法。该方法独立地处理一类下的上调和下调基因，因此产生两个单独的排序基因列表。与这些现有技术分开，存在用于基因选择的各种计算技术和方法。Model等人[11]建立了如何通过合并特征选择方法和判别分析来预测表型类别，以用于急性淋巴细胞白血病和急性髓性白血病之间基于甲基化模式的区分。他们将SVM用于甲基化数据，将每个CpG位置用作单独的维度。Li等人。[12]研究了基于基因表达数据集的组织分类的多类分类器的问题。他们指出，对于具有少量类的数据集，结果是好的，而对于具有大量类的数据集，准确性适度降低。Mundra和Rajapakse [13]在微阵列数据的分析中使用了著名的t -统计量进行基因排序。在这里，他们将t统计量分为两部分：相关和不相关的数据点。一个向后消除的迭代方法被投射到排名基因只使用相关的样本点和t-统计量。结果发现，所提出的方法比标准的t-统计量的方法表现得更好。Kira等人[14]使用k-d-tree将信息点划分为簇，并从每个簇中选择随机数据点，然后通过Relief寻找边界点来估计特征权重进行特征选择。Pechenizkiy等人。[15]在用k-d-树划分大型数据集后，使用主成分分析进行降维。Cavill等人预测了一种基于GA/k-NN的移动，用于从代谢谱数据中同时进行特征和样本选择[16]。类似地，Cawley等人。[17]提出了一种直接的贝叶斯方法，该方法通过使用无信息的Je Ekrey先验将其系统地整合出来，完全摆脱了正则化参数。预期的算法（BLogReg）比原始算法快两到三个数量级，因为不再需要模型选择步骤。Fitzgerald等人提出了两种新的降维技术[18]。这些方法使用最小和最大信息模型。这些是尖峰触发协方差（STC）的信息理论扩展，其意图是可以用非高斯刺激分布来实践以定位随机维度的相关线性子空间。Piao等人。[19]提出了一种基于对称不确定性和支持向量机的基于增强相关性的基因选择算法。该方法利用对称不确定性分析基因的重要性，利用相关子集的不同预备点产生基因子集，并以支持向量机作为包装的评价标准。Nie et al.[20]提出了一种优化的子集级得分和算法，以有效地发现全局最佳特征子集，从而使子集级得分最大化。该算法被称为跟踪比（TR），它使用Fisher和Laplacian分数作为评价标准。它本质上是一个基于图的特征选择算法。Zhao等人[21]介绍了用于痴呆诊断的迹比线性判别分析（TR-LDA）算法。他们还提出了ITR算法（iITR）来解决TR-LDA问题。这个过程结合了复杂的缺失值填补方法，并用于许多现实世界的医疗诊断问题的非线性数据集的探测。Wang等人。[22]提出了一种合并目标，以将迹比标准扩展到无监督模型的方式无条件地保持迹比公式和k他们还提出了一个无监督的特征选择方法，通过集成无监督迹比公式化和有序稀疏诱导范数正则化。该方法能有效提高迹比准则的鉴别能力，从而有利于鉴别特征的选择。使用这种迹比算法[23]的主要缺点是，虽然理论上该算法收敛并且实现了解的全局最优，但通过广泛的研究发现，有时该算法不收敛，因为不满足基本停止准则。因此，我们通过提供一些停止标准来强制终止算法。在我们的研究中，我们提出了两种方法，其中的轨迹比算法已被适当地探讨。在我们的第一种方法中，我们没有改变TR算法的任何标准。相反，我们根据信息增益值即兴创作并构建了数据集。在我们的第二种方法中，我们通过改变TR算法中的基本步骤之一的评分标准来修改现有的和原始的TR算法。用典型相关分析得分代替Fisher得分计算类内和类间的权重矩阵。典型相关评分是一种统计技术，旨在与现有Fisher评分相比，与TR算法合并时提供更好的排名列表。它也是相关的，因为与原始TR算法相比，预计它将提供更好的分类准确率。基于五个数据集，即结肠[24]，白血病[25]，髓母细胞瘤[26]，淋巴瘤[27]和前列腺癌[28]，对所提出的方法进行了检查和评价。数据集的性质就基因的数量而言是相当大的，但具有小的样本量。结果发现，与未修改的TR算法相比，原始TR算法和修改的TR算法的信息增益提供了有希望的结果论文的其余部分如下：第一部分描述了本文介绍了本研究所使用的数据集、方法和算法，如信息增益、TR算法、典型相关分析、性能分析等。2接下来的部分是实验评估，讨论了数据的预处理、参数讨论和模型的模式图。在本节之后，对所提出的技术以及原始技术的结果进行了批判性分析和总结。最后，总结了工作的结论和今后的发展方向。2. 材料和方法2.1. 使用的数据集从Gene Expression Omnibus下载32例患者的结肠癌或结直肠腺瘤和正常粘膜的表达谱[24]（下载SOFT Matrices文件，并使用相同的对数转换，因为数据大多向右倾斜）。该组由32个腺瘤和32个正常粘膜样品（64个样品）组成，具有43，237个基因。为了说明正常结肠上皮细胞改变的分子基础的发展，32个前瞻性收集的腺瘤的转录组进行了测量，以及从相同的实体的正常粘膜。类似地，白血病数据集收集自[25]，其中数据集由10，056个基因组成，48个ALL和AML样本（24个ALL-急性淋巴细胞白血病和24个AML-急性髓性白血病）。除了这两个数据集之外，还考虑了一些数据集，如髓母细胞瘤数据集[26]，具有5893个基因，34个样本，25个C样本和9个D样本（髓母细胞瘤有四种分子亚型，其中两种定义不太明确的亚型是C组和D组），淋巴瘤数据集[27]具有7070个基因，具有58个DLBCL（弥漫性大B细胞淋巴瘤）和19个FL（滤泡性淋巴瘤）样品的77 个样品（Ablycosis HuGeneFL阵列），并且前列腺癌数据集[28]具有12，533个基因，具有50个正常和52个肿瘤的102个样品S. 米什拉湾米什拉信息学在医学解锁5（2016）3941i=1Aj =1 |D|J2000样品（AMBYR495 Human Genome U95Av2 Array平台）。这些大规模基因表达数据集首先进行统计测量，然后用于评估现有的TR算法，步骤1：求已知样本中每一类的概率。步骤2：计算分类系统的熵（使用等式（1））。改进的TR算法信息（D）=− ∑mpilog2（pi）2.2. 信息增益信息增益[29]是Kullback-Leibler偏差的同义词。另一方面，在决策树的上下文中，这个短语有时与互信息同义使用，互信息是条件概率分布的Kullback-Leibler散度的预期值。此外，信息增益比可以被定义为信息增益与固有信息的比率。它用于在选择属性时通过考虑分支的数量和大小来减少对多值属性的偏见[30]。其中一个最重要的特点是倾向于决策树，而不是考虑具有大量不同值的属性。也就是说，它有助于决定哪些属性是最相关的。信息增益是信息论中的一个重要概念，在机器学习领域有着广泛的应用。在分类系统中，对于微阵列数据，为每个基因设计信息增益[31]，在分类系统中提供算术信息量的基因，以决定重要基因的分类系统。该方法能快速排除大量非临界噪声和不合适基因，处理搜索区域中最有利的基因子集。熵是用来估计随机变量的信息量和计算其令节点N表示或保持分区D的元组。对元组D进行分类所需的预期信息由等式2给出（一）：MInfo（D）=−∑pi log2（pi）步骤3：计算每个基因的所有值的概率和计算概率。步骤4：计算用于从D分类元组所需的条件熵或预期信息（使用等式（1））。（二）Info（D）= ∑v|×信息（D）| × Info(D )步骤5：计算所有基因的信息增益（使用等式（1））。（三）增益（A）=信息（D）-信息A（D）步骤6：基于获得的增益的降序对步骤5中获得的结果进行排序。2.3. 信息增益认为五个数据集包含适度良好数量的样品和基因。初始阶段的数据集使用最小-最大归一化进行预处理。在标准化数据集中，使用信息增益程序来获得每个属性（即基因）的信息增益向量，然后将其用于以降序对数据集进行排序和重新排序。从统计学上讲，首先选择并保留相当多的基因（具有高信息增益含量的基因），然后其他基因随后跟随。2.4. 痕量比i=1（一）特征约简是许多机器学习中的主要问题，其中，Info（D）是D的熵，pi是D中的任意元组属于类别Ci的概率。假设元组D在具有v个不同值{a1，a2，.. an}。如果A是离散值的，那么它可以直接对应于对A的测试的v个结果。属性A可以用于将D分成V个分区或子集{D1，D2，.... Dn}，其中Dj包含D中具有A的结果aj的那些元组。该量可以如Eq. （二）：迹比问题是许多维数约简算法所关注的优化挫折问题。传统上，由于原问题的复杂性，通过广义特征值分解来近似解。Fisher和Laplacian得分[33，34]是两种著名的基因选择算法，属于基于图的基因选择环境。[35]其中之一，即。它是一种基于图的基因或特征选择，v信息A（D）=∑|Dj|×Info（Dj）使用两个分数（Fisher和Laplacian分数）作为评估标准度量的算法。j=1 |D|（二）让我们考虑两个无向图Gw和Gb，在这里，术语|DJ|充当第j个分区的权重。信息（D）是使用Fisher得分构建的类间关系，其中|D|A的等价邻接矩阵是W w和W b。对于数据集X，基于以下条件从D中分类元组所需的预期信息：A.信息增益是指基于所需信息的比例而得到的原始信息之间的差异。在实例xi和xj属于同一类的情况下，类内关系将更高。因此，特征子集选择应该最小化（等式2）。（4）），类和划分A.这是∑l−l2（男）如Eq. （三）：增益（A）=信息（D）-信息A（D）（三）i j w ijIJ（四）差异越大，相关性越强。因此，不确定性熵定义的信息增益（如算法1所示）表示排除不确定性后获得的信息量。显然，特征具有较大的信息增益值对于同一个类，否则最大化。当xi和xj属于不同的类时，它们的类间关系都会更高。因此，所选择的基因或特征子集应该最大化（等式2）。（5）），∑li−lj2（Mb）ij它的贡献越大，对ij分类就越重要（五）[32].因此，在选择基因时，首先选择具有大信息增益的基因来代表原始高维基因，对于不同的类，否则最小化。这里，l i是x的类的实例。为了找到权重矩阵M和M，将其作为辅助基因选择的基础。i w b算法1.信息增益[29]。或者基于其是监督的还是非监督的特征选择来使用拉普拉斯得分。更高分数的权重矩阵可以按以下等式进行分类：（6）Eq.（七）：输入：原始数据集，D输出：根据D中每个属性⎧⎪1（Mw）ij=numli，如果l i= l j如果lilj（六）S. 米什拉湾米什拉信息学在医学解锁5（2016）3942∑ ij li−lj2（Mw）ij⎪−bij2000pβ=我我⎜⎟我⎜ ⎟KK（M）=11马克KKp bpβ=φ（S）=tr（S YS）⎧1 1（百万） =numnumli⎩1 、，如果l i= l j如果lilj（七）上面的邻接矩阵，如下所示（如等式2中所示）。（14）Eq. （十五）：（德国马克） =∑（M）哪里，我num表示x的第i个和numWIIIJwij我我我表示属于类L1的数据或记录的数目。的（DMb）ii= ∑ij（Mb）ij步骤3：使用等式计算拉普拉斯矩阵（LM和LM）使用拉普拉斯得分的邻接矩阵可以如等式（1）所示计算。（8）Eq.（9）：xi−xj2，W B（12）Eq. （十三）、LMw=DMw −MwLMb=DMb −Mb（Mw）ij=et⎧如果xi和xj是邻居，否则（八）步骤4：通过从原始数据集中随机选择k个特征（比如Rk）来构建k个特征的矩阵。第5步：对一个空矩阵（比如说Nk）进行解码，以存储前k个特征电子邮件bij1TDMw1w w（9）其中，EQ （8）表示径向距离，t表示任何常数。为了将这两个目标统一在一个函数中，考虑并最大化这两个目标的比率。该比率由Eq.（10）Eq.（十一）：步骤6：重复步骤6- 10，直到R k！= Nk步骤7：计算Y=XLMb XT和Z=XLMw XT第8步：按照TRy=TR（RTYR）计算迹线比率，TRz=TR（RTZR）φ（S）=∑ijli−lj2（百万b）ij（十）步骤9：计算TRyTRz步骤10：计算每个特征的得分，F（f）=mT（Y−βZ）miφ（Sp）=tr（STXLMXTS）不步骤11：根据得分选择新的前k个特征并存储在Nk步骤12：存储最终k个特征R以供进一步处理tr（STXLM XS）（11）kp w p其中，Sp=[si1，si2，. sik]表示选择矩阵，其中i1，i2，特征编号。sir表示在第r个位置中除1之外全为零的列矩阵，并且tr是矩阵的TR令LMw和LMb为拉普拉斯矩阵的形式给出在方程。（12）Eq.（十三）：LMw=DMw−Mw（12）LMb=DMb−Mb（13）其中，DMw和DMb是等式中给出的对角矩阵。（14）Eq. （15）.（DMw）ii=∑（Mw）ij13.停止2.5. 典型相关分析典型相关分析（CCA）[36]是一种众所周知的统计方法，已广泛用于信息联合，以确定两个变量之间的相关性。CCA是一种算法，主要用于找出区分特征或基因，并减少基因选择的超复杂信息。它也是一种众所周知的多变量分析方法，用于量化两组多维变量之间的相关性[37]。的一个主要IJ（DMb）ii=∑（Mb）ijIJ（十四）（十五）CCA的目的是发现和列举两组多维变量之间的相关性。它使用相同模式的两个视图，并将它们投影到它们最大相关的低维空间。传统的CCA算法需要设Y=XLMb XT且Z=XLMw XT。特征或基因集的得分是根据用于特定选择矩阵Sp的TR标准来计算的，该TR标准如等式2中给出（十六）、不ppp计算D *D 矩阵的逆和特征分解[38]。让我们考虑两组变量X和Y，其中包含rX中的变量和Y中的q个变量。Xtr（STZSp）（十六）⎜1⎟⎜1⎟pX=<$X2<$且Y=<$Y2<$每个基因或特征fi的得分使用等式（1）计算（十七）、F（fi）=mT（Y−βZ）mi（17）⋮Xr⋮⎝Yq⎠其中，mi是除了1和第i个位置之外全为零的列向量，并且F是所选择的特征或基因集合。迹线比率的算法如下所述（如算法2所示）：算法2.痕量比[35]。S. 米什拉湾米什拉信息学在医学解锁5（2016）3943数字我们根据每个集合中存在的变量的数量来选择X和Y，使得r≤q。定义了一组称为U和V的线性组合，其中U对应于X的线性组合，V将对应于Y。U的每个成员将与V的一个成员配对。这将导致如下所示的几组部分U1=a11X1+步骤1：使用Fisher得分计算类内（Mw）和类之间（Mb）的邻接矩阵，如下（等式1）。（6）Eq.（7））：M w= 1 ，ifl i=l j0，ifl i！= LJ我M b= 1− 1 ，ifli=l j1，ifli！=LJ⋮Ur=ar1X1+V1=b11Y1+⋮Vr=br1Y1+纳姆纳姆利num步骤2：计算用于下式的对角矩阵（DMw和DMb）因此，（Ui，Vi）被定义为第i个规范变量对。Ui变量的方差可以使用等式（1）计算。（十六）：S. 米什拉湾米什拉信息学在医学解锁5（2016）3944var（Ui）var（Vi）var（Ui）var（Vi）var（Ui）*var（Vj）IJvar（Ui）*var（V）iBER=1FP+FN=1−BCRRvar（U）=Q a a cov（X，X）2.7. TR算法用于基因选择的建议方法，i∑ ∑ ik il k lk=1l =1（十六）排名类似地，Vj的方差使用等式（1）计算。（十七）：在这里，对于我们的工作，通过使用RqTR算法。在我们的第一种方法中，IG-TR基因排名被提出var（Vj）=∑∑bjk bjl cov（Yk，Yl）k=1l =1（17）现在，Ui和Vj之间的协方差可以如等式（1）所示计算（十八）：该算法以信息增益作为评价的基本媒介，与原有的TR算法相结合。第二种方法CCA-TR基因排序是在评分标准的基础上对已有的TR算法进行改进。Rq2.7.1. 方法一：IG-TR基因排序cov（Ui，Vj）=∑∑aik bjl cov（Xk，Yl）k=1l =1（18）Ui和Vj之间的典型相关性可以使用等式（1）来计算。（十九）：ρi=cov（Ui，Vj）（十九）2.6. 使用的绩效指标当任务是知识发现而不是简单地返回一个准确的分类器时，所选特征的稳定性是一个重要方面。为了验证和评估所提出的方法，应用了三种不同形式的度量。虽然有几个可用的验证指标，但对于我们的域Kuncheva的稳定性指数（KSI）[39]，平衡分类率（BCR）[40]和平衡错误率（BER）[41]已经使用。三个指标的详细说明如下：a. Kuncheva稳定指数[39]假设特征的数量在两个子集A和B中。KSI是一种稳定性度量，假设A和B具有相同的大小（基数），即A=B=k，其中k表示A或B中的特征数量。换句话说，对于两个子集， A、B和X 使得A= B=k 且r=A<$B，其中0

下载后可阅读完整内容，剩余1页未读，立即下载