DNA序列分类研究:Fisher方法与RBF神经网络

需积分: 10 9 下载量 69 浏览量 更新于2024-07-31 收藏 1.02MB PDF 举报
"DNA序列的分类模型" 在当前的科研领域,DNA序列的分析与分类是一项重要的任务,尤其在生物信息学中。这篇论文探讨了一种针对DNA序列的分类模型,旨在通过特征提取和机器学习算法来区分不同的DNA序列。作者提出了一个综合指标,结合了碱基含量、碱基串含量和碱基排列顺序等多个维度的信息。 首先,针对DNA序列的分类问题,作者从三个主要方面提取特征:碱基的含量、碱基串的含量以及碱基的排列顺序。他们选择了Fisher判别分析(Fisher's Discriminant Analysis, FDA)和径向基函数(Radial Basis Function, RBF)神经网络这两种方法建立分类模型。Fisher判别分析是一种统计方法,用于寻找能够最大化类间距离并最小化类内距离的线性变换。而RBF神经网络则是一种非线性的分类工具,其工作原理是通过模拟径向函数在输入空间中的分布来实现分类。 在特征提取部分,作者关注了碱基G和T的百分比,这是DNA双链结构中的两种互补碱基。此外,他们还考虑了DNA序列中三联体(由三个连续的碱基组成)的出现频率,包括无极性、带正电和带负电的氨基酸百分比,这些特征对于理解DNA的功能和结构至关重要。在排列顺序方面,他们利用DNA序列的空间表示,计算碱基序列在xoz平面上拟合直线的斜率和点集均值,这些数据可以反映DNA序列的局部结构特性。 为了评估模型的性能,作者构建了两个评价指标:基于多指标的高维超椭球的距离比和基于碱基排列的Z曲线空间距离比。这两个指标分别衡量了不同类别DNA序列在9维空间中的类间距离与类内平均距离之比,以及Z曲线空间的相似性。通过对比Fisher分类法和RBF分类法在这两个指标上的表现,作者得以对模型的优劣进行判断。 实验结果显示,RBF网络在对21-40组DNA序列进行分类时表现出较好的效果,但当应用到185个自然DNA序列的分类时,由于样本的复杂性和不明显的分类边界,RBF模型的表现不尽如人意。因此,作者引入了聚类分析模型,该模型在评价指标上优于RBF分类模型,提供了更满意的分类结果。 关键词:DNA序列特征提取、评价指标、Fisher分类、RBF神经网络。这些概念和方法在生物信息学的研究中具有广泛的应用价值,它们可以帮助科学家们更好地理解和解析复杂的DNA序列数据,进一步推动基因功能研究、疾病诊断以及进化分析等领域的发展。