DNA序列分类的深度学习方法：高精度神经网络应用

需积分: 0 106 浏览量更新于2024-08-05 收藏 451KB PDF 举报

DNA分类模型1是一种基于统计学和最优化理论的生物信息学方法，旨在高效地对DNA序列进行分类。该模型的独特之处在于它针对DNA序列中的碱基组合，通过精心设计的算法来挖掘关键特征。模型的核心步骤包括以下几个部分： 1. 数据预处理：首先，模型利用广度优先搜索（Breadth First Search, BFS）从已知样本序列中找出所有重复出现的字符串，并对这些字符串进行标准化处理，计算它们在样本中的频率以及分散度。这样做的目的是确保选取的字符串能代表样本序列的主要特征。 2. 特征提炼：通过对样本数据的统计分析，模型确定每个字符串在不同类别中的相对重要性。这一步通过最小二乘法等数学手段，构建了用于评估字符串优先级的函数，以此作为分类依据。 3. 量化分类标准：模型根据优先级函数对字符串进行排序，形成量化分类标准。这个标准可以根据字符串的重复性、频率和分散度来衡量一个未知DNA序列的特征匹配程度，从而进行精确的分类。 4. 神经网络应用：为了提升分类精度，模型采用了人工神经网络（Artificial Neural Network, ANN），特别是反向传播（Backpropagation）算法。通过MATLAB软件包中的Neural Network Toolbox，训练两个三层神经网络，输入是提取的DNA字符向量，以进一步优化分类过程。 5. 实验验证：实验结果表明，该分类方法能够以相当高的准确性和精度对未分类的人工和自然DNA序列进行有效区分。这证明了人工神经网络在DNA序列聚类任务中的可行性。总结来说，DNA分类模型1是一种创新且实用的方法，它结合了数学优化、统计学和神经网络技术，能够有效地从大量的DNA序列中识别出关键特征，实现高效和精确的分类。这种方法不仅理论上可行，而且在实践中已经得到了验证，具有很高的实际应用价值。

第 31 卷第 1 期

2001 年 1 月

数学的实践与认识

MA THEMA T ICS IN PRACT ICE AND THEORY

Vo l131　No11　

Jan. 2001　

emp loy the BP

(

back p ropagation

)

algo rithm to train NN by use of the N eural N etwork

Too lbox in MA TLAB softw are package

In this paper

two three

sto ry NN are created to input

the extracted DNA character vectors as samp les into them

A fter the training

characters are

extracted from the

unclassified artificial sequence samp les and

182

natural sequence samp les

to fo rm the character vecto rs as input of the two NN fo r clustering

The results show s

the

clustering method p resented in this paper can classify the DNA sequences in quite high accuracy

and p recision

It is quite feasible to app ly the artificial neural network to DNA sequence

clustering

DNA

　分　类　模　型

杨　健, 　王　驰, 　杨　勇

指导老师: 　王　鸣

(

北京大学, 北京　100871

)

编者按: 　本文将

DNA

序列的碱基的组合看作“文章”的关键词, 用逐步优选法对关键词进行优选并用分

层分类的方法进行分类. 从理论上说, 这一方法可以提取较好的特征, 而且分类也较精细. 这一模型有一定

创造性, 分析问题比较精细而贴近实际, 思路清楚, 叙述通顺简练.

摘要: 　

本模型充分利用了所给数据的特点, 运用统计、最优化等数学方法, 从已知样本序列中提炼出能较

好代表两类特征的关键字符串, 据此提出量化的分类标准, 能较好的对任给

DNA

序列进行分类. 首先, 从已

知样本序列中用广度优先法选出所有重复出现的字符串, 并计算其标准化频率及分散度. 然后, 利用样本数

据结合最小二乘法确定两类字符串各自的优先级函数, 并且逐步优化其参数使之达到稳定, 提高了可信度.

最后, 根据优先级函数找出关键词, 然后确定权数, 用层次分析法对未知样本进行分类, 并定出显著水平, 从

而得到了一个比较通用的分类方法. 经过检验, 此方法对 21—40 号待测样本进行了很好的分类, 对后面的

182 个

DNA

序列进行同样的操作, 也有较好的效果.

1　问题的重述

(

略

)

2　模型假设

(

)

假定待分类样本 21—40 中既不属于

类也不属于

类的样本百分比不超过 5%.

(

)

假设

keywo rd

的重要性与 t 和 s 有确定的关系, 且只与 t 和 s 有关

(

t, s 定义见下

)

(

)

假设不代表

、

类特征的字符串在

DNA

序列中是均匀分布的.

3　模型的分析

从所给的

DNA

序列观察发现, 很多字符串重复出现的频率很高, 而且有些字符串在

类和

类中出现的次数有很明显的差距, 这暗示把某些字符串作为

两类的一个分类标

准. 所以应对

、

两类已知样本做统计分析, 找出其中可能代表该类特征的字符串. 因为

每个字符串重要性可能不一样, 所以对这些字串的重要性排序, 选出最能代表该类特征的一

部分字串. 然后用这些字串作为标准判断验证

两类, 看所选的标准的准确性, 最后用

于任何一个

DNA

序列的分类.

更多数学建模资料请关注微店店铺“数学建模学习交流”

https://k.weidian.com/RHO6PSpA

下载后可阅读完整内容，剩余8页未读，立即下载

稚气筱筱

粉丝: 19
资源: 320

DNA序列分类的深度学习方法：高精度神经网络应用

DNA序列的分类模型.pdf数学建模

DNA分类模型.pdf

数学建模-DNA分类模型.zip

DNA序列的分类模型1

DNA序列的分类模型

全国大学生数学建模2000年A题优秀论文-DNA分类模型.zip

数学建模-全国大学生数学建模2000年A题优秀论文-DNA分类模型.zip

DNA序列分类的数学模型1

数学建模-DNA序列的分类模型.zip

关于DNA序列分类问题的模型1

最新资源