基于机器学习的微生物三域系统分类宏基因组分析-生物信息学调查分类方法的研究.

66 浏览量更新于2024-01-02 收藏 926KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

INRMATiCSinMEDiCiNLOCKED13（2018）151基于机器学习的微生物三域系统分类宏基因组分析赫巴湾作者声明：A. Al-Masniba埃及开罗MTI大学生物电子工程系b韩国龙仁庆熙大学生物医学工程系A R T I C L E I N F O关键词：生物信息学超向量机（SVM）深度信念网络（DBN）分类A B S T R A C T使用临床微生物学和基因组序列的快速进步鼓励了几种基于基因组分类和生物信息学调查的分类方法。该分类法在不同生物数据库中排列生命树，并利用生物信息的高度相似性来访问基因组序列的最佳表示。然而，由于生物多样性数据库的存在，以及根据进化或系统发育关系的不同分类器，找到这棵树的整个层次结构仍然是一个挑战。本文介绍了使用两种算法对细菌、酵母和真核生物进行分类：超向量机（SVM）和深度信念网络（DBN）。所提出的方法利用比对方法和代码生成过程作为EzBioCloud 16S rRNA数据库的预处理步骤。此外，本研究还考虑了选择适当的参考序列（RefSeq）和基因组序列的适当代码生成过程的问题。我们的结果表明，所提出的方法对基因组序列进行分类，对于使用每个类的标准RefSeq的SVM和DBN分类器，总体分类准确率分别为99.99%和99.93%。这篇论文通过使用基于字符的安排的进展来加强微生物科学分类领域，这将有助于未来的进化框架。1. 介绍在过去的几年里，综合分类信息系统（ITIS）是一个用于排列不同类型生物的官方工具，以建立完整的全球物种索引，称为生命目录（COL），由美国联邦政府管理[1]。有许多分类学家依赖COL来区分在分类过程中支持的超过100万个物种。全基因组的第一个格式于1995年提出[2]。不断增加的基因组导致了巨大的数据库，强调了分类准确性的要求第一个细菌和古细菌基因组分别于1995年和1996年形成[3]。因此，将生命的三个域分为细菌、微生物和真核生物，并利用其构建了整合微生物基因组数据库[4]，通过对数据库中每个类别的基因、基因组和功能的完整描述来记录所有微生物信息。密切相关物种的各种微生物基因组的结构比较揭示了综合微生物资源（CMR）[5]和微生物基因组数据库引入的同源基因组分析的重要特征（MBGD）[6]。在生命树中，发现有两个界，包括原核生物和真核生物，这两个界是基于16S rRNA基因的变异[7]。原核生物王国由细菌和细菌组成，因为这个家族没有细胞核，而细菌与真核生物的关系比细菌更密切。最近，16S rRNA基因已被用于校正微生物之间的系统发育关系的估计，特别是对于所有类型的细菌[8]。16S rRNA基因的优势集中在大序列上（即，约1500-bp长度）携带更多的基因组信息。因此，它用来实现分类保存部分的有用特性和通用引物[9]。虽然16S rRNA基因具有较高的质量，但在处理16S rRNA基因时存在一些限制，如技术和资金方面的限制以及用于比较分析和序列预测的生物信息学软件工具的缺乏。一般来说，快速识别处理的正确类别的生物体是建立系统发育树的主要目标[10]，并在单一命名下收集一组致病基因[8]。在过去的几年里，微生物实验室和*Correspondent author.电子邮件地址：hebaafy@yahoo.com（H.M. Almasani@www.example.comkhu.ac.kr（M.A. Al-Masni）。https://doi.org/10.1016/j.imu.2018.05.004接收日期：2018年4月9日;接收日期：2018年5月10日;接受日期：2018年Availableonline17May20182352-9148/©2018PublisheddbyElsevierLtd.这是一个不可避免的问题，因为CCBY-NC-NDLicense（http：//creativecommons.org/licenses/BY-NC-ND/4。0/）。目录可在ScienceDirect医学信息学杂志主页：www.elsevier.com/locate/imuINRMATiCSinMEDiCiNLOCKED13（2018）151H.M. Affy，M.A. 马斯尼152下一代测序（NGS）技术创造了宏基因组学术语，这保证了新型生物信息学工具的广泛分析[11]。对宏基因组学数据进行分类的几次尝试由于缺乏良好的分类器而失败。Wang等人[12]应用朴素贝叶斯算法对细菌16S rRNA序列进行分类。在现有序列中相似率低的情况下，分类准确率得到提高。Wu等人[13]基于使用序列比对掩蔽算法增加分型过程的时间，将AMPHORA2解释为含有细菌和软骨序列的宏基因组数据库的分析工具。集成微生物基因组与微生物组样本（IMG/M）是宏基因组数据集的另一个平台[14]。它通过实现基因之间新的进化关系、定义微生物多样性之间的边界以及检测替代基因来提供有效的项目。展望未来，宏基因组生物信息学通过使用BLAST评分比（EDGAR）进行比较基因组分析的有效数据库框架不断发展[15]，该框架使用有限的特征来确定新旧基因组之间的关系，以更新基因组。它是基于确定测序微生物基因组中的相似性和差异率。该软件的再开发由EDGAR 2.0[16]设计，其使用高级特征和统计分析来避免微生物之间的遗传学错误。另一方面，Ortho- lugeDB [17]用于基于统计算法、直系同源物特征和任何不充分系统发育因子的分离的细菌和真菌数据库。Yu等人[18]讨论了几种生物信息学程序，用于区分系统发育方法和微生物生物体的排序。最近，EzBiocloud [19]通过16S rRNA和完全测序的基因组的分析和可视化功能，代表了宏基因组学分类和存储基因组属性的详细视图。具有高度相似性和系统发育背景的序列被认为是EzBiocloud数据库用于宏基因组分析的优势。因此，EzBio云数据库被视为基因组学相关的分类问题。16S rDNA序列在宏基因组数据库的分类中充当有用的工具，并实现了人类微生物群序列的良好准确性[20]。Marsh等人使用序列聚类方法开发了微生物宏基因组数据集的分类模型[21]。一般来说，需要对微生物基因组数据库进行研究，以协助生物信息学部门进行基于计算机的分类和计算机辅助诊断不同序列。细菌病原体的生物信息学分析也用于开发仅用于实验室服务的宿主细胞RNA测序实验[22]。因此，对细菌病原体进行生物信息学分析以用于诊断和治疗目标。在本文中，我们开发了一个宏基因组分类模型，使用EzBioCloud数据库的比对序列来区分细菌，细菌和真核生物序列。使用基于基因组特征的代码生成和可变参考序列（RefSeq）将所有序列转换为数值。这项研究由两个分类器进行评估，包括传统的机器学习，如超向量机（SVM）[23]和深度学习模型，如深度信念网络（DBN）[24]。我们工作的贡献是基于MATLAB平台版本R2015a下使用EzBioCloud数据库的微生物分类。Fig. 1. EzBioCloud数据库中细菌、真核生物和细菌序列分类的总体工作流程。根据基因组序列中字符的相似性、替换、插入和删除操作，通过提供一些空位（-），在序列之间产生更多的相似性。其次，通过将对齐的字符转换为数值，对对齐的序列应用代码生成过程。RefSeq的分类过程的选择是一个关键问题。因此，我们研究了选择标准RefSeq的两种方法。第一种方法选择三个标准的RefSeq，分别是大肠杆菌、细菌和真核生物类，其中每个RefSeq都对应于它的类。然而，在第二种方法中，对于所有类，仅选择来自任何类的一个RefSeq。最后，将两个分类器应用于代码生成步骤的输出序列。2.1. 数据库准备我们利用最新的著名EzBioCloud 16S rRNA数据库[19]对古细菌、细菌和真核生物序列进行分类。EzBioCloud包含两种格式，QIIME和MOTHUR管道。在这项研究中，我们使用了MOTHUR管道，因为序列以对齐的形式存在。EzBioCloud数据库包含63，240个序列，分为三类，即细菌，真核生物。为了避免识别器网络的过度拟合，我们将数据分为三个独立的数据集：训练，验证和测试数据集。训练数据集用于学习深度学习模型，而验证数据集用于评估和更新模型的参数。此外，测试数据集用于评估最终模型性能[26，27]。在这项工作中，训练数据集包含所有数据的60%，而验证和测试数据集分别包含10%和30%。表1总结了基于三个类别的这些数据集表1分布的训练，验证，和测试数据集的古细菌，细菌和真核生物序列。2. 材料和方法在本文中，所提出的方法分为三个步骤：序列比对，代码生成和分类分析，示于图 1. 首先，序列比对方法[25]用于数据集百分比（%）古细菌细菌真核培训60166535,495784验证102775915130测试3083217,747392总100277459,1571306INRMATiCSinMEDiCiNLOCKED13（2018）151H.M. Affy，M.A. 马斯尼153= ×（1）2.2. 比对算法通过使用全局比对算法[28]实现成对的DNA序列比对，其中在EzBioCloud数据库的EzTaxon中，细菌分类的相似性为98.7%。通过在序列中添加空位（-）来进行比对方法，以在同源序列之间产生高相似性相似度计算如下，叫做一对多或者一对多。在训练阶段，SVM试图通过最小化经验误差和最大化边缘来找到合适的超平面。最大类间距离更好地体现了SVM的超平面。在这项研究中，我们使用了一个线性核函数与序列最小优化（SMO）方法来找到分离超平面。最近，深度信念网络（DBN）分类器被广泛用于生物信息学领域，如剪接点预测[33]，蛋白质相似性（%）100场比赛，匹配+不匹配表达[34]，并且还在用于区分不同基因组类别的研究中进行。此外，我们还使用DBN的深度学习模型来评估微生物识别，其中Match表示序列中彼此对应比对方法需要作为预处理步骤，并且它发生在每个类的所有序列之间，以在所有序列中获得相同的长度2.3. 代码生成代码生成步骤用于基于将比对序列转换成编码形式的数值事务代码翻译的选择在分类结果的性能中起着重要作用，分类结果研究了目标序列及其相应碱基中的RefSeq之间的关系我们建议使用两种类型的代码生成来构建我们的模型。在第一种类型中，对齐的序列很容易被编码为A= 1，C= 2，G= 3，T= 4，'-'= 0，这表示五位编码（0第二种类型是基于9位编码（0-根据我们的假设，操作码向量的列表然后，我们从表示所提出的分类器的输入元素的对齐序列中获得操作码向量。根据EzBioCloud数据库，图2阐明了编码生成（0-8）后的数据集样本，包括细菌，真核生物序列。2.4. 分类学分析本文采用分类学分析方法对编码序列进行分类和微生物识别。我们分别将两种分类器应用于微生物序列，即SVM作为传统机器学习的分类器，DBN作为深度学习分类器。我们选择SVM是因为分类器稳定性的进步及其在生物信息学挑战中的高性能，特别是对于基于基因组同源性的分类[30]。SVM被认为是一种监督学习模型，其中SVM模型是基于给定的标记训练数据集构建的[31，32]。事实上，SVM是基于决策平面的原理（即，超平面），其中每个平面使得能够根据它们的特征分布来分离两个类。支持向量机的多类分类是通过一种常见的技术来实现的表2对齐序列的代码生成操作（0相应基操作操作码相同的相似性“0”A→ TG →C更换“1”A→ GC →T“2”A→ CG →T“3”A或T或G或C→删除“4”‘-‘-‘-‘-插入“5”“6”“7”“8”将其结果与SVM算法进行比较。通常，DBN是无监督限制玻尔兹曼机（RBM）的组合，RBM被认为是一种生成随机网络，仅在可见节点和隐藏节点之间存在连接[35，36]。在RBM的无监督传播完成后，实现具有监督学习的反向传播以微调网络的参数。因此，DBN具有从输入序列中提取突出属性的能力。如图3所示，我们的DBN架构由一个输入层组成，该输入层的可见节点m = 7682，表示输入序列特征。隐藏层包括四个层，节点数n= 1,000，o = 400，p= 15，q= 8。具有三个节点的输出层表示多个类（即，细菌和真核生物）。3. 结果EzBioCloud数据集最初划分为60%的训练集，10%的验证集和30%的测试集，以估计所提出的方法的实现。拟议的研究是基于所有三类的分类分析，这三类是细菌，细菌和真核生物序列。SVM和DBN分类器用于改进宏基因组数据的系统发育域。我们已经实现了两种类型的RefSeq和代码生成，以选择适合此数据库的进程。在第一个RefSeq类型选择中，我们使用了三个类别的三个标准剑桥参考（即，每个类别中的一个序列作为同一类别中所有序列的RefSeq）。而在第二种RefSeq类型中，我们从任何类中仅选择一个RefSeq用于所有类中的所有序列。对于代码生成步骤，我们将对齐序列转换为五位编码（0 - 4位）或九位编码（0-8位）的数字向量。使用混淆矩阵和整体分类准确性的措施来评估这项工作的性能在使用标准剑桥参考文献方面，结果表明，SVM和DBN分类器的代码生成（0-8）比使用代码生成（0 - 4）提供更好的分类性能，如表3和表结果表明，代码生成（0-8）是一个很好的选择，以强大的分析EzBioCloud数据库和区分三个类之间的差异。SVM和DBN分类器分别实现了99.99%和99.93%的总体准确率。结果表明，SVM和DBN分类器在所有三个类别中都具有很高的分类精度。此外，值得注意的是，该数据库中细菌序列的准确性在分类过程中具有最好的记录，这允许基于细菌序列的高相似性对细菌序列进行可靠的描述。这是因为数据库中细菌序列的数量远远高于其他类别。在使用编码过程（0-8位）方面，表5-7完全解决了RefSeq关于仅选择一个序列作为所有类别的参考的修改。在将一个细菌序列设置为所有类别的参考的情况下，与表5所示的其他序列相比，SVM和DBN分类器的细菌序列的准确度提供了100%的最高准确度。结果表明，该序列的性能是接近于来自细菌序列的RefSeq，而INRMATiCSinMEDiCiNLOCKED13（2018）151H.M. Affy，M.A. 马斯尼154图2. 三个序列的代码生成（0-8）样本图三. DBN体系结构包括一个具有m个节点的可见输入层，四个分别具有n、o、p和q个节点的隐藏层，以及一个具有三个节点的输出层，这三个节点表示类的数量真核生物序列比细菌序列少。通过使用两种分类器，来自细菌序列的参考更适合于细菌序列的分类，来自细菌序列的参考也更适合于细菌序列的分类。因此，结果证实了系统发育树的概念，该系统发育树指示真核生物序列和细菌序列之间的实质性关系，但真核生物序列和细菌序列之间的轻微关系，如表5-7所示。另一方面，表7说明了在选择真核生物序列的情况下使用SVM分类器的实验准确度方面的结果。作为所有班级的参考。总之，具有代码生成（0 - 8）和每个类的标准RefSeq的SVM分类器实现了最佳准确性，与DBN分类器相比，它略有改进，如表3所示。在训练时间计算方面，如表8所示，与DBN分类器相比，SVM分类器基于代码生成（0 - 8）和标准RefSeq的分类过程所需的时间更少。INRMATiCSinMEDiCiNLOCKED13（2018）151H.M. Affy，M.A. 马斯尼表3155混淆矩阵和所提出的SVM方法的整体精度使用标准RefSeq的每个类。带代码生成（0混淆矩阵X混淆矩阵X古细菌细菌真核古细菌细菌真核古细菌83101古细菌83110百分之九十九点八八0%百分之零点一二百分之九十九点八八百分之零点一二0%细菌017,7443细菌017,74700%百分之九十九点九八0.02%0%百分百0%真核294359真核013917.40%百分之一点零二91.58%0%0.26%百分之九十九点七四分类准确度（%）分类准确度（%）准确度a99.88准确度a99.88细菌准确度99.98细菌准确度100真核生物的准确性91.58真核生物的准确性99.74总体精度99.80总体精度99.99表4混淆矩阵和所提出的DBN方法的总体准确性，使用标准RefSeq的每个类。带代码生成（0混淆矩阵X混淆矩阵X古细菌细菌真核古细菌细菌真核古细菌08320古细菌831100%百分百0%百分之九十九点八八百分之零点一二0%细菌017,7470细菌017,74700%百分百0%0%百分百0%真核03920真核2103800%百分百0%0.51%2.55%百分之九十六点九四分类准确度（%）分类准确度（%）准确度a0准确度a99.88细菌准确度100细菌准确度100真核生物的准确性0真核生物的准确性96.94总体精度93.54总体精度99.93表5所提出的SVM和DBN方法的混淆矩阵和总体准确度使用代码生成（0DBN分类器带代码生成（0混淆矩阵X混淆矩阵X古细菌细菌真核古细菌细菌真核古细菌83200古细菌83200百分百0%0%百分百0%0%细菌017,7443细菌017,74430%百分之九十九点九八0.017%0%百分之九十九点九八0.017%真核244364真核5193326.12%百分之一点零二百分之九十二点八六百分之十三2.31%84.69%分类准确度（%）分类准确度（%）准确度a100准确度a100细菌准确度99.98细菌准确度99.98真核生物的准确性92.86真核生物的准确性84.69总体精度99.84总体精度99.67INRMATiCSinMEDiCiNLOCKED13（2018）151H.M. Affy，M.A. 马斯尼表31564. 讨论由于宏基因组数据库中基因组测序的增长速度，临床微生物学的准确分类是一个非常复杂和具有挑战性的过程[37]。之多样微生物序列之间的基因组结构可用于识别不同的疾病并创建相似序列的组因此，有必要适当和重新排序微生物分组，牢记基因组序列之间的相似性。实现了利用机器学习策略进行编程INRMATiCSinMEDiCiNLOCKED13（2018）151H.M. Affy，M.A. 马斯尼156表6混淆矩阵和所提出的SVM和DBN方法的总体准确度，使用代码生成（0DBN分类器带代码生成（0混淆矩阵X混淆矩阵X古细菌细菌真核古细菌细菌真核古细菌83200古细菌83200百分百0%0%百分百0%0%细菌017,7434细菌017,74700%百分之九十九点九八0.023%0%百分百0%真核255362真核4934306.38%1.28%百分之九十二点三五百分之十二点五百分之八十七点五0%分类准确度（%）分类准确度（%）准确度a100准确度a100细菌准确度99.98细菌准确度100真核生物的准确性92.35真核生物的准确性0总体精度99.82总体精度97.93表7使用代码生成（0-8）和Eukarya的一个RefSeq针对所有类的所提出的SVM和DBN方法的混淆矩阵和总体准确度DBN分类器带代码生成（0混淆矩阵X混淆矩阵X古细菌细菌真核古细菌细菌真核古细菌83200古细菌08320百分百0%0%0%百分百0%细菌017,7452细菌017,74700%百分之九十九点九九0.011%0%百分百0%真核266360真核039206.63%1.53%91.84%0%百分百0%分类准确度（%）分类准确度（%）准确度a100准确度a0细菌准确度99.99细菌准确度100真核生物的准确性91.84真核生物的准确性0总体精度99.82总体精度93.55表8使用代码生成（0-8）和每个类的标准RefSeq的建议SVM和DBN方法的训练时间DBN分类器训练时间（秒）1495 82，609特征化以减少分组的执行时间并避免分类器中的错误[38]。大多数研究都集中在细菌物种的数字图像分析上[39，40];然而，目前微生物序列的生物信息学观点缺乏科学研究。在本文中，EzBioCloud数据库的开发是重新访问的进化树和分类搜索工具，以及开发的16S rRNA基因和基因组序列的基因组表示。所提出的方法包括预处理阶段与对齐算法和代码生成，以及分类阶段与SVM和DBN算法。该方法旨在通过SVM和DBN分类器区分各种类型的细菌、细菌和真核生物序列。兼容的RefSeq和编码步骤在分类质量方面受到控制。根据对于有希望的结果，SVM分类器中结合了准确性和速度因素，通过使用编码步骤（0 - 8）和每个类别的标准RefSeq来获得更高级别的分类。对于为所有类别选择一个参考，通过SVM分类器对所有数据库进行的细菌RefSeq的性能优于细菌和真核生物RefSeq。通过支持基于机器学习技术的生理关系的观点，证明了我们的方法的有效性。这项工作鼓励了生物信息学领域和临床微生物学的整合，这将在未来的研究中发挥重要作用。5. 结论通过对微生物数据库分类的生物信息学分析，验证了该模型的有效性。机器学习方法，即SVM和DBN，成功地适用于EzBioCloud数据库中的多类分类。研究了在代码生成过程中选择合适的RefSeq的策略。建议的研究结论是，更好的选择是每个类的标准参考与编码过程（0 -8）。该模型考虑了基因组序列之间的对比区思想，并考虑了生命树中进化关系的更新。最后，INRMATiCSinMEDiCiNLOCKED13（2018）151H.M. Affy，M.A. 马斯尼157该方法优化了与三域系统相关的利益冲突作者声明，本论文的发表不存在利益冲突。引用[1] Roskov Y.，Kunze T.，帕格利纳万湖，奥瑞尔·T尼科尔森·D Culham A.，BaillyN.，柯克·P Bourgoin T.，Baillargeon G.，埃尔南德斯·F德韦弗河物种2000 ITIS生命目录;2013年年度清单。物种2000。英国雷丁[2] FleischmannRD，Adams MD，White O，Clayton RA，Kirkness EF，KerlavageAR，BultCJ，Tomb JF，Doughnut BA，Merrick JM，et al. Whole-genome randomsequencingand assembly of Haemophilus in Eschuenzae Rd. Science1995;269：496-512.[3] Koonin EV，Wolf YI.细菌与古生菌基因组学：原核生物世界的新兴动态观点。核酸研究2008;36：6688-719。[4] Markowitz VM，Chen IMA，Palaniappan K，Chu K，Szeto E，Grechkin Y，Ratner A，Anderson I，Lykidis A，Mavrostrike K，Ivanova NN，Kyrpides NC.综合微生物基因组系统：不断扩展的比较分析资源。核酸研究2009;38：382-90。[5] [10] PetersonJ，Umayam L，Dickinson T，Hickey E，White O. 综合微生物资源。核酸研究2001;29：123-5.[6] 内山岛MBGD：用于比较分析的微生物基因组数据库。核酸研究2003;31：58-62。[7] WoeseCR，Kandler O，Wheelis ML. 走向自然系统的有机体：建议的领域，细菌，真核生物。Proc Natl Acad Sci USA1990;87：4576-9.[8] Clarridge 3rd JE. 16S rRNA基因序列分析对临床微生物学和感染性疾病细菌鉴定的影响临床微生物学评论2004;17：840-62。[9] [10]李文忠，李文忠. 作者：Brodie eoin l，Lynch susan V. 使用16S rRNA基因鉴定广泛的临床相关细菌病原体。PLoS One2015;10：e0117617.[10] Letunic I，Bork P.交互式生命树（iTOL）：系统发育树显示和注释的在线工具。生物信息学2007;23：127-8.[11] ThomasT，Gilbert J，Meyer F. 宏基因组学-从采样到数据分析指南。微生物Inf E X p 2012;2：1-12。[12] Wang Q，Garrity GM，Tiedje JM，Cole JR.朴素贝叶斯分类器，用于快速将rRNA序列分配到新的细菌分类中。应用环境微生物2007;73：5261-7。[13] 吴M，斯科特AJ.利用AMPHORA2进行细菌和古细菌序列的系统基因组分析。Bioinformatics2012;28：1033-4.[14] Chen IMA，Markowitz VM，Chu K，Palaniappan K，Szeto E，Pillay M，Kyrpides NC. IMG/M：整合基因组和宏基因组比较数据分析系统。核酸研究2017;45：507-16。[15] BlomJ，Albaum SP，Doppmeier D，Pühler A，Vorhölter FJ，Zakrzewski M，GoesmannA. EDGAR：原核生物基因组比较分析的软件框架。BMC Bioinf2009;10：1-14.[16] BlomJ ， Kreis J ， Spänig S ， Juhre T ， Bertelli C ， Ernst C ， Goesmann A.EDGAR 2.0：用于比较基因内容分析的增强型软件平台。核酸研究2016;44：22-8。[17] Whiteside MD，Winsor GL，Laird MR，Brinkman FS. OrtholugeDB：用于改进比较基因组分析的细菌和古细菌同源学资源。NucleicAcids Res2013;41：366[18] YuJ，Blom J，Glaeser SP，Jaenicke S，Juhre T，Rupp O，Schwarten O，Spänig S，Goesmann A.比较基因组学的生物信息学平台综述。EDGAR 2.0平台的最新发展及其在分类学和系统发育研究中的应用。JBiotechnol 2017;261：2-9.[19] YoonSH，Ha SM，Kwon S，Lim J，Kim Y，Seo H，Chun J. 介绍EzBioCloud：16S rRNA基因序列和全基因组组装的分类学联合数据库。IntJ SystEvol Microbiol 2017;67：1613-7.[20] 张晓刚，王晓刚，王晓刚. 基于系统发育的微生物群落分类O X ford AcademicBioinformatics 2014;30：449-56。[21] 放大图片作者：Yooseph S，Li W，Sutton G.通过增量聚类对微生物宏基因组序列数据进行基因识别和蛋白质分类。BMC Bioinf2008;9：182.[22] Marsh JW，Hayward RJ，Shetty AC，Mahurkar A，Humphrys MS，Myers GSA。生物信息学分析搜索作者的其他作品：o X ford AcademicPubMed Google Scholar ofbacteria and host cell dual RNA-sequencing experiments. BrieFinngs Bioinf 2017.[23] Cortes C，Vapnik V.支持向量网络。 Mach Learn1995;20：273-97.[24] Hinton GE，Osindero S，Teh Y-W.深度信念网的快速学习算法。神经计算2006;18：1527-54.[25] Altschul SF，Gish W，Miller W，Myers EW，Lipman DJ.基本的局部比对搜索工具。JMolBiol1990;215：403-10.[26] 放大图片Christof A，Tanel P，Leopold P，Oliver S.计算生物学的深度学习。MolSyst Biol 2016;12：878.[27] 放大图片作者：Robert T.统计学习的要素：数据挖掘、推理和预测。第二版出版社：Springer; 2009年。[28] 迈尔斯EW，米勒W.线性空间中的最优对齐。生物信息学1988;4：11-7.[29] Affy H，Islam M. 阿卜杜勒·瓦希德·M.基于基因组序列数据库相似性的DNA无损压缩算法。IntJ Comput Sci Inf Technol2011;3：145-54.[30] Liu B，Zhang D，Xu R，Xu J，Wang X，Chen Q，et al. Combiningevolutionaryinformation extracted from frequency profiles with sequencebased kernels for protein remote homology detection. Bioinformatics2013;30：472-9.[31] [1] SuykensJAK，Van Gestel T，De Brabanter J，De Moor B，Vandewalle J. 最小二乘支持向量机。新加坡：世界科学，2002年。[32] Cristianini N，Shawe-Taylor J.支持向量机和其他基于内核的学习方法介绍。第一个ed。北京：清华大学出版社.[33] Lee T，Yoon S.提升分类限制玻尔兹曼机用于剪接点的计算预测。机器学习国际会议，卷。37岁2015. p. 2483-92[34] Zhang S，ZhouJ，Hu H，Gong H，Chen L，Cheng C，Zeng J. A deep learningfra-tools for modeling structural features of RNA-binding protein targets.NucleicAcids Res 2015;44：e32.[35] 萨拉胡季诺夫深度玻尔兹曼机的有效学习。第十三届国际人工智能与统计会议论文集。2010. p. 693-700。[36] Al-Antari MA，Al-Masn MA，Park SU，Park JH，Metwally MK，Kadah YM，Han SM，Kim TS.基于深度信念网络的乳腺癌计算机辅助诊断系统。J Med Biol Eng2017：1-14.[37] BourbeauPP，Ledeboer NA. 临床微生物学自动化临床微生物杂志2013;51：1658-65。[38] [10]杨文，杨文.细菌菌落分类的深度学习方法。 PLoS One 2017;12：1-14.[39] [10]张文辉，张文辉. 通过数据分析和机器学习从MALDI-TOF质谱鉴定细菌物种。系统应用微生物学2011;34：20-9.[40] 张文辉，张文辉，张文辉.使用统计成像方法自动识别细菌类型。IEEE Trans MedImag2004;23：807-20.

下载后可阅读完整内容，剩余1页未读，立即下载