DNA结合蛋白的深度神经网络识别方法

148 浏览量更新于2024-01-06 收藏 860KB PDF 举报

医学信息学

深度神经网络

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

þ医学信息学解锁19（2020）100318DeepDBP：用于识别DNA结合蛋白的深度神经网络Shadman Shadab，Md Tawab Alam Khan，Nazia Afrin Neezi，Sheikh Adilina*，Swakkhar Shatabda联合国际大学计算机科学与工程系，地址：孟加拉国，A R T I C L EI N FO保留字：DNA结合蛋白深度学习CNN分类算法特征选择A B S T R A C TDNA结合蛋白（DNA-Binding Proteins，DBP）与机体防御机制、氧转运等细胞水平的功能密切相关它们与DNA结合并相互作用。过去，使用基于实验室的方法来识别DBP。然而，近年来，研究人员正在使用超监督学习来识别仅从蛋白质序列的DBP。在本文中，我们应用深度学习方法来识别DBP。我们提出了两种不同的基于深度学习的方法来识别DBP：DeepDBP-ANN和DeepDBP-CNN。DeepDBP-ANN使用在传统神经网络上训练的一组生成的特征，DeepDBP-CNN使用预先学习的嵌入和卷积神经网络。我们提出的两种方法都能够在标准基准数据集上测试时产生最先进的结果。DeepDBP-ANN的训练准确率为99.02%，测试准确率为82.80%; DeepDBP-CNN的训练准确率为 94.32% ，但在识别测试实例时，准确率为 84.31% 。所有方法都是可用代码，方法可在https://github.com/antorkhan/DNABinding上使用。1. 介绍DNA是细胞的蓝图。它包含了所有的信息和指令，代码为生物的发展和功能。但DNA本身并不这样做。有成千上万的DNA结合蛋白帮助调节DNA的功能。DNA结合蛋白在主要细胞过程中具有不可或缺的作用。DNA复制和重组是DNA结合蛋白的两大功能。然而，识别结合在大沟中的蛋白质是一项具有挑战性的任务。由于DNA结合蛋白与多种细胞功能有关，因此鉴定DNA结合蛋白是非常重要的。在过去的几年中，几种传统的机器学习方法已被应用于DBPs分类。目前，机器学习（ML）算法作为识别DBPs的计算方法是非常有效的。在过去的几十年里，传统的机器学习方法已经被证明是更便宜，更快，[27]并且与任何其他方法相比更能够处理数据的突然爆发，因此在许多不同的论文中被广泛使用[19]。基于序列的预测器由于不需要蛋白质序列的结构信息，提高了识别DNA结合蛋白的性能，受到了研究者的广泛关注。特征表示和分类算法是最重要组件进行基于ML的DNA结合蛋白鉴定方法。数值特征表示是蛋白质样本的最佳表示方法。基于ML的特征表示的预测器主要有两类：i）基于结构的预测器和ii）基于序列的预测器。Chou提出了伪氨基酸组合物[9]或PseAAC [10]的突破性想法，从那时起，已在无数论文中使用[5，6，11，15，45]。Pse-AAC的概念已经直接应用于几种现有技术的模型，如DNA结合剂[21]、BLAST[22]、PseKNC（假K元组核苷酸组成）[6]等。当将随机森林、支持向量机等机器学习算法纳入模型时，获得了更好的结果DNA-Prot [20]最初使用随机森林（RF）分类器进行训练，后来在添加灰色模型后在参考文献[23]中命名为iDNA-Prot。RF也用于本地DPP模型的训练[42]。支持向量机（SVM）用于iDNAPro-PseAAC [27]以提高预测能力。该模型后来在降维的帮助下变得更快，并更名为iDNA-Prot| dis[30]. SVM和RF分类器均用于Kmer 1 ACC [14]。在DBPred [31]和DPP-PseAAC [36]中使用RF分类器生物信息，如结构和进化信息添加以在HMMBinder中获得更好的结果[44]，* 通讯作者。电子邮件地址：adilina@cse.uiu.ac.bd（S.Adilina）。https://doi.org/10.1016/j.imu.2020.100318接收日期：2020年1月9日;接收日期：2020年3月10日;接受日期：2020年3月12日2020年3月19日网上发售2352-9148/©2020的自行发表通过Elsevier 公司这是一个开放接入文章下的CCBY-NC-ND许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）中找到。可在ScienceDirect上获得目录列表医学信息学期刊主页：http://www.elsevier.com/locate/imuS. Shadab等人医学信息学解锁19（2020）1003182��iDNAProt-ES [13].在iDNAPro-PseAAC中应用了类似的方法，结合RF和SVM [29]。此外，一系列网络服务器和开源工具，如Pse-in-One[26]和Pse-in-One2.0 [28]，PseAACBuilder [33]和PseAACGeneral [34]也被公开以帮助全球科学家除此之外，多年来已经有许多在线工具可用于特征提取。BioSeq-Analysis [24]就是这样一种工具，它为研究人员提供了从DNA、RNA和蛋白质序列中提取特征所需的代码。由于该工具仅允许提取基于测序的特征，因此引入了该工具的更新版本，称为BioSeq-Analysis 2.0 [25]，其包括在残留水平上提取特征。目前有许多其他类似的工具，如POSSUM [41]，pyfeat [32]，iFeature [7]和iLearn [8]，它们不仅允许特征提取，还提供特征选择，归一化，降维和分类算法。由于下一代测序（NGS）的发展，被称为高通量测序，现在更容易快速测序DNA和RNA;因此，新蛋白质序列的数量增加了。根据通用蛋白质资源知识库（Uniprot），蛋白质序列库正在增加。尽管过去几年使用的实验方法能够正确识别DBP，但随着数据的增加，它们的有效性逐渐降低。因此，需要引入更有效和节省时间的计算方法来管理日益增加的蛋白质序列数据以识别DBP。在21世纪初，一种新的方法开始在研究者中出现。深度的使用学习（DL）开始在生物信息学领域变得越来越流行。虽然传统的ML方法无法有效地处理大量数据，但DL方法显示出了巨大的效率。深度学习是一种新颖的方法，它的灵感来自于人脑中的神经元这种方法能够处理原始数据，并且不需要在处理之前提取特征[3]。它仍然是一种抽象和复杂的方法，网络架构对科学家来说仍然是一个黑盒子[37]。2015年，DeepBind软件[2]被创建，它能够使用DL预测DNA和RNA序列2016年，引入了一种相对改善50%的方法，并命名为DanQ[35] 。 KEGRU [38] 于 2018 年推出，是一种基于递归神经网络（RNN）的架构，它使用k-mer嵌入与一层GRU单元相结合。结合卷积（CNN）和递归神经网络的混合方法被用来预测DNA中的增强子Biren [43]方法只提取DNA序列，其余的处理工作自己完成DL的概念已经被用于其他几项研究中，并且由于其效率和新颖性而至今仍在使用[40]的作者比较了三种不同类型的模型：RNN，CNN和CNN和RNN的混合体。他们引入了几种新的技术，从deepBind，DanQ 等模型的启发，他们所有的模型都可以在他们的在线工具deepRAM中找到。实验结果表明，混合模型的性能优于单一模型.他们将两个最好的架构命名为ECBLSTM和ECLSTM，这两个架构都是使用k-mermebedding和混合神经网络层创建的。所有实验均在来自ENCODE项目的ChIP-seq和CLIP-seq上进行[46]。尽管杂交模型在RNA结合蛋白上具有出色的性能，但在DNA结合蛋白上进行测试时，可以看到性能的显著下降。在本文中，我们使用了两种不同的方法：DeepDBP-ANN和DeepDBP-CNN。这两种方法都是使用深度神经网络来解决DNA结合蛋白预测问题。DeepDBP-ANN使用在传统神经网络上训练的一组生成的特征，DeepDBP-CNN使用预先学习的嵌入和卷积神经网络。我们提出的两种方法都能够在标准基准数据集上测试时产生最先进的结果。DeepDBP-ANN的训练精度为99.02%，测试精度为DeepDBP-CNN虽然训练准确率为94.32%，但它在识别测试实例时的准确率为84.31%。2. 材料和方法迄今为止，已经出版了大量的最先进的作品。他们中的大多数使用传统的ML方法，他们都有一个共同点。当特征维数过大时，会出现过拟合问题。为了解决这个问题，我们使用了两种不同的分类技术，使用神经网络架构。我们的神经网络模型对于这两种方法是相同的，但是我们使用了两种不同的特征选择方法，并将它们通过分类模型。我们使用了两种不同的方法。第一个步骤包括Chou [12]提出并由Rahman el al [36]总结的5个标准步骤。i）获取标准测试和训练数据集; ii）以特征向量的形式表示特征; iii）开发分类算法; iv）中立地评估分类算法;以及v）创建对分类器的公共访问。我们的第一种方法DeepDBP-ANN遵循这种技术，其架构如图所示。1 .一、然而，这种方法有一个主要的缺点，那就是它需要各种算法来提取特征。这些算法通常是特定于数据集的。它需要人工交互来提取特征。因此，我们提出了另一种方法，该方法不需要特征化数据，而是将原始氨基酸序列作为输入。第二种方法不是特定于数据集的，这意味着从应用这种神经网络模型中获得的知识也可以转移到其他数据集。第二种方法的工作原理如下：我们采用我们在第一节中讨论过的模型，并向其添加卷积块。随着卷积块的添加，我们用一组嵌入向量替换我们使用的特征，其中每个向量表示L维点。为了从这些嵌入向量中生成特征，我们从长度为N的蛋白质序列中创建了一个2D矩阵。我们最终的2D矩阵x的大小是（LN）。在这个矩阵X上，我们应用重复卷积和子采样。每个卷积都是用L *31的窗口大小完成的，在每一层上，我们应用128个滤波器来生成128个独特的特征图。然后使用最大池对这些特征图进行子采样以缩小特征图的大小。这些减少的特征映射被应用于重复卷积和子采样，我们留下了维度为11的k个特征映射。这些特征图被视为k个特征，并输入我们在前一步开发的神经网络。该架构如图所示。二、2.1. 基准数据集为了评估预测器，数据集的可信度和准确性至关重要。我们用来测试我们的预测器的数据集是从蛋白质数据库（ PDB ：http://www.rcsb.org/PDB/home/dome.do）中提取的，使用某些关键词，如PDB1075数据集包含525个阳性DNA结合蛋白序列和550个阴性序列。验证集由Lou [31]编制，也从蛋白质数据库中提取，包含93个阳性DNA结合蛋白序列和93个阴性DNA结合蛋白序列。这两个数据集已经存在了几年，并且包含了理想数量的蛋白质序列。2.2. 特征提取如前所述，我们使用了两种不同的方法进行特征提取和样本表示。在本节中，我们在两个不同的小节中描述它们。S. Shadab等人医学信息学解锁19（2020）1003183L-1MLML-2M0其他Fig. 1. DeepDBP-ANN的方法体系结构2.2.1. DeepDBP-ANN的特点图二. DeepDBP-CNN的方法体系结构。2. Bigram：要找到的bigram，两个连续的氨基酸在这里，对于DeepDBP-ANN，我们使用了Adilina等人使用的7组特征。[1]这7组特征总共生成了32620个特征。1. Monograms：为了找到Monograms，确定每个单独氨基酸的重复性，然后通过酸被考虑在内。就像字母组合一样，这些双字母组合的频率也被归一化。从20个氨基酸生成400个二元组。F B1X匹配。RiR i1;Sj（3）序列的长度F A¼1X匹配。RA;aj（1）LM其中：1/1LM其中：1/1Sj1/4取自NH2序列的线性测度aj¼氨基酸，来自字母表3. 三元组：三元组与二元组相同。除了两个连续的氨基酸外，考虑三F C¼1X匹配。RiR i1Ri2;Sj（4）R1是特定位置i处的氨基酸该函数的工作原理如下，LM其中：1/1如果S1¼S2，则匹配S1;S一共有20个字母组合。S. Shadab等人医学信息学解锁19（2020）1003184¼（二）SJ一个三氨基酸串，取自1993年4. Gappedbigram：在Gappedbigram中计算所有可能的氨基酸对的频率，其中间隙具有一定长度[4，16]。S. Shadab等人医学信息学解锁19（2020）1003185L-gM¼PM¼P-1M1F1X匹配。R RG1S-1G20（五）aj¼氨基酸，来自字母表D¼LM其中：1/1我我的（c）�系我��Þ2.2.2. DeepDBP-CNN的特点我们利用卷积神经网络和嵌入向量来提取特征。来处理一系列变化的Sj 1/4取自NH2序列中两个氨基酸之间的g/4距离在本文中，我们已经使用的差距，g 1，2，.. .，20。因此，生成的特征总数为80000。5. 字母组合百分位分离：这里的字母组合只针对部分序列进行确定。在第一次迭代时，仅考虑序列的10%，并且仅确定部分序列的字母组合。然后在每次迭代中，我们逐渐增加部分序列的长度10%，并重复整个步骤，直到我们获得100%的序列。我们可以为每个蛋白质序列生成200个特征。FE¼1Xmatchai;ak（6）长度，我们通过在每个序列的末尾附加一个填充标记来将每个序列填充到一个固定的长度。这大大简化了我们的模型架构，因为我们的模型现在可以期望统一长度的输入。我们还讨论了所采取的措施，使这不会影响我们的模型的输出。DeepDBP-CNN的特征提取架构如图所示。3.第三章。2.2.3. 嵌入层我们模型中的第一层是可训练的嵌入层。嵌入层用于将离散输入转换为向量空间中的点，称为嵌入向量。嵌入向量是自然语言处理的主要部分，它们用于在L维空间中表示单词，其中L是向量的长度。向量之间的距离关系是它们彼此之间关系的表示。在自然语言处理中，它们代表了PM其中：1/1在可能单词的固定集合（即，字典）中的输入标记（其通常是单词）中。对于我们的模型，我们认为每个蛋白质是一个离散的输入标记，20个蛋白质的集合是我们的字典。我们选择忽略非蛋白质代币，例如用于填充我们的SE的代币序列的部分线性测度一个j一种氨基酸，来自字母表6. 二元组百分位数分离：该过程与字母组合百分位数分离基本相同。只是考虑了一对氨基酸，而不是单个氨基酸。这总共生成4000个特征。F F¼1X匹配。RiR i1;Sj（7）序列，通过将它们表示为嵌入空间中的零向量。该零向量对后续层的输出没有任何影响。嵌入层的最终输出是一个大小为LX M的均匀矩阵，其中M是我们输入序列的长度。2.2.4. 卷积层我们模型中的下一层是可训练的卷积层。卷积层接收从我们的PM其中：1/1嵌入层，并使用128个可训练滤波器应用卷积，每个滤波器具有大小为LX 31的窗口。结果是128个特征图，每个都是相同的大小。为了减少过度拟合和捕获噪声，然后使用最大池化对这些特征图进行子采样，窗口大小为序列的部分线性测度Sj¼取自字母表的二氨基酸字符串尺寸是3X3。最后，我们将特征映射扁平化为1X 1维矩阵，其中每个矩阵X表示输入序列的一个特征7. 最近邻二元语法：如果j最接近i，则i和j被认为是最近邻二元语法[30]。基于这个概念，前30个NNB被认为是创建12000个特征。与前面的值一样，这些值也是标准化的然后，这些特征用于训练我们的分类模型。这种方法的独特好处是，分类模型的结果可以反向传播到卷积层和嵌入层，训练这些层以提取更好的特征，FG<$L距离ai;ak1i20;k<$1;2;序列的部分线性测度从而使我们的特征提取变得可训练。2.3. 分类算法为了进行分类，我们使用了深度人工神经网络。深度学习模型由12层组成，不包括图3.第三章。DeepDBP-CNN的特征提取架构。S. Shadab等人医学信息学解锁19（2020）1003186¼¼1/4tp¼¼¼¼¼¼-þ-þ输入和输出层。在我们的模型中有四种类型的层：密集层，批量归一化层，丢弃层和激活函数。下面2.3.1. 致密层在密集层（也称为全连接层）中，每个输入节点都连接到每个输出节点。2.3.2. 批次归一化层最后是批量归一化层。在撰写本文的过程中，文档批量规范化可能是深度学习领域最重要的发现之一。每层输入分布的变化使得训练深度神经网络变得困难。随着前一层参数的变化，下一层输入的分布也会变化，因此使深度神经网络的训练变得复杂。这通过需要更低的学习率和谨慎的参数初始化来减慢训练速度，并且使得训练具有饱和非线性的模型变得非常困难。Sergey等人。[18]称这个问题为内部协变量移位，它只能通过规范化层输入来解决。总而言之，我们通常要做的是将每个层上的节点数，这个想法很简单。层上的节点越多，性能越好。因此，我们不断向层中添加更多节点，直到GPU上的VRAM耗尽。3. 实验分析实验使用两台机器进行，第一台机器配备Intel Core i3-8100处理器和一个nVidia Geforce GTX 1070 ti显卡，第二台机器配备Intel Core i3-3100处理器和一个nVidia Geforce GTX 1050ti显卡。整个应用程序是用Python3.6语言编写的，使用了几个库，包括但不限于Keras，Scikit-learn和Matplotlib。3.1. 业绩评价指标为了衡量我们的分类算法的有效性，我们使用了几个广泛使用的性能指标。它们在下面的等式10、11、12和13中定义：精度中国（ 10）tp tnfp fn网络因此，一般的假设是，如果输入层可以通过归一化受益，那么隐藏层也应该受益。批量归一化使隐藏单位值的偏差量最小化。最重要的是，批量归一化使网络的每一层都独立于其他层学习。正如Sergy I所说和Christian S.批处理规范化具有灵敏度TNn特异性tn拉蒂夫（十一）（十二）在众多品质中，有以下几点。1. 批量归一化使网络具有更高的学习能力MCCtpωtn¼pffiðffitffiffipffiffiffiþffiffiffiffiffifffiffipffiffiÞffiffiðffiffitffipffiffiffiþffiffiffiffiffifffiffinffiffiÞffiffiðffiffitffinffiffiffiffiþffiffiffiffiffifffipffiffiffiÞffiðffiffitffiffinffiffiffiþffiffiffiffiffifffinffiffiffiÞffi（十三）rates.将学习率设置得太高可能会使梯度停留在局部最小值，或者爆炸或消失。通过对整个网络中的激活进行归一化，批量归一化防止参数的不重要变化被放大为大的和次优的变化。2. 当使用批量归一化时，训练示例与小批量中的其他示例一起使用，它不再为给定的训练示例生成确定性值。简而言之，它使网络通用化，并在此过程中减少了辍学的需要[39]。2.3.3. 丢弃层接下来是dropout层。这是一种优雅而简单的处理过拟合的方法，这在很长一段时间内一直是深度神经网络的挑战。正如Srivastava等人所提到的，[39] dropout意味着从网络中随机删除一个节点及其所有连接。在随机丢弃一个节点的过程中，它使网络对单个节点的依赖性降低，从而减少了过拟合。2.3.4. 激活函数激活节点通过函数确定一个或多个节点的输出。我们使用Relu作为我们的激活函数[17]。等式（9）所示的Relu函数在0到1的范围内缩放输出。最大值0;x 0（9）2.3.5. 模型架构我们从一个简单的线性分类器开始我们的实验，并逐渐添加更多的层以及层上的节点。正如我们在实验中所看到的，我们从架构的层中受益，但这是在一定程度上，在此之后添加更多的层只会增加训练过程的开销，几乎没有好处。通过实验确定了3层是分层的阈值。增加更多的层次以及其中：n实际阴性样本p实际阳性样本的实例数tp正确预测阳性样本的实例数。其中负样本被正确预测的实例的数量。fp错误预测负样本的实例数。fn正样本被错误预测的实例的数量。准确度、灵敏度和特异性的范围在0和1之间（含0和1）。完美的分类器将给出值1，而最差的分类器将给出0。下一个，MCC的范围在1和1之间，1是完美的分类器，1是最差的分类器，0被称为随机分类器。3.2. 与以往方法的我们在表1和表2中逐渐将我们的结果与基准训练和测试数据集上的其他12种方法进行了比较。到目前为止，我们提出的方法DPP-PseAAC无疑是训练数据集的最佳分类器，准确率为95.91%。我们的工具DeepDBP-ANN 是一个近乎完美的训练数据集分类器，准确率为99.02%。然而，为了真正确定一个模型的有效程度，通过一个独立的数据集进行评估是必要的。据我们所知，直到DeepDBP-CNN，分组特征选择一直是最前沿的方法，准确率为82.26%。然而，我们的第二种方法，DeepDBP-CNN能够获得更好的准确率84.31%。尽管分组特征选择的验证准确率为82.26%，但训练准确率不如验证准确率。这清楚地表明模型是不合适的;这让我们相信还有改进的余地。因此，我们尝试了DeepDBP-ANN，并预测能够获得最先进的S. Shadab等人医学信息学解锁19（2020）1003187表1在PDB 1075数据集上比较DeepDBP与以前的方法方法准确度灵敏度特异性MCC auROCauPRDNAbinder 79. 09 0. 48 0. 814 0. 48 0. 8140DNA蛋白72.55 0.8267 0.5976 0.44 0.789iDNA-Prot 75.4 0.8381 0.6473 0.50 0.761iDNA-Prot-dis 77.3 0.794 0.7527 0.54 0.831PseDNA-Pro 76.55 0.79611 0.7363 0.53iDNAPro-PseAAC 76.76 0.7562 0.7745 0.53 0.8392HMMBinder 86.33 0.87 0.855 0.72 0.902Kmer1-ACC 75.23 0.7676 0.7376 0.50 0.828地方检察官办公室79.20 0.84 0.7450 0.59iDNAProt-ES 90.18 0.9038 0.90 0.80 0.9412DPP-PseAAC 95.91 0.941 0.9764 0.92 0.9884分组特征选择70.82 0.61 0.797 0.41 0.751 0.721递归特征选择71.04 0.62 0.799 0.43 0.751 0.724DeepDBP-ANN99.02 0.98 0.97 0.992 0.996 0.996DeepDBP-CNN 94.32 0.83 0.75 0.981 0.986 0.982表2在PDB 186验证数据集上比较DeepDBP与以前的方法方法准确度灵敏度特异性MCC auROC auPR DNAbinder 60. 80 0. 57 0. 6450. 220. 2160. 607DNA蛋白61.80 0.68 0.538 0.24 0.240iDNA-Prot 67.20 0.667 0.667 0.34 0.344iDNA-Prot-dis 80.64 0.800 0.800 0.54 0.831PseDNA-Pro 76.55 0.7961 0.7961 0.53iDNAPro-PseAAC 69.89 0.77 0.624 0.40 0.8392 0.775HMMBinder 69.02 0.61 0.763 0.39 0.632Kmer 1卡宾枪ACC 70.96 0.83 0.591 0.43 0.431 0.752地方-检察官办公室iDNAProt-ES 80.64 0.81 0.800 0.61 0.843DPP-PseAAC 77.42 0.83 0.709 0.55 0.798分组特征选择82.26 0.95 0.699 0.67 0.823 0.745递归特征选择76.88 0.77 0.769 0.55 0.769 0.696DeepDBP-ANN 82.800.98 0.970.9920.9960.996DeepDBP-CNN 84.31 0.83 0.75 0.981 0.986 0.982结果.但如前所述，与验证精度相比，DeepDBP-ANN具有非常高的训练精度。为了解决过拟合问题，我们尝试了一种不同的方法，一种新的方法，它不仅解决了过拟合问题，而且使特征提取过程自动化。它可以推广到为不同的数据集甚至不同的问题构建分类器。我们还对这两种方法的训练集和测试集进行了受试者操作特征（ROC）分析。这些曲线图如图1A和1B所示。4和5.两条曲线中间的对角虚线表示一个与随机猜测一样好的模型的图四、DeepDBP-ANN的训练集和测试集上的ROC曲线。图五、DeepDBP-CNN的训练集和测试集上的ROC曲线。模型的性能与ROC曲线下面积成正比。面积的最高值可以是1.0，并且在两种模型的情况下，面积的值在训练集上大于0.98，在测试集上约为0.834. 结论如前所述，我们的深度学习模型以非常短的计算时间提供了最先进的结果。我们尝试了传统的方法，用特定的算法提取特征，S. Shadab等人医学信息学解锁19（2020）1003188尝试了新的特征提取方法，而无需使用深度学习技术进行任何手动调整。虽然我们的第一种方法产生了最先进的结果，但第二种方法甚至超过了第一种方法的结果。此外，虽然第一种方法是特定于数据集的，但第二种方法更通用，也可以应用于其他数据集，并且由于特征是由模型本身提取的，因此不需要深入了解数据集。竞合利益作者声明，他们没有已知的可能影响本文所报告工作确认一个也没有。没有资金申报。引用[1] AdilinaS，Farid DM，Shatabda S. 利用关键特征预测dna结合蛋白。JTheor Biol2019;460：64-78.[2] Alipanahi B，Delong A，Weirauch MT，Frey BJ.通过深度学习预测dna和rna结合蛋白的序列特异性。Nat Biotechnol 2015;33：831. EP–,07[3] 杨文，李文，李文.短dna序列模式识别的深度学习方法。bioR X iv; 2019年。[4] 张俊明，苏荣毅，罗阿，邱宏生，宋天毅，徐文良。基于缺口二肽和概率潜在语义分析的蛋白质亚细胞定位预测。蛋白质：结构功能生物信息学2008;72（2）：693-710。[5] 陈伟，冯培明，林宏，周国成。iss-psednc：使用假二核苷酸组合物鉴定剪接位点。 BioMed Res Int 2014.[6] 陈伟，雷天耀，金东昌，林宏，周国昌。Pseknc：一个用于生成伪k元组核苷酸组合的灵活web服务器。第456章. 04.[7] Chen Z，Zhao P，Li F，Leier A，Marquez-Lago TT，Wang Y，Webb GI，SmithAI，Daly RJ，Chou K-C，iFeatureJ Song.一个Python包和Web服务器，用于从蛋白质和肽序列中提取和选择特征。生物信息学032018;34（14）：2499-502。[8] ChenZ，Zhao P，Li F，Marquez-Lago T，Leier A，Revote J，Zhu Y，PowellD，Akutsu T，Webb G，Chou K-C，Smith A，Daly R，Li J，ilearn J Song. 一个集成平台和元学习器，用于dna、rna和蛋白质序列数据的特征工程、机器学习分析和建模。简报Bioinf 2019;4.[9] 周国祥利用伪氨基酸组成预测蛋白质细胞属性。蛋白质：结构与功能生物信息学2001;43（3）：246-55。[10] 周国祥利用两亲性假氨基酸组成预测酶亚家族类别。生物信息学2005;21（1）：10-9.[11] 周国祥关于蛋白质属性预测和伪氨基酸组成的几点意见。J Theor Biol 032011;273：236-47.[12] 周国祥关于蛋白质属性预测和伪氨基酸组成的几点意见。J Theor Biol2011;273（1）：236-47.[13] Chowdhury SY，Shatabda S，Dehzangi A. iDNAProt-ES：使用进化和结构特征鉴定DNA结合蛋白。Sci Rep 2017;7（1）：14938。[14] 董Q，王S，王K，刘X，刘B.自交叉协方差变换用于dna结合蛋白的鉴定。在：生物信息学和生物医学（BIBM），2015年IEEE国际会议。IEEE; 2015.p. 470- 5[15] 方毅，郭毅，冯毅，李明。从周氏假胺基酸组成及其他特定序列特征预测dna结合蛋白质。氨基酸2008年1月;34（1）：103-9。[16] Ghandi M，Mohammad-Noori M，Beer MA.使用有间隙的$$k$k-mer的鲁棒$$k$$k-mer频率估计。数学生物学杂志2014年8月;69（2）：469-500。[17] Haykin S.神经网络：全面的基础。第一版，Upper SaddleRiver，NJ，USA：Prentice Hall PTR; 1994。[18] Ioffe S，Szegedy C.批量归一化：通过减少内部协变量偏移来加速深度网络训练。2015年。 arXiv预印本arXiv：1502.03167。[19] 开阳区立伟，邹强。DNA结合蛋白预测方法综述。Curr Bioinf2019;14：246[20] Kumar KK，Pugalenthi G，Suganthan P. DNA-蛋白质：使用随机森林从蛋白质序列信息中识别DNA结合蛋白。J Biomol StructDyn 2009;26（6）：679-86.[21] Kumar M，Gromiha MM，Raghava GP.利用支持向量机和进化图谱识别dna结合蛋白。BMC Bioinf2007;8（1）：463.[22] Langlois RE，Lu H.促进从序列预测和理解dna结合域。Nucleic AcidsRes2010;38（10）：3149-58.[23] 林文智，方金安，肖X，周开春. idna-prot：使用随机森林和灰色模型识别dna结合蛋白。 PloS One 2011;6（9）：e24756.[24] 刘湾BioSeq-Analysis：基于机器学习方法的DNA、RNA和蛋白质序列分析平台。简报Bioinf 12 2017;20（4）：1280-94.[25] 刘乙，高旭，张华. BioSeq-Analysis 2.0：基于机器学习的DNA、RNA和蛋白质序列分析平台。核酸研究09 2019;47（20）。 e127-e127。[26] 刘波，刘芳，王X，陈杰，方莉，周克昌. Pse-in-one：一个网络服务器，用于生成dna、rna和蛋白质序列的各种模式的伪组件。43.第43章. W65- 71[27] 刘乙，王S，王X.结合伪氨基酸组成与蛋白质图谱表征的Dna结合蛋白质鉴定。SciRep 2015;5. 15479[28] 刘斌，吴宏，周国昌. Pse-in-one 2.0：一个改进的web服务器包，用于生成dna、rna和蛋白质序列的各种模式的伪组件。 Nat Sci 01 2017：67-91. 09.[29] 刘B，徐军，范S，徐R，周军，王X.结合周氏pseaac和物理化学距离变换的dna结合蛋白鉴定。Mol Inf2015;34（1）：8-17.[30] 刘B，徐军，兰X，徐R，周J，王X，周K-C. idna-prot-dis：通过将氨基酸距离对和简化的字母谱结合到一般的假氨基酸组成中来鉴定DNA结合蛋白。PloS One2014;9（9）：e106691.[31] 卢伟，王X，陈芳，陈Y，蒋B，张H.基于随机森林和高斯贝叶斯混合特征选择的dna结合蛋白质序列预测。 PloS One 2014;9（1）：e86703.[32] 2005年10月27日，Shahmod R，Ahmed S，Md Farid D，Shatabda S，SharmaA，Dehzangi A. PyFeat：一个基于Python的DNA、RNA和蛋白质序列有效特征生成工具。生物信息学032019;35（19）：3831-3.[33] 蒲峰，杜春香，王欣。Pseaac-builder：一个跨平台的独立程序，用于生成各种特殊的周氏伪氨基酸组合物。AnalBiochem 2012;425：117-9.[34] 普丰杜永军，谷书旺。Pseaac-general：快速构建大规模蛋白质数据集的周氏伪氨基酸组成通用形式的各种模式。IntJMol Sci 2014;15：3495-506.[35] Quang D，Xie X. DanQ：一种用于量化DNA序列功能的混合卷积和递归深度神经网络。Nucleic Acids Res 04 2016;44（11）. e107-e107。[36] Rahman MS，Shatabda S，Saha S，Kaykobad M，Rahman MS. Dpp-pseaac：adnabinding protein prediction model using chou'sgeneralpseaac. JTheor Biol2018;452：22-34.[37] Rizzo R，Fiannaca A，La Rosa M，Urso A. DNA序列分类的深度学习方法9874;2016年7月。p. 一百二十九比四十[38] 沈志，包伟，黄东生。预测转录因子结合位点的递归神经网络。Sci Rep 2018;8（1）. 15270[39] [10]李文辉，李文辉，李文辉. Dropout：防止神经网络过拟合的简单方法。JMach Learn Res 2014;15（1）：1929-58.[40] Trabelsi A，Chaabane M，Ben-Hur A.深度学习架构的综合评估，用于预测DNA/RNA序列结合特异性。生物信息学07 2019;35（14）：i269-77。[41] 杨斌，王军，等. POSSUM：一个基于PSSM特征的生物信息学工具包。Bioinformatics 2017;33：2756-8.[42] Wei L，TangJ，Zou Q.利用局部进化信息改进的dna结合蛋白预测方法。 InfSci 2017;384：135-44.[43] Yang B，Ren C，Ouyang Z，Bo X，Shu W，Liu F，Xie Z BiRen：仅使用DNA序列，使用基于深度学习的模型预测增强子。生物信息学02 2017;33（13）：1930-6。[44] Zaman R ， Chowdhury SY ， Rashid MA ， Sharma A ， Dehzangi A ，Hmmbinder SShatabda.基于hmm轮廓特征的dna结合蛋白预测。BioMed ResInt 2017;2017.[45] 赵学文，李学堂，马志勤，马志勤，尹明华.识别具有最佳周氏氨基酸组成的dna结合蛋白。 Protein Pept Lett 2012;19（4）：398-405.[46] ZhouJ，Troyanskaya OG.使用基于深度学习的序列模型预测非编码变体的效果。Nat Methods2015;12（10）：931.

下载后可阅读完整内容，剩余1页未读，立即下载