没有合适的资源?快使用搜索试试~ 我知道了~
医学信息学解锁26(2021)100738使用自然语言处理方法预测Nikhil Mathewsa,Tuan Trana,Mr. Baghani,Banafsheh Rekabdarb,Chinwe Ekennaaa计算机科学系,奥尔巴尼大学,SUNY,NY 12206,USAb美国波特兰州立大学A R T I C L E I N F O保留字:自然语言处理神经网络A B S T R A C T在本文中,我们预测的蛋白质相互作用的人与鼠疫耶尔森氏菌通过氨基酸序列。 我们以独特的格式利用深度学习中可用的多种自然语言处理(NLP)方法,并产生了有希望的结果。 我们开发的模型给出了0.92的交叉验证AUC得分,并且与利用广泛的生化特性(即网络和序列结合)的其他工作相当。我们通过将神经机器翻译中的先进工具结合到集成的端到端深度学习框架中以及生物信息学领域新颖的预处理方法来实现这一目标。我们表明,我们提出的方法是强大的主机和病原体数据之间的不同1. 介绍人类与病原体之间看不见的战斗从时间的黎明就开始了,其中大部分发生在分子水平上。蛋白质-蛋白质相互作用(PPI)是宿主-病原体相互作用中最重要的类型,在感染和疾病进展中起着重要作用。鼠疫耶尔森氏菌就是这样一种生物体,它是一种杆状细菌和鼠疫病原体,被列为生物恐怖主义的潜在病原体,造成了三次大流行病,造成数千万人死亡2019年,Lian等人在[1]中开发了一种新的基于机器学习的人类鼠疫耶尔森氏菌PPI预测器。介绍了三种传统的基于序列的编码方案(NetSS)和两种与主机网络属性相关的编码方案(NetTP)。每个编码方案的个体预测模型由随机森林推断。 第一种序列编码方案,自协方差(AC),采用氨基酸的七个物理化学性质,包括亲水性、亲水性、侧链体积、极性、极化率、溶剂可及表面积和侧链的净电荷指数,使用方程来推断AC特征向量。 该模型产生了令人印象深刻的0.88的AUC。然后,k-间隔氨基酸对的组成(CKSAAP)编码考虑400个氨基酸对,其可以扩展到k间隔氨基酸对(即,两人分开通过k其它氨基酸)。这里,CKSAAP编码考虑k间隔的氨基酸对,其中k = 0、1、2和3。 最后,PseTC编码使用三肽组合物来代表蛋白质,通过将20个氨基酸分成13组,然后计算基于组的三肽组成来进行序列分析。关于基于网络的编码方案,他们设计了NetTP来系统地表征宿主蛋白质的网络拓扑特性,并设计了NetSS来反映病原体蛋白质使用的分子模拟策略。最后,通过noisy-OR算法,将5个单独的模型整合到最终的功能强大的模型中,AUC值为0.922 in5倍交叉验证,以及0.924的独立测试,可以实现比两个最先进的人类细菌PPI预测更好的性能。必须注意的是,在基于网络的编码模型中,没有模型超过0.82的AUC,而在基于序列的编码模型中,没有模型超过0.88。我们将使用基于序列的深度学习模型,在神经机器翻译的帮助下超越这一点。 深度学习是基于人工神经网络的机器学习方法家族的一部分,人工神经网络模仿人脑处理数据的工作方式。 用于语音识别和翻译、决策制定、对象检测等应用。它的一个重要用途是在顺序或时间数据中找到模式,这就是我们将要使用的来检测蛋白质对的氨基酸序列,和那些不使用的方法一样,并且使用这些方法来预测相互作用,其准确度超过所有5个先前提到的模型的单独性能,而不使用任何物理化学或生物学性质。∗ 通讯作者。电子邮件地址:nnikhiltittymathews@albany.edu(N. Mathews),ttran3@albany.edu(T.Tran),rekabdar@pdx.edu(B.Rekabdar),cekenna@albany.edu (C. Ekenna)。https://doi.org/10.1016/j.imu.2021.100738接收日期:2021年6月6日;接收日期:2021年9月8日;接受日期:2021年9月15日2021年9月25日网上发售2352-9148/© 2021作者。出版社:Elsevier Ltd这是CC BY许可下的开放获取文章(http://creativecommons.org/licenses/by/4.0/)。可在ScienceDirect上获得目录列表医学信息学期刊主页:www.elsevier.com/locate/imuN. Mathews等人医学信息学解锁26(2021)10073822. 相关工作机器学习的使用是在过去二十年计算能力爆炸之后才开始的。因此,它在生物序列预测中的使用是相对最近的。Ahmed等人[2]提取了三元组和四元组特征来训练总共4个不同的模型,这些模型使用了支持向量机和神经网络。最好的一个被选择用于预测。在神经网络中,4层和不同数量的节点的输入和隐藏层中使用。该设置与60,000个数据点一起进行训练和测试,得到了0.92的曲线下面积分析。另一一个是Li [3],它与这项工作类似,两个输入都经过编码和嵌入,用于特征提取的卷积滤波器-池化层对,以及长短期记忆(LSTM),然后通过密集层连接到二进制输出。几十万的数据集使其准确率高达98%。与我们的模型类似,Tsukiyama等人[4]首先开发了LSTM模型(一种人工递归神经网络架构),使用word 2 vec来预测人类和病毒之间的PPI,命名为LSTM-PHV,仅使用氨基酸序列。LSTM-PHV有效地学习了具有高度不平衡的阳性与阴性样本比率的训练数据,并使用5倍交叉验证实现了0.976的AUC和98.4%的准确度。在预测人类与未知病毒或新病毒之间的PPI时,LSTM-PHV在使用包含多个宿主蛋白质的数据集进行训练时表现出比现有预测器更高的性能。有趣的是,仅使用氨基酸序列上下文作为“单词”呈现出非常高的性能。均匀流形近似和投影的使用表明,LSTM-PHV清楚地区分了正PPI样本和负PPI样本。这里的模型结构类似于我们的论文中描述的Zhou等人[5]使用包含大量蛋白质实体及其关系的结构化信息的知识库(KB),这些信息可以编码在实体和关系嵌入中以帮助PPI提取。然而,必须有选择地使用蛋白质-蛋白质对的先验知识,以便它适用于不同的背景。具体而言,工作提出了一个知识选择模型(KSM)融合所选择的先验知识和上下文信息的PPI提取。首先,两个Transformer根据每个蛋白质嵌入分别编码蛋白质对的上下文序列。然后,这两个输出被馈送到相互关注,以捕获蛋白质对的重要上下文特征。 然后,利用上下文特征通过知识选择器提取关系嵌入。最后,将所选择的关系嵌入和上下文特征结合起来进行PPI提取。在BioCreative PPI数据集上的实验表明,KSM通过添加知识选择实现了新的最先进的性能(38.08%F1分数)。通过包含PPI的另一个重要方面,Tsubaki等人。[6]预测了化合物-蛋白质相互作用(CPI),其中数据以离散符号数据提供,即化合物表示为顶点为原子,边为化学键的图,蛋白质为字符为氨基酸的序列。在这项研究中,他们研究了化合物和蛋白质的端到端表示学习的使用,整合了表示,并通过结合化合物的图神经网络(GNN)和蛋白质的卷积神经网络(CNN)开发了一种新的CPI预测方法。他们证明,与各种现有的CPI预测方法相比,所提出的端到端方法具有竞争力或更高的性能。此外,所提出的方法显着优于现有的方法在一个不平衡的数据集。这表明通过端到端GNN和CNN获得的化合物和蛋白质的数据驱动表示比从数据库获得的传统化学和生物特征更鲁棒。最后,Yang等人。[7]应用无监督序列嵌入技术(doc2vec)将蛋白质序列表示为低维的丰富特征向量训练随机森林(RF)分类器通过涵盖人类和所有病毒之间已知PPI的训练数据集,他们获得了优于机器学习算法和常用序列编码方案的各种组合的出色预测准确性,以提供具有竞争力和有前途的性能,这表明doc 2 vec编码方案有效地捕获了与相应蛋白质-蛋白质相互作用有关的蛋白质序列的上下文信息。从大多数已发表的期刊来看,这项工作面临的最大挑战可能是数据的缺乏,必须使用大约7000个数据点进行训练和测试。3. 方法3.1. 数据集我们的数据集是从[1]中的工作中提取的。输入数据(包括训练和测试)的格式如下:你好…���������������������������….闪烁+1闪烁− 1其中+1表示正相互作用,-1表示负相互作用。训练集中有6270个数据点,测试集中有1514个数据点。测试/训练分割是分层的,也就是说两者都有1:1的真/假比率。由于我们正在寻找氨基酸序列,因此使用网络抓取来通过各自的蛋白质id查找UniProt网站[8],以获得如下数据集【、……】[,. A]在我们的工作中,每个蛋白质肽链至少有35个单位长,由20种氨基酸组成,这些氨基酸由字母表示字母表中的字母。使用NLP方法来训练模型,并使用python中的sklearn包[9]中的受试者工作特征(ROC)曲线和ROC曲线下面积(AUC)来测量测试准确性。所示的每个模型的结果是基于AUC评分,通过使用独立数据集对其进行测试3.2. 递归神经网络将使用的第一种方法称为递归神经网络(RNN)[10]。基于简单前馈架构的轻微修改,它们是一类神经网络,允许将先前的输出用作输入,同时具有隐藏状态,这使得它非常适合用于预测时态数据。在高层次上,它记住过去,并根据它所学到的知识做出预测。LSTM[11]基于RNN架构,在预测过程中使用各种门的组合来保留上下文,这使得它比标准RNN或其修改后的对应物门控递归单元[12]更强大。然而,这可能是不够的,因为序列可以是数千个单元长。LSTM在其决策演算过程中会更优先考虑接近末尾的“单词”,而在确定PPI时,开头的氨基酸序列完全可能同样重要。为了解决这个问题,我们采用了一种名为Bidirectional LSTM的LSTM修改,它本质上创建了一个相同的LSTM配置来检查来自另一端的序列。然后,创建的附加隐藏层权重将连接到原始隐藏层。我们作为输入提供给NLP模型的编码或“单词”将每次都不同。假设网络将来自人类和耶尔森氏菌的每个氨基酸序列作为输入,我们可以给出一个简单的一级序列输入,如前所示,或者我们可以将其转换为二级(2D),如下所示,并将其馈送到网络:【、… 【、…或者我们可以将其转换为第三度(3D)输入:【,.】【,N. Mathews等人医学信息学解锁26(2021)1007383这样做是为了让我们考虑每两个或三个氨基酸序列,这些氨基酸序列可能在确定相互作用中起重要作用,并在神经机器翻译过程中表示为“单词”。如果我们假设这些来自人类和耶尔森菌的共同序列位在预测相互作用中发挥作用,我们可以将它们连接起来,并给出一个三阶输入:【、下一个阶段是找到一种方法让神经网络理解这些“单词”。通常,分类数据是由一个热编码他们处理。然而,对于语言来说,由于有几十万个单词,而且每个句子通常只使用一个单词, 得到一个非常稀疏的矩阵,这使得它的计算成本很高。因此,使用编码时,每个单词都被分配了一个索引值它在神经网络中的实际值是嵌入向量,其相对于其他词的位置可以在n维空间中理解,其中n是嵌入维数。这就是我们将在工作中应用的例如,考虑上面所示的3D连接输入,它首先被转换为“句子”或“单词”序列,如下所示[……...]分配给每个“单词”的数字将由标记器决定,然后标记器用于将数据(“单词”列表)转换为宽度等于预定最大序列长度的纯整数序列矩阵。默认情况下,在NLP中,长于这个最大长度的“句子”被预先截断,而小于最大长度的“句子”被预先填充,也就是说,在左侧添加零。此外,在创建分词器时,指定3D输入数据以上的最大词汇表大小可能很重要,因为组合每D增加1,氨基酸或“单词”的数量就会多项式增加。在这种情况下,分词器将包含频率最高的单词。既然输入数据是统一的, 在嵌入层的帮助下被表示为n维空间中的向量。这些向量的位置在反向传播期间基于神经网络3.3. 卷积神经网络下一个使用的工具将是卷积神经网络,其中使用几对卷积层或内核和池化过滤器进行特征提取。卷积运算从输入图像中提取高级特征,例如边缘,之后池化层减小其空间大小,以通过降维来降低处理数据所需的计算能力。它还能帮助我们找到主要特征。CNN是计算机视觉中使用最广泛的深度学习方法之一。 它也被发现在序列数据分析中很有用,当用于这种能力时被称为图1示出了具有扩张因子λ= 1、2、4和滤波器大小为3的TCN架构的概述。根据[14]中的工作,TCN的显着特征是:(1)架构中的卷积是因果关系的,这意味着从未来到过去没有信息“泄漏”;(2)架构可以采取任何长度的序列并将其映射到相同长度的输出序列,就像RNN一样。TCN最重要的组成部分是扩张因果卷积。 “Causal "仅仅意味着时间步长t处的过滤器只能看到不晚于t的输入。残差块将两个膨胀的因果卷积层堆叠在一起,并将最终卷积的结果加回输入 以获得块的输出。TCN所做的只是简单地将一些剩余块堆叠在一起,以获得我们想要的感受野。如果感受野大于或等于最大长度在任何序列中,TCN的结果在语义上都是等价的RNN的结果。除了用CNN取代双向LSTM之外,架构在很大程度上仍然是相似的, 问题仍然与前面解释的相同Fig. 1. TCN架构。图二. 使用Bi-LSTM的4. 执行使用Keras [16]在Tensor-Flow [15]中创建和训练机器学习模型。TensorFlow是由Google设计和开发的开源机器学习环境。它非常受欢迎,并支持可以允许软件在常规CPU上运行而无需更改的库。它提供了良好的计算图形可视化,一个多样化的库,良好的可扩展性,流水线,和perfor- mance。Keras提供了高度的抽象和封装,允许用户几乎完全专注于神经网络设计和数据预处理,以换取计算效率和架构定制。该模型的实现使用Google Colab Pro进行,该产品提供高速25 GB RAM和TeslaP100-PCIE-16 GB GPU。实现细节,神经网络架构和数据集可在我们的GitHub上获得。5. 实验结果5.1. Bi-LSTM我们从解决这个问题最常用的方法开始,即将每个人类和耶尔森氏对于这项工作,我们称之为双IP配置,如图所示。二、前面讨论的另一种方法是连接两个序列,并通过单个嵌入矩阵和Bi-LSTM对其进行评估。在这项工作中,我们称之为'加入'配置,如图所示。3 .第三章。The ‘join’ configuration is one of the methodsused in NLP for sentiment我们创建了一个端到端的配置,它结合了上面讨论的两个,使得神经网络可以解释人类和耶尔森氏菌(doubleip)的分离性质,以及解释两个物种的共同序列位或N. Mathews等人医学信息学解锁26(2021)1007384图三. 使用Bi-LSTM的图五. Doubleip-join-combine配置比较。见图4。 使用Bi-LSTM的“组合”配置。表1使用Bi-LSTM时的AUC评分。电话:+86-10 - 8888888传真:+86-10 - 88888888联合收割机0.830 0.843 0.884 0.899 0.900 0.906在预测相互作用(join)中发挥作用 让我们称这种联合配置,如图所示。四、表2见图6。 使用C N N 的 “ 组 合 ” 配 置 。表1和图5显示了使用Bi-LSTM的3种配置的AUC。使用doubleip时最明显的观察结果是准确性随着单词复杂性(大小)的增加而增加。然而,请记住,有一些只有35个氨基酸的肽链,随着维数()的增加,它们将无法充分表示,因为分词器施加的词汇上限使得来自较小肽链的“单词”被表示的机会例如,在5D输入中,氨基酸的可能组合是205 = 3,200,000,即使其中只有一半是在训练数据中,假设词汇上限为500,000,其中许多将被遗漏,导致几个肽链只有个位数长,而在6D中,几个序列根本没有表示。对于连接配置,我们观察到准确性随着字大小的增加而增加,但结果不如doubleip配置好此外,很明显,我们的理论是正确的,组合配置似乎给我们最好的结果。总体而言,所有6D模型的最佳准确率为99%5.2. CNN卷积神经网络,或者更具体地说,时域卷积网络通常不是标准方法,因为它看起来不是“本能的”。然而,如我们的案例所示,包含CNN也有一些优势。图6示出了使用CNN的组合配置。这里使用的配置有32个过滤器,3个内核,然后是最大池。由于前面提到的原因,我们排除了6D输入,以及增益似乎可以忽略不计的事实。使用CNN时的AUC评分Config.D1D2D3D4D5加入0.766 0.818 0.833 0.886 0.883电话:+86-021 - 8888888传真:+86-021 - 8888888联合收割机0.870 0.884 0.883 0.894 0.897表2显示了我们使用CNN的3种配置的AUC。 类似地,当使用CNN时,模型性能随着D的增加而提高。图7显示了使用BiLSTM和CNN的性能比较。我们观察到,使用CNN而不是Bi-LSTM在较低程度上为我们提供了更高的准确性,并且随着它的增加,它会达到Bi-LSTM给出的近似值。与Bi-LSTM相比,doubleip配置在较低输入下提供了显着的增益,并且它们与5个Bi-LSTM结果相当。为了理解 请记住,1个CNN模型的训练时间大约是训练5个Bi-LSTM模型所需时间的1%。事实上,已经观察到,基于CNN的模型总体上比在超参数调整中发挥重要作用的对应模型花费更少的时间来训练。另一个有趣的观察是,与Bi-LSTM不同,组合配置似乎对基于CNN的模型几乎没有改进。总体而言,所有6D模型的最佳准确率为97%5.3. 高级预处理在过去几年中,神经机器翻译中有几种预处理方法。 我们将把其中一些应用到我们的问题中。Config.D1D2D3D4D5D6加入0.7660.7840.8200.8470.8670.849N. Mathews等人医学信息学解锁26(2021)1007385见图7。 BiLSTMvsCNN。见图9。 耶尔森氏菌序列的3X预处理。见图10。 使用Bi-LSTM进行3X预处理。5.3.1. 序列截短到目前为止,我们使用的所有内容都应用了默认的NLP过程,如前所述,它将序列预截断和预填充到MAX长度,以便它们可以被神经网络处理。在预截断期间,从左边开始的单词(或者更确切地说,由分词器给出的它们的索引号)被截断以适合MAX长度。在这种情况下,问题是每条肽链中的氨基酸长度从35到近9000不等,这使我们在设置MAX长度时陷入困境。 如果它太低,你会错过太多的“单词”,从而降低模型的准确性。下一个明显的举措是使其尽可能高,以包括最大数量的单词。但这也导致了准确性的急剧下降为了更好地说明这个问题,考虑图1所示的序列长度分布。8 .第八条。最大长度(红线)覆盖了大多数数据点,这意味着包括了大多数单词。然而,你也可以看到红线下面有很多空的空间。当这个被翻译成一个序列矩阵,由于填充,我们最终得到了很多零,换句话说,我们有一个稀疏矩阵。CNN和Bi-LSTMS在这种情况下都不能很好地工作。我们最初选择尽可能接近中位数的MAX长度,以获得最佳结果,代价是丢失重要数据。为了解决这个问题,我们提出了以下配置。图9示出了“3X”预处理配置。输入序列被预截断以及后截断,以便从两侧获得单词。我们还添加了中心截断,以获得尽可能多的单词电话:+86-10 - 8888888传真:+86-10 - 88888888合并0.874 0.889 0.903 0.906 0.913在中间这三个输入通过单独的嵌入矩阵,这些矩阵以端到端的配置连接,以允许神经网络决定它们的重要性。我们首先在Bi-LSTM中进行测试,以获得图10所示的以下结果。可以观察到,3X预处理提供了很少的没有改善。因此,我们不再进一步进行,而是使用CNN模型。表3和图11显示了使用CNN进行3X预处理的结果。我们看到,与默认预处理相比,3X对CNN的影响是显著的。这向我们表明,具有doubleip和组合配置的CNN非常有效。总体而言,所有5D模型的最佳准确率为99%。该方法使我们更接近参考文献[1]中集成模型的最终AUC评分。 从这一点开始,我们开始讨论收益递减原则。这意味着我们到达了曲线的最后一端,对模型的任何重大更改都只会使我们的分数略有提高5.3.2. 注意机制传统上,NLP中的seq 2seq处理具有标准的编码器表3AUC 得分,使用CNN3X预处理Config.D1D2D3D4D5见图8。 耶尔森氏菌测试数据中的序列长度分布。加入0.8240.8380.8550.8810.897N. Mathews等人医学信息学解锁26(2021)1007386见图11。 使用CNN进行3X预处理。见图12。 注意使用CNN和双IP配置的Bi-LSTM。使用该隐藏状态逐词创建另一个序列。当输入序列太长时,模型会不准确,因为RNN会优先考虑最后的单词。为了解决这个缺点,我们应用了注意力层[17]。在这个模型中,Bi-LSTM在编码器中创建的每个隐藏层都被认为是创建一个上下文向量,用于确定解码器中的下一个单词图12显示了将注意力层应用于CNN和Bi-LSTM时的比较。注意力机制似乎在较低程度上没有改善,但随着D的增加开始证明自己。 不过,它似乎并没有超过以前使用的模型。 使用3倍的注意力输入似乎也没有任何区别。总的来说,Bi-LSTM的准确率为98%,CNN的准确率为99%。5.3.3. 变压器最近,工作[18]介绍了一种新的架构,称为transformers,它具有一个单独的基于注意力的编码器-解码器结构,其中编码器将一个序列变成一个连续的表示,而解码器使用它来逐步生成一个字。在这种方法中,两个物种中的共同氨基酸序列在相同的n维空间中进行处理。绕过这个问题并获得doubleip结果的近似值的一种方法是使用我们称为差分连接的东西。在此,每个氨基酸由一个氨基酸序列表示表4变压器的AUC评分Config.D1D2D3D4D5正规联接0.7500.8190.8460.8870.896差异连接0.786 0.801 0.869 0.892 0.895图十三. Transformers vs Bi-LSTM vs CNN。人类和耶尔森氏菌序列的不同字母。这样,嵌入矩阵中代表每个物种的每个词永远不会都一样使用默认输入(预截断)的变压器的AUC评分如表4所示:图图13显示了使用3种不同方法的比较。变换器为连接配置提供了最好的性能,D5的准确率约为99%。接下来我们将使用该属性。差分连接输入为我们提供了更好的结果,直到我们达到更高的程度。5.4. 最终模型为了获得最佳的AUC评分,我们将结合上述最佳方法。图14显示了我们模型的概览。我们将使用一种组合配置,其中 CNN将使用3Xdoubleip以及使用Transformers的3Xnormal join。我们不使用差分连接,因为它的功能是由CNNdoubleip配置执行的,该配置已被证明具有高性能。如前所述,组合架构需要考虑两个人的独立性质, 和耶尔森氏菌,以及解释的可能性,共同的序列位或“字”,从这两个物种在预测中发挥作用这就是使用Transformers的普通join发挥作用的地方。输入序列的度将是5D,因为这给了我们最好的结果,同时表示每个输入序列,即使它是以个位数计算。尽管doubleip的最大词汇量为500,000,而join为1,000,000。输入矩阵的宽度,即MAX序列长度,对于doubleip保持为1000,对于join保持为2000。以下步骤概述了我们的流程:1. 输入准备:人类序列、耶尔森氏菌序列以及称为连接的连接的人类和耶尔森氏菌序列2. 如上所述,将这三个序列中的每一个转换为5D格式。3. 对于每个新的训练数据:• 将5D序列列表转换为包含以下内容的单个句子一串单词N. Mathews等人医学信息学解锁26(2021)1007387图14. 最终模型。• 对于人类和耶尔森氏菌的句子,创建最大词汇量为500,000的单独标记器,然后根据出现频率为每个物种创建单词的• 对于Joined sentences,创建一个最大词汇量为1,000,000的分词器,然后为Joined中的所有句子创建单词的索引编号(按出现频率)4. 将Human、Yersinia和Joined的5D序列列表转换为包含一串单词的单个句子5. 加载Joined序列的分词器并将其应用于Joined句子,以创建三个宽度为2000的整数输入矩阵,它们是预填充和预截断,后填充和后截断以及中心截断。6. 加载Human序列的分词器,并将其应用于Human句子,以创建三个宽度为1000的整数输入矩阵,它们是预填充和预截断,后填充和后截断以及中心截断。对耶尔森氏菌序列使用其标记器执行相同的操作。7. 将Human和Yersinia序列创建的6个矩阵发送到单独的Embedding-CNN层,将Joined序列创建的3个矩阵发送到单独的双嵌入-Transformer层。8. 将所有输出连接到单个密集层,然后将其发送到具有sigmoid激活的单个输出神经元CNN的下降率保持在50%,而具有两个注意力头的变压器中的神经网络的下降率为90%。25的嵌入维数似乎给出了最好的结果,这是令人惊讶的,因为对于英语语言的NLP处理,尽管MAX词汇量要小得多,但它通常保持在300左右。Adam优化器似乎给出了最好的结果,尽管对于Bi-LSTM模型,它的学习率必须提高。 批量大小为32,以提供一些概括性,但不得不降低在交叉验证期间,由于训练数据的减少6. 讨论6.1. 人-耶尔森氏菌PPI这种集成的端到端神经网络为我们提供了迄今为止最好的性能。我们现在在独立测试数据集上的AUC得分为0.919,五倍交叉验证得分为0.910在训练场上3X输入的影响也得到了验证。图15. ROC曲线比较。在测试数据中,分离出233个最小的序列得到的AUC分数为0.914,而280个最长的序列得到的AUC分数为0.899。总的来说,我们取得了比[1]中的NetSS(0.88)和NetTP(0.82)更好的结果。有趣的是,从图。 15,小序列给我们更好的阈值,具有更多的“纯”真阳性,而大序列给我们更高和更多的“不纯”真阳性。6.2. 人病毒PPI我们将此过程应用于其他场景,通过尝试解决不同的问题来测试模型的通用性。 最近,Yang等人[7]提出通过基于序列嵌入的机器学习方法(doc2vec)来表示蛋白质序列来预测人类病毒PPI,该方法与我们的最终模型相似。还训练并包括随机森林(RF)分类器,其获得优于机器学习算法和常用序列编码方案的各种组合的优异准确性。我们的最终模型被应用于这个问题,没有任何数据检查或超参数调整。我们使用了[ 7 ]中的因此,所有这些都被连接起来,删除重复,随机化,并分成一个单一的训练测试对比例是80比20即使网络抓取没有得到序列 在所有蛋白质中,我们现在有一个长达50万行的数据集,这是最大的挑战。 训练数据必须分成50个子部分并保存,然后通过将每个子部分逐一加载到RAM中来训练模型。doubleip嵌入维数增加到50,以考虑到词汇表中的大量单词,这是不可避免的,因为数据集很大。创建tokenizer也是一个挑战,因为25 GB RAM只能保存一半的训练数据,同时执行tokenizer功能。为了克服这一挑战,根据源数据,使用训练测试组应用该模型这与[7]中的工作中的0.954相当必须指出对 于 该 模 型 的 任 何 PPI 使 用 , 所 使 用 的 列 名 必 须 是 [Human ,Yersinia,Label,Joined]。6.3. 与其他基于序列的编码方法的比较6.3.1. 联合三联征(CT)根据氨基酸侧链的物理化学性质,将20个氨基酸聚为7组,将蛋白质序列中的每个氨基酸替换为相应的组号,通过滑动窗口确定蛋白质序列中每个联合三联体的频率。因此,蛋白质对最终N. Mathews等人医学信息学解锁26(2021)1007388用686维向量表示[19]。另一方面,我们的模型使用每5个氨基酸组合作为单词(5D)来表示为输入矩阵。6.3.2. 局部描述符(LD)与CT编码类似,七组氨基酸也用于LD。将蛋白质序列划分为10个局部区域,进一步提取每个子区域的特征,主要反映底层蛋白质的局部特征。 每个区域由反映七个氨基酸组的特征的三个特征表示。这三个特征是组成(C)、转变(T)和分布(D),其中C表示每个氨基酸基团的组成,T反映任何两个氨基酸基团的组成,D代表氨基酸总数的第一、25%、50%、75%和100%的分布[20]。我们的模型不使用这些或任何生物化学知识6.3.3. 自协方差(AC)AC编码解释了不同位置序列之间的相关性和相互作用,并使用七个残基的理化性质来表示蛋白质。它们考虑了链中不同序列之间的距离[21]。就像以前一样,我们的模型不使用生物化学知识,但它在某种程度上考虑了序列之间的距离,因为每个序列都由一个单词表示,我们使用NLP技术,这意味着它们的顺序很重要。6.3.4. Doc2vec+RF这与这里实现的最终模型类似。在前面描述的人类病毒PPI预测工作中使用但这是使用分布式内存(DM)模型而不是CNN+Transformers完成的,并且单词不重叠,不像这里使用的单词重叠。此外,该模型是使用随机森林训练的,不像我们的模型是使用端到端深度学习训练的。此外,根据我们的理解,他们采用了标准的“doubleip”配置,而不是“combine”配置,由于前面描述的原因,该配置使用另一个嵌入矩阵来表示两个物种的序列。此外,他们没有考虑到序列的每一部分,就像这里使用“3X”配置一样6.4. 今后工作如前所述,这里使用的深度学习架构显示了我们方法的多功能性。然而,可以对用于此数据的转换器进行改进,例如残差网络结合不同数据集的超参数调整,这将在未来的工作中进行。一旦所有序列相关的工作都完成了,下一步将是训练一个图形神经网络,该网络在邻接矩阵和节点嵌入的帮助下通过蛋白质ID来解释PPI。另一个要考虑的因素是蛋白质折叠,这是多肽链折叠成为生物活性蛋白质的过程,对其功能至关重要。使用AlphaFold [22],使用氨基酸序列作为输入,蛋白质折叠预测具有相对较好的准确性。我们计划测试这些蛋白质的折叠景观或3D结构表示,作为端到端框架中的额外输入。7. 结论在这项工作中,我们应用多种自然语言处理方法来预测蛋白质之间的相互作用和鼠疫耶尔森氏菌通过检查各自的氨基酸序列。结果与[1]中的工作相比,该工作具有一个模型,该模型在处理序列和网络数据后分别给出0.924和0.922的独立测试和交叉验证得分,而不是我们的模型只接受序列数据。考虑到几乎没有进行任何类型的分析,第二项工作[7]的结果也令人印象深刻。我们的方法的主要优势在于,我们的设计使用创新方法为其他数据集提供了相当的性能,几乎没有预处理和超参数调整,并用人类病毒PPI证明了这一点竞合利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作引用[1] Lian X,Yang S,Li H,Fu C,Zhang Z.通过整合全面的主机网络属性,基于机器学习的人类-细菌蛋白质-蛋白质相互作用预测器。 J Proteome Res 2019;18(5):2195-205.[2]Ahmed I,Witbooi P,Christoffels A.用多层神经网络预测人与炭疽杆菌蛋白质相互作用。生物信息学2018;34(24):4159-64。[3]李华,龚晓娟,于华,周春.基于深度神经网络的蛋白质相互作用的预测使用初级序列。分子2018;23(8):1923。[4]Tsukiyama S,Hasan MM,Fujii S,Kurata H. LSTM-PHV:通过LSTM和word 2vec预测人类病毒蛋白质相互作用。BioRxiv 2021.[5]周红,李新,姚伟,刘正,宁S,郎春,等。基于知识选择的神经元蛋白质相互作用提取方法。Comput Biol Chem2019;83:107146.[6]Tsubaki M,Tomii K,SeseJ. Compound-protein interaction prediction with end-to-endlearningofneuralnetworksforgraphsandsequences.Bioinformatics2019;35(2):309-18.[7]杨X,杨S,李Q,Wuchty S,张Z.通过基于序列嵌入的机器学习方法预测人类-病毒蛋白质-蛋白质相互作用。Comput Struct BiotechnolJ 2020;18:153-61.[8]UniProt:2021年的通用蛋白质知识库。核酸研究2021;49(D1):D480-9。[9] Pedregosa F,Varoquaux G,Gramfort A,Michel V,Thirion B,Grisel O,等.S c i k i t - l e a r n :Python中的机器学习。JMach Learn Res 2011;12:2825[10] Rumelhart DE,Hinton GE,Williams RJ.通过误差传播学习内部表示。Tech.代表,加州大学圣地亚哥分校拉荷亚认知科学研究所;1985.[11] SchmidhuberJ,Hochreiter S. 长短时记忆。 神经计算1997;9(8):1735-80.[12] Cho K,Van Merriënboer B,Gulcehre C,Bahdanau D,Bougares F,Schwenk H等人,使用RNN编码器-解码器进行统计机器翻译学习短语表示。2014年,arXiv预印本arXiv:1406.1078。[13] Lea C,Vidal R,Reiter A,Hager GD.时间卷积网络:动作分割的统一方法。在:欧洲计算机视觉会议。Springer; 2016,p. 47比54[14] Bai S,Kolter JZ,Koltun V.对序列建模的通用卷积和递归网络的经验评估。2018年,arXiv预印本arXiv:1803.01271。[15] Abadi M , Agarwal A , Barham P , Brevdo E , Chen Z , Citro C , et al.TensorFlow:异构系统上的大规模机器学习。2015年,软件可从tensorflow. org获得。[在线]。可通过以下网址获得:http://tensorflow.org/。[16] Chollet F,et al. Keras. 2015年,https://keras.io。[17] 作者:Jiang Jiang,Jiang Jiang.通过联合学习对齐和翻译的神经机器翻译。2014年,arXiv预印本arXiv:1409.0473。[18] Vaswani A,Shazeer N,Parmar N,UszkoreitJ, Jones L,Gomez AN,et al.Attention is all you need.2017年,arXiv预印本arXiv:1706.03762。[19] Sun T,Zhou B,Lai L,PeiJ.使用深度学习算法进行基于序列的蛋白质相互作用预测。BMC Bioinformatics 2017;18(1):1[20] Davies MN , Secker A, Freitas AA , Clark E , TimmisJ, Flower DR. 优 化GPCR分类的氨基酸分组。生物信息学2008;24(18):1980-6。[21] Yang KK,Wu Z,Bedbrook CN,Arnold FH.为机器学习蛋白质嵌入。生物信息学2018;34(15):2642-8。[22] Senior AW , Evans R , JumperJ , Kirkpatrick J , Sifre L , Green T
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IEEE 14总线系统Simulink模型开发指南与案例研究
- STLinkV2.J16.S4固件更新与应用指南
- Java并发处理的实用示例分析
- Linux下简化部署与日志查看的Shell脚本工具
- Maven增量编译技术详解及应用示例
- MyEclipse 2021.5.24a最新版本发布
- Indore探索前端代码库使用指南与开发环境搭建
- 电子技术基础数字部分PPT课件第六版康华光
- MySQL 8.0.25版本可视化安装包详细介绍
- 易语言实现主流搜索引擎快速集成
- 使用asyncio-sse包装器实现服务器事件推送简易指南
- Java高级开发工程师面试要点总结
- R语言项目ClearningData-Proj1的数据处理
- VFP成本费用计算系统源码及论文全面解析
- Qt5与C++打造书籍管理系统教程
- React 应用入门:开发、测试及生产部署教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功