S15/NS1RNA结合结构域的进化关系及计算方法分析

74 浏览量更新于2024-01-09 收藏 2.19MB PDF 举报

医学信息学

分子进化

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

医学信息学解锁24（2021）100611具有相似蛋白质结构域模式的S15/NS 1 RNA结合结构域的进化关系--一种计算方法S.穆图·克里希南数据中心/生物信息学-MTCC，微生物技术研究所（CSIR-IMTECH），Sector-39 A，昌迪加尔，印度A R T I C L EI N FO保留字：S15/NS 1 RNA结合结构域支持向量机SVMPSSM分子进化A B S T R A C TRNA结合蛋白参与许多功能，尽管它们中的大多数由小RNA结合结构域组成。S15/NS 1 RNA结合结构域是核糖体S15和非结构NS 1蛋白。在这项研究中，试图找到进化相关的蛋白质折叠的S15/NS 1 RNA结合结构域使用结构和基于序列的分析，它被发现，几个蛋白质结构域折叠类似于这个折叠。除此之外，还开发了不同的基于支持向量机（SVM）的方法来分析这些折叠。根据结构、序列和基于SVM的分析结果，几个结构域折叠与S15/NS1 RNA结合结构域折叠在进化上相关1. 介绍数据库中以序列和结构形式存在的蛋白质信息的巨大增长使得理解与进化相关的蛋白质、结构域和折叠变得有趣。蛋白质序列是生物结构和功能的基本决定因素RNA结合蛋白（RBP）是通过一个或多个球状RNA结合结构域（RBD）与RNA结合的天然蛋白质，在基因调控、选择性剪接和翻译等广泛的生物学过程中发挥重要作用[1因此，这些类型的RBD中的几种已经被发现[5]。目前，许多计算方法可用于预测RBP，主要使用支持向量机（SVM）[6本研究的重点是S15/NS1 RNA结合结构域的结构相似性与不同的功能能力。几项研究表明，核糖体S15蛋白结合在30 S亚基的核心这是在核糖体装配期间最初与16 S RNA结合的小亚基内的七种主要RNA结合之一核糖体蛋白S15和流感病毒非结构蛋白NS1的RNA结合结构域共享相同的结构折叠，由不规则排列的三个螺旋组成[12]。一 number 的基于计算的工具是可用用于找到相似的蛋白质结构域和折叠使用蛋白质序列，如Pfam，CDD。基于结构的工具也可用于寻找蛋白质的结构分类，如CATH和SCOP [13这些工具被广泛用于分析蛋白质结构。通常，这些工具的输出结果显示域的相同功能，相似的褶皱同源蛋白质的起源通常来自祖先形式的基本互补。它们是许多不同的蛋白质结构域，结构不同，但折叠相似，功能相同或相关，或不同。因此，需要一种计算方法来识别与进化相关的具有不同功能域的相似结构。在本研究中，通过进行DALI和TOP检索检索1a 32- RNA结合结构域的结构相关蛋白结构域[20，21]。这里，PDB id-1A 32被用作搜索相关结构域的模板，因为使用的是1A 32具有一个显示为SCOP（蛋白质结构分类）的超家族在大多数情况下，单个超家族可能与不同的功能共享结构相似性。这些检索的大多数输出结果显示结构和功能相似的域。但很少，它识别具有相似结构的不同功能域。因此，不同的功能域是重要的，在研究域的进化关系。以下是从TOP和DALI搜索中选出的各个功能领域基本上，这些工具在数据库中进行比较和搜索相似性。TOP-Match工具已用于比较和匹配3D中的蛋白质结构[22]。除了结构和序列分析，支持向量机器（SVM）为基础的方法已经开发出识别各种域折叠。这里，开发了两种不同的SVM方法-电子邮件地址：muthu@imtech.res.in。https://doi.org/10.1016/j.imu.2021.100611接收日期：2020年10月23日;接收日期：2021年5月18日;接受日期：2021年5月19日2021年5月24日网上发售2352-9148/© 2021由Elsevier Ltd.发布这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表医学信息学期刊主页：www.elsevier.com/locate/imuS.M. Krishnan医学信息学解锁24（2021）1006112+-+已经使用了各种蛋白质序列模式，例如氨基酸组成（AAC）、二肽组成（DPC）、位置特异性评分矩阵形式的进化谱（PSSM）和杂交方法。由于增加了AAC和DPC特征，因此有可能制定一种混合方法。所有方法的准确度、灵敏度、特异性和马修斯相关系数（MCC）的完整预测结果见结果和讨论部分。所开发的方法模型的性能进行了分析，原始和其他域数据集。为避免结果偏倚，所有模型均使用相同数量的阴性序列开发。基于检索的蛋白质结构域的大小，从UniProt数据库中随机选择阴性序列。阴性序列与阳性蛋白一起使用，阳性蛋白标记为（），阴性蛋白标记为（）符号。SVM模型的性能与已知的正、负序列数据进行交叉检查。除此之外，还尝试使用开发的模型建立空白数据集，这些模型正确识别了蛋白质结构域。2. 方法2.1. 结构相似性搜索1a 32-S15/NS 1 RNA结合结构域折叠的结构相似性用于在在线搜索工具TOP和Dali搜索中生成相似的蛋白质结构域。使用蛋白质结构域进化分类（ECOD）选择各种功能结构域的最高评分[23，24]。目视检查各种蛋白质结构域折叠，并通过使用顶部匹配工具和PyMOL可视化软件定义等效区域与1a32结构域折叠叠加。从Dali和Top搜索中分别选择了结构相似但功能不同的结构域折叠的其他8个蛋白质结构域，分别为1 JM 0-C、1 LRZ-A、1 S5 L-Z、1 SKV-B、1FEW-A、2 JMH-A、2 PFV-A和3C 232.2. 序列相似性搜索通过对NCBI的非冗余数据库运行PSI-BLAST程序，在比对的结构域区域中选择1a 32-S15/NS 1 RNA结合结构域折叠的序列相似性.应用默认临界E值阈值0.001。此外，1JM0- C、1LRZ-A、1S5L-Z、1SKV-B、1FEW-A、2JMH-A、2PFV-A、3C23-A、分别选择序列相似性2.3. 多序列比对从PSI-BLAST检索1a 32 RNA结合结构域折叠的序列相似性。使用CD-HIT程序减少数据集的大小，使MSA的冗余度降低到50%。这意味着数据集中没有两个序列具有相同的相似性[25]。最终的数据集由13个序列组成，包括1a 32-A。MSA是基于1a32 SVM模型的性能（完全、部分识别和未识别）构建的，即所有AAC、DPC、PSSM和Hybrid 1a32 SVM模型均将检索到的蛋白质结构域识别为完全识别，仅少数识别模型表示部分识别，且未被任何模型识别为未识别。2.4. SVM的数据集准备所有的数据集大小已减少到0.95（95%）的CD-HIT程序。在删除不需要的序列如1a 32-S15/NS 1 RNA结合结构域的“片段”、“同种型”、“潜在”或“可能“或小长度序列后，最终数据集包含223个比对序列。它检索了针对nr数据库运行的PSI-BLAST的多达5次迭代。类似地，其他结构对齐的蛋白质通过使用默认参数运行PSI-BLAST检索结构域，序列总数为1 JM 0 -158、1 LRZ-30、1 S5 L-103、1 SKV-17、1FEW-116、2 JMH-24、2PFV-222和3C 23 -218。2.5. 支持向量机（SVM）方法免费提供的SVM-light软件包已用于处理分类和回归问题，以实现训练数据集。这个软件包是一个独立的程序来训练模型，并允许许多参数和核函数，如线性，多项式，径向基函数或任何用户定义的内核[26]。使用可调参数C：折衷值、g-gamma因子（RBF 核中的参数）、j-Cost：成本因子的最佳值来确定最佳精度。在我之前的研究中，SVM_light用于预测纤溶酶原激活物[27]、BacHbpred-细菌血红蛋白预测[28]、OXYPRED-OXYGEN-结合蛋白预测[29]和VerHb-脊椎动物血红蛋白预测[30]。在的电流研究， SVM 基于方法是发展到鉴定1a 32-S15/NS 1 RNA结合域的同源蛋白。其他TOP和Dali搜索同源蛋白质结构域SVM模块已分别开发。2.6. 氨基酸谱方法在本研究中，生成各种氨基酸谱作为输入特征i）氨基酸组成（AAC），ii）二肽谱（DPC），iii）位置特异性评分矩阵（PSSM）形式的进化谱和iv）杂交。AAC组成计算为蛋白质中每个氨基酸的分数除以总长度对于蛋白质中的氨基酸，训练向量输入长度为20。DPC通过序列中可能二肽的二肽的出现除以所有可能二肽的数量来计算[31]，该组合物的输入载体长度为400（20 × 20）[32]。混合方法是通过结合AAC和DPC配置文件开发的。该方法的输入向量长度为420（20 400），分别属于AAC和DPC [33]。PSSM配置文件是通过运行免费下载的gpsr_1.0软件包可从（http://www.imtech.res.in/raghava/gpsr/）对比通过NCBI（ftp://ftp.ncbi.nih.gov/BLAST/db/）下载的非冗余（nr）数据库以下程序用于计算PSSM谱，seq2PSSM_imp用于计算柱格式的PSSM矩阵，而没有任何标准化，通过使用不同的迭代对非冗余蛋白质数据库进行PSI-BLAST搜索，截止值为0.001。对于长度为N的序列，从PSI-BLAST比对输出计算aN× 20位置特异性取代矩阵X（m），其中m [i，j]提供了关于序列位置（i）处残基类型（j）的进化保守性的信息PSSM矩阵的X值变化范围很大，这给SVM的运行带来了困难。因此，位置（i）处的每个PSSM元素X（i）需要使用由公式（1）执行的程序PSSM_n2程序来归一化，如我先前的研究[30]中所示X（i）=（n（i）-l（i））/（m（i）-l（i））（1）其中X（i）、n（i）、l（i）和m（i）分别定义为：单个残基位置的PSSM输出的归一化值X（i）、残基实际位置分数n（i）、最小分数l（i）和最大分数m（i）[34，35]。这些值从0到1进行归一化，因此最小分数为“0 "，最大分数设置为“1”。最后，PSSM_comp和col2svm程序用于生成SVM_light输入格式（400点向量，表示每个氨基酸到任何其他氨基酸的取代率）以运行SVM。2.7. 培训、测试方法和绩效衡量在基于SVM的预测方法中，经常使用以下三种交叉验证方法：i）独立数据集检验，ii）子检验，S.M. Krishnan医学信息学解锁24（2021）1006113∓±+++联系我们===-± =+==== ± ==== ± = +==-± =+===（）=（）=的--一种Sn=1-N0≤Sn≤1⎪不，-不-负序列，包括1a32倍蛋白质结构域模型。抽样检验，和iii）刀切检验。采用五重交叉验证技术，将数据集平均分为五组，四组用于训练，剩余一组用于测试，并对所有组重复分类信息的目的是将1a 32- RNA结合结构域与阴性学科的结合结构域区分开。如我以前的研究所示，以下术语用于评估我们的分类器[36]，真阳性（TP）-真阴性（TN）- a假阳性（FP）-通过分类器而不是通过1a 32-RNA结合结构域模型将假阴性（FN）- a利用该技术，计算ACC、SN、SP和Matthews相关系数（MCC）以进行准确预测。准确度用于正确预测阳性和阴性样本。灵敏度计算的积极的例子，准确地预测为积极的。计算阴性样本的特异性，这些样本被准确地预测为阴性样本，因为它们被用于基于SVM的机器学习来测量二元分类的质量。下列公式（2）-其中，N是研究的阳性蛋白的总数，而N是错误预测为阴性的阳性蛋白的数量;N是研究的阴性蛋白的总数，而N是错误鉴定为阳性的阴性蛋白的总数[43]。从公式-6中可以清楚地看出，当N 0时，意味着没有预测为非1a32- RNA结合结构域折叠的阳性结构域蛋白质序列（阴性蛋白质结构域），灵敏度Sn 1。当N

下载后可阅读完整内容，剩余1页未读，立即下载