没有合适的资源?快使用搜索试试~ 我知道了~
医学信息学解锁26(2021)100728人类肝配蛋白A型受体3(EPHA3)基因中有害SNPs的计算机预测Dipankor Chatterjee,Umar Faruq Chowdhury,Mohammad Umer Sharif Shohan,Md Mohasin,Yearul Kabir*达卡大学生物化学和分子生物学系,孟加拉国A R T I C L EI N FO保留字:单核苷酸多态性(SNP)非同义SNP(nsSNP)Ephrin A型受体3腺癌dbSNP数据库A B S T R A C TEphrin type-A receptor 3(EPHA 3)是一种酪氨酸激酶受体,参与细胞迁移、粘附等多种生物学功能,其基因调控异常可导致多种肿瘤的发生,如前列腺癌、肝细胞癌等。因此,需要计算机SNP分析来筛选出有害的SNP。使 用 10 种 生 物 信 息 学 工 具 , 从 dbSNP 数 据 库 检 索 的 631 个 非 同 义 SNP ( nsSNP ) 中 预 测 41 个 非 同 义 SNP(nsSNP)是潜在有害的,并且非同义SNP改变野生型氨基酸;这些取代可能导致结构的变形并妨碍蛋白质的适当功能性。ConSurf综述显示,所有41个有害SNPs主要存在于高度保守的区域。这些预测的有害SNPs被广泛研究了它们对蛋白质稳定性、动力学行为、表面可及性、二级结构和与其他分子的相互作用的影响。这些预测的SNP中的许多存在于二级结构的α-螺旋、延伸片层和β转角中,并且由于电荷密度、疏水性、氢键和其他有利键的变化,它们对结构产生显著影响。使用HOPE预测的表型效应并将其与建模结构相结合,R799C和R750Q被认为对蛋白质的三维结构具有最显著的功能影响。21个SNPs与3 ' UTR区miRNA靶位点的改变有关这些发现将为探索与EPHA3受体蛋白相关的各种疾病或癌症提供必要的数据,提供补救性生物标志物,有助于分子诊断,并有助于设计靶向特异性治疗药物。1. 介绍肝配蛋白受体(EPH)家族是受体酪氨酸激酶的最大亚组之一,参与许多重要功能,例如发育、定向分割、轴突引导、成束、血管生成和肢体发育[1]。这些蛋白质含有五个结构域:一个胞外配体结构域、两个III型纤连蛋白结构域和两个胞内结构域:酪氨酸激酶和不育-α-基序(SAM)结构域。两种类型的肝配蛋白(EPH配体),A型肝配蛋白,B型肝配蛋白,通过糖基磷脂酰肌醇(GPI)部分或跨膜结构域与蛋白质紧密相互作用。Eph受体和含肝配蛋白的细胞之间的相互作用导致双向信号传导。这些事件导致了一系列稳定细胞间接触或导致细胞排斥的事件。Eph受体参与多种途径,如通过Rho激活细胞形态,通过MAPK途径参与细胞生长,通过钙粘蛋白复合物,以及通过来自EPH受体的下游信号传导经由整联蛋白复合物的细胞-基质相互作用。受体-配体二聚体形成异源四聚体,其进一步组装成高阶信号簇。EPH受体N端结构域中的高亲和力结合位点介导细胞间Eph-ephrin相互作用。EphA 3受体的细胞内信号传导由三个确定的酪氨酸残基的自磷酸化引发,两个在高度保守的JUXTA-膜区域中,第三个在活化环激酶结构域(Y 779)中[2]。随后肌动蛋白和肌球蛋白细胞骨架快速重组,导致细胞突起回缩、膜起泡和细胞脱离,随后接头蛋白CrkII与酪氨酸磷酸化的EphA3缔合并激活RhoA信号传导[3]。因此,EPHA3是一种重要的生物活性蛋白受体。已经发现EPHA3在脊椎动物中高度表达,发展 EPHA3 表达 是 限制 在 成人 组织和* 通讯作者。电子邮件地址:ykabir@du.ac.bd(Y.Kabir)。https://doi.org/10.1016/j.imu.2021.100728接收日期:2021年8月27日;接受日期:2021年2021年9月7日网上发售2352-9148/©2021的 自行发表通过Elsevier 公司这是一个开放接入文章下的CCBY-NC-ND许可证(http://creativecommons.org/licenses/by-nc-nd/4.0/)中找到。可在ScienceDirect上获得目录列表医学信息学期刊主页:www.elsevier.com/locate/imuD. Chatterjee等人医学信息学解锁26(2021)1007282+--≥与脊椎动物的早期发育阶段相比,在低水平上显著检测到。EPHA3的异常表达与许多癌症相关。这些异常可能是由于EPHA3基因特定区域的突变变化而发生的。因此,应进行EPHA3受体蛋白分析,以更好地了解受体的疾病和制定治疗方案。到目前为止,许多研究已经报道这种蛋白质与许多癌症相关,如肺腺癌[4],结直肠癌[5],胰腺癌[6]等。肝细胞癌是中国常见的癌症之一,由EPHA3过表达引起[7]。已经发现EPHA3基因表达增加在前列腺癌中具有较低的存活率[8]。单核苷酸多态性(SNP)是遗传标记在人类基因组中每200-300个碱基对就有一个突变在人类基因组的编码区中,大约有50万个SNP。蛋白质结构、稳定性和功能可能受到保守区域中取代氨基酸的影响[10,11]。高风险的非同义SNPs(nsSNPs)能够改变蛋白质功能,从而导致人类疾病。此外,一些研究发现,超过50%的与遗传性遗传疾病相关的变异是由nsSNPs引起的。许多研究已经发现了影响感染的可能性以及感染性和自身免疫性疾病的进展的多个nsSNP[12计算机模拟研究现在是寻找与疾病或癌症相关的特定蛋白质的特定点突变的一般方法。在这些基于计算机模拟的方法中已经使用了许多工具来筛选特定基因的有害功能nsSNP。这些工具可以预测与结构和功能相关的任何变化,并基于其算法提供具有高度准确性的分数。通过使用这些计算机模拟方法,已经鉴定了许多基因的功能和结构SNP,例如BRCA 1(乳腺癌1型易感蛋白),BRAF(B-Raf原癌基因)[15],IGF 1 R(胰岛素样生长因子1受体)[16]在这项研究中,已经进行了详细的调查,以发现有害的nsSNPs在EPHA3蛋白,并评估其有害或致病的影响。使用不同的预测算法,我们对高风险的nsSNP进行了分类,并研究了它们对EPHA3蛋白的结构和功能影响。此外,对接计算和分子动力学(MD)模拟被用来理解突变如何影响蛋白质结构的二级和三级水平。因此,本研究的结果可为针对包括癌症在内的各种疾病的特定药物和治疗策略2. 材料和方法2.1. nsSNP的收集从NCBIdbSNP数据库[17](http://www.ncbi.nlm.nih.gov/SNP/),并且 EPHA3蛋白质序列从Uniprot 数据库(https://www.uniprot.org/)检索。2.2. 通过SIFT鉴定有害SNPEPHA 3基因的nsSNP首先通过SIFT-从耐受性中分选不耐受性[18](https://sift.bii.a-star.edu.sg/)程序筛选,以发现最有害的SNP。SIFT可以通过分析与其他类似蛋白质的序列同源性和单个氨基酸的物理性质来预测氨基酸取代是否影响蛋白质功能。预测分数小于或等于0.05被认为是有害的,大于0.05被认为是耐受的。2.3. 分析有害SNPSIFT 预测 是 经受到 三工具 用于预测功能性后果。PolyPhen-2 [19],Phenotyping Polymorphism version 2,该工具可以通过使用机器学习方法、TMHMM(transmembrane helixprediction by hidden Markov model)算法和高质量的多序列比对来预测nsSNP对蛋白质结构和功能的影响。PolyPhen-2预测nsSNP的影响,并将nsSNP分类为可能有害的、可能有害的和良性的SNP。 I-Mutant 3.0 [20]使用基于支持向量机(SVM)的预测器预测任何单点突变的蛋白质稳定性变化。 I-Mutant依次提供结果ΔΔG(吉布斯自由能)。ΔΔG0表示下降稳定性,ΔΔG>0表示稳定性增加 PROVEAN [21](http://provean.jcvi.org/index.php),蛋白质变异效应分析仪,可以预测由于任何氨基酸的取代插入-缺失对蛋白质功能的任何影响。如果PROVEAN评分等于或低于预试验值,则预期蛋白质变异具有“ 有 害 “ 影 响 。确定阈值(-2.5),并且预测高于阈值的分数 到 有 一 “中立”效果nsSNPs 预测 从 的上述工具进一步经受四种不同的生物信息学工具。SNPs GO [22]是一种基于SVM的分类器,疾病概率得分>0.5的疾病相关SNPSNAP-2[23]是一个经过训练的分类器,它使用称为“神经网络”的机器学习方法PON-P2 [24]使用随机森林算法根据随机森林概率得分预测致病性,中性和未知类别。突变评估器[25]算法基于进化保守性预测氨基酸置换的功能影响,并提供5.2至6.5的功能影响综合评分。 SusPect [26]使用序列、结构和系统生物学特征来预测错义突变的影响。它提供了从0到100的评分范围,中性和致病变异之间的临界值为50。PMut[27] 分类器使用随机森林方法来预测致病突变,并提供0到1之间的预测得分评分为0至0.5的突变被认为是中性的,评分为0.5至1的突变被归类为病理性的。选择最终预测的nsSNP用于下游分析。2.4. 蛋白质结构域中nsSNP的鉴定将EPHA3蛋白的FASTA序列提交给InterPro[28] 服务器(https://www.ebi.ac.uk/interpro/)。InterPro服务器预测家庭,保守的领域,并通过使用各种签名特征的基本网站。在使用InterPro服务器识别域之后,在这些域中手动确定nsSNP的位置。2.5. 通过STRING数据库分析的STRING v11.0 [29](https://string-db.org/)用于鉴定EPHA 3与其他蛋白质的相互作用谱。高置信度(得分90%)交互网络被选为研究对象。服务器使用计算手段确定功能和物理关联,并将来自其他数据库的信息连接到更好的基础上,蛋白质之间的相互作用2.6. EPHA3的保守性分析和地表可及性预测ConSurf [30](https://consurf.tau.ac.il/)生物信息学工具用于研究蛋白质序列中nsSNP位置的进化保守性在这个工具中,同源蛋白质之间的系统发育关系进行了分析。将EPHA3蛋白的FASTA序列提交给服务器,筛选出高度保守的残基[31]。此 外 , 在 从 UniProt 数 据 库 收 集 序 列 后 , 对 人 ( UniProt ID :P29320)和11个不同物种的这些D. Chatterjee等人医学信息学解锁26(2021)1007283==物 种 包 括 黑 猩 猩 ( H2QMY7 ) 、 三 线 鼠 ( I3MNR9 ) 、 斑 点 叉 尾(W5UFX2)、尼罗罗非鱼(I3J961)、食蟹猴(G7NZ61)、小家鼠( Q8BRB1 ) 、 野 猪 ( E1BJS9 ) 、 原 鸡 ( F1NJX6 ) 、 褐 家 鼠(G3V9D5)、野驴(IDF 7C3U9)和白羊(W5Q6R5)。使用ClustalW算法进行多序列比对,并使用MEGA-X中的1000个自举重复生成系统发育树[32]。NetSurfP-2.0 [33](http://www.cbs.dtu.dk/services/NetSurfP/)用于使用默认参数确定氨基酸残基的表面可及性。服务器集成深度学习方法预测表面可达性。将相对表面可及性(RSA)设定为25%作为阈值。超过25%的RSA被视为暴露。ConSurf、Mega X和NetSurfP提供了关于保护和表面可达性的预测。2.7. 影响力SNP与COSMIC数据库中的体细胞突变一致癌症体细胞突变目录(COSMIC)数据库(https:cancer.sanger.ac.uk/cosmic)是探索体细胞突变在各种人类癌症中的影响的最全面的资源丰富的数据库之一。它提供了与癌症有关的许多基因突变的数据,并从体细胞的角度涵盖了癌症遗传景观[34]。还在COSMIC数据库中检查了对应于EPHA3基因突变的预期SNP,以了解预测SNP在各种恶性肿瘤中的影响。2.8. 表型效应预测HOPE服务器[35](https://www3.cmbi.umcn.nl/hope/)用于预测点突变对蛋白质结构的表型影响。HOPE使用BLAST算法在UniProt和PDB数据库中查找给定序列的同源序列。它进行多重序列比对,并根据保护水平提供评分。疏水性、电子密度、键、空间结构等的变化,都是通过这台服务器投射2.9. EPHA 3的稳定性分析有害的SNP高度影响蛋白质的稳定性。I-突变体3.0 [20]和MUpro[36]用于稳定性分析。I-突变体3.0(http:gpcr2.biocomp.unibo.it/cgi/predictors/I-Mutant3.0/I-Mutant3.0. 基于吉布斯自由能(ΔG),采用支持向量机预测器cgi对稳定性进行预测。ΔG的负值-Δ Δ G> 0表示稳定性增加,ΔΔG> 0表示稳定性增加能力它在稳定性预测期间考虑大数据集,因此,它提供了高度准确的分数。MUpro还根据吉布斯自由能(ΔΔG)解释结果,置信度评分在-1至1之间。2.10. 蛋白质结构域上的突变聚类预测Mutation 3D [37](http://mutation3d.org/index.shtml)使用完整的连锁聚类方法预测突变簇,并适当地表示蛋白质模型上存在突变簇的位置。该服务器用于研究预测的nsSNPs在EPHA3蛋白的特定结构域上的位置。在这些功能结构域中形成簇的nsSNP可能以更高的百分比影响蛋白质。2.11. 对接界面Ephrin A型受体3是一种参与各种关键生物途径的酪氨酸受体激酶,与有助于保持途径正常运作的蛋白质相互作用。在EPHA3蛋白的对接界面或结合位点中相互作用残基的任何变化都会影响EPHA3蛋白的功能。整个系统。一个名为CPORT的工具[38](https://alcazar.science.uu.nl/services/CPORT/)用于寻找参与与配体或其它蛋白质相互作用使用默认参数,这个敏感的工具分类与其他蛋白质相互作用的活性或被动残基。2.12. 蛋白质的3D建模野生型EPHA 3的三维结构和所有过滤的有害nsSNP结构通过Swiss-Model[39](一种同源性建模工具(https://swissmodel.expasy.org/))建模。由于EPHA3的完整结构的缺乏,激酶结构域的apo形式2QO2(https://www.rcsb.org/structure/2QO2)被用作EPHA3蛋白的特异性激酶结构域生成的模板。模拟的激酶结构域具有EPHA3蛋白的595至904个残基第二个模板4 M4 P(https://www.rcsb.org/structure/4M4 P)使用EPHA 3蛋白的上段,这导致产生另一种模型EPHA 3结构 , 其 包 含 序 列 26 至 538 。然 后 通 过 TM-align(https://zhanglab.ccmb.med.umich.edu/TM-align/)评估所有突变的结构,其提供模板建模得分(TM得分)[40],并通过Pymol评估均方根偏差(RMSD)[41]。TM评分范围为0-1。1分表示叠加的野生和突变结构的完美匹配。因此,TM评分越低,野生型和突变形式之间发生的主链C α配位偏差越大。RMSD是指模型结构偏离原生结构的程度预测的RMSD越高,意味着从天然状态转移的结构越多。2.13. 野生型和突变型EPHA3的二级结构评估SOPMA[42]二级结构预测工具(https://npsa-pr abi.ibcp.fr/cgi-bin/npsa_automat.pl? page/NPSA/npsa_sopma. html),用于预测蛋白质的二级结构构象。该工具提供了72%的预测准确率。该工具用于预测EPHA 3的二级结构(α-heliX,coil和βturn),具有8个相似性阈值水平和17的窗口宽度2.14. 模型改进和评估根据上述预测的最有害的SNP模型(具有最高RMSD值的最小TM分数 ) 经 受 GalaxyRefine [43 -46 ] ( http://galaxy.seoklab.org/cgi-bin/submit.cgi? REFINE型)与野生型EPHA3蛋白一起通过动态模拟进行结构的整体松弛。这种方法使用分子动力学模拟来获得更大的结构弛豫。瑞士模式结构评估(https://swissmodel.expasy.org/assess)、ERRAT(https://servicesn.mbi.ucla.edu/ERRAT/)、ProSA(prosa.services.came.sbg.ac.at/prosa.php)是用于评价目的的工具。这些 服 务器 预 测 了MolProbity 、 Ramachandra 图 、 QMEAN 、 Z 分 数 和ERRAT分数的分数,这些分数对于评估建模结构至关重要2.15. 蛋白质-配体对接分析将过滤的最有害的SNP和野生型(对照)EPHA3结构针对获自PubChem的ATP对接。Pythonis虚拟筛选软件用于该对接过程。Python包括Autodock wizard、AutodockVina和其他软件[47,48]。将对照和突变的EPHA3以及精制的ATP经受AutodockVina。使用Open Babel软件来精炼ATP。在默认参数下进行对接,并设置网格框X,使得框X覆盖整个蛋白质结构。然后在PyMol [49]和Discoverystudio [50]中观察获得的复合物D. Chatterjee等人医学信息学解锁26(2021)10072842.16. 分子动力学模拟CABS-flex 2.0然 后 通 过 动 态 模 拟 CABS-flex 2.0 [51] 网 络 服 务 器( http://biocomp.chem.uw ) 检 查 获 得 的 对 接 复 合 物 。edu.pl/CABSflex2/)上提供。该服务器通过高效的建模程序为蛋白质复合物的灵活性提供快速模拟。以50个循环进行10 ns的模拟,同时使用默认蛋白质约束和1.0全局权重作为参数。2.17. 利用PolymiRTS技术鉴定3 ' UTR中的功能性nsSNPs使用PolymiRTS [52](Polymorphism in microRNA and their targetsites , http://compbio.uthsc.edu/miRSNP/ ) 数 据 库 提 取 microRNA(miRNA)种子区和miRNA靶位点中的非编码SNP。该服务器预测改变microRNA靶位点或创建新靶位点的非编码SNP。预测得到了许多实验数据库的支持,如miRecords,miRTarBase等。3. 结果用于发现EPHA3基因的有害nsSNPs的研究、方法和工具的进展总结于图2中。1.一、3.1. 从dbSNP数据库从NCBI dbSNP数据库收集EPHA3基因信息。EPHA3基因SNPs数据库共包含81,907个SNPs,其中nsSNPs 631个(0.77%),内含子SNPs79,839个(97.48SNPs中,287个(0.35%)SNPs编码同义SNPs,42个(0.05%)SNPs编码5'UTR SNPs 中 , 793 个 ( 0.97% ) 为 3'UTRSNPs , 315 个(0.38%)为3'UTR SNPs。SNP是其他类型的SNP(图2)。取EPHA3基因上的nsSNP进行分析,因为它们可以改变氨基酸序列。3.2. SIFT识别的缺失SNPsSIFT通过分析同源蛋白质的序列同源性和氨基酸的物理性质来预测有害的SNP。在631个nsSNP中,SIFT预测281个nsSNP是有害的nsSNP,在下游工具中进一步分析3.3. 有害SNPPolyPhen-2预测可能有害的nsSNP为最有害的nsSNP,具有高置信度预 测 。 它 预 测 281 个 nsSNP 中 有 222 个 是 最 有 害 的 。 I-Mutant 3.0(Suite)预测了183个与蛋白质稳定性改变相关的nsSNP。PROVEAN算法预测211个nsSNP为可能影响蛋白质功能的有害nsSNP(补充表1)。SNP GO预测165个nsSNP为有害的nsSNP,SNAP-2预测211个受影响的nsSNP,PON-P2预测221个病理性nsSNP,突变体评估器预测183个nsSNP为疾病相关的nsSNP(补充表2)。在检查了八种不同的计算方法后,发现所有工具都共享81个nsSNP。然后,SusPect和PMut预测工具分析了这些选定的81个SNP。最后,选择具有高稳健性的41个nsSNP用于进一步分析(补充表3)。在所有10种生物信息学工具中均发现了这些有害的SNP,并以高置信度进行了鉴定(表1)。D. Chatterjee等人医学信息学解锁26(2021)1007285Fig. 1. 设计了方法学的工作流程。D. Chatterjee等人医学信息学解锁26(2021)1007286图二、EPHA3基因SNP的百分位数分布。表1最有害的SNPs计数来自10个生物信息学工具与阈值水平。工具阈值水平预测计数SIFT0.05损坏41Polyphen-2> 0.95可能具有损害性41I-Mutant3.0 G 0大幅减少41<稳定性PROVEAN-2.5 Deleterious 410.5疾病41SNAP-2-100(中性)0 100<<(强效应)效果41PON-P2>0.5致病性38未知杂质3MutationAssessor功能影响评分>3.5高121.9功能影响因子介质29疑似>50损坏41PMut>0.5疾病413.4. 通过InterPro服务器识别EPHA3的域InterPro工具预测了EPHA3蛋白的结构域区域。它主要报道:EPH-配体结合结构域(29-207)、纤连蛋白III型结构域(325-435)、纤连蛋白II型(436-531)、蛋白激酶结构域(621-882)和SAM结构域(911-975)。预测了EPHA 3蛋白的活性位点(742-754)。在EPH-配体结合结构域(R66 S)、蛋白激酶结构域(G766 V、Y 779 C、N751 D和R745Q)和底物结合位点(P824 S)中发现了几种有害的nsSNPs。3.5. 通过STRING v11.0分析EPHA3蛋白相互作用服务器揭示了10种蛋白质与EPHA3蛋白质相互作用(图3)。这些蛋白质主要参与信号通路、蛋白激酶活性、神经元识别和许多其他通路。肝配蛋白A型配体,如EFNA 5、EFNA 1、EFNA 2、EFNA 4、EFNA 3配体肽通过糖基-磷脂酰肌醇(GPI)部分与EPHA 3受体蛋白结合,而肝配蛋白B型配体,如EFNB 1、EFNB 2、EFNB 3通过跨膜结构域与EPHA 3受体结合。EPHA 3还与衔接分子CRK-II相互作用,转化蛋白RhoA并调节许多重要功能。3.6. 揭示SNPs与EPHA3稳定性之间的关系为了预测SNP对蛋白质稳定性的影响,使用I-mutant 3.0和MUpro。这两种方法使用不同的算法,具有不同的准确度因此,他们预测结果,图3.第三章。通过STRING V11服务器探索蛋白质-蛋白质相互作用。不同的方式然而,这两种工具都认为ΔΔG<0是稳定性下降的标志。ΔΔG> 0被认为是稳定性水平的提高。I-mutant和MUpro预测了所有41个预测有害的SNP将导致稳定性降低,因为所有SNP的预测ΔΔG均低于0(补充表4)。由于这种稳定性降低,可能发生蛋白质错误折叠和降解。因此,这41个SNP极有可能影响蛋白质稳定性。3.7. EPHA3蛋白高度保守的残基最有可能参与蛋白质的结构完整性和功能。因此,对EPHA3蛋白的保守性谱进行了评价以用于进一步分析。ConSurf算法代表 了EPHA 3蛋 白 所 有 氨基 酸 残 基 的 结 构 和功 能 保 守 水 平 。 根 据ConSurf,在41个SNP位点中,23个位点将被严重掩埋,保护水平为9,12个位点将被强烈暴露。D. Chatterjee等人医学信息学解锁26(2021)1007287保护等级为9级(补充表5)。其余的都是以8级的保护等级埋葬的。因此,这些结果进一步证实了预测的nsSNPs是高风险的有害nsSNPs,影响EPHA3蛋白的结构稳定性和功能。这些发现也通过MEGA X软件包的多重序列分析(MSA)进行了验证。为了观察不同人群之间EPHA3蛋白的序列同源性,选择了11个物种与人EPHA3。通过MEGA X进行的系统发育分析显示,人类(智人)和黑猩猩(黑猩猩)具有高度的序列同源性,表明EPHA3蛋白在灵长类动物中高度保守(图1)。 4).在通过ConSurf和MEGA X工具分析结构和功能保守水平后,NetSurfP使用默认参数进行了表面可达性测试。RSA阈值被设置为25%,这意味着低于25%的RSA表示掩埋在结构中,并且大于25%表示残留物暴露。NetSurfP在41个高度有害的SNP中预测了10个SNP,其得分超过25%并显示暴露状态。其余31个SNPs得分低于25%,说明了埋藏结构(补充表5)。3.8. 与癌症体细胞突变目录(COSMIC)数据库在预测的41个有害SNP中,15个SNP与COSMIC数据库的突变匹配因此,这些匹配的SNP对应于宇宙突变,表明预期的SNP将显著影响EPHA3基因与各种恶性肿瘤。由于所有41个SNP都是通过密集的生物信息学分析发现的,因此它们可能会改变EPHA3的功能特性并促进癌症进展。3.9. 预测的SNP的生理结果HOPE服务器用于测试所得缺失SNP对EPHA3的三维结构的影响。服务器预测40个突变氨基酸大小不同,13个电荷不同,29个疏水性不同。EPHA3蛋白质的三维结构可以因为这些性质的改变而被破坏。根据HOPE预测总结,当野生型脯氨酸突变时,结构的刚性受到显著影响。P869S、P846R、P846A、P846T和P824S是HOPE预期的改变结构刚性的5个SNP。此 外 , 当 甘 氨 酸 突 变 时 , 结 构 的 灵 活 性 被 破 坏 。 G955V 、G766V、G628E、G228R和G705A是这样的预测可能影响扭转角和蛋白质柔性的SNP。此外,预测了一些破坏结构的核心结构域的SNP。除了这些特性之外,这些突变还阻碍了许多其他特性(补充表7)。3.10. 通过模型模拟观测结构稳定将41种突变蛋白与野生型EPHA3一起建模,以研究由于有害SNP引起的野生型EPHA3的偏差。首先将野生型序列中的野生型氨基酸替换为其相应的SNP,然后使用Swiss-model服务器预测该特定SNP突变的EPHA 3的3D结构。由于没有发现蛋白质的完整晶体结构,因此使用PDB ID2QO2作为激酶结构域的模板,并且使用4M4P作为EPHA 3的上部片段用于同源建模。在对41个SNP进行同源性建模后,通过PyMol和TM align服务器对模型进行研究。将所有突变的结构与相应的野生型结构域单独比对。在所有结构中,R750Q和R799C表现出最大的RMSD得分(0.091,0.159),TM得分较低,分别为0.93915和0.95704。 较高的RMSD表明野生型和突变体α碳主链之间的显著偏差,并且较低的TM得分指较少的拓扑一致性。因此,来自EPHA3上段的突变模型均未显示任何显著结果。因此,选择激酶结构域的突变模型(R750Q、R799C)用于进一步分析(表2)。在EPHA3的运行中发现了一些突变簇通过Mutation 3D服务器与预期的有害SNP进行比对簇5包括SNP G766V、G628 E、I652 M、R799 C、R745 Q、L668 P、L685 P和R750 Q(表2)。有很多簇里面有很多SNPs。结果,在聚类的SNPs中,基于表型预测和结构异质性测量,选择R750Q和R799C进行进一步分析。CPORT还预测它们将在蛋白质表面发现,与其他蛋白质或配体积极相互作用(表2)。3.11. SNPs对EPHA3二级结构预测工具SOPMA预测了野生型EPHA3的相对二级构象。预测该蛋白25.64%(252个残基)具有α螺旋结构,21.67%(213个残基)参与外链构象。5.70%的结构由B形转弯组成。此外,大多数结构(47%)具有无规卷曲构象。α螺旋X包含12个预测的SNP。在外链中,发现了14个SNP,在无规卷曲中,鉴定出13个SNP。此外,在转基因结构中还发现了两个SNPs图四、 目标人EPHA3(紫色)蛋白以及11个其他物种的系 统发育 树分析 ,具有50%自举截止值。D. Chatterjee等人医学信息学解锁26(2021)1007288表2TM比对、PyMol(RMSD值)、Mutation 3D和CPORT的预测评分表3选定模型的评价分数。SNP TM align PyMol rmsd Mutation 3DCPORTR312Q 1 0SNPRamachandran偏好区错误评分Molprobity评分PROSA Z评分Q平均得分Y 596 H 1 0G955 V 0.99999 0.016断路器1P869S 1 0T67N 1 0过滤器2Y470H 1 0A748 T 0.96194 0.007R868 S 1 0V197G 1 0G766V 0.95621 0.049斩波器5有源R66S 1 0.001变频器2无源P846 R 0.99998 0.002继电器3G628E 1 0断路器5 Active粤ICP备05018888号Y 68 H 1 0过滤器2A182T 1 0.01I652M 1 0变送器5I874T 1 0A148 G 1 0R799C 0.95704 0.159催化剂5活性G228 R 0.9998 0.015W 919 C 1 0型搅拌机1R750Q 0.93915 0.091继电器5有源W 919 L 1 0台搅拌机1F667 S 0.95156 0.005变频器5Y779C 0.96342 0.005S805N 0.95054 0.004L499F 1 0.009R842 Q 1 0变送器3P824 S 0.94574 0.006断路器3R745Q 0.96276 0.009催化剂5活性I754N 1 0G705 A 1 0N751 D 0.94379 0.042L 668 P 0.95599 0.058电容器5W345R 1 0Y124 C 1 0L685P 1 0继电器5无源P846 A 1 0变送器3P846 T 1 0.001变送器3F801 S 0.95984 0.094(补充表8)。在R750Q和R799C突变体EPHA3的二级结构中观察到变化。服务器预测R750 Q 和R799 C突变体结构中分别有25.43%(250)和24.92%(245)的残基具有α-螺旋结构。另外,21.97%(216个)和21.26%(209个)的残基形成延伸链,47.20%(464个)和47.81%(209个)的残基(470)R750Q和R799C突变体结构中分别有5.39%(53)和6%(59)形成无规卷曲。观察到野生型EPHA3和突变型EPHA3之间的二级构象存在差异。因此,二级结构可能由于这些SNP而被破坏3.12. 3D结构细化和模型评估使用GalaxyRefine网络服务器完善野生型EPHA3、R750Q和R799C突变模型服务器为每个生成5个模型,然后将它们提交给瑞士模型评估。选择在Ramachandran图的最优选区域中具有最高残基百分比的模型用于相应的SNP。使用PROSA、ERRAT和瑞士模型评估工具对预测模型进行所有模型的工具的质量验证分数如表3所示。所有的模型都被认为是可以接受的评价工具。控制95.45 96.875 1.07-8.71-0.23R799C 94.81 97.916 0.94-9.35-0.78R750Q 95.45 98.269 0.82-9.13-0.743.13. 蛋白质-配体复合物的分子对接及动力学性质分析在检查了R750Q和R799C模型的验证后,使用改进的ATP进行对接。从PubChem获得ATP结构,并在Openbabel软件中进行优化[53]。与对照和突变的EPHA3结构的ATP对接分析显示结合自由能的显著变化的束缚自由能对照结构的结合亲和力为-8.3,而对R750 Q和R799 C的结合亲和力分别为-7.5和-7.4。然后在PyMol中分析每个复合物,发现突变模型的ATP结合位姿不同于天然ATP复合物(图5)。因此,氨基酸的改变改变了EPHA3蛋白的结合性质。然后在Discovery Studio中检查天然ATP和突变ATP复合物分析显示,与对照-ATP复合物相比,突变模型-ATP复合物中的键合相互作用显著减少。常规的氢键相互作用在R750 Q模型-ATP复合物中显著降低,但R799 C-ATP复合物缺乏其他有利的键合相互作用。许多参与与ATP的键合相互作用的残基在突变的ATP复合物中不存在(表4)。通过分子动力学模拟,观察了天然蛋白和突变蛋白在生理条件下的动力学性质。CABS-flex 2.0动态工具用于此目的。用均方根波动法(RMSF)分析蛋白质复合物原子水平的偏差。对照、R750Q和R799C复合物的平均RMSF值分别为0.9940032、0.9406387和0.9663645。因此,突变体ATP复合物的RMSF值平均低于天然ATP复合物。这意味着突变体结构已经失去了它的多功能性。虽然整体灵活性可能会降低,但根据该图,两种突变蛋白质的波动都显著发生在特定区域,大于天然复合物。它详细说明了动力学行为的改变(图6)。760-800位的残基对于两种突变体蛋白比天然蛋白更灵活,其中rmsf高达3.8kb。所有模型的C-末端残基表现异常。在中间区域和N-末端也观察到两种突变蛋白的显著波动。因此,氨基酸的变化影响了EPHA3蛋白的复合本质。3.14. PolymiRTS预测3' UTR区功能性SNPsPolymiRTS预测miRNA靶位点的SNPs,因为这些位点的任何变化都可能导致miRNA-mRNA相互作用被破坏或产生。服务器预测了miRNA靶位点中的21个SNP(补充表9),其中两个被发现为INDEL,其祖先等位基因是未知的并且可以改变miRNA种子区域,并且另外19个SNP可以破坏保守的miRNA靶位点(D)或产生新的miRNA靶位点(C)。4. 讨论考虑到保守区域对于维持蛋白质结构和功能的重要性,本研究使用具有不同算法的计算机模拟D. Chatterjee等人医学信息学解锁26(2021)1007289图五. (a)所有3种对接的ATP构象与对照EPHA 3(绿色)蛋白的可视化,针对野生型对接的ATP:橙色;针对R750 Q突变体对接的ATP:针对R799 C突变体对接的红色ATP:黄色。&(b)对照-EPHA 3、(c)R750 Q和(d)R799 C突变体针对ATP配体(橙色)的相互作用氨基酸残基(红色)。(有关此图例中颜色的解释,请读者参考本文的Web版本表4预测模型和精制ATP之间的相互作用和键长。HB(常规氢键)、AC(吸引电荷)、CHB(碳氢键)、UPP(不利正-正)、PDHB(π-供体氢键)、UAA(不利受体-受体)。对照EPHA3_ATP突变体R750Q突变体R799C相互作用残差距离(mm)键类型相互作用残差距离(mm)键类型相互作用残差距离(mm)键类型Asp5982.10HBAsp5981.95HBMet7022.41HBAsp5985.22AC中国人7442.69UAA中国人6522.05HB中国人7442.39HBAsp7465.05
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功