没有合适的资源?快使用搜索试试~ 我知道了~
������=������������∑=根据相关二面角[1,4]计算。此外,由于���������������������生命科学中的人工智能1(2021)100016Fiscore软件包:有效的蛋白质结构数据可视化和探索奥斯特·卡纳佩凯特药学院,雷丁大学,霍普金斯大楼,雷丁RG6 6UB,英国ABsTRA cT缺乏生物信息学工具来快速评估蛋白质的构象和拓扑特征,这促使我们创建一个集成的和用户友好的R软件包。此外,Fiscore软件包实现了高斯混合建模的管道,使非专家可以轻松访问此类机器学习方法。这一点尤其重要,因为概率机器学习技术可以在必要时帮助更好地解释复杂的生物现象阐明可能在蛋白质功能中发挥作用的各种结构特征。因此,Fiscore建立在蛋白质物理化学性质的数学公式上,可以帮助药物发现,目标评估或关系数据库的建立。此外,该软件包提供了交互式环境,以探索各种感兴趣的功能。最后,这个包的目标之一是吸引结构生物信息学家,开发更强大和免费的R工具,可以帮助不一定专门从事该领域的研究人员Fiscore(v.0.1.3)包通过CRAN和Github免费分发1. 介绍开发FiscoreR包以快速利用蛋白质拓扑/构象特征评估并执行各种分析,从而允许无缝集成到关系数据库以及机器学习管道中[1]。该软件包建立在蛋白质结构和拓扑学研究的基础上,这些研究导致了Fi评分方程的推导,该方程捕获了蛋白质二面角和B因子对氨基酸残基的影响(Eqs.(1)(2)[1]。引入的工具在合理的治疗开发中非常有益,其中生物制剂(如抗体)的成功工程依赖于靶蛋白上潜在结合或接触位点的表征[1,2]。此外,将结构数据转换为分数可以帮助目标分类,目标配体信息存储,筛选研究或集成到机器学习管道中[1,2]。因此,FI-score,这是第一个 计算机蛋白质指纹图谱方法,为开发专门且免费分发的R包创造了前提,以协助蛋白质研究和新疗法开发[1]。Fiscore软件包允许捕获二面角和B因子对蛋白质拓扑结构和构象的影响。由于这些物理化学特征可以帮助识别或表征度量或非参数密度估计方法,需要特定的变换来使用该数据。还使用了一个额外的参数,具体地说是晶体结构中原子围绕其平衡位置的振荡幅度(B因子)。B因子包含关于整个生物分子结构的大量信息;例如,这些参数取决于构象紊乱、热运动路径和氨基酸侧链的旋转异构体状态。B因子还显示出对三维结构以及蛋白质可溶解性的依赖性[1,4]。归一化二面角(标准差缩放以说明变异性和分布)和缩放的B因子(最小-最大缩放)(等式(1))被整合到Fi评分方程中(Eq.(2))。需要强调的是,B因子需要缩放,以便可以比较不同的结构文件,二面角归一化将角度数据转换为基于整体可变性的调整值[1]。因此,将二面角和B因子值组合成单个参数提供了一种提取关于单个残基、残基簇、基序和结构特征的信息的方法。这些信息可以有效地转移到机器学习中,以检测否则不容易识别的数据特征��� −最大值−最小值���结合口袋或任何其他治疗相关部位,重要的是从结构文件中提取和组合数据,以允许这些信息,等式1 B因子的最小-最大归一化和缩放,其中���是链中所选���碳原子的缩放B因子������积分[1,3,4]。选择蛋白质二面角是因为它们包含关于局部和全局蛋白质结构特征的信息,其中蛋白质骨架构象可以高度准确地再现。Bmax-蛋白质中所有非均质B因子的最大B因子值,Bmin-���蛋白质中所有非均质B因子标准化基于全长蛋白质。1������������������������−Ramachandran 图 提 供 了 二 面 角 分 布 的 可 视 化 , 即 φ ( phi ) 和 ψ(psi),仅允许整体描述构象,不能与传统的对位法结合。等式2.其中,N是二面角信息可用的原子总数,λ和λ值表示特定原子的二面角,λ������和λ������值表示相应原子的二面角������电子邮件地址:auste. algorithm379.comhttps://doi.org/10.1016/j.ailsci.2021.100016接收日期:2021年11月16日;接受日期:2021年11月18日2021年11月26日网上发售2667-3185/© 2021作者。由Elsevier B. V.发布。这是一个CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)可在ScienceDirect上获得目录列表生命科学期刊首页:www.elsevier.com/locate/ailsciA. 水磷铝石生命科学中的人工智能1(2021)1000162对应扭转角的标准偏差和��� -是原子的归一化B因子值������。B因子,������������������并且归一化基于全长蛋白质。为了基 于结构复杂 性识别有意 义的聚类, 选择高斯混 合模型(GMM)作为主要的机器学习分类器[1]。GMM的优势在于概率模型的性质,因为所有数据点都假设来自于具有未知参数的有限个高斯分布的混合物[1,5]。因此,与机器学习中的其他硬分类技术(如k-means)相比,GMM的软分类(其中数据点有属于聚类的概率)更适合于评估生物参数,这些硬分类技术仅提供类别之间的严格分离。GMM流水线具有许多优点,可以对蛋白质结构特征进行分类,并且该信息可以用于基于其物理化学参数探索氨基酸分组。所设计的GMM实现负责信息标准评估,以微调用于建模的聚类数量,并预测最适合期望最大化(EM)算法的模型,以最大限度地提高数据点分配的可能性[1,5]。因此,蛋白质残基可以基于它们的Fi分数进行分组,其中该信息可以用于识别蛋白质构象或拓扑结构中Nur77蛋白被用作一个案例来证明各种包装功能。核受体亚家族4A组成员1(NR 4A 1),也称为Nur 77/TR 3/NGFIB,是核受体超家族的成员,调节多个靶基因的表达[6]。这种核受体被归类为孤儿受体,因为没有已知的内源性配体。Nur 77具有核受体的典型结构,其由N-末端、DNA结合结构域和配体结合结构域组成该调节蛋白在调节细胞增殖和凋亡方面发挥许多潜在的治疗相关作用[6]。因此,Nur77蛋白是一个很好的例子,突出了深入的结构分析和分类如何用于更好地理解蛋白质功能和寻找可药用结合位点或识别配体。基于开发可集成的专用工具的需求,Fiscore软件包的开发是为了帮助解决从探索性分析到治疗靶点评估的各种研究问题(图1)。引入的一套新工具提供了对目标的交互式探索,并可轻松集成到下游分析中。重要的是,该软件包和相关工具被编写为易于使用和免费提供,以促进结构生物学或机器学习方面的非专家的分析2. 方法Fiscore软件包体系结构分为探索性和高级功能(图1)。几个关键包,如ggplot2[7],Bio3D[8],plotly[9]和milling[10],也被用来创建一个易于使用的分析环境,其中用户友好的GMM[1]机器学习管道允许进行强大的结构分析。GMM实现旨在包括最佳聚类数评估(贝叶斯信息准则; BIC)、聚类EM阶段的自动模型拟合、基于模型的分层聚类、密度估计以及判别分析[1,11]。研究人员还可以选择进行高级探索性研究或将该软件包集成到他们的开发管道中。Fiscore还负责原始数据的预处理和评估,并通过可选设置来调整分析的执行方式。该软件包是使用函数式编程原理构建的,使用几种R S3方法为PDB文件创建对象[12]。Fiscore附带文档和小插图文件,以帮助用户进行分析[11]。由于PDB文件通常很大,因此文档提供了一个压缩的测试环境以及详细的教程。使用PyMol生成额外的可视化[13]。从蛋白质数据库中检索蛋白质[14]。蛋白质序列比对用PSI-BLAST使用默认参数和单次迭代[15]。使用以下参数生成Nur77功能分析的疏水性图:窗口=15,权重=25,模型=Student水平=95%)在R编程环境中执行3. 结果3.1. 数据准备工作流程从PDB文件预处理和解析开始用户通常还应评估结构是否适合分析;也就是说,晶体学数据提供了良好的分辨率,并且在报告的结构中没有断裂或断裂数量很少函数PDB_process采用PDB文件名,可以表示为6KZ5.PDB或path/to/the/file/6KZ5.PDB。函数的依赖 项 之 一 是 包 Bio3D [8] , 这 个 有 用 的 包 提 供 了 几 个 此 外 ,PDB_process函数可以接受一个路径参数,该参数可以指向一个目录,在该目录中将PDB文件拆分为单独的链文件(下游分析所如果此选项为空,将自动在工作目录中创建一个文件夹。如果用户在一个循环中拆分多个PDB文件,它们将被连续添加到同一个文件夹中。处理完成后,函数PDB_process返回一个拆分链名称列表需要强调的是,PDB文件需要拆分以进行下游处理,以便可以独立地分析单独的链。在预处理一个或多个文件后,函数PDB_prepare可用于准备PDB文件,以生成Fi分数和标准化B因子值以及二级结构名称。函数取一个PDB文件名被分割成单独的链,例如,6KZ5_A.pdb,其中字母表示拆分链。然后对文件进行清理,仅保留氨基酸的完整条目用于分析,即,除去末端残基中不含两个二聚体的氨基酸。该函数返回一个数据帧, 蛋白质二级结构信息������提取蛋白质二级结构信息,即,‘这些功能是新的和扩展的结构文件探索的可能性,例如,其他软件包,如Bio3D[8]。函数调用简单且用户友好:#预处理原始PDB文件的通用函数pdb_df-PDB_process(pdb_path)#PDB文件PDB_df-PDB_prepare(PDB_path)#EX探测输出头(PDB_df)#该包允许直接调用Nur77示例文件的PDB_path- system. file(3.2. 探索性分析探索性分析的范围提供了评价理化参数(如二面角、B因子或疏水性评分)并可视化其分布的选项(图10)。①的人。A. 水磷铝石生命科学中的人工智能1(2021)1000163图1.一、包 装 特征的示意图可视化。图二. PDB文件处理输出。通过简单的函数调用访问基本分析,以探索二面角和B因子的分布方式。这些分析使关键参数的交互式和简单可视化变得更加容易,而这些参数目前还没有在任何其他软件包中提供。例如,虽然Bio3D[8]具有许多用于探索PDB文件的有用功能,但类似地,其他免费提供的工具(作为在线服务分发),如EX pasy ProtScale[16,17],仅提供一维评估,不包含结构特征,也不处理PDB文件。然而, “ F i _ s c o r e ” 在 简 单 的 函 数 调 用 中 结 合 了 序 列 、 结 构 和物 理 化 学 分 析 , 以 快 速 探 索 用 户 数 据 。#调用Ramachandran plot函数phi_psi_plot(pdb_df)#二面角juX分布的可视化 phi_psi_bar_plot(pdb_df)#B图值可视化B_plot_normalised(pdb_df)#通过2D分布A. 水磷铝石生命科学中的人工智能1(2021)1000164图三. 疏水性图与二级结构叠加。#精确查看单个氨基酸具有哪些参数phi_psi_interactive(PDB_DF)#二面角和B因子值的3D可视化phi_psi_3D(pdb_df)一个特别有用的功能是叠加的二级结构元件的疏水性可视化。据作者与EX pasy ProtScale[16,17]相比,可以可视化从PDB文件中提取的疏水性值及其相应的二级结构元素。这种评估提供了一种直接的方法来比较结构特征的基础上,他们的平均值,水的味道。这对于评估或预测潜在的结合位点以及生物工程新蛋白质非常有帮助。该软件包提供了一个易于使用的包装器:#或者可以选择指数模型疏水性图(PDB_DF,窗口=9,权重=25,模型=ponential'')核受体进行了评估,以提供一个案例,介绍疏水性分析。评价揭示了蛋白质的总体动态特征此外,Nur77显然含有见图4。Nur77蛋白,其中洋红色突出用于定义50至70个氨基酸之间的可能无序区域,青色指示127至140个氨基酸之间的区域。相对大量的右手α螺旋,其中大多数显示疏水性,即,分数越大,该区域越疏水。可以看到一些可能的无序区域跨越50-70个另一个有趣的区域是大约126类似地,180-210个氨基酸附近的区域A. 水磷铝石生命科学中的人工智能1(2021)1000165图五. Nur77的Fi评分分布见图6。高斯混合建模输出显示贝叶斯信息准则评估。溶剂少到溶剂暴露。这可能表明该位点经历了相当大的运动或积极参与其他蛋白质或DNA序列。这个序列中的无序元素延伸也意味着该区域必须可能容纳各种重排。因此,研究这些位点可以提供功能上重要的蛋白质结构域或亚结构域的提示(图1和2)。第3和第4段)。最后,evalu-为了蛋白质工程的目的,我们可以看到组氨酸标签不会显著破坏分子的构象,并且C-末端可能是标签的最佳位点。值得评论的是疏水性划痕的推导,因为该过程的算法性质提供了几个重要的参数,A. 水磷铝石生命科学中的人工智能1(2021)1000166图第七章 高斯混合建模评估的输出表。静态分析角度。该功能建立在Kyte-Doolittle疏水性量表[1,18]的基础上,用于检测蛋白质中的疏水区域。具有正值的区域是疏水性的,而具有负值的区域是亲水性的。该标度可用于识别表面暴露以及跨膜区域,这取决于膜的厚度。使用的窗口大小。然而,为了使比较更容易,原始标度从0转换为1(在EX pasy ProtScale中也实现了类似的缩放[16,17])。该功能需要PDB_prepare生成的PDB数据帧,用户需要指定窗口参数以确定疏水性计算窗口的大小。选择必须是3到21之间的任何奇数,默认值为21。另一个参数是权重,需要提供给函数以建立窗口边缘相对于窗口中心的相对权重(%);默认设置为100%。最后,模型参数提供了权重计算的选项;也就是说,选择确定是线性(���= ���λ ���+���)还是指数(���= ���λ������)计算权重;默认模型为“线性”。该函数评估选定窗口中的每个氨基酸,其中计算来自周围氨基酸的疏水干扰。虽然末端氨基酸不能被包括在居中和称重的窗口中,但根据Kyte-Doolittle量表[18]为其分配未加权值。图中的值都是从0到1的,这样就可以比较不同的蛋白质,而不需要转换。因此,当准备工程化用于各种表达系统的蛋白质时,疏水性分析可以是特别有用的,因为结构特征和疏水性得分的叠加可以帮助决定蛋白质区域或结构域是否可能暴露于溶剂或优选疏水环境。例如,评估N或C末端氨基酸的疏水性和结构环境可以帮助选择哪个末端位点应该被标记(如Nur77所示)。此外,该工具可广泛应用于药物发现研究,包括基于理化特性评估蛋白质-蛋白质相互作用、蛋白质-核酸相互作用和膜缔合事件。图八、 Nur77蛋白质簇鉴定与二级结构元件。A. 水磷铝石生命科学中的人工智能1(2021)1000167见图9。Nur77群集识别。见图10。已识别聚类的降维图。3.3. 高级分析高级分析提供了评估Fi分数分布并利用流线型GMM管道的机会(图1)。开发这条管道的主要动力是需要可以自由非专家也能接触到。相比之下,商业解决方案,即薛定谔化学模拟软件[19],或非商业/半商业解决方案,包括PSIPRED,AutoDock,MGLtools和EX pasy[16,20虽然上述软件套件或在线工作台A. 水磷铝石生命科学中的人工智能1(2021)1000168见图11。 蛋白质簇密度图。提供了许多有用的功能,但是没有一种解决方案来使用基于对用户的结构数据的推断的机器学习 也就是说,更高级的用户也有机会为GMM工作流程提供自定义参数,并从输出中提取概率,以在其他分析中使用分数或将值集成到自己的发现管道中。#Fi分数分布图, 探索 评分 为 对应- 氨基酸Fi_score_plot(PDB_DF)#选定区域#多个站点的此值可以存储在关系数据库Fi_score_region(pdb_df,50,70)中#具有叠加二级结构的Fi评分值的图Fiscore_secondary(pdb_df)例如,Fi分数分布图捕获了Nur77中50、130和180个氨基酸附近的几个有趣区域(图5),这些区域与Fi分数变化和镜像模式一致。另外还发现了一些需要进一步研究的区域,如氨基酸组成和三维构象。可以将未发现的特征引用到其他类似的站点,以便更好地理解互动机制这种方法在将已知结构与新识别的结构进行比较或调查潜在的结构异常值时特别有用。EX EFI得分值可以用于机器学习建模,这是通过函数cluster_ID启用的。该函数使用Fi分数和高斯混合建模对结构特征进行分组,其中自动选择在GMM聚类的EM阶段期间要拟合的最佳聚类数量和模型(图10)。(六)。该分析工具的输出总结了聚类信息,并提供了基于聚类编号和BIC值的可视化识别聚类的图(图7)。如果用户选择自定义其模型构建,则这些输出可用于更好地评估所选参数的模型性能#用户选择的参数df-cluster_ID(pdb_df,clusters= 5,modelNames=建议用户在启动项目时为更可重复的结果设置种子。cluster_ID采用一个数据帧,其中包含一个经过处理的PDB文件,该文件具有Fi评分值以及在模型选择期间要考虑的聚类数量;默认情况下,将探索20个聚类(“max_range”)。此外,还需要一个'secondary_structures'参数来定义绘图时是否需要包含PDB文件中的二级结构元素信息;默认值为TRUE。研究人员还可以选择一个集群编号来测试“集群”和“模型”。但是,需要强调的是,如果A. 水磷铝石生命科学中的人工智能1(2021)1000169见图12。Nur77配体结合结构域(PDB ID:6KZ5)、视黄酸受体α(PDB ID:1FBY)和雌激素相关受体γ(PDB ID:6KNR)的Fi评分分布图。Nur 77结构的彩虹光谱允许可视化从N-末端(蓝色)到C-末端(红色)的序列。(For解释关于本图例中的颜色参考,请参阅本文的网络版本用户希望测试自动BIC输出未提供的其他群集选项。这是一个高级选项,用户应评估BIC输出,以决定使用哪个模型和群集编号 他或她想试试。需要注意的是,cluster_IDoGMM的用户友好的实现,其中大多数技术决策已经自动合并。还自动提供了用于聚类可视化的降维方法(图10)。 降维是一种通过关键特征值探索多维生物数据的有用技术,这些特征值定义了探索特征的最大信息内容[10]。换句话说,人们可以推断所探索的特征如何定义数据,以及分类是否足以进行下游分析。例如,在Nur77 Fi分数聚类的情况下,该分析允许评估聚类的数量如何基于其分布特征分离数据点。Nur77具有六个X簇,这可能指示靶蛋白中功能和结构上不同的区域。数据点似乎被很好地分成了不同的组,解释了不同的变异性。降维方法还可以帮助确定不同数量的聚类是否可以更好地分类FI分数。构建这个软件包的目标之一年龄不仅提供了方便和易于使用的功能,以生成允许评估模型性能和数据点分布的附加图。此外,这组功能的最有价值的特征之一是生成具有二级结构信息的簇(图1A和1B)。产生的交互图使研究人员能够探索感兴趣的蛋白质的结构特征(图8和9)。第8和第9段)。因此,基于理化特征从而提供了一种检测和探索功能位点或结构元件的新方法 图图9和10清楚地表明Nur77中的一些结构元件在它们的功能和物理化学特性方面可能是相似的。例如,在某些情况下,不同类型的螺旋以及β折叠在其FI评分特征和指定的簇类型方面重叠这种结构元件的详细捕获可以帮助评估构象异常值或推断不同基序的相似性。此外,可以清楚地看到,50个氨基酸周围的区域与130和180个氨基酸周围的其他两个位点不同,这可能表明总体上不同的运动和相互作用特征。这些发现也与早期对疏水性特征的观察结果一致(图3)。对于N和C末端簇可以看到类似的趋势,它们形成不同的组,并可能指示受体介导特定功能的位点[6]。GMM引导的分析提供了一种新的方式来提取使用依赖于基于序列的分析的其他方法可能无法识别的模式EX pasy[16,17].所有之前的分析都与函数density_plots相关联,该函数提供了一个用于θ/θ角分布、Fi分数和归一化B因子的密度图集。还包括每个残基的二面角分布的三维可视化。这些图可用于快速评估总体参数以及总结观察结果。密度图在评估所选特征或评分分离蛋白质结构元素的程度以及蛋白质结构是否具有良好质量(即,二面角、B因子或Fi分数提供元素之间的合理分离)。该函数还提供了另一个参考点,以确定所选数字是否基于二级结构,A. 水磷铝石生命科学中的人工智能1(2021)10001610图十三. PyMol生成了可视化蛋白质结构的图,其中蓝色表示通过Fi评分模式识别的区域,其中顺式-9维甲酸以红色突出显示。(有关本图例中颜色的解释,请参阅本文的网络版本元素为了获得这些信息,用户只需要提供cluster_ID函数的输出(图10)。 11)。数据汇总和评估density_plots(PDB_DF)数据汇总和评估,包括GMM输出cluster_ID-cluster_ID(pdb_df)density_plots(cluster_ID)3.4. 案例研究:探索Nur77孤儿受体的潜在配体为了证明一些Fiscore应用,搜索了Nur77受体的潜在配体,Nur77受体可被视为复杂靶点,因为该孤儿受体没有已知的内源性配体[6]。第一个分析步骤涉及搜索不属于核受体亚家族4的其他PSI-BLAST比对分析产生了几种候选蛋白,即视黄酸受体α(PDB ID:1FBY)和雌激素相关受体γ(PDB ID:6 KNR)[15]。这些蛋白质显示出与Nur 77配体结合结构域序列的良好比对(平均同一性百分比31.68%;补充表1),并且随后被纯化。用于结构和功能探索。将Nur77 Fi分数与视黄酸受体α和雌激素相关受体γ Fi分数分布进行比较,发现了几种有趣的模式(图12)。蓝色阴影区域突出显示了所有蛋白质的匹配分布模式,Student有趣的是,该区域参与介导与视黄酸受体α中的视黄酸的相互作用(图13)。类似地,雌激素相关受体γ(PDB ID:6 KNR)具有已知的反向激动剂,其结合至由成对的α-螺旋、反平行β折叠和无序伸展产生的相同空腔[23]。反向激动剂表现出与视黄酸相似的几种结构特征,例如sca-10的大小/取向和关键芳族基团。此外,尽管氨基酸组成不同,但从叠加研究中可以看出,在研究的蛋白质中,该位点保留了关键的理化特征(图13)。这些观察结果表明,这一区域在容纳约束性事件方面可能至关重要。重要的是,机器学习探索(图8和图9)有助于对该区域周围的FI分数进行分类,这揭示了与周围N-和C-末端区域非常不同的重复模式。这进一步暗示了一个具有特殊功能重要性的站点,其中数据基于数据点值中出现的概率模式进行分组。该病例研究表明了一种有趣的可能性,即没有已知配体的Nur77可能与类似于维甲酸的化学实体结合。A. 水磷铝石生命科学中的人工智能1(2021)10001611酸[6]。 这也得到了比对数据和疏水性图的支持(补充图1和图2)。其中Nur77和视黄酸受体α对于该相互作用位点显示出实质性的结构和物理化学重叠。进一步的分子建模和对接研究可以帮助更好地理解结合能量学和新兴的相互作用。总的来说,这个例子揭示了通过评分和机器学习提取模式可以帮助识别具有共享和功能相关特征的蛋白质。因此,Fiscore允许轻松实现蛋白质结构数据挖掘和分类,而无需对结构进行多次目视检查。这些分析原理也可以应用于探索其他感兴趣的蛋白质及其潜在的配体。4. 讨论开发Fiscore软件包是为了满足通过机器学习进行蛋白质物理化学特征探索的一组简单易用、免费可用和适应性强的工具的需求。相比之下,其他商业、半商业或免费软件工具缺乏机器学习管道实现来探索结构特征,并且在大多数情况下,用户需要专门的知识来使用这些软件[8,16,19Fiscore软件包(图1)允许用户友好地探索PDB结构数据,并与各种机器学习方法集成。通过几个分析阶段对该包进行基准测试,这些分析阶段涉及一组不同的蛋白质(3352),以评估评分原则[1]和封装功能(1337结构)[11]。Fiscore具有许多有用的功能,包括在结构元素背景下的分布分析或疏水性评估,能够探索新的靶家族和全面的数据集成,因为所描述的指纹图谱捕获蛋白质序列和生物化学性质。这种分析在探索治疗相关蛋白质时可能非常有帮助此外,提供的教程和文档应指导研究人员进行分析,并允许根据个别项目需求调整软件包[1]。当一种化学化合物需要与许多潜在的靶点结合时,Fiscore这在Nur77的天然配体搜索期间得到证实,其中核受体的案例研究揭示了引入的评分和通过GMM捕获的物理化学数据的有用性此外,新的scor-机器学习系统以及机器学习应用程序可以导致交互,对结构和功能重要性的网站的洞察力。检索到的信息可用于比较研究,以寻找具有相似特征的其他蛋白质。例如,在Nur77中,一些FI评分值的变化与翻译后修饰一致或先于翻译后修饰(图5)[24]。这些信息可与指纹图谱一起纳入未来研究中,以更好地了解该受体的结构特征。Fiscore软件包的另一个重要方面是简化了复杂的分析步骤,这样,没有结构生物信息学或机器学习广泛背景的研究人员仍然可以使用这些工具进行分析,例如蛋白质工程、亲生物学和生物工程。 基于特定目标位点的蛋白质评估和数据存储。 因此,交互式分析和可视化工具可能在药物研究和药物发现研究中变得特别相关,因为需要以简化的方式评估更复杂的靶标和蛋白质-蛋白质相互作用。换句话说,将结构数据转换为参数的能力可以加速目标分类,目标配体研究或机器学习集成。由于目标评估是最重要的合理疗法的发展,有一个不可否认的需要专门的分析工具和技术,可用于研发或学术研究。 实施这些新这些方法可以显著提高我们评估新目标的能力并开发出更好的疗法。因此,Fiscore软件包被开发出来,以帮助进行治疗靶点评估,并使机器学习技术免费使用,更广泛的科学受众更容易获得。5. 资金开发该软件包没有得到外部资金的支持。竞争利益作者未报告任何利益冲突致谢作者要感谢匿名评审者和代码测试人员,感谢他们用宝贵的建议和意见帮助改进了这个包。补充材料与 本 文 相 关 的 补 充 材 料 可 以 在 在 线 版 本 中 找 到 , 在10.1016/j.ailsci.2021.100016。引用[1] 杨志华,李志华. Fi评分:一种新的蛋白质拓扑学方法,并有助于药物发现研究。JBiomol Struct Dyn 2021. doi:10.1080/07391102.2020.1854859。[2] DuJ, GuoJ, Kand D,Li Z,Wang G,WuJ, et al.药物发现的新技术和策略中国化学快报2020;31.doi:10.1016/j.cclet.2020.03.028。[3] 作者:Jiang E,Jiang E.以结构为基础的可药性评估-鉴定小分子治疗剂的合适靶点。《化学生物学前沿》2011年;15. doi:10.1016/j.cbpa.2011.05.020。[4] 张文,张文,张文.通过两层神经网络的引导学习提高蛋白质残基溶剂可及性和真实骨架扭转角的预测精度。74.第七十三章:意外doi:10.1002/prot.22193。[5]雷诺D..高斯混合模型2015; 10.1007/978-1-4899-7488-4[6] 吴磊,陈磊. nur77及其配体作为潜在抗癌化合物的特性。Mol Med Rep 2018.doi:10.3892/mmr.2018.9515。[7] WickhamH..ggplot2:用于数据分析的优雅图形2016;https://ggplot2.tidyverse.org。[8] 格兰特BJ,罗德里格斯APC,ElSawy KM,McCammon JA,洞穴LSD。 Bio3d:一个R软件包,用于蛋白质结构的比较分析.生物信息学2006;22:2695-6.[9] Sievert C.. 使 用 R 、 Plotly 和 Shiny 2020 进 行 基 于 Web 的 交 互 式 数 据 可 视化;https://plotly-r.com。[10] Scrucca L,Fop M,Murphy TB,Raftery AE.图5:使用高斯有限混合模型的聚类 、 分类 和 密 度估 计 。 RJ 2016;8( 1) : 289-317。 doi: 10.32614/RJ-2016-021。[11] Kanapeckaite A.. Fiscore:高效蛋白质结构数据可视化和探索2021;R软件包版本0.1.3;https://github.com/AusteKan/Fiscore。[12] 钱伯斯面向对象编程、函数式编程和R。29.第29章大结局doi:10.1214/13-STS 452。[13] DeLano W..PyMOL分子图形系统,版本2.3.02021;。[14] Berman H,WestbrookJ, Feng Z,Gilliland G,Bhat T,Weissig H,et al. Theprotein data bank.核酸研究2000年。doi :10.1093/nar/28.1.235。[15] Altschul S,Madden T,Schä er A,ZhangJ, Zhang Z,Miller W,et al. Gappedblast和psi-blast:新一代蛋白质数据库搜索程序。核酸研究,1997年。doi :10.1093/nar/25.17.3389。[16] Gasteiger E., 胡 格 兰 CGattiker A. , vaud S.D. , 作 者Ron D.阿 佩 尔 M.R.W.,Bairoch A.. Protscale2021;.[17] Gasteiger E., 胡 格 兰 C 和 S'everine Du vaud A.G., 作 者 Ron D.阿 佩 尔 M.R.W.,Bairoch A.. expasy服务器上的蛋白质鉴定和分析工具2005; 10.1385/1592598900[18] KyteJ, Doolittle RF.一种显示蛋白质亲水特性的简单方法JMol Biol 1982;157(1):105doi:10.1016/0022-2836(82)90515-0。[19] 薛定谔 薛定谔 platform2021;https://www.schrodinger.com/platform.[20] 伦敦大学学院。预测二级结构(psipred)2021;http://bioinf.cs.ucl.ac.uk/index.php? id = 779。[21] T.S.R.研究所。Autodock suite2021;https://autodock.scripps.edu/。[22] 计算结构生物学中心(Center for Computational Structural Biology,CCRB)的Sanner实验室。Mgltools软件套件2021;https://ccsb.scripps.edu/mgltools/。[23] KimagJ, Hwanga H,HeeseokYoona,Jae-EonLeed,Oh JM,An H,et al.雌激素相关受体γ的一种口服反向激动剂对放射性碘治疗分化不良的甲状腺癌显示出更大的疗效。EurJ Med Chem 2020.doi:10.1016/j.ejmech.2020.112501。[24] [10]张B,张伟. Phos-phositeplus,2014:突变、PTM和重新校准。核酸研究2015. doi:10.1093/nar/gku1267.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功