没有合适的资源?快使用搜索试试~ 我知道了~
⃝⃝可在www.sciencedirect.com在线ScienceDirectICT Express 5(2019)182www.elsevier.com/locate/icte基因调控的语言建模:从实验语言到建模作者:Alexander V. Spirova,b, J. MyaschivacaLab Modeling of Evolution,I. M. 俄罗斯科学院谢切诺夫进化生理学和生物化学研究所。俄罗斯圣彼得堡b俄罗斯科学院社会科学科学信息研究所,俄罗斯莫斯科c彼得大帝圣彼得大帝高等研究中心。圣彼得堡理工大学俄罗斯圣彼得堡接收日期:2018年10月1日;接受日期:2018年在线发售2018年11月20日摘要了解基因调控机制是发育系统生物学的主要目标之一在这篇文章中,我们引入了一种以生物学为导向的方法,通过明确涉及所有可用的经验数据来建模基因调控该方法是通过进一步发展被称为模糊语言模型(FLM)的基因作用的不同方法的家庭。FLM使得用简单的规则来表述多样的和等级的基因调控组织的已知细节成为可能,即,将实验者的语言表述的实验结论改写为模型设计者的语言。c2018 韩 国 通 信 与 信 息 科 学 研 究 所 ( KICS ) 。 Elsevier B. V. 的 出 版 服 务 。 这 是 CC BY-NC-ND 许 可 证 下 的 开 放 获 取 文 章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。关键词:模糊语言建模;实验者语言;建模语言;基因调控;转录协同;结合协同1. 介绍基 因 调 控 的 理 解 , 一 般 来 说 , 和 基 因 调 控 网 络(GRN)的行为,特别是,是当前系统生物学的主要目标。系统生物学为此目的开发了一种数据驱动的方法,其中所有可用的数据都被用来建立模型,然后通过新的实验工作验证计算测试的结论,并将这些新结果用于改进模型[1]。目前,仍有几种不同的方法通过建模来研究基因作用[2]。在这篇文章中,我们将集中在系统生物学建模的问题,使用的例子果蝇胚胎分割GRN作为现代计算生物学最发达的领域之一。在胚胎模式化的研究中,最流行的方法是联结主义和热力学模型[3,4]。连接主义(或基因电路)模型属于*通讯作者。电子邮件地址:aspirov@iephb.nw.ru(A.V.Spirov),myasnikova@spbcas.ru(E.M. Myaskova)。同行评审由韩国通信和信息科学研究所(KICS)负责https://doi.org/10.1016/j.icte.2018.10.008粗粒度方法的类别,而热力学建模可以被认为是最详细的(细粒度)模拟级别[5]。连接主义模型将GRN视为简单的单层感知器。该方法通过动态描述每个基因活性速率这些模型中的基因相互作用假定为线性[3,5]。该方法隐含地基于这样的期望,即训练有素的感知器因此,经过严格的训练(逆向工程)后,感知器连接网络将类似于实际的GRN连接[6]。这些期望是非常古老的,模型可以很好地模拟正常的GRN行为,但模型预测突变,扰动或噪声的后果非常差(预测能力低,[7])。热力学建模基于给定基因的调控区或顺式调控模块(CRM)组织的真实实验或生物信息学知识[2,4,8]。这是一个定量模型,旨在预测2405-9595/c2018韩国通信和信息科学研究所(KICS)。出版社:Elsevier B.V.这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。A.V. Spirov和E.M.Myasanova/ICT Express 5(2019)182183+TFnK([ ]图1.一、 典型Bcd驱动增强子的功能组织。包括Bcd在内的几个激活BS的阵列激活子BS倾向于以与DNA-螺旋步骤相等或成比例的距离分开(见正文),并且正是这种布置使得这种增强子的协同激活成为可能。协同激活可以由希尔定律描述(左插图;方程图及其FLS近似)。阻遏物作用也可以通过希尔定律(Hill law)描述(右插图;详见正文)。Hill方程描述了稳态下的mRNA表达水平作为游离TF浓度[TF]和常数K的函数:[TF]n,Hill系数n定义了协同度。基因的表达。统计热力学通过在平衡条件下对DNA结合和蛋白质相互作用进行建模,提供了一个描述基因调控的自然框架[9]。在这方面,该方法明确包括我们对转录因子(TF)结合位点(BS),其强度,方向和确切位置的了解。它给人一种错误的印象,即这种方法处理的是通过实验发现的精确的调节组织。但在现实中,情况并非如此:这种方法通常忽略了许多可用的细节层次组织的监管连接。它通常忽略了通过DNA模板和通过转录机制整合的调节输入的非加性、协同性[4,8])。所有这些考虑因素促使研究人员考虑其他更面向数据的方法来建模GRN行为(通过逆向工程),直接包括所有可用的经验数据,并以简单,自然的方式进行我们认为,最好的方法是进一步发展通常由伞形项模糊语言模型FLM[2]所指的各种方法。这些特别是使用“如果”的. . 那么,. . ,否则。. . 这使我们能够用简单的规则来表达不同层次的调控基因组织的已知细节我们的方法结合了现代跨学科研究中积累的知识。最近出现了一系列实施FLM的出版物(主要是混合方法)在粗粒度GRN建模水平(模糊基因电路模型)[10同时,正在开发更详细的模型,包括推断基因调控逻辑的模型(以破译基因转录中的TF调控逻辑)[15,16]。与此同时,TFBS组织成功能基因调控模块CRMs的规则正在研究中[17这些规则可以被称为增强器的语法规则或CRM语法1[17,18,22]。这是一种将用实验者的语言表达的实验结论改写为用于设计模型的语言的方法。这个语法的知识允许您制定描述GRN行为的调节函数。这些规则可用于开发细粒度的FLM。虽然粗粒度级别的FLM相对先进,但将模糊逻辑引入细粒度建模的尝试还处于起步阶段(参见。[23、24])。在这次交流中,我们提出了我们的版本的FLM在细粒度的水平。我们将模糊建模与CRM语法和基因调控逻辑推理相结合(图1和图2)。1- 2)。我们使用研究最多的基因调控元件(CRM)家族之一的测试案例来说明我们的方法,Bicoid驱动的增强子[25](见图11)。①的人。转录因子Bicoid(Bcd)是一个关键的例子,是发育生物学中研究得最好的形态发生素之一[26]。它作为一个实验模型,为许多其他标准物质。我们的主要目标是在语言结构(规则)方面制定基于实验的增强子调节规则。这些规则可用于实现全尺度的模糊语言模拟,以得到具有高预测性的细粒度GRN模型动力.2. 我们的方法我们开发我们的FLM方法的背景下,基因活性的细粒度模型(TFBS集群水平)。这个层次是基于非常详细的知识,基因调控元件的功能组织和更接近生物现实相比,粗粒度的方法。我们使用增强子语法(相互TFBS位置的规则)的分析来根据调控功能制定基因调控逻辑[15,16],如第3.1节。通过使用遗传算法选择调节函数的类型和参数来训练模型,以实现对可用的定量基因表达数据的满意拟合2.1. 我们的模糊逻辑模型的GRN在细粒度的水平我们使用标准的一般表示的模糊逻辑系统(FLS)。我们的FLS的一般方案在图中给出。 二、在我们的方法的上下文中,FLS框架适用于感兴趣的增强子家族的特定功能细节。1CRM语法:CRM中的序列组织,例如TFBS的一致间距,数量和方向,允许其基于序列的(间接)识别。184A.V. Spirov和E.M.Myasanova/ICT Express 5(2019)182一般来说,逻辑推理包括模糊化、模糊推理和解模糊化(图2)。我们的FLS的输入是通过所研究的增强子控制靶基因活性的调节因子的表达水平的集合(参见图1)。图1与图3)。输出是靶基因的活性水平(表达水平,即,mRNA的产生量)(参见。图 3)。在我们的情况下,模糊化自然是使用三角形模糊集实现的[27]。对于去模糊化,使用常见的、直观的和计算上容易的高度去模糊化方法[27]。模糊推理:对于我们的增强子(测试对象)集合,我们制定了一组语法规则,定义了调节函数的类型和特征,用于将它们进一步制定为模糊调节函数(参见3.1节)。调节功能根据增强子序列与衍生自整个可用增强子家族(特异性Bcd驱动的增强子)的给定基序之间的匹配程度来定义。模型定义的模糊语言规则如果。. . 那. . 别的. .2.2. 案例对象Bcd形态发生梯度是进化发育生物学研究最多的对象之一[28,29]。它被用作发育系统生物学领域的测试案例,基准案例。Bcd因子通过一组Bcd驱动的增强子激活一组果蝇分节基因。Bcd通常需要多个结合位点来激活基因表达,并且这种激活通常是协同的。描述了几十种在果蝇早期发育中起作用的Bcd驱动的增强子,其中一些(例如,hunchback标准物质和偶数跳过条纹元素)进行了详细研究[3,8,25,30]。的功能核心元素是Bcd BS的集群,如图所示。1.一、Bcd驱动的增强子与许多其他CRM一样,整合了来自激活子和共激活子以及阻遏子和共阻遏子的许多调节输入,以确保稳健和精确的早期胚胎模式。这些条例通常具有协同作用和层次性。基 本 水 平 通 常 是 协 同 DNA 结 合 , 例 如 在 Bicoid(Bcd)、Hunchback(Hb)和其他DNA结合之间。关键活化剂和共活化剂(见图1)。这种效应确实增加了总体结合亲和力,导致对激活剂浓度相对较小的增加产生急剧的过渡反应[28,29,31]。此外,增强子通常在激活子BS附近含有一些阻遏子BS(图1)。阻遏物通常是短程的:它们对相邻结合的激活物起阻遏作用。增强子也存在其他水平的基因调控,但它们超出了本文的范围。3. 结果和讨论研究发现,Bcd倾向于与其他(共)激活剂协同作用,充当激活剂,并且这种协同作用决定了其增强子组织的规则[25,28,29]。图二. 模糊逻辑系统流程图应用于基因调控元件(增强子)活性的模糊建模问题。推理机使用模糊基因调控功能,这些功能是根据增强子语法分析的结果制定的(见正文)。图三. 输入因子、激活因子(Bcd、Cad、Hkb)和阻遏因子(Kr、Kni、Tll)的空间结构域如何在“条纹”增强子的控制下将hb靶基因表达的尖峰(hbant和hbpost)仅定位在沿着早期胚胎的主前后轴(由箭头示出)的两个特定位置。在胚胎的其余部分,沿着主轴,这种增强剂被完全抑制。详情见正文我们可以将其视为语法规则,并且在大多数研究的情况下,可以制定语法规则,特别是针对复杂BS集群的强度、顺序和间隔长度(参见图1)。[203.1. 增强文法为了为我们的FLS制定一组模糊规则,我们制定了用于从激活子和阻遏子BS构建增强子集合的语法规则(图1B)。 2)。首先,增强子核心由Bcd结合位点簇组成。BS倾向于以与DNA螺旋步长相等或成比例的距离分开[25,32](见图1),即所谓的周期性。这种BS组织使得这种增强子的协同激活成为可能[25]。第一个Bcd分子与DNA模板的特异性结合促进了第二个Bcd分子的结合,这两个结合的分子促进了第三个Bcd分子的结合,等等。此外,研究中的增强子包括一些其他激活剂的BS,并且这些位点通常也相对于Bcd位点平行定位[25,32]。最后,我们在表1中制定了前两条规则。第二,增强子包括通过淬灭模式起作用的短程阻遏物的几个BS,并且每个激活位点应该在阻遏物附近(>100个碱基对,bpA.V. Spirov和E.M.Myasanova/ICT Express 5(2019)182185表1也就是说,我们可以描述柯克尼的全面镇压行动,我们的模糊规则。在HBANT的后边缘上,K′(γKr+n′(cf.(1) 如果在给定序列中,Bcd-BS的顺序符合([图①的人。剩余的边界] δ[Kni]))+K周期性规则:N个Bcd-BS中的k个被与DNA-螺旋步长相等或成比例的距离分开,则其在下文中被否则将其丢弃;(2) 如果给定的序列包括其他已知激活子的BS,并且Bcd和其他激活子的BS的顺序否则将其丢弃;(3) 如果给定的序列包括r个已知阻遏物的BS,并且每个这样的位点位于距离最近的激活物位点小于R(100 bp)的距离处,则其在下文中被认为是典型的、真正的Bcd驱动的发育增强子。否则将其丢弃。绝佳的价钱现在,我们制定了抑制作用的规则:典型的Bcd驱动的增强子对抑制位点的反应,通过转录机制非加性地结合。这被称为协同/协同抑制(如图1右插图所示)。这导致第三规则(表1)。3.2. 模糊基因调控函数由于本文强调了主要激活子和抑制子作用的非线性、协同性和协同性,我们用希尔定律的模糊版本描述了基因调控功能(见图1)。 FLS可以很容易地设计,使得它们近似于描述激活和抑制效应的希尔函数的S形轮廓,如图11中的插图所示。1.一、用于协同激活的模糊基因调节函数:四个模糊集和简单规则足以创建希尔函数的分段线性近似(参见图1左插图)(参见图1左[33])。用于合作抑制的模糊基因调控函数:仅使用三个模糊集,就可以创建用于合作抑制的希尔函数的分段线性近似(图1)。 1右侧插图;参见[33])。一般而言,模糊化参数的数目在模型训练过程中通过优化来确定3.3. 我们的方法应用实例我们将使用充分研究的增强子,条纹元件作为例子来说明我们的方法,该增强子控制胚胎分割中的关键基因之一hunchback(hb)基因的活性[28 该条纹元件包括激活子Bcd、Hb、Cad、&Hkb和阻遏子Kr、Kni& Tll的BS(图1B)。3)。在该增强子的控制下,靶基因在胚胎的前部和后部(相应地,前部和后部条纹)产生两个尖锐的表达峰。我们描述了总的合作行动的Bcd血红蛋白对形成HB结构域被他们的抑制者以类似的方式。作为这种协同激活和抑制的结果,两个表达结构域形成了相当尖锐的边界(图3),随着时间的推移变得越来越陡峭。这里获得的结果与我们对hb基因表达的确定性建模(通过详细的PDE系统)的结果一致[35],但是,有几个重要的区别需要进一步分析。我们的结果和结论,从模糊建模的Bcd驱动的增强子将详细介绍在我们的下一个出版物。4. 结论总之,我们应该强调CRM作用的合作/协同模式在胚胎模式中是绝对我们确信,目前的GRN行为建模方法无法以自然的方式赶上典型形态素驱动增强子的概述特征,而语言建模可以很容易地做到这一点。我们相信,基于自然语言和模糊逻辑的基因网络活动模型具有内部功能组织,比数学物理方程更接近遗传调控机制的分子机制。因此,我们期望在模糊模型中有更高的预测能力我们也积极认为,现代系统生物学应该使用高度非线性模型,使用层次结构的监管输入和输出的口头描述,更现实的基因调控相互作用的描述。确认第2节的结果是在俄罗斯联邦教育和科学部的国家任务范围内获得的(编号16.8549.2017/8.9)。其他结果是在RSF (俄罗 斯科学基金 会)赠款( 项目编号: 17-18-01536)。利益冲突作者声明,本文中不存在利益冲突引用[1] J. Linde,S.Schulze,S.G.亨克尔河Guthke,基因调控网络的基于数据和知识的建模:更新,EXCLI J. 14(2015)346-378。[2] H. de Jong , 遗 传 调 控 系 统 的 建 模 和 模 拟 : 文 献 综 述 , J.COMPUT。9(1)(2002)67-103。[3] J. 作者:J.Reinitz,Drosophila blastoderm patterning,Curr.Opin.Hill方程的前峰为(α[Bcd]+β[Hb])n((α[Bcd]+β[Hb])n+K)(参见:Genet. Dev. 22(2012)533[4] M.A.H. 萨米湾林,N.Samper,H.Lu,C.A.Rushlow,G.希门尼斯,图①的人。类似地,Cad Hkb对后峰的作用被形式化。以类似方式的合作抑制(由Kr,Kni Tll)形成陡峭的相反方向的结构域边界。S.Y. Shvartsman , S.Sinha , A systematic ensembleapproach tothermodynamicmodeling of gene expression from sequence data,CellSyst.1(6)(2015)396-407.186A.V. Spirov和E.M.Myasanova/ICT Express 5(2019)182[5] Spirov,D.何维,应用进化分析研究控制生物发育的GRNs的进化,在:N。诺曼,H. Iba(Eds.),基因调控网络研究中的进化算法,Wiley Interscience,2015年,pp。240-268[6] M.A. Gibson,E. Mjolsness,单基因活性建模,在:J.M.鲍尔,H.Bolouri(Eds.),遗传和生物化学网络的计算建模,麻省理工学院出版社,剑桥,马萨诸塞州,2001年,页。1-48[7] E. Myasanova,A. Spirov,草率模型预测特性的相对灵敏度分析,J.Bioinform。Comput. 16(2)(2018)1840008.[8] H. Janssens,S. Hou,J. Jaeger,A.R. Kim,E. Myasanova,D.夏普,J。Reinitz,果蝇甚至跳过基因的转录控制的定量和预测模型,Nat. Genet. 38(10)(2006)1159-1165。[9] N.E. Buchler,U. Gerland,T.黄华,论组合转录逻辑的方案,美国国家科学院院刊。Acad. Sci. USA 100(2003)5136-5141。[10] C.- P. Lee,Y. Leu,W.- N.杨,用遗传算法/粒子群算法结合DTW从微阵列数据构建基因调控网络,应用软件计算。 12(3)(2012)1115[11] J. Bordon,M. Moskon,N. Zimic,M.李文,模糊逻辑在生物系统动力学定量建模中的应用,北京:计算机科学出版社,2001。生物信息。12(5)(2015)1199-1205。[12] B.H. 王志文<英>香港实业家。Li,J.S.Lim,基于神经模糊系统的酵母细胞周期基因调控网络识别,Genet. 摩尔Res. 15(3)(2016)gmr.15039002.[13] J. Liu,Y.气,C. Zhu,Y. Jin,基于模糊认知图重构大规模基因调控网络的时间序列驱动分解进化优化方法,BMC Bioinformatics18(1)(2017)241。[14] K. Wu,J. Liu,基于压缩感知的大规模模糊认知图学习及其在重建基因调控网络中的应用,IEEE Trans.模糊系统。25(6)(2017)1546-1560。[15] S. Ben-Tabou de Leon ,E.H. Davidson ,Modeling the dynamics oftranscriptionalgene regulatory networks for animal development,DevBiol. 325(2009)317-328。[16] B. Yan,杨氏D.关角,澳-地Wang等人,一种综合方法来解码基因转录中的调控逻辑,自然通讯。8(1)(2017)1044.[17] S.拉斯特加尔岛Hess,T.迪克梅斯,J.C.尼科德河Ertzer等人,调控密码的单词以可变的方式排列在高度保守的增强子Dev中。318(2008)366-377。[18] K.J. Won , A. Sandelin , T. T. Marstrand , A. Krogh , ModelingpromotergrammarswithevolvinghiddenMarkovmodels,Bioinformatics 24(2008)1669-1675。[19] J. Gertz,E.D. Siggia,文学士Cohen,Analysis of combinatorial cis-regulationin synthetic and genomic promoters,Nature 457(2009)215-218.[20] L. Li,Z. Wunderlich,增强子的长度和组成由其调节任务Front形成。Genet.第8卷(2017年)第63页。[21] J.O. 我 是 库 纳 , E. , Z. Kv on , A.Stark , Deciphering thetranscriptionalcis-regulatory code,Trends Genet. 29(2013)11-22。[22] J. Grice , B. 诺 伊 韦 尔 湖 多 利 奥 湾 Elgar , A simple predictiveenhancersyntaxfor hindbrain patterning is conserved in vertebrategenomes,PLoSOne 10(7)(2015)e0130413.[23] X. Li,Y. Li,Y.柳湖,加-地王,基于扩展模糊Petri网的遗传表达水平预测,国际。J. 模式识别。第内特尔 31(10)(2017)1-20。[24] R. Kuffner , T. 佩 特 里 湖 温 达 格 尔 河 Zimmer , Petri Nets withFuzzyLogic ( PNFL ) : Reverse engineering and parametrization ,PLoS One 5(9)(2010)e12807.[25] D. Papatsenko,Y. Goltsev,M. Levine,果蝇胚胎中发育增强剂的组织,Nucl. Acids Res.37(17)(2009)5665-5677。[26] Fahmy,K.斯皮罗夫湾施耐德,E.弗雷湾诺尔,S. Baumgartner,Formation of the bicoid morphogen gradient : an mRNA gradientdictatesthe protein gradient,Development 136(4)(2009)605-614.[27] J.M.李明,不确定性规则基模糊逻辑系统:介绍和新方向,北京,2001。[28] D. Lebrecht,M. Foehr,E. Smith等人,Bicoid协同DNA结合对于果蝇的胚胎模式化是关键的,Proc.Natl. Acad. Sci. USA 102(37)(2005)13176-13181。[29] F.J.P. Lopes,A.V. Spirov,P.M. Bisch,Bicoid合作结合在果蝇尖锐边界图案中的作用,Dev. 370(2)(2012)165-172。[30] M.W. Perry ,J.P. Bothma,R. D. Luu,M. Levine,果蝇胚胎中Hunchback表达的精确性,Curr。Biol. 22(2012)2247[31] D.S.布尔兹河Rivera-Pomar,H.南达科他州杰克Hanes,CooperativeDNA-bindingby Bicoid provides a mechanism for threshold-dependentgeneactivation in the Drosophila embryo,EMBO J. 17(1998)5998-6009.[32] V.J. Makeev , A.P. Lifanov , A.G. Nazina , D.A. Papatsenko ,Distancepreferencesinthearrangementofbindingmotifsandhierarchicallevelsinorganizationoftranscriptionregulatoryinformation,Nucl. Acids Res. 31(2003)6016-6026。[33] L. Windhager,用Petri网和模糊逻辑对动态系统建模(Ph.D.论文 ) , der Fakultat fur Mathematik , Informatik undStauberk , derLudwig-Maximilians-Universitat,Munchen,2013.[34] D.M. 你好啊,杰佛逊。P. 洛佩斯湖作者:Fontoura Costa,B.A.N.我会去的,N. 戈良迪纳湾A.V. Spirov,空间模式中的基因表达噪声:驼背启动子结构影响果蝇分割中的噪声幅度和分布,PLoS Comput。Biol. 7(2)(2011)e1001069。[35] A.V. Spirov,E.M. M.M. Holloway,模块化基因表达控制模型的顺序构建,应用于果蝇基因hunchback的空间模式,J。生物信息。Comput. Biol. 14(2)(2016)1641005。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功