没有合适的资源?快使用搜索试试~ 我知道了~
可在www.sciencedirect.com在线获取ScienceDirectFutureComputing and Informatics Journal 2(2017)79e86http://www.journals.elsevier.com/future-computing-and-informatics-journal/基于模糊逻辑的基因调控网络逆向工程Raviajot Kaur,Abhishek Bhola,Shailendra Singh*计算机科学与工程系,PEC技术大学,昌迪加尔160012,印度接收日期2016年11月4日;修订日期2017年5月12日;接受日期2017年7月2日2017年7月31日在线提供摘要生物体的基因在各种细胞活动中起着非常关键的作用。基因和其他生物分子,如DNA,RNA,并不单独运作,但它们都是相关的。它们之间的关系是在通常被称为基因调控网络的网络的帮助下显示的。基因调控网络是一种复杂的控制网络,它显示了基因之间的相互作用。它们为基因组科学提供了非常有用的贡献,并增加了对各种生物过程的理解提出了一种基于模糊逻辑的基因调控网络逆向工程方法。引入了预处理采用聚类技术将问题划分为若干个子问题,在一定程度上降低了计算复杂度最后,在具有GEO登录号GDS37和GDS3030的酵母的两个不同时间过程基因表达数据集上测试所提出的方法以特异性、灵敏度和F值为参数对结果进行验证。该方法的结果与Al-Shobaili在2014年提出的其他现有方法进行了进一步比较©2017埃及未来大学计算机与信息技术学院由爱思唯尔公司制作和主持这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。关键词:模糊逻辑;基因调控网络;微阵列基因表达数据集;基因表达水平;聚类;过滤1. 介绍随着诸如微阵列技术的先进技术的可用性,与不同生物的基因表达水平相关的大量信息容易获得。近几年来,基因调控网络的反向工程研究由于可以获得不同生物的基因表达数据而受到越来越多的关注。微阵列是一种在单一实验中同时监测和计算数千个基因表达水平的技术[12]。基因表达水平是指特定样本在环境变化*通讯作者。电子邮件地址:raviajot25@gmail.com(R.Kaur),abhishek_hotmail.com(A. Bhola),shailendra_sing@yahoo.com(S.Singh)。埃及未来大学计算机和信息系负责的同行审查条件[9]。基因表达数据作为GRN逆向工程的输入。但是利用微阵列技术制备的基因表达数据集容易受到噪声和实验误差的影响。这使得使用正确和有代表性的方法/模型来理解GRNs的动态成为一项艰巨的任务[18,3]。在细胞水平上发生在生物器官中的大量生物过程,如细胞繁殖、代谢等,都是由基因表达调控控制的[5]。基因是DNA的编码区,它帮助蛋白质的形成来调节生物活性。形成的蛋白质进一步控制其他一些基因形成蛋白质的速率。一些基因促进蛋白质的形成过程,被称为激活剂,一些基因减缓这一过程被称为抑制剂。因此,基因之间相互调节,直接或间接地相互影响,从而形成基因调控网络(GRN)[4,1,2]。它也可以通过有向图或无向图来表示。http://dx.doi.org/10.1016/j.fcij.2017.07.0022314-7288/©2017埃及未来大学计算机与信息技术学院由爱思唯尔公司制作和主持这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。80R. Kaur等人/Future Computing and Informatics Journal 2(2017)79e 86R阻遏物删除缺失值删除低表达删除绝对表达量删除低熵来自基因表达数据的GRNs的逆向工程在不同领域提供了许多有用的应用,例如药物发现,药物对个体的影响,帮助跟踪细胞中癌症的发展等等[32]。然而,存在许多挑战,这使得逆向工程的GRNs计算复杂。主要问题是:维数灾难(即与微阵列数据集中的基因数量相比,样本数量非常少)和不完整的数据[19]。基因数目的增加导致了方法的高时间复杂度问题。随着基因数量的增加,该方法的时间复杂度也呈指数级增加在文献中已经提出了几种方法用于GRN的逆向工程,如布尔网络[26,34],概率布尔网络(PBN)[30],贝叶斯网络[16,8,6],动态贝叶斯网络(DBN)[16,21,29],基于人工神经网络的模型[25,20,17]和基于模糊逻辑的模型[22]。使用模糊逻辑的主要动机在于生物网络本质上是模糊的,因此模糊逻辑是GRN逆向工程的可接受技术。Woolf和Wang(Bordon等人[7])引入了最基本的基于模糊的技术,以使用酿酒酵母(酵母)数据集找出网络三联体(即阻遏物、激活物和靶基因)之间的关系。这种技术的主要缺点是时间复杂度。文献中存在的不同的基于模糊的方法,并在一定程度上有效地执行:定量模糊逻辑建模方法[33],并行模糊基因调控网络重建(CF-GeNe)[28],穷举搜索模糊技术[31]和用于预测表情2.2.传统的模糊逻辑方法Woolf和Wang使用模糊逻辑来描述酵母数据的基因之间的相互作用[24,33]。这是研究抑制子、激活子与靶基因之间关系的基本技术之一。基因的表达水平值根据不同的限定符如高、低、中被模糊化。在该技术中使用的模糊规则在如图1所示的决策矩阵中描述。根据这些规则,估计目标值。最后,根据实际目标值和估计目标值之间的误差进行排名。具有低误差的基因是得分更高,即更高的等级[13]。3. 该方法步骤1e预处理高维微阵列基因表达数据集由数千个基因组成,其中一些基因在实验过程中没有显示出任何有趣的变化。因此,这些基因可以被移除,因为这将有助于有效地分析基因表达数据集。图2表示在所提出的用于微阵列基因表达数据集的方法中使用的过滤步骤。首先,用缺失值识别基因,然后使用索引命令来移除基因。基因表达数据中缺失值的原因是由于监测基因表达时微阵列载玻片上的划痕和灰尘水平[23]。第二部分介绍了模糊逻辑的基本概念和传统的基于模糊逻辑的GRN逆向工程方法。第3节解释了一步一步的方法,所提出的方法的逆向工程的GRN。第4节详细介绍了所采用的数据集及其结果。第五节是结论。一Ct低我v的介质不o高低中高2. 背景2.1. 模糊逻辑模糊逻辑是一种基本的计算方法,它基于真值的程度,而不是明确的值,即。真或假(0或1)。在极端情况下使用0和1。Mamdani和Tagaki-Sugeno是两种著名的模糊逻辑推理技术。这些模型基于自然语言的if-then-else模糊规则。模糊逻辑是解决复杂问题的一种简单易行的方法。模糊逻辑具有各种独特的功能,例如它非常强大,因为它不需要精确的输入,它可以很容易地修改以提高性能,并且它可以在宽范围的输入下产生平滑的输出[15,10,11]。图1.一、Woolf和Wang模型的决策矩阵图二、微阵列基因表达数据集的过滤步骤目标是低低中目标是低中高目标是中高高R. Kaur等人/Future Computing and Informatics Journal 2(2017)79e 8681X.-XðÞ表情如果含有缺失值的基因不被删除,那么它将导致我们错误的解释。其次,将值差异非常小的基因表达水平(即它们具有非常低的方差并且本质上是平坦的)过滤掉,因为它们不产生任何有趣的结果。引入该预处理步骤的主要目的是确保在不同基因谱中存在足够宽的测量动态范围。用于计算基因谱变异的公式如下:产生的。然后检查聚类中心网络,以检查哪个聚类中心适合该方法。那些聚类中心不适合网络的聚类被丢弃,剩余的聚类被进一步考虑用于检验。这一步有助于在一定程度上减少所提出方法的计算时间,也降低了网络的复杂性[14]。步骤3e模糊推理系统的建议方法1N差异¼N 11/1吉-米。1N其中,m^NGi1/1此外,使用Min-Max技术在0e1的尺度上对所选簇中存在的基因进行归一化。然后,输入基因表达水平的归一化值为其中,N是基因的总数,Gi是基因i的基因表达,m表示平均值。然后,具有低绝对表达水平的基因被过滤掉。基因芯片实验中,由于斑点杂交效果差,量化误差大,导致基因绝对表达量低。实施低绝对值滤波器是因为认为具有低基因表达的基因谱比具有高基因表达的基因谱更不可靠。最后,具有低熵的基因被移除。利用熵滤波方法计算基因的有效性。低熵意味着更少的有效基因。去除低熵基因的动机是减轻特定基因表达数据集中存在的一些基因谱所示的尖峰行为。用于计算基因谱熵的公式如下:Entrop yHg-Xpgilogg2pgi我其中p是概率函数,i代表数字 基因表达数据集的样本/时间点。步骤2e聚类在对微阵列基因表达数据进行预处理后,进行聚类分析,将问题分解为若干个子问题。在输入的微阵列基因表达数据集上实施两种不同的聚类技术:拓扑聚类和k均值聚类,以选择最有效的技术。K-means聚类优于层次聚类,因为层次聚类的性能随着基因数量的增加而不断下降,并且它导致所提出的方法的执行时间增加。在层次聚类之上使用K-均值聚类的另一个好处是,基因均匀地分布在由K-均值聚类产生的聚类中,而在层次聚类中,基因大多集中在两个或三个聚类中。K-均值聚类对高维微阵列基因表达数据集产生更好的结果,而层次聚类对小数据集产生更好的结果。因此,k-均值聚类进一步用于所提出的方法的GRN的逆向工程。在这项工作中,使用k-means clustering技术生成聚类。第一,簇质心(CC)模糊化使用限定符高,中,低的基础上,以下模糊隶属函数,如图所示。 3.建议的模糊推理系统的输出分为五个限定符{中增加( MI ) , 高 增 加 ( HI ) , 不 重 要 ( I ) , 中 减 少(MD),高减少(HD)}。对基因表达水平进行模糊化处理后,将基因进一步分为激活基因(A)、阻遏基因(R)和靶基因(T)。对于微阵列基因表达数据集中存在的每个样品,使用模糊决策矩阵中定义的模糊规则,针对每对激活子和阻遏子估计靶基因,如图2所示。 四、4.三胞胎的排序模糊化成功后,再利用质心法对目标值进行反模糊化,得到最终目标值。解模糊后,将估计目标值(ETV)和实际目标值(ATV)相互比较,以计算误差和方差。的10表达水平1图三.模糊输入隶属函数。阻遏物一ctivator图四、建议方法的决策矩阵介质高低低中高低介质高2目标是我目标是MD目标是HD目标是MI目标是我目标是MD目标是HI目标是MI目标是我82R. Kaur等人/Future Computing and Informatics Journal 2(2017)79e 86¼¼¼¼ð Þ¼-用于计算均方误差(MSE)因子的数学公式如下:1 1MSEX;锌<$N<$NNPyi-zi2NPFXi-zi2其中,X是包含x1,N是基因中样本的总数。y是输出目标基因,即目标的估计值,y F X和z是实际目标值。方差(V)取决于为一个三元组找到目标基因的值而触发的规则的数量。如果所有的模糊规则都被同等地触发,那么方差就很低。然后,基于V和MSE计算残差分数(R:S)。R: S¼ Vω MSE为了找出基因中相互作用的图谱,对三联体进行了排序。首先,剩余分数的阈值限制(a)被定义为1%。对应于低于阈值极限的那些三元组的值被进一步考虑用于排序。阈值限制在一定程度上降低了时间复杂度。选择的基因三联体的基础上排名的残差得分,这意味着低方差和低误差意味着更高的排名。将所得三联体添加到所得矩阵(Mr)中,并且基于Mr,候选基因调控网络(cGRN)即,生成子网络。对每个聚类重复上述过程,并获得所有cGRN。然后,对于每个cGRN,找到该网络的基因代表,即簇的基因头。最后,所有使用其基因代表的cGRN被合并。一个完整的基因网络作为输出形成。图5示出了所提出的方法的完整框图。用于为每个集群执行GRN的反向工程的伪代码如下所示对于每个簇i,形成三联体;对于每个三联体,ATVj靶基因的基因表达;Tj基于FIS计算新的靶值;ETVj MSEj ATVj ETVjVJ触发的模糊规则数R:S:jMSEj*VjIfR:S:ja
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++标准程序库:权威指南
- Java解惑:奇数判断误区与改进方法
- C++编程必读:20种设计模式详解与实战
- LM3S8962微控制器数据手册
- 51单片机C语言实战教程:从入门到精通
- Spring3.0权威指南:JavaEE6实战
- Win32多线程程序设计详解
- Lucene2.9.1开发全攻略:从环境配置到索引创建
- 内存虚拟硬盘技术:提升电脑速度的秘密武器
- Java操作数据库:保存与显示图片到数据库及页面
- ISO14001:2004环境管理体系要求详解
- ShopExV4.8二次开发详解
- 企业形象与产品推广一站式网站建设技术方案揭秘
- Shopex二次开发:触发器与控制器重定向技术详解
- FPGA开发实战指南:创新设计与进阶技巧
- ShopExV4.8二次开发入门:解决升级问题与功能扩展
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功