基于模糊逻辑的基因调控网络逆向工程研究在未来计算与信息期刊上发表

25 浏览量更新于2023-12-09 收藏 803KB PDF 举报

基因调控网络

模糊逻辑

身份认证购VIP最低享 7 折!

30元优惠券

可在www.sciencedirect.com在线获取ScienceDirectFutureComputing and Informatics Journal 2（2017）79e86http://www.journals.elsevier.com/future-computing-and-informatics-journal/基于模糊逻辑的基因调控网络逆向工程Raviajot Kaur，Abhishek Bhola，Shailendra Singh*计算机科学与工程系，PEC技术大学，昌迪加尔160012，印度接收日期2016年11月4日;修订日期2017年5月12日;接受日期2017年7月2日2017年7月31日在线提供摘要生物体的基因在各种细胞活动中起着非常关键的作用。基因和其他生物分子，如DNA，RNA，并不单独运作，但它们都是相关的。它们之间的关系是在通常被称为基因调控网络的网络的帮助下显示的。基因调控网络是一种复杂的控制网络，它显示了基因之间的相互作用。它们为基因组科学提供了非常有用的贡献，并增加了对各种生物过程的理解提出了一种基于模糊逻辑的基因调控网络逆向工程方法。引入了预处理采用聚类技术将问题划分为若干个子问题，在一定程度上降低了计算复杂度最后，在具有GEO登录号GDS37和GDS3030的酵母的两个不同时间过程基因表达数据集上测试所提出的方法以特异性、灵敏度和F值为参数对结果进行验证。该方法的结果与Al-Shobaili在2014年提出的其他现有方法进行了进一步比较©2017埃及未来大学计算机与信息技术学院由爱思唯尔公司制作和主持这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。关键词：模糊逻辑;基因调控网络;微阵列基因表达数据集;基因表达水平;聚类;过滤1. 介绍随着诸如微阵列技术的先进技术的可用性，与不同生物的基因表达水平相关的大量信息容易获得。近几年来，基因调控网络的反向工程研究由于可以获得不同生物的基因表达数据而受到越来越多的关注。微阵列是一种在单一实验中同时监测和计算数千个基因表达水平的技术[12]。基因表达水平是指特定样本在环境变化*通讯作者。电子邮件地址：raviajot25@gmail.com（R.Kaur），abhishek_hotmail.com（A. Bhola），shailendra_sing@yahoo.com（S.Singh）。埃及未来大学计算机和信息系负责的同行审查条件[9]。基因表达数据作为GRN逆向工程的输入。但是利用微阵列技术制备的基因表达数据集容易受到噪声和实验误差的影响。这使得使用正确和有代表性的方法/模型来理解GRNs的动态成为一项艰巨的任务[18，3]。在细胞水平上发生在生物器官中的大量生物过程，如细胞繁殖、代谢等，都是由基因表达调控控制的[5]。基因是DNA的编码区，它帮助蛋白质的形成来调节生物活性。形成的蛋白质进一步控制其他一些基因形成蛋白质的速率。一些基因促进蛋白质的形成过程，被称为激活剂，一些基因减缓这一过程被称为抑制剂。因此，基因之间相互调节，直接或间接地相互影响，从而形成基因调控网络（GRN）[4，1，2]。它也可以通过有向图或无向图来表示。http://dx.doi.org/10.1016/j.fcij.2017.07.0022314-7288/©2017埃及未来大学计算机与信息技术学院由爱思唯尔公司制作和主持这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。80R. Kaur等人/Future Computing and Informatics Journal 2（2017）79e 86R阻遏物删除缺失值删除低表达删除绝对表达量删除低熵来自基因表达数据的GRNs的逆向工程在不同领域提供了许多有用的应用，例如药物发现，药物对个体的影响，帮助跟踪细胞中癌症的发展等等[32]。然而，存在许多挑战，这使得逆向工程的GRNs计算复杂。主要问题是：维数灾难（即与微阵列数据集中的基因数量相比，样本数量非常少）和不完整的数据[19]。基因数目的增加导致了方法的高时间复杂度问题。随着基因数量的增加，该方法的时间复杂度也呈指数级增加在文献中已经提出了几种方法用于GRN的逆向工程，如布尔网络[26，34]，概率布尔网络（PBN）[30]，贝叶斯网络[16，8，6]，动态贝叶斯网络（DBN）[16，21，29]，基于人工神经网络的模型[25，20，17]和基于模糊逻辑的模型[22]。使用模糊逻辑的主要动机在于生物网络本质上是模糊的，因此模糊逻辑是GRN逆向工程的可接受技术。Woolf和Wang（Bordon等人[7]）引入了最基本的基于模糊的技术，以使用酿酒酵母（酵母）数据集找出网络三联体（即阻遏物、激活物和靶基因）之间的关系。这种技术的主要缺点是时间复杂度。文献中存在的不同的基于模糊的方法，并在一定程度上有效地执行：定量模糊逻辑建模方法[33]，并行模糊基因调控网络重建（CF-GeNe）[28]，穷举搜索模糊技术[31]和用于预测表情2.2.传统的模糊逻辑方法Woolf和Wang使用模糊逻辑来描述酵母数据的基因之间的相互作用[24，33]。这是研究抑制子、激活子与靶基因之间关系的基本技术之一。基因的表达水平值根据不同的限定符如高、低、中被模糊化。在该技术中使用的模糊规则在如图1所示的决策矩阵中描述。根据这些规则，估计目标值。最后，根据实际目标值和估计目标值之间的误差进行排名。具有低误差的基因是得分更高，即更高的等级[13]。3. 该方法步骤1e预处理高维微阵列基因表达数据集由数千个基因组成，其中一些基因在实验过程中没有显示出任何有趣的变化。因此，这些基因可以被移除，因为这将有助于有效地分析基因表达数据集。图2表示在所提出的用于微阵列基因表达数据集的方法中使用的过滤步骤。首先，用缺失值识别基因，然后使用索引命令来移除基因。基因表达数据中缺失值的原因是由于监测基因表达时微阵列载玻片上的划痕和灰尘水平[23]。第二部分介绍了模糊逻辑的基本概念和传统的基于模糊逻辑的GRN逆向工程方法。第3节解释了一步一步的方法，所提出的方法的逆向工程的GRN。第4节详细介绍了所采用的数据集及其结果。第五节是结论。一Ct低我v的介质不o高低中高2. 背景2.1. 模糊逻辑模糊逻辑是一种基本的计算方法，它基于真值的程度，而不是明确的值，即。真或假（0或1）。在极端情况下使用0和1。Mamdani和Tagaki-Sugeno是两种著名的模糊逻辑推理技术。这些模型基于自然语言的if-then-else模糊规则。模糊逻辑是解决复杂问题的一种简单易行的方法。模糊逻辑具有各种独特的功能，例如它非常强大，因为它不需要精确的输入，它可以很容易地修改以提高性能，并且它可以在宽范围的输入下产生平滑的输出[15，10，11]。图1.一、Woolf和Wang模型的决策矩阵图二、微阵列基因表达数据集的过滤步骤目标是低低中目标是低中高目标是中高高R. Kaur等人/Future Computing and Informatics Journal 2（2017）79e 8681X.-XðÞ表情如果含有缺失值的基因不被删除，那么它将导致我们错误的解释。其次，将值差异非常小的基因表达水平（即它们具有非常低的方差并且本质上是平坦的）过滤掉，因为它们不产生任何有趣的结果。引入该预处理步骤的主要目的是确保在不同基因谱中存在足够宽的测量动态范围。用于计算基因谱变异的公式如下：产生的。然后检查聚类中心网络，以检查哪个聚类中心适合该方法。那些聚类中心不适合网络的聚类被丢弃，剩余的聚类被进一步考虑用于检验。这一步有助于在一定程度上减少所提出方法的计算时间，也降低了网络的复杂性[14]。步骤3e模糊推理系统的建议方法1N差异¼N 11/1吉-米。1N其中，m^NGi1/1此外，使用Min-Max技术在0e1的尺度上对所选簇中存在的基因进行归一化。然后，输入基因表达水平的归一化值为其中，N是基因的总数，Gi是基因i的基因表达，m表示平均值。然后，具有低绝对表达水平的基因被过滤掉。基因芯片实验中，由于斑点杂交效果差，量化误差大，导致基因绝对表达量低。实施低绝对值滤波器是因为认为具有低基因表达的基因谱比具有高基因表达的基因谱更不可靠。最后，具有低熵的基因被移除。利用熵滤波方法计算基因的有效性。低熵意味着更少的有效基因。去除低熵基因的动机是减轻特定基因表达数据集中存在的一些基因谱所示的尖峰行为。用于计算基因谱熵的公式如下：Entrop yHg-Xpgilogg2pgi我其中p是概率函数，i代表数字基因表达数据集的样本/时间点。步骤2e聚类在对微阵列基因表达数据进行预处理后，进行聚类分析，将问题分解为若干个子问题。在输入的微阵列基因表达数据集上实施两种不同的聚类技术：拓扑聚类和k均值聚类，以选择最有效的技术。K-means聚类优于层次聚类，因为层次聚类的性能随着基因数量的增加而不断下降，并且它导致所提出的方法的执行时间增加。在层次聚类之上使用K-均值聚类的另一个好处是，基因均匀地分布在由K-均值聚类产生的聚类中，而在层次聚类中，基因大多集中在两个或三个聚类中。K-均值聚类对高维微阵列基因表达数据集产生更好的结果，而层次聚类对小数据集产生更好的结果。因此，k-均值聚类进一步用于所提出的方法的GRN的逆向工程。在这项工作中，使用k-means clustering技术生成聚类。第一，簇质心（CC）模糊化使用限定符高，中，低的基础上，以下模糊隶属函数，如图所示。 3.建议的模糊推理系统的输出分为五个限定符{中增加（ MI ），高增加（ HI ），不重要（ I ），中减少（MD），高减少（HD）}。对基因表达水平进行模糊化处理后，将基因进一步分为激活基因（A）、阻遏基因（R）和靶基因（T）。对于微阵列基因表达数据集中存在的每个样品，使用模糊决策矩阵中定义的模糊规则，针对每对激活子和阻遏子估计靶基因，如图2所示。四、4.三胞胎的排序模糊化成功后，再利用质心法对目标值进行反模糊化，得到最终目标值。解模糊后，将估计目标值（ETV）和实际目标值（ATV）相互比较，以计算误差和方差。的10表达水平1图三.模糊输入隶属函数。阻遏物一ctivator图四、建议方法的决策矩阵介质高低低中高低介质高2目标是我目标是MD目标是HD目标是MI目标是我目标是MD目标是HI目标是MI目标是我82R. Kaur等人/Future Computing and Informatics Journal 2（2017）79e 86¼¼¼¼ð Þ¼-用于计算均方误差（MSE）因子的数学公式如下：1 1MSEX;锌<$N<$NNPyi-zi2NPFXi-zi2其中，X是包含x1，N是基因中样本的总数。y是输出目标基因，即目标的估计值，y F X和z是实际目标值。方差（V）取决于为一个三元组找到目标基因的值而触发的规则的数量。如果所有的模糊规则都被同等地触发，那么方差就很低。然后，基于V和MSE计算残差分数（R：S）。R： S¼ Vω MSE为了找出基因中相互作用的图谱，对三联体进行了排序。首先，剩余分数的阈值限制（a）被定义为1%。对应于低于阈值极限的那些三元组的值被进一步考虑用于排序。阈值限制在一定程度上降低了时间复杂度。选择的基因三联体的基础上排名的残差得分，这意味着低方差和低误差意味着更高的排名。将所得三联体添加到所得矩阵（Mr）中，并且基于Mr，候选基因调控网络（cGRN）即，生成子网络。对每个聚类重复上述过程，并获得所有cGRN。然后，对于每个cGRN，找到该网络的基因代表，即簇的基因头。最后，所有使用其基因代表的cGRN被合并。一个完整的基因网络作为输出形成。图5示出了所提出的方法的完整框图。用于为每个集群执行GRN的反向工程的伪代码如下所示对于每个簇i，形成三联体;对于每个三联体，ATVj靶基因的基因表达;Tj基于FIS计算新的靶值;ETVj MSEj ATVj ETVjVJ触发的模糊规则数R：S：jMSEj*VjIfR：S：ja

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

基于模糊逻辑的基因调控网络逆向工程研究在未来计算与信息期刊上发表

基于软计算的基因调控网络应用研究_matlab源码.rar

基于模糊逻辑的跟驰模型

模糊神经网络是不是模糊逻辑推论和神经网络的结合

基于模糊逻辑的红外目标检测算法设计与实现

基于模糊逻辑的自适应均衡算法是什么，详细说说

基于模糊逻辑控制器（FLC）的模糊控制算法

基于ts 模糊的神经网络

模糊逻辑系统和神经网络的区别

如何使用代码 使用模糊逻辑控制器（FLC）来实现农业数据的模糊逻辑分析。

BP神经网络与模糊了逻辑系统结合的优点

python 模糊逻辑库

用c++语言调用MATLAB模糊逻辑工具库的基础知识

模糊神经网络一般是模糊系统与什么神经网络相结合

基于直觉模糊集并利用模糊神经网络的边缘计算环境下任务调度

遗传算法优化模糊逻辑

模糊逻辑控制算法matlab

模糊神经网络的研究背景

模糊逻辑反向传播径向基函数

写一篇基于模糊控制的自动曝光方法

给我一个基于直觉模糊集并利用模糊神经网络的边缘计算环境下任务调度的具体的代码

最新资源

如何使用代码使用模糊逻辑控制器（FLC）来实现农业数据的模糊逻辑分析。