DNA序列中短重复模式的进化算法识别方法

36 浏览量更新于2024-01-07 收藏 1.99MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

=医学信息学解锁21（2020）100466MFEA：一种DNA序列Faisal Bin Ashrafa，*，Md Shafiur Raihan Shafiba孟加拉国达卡布拉克大学计算机科学与工程系，邮编：1212b东南大学计算机科学与工程系，达卡，1213，孟加拉国A R T I C L EI N FO关键词：生物信息学计算生物学DNAMotifsearch进化算法A B S T R A C T识别生物序列中的短重复模式（通常称为基序）对于了解生物的遗传调控系统非常重要。但由于模体的弱保守性，使其成为一个NP难问题，并对计算生物学提出了挑战。在这项工作中，我们已经建模的主题搜索问题，从元启发式的角度来看。我们提出并评估了一种进化的方法，在这种方法中，我们将搜索候选图案的启发式，这样我们就可以找到真正的图案的数据集没有严格的探索。我们的方法最大限度地减少了探索和开发的搜索空间与定义的变异技术，使用正态分布之间的贸易，并找到了一种有效的方法来衡量一个候选主题是真正的主题的健身。我们使用基准数据集来评估每个物种的适合度，我们的方法为每个物种提供了准确的图案1. 介绍在生物学中，序列基序是短序列模式，通常具有fi长度，代表DNA，RNA和蛋白质分子的许多特征。序列基序可以代表DNA的转录因子结合位点、RNA的剪接点、蛋白质的结合结构域，并通过辅助序列比对来帮助确定不同DNA样品之间的相似性[1]。发现序列基序可以更好地理解转录调控，mRNA剪接和蛋白质复合物的形成。此外，蛋白质模体可以代表酶的活性位点或参与蛋白质结构和稳定性的区域。一个DNA分子由两条反向平行的链组成，由四种类型的核苷酸组成，形成双螺旋-腺嘌呤（A），胞嘧啶（C），鸟嘌呤（D），腺嘌呤（A），胞嘧啶（C），鸟嘌呤（D）。(G)和胸腺嘧啶（T），其中该双螺旋DNA的单链可以表示为字母表上的字符串），{A，C，G，T}。蛋白质是以特定方式与DNA结合的特殊核苷酸序列，称为转录因子，而这种核苷酸序列称为结合基序[2]。当DNA包含结合基序的实例并且它们是未知的时，就会出现基序发现问题。结合基序的示例：GGCTGCACACGT GTATTGCTCGCACGT GGTGGTACAGT这里，“CACGT“在所有序列中重复。“CACGT“是这些给定DNA序列的基序之一。从最优化的角度出发，DNA模体匹配问题可以描述为：给定一组长度相同的DNA序列S= {S1，S2，字母表中的字符ε=A，C，G，T找到有希望的基序模式X=X1，X22. 文献综述寻找DNA序列中的基序可以从不同的感知中发现。在文献中发现了许多在DNA序列中拟合基序的原则它们主要分为三类-简单基序搜索（SMS）[3]，基于编辑距离的基序搜索（EMS）[4]和种植基序搜索（PMS）[5在SMS [3]中，所有给定长度的基序都是通过条件来找到的，所有这些基序都存在于所有的DNA序列中。EMS [4] fi长度的fi基序。但是，这些基序不需要存在于所有序列中，而不是至少存在于一定数量的序列中。另一方面，在PMS [5如果我们进一步研究这些算法，我们将发现两种类型的算法来满足给定序列的模体-精确算法和* 通讯作者。电子邮件地址：faisal.ashraf@bracu.ac.bd（F.B.Ashraf）。https://doi.org/10.1016/j.imu.2020.100466接收日期：2020年5月14日;接收日期：2020年10月20日;接受日期：2020年10月20日2020年10月29日网上发售2352-9148/©2020的作者。发表通过 Elsevier 公司这是一个开放接入文章下的CCBY-NC-ND许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）中找到。可在ScienceDirect上获得目录列表医学信息学期刊主页：http://www.elsevier.com/locate/imuF.B.阿什拉夫和多发性硬化症沙菲医学信息学解锁21（2020）1004662∑∑ ∑。）的。. ）的情况下）表1DNA序列的表示。核苷酸一一不CG不不CG一一CG位置0123456789101112一1100000001100不0010011000000C0001000100010G0000100010001表2一个主题的表现。0123456一0.2500.510.500不00.25000.2510.5C0.7500.50000G0.250.75000.2500.5approX imate算法。E-x- act算法的目标是通过花费更多的运行时间来找出数据集的所有可能的基序，而APPRO-X-imate算法不是找到所有可能的基序，而是找到所有基序的一部分，以利于更少的运行时间。在这项工作中，我们的目标是从给定的长度为l的DNA序列中找到基序，提出了一种使用启发式信息的近似算法，以便我们总是倾向于得到最好的结果，而无需不必要地利用解空间，即候选基序空间。对于一个给定的自然数l，主要有两个问题，分别对应于两种方法：一致性方法和位置方法。在一致性方法中，我们发现一个长度为l的字符串Sc和一个集合的子串M= {M1，M2，在Si中的长度l，使得它们最小化目标函数[8]：NH（Sc，M）=dH（Sc，Mi）（1）i=1其中dH（Sc，Mi）是串Sc和子串Mi之间的汉明距离，其由序列中的核苷酸所处的位置的数目两个字符串是不同的。在位置方法中，我们找到一组子串M= {M1，M2，…;起始位置ai.在这种方法中，目标函数是信息内容[9]：LIC=Qu，jlog2Qu，j/Pu（2）j=1u ∈ε其中Q（u，j）表示矩阵XM的列j中核苷酸u的频率，Pu是整个集合S中u的背景频率。事实上，Mi在Si上的位置被称为DNA的结合位点在文献中已经介绍了在DNA序列中发现基序的不同方法。它们可以根据每种搜索技术的类型分为三个部分-枚举搜索，确定性搜索和随机搜索。枚举搜索通常用于共识表示。Weeder [10]是一个很好的例子枚举搜索模体发现。确定性方法依赖于EX期望最大化（EM）算法来优化模体矩阵。MEME [11]和CONSENSUS [12]使用EM来优化矩阵。随机方法迭代地对齐一组TFBS，并从该组中概括出模体矩阵。使用Gibbs采样[16]的方法（如Bio- Prospector [13]，AlignACE [14]和MotifSampler [15]）可以进一步归类为单点搜索，而最近开发的由GAME [18]和GALF [19]方法实现的进化算法（EA）[17]可以归类为基于群体的搜索。在这项工作中，我们将集中在sto-随机搜索使用启发式。应对这一挑战的一种解决方案技术是基于群集的蚁群算法（Ant Colony Optimization，ACO）[20蚁群算法是一种基于种群的随机搜索方法，其灵感来自于蚁群的觅食行为。这种元启发式已被成功地用于计算范围广泛的组合优化问题的最知名的解决方案。在[23]中，作者使用ACO来寻找基序。他们把寻找问题的母题建模为寻找解决方案的问题，构造了结构图G=（V，E，Ω，η，T）上的一个点集，其中V是点集，E是边集，η和T是拓扑信息集，费洛蒙踪迹一个可接受的解决方案是满足条件Ω的路径，从V的子集C0中的一个顶点开始，然后根据随机信息和信息素踪迹随机扩展到下一个顶点。在[24]中，ACO和EM都被引入以更准确地找到模体。他们通过从输入序列中随机提取序列并与输入序列进行比较来建立迭代，以找到一组潜在的结合位点，从而使汉明距离之和最小化。然后计算IC值并更新信息素水平。EM算法通过迭代地应用-计算对数似然函数的期望值并找到可以最大化对数似然函数的基序实例的位置，来找到未知基序位点的最大似然估计（MLE）。在[25]中，使用一种模因算法来寻找基序，该算法使用贪婪随机自适应研究程序（GRASP）的修改版本来构建解的初始种群和可变邻域搜索（VNS）算法，该算法是一种贪婪的局部搜索方法，通过系统地交换越来越远的邻域结构来探索解空间。在这项工作中，我们采用一致性的概念来衡量候选模体的准确性，并提出了一种进化算法，该算法最大限度地减少了不必要的探索在候选模体空间，并导致搜索到更准确的区域在解空间中的一些变异技术的DNA序列的子序列。3. 该方法我们提出了一个进化的方法来找到图案从一个给定的数据集。我们提出的方法包括建立一个初始的候选图案，这是人口的个人，然后测量所有个人的健身。在此基础上，通过保留部分优良亲本，并在亲本间进行杂交和突变，对群体进行再生。在每次迭代中，我们将更新最佳解决方案，并将保持迭代，直到我们开始一段时间内没有比最佳解决方案更好的3.1. 数据表示A、T、C和G的DNA序列可以表示在具有四行和四列序列长度的矩阵中。这种表示将帮助我们在变异和交叉期间进行计算，并在将子序列与我们的候选基序进行比较时减少运行时间，因为我们将执行矩阵减法而不是比较字符串。例如，如果我们有一个序列“AATCGTTCGAACG“，那么它的矩阵表示将类似于表1。类似地，我们也将在矩阵x中表示候选基元。F.B.阿什拉夫和多发性硬化症沙菲医学信息学解锁21（2020）1004663Fig. 1. 建立初始种群技术。格式.由于我们只使用1和0，因此对候选基序进行交叉和变异将非常有用，这样我们就可以从基序空间中获得更多的候选基序。我们将得到基频率的模体发现矩阵的最优解。例如，长度为7的给定数据集的基序看起来像表2。3.2. 该算法我们已经提出了一个解决方案，从一个给定的数据集，一个给定的长度找到DNA基序。我们已经建立了一种进化的方法该算法找到给定数据集的模体的最优解。我们intein-intentional建立初始人口，导致可能更好的解决方案在解决方案空间。然后，我们使用前一个种群中的最佳拟合解以及关于最优解的信息来生成下一代种群。我们在解空间中随机地给出一个大的跳跃，这样我们就可以排除坚持局部最优的可能性。我们提出的算法运行这种方法多次不同的初始人口，使我们能够确保全局最优解。下面描述我们提出的用于在数据集中找到基序的算法F.B.阿什拉夫和多发性硬化症沙菲医学信息学解锁21（2020）1004664表3Motif matriX.图二、构建下一个种群的突变技术。问题.该方法将从DNA序列中随机选择长度为l的子序列，并将它们填充到初始群体中作为候选基序。从数据集中选择初始群体倾向于选择接近最优解的子序列，因为它们已经存在于数据集中。我们最初的人口建设技术在图中详细说明。1.一、3.2.2. 评估健康状况我们在算法中使用了几种方法。这些方法是提高解决方案性能的关键功能。这些方法将在下面的部分中详细描述。3.2.1. 建筑初始人口该方法将生成初始种群，用于解决我们的在这种方法中，我们将通过使用等式（1）来评估个体（即候选基序）的适应度。我们将找到候选模体与数据集序列的最小距离，并将得到与整个数据集的总距离，这将是适应度的参数。最低值将代表数据集的最高拟合候选解。图三. 长度8的Motif Logo for data set hm01r.01234一2/40/40/41/41/4不0/41/44/41/41/4C2/41/40/41/41/4G0/42/40/41/41/4F.B.阿什拉夫和多发性硬化症沙菲医学信息学解锁21（2020）1004665表4不同L值的 EXMotif长度（L）准确度（%）8100.013100.01896.912398.072897.423391.913.2.3. 突变该部分起到了在候选主题空间中漫游的重要作用，并在搜索空间的探索和利用之间进行权衡。在该方法中，我们将从在序列中发现的最佳候选基序中找到每个位置中迭代这个列表给了我们最好的可能的核苷酸组合的基础上，他们的健身评估到目前为止。我们通过引入正态高斯分布来保持勘探和开采之间的权衡。正态分布给我们的是0到1之间的较小的数字，很少给我们较大的数字。我们已经使用了这种技术，这样我们就可以始终处于解空间的最佳部分，很少会跳到解空间的完全不同的部分，以寻找是否存在任何其他最佳解（图1）。 2）的情况。当我们停留在解决方案空间的当前部分时，我们倾向于通过仅替换不最频繁存在的核苷酸来移动到更好的解决方案，所述核苷酸借助于存储了迄今为止在不同位置处的最高频率核苷酸的列表。当我们试图移动到解空间的其他部分时，我们随机改变所有位置的核苷酸，并最终在候选基序空间的不同部分结束。表5Motif Logo来自不同的数据集.F.B.阿什拉夫和多发性硬化症沙菲医学信息学解锁21（2020）1004666n图四、不同长度的基序在不同数据集中的准确性。图五. 不同长度的不同数据集的准确度与长度的关系图。3.2.4. 根据3阶马尔可夫链的最佳个体的一致性DNA序列的数量我们提出的方法的这一部分计算每个位置上每个核苷酸的频率，并返回一个矩阵，其中包含每个位置上每个核苷酸的概率。例如，如果listOfBest包含候选解决方案4. 结果我们所提出的进化方法的性能为不同的情况下进行了实验使用的基准数据集M。Tompa et al. [26].该数据集包含苍蝇、人类、小鼠和酵母的DNA序列。它们包含三种不同类型的基准数据集-真实数据集，其真实数据集中具有结合位点，基因组启动子序列，具有结合位点的通用数据集每个数据集从5到35变化，并且每个序列的长度从1000到2500变化。我们实验了参考文献[26]中包含不同长度DNA序列的数据集。我们在这些数据集上运行我们实现的算法，以找到不同长度的基序，并计算准确度，该准确度衡量我们根据基序的定义找到的基序的准确程度。这种准确度是通过计算的，我们可以确认所发现的基序的有效性。为了测量准确性，首先，我们计算了在基序矩阵的每个位置中含有最高出现核苷酸的l-聚体的平均错配数。我们将使用等式（3）中的公式来计算给定数据集中任何l-聚体的平均错配。平均失配=1Σmin。dH.M，Si））（ 3）植入随机选择的基因组启动子序列和具有植入随机产生的序列中的结合位点的马尔可夫数据集ni=1F.B.阿什拉夫和多发性硬化症沙菲医学信息学解锁21（2020）1004667L表6基于不同数据集的专属性与已建立方法进行比较数据集我们的方法AlignACE ANN-Spec Consensus GLAM Improizer MEME MEME 3电话：0755 -88888888传真：0755 - 88888888dm05r0.9946866- -粤ICP备05016667号-10.9875274 0.992119 1 0.9869792 0.9882812 0.9853344 0.989926粤ICP备05016669号-10.9917915- -- - - -粤ICP备05016888号-10.9959545 0.987737 0.9903919 0.9878635 0.9903919hm21r0.9918484- -0.9856704 0.9344933 0.9467758 1 1 0.9631525 0.9836233 0.9959058电话：0512 -8888888传真：0512 - 88888880.9901060.9448763 0.9526502 0.9597173 1 0.9809187 0.9724382 0.95406362019 - 01 - 2200：00：000.9728033 1 0.9717573 1 0.9801255 0.95659 0.9497908 0.93148540.9832519 0.9371947 0.9253315 0.9351012 0.9832519 0.9330077 0.923238 0.93510122019 - 05 - 28 11：00：00粤ICP备16018888号-10.9855171 0.9809167 0.9853467 0.9831317 0.9672857 0.9868802 0.9853467粤ICP备05016888号-1粤ICP备05016667号-1*- 表示数据集未用于该特定算法。表7基于不同数据集的专属性与已建立方法进行比较数据条目我们的方法MITRA MotifSampler寡二联体分析QuickScore SeSiMCMC Weeder YMF电话：0755 -88888888传真：0755- 88888888dm05r0.9946866- -电话：0755 -88888888传真：0755 - 88888880.991091 0.9924616 0.9908854 1 0.9909539 0.979852 1 0.9882127电话：0755 - 8888888传真：0755 - 88888880.9917915- -- - - -0.9800834 0.9807091 0.991658 1 0.911366 0.9843587 0.98852970.99595450.9949431 0.9893805 1 0.9931732 0.9726928 0.9949431 0.9908976hm21r0.9918484- -0.9856704 0.988741 0.975435 1 1 0.9549642 0.9907881 0.9892528电话：0512 -8888888传真：0512 - 88888880.9901060.9526502 0.9632509 1 0.9745583 0.8869258 0.9717314 0.97738520.9925867 0.9887089 0.9828923 0.9944115 0.9852874 0.9671533 1 0.990990.9728033 0.9769874 0.9722803 1 0.9780335 0.9241632 0.9790795 0.90481170.9748779 0.9727844 0.9867411 0.961619 0.9720865 0.9832519澳门金沙城中心手机版-澳门金沙城中心手机版-澳门金沙城中心手机版粤ICP备16016888号-1粤ICP备05016666号-1粤ICP备05016888号-1粤ICP备05016667号-1*- 表示数据集未用于该特定算法。其中.M=来自基序矩阵的核苷酸的最佳组合n=数据集中的序列数dH（M，Si）=M与来自序列Si的在计算整个数据集的平均失配之后，我们使用等式（4）计算结果的准确度。如果平均错配较低，这意味着我们已经找到了更好的基序，它将提供更高的准确性，这是存在于所有序列中的一个小错配。精度=L-X×100（4）其中.L=基序长度，X=来自基序矩阵的最佳1-mer的平均错配。F.B.阿什拉夫和多发性硬化症沙菲医学信息学解锁21（2020）1004668我们已经运行了我们的算法的数据集图3显示了从数据集中的人类序列中发现的长度为8的基序。我们已经实验了用于发现不同长度的基序的数据集，结果示于表4中，表4表示按照我们的方法发现的最佳基序的准确性。稍后，我们将结果表示在准确度与长度图中。从表1中，我们看到我们的方法对于长度8和13以100%的准确度找到基序。对于较短的长度，我们获得了 100% 的准确性，因为“hm01r“是人类DNA序列的真实数据集，并且在真实序列中，短重复模式是丰富的。因此，我们基于启发式的方法为数据集找到合适的模体矩阵。对于长度较长的基序，我们的方法发现基序具有91%以上的准确性。在真实的数据集中，较长长度的基序不是很高，并且很难找到存在于所有序列中而没有错配的基序。在这种情况下，我们的目标是资助重复的模式，重复具有尽可能少的失配，我们的方法已经优化了失配，并找到了具有91%以上相似性的基序。我们已经将我们的方法应用于所有的数据集从参考。[26]和F.B.阿什拉夫和多发性硬化症沙菲医学信息学解锁21（2020）1004669=图六、不同物种数据与其他方法的比较。真阳性（TP）：已知位点和预测位点的位置数。假阳性（FP）：预测位点中不存在于已知位点中真阴性（TN）：既不在已知位点也不在预测位点的位置数。假阴性（FN）：在已知位点但不在预测位点所发现的基序的特异性基于以下等式计算，该等式给出了算法执行以获得真实基序的准确度。nSPnTNnTN+nFP（五）见图7。基于专属性与其他方法的总体比较。实验了我们提出的方法如何找到不同长度的图案。从不同数据集发现的不同长度的基序以基序标志的形式显示在表5中。图4和图5显示了在不同数据集中发现的不同长度基序的准确性。从图中我们看到，对于数据集“mus04r“和“yst04r”，准确度随着基序长度的增加而降低。这些数据集包含含有1000个碱基对的DNA序列。相反，其他数据集包含长度超过1000的序列，从这些序列中，我们得到的基序具有高达100%的准确性。每当序列的长度增加时，找到具有最少数量的错配的长度为l的子序列的机会增加，这就是为什么我们得到更准确的基序。我们已经计算了我们发现的基序的特异性不同的数据集，并与一些既定的基序发现方法进行了比较。我们已经将我们的结果与在http://bio.cs.washington.edu/assess上可用的已建立的方法进行了比较。它包含AlignACE [27]，ANN规范[28]，共识[29]，GLAM [30]，Improizer [31]的结果，模因[32]，MEME3[32]，Mitra[33]，[34]第三十四话寡/二元分析[26]，QuickScore [35]，SeSiMCMC [36]，Weeder[37][38][在比较结果之前，我们需要定义一些定义表6和表7显示了我们的方法与其他已建立方法在专属性方面的性能。我们的方法是一种进化的方法。这些表表明，我们的方法比一些现有的方法更好地为一些特定的数据集，如mus05r，hm25 g，hm06 g，mus01r等进一步的调查证实，这些数据集有更少的数量的序列。我们的方法接近其他已建立的方法，这些数据集的序列的数量是高的，比其他人在这些数据集的序列的数量是低的。图6示出了根据本发明的算法的特异性比较。不同的物种。我们看到，我们的算法优于所有其他寻找苍蝇图案的方法。它的性能接近其他已建立的人类，小鼠和酵母的算法。图7显示了在特异性方面与其他算法的总体比较。我们提出的算法匹配的性能建立的方法。此外，我们的方法可以从数据集中找到大的图案我们已经测试了我们实现的方法在不同的真实数据集与不同的值的l和d。在真实的数据集中，长度较大的基序很少是保守的。因此，很难找到具有精确长度l和最高失配d的基序。尽管如此，我们的方法找到了最佳的可能的图案的长度较大，并找到准确的图案相对较小的长度。5. 结论在这项工作中，我们提出了一个进化的方法来寻找DNA序列中的我们已经建立了一个初始的候选主题集····F.B.阿什拉夫和多发性硬化症沙菲医学信息学解锁21（2020）10046610最好的候选者被从中过滤掉。在最佳候选中执行突变倾向于生成数据集的最佳基序。我们的方法在不同的数据集上表现良好，并与已建立的方法的特异性相匹配，这验证了我们的方法的有用性。此外，这种方法确保找到非常长的图案，这是不容易找到使用任何其他详尽的方法，因为它甚至需要几天的计算。由于我们在进化的每一步都使用启发式算法并选择最佳候选者，因此我们的方法在找到大长度的基序然而，我们的方法可以找到更高的准确性和特异性，即使是较长的长度的基序。仍然有改进的空间，我们提出的方法，通过引入新的技术在突变步骤和修改一些旋钮-分布技术，父母和孩子的数量为下一步的进化，距离测量的DNA序列等这种方法可以有很大的影响，生物学家谁需要找到不同长度的基序具有良好的准确性和特异性。作者FB Ashraf：提供研究的概念和设计、数据采集、数据分析和解释、起草文章、对重要知识内容进行关键性修订，并最终批准提交的版本; MSR Shafi：提供数据采集、实施算法、起草手稿。竞合利益作者声明，他们没有已知的可能影响本文所报告工作确认一个也没有。没有资金申报。引用[1] 放大图片作者：Xiao P，Cai X，Rajasekaran S. Ems3：一种改进的基于编辑距离的motif查找算法。2018年IEEE第8届生物和医学科学计算进展国际会议（ICCABS）。IEEE; 2018. 一比一[2] NaéaérAM，BoutinJ-M，LipkinSM，VictorCY，HollowayJM，GlassCK，罗森菲尔德MG。核心dna结合基序的方向和间距决定了对三种核受体的选择性转录反应。Cell 1991;65（7）：1267-79.[3] Rajasekaran S，Balla S，Huang C-H，Thapar V，Gryk MR，MaciekowskiMW，Schiller MR. 模体搜索的EXact算法载于：亚太生物伦理委员会; 2005年。p. 239比48[4] 拉贾塞卡兰·布里斯改进的基于编辑距离的模体搜索算法。在：生物信息学和生物医学（BIBM），2015年IEEE国际会议。IEEE; 2015. p. 537- 42[5] 马丁内斯寻找分子序列中重复序列的有效方法。核酸研究1983;11（13）：4629[6] Nicolae M，Rajasekaran S.有效的顺序和并行算法种植模体搜索。BMCBioinf2014;15（1）：1.[7] P. A，P. A.通过从样本字符串中分支找到微妙的图案。生物信息学2003;19（增刊2）：ii 149 -55。[8] Jones NC，Pevzner PA，Pevzner P.生物信息学算法介绍。麻省理工学院出版社，2004年。[9] Che D，Song Y，Rasheed K.利用遗传算法发现基序。在：第七届遗传和进化计算年会的会议记录。ACM; 2005年。p. 447- 52[10] Pavesi G，Mauri G，Pesole G. dna序列中未知长度信号的查找算法。生物信息学2001;17（增刊1）：S207-14.[11] T. L.贝利角，澳-地Elkan等人，混合模型的期望最大化拟合来发现生物聚合物中的基序。[12] Stormo GD，Hartzell GW。从未比对的dna片段中识别蛋白质结合位点。 ProcNatl Acad Sci Unit States Am 1989;86（4）：1183-7.[13] Liu X，Brutlag DL，Liu JS.生物勘探者：发现共表达基因上游调控区的保守dna基序。在：生物计算2001。世界科学; 2000年。p. 127比38[14] Roth FP，Hughes JD，Estep PW，Church GM。通过全基因组mrna定量在未对齐的非编码序列中发现dna调控基序。Nat Biotechnol 1998;16（10）：939.[15] ThijsG，MarchalK，LescotM，Rombauts S，DeMoorB，Rou z'eP，MoreauY.gibbs抽样法检测共表达基因上游区域的过度表达模体。第五届国际计算生物学年会论文集。ACM; 2001年。p. 305- 12[16] Geman S，Geman D.随机松弛、吉布斯分布与图象的最佳复原。在：计算机视觉中的阅读Elsevier; 1987年。p. 564-84.[17] Fogel GB，Weekes DG，Varga G，Dow ER，Harlow HB，Onyia JE，Su C.用进化计算发现与基因共表达相关的序列基序。核酸研究2004;32（13）：3826-35.[18] Wei Z，Jensen ST.游戏：使用遗传算法检测顺式调节元件。生物信息学2006;22（13）：1577-84.[19] 陈天铭，梁国盛，李国豪.基于位置和一致性引导的遗传算法结合局部滤波的Tfbs识别。在：第九届遗传和进化计算年会的会议记录。ACM; 2007年。p. 377-84.[20] Dorigo M，Stützle T.蚁群优化超启发式算法：算法、应用与进展。元分析学手册。Springer; 2003.p. 250比85[21] Dorigo M，Maniezzo V，Colorni A.蚂蚁系统：由一群合作的代理人进行优化。IEEE Transactions on Systems，Man，and Cybernetics，Part B（Cybernetics）1996;26（1）：29-41.[22] Stützle T，Hoos HH.最大最小蚂蚁系统未来一代计算机系统2000;16（8）：889-914.[23] Huan HX，Tuyet DT，Ha DT，Hung NT.一种高效的dna模体发现蚁群算法。在：知识和系统工程。Springer; 2015. p. 589- 601[24] 杨春宏，刘永田，庄丽英.基于蚁群优化和期望最大化的Dna基序发现。工程师与计算机科学家国际会议录。1; 2011年。[25] Garbelini JMC，Kashiwabara AY，Sanches DS.使用模因算法的序列模体发现器。BMC Bioinf2018;19（1）：4.[26] Tompa M，Li N，Bailey TL，Church GM，De Moor B，Eskin E，Favorov AV，Frith MC，Fu Y，Kent WJ，et al. Assessing computational tools for the discoveryoftranscription factor binding sites. NatBiotechnol 2005;23（1）：137.[27] [10] Ma X，Kulkarni A，Zhang Z，Xuan Z，Serfling R，Zhang MQ.一种使用位置信息的芯片-序列/芯片-芯片数据的高效和有效的基序发现方法。Nucleic AcidsRes 2012;40（7）. e50-e50。[28] 工人CT，风暴GD。Ann-spec：一种发现转录因子结合位点的方法。在：生物计算2000。世界科学;1999年。p. 467-78.[29] BuhlerJ，Tompa M. 使用随机投影寻找图案 J Comput Biol 2002;9（2）：225-42.[30] 吴文辉，李文辉，李文辉.通过多重局部比对寻找功能序列元件。核酸研究2004;32（1）：189-200.[31] Pavlidis P，Furey TS，Liberto M，Haussler D，Grundy WN.基于启动子区域的基因分类。在：生物计算2001。世界科学; 2000年。p. 151比63[32] Bailey TL，JohnsonJ，Grant CE，Noble WS。模因套件。核酸研究2015;43（W1）：W39-49。[33] PA.寻找dna序列中的复合调控模式。生物信息学2002;18（增刊1）：S354[34] Thijs G，Lescot M，Marchal K，Rombauts S，De Moor B，Rouze P，MoreauY.高阶背景模型改进了gibbs采样法对启动子调控元件的检测。生物信息学2001;17（12）：1113-22.[35] 雷涅湾调控信号提取的数学工具。基因组调控和结构的生物信息学。Springer;2004.p. 61比9[36] Favorov AV，Gelfand MS，Gerasimova AV，Ravcheev DA，Mironov AA，MakeevVJ.一种具有改进的信号长度估计的用于识别对称结构的间隔dna基序的吉布斯采样器。生物信息学2005;21（10）：2240-5.[37] [10]杨文，杨文，杨文.杂草网：在一组共调节基因序列中发现转录因子结合位点。核酸研究2004;32（增刊2）：W199-203。[38] Sinha S，Tompa M.利用统计过度表达发现新转录因子结合位点的程序。核酸研究2003;31（13）：3586-8.

下载后可阅读完整内容，剩余1页未读，立即下载