基于邻域搜索的双聚类方法在基因表达微阵列和单细胞RNA测序数据中的应用

85 浏览量更新于2024-01-17 收藏 1.18MB PDF 举报

基因表达数据

邻域搜索

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报用于基因表达微阵列数据和单细胞RNA测序数据的双聚类的包围邻域搜索（ENS）Bhawani Sankar Biswala，Anjali Mohapatraa，Swati Vipsitaaa印度布巴内斯瓦尔国际信息技术研究所计算机科学与工程系DST-FIST生物信息学实验室阿提奇莱因福奥文章历史记录：收到2019年2019年11月4日修订2019年11月20日接受在线预订2019年保留字：微阵列Enhancing biclusteringENS邻域搜索scRNA-seq数据背景：Enseminated biclustering包括一类生成一致的、质量更好的分区作为输出的双聚类算法。这个概念已经出现了从现有的双聚类方法的融合该方法的设计丰富了现有的方法，赋予了新的性质。基因表达微阵列数据的双聚类通常是在特定条件下对表达谱进行同时聚类，并确定局部双向聚类模型。在一般情况下，biclustering解决方案依赖于不同的参数，如biclusters的数量，随机初始化等，但合奏技术，提出了减少或消除这些参数对输出bicluster的影响方法：基于邻域搜索的概念，提出了一种新的集成双聚类方法“包围邻域搜索（ENS）”。仿真结果表明，该方法在高维基因表达微阵列数据和scRNA-seq数据集上比现有的竞争方法具有更好的灵活性和适应性. 结论：所提出的框架的性能证明了其有效性与其他国家的最先进的计划。在五个不同的微阵列数据集和一个单细胞RNA序列（scRNA-seq）数据集上测试了所提出的框架。实验结果表明，该架构实现了防止异常数据丢失，并提供了输出细化为每个用户的标准。此外，该框架在高稀疏性scRNA-seq数据上有效地执行，其中大多数算法都无法做到这一点，因为这些数据集内包含大量零对ENS输出的BicAT分析最后，结果具有统计学显著性，如ANOVA表所示因此，该ENS方法可以被认为是一个可靠的框架，并且可以优于传统的双聚类方法来分析基因表达微阵列数据和高稀疏性scRNA-seq数据。ENS算法的源代码可访问https://github.com/c114002/Research/blob/master/ENS_Code.zip。©2019作者由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍高通量技术使得能够在给定时间以定量方式测量不同条件下的基因表达水平该测量的结果以包含大量基因表达数据的矩阵的形式表示（Mukhopadhyay等人， 2010年）。在基因表达微阵列数据中，局部模式的准确识别是至关重要的。在这方面，提出了各种技术，例如CC、ISA、FLOC、xMotif等（Bergmann et al.，2003; Tanay等人，2002年的年度报告;*通讯作者。电子邮件地址：C114002@iiit-bh.ac.in（B.S.Biswal），anjali@iiit-bh.ac.in（A.Mohapatra），swati@iiit-bh.ac.in（S. Vipsita）。Prelic等人，2006; Cheng and Church，2000）.其中，双聚类是一种高效且广泛使用的数据挖掘方法，能够捕获决定性的生物现象（Hartigan，1972）。Cheng和Church首先提出了基因表达微阵列数据的双聚类方法（Cheng和Church，2000），并被Tanay等人证明为NP难问题。（2002年）的报告。RNA-Seq测量高容量的RNA转录物，促进在一定时间对基因组规模的基因表达数据的分析（Wang等人，2009年）。在过去的十年中，大量的RNA-seq数据出现在公共领域。它们的巨大影响也在许多癌症等关键研究领域中观察到（Xie et al.，2018年）。scRNA-Seq数据根据细胞的全基因组转录组图谱对细胞进行分组。已经进行了几项研究来鉴定新的细胞类型https://doi.org/10.1016/j.jksuci.2019.11.0111319-1578/©2019作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comB.S. Biswal等人/沙特国王大学学报2245借助于scRNA-Seq数据，从而揭示了细胞的全部多样性（Kiselev等，2017年）。基于scRNA-seq的细胞类型分类问题在数学上可以自然地表述为双聚类问题。但scRNA-Seq数据分析的主要问题之一是，这些数据集在细胞中60%的位置包含原始零值。因此，成功用于微阵列的双聚类方法不能直接适用于RNA-Seq数据（Rau和Maugis-Rabusseau，2017）。在文献中，提出了许多方法来提取基因表达微阵列数据中的显著双簇，而scRNA-Seq数据中的方法很少这些方法基本上基于与成本函数相关联的启发式和元启发式搜索的几种优化技术。然而，一些算法，如SAMBA，CoBi，QUBIC，ISA，OREO，OPSM和Plaid等（DeSmet和Marchal，2011）不使用成本函数，因为它们本质上是基于非度量的（De Smet和Marchal，2011）。Namita等人，在他们的工作中提出了一种基于密度的子空间聚类方法（Jain和Murthy，2018）。该方法基于空间邻近性。Zhou等人提出了一种用于网络中二分社区检测的谱聚类模型（Zhou和Amini，2018）。Pelillo等人在他们的论文中提出了另一种寻找双聚类的图形版本，名为dominant set biclustering（Pelillo，2017）。由于不同的双聚类算法是基于不同的搜索策略和/或新的成本函数，输出的双聚类也是不同的，并导致不同的结论。在一个双聚类中，发现了不同种类的相干性，它们直接干扰双聚类识别机制。为了解决这些问题，提出了集成方法（Fred和Jain，2002; Hu和Yoo，2004; Strehl和Strehl，2002; Topchy等人，2003; Topchy等人， 2004; Aggarwal和Gupta，2013; Singh等人，2010; Biswal等人，2018年）。集成方法以前用于监督域。现在，它也在无监督学习方法中提供更有意义的信息（Hanczar和Nadif，2012）。总体方法原则建议在初始阶段开发一套模型，然后在后期将其聚合为最终模型。此外，它们在解决聚类和分类问题方面是有效的。这促使它们也可以扩展到双聚类。由于每种双聚类算法都有其自身的优点和缺点，因此枚举这些算法属性可以降低通过选择不良双聚类来提供不良结果的风险，这是集成方法的基本优势。本文重点介绍了一种新的集成技术，Ensemble基于邻域搜索标准的邻域搜索（ENS），用于来自实验室可获得的基因表达微阵列数据集和scRNA-seq数据集的相关质量双聚类。这种ENS方法迭代地改进了Cheng和Church（CC）算法的初始输出，然后借助集成方法对结果进行相应的改进本文的其余部分组织如下：第2节探讨了与文献相关的综述工作，以及拟议工作的动机和第3节提供了关于双聚类的信息。问题陈述和建议的工作在第4节中给出。在第5节数据集，模拟结果和研究结果进行了讨论。结论和未来工作范围见第6节。2. 相关工作Riet等人介绍了用于基因表达微阵列数据中的查询意图双聚类的Entrance方法（Hanczar和Nadif，2011）。在该方法中，共识和非冗余双聚类是从另一个共识矩阵生成的，设计独特。Bagging双聚类算法随后由Hanczar等人提出（Hanczar和Nadif，2012）。它是在Cheng和Church算法和Plaid算法的基础上提出的。Successfulhanczar将双聚类均质化为三聚类问题。Aggarwal等人在 2012 年将双聚类集成用于优化问题（ Aggarwal 和 Gupta ，2013 ）。在他们的后续工作中， Aggarwal 等人提出了 BMEI（Aggarwal和Gupta，2013）。在这里，一个有代表性的输出双聚类产生概念化的投票标准，使用ISA的双聚类。Oliveira等人提出了一种聚合双聚类结果的新方法来克服重叠问题（Oliveira等人，2015年）。此外，该方法提高了双聚类的整体质量。Mishra等提出了一种新的双聚类方法，用于发现共相关的表达谱，实现了控制双聚类中重叠的有效策略（Mishra等，2016年）。Lu和Yin（Yin和Liu，2016）提出了基因表达微阵列数据双聚类背景下的整体布谷鸟搜索。该方法重构最终的双聚类，该双聚类是通过投票共识通过不同质量度量产生的各种双聚类的聚合。随后，他们都提出了考虑MSR，VE，ACV，SMSR和RI的光谱系综双聚类（SEB），用于获得不同的双聚类集合的不同评估措施（Yin和Liu，2017）。拟议工作的目标：提出的工作是准备一个防止异常数据丢失的模型，并提供一个更精确的输出，不是根据单个参数进行评估，而是考虑到根据用户标准定义的参数的整体形式3. 双聚类及其度量双聚类可以用二维矩阵来表示，每一行代表基因，每一列代表基因在什么样的实验条件下表达，最终每一个单元格代表基因表达水平的值。例如，设B是一个双簇。I = 1，2，.. . ，p：p个基因的指数的集合。J = 1，2，.. . q：q个条件的指数集，M ij：与I和J耦合的数据矩阵。这里M ij表示在表达水平J下基因I的表达水平。①的人。3.1. 与基因表达模式有关的双簇文献解释了各种类型的双聚类。它们的分类是根据基因在实验条件下表现出的模式进行的（Mukhopadhyay等人， 2010年）。Fig. 1. 双群集的示意图2246B.S. Biswal等人/沙特国王大学学报XX1--X X122 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 1919---I：JIJ我考虑到不同，双聚类被分为以下类型ent参数（Elloumi和Zomaya，2011年）：IIJIVE Bb0-p08联系我们3.1.1. 定义1行上具有常量值的Biclustermij<$cai1mij<$cωai2其中c=常数ai=行i的调整。3.1.2. 定义2列上具有常量值的Bicluster其中，bij是双聚类，Pi是趋势模式3.2.3.定义7平均相似性分数：平均相似性分数（AVSS）（Liu和Wang，2006）测量行和列元素之间的相似性分数。它量化了双聚类的相干程度。给定SI;J的双聚类SI0j0，则平均相似-SI0J0的评分为：mij<$cbi3SavgI0;J0. 我0。. J0.ð9Þmij<$cωbi4其中bj=第j列的调整3.1.3. 定义3具有一致值的Bicluster可以区分基因和条件之间更复杂的相关性。它可以在加法过程或乘法过程中进行分析：(a) 在添加过程中：其中，I代表行，J代表列。Sij=某种相似性度量。3.2.4.定义8平均斯皮尔曼rho：平均斯皮尔曼rho（ASR）（Ayadi等人，2009）测量两个变量之间的统计依赖性。它米伊杰 ^^ð5Þ单调相关，即使它们的关系不是线性的。(b) 在乘法过程：IJ我JAS RI0;J0¼2×max（Pis.I0P. .jP。i1;jsI0qij;PksJ.0P。 L.P.k1;ksJ0qkl）10m<$cωaωbð6Þ. 我0。- 是的我0。 -1 英里J0. - 是的J0. -1美元其中，3.1.4.定义4一致进化中采用的方法是在一个条件子集上调节基因（上/下）的子集。这里不考虑实际的表达式值。因此，双聚类中的信息内容不属于任何数学模型。然而，在这个双聚类中，所有行与列的对应导致子集上的线性顺序行与列的对应关系3.2. 双聚类的质量度量准则3.2.1. 定义5均方残差（MSR）：双聚类中基因和条件之间的这种一致性通过MSR来测量 MSR在数据集中执行移位技术，并且依赖于从输入基因表达数据矩阵返回双聚类列表的顺序覆盖策略（Bozda g. 2010）。对于双簇B（I，J）的MSR定义为：IIJIMSRB b b b b7jIjjji<$1j< $1qij = Spearman秩相关性与双聚类中的行索引i和j; J 0和Ji-j。 qkl=Spearman秩相关，列指数k和l在双聚类中分别为：J0，J1，J2，K1，K2，K3，K4，K5，K6，K7，K8，K9，K10，K11，K12，K14. 拟议方法建议ENS机制可以被视为一个迭代的本地搜索过程。ENS通过下降过程发现局部最优解，并使用行/列分数将搜索替换到未探索搜索区域的另一个起点下面用流程图解释所提出的方法（见图1）。 2）的情况。其中，bij=整个双聚类的平均值，biJ=行i的平均值bIj=第j列的平均值。4.1.1. 定义6虚误差：该测度适用于具有标度模式和相干演化的双簇。它测量基因如何遵循双簇内的一般趋势。根据双聚类的基因计算新的虚拟行，称为虚拟模式或虚拟基因。由于虚拟错误（ Dialdet al.，2012）表示基因表达模式和虚拟模式之间的差异，因此双聚类的基因表达模式越相似，其VE越小。VE定义为：图二. ENS算法的工作流程图。B.S. Biswal等人/沙特国王大学学报22474.2. Cheng和Church算法的实现（用于生成输入）ENS算法需要一个初始的双聚类开始搜索过程。它可以是任何质量的双群集。因此，一个贪婪的算法，提出了由Cheng和Church的，erate初始的双聚类。此外，该初始双聚类被用于ENS算法的进一步改进。4.3. 算法1：邻域搜索在本节中，将解释所提出的算法以及伪代码。邻域搜索方法是一种基于下降的改进方法，它定义了搜索空间中的双聚类模式及其邻域。在任何局部搜索方法的上下文中（Lourenço等人，2003年），邻里可以被视为一个至关重要的因素。邻里往往是代表-由移动操作员怨恨（Ayadi等人，2012年）。它可以表示如下：对于给定的解s，s0←sm其中，m=移动算子，s0=新的变换解，=直接和运算符。该算法使用两个移动操作基因明智和条件明智的执行这个任务。两者都是一般的基于算术的算子，通常从初始解中迭代地添加一个/一些新元素或删除一个/一些现有元素。添加和去除是基于一定的标准，这在整个过程中起着重要作用。在此，标准在质量阈值方面是固定的。移动算子m通过去除多个基因然后将其添加到初始双聚类来实现细化，以获得更连贯的针对逐行对mr执行该操作，然后计算每行的行得分的算法1：邻域搜索2248B.S. Biswal等人/沙特国王大学学报ð Þ选择满足预定阈值A的行。对mc重复相同的程序进行逐柱过滤，即去除和添加条件。然后计算列得分。通过这样，选择在预定义阈值b以上执行的列。4.4. 算法2：包围邻域搜索（ENS）方法由于biclustering算法和biclusters往往是不同的性质，评估他们只通过一个搜索标准是不够的。同样，集成方法相对于传统的双聚类方法表现更好，从而促进了以用户定义的方式施加不同参数测量的灵活性这有助于以混合方式评估双聚类的质量这里的基本思想是设计一个适应度函数，并将一组度量嵌入其中。然后通过此设计函数传递双群集输出在这项工作中，作者集中在四个基本的参数测量，因为它们主要用于在不同方面的质量biclusters的评价它们分别是均方残差（MSR）、虚拟误差（VE）、平均相似性得分（AVSS）和平均斯皮尔曼Rho（ASR）。选择这四个度量的目的是以更精细的方式改进邻域搜索产生的中间通过指定这四个评估措施，结果双聚类将更加连贯，以及更多的统计依赖行和列。具有尺度模式和相干进化的双聚类包括VE作为适应度函数的一部分AVSS考虑行和列之间的相似性得分，最终将行和列添加或删除其他现有的措施也可以加入到工作中，以进一步扩展。设f B为通过ENS评估双聚类值的适应度函数。然后，8>MSR5. 数据集、模拟和结果5.1. 数据集说明ENS方法的执行是用五个不同的微阵列数据集（合成的和真实的）进行的酿酒酵母数据集（Gasch et al.，2000）在79个实验条件下由2467个基因组成。它基本上是原始数据集的合成版本。酵母细胞周期包含6000个基因和17个条件。在该实验中，在17种条件下仅选择了2884个基因（Cheng和Church，2000）。完整的数据集描述于（Tavazoie et al. （1999）和可从（Cheng和Church（2006）.淋巴瘤数据集（Shipp等人，2002）在77个实验条件下积累了2647个基因表达谱。乳腺癌数据集（Glaab等人，2012）和前列腺癌数据集（Glaab等人，2012）是两个癌症数据集。乳腺癌数据集的合成版本最后，一个空间scRNA-seq数据集GSE 60402（Barrett等人，2012;Barrett等人，2006年）采用ENS方法进行分析。考虑GSE 60402的三个子集，即突变体、Wt1和Wt2用于模拟。5.2. 仿真结果ENS方法在配备XEON处理器CPU和8 GB RAM的Matlab 2015环境中执行在这样的条件下，几乎在不到两分钟的时间内它分三个阶段进行。5.2.1. 第一在这个阶段，实现了第4.2节和第4.3 相应地设置两个阈值a1/4 0：5、b1/40： 7在此之前，采用0： 4和0： 5的比例进行评价，ASR>：AVSS当然。记录中间结果和最终输出。在实现ENS算法的第一部分（针对邻域搜索执行）之后检索中间结果。这个双簇是CC的一个更大的版本（就基因数量而言输出双群集。据观察，对于每个数据集，算法2：ENS算法1输入：来自邻域搜索的中间双聚类2输出：最优双聚类3设计一个适应度函数fB● 包括AVSS● 包括ASR● 包括VE4执行fB通过应用邻域搜索对CC输出进行基准即兴在应用这种局部搜索标准时，更多数量的基因现在参与双聚类。其次，应用集成方法（在算法2中设计的）生成最终输出双聚类。这个最终的输出bicluster是中间bicluster的功能丰富版本。这种丰富性是由于以整体形式应用的各种参数测量。中间结果双聚类的大小减小。在所选条件下，50%以上的无关基因被忽略.意味着最后的出局-表1输出的详细信息数据集大小CC输出中间双聚类最终ENS输出乳腺癌3000 * 10810 * 8477 * 108209 * 108酵母2884 * 177 * 9464 * 17203 * 17前列腺癌2135 * 102168 * 20448 * 102196 * 102酿酒酵母2467 * 7963 * 15452 * 79198 * 79淋巴瘤2647 * 773 * 2450 * 77197 * 77GSE 60402-突变体24061 * 9450 * 45852 * 94316 * 94GSE 60402-野生型124061 * 6240 * 381233 * 62502 * 62GSE 60402-野生型224061 * 62111 * 19781 * 62248 * 62fVEB.S. Biswal等人/沙特国王大学学报2249¼ðÞENS方法的输出包含更多过滤的基因。然而，与中间双簇相比，最终输出更富含生物学。表1显示了所用数据集的详细信息以及中间结果和最终输出。5.2.2. 第二在此阶段，通过 BicAT 分析验证 ENS 算法获得的结果。通过Biclutering Analysis Toolbox（BicAT）工具箱（Barkow等人，2006年）。它以一个通用的图形用户界面的形式集成了许多双聚类和聚类技术。当两个生成的结果通过该工具时，考虑其生物分组，为每个数据集生成不同的图。在这里，每个数据集的一些图表被认为是用于参考目的。比较这些图，可以观察到，与中间双簇相比，最终输出双簇中表达谱的分离不太冗余并且更精细。图35.2.3. 第三最后，在第三阶段，进行统计分析。在这方面，方差分析（ANOVA）用于验证几个输出的均值是否相等，并采用置信度测量。在ANOVA中定义零假设和备择假设。替代假设结果之间没有显著差异，而备择假设假设结果之间存在显著差异。在ENS算法的不同步骤生成的结果之间存在显著差异。这里考虑中间结果双聚类和最终输出双聚类。零假设的拒绝或接受主要取决于ANOVA检验的p值。如果p0： 05，则零假设失败<该p值被认为在5%的显著性水平。此外，更接近或等于零的一组双聚类的p值指示基因的值彼此更显著。为了更好地理解，在Trenkler（1995）中给出了ANOVA的详细分析。中间结果与最终输出双聚类的方差分析表明，所有六个数据集的输出是不同的，因此具有统计学显著性。从而证明了ENS算法的两个结果ANOVA表见表3，以供进一步参考。5.3. 复杂性分析ENS方法包括两个主要模块：使用邻域搜索生成biclus- ters和以集成形式执行适应度函数生成双聚类的计算将最大开销添加到整体复杂度。假设数据集由m个基因和n个样本组成，在第4.2节中描述的算法1中计算行得分和列得分的计算时间复杂度为Om2n2。选择行数和列数的时间复杂度为图三. 乳腺癌数据集的BicAT分析图。见图4。酵母数据集的BicAT分析图。图五. 前列腺癌数据集的BicAT分析图。2250B.S. Biswal等人/沙特国王大学学报ð Þ ð Þ见图6。 SCYeast数据集的BicAT分析图。见图7。淋巴瘤癌症数据集的BicAT分析图。见图8。 GSE 60402-野生型2数据集的BicAT分析图。表2显示中间和ENS双簇中的基因参与的表O m和O n。在第4.3节的算法2中，应用了三个参数测量它们的复杂度都是Om2n2time.此外，通过整合这些参数和生成-数据集名称中间结果双聚类的基因参与最终输出双簇的基因因此，时间复杂度为O（mn）。因此ENS方法的总体时间复杂度为：Om2n2OmOn 3 Om2n2Omn因此Om2n2：表3所有数据集的ANOVA表。恶性淋巴瘤0 0 0.0038GSE 60402-野生型2 0.735 0 0.8706. 结论本文提出了一种新的微阵列数据和单细胞RNS序列数据的双聚类方法--“与该方法相关联的邻域搜索在计算过程中从初始输入贡献较少的数据丢失量此外，集成方法提供了更少的冗余和更多的生物富集的输出双集群。这可以防止异常数据丢失，并根据用户标准提供精细的输出该算法也有效地工作在高稀疏性scRNA-seq数据集，其中算法的其他双聚类状态无法做到这一点。对ENS输出的BicAT分析验证了ENS方法的计算有效性，并可用于提高双聚类的质量。结果具有统计学显著性，如ANOVA表所示。今后将探讨一些有效的措施乳腺癌0805酵母2502前列腺癌2504酿酒酵母1410淋巴瘤0202GSE 60402-野生型22511数据集列行相互作用乳腺癌000.0001酵母0.230700.9997前列腺癌000SC酵母5.36555e-3006.33537e-584.86273e-39B.S. Biswal等人/沙特国王大学学报2251利用该模型以一种集成的形式从表达谱中提取有意义竞争利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作。确认作者感谢印度政府科学技术部、布巴内斯瓦尔理工学院计算机科学与工程部的FIST项目提供的所有设施和指导。引用Mukhopadhyay，A.，莫里克，美国，Bandyopadhyay，S.，2010.基因表达数据的双聚类。Curr.生物信息。5（3），204-216。Bergmann，S.，Ihmels，J.，Barkai，N.，2003.用于大规模基因表达数据分析的迭代签名算法。Phys. Rev. E 67，（3）031902.Tanay，A.，沙兰河，沙米尔河，2002年。在基因表达数据中发现统计学显著的双聚类。生物信息学18（增刊1），S136-S144。Prelic′ ，A.，布莱德利， S.，Zimmermann，P.，Wille，A.，Bühlmann，P.，Gruissem，W.，亨尼希湖蒂勒湖，Zitzler，E.，2006.基因表达数据双聚类方法的系统比较与评价。Bioinformatics 22（9），1122- 1129.郑，Y.，丘奇，G.，2000.表达数据的分类。第八届分子生物学智能系统国际会议论文集。Hartigan，J.A.，1972.数据矩阵的直接聚类。J Am. Stat. Assoc.67（337），123-129。王志，格施泰因，M. ，斯奈德，M.，2009. Rna-seq：转录组学的革命性工具。Nature Rev. Genet. 10（1），57.Xie J，Ma A，Zhang Y，Liu B，Wang C，Cao S，Zhang C，Ma Q，2018. Qubic2：一种用于大规模批量RNA 测序和单细胞RNA测序数据分析的新型双聚类算法，bioRxiv，409961.Kiselev，V.Y.，基尔施纳，K.，Schaub，M.T.，安德鲁斯，T.，Yiu，A.，钱德拉，T.，Natarajan，K.N.，Reik，W.，Barahona，M.，格林，A.R.，例如，2017. sc 3：单细胞rna-seq数据的一致聚类。 Nature Methods 14（5），483.Rau，A.，Maugis-Rabusseau，C.，2017. rna-seq共表达分析的转换与模型选择。生物信息学简报19（3），425-436.DeSmet，R.，Marchal，K.，2011年。一种基于集成双聚类的基因表达实验列表查询方法。生物信息学27（14），1948一九五六年Jain，N.，Murthy，C.，2018年基于连通性的子空间聚类。知道。INF.系统：1-26周泽，Amini A.A.，2018.最优二分网络聚类，arXiv预印本arXiv：1803.06031..Pelillo，M.，2017.支配集双聚类。计算机视觉和模式识别中的能量最小化方法：第11届国际会议，EMMCVPR 2017，意大利威尼斯，第10746卷。Springer，p. 49.修订的论文集。弗雷德，A.L.，贾恩，A.K.，2002.使用证据积累的数据聚类。2002. 诉讼第16届模式识别国际会议，第4卷。IEEE，pp. 276-280。Hu，X.，尤，我，2004.聚类集成及其在基因表达分析中的应用。第二届亚太生物信息学会议记录，第29卷。澳大利亚计算机协会，pp. 第 297-302页Strehl，A.，Ghosh，J.，2002.一个结合多个分区的知识重用框架。J. 马赫学习. Res.3（Dec），583-617.Topchy，A.，贾恩，A.K.，潘趣，W.，2003.合并多个弱聚类。2003. ICDM 2003年。第三届IEEE数据挖掘国际会议IEEE，pp. 331- 338Topchy，A.，Minaei-Bidgoli，B.，贾恩，A.K.，潘趣，W.F.，2004.自适应聚类集成。2004. ICPR 2004年。第17届模式识别国际会议论文集，卷。1.一、IEEE，pp. 272比275Aggarwal，G.，古普塔，N.，2013.使用互信息的BEMI双集群集成。2013年第12届机器学习与应用国际会议（ICMLA），第1卷。IEEE，pp.321-324.辛格，V.，慕克吉湖彭，J，徐，J，2010.用半定规划法进行包围聚类及其应用。马赫学习. 79（1 -2），177-200。Biswal，B.S.，Mohapatra，A.，Vipsita，S.，2018.基因表达微阵列数据的双聚类：算法、有效度量与验证。Int.J.Data Mining Bioinformatics 21（3），230Hanczar，B.，Nadif，M.，2012.用于双聚类任务的包围方法。模式n。45（11），3938-3949。Hanczar，B.，Nadif，M.，2011.使用bagging方法对基因表达数据进行双聚类。神经计算74（10），1595-1605。Aggarwal，G.，古普塔，N.，2013.使用优化技术的Bietopti-biclustering集成。数据挖掘工业会议施普林格，pp. 181-192.Oliveira，S.，韦罗内兹河冯祖本，F.J.，2015.论双簇聚合及其对枚举解的好处。模式识别中的机器学习和数据挖掘国际研讨会。施普林格，pp. 266-280。米什拉，A.，Biswal，B.S.，Mohapatra，A.，Vipsita，S.，2016.用先进的重叠控制策略对基因表达模式进行双聚类。2016 IEEE第一届电力电子、智能控制和能源系统国际会议（ICPECES）IEEE，pp. 1比5。Yin ， L. ，（ 1996 - 1997 ），美国， Liu ， Y. ， 2016. Encourage cuckoo searchbiclustering of the gene expressiondata. 2016年IEEE第15届认知信息学国际会议&（ICCI* CC）。IEEE，pp. 419- 422Yin，L.，（1996 - 1997），美国，Liu，Y.，2017.基于谱聚类的基因表达数据的聚类分析。神经元计算应用程序、1-14Elloumi，M.，Zomaya，A.Y.，2011.计算分子生物学算法：技术、方法与应用。21岁约翰·威利&父子公司Bozdag，D.，Kumar，A.S.，Catalyurek，紫外线，2010年。双聚类算法的比较分析。第一届ACM生物信息学和计算生物学国际会议论文集。ACM，pp. 265-274。Diplomat，F.，Pontes，B.，Giráldez河，Aguilar-Ruiz，J.S.，2012.一种评价双聚类质量的有效方法。计算机生物学Med. 42（2），245-256。刘， X. ， Wang ， L. ，美国， 2006. 计算基因表达数据的最大相似性双聚类。Bioinformatics 23（1），50-56.Ayadi，W.，Elloumi，M.，郝，J. -K.，2009年基于双聚类枚举树的双聚类算法在dna微阵列数据中的应用。BioData Mining 2（1），9.Lourenço，H.R.，马丁，O.C.，Stützle，T.，2003.迭代本地搜索。元分析学手册。施普林格，pp. 320- 353Ayadi，W.，Elloumi，M.，郝，J. - K.，2012.模式驱动的邻域搜索用于微阵列数据的双聚类。BMC生物信息学，第13卷。^McDonald，p. S11。加什，AP，Spellman，P.T.，Kao，C.M.，Carmel-Harel，O.，M.B.，Storz，G.，Botstein，D.，布朗，邮政编码，2000.酵母细胞对环境变化的反应中的基因组表达程序。摩尔Biol. Cell 11（12），4241-4257.Tavazoie，S.，休斯，J.D.，坎贝尔，M.J.，周，R.J.，丘奇，通用汽车1999. 遗传网络结构的系统测定。Nature Genet. 22（3），281。Cheng Y，Church G. 2006，表达数据的双聚类-补充信息，在：技术报告..希普，文学硕士，罗斯，K.N.，Tamayo，P.，翁，A.P.，Kutok，J.L.，R.C.阿吉亚尔，Gaasenbeek，M.，Angelo，M.，Reich，M.，Pinkus，G. S.，例如，2002.通过基因表达谱和监督机器学习预测弥漫性大b细胞淋巴瘤的预后。Nature Med. 8（1），68.Glaab，E.，Bacardit，J.，加里波第，J.M.，Krasnogor，N.，2012年。使用基于规则的机器学习进行候选疾病基因优先级排序和癌症基因表达数据的样本分类。 PloS One7，（7）e39932.巴雷特， T. ， Wilhite ， S.E. ， Ledoux ， P. ， Evangelista ， C. ， Kim ， I.F. ，Tomashevsky，M.，马歇尔，K.A.，Phillippy，K.H.，舍曼，P.M.，Holko，M.，例如，2012.功能基因组学数据集存档。Nucleic Acids Res.41（D1），D991-D995.巴雷特，T.，特鲁普，D.B.，Wilhite，S.E.，Ledoux，P.，Rudnev，D.，Evangelista，C.，Kim，I.F.，Soboleva，A.，Tomashevsky，M.，埃德加河，2006. Ncbi geo：数千万个表情图谱的挖掘-数据库与工具更新。Nucleic Acids Res.35（增刊1），D 760-D 765。Barkow ， S. ，布莱德利， S. ， Prelic′ ，A. ， Zimmermann， P. ， Zitzler， E. ， 2006年。Bicat：一个双聚类分析工具箱。生物信息学22（10），1282-1283 。网址：//doi.org/10.1093/bioinformatics/btl099.Trenkler G，多变量分析方法。概率和数理统计中的威利级数：概率和数理统计部分：Alvin c.rencher（1995）：Isbn 0471-571-520，£ 58.00，xvi+627 pp.（1996年）

下载后可阅读完整内容，剩余1页未读，立即下载