基于全局信息的高效分层近邻传播聚类算法在基因表达数据中的应用

0 下载量 72 浏览量 更新于2024-08-27 收藏 323KB PDF 举报
"这篇研究论文探讨了一种针对基因表达数据的分层近邻传播聚类算法,旨在提高处理大规模基因表达数据的精确度。通过使用皮尔逊(Pearson)系数来度量基因表达数据之间的相似性,构建相似性矩阵,并在算法的自适应阶段引入全局数据信息,以提升聚类效果。实验结果显示,该算法在速度和聚类质量上优于同类方法,能够获得高Silhouette (Sil)和Calinski-Harabasz (CH)指标值的聚类结果。该研究得到了国家自然科学基金和广西自然科学基金的支持。" 这篇论文关注的是生物信息学领域中的一个关键问题——如何有效地对基因表达数据进行聚类分析。聚类是数据分析的重要手段,它可以帮助科学家识别基因间的相似性,进而揭示基因功能、疾病机制以及生物过程。在基因表达数据的聚类中,选择合适的度量方法至关重要。皮尔逊相关系数是一种常用的度量连续变量间线性关系的统计量,它被用来计算基因表达水平之间的相似性,形成相似性矩阵。 论文介绍的分层近邻传播聚类算法是一种迭代的方法,其核心思想是通过不断传播相邻样本间的相似性来形成聚类。在传统的近邻传播算法基础上,该研究引入了分层策略,即在自适应阶段考虑全局数据信息,这有助于捕捉数据集的整体结构,提高聚类的稳定性和准确性。 实验部分对比了提出的算法与现有方法在处理大规模基因表达数据时的表现。Silhouette指数和Calinski-Harabasz指数是评价聚类质量的常用指标,前者衡量了个体样本在所属聚类内的紧密度和与其他聚类的距离,后者则评估了聚类的紧凑度和分离度。较高的Sil和CH值表明聚类效果更好。 通过实验证明,新提出的分层近邻传播聚类算法不仅在处理速度上具有优势,而且能提供高质量的聚类结果,这对于理解和解析复杂的基因表达模式,以及挖掘潜在的生物学意义具有重要意义。此外,由于该算法对全局数据信息的利用,使得它在处理大规模数据集时依然保持高效,这对于应对当前基因表达数据快速增长的挑战具有实际价值。 这篇论文为基因表达数据的聚类分析提供了一个新的有效工具,对于生物信息学研究和医学应用具有重要贡献。同时,它也为相关领域的研究人员提供了改进聚类算法的思路,特别是如何结合全局信息优化局部聚类过程。