利用信息关联与偏信息关联标识基因组研究

需积分: 5 0 下载量 197 浏览量 更新于2024-08-08 收藏 388KB PDF 举报
"这篇论文是2011年发表在《内蒙古大学学报(自然科学版)》第42卷第1期上的,作者是高扬和罗辽复,主题涉及自然科学,具体是生物信息学领域的研究。研究目标是探索如何使用信息关联和偏信息关联作为工具来标记和识别基因组,尤其是探讨它们在基因组识别码有效性方面的应用。" 正文: 该研究深入到生物信息学的领域,重点关注基因组的特性,特别是那些可能作为基因组身份标识的统计和确定性结构。基因组签名,即序列中存在的特定模式,可以揭示生物体的功能选择压力以及生命进化过程中的关键事件。例如,DNA的宏观曲率、剪接位点预测、转录因子结合位点识别、蛋白质二级结构预测等,都是通过序列分析来揭示生命机制的重要手段。 研究中,作者选取了30个不同物种的20万碱基长的随机序列片段,通过对这些序列进行方差分析和多重比较检验,评估了多项信息参数作为基因组识别码的有效性。在16种偏信息关联中,FA(b)C、FC(k)A、FG(k)T和FT(k)G这四种关联显示出最强的识别能力。这些结果表明,基因组在语言模式上倾向于AC和GT的配对,这可能是由于这些配对在生物功能上具有特殊意义。 进一步的研究发现,将信息关联与上述四种偏信息关联相结合,可以显著提升基因组识别的准确性。信息关联和偏信息关联的结合使用,为基因组的标记和分类提供了有力的工具,这对于处理基因组测序产生的大量短序列片段的装配问题尤其有价值。在当前基因组学研究中,随着高通量测序技术的发展,大量短片段的组装成为一大挑战,而有效的基因组签名可以帮助准确地归类这些片段,并促进基因组系统发生学的研究。 传统的k-mer频数统计方法已被广泛用于寻找基因组签名,如Karlin及其团队发现的50K bp序列片段的归一化2-mer频率稳定性。然而,本文提出的利用信息关联和偏信息关联的新方法,可能提供更高效且更精确的分类途径,这为未来的生物信息学研究开辟了新的方向。通过混沌动力学、贝叶斯算法和生长型自组织算法等复杂计算方法,研究人员已经取得了一些进展,但本研究中提到的信息关联和偏信息关联组合策略,有望在物种分类和基因组识别方面取得突破。 这项工作为理解基因组的内在特性以及开发新的生物信息学分析工具提供了重要贡献,强调了信息理论在基因组学研究中的潜力,特别是对于解决基因组装配和分类难题的实用价值。