蛋白质序列分类提升:利用相邻与重叠片段技术

3 下载量 171 浏览量 更新于2024-07-15 收藏 406KB PDF 举报
"这篇研究论文探讨了一种改进蛋白质序列分类性能的方法,利用现有蛋白质描述符的相邻和重叠片段。作者提出,虽然位置无关的描述符对于任何长度的蛋白质序列都适用,但它们忽略了序列中子序列的位置信息,而这可能是影响分类的关键因素。通过将蛋白质序列分割成多个片段并计算其数值特征,可以部分引入位置信息,从而提升分类效果。通过综合实验,研究者发现这种方法可以有效提高蛋白质分类的准确性,并在三种不同的蛋白质分类问题上取得了显著的改进。这表明这种方法有潜力应用于生物信息学中的其他序列问题。" 本文是发表在《生物医学科学与工程》(J. Biomedical Science and Engineering)期刊2018年第六期的一篇研究,由来自日本金泽大学的研究团队撰写。论文的关键词包括:蛋白质序列分类、蛋白质描述符、序列分割和特征选择。研究的核心是解决蛋白质序列分类中丢失位置信息的问题,作者通过将蛋白质序列划分为相邻和重叠的片段,保留了部分位置信息,并结合特征选择策略,提升了分类模型的性能。 具体来说,论文首先介绍了当前蛋白质序列分类常用的方法,即使用k聚体组成的组成等描述符将不固定长度的序列转化为固定长度的向量。然而,这种方法忽视了序列中不同位置的氨基酸可能带来的信息差异。因此,研究人员提出了新的处理策略,将序列分割成多个段,每一段都包含了位置信息,比如序列前端或后端的特定氨基酸组成。通过调整段数和重叠区域的长度,他们进行了广泛的实验,证明了这种方法可以有效提升分类的准确性和效率。 在实验部分,研究者选取了三个不同的蛋白质分类任务,分别应用了他们的方法。实验结果表明,在所有情况下,利用相邻和重叠片段的策略都显著提高了分类性能。这表明,这种新方法不仅在蛋白质分类中具有潜力,还可能被应用于其他生物信息学领域,如基因功能预测、蛋白质结构分析等。 这项研究提供了一个创新的视角来考虑蛋白质序列分类问题,强调了位置信息的重要性,并提出了一种实用的解决方案。通过引入序列分割和特征选择,这种方法有助于提升现有分类算法的性能,为生物信息学研究提供了新的工具和思路。

根据文件“Molecular_Descriptor.xlsx”和“ERα_activity.xlsx”提供的数据,针对1974个化合物的729个分子描述符进行变量选择,根据变量对生物活性影响的重要性进行排序,并给出前20个对生物活性最具有显著影响的分子描述符(即变量),并请详细说明分子描述符筛选过程及其合理性。 问题2. 请结合问题1,选择不超过20个分子描述符变量,构建化合物对ERα生物活性的定量预测模型,请叙述建模过程。然后使用构建的预测模型,对文件“ERα_activity.xlsx”的test表中的50个化合物进行IC50值和对应的pIC50值预测,并将结果分别填入“ERα_activity.xlsx”的test表中的IC50_nM列及对应的pIC50列。 问题3. 请利用文件“Molecular_Descriptor.xlsx”提供的729个分子描述符,针对文件“ADMET.xlsx”中提供的1974个化合物的ADMET数据,从五个指标(Caco-2、CYP3A4、hERG、HOB、MN)中任选2个,分别构建其分类预测模型,并简要叙述建模过程。然后使用所构建的2个分类预测模型,对文件“ADMET.xlsx”的test表中的50个化合物进行相应的预测,并将结果填入“ADMET.xlsx”的test表中对应的Caco-2、CYP3A4、hERG、HOB、MN列。 问题4(选做). 寻找并阐述化合物的哪些分子描述符,以及这些分子描述符在什么取值或者处于什么取值范围时,能够使化合物对抑制ERα具有更好的生物活性,同时具有更好的ADMET性质(给定的五个ADMET性质中,至少三个性质较好)。

2023-06-12 上传