深度学习与字符嵌入预测细胞穿透肽的新方法

1 下载量 63 浏览量 更新于2024-08-27 收藏 1.18MB PDF 举报
"这篇研究论文探讨了一种基于深度学习和字符嵌入的细胞穿透肽预测新方法,旨在解决传统预测方法中存在的特征抽取复杂、算法效率低及准确性不足的问题。" 在生物医学领域,细胞穿透肽(Cell-Penetrating Peptides, CPPs)是一种能够穿越细胞膜进入细胞内部的短肽序列,它们在药物传输、基因递送等方面具有重要应用。然而,预测一个肽序列是否具备细胞穿透能力是极具挑战性的,因为这需要识别出决定其穿透性的关键特征。 传统的细胞穿透肽预测方法通常涉及手动特征工程,即从氨基酸序列中提取特定的物理化学特性或序列模式,这一过程既耗时又容易丢失重要信息。为了克服这些限制,该研究引入了自然语言处理中的字符嵌入(Character Embedding)技术,这是一种从原始字符级别学习表示的方法。通过深度学习网络,每个氨基酸的字符被映射到一个低维度的向量空间,这个向量能够捕获字符的语义信息。 论文中使用了卷积神经网络(CNN)和长短时记忆网络(LSTM)的组合模型,即CNN-LSTM模型。CNN擅长于捕捉局部特征,而LSTM则能有效地处理序列数据中的长期依赖关系。氨基酸序列通过预训练的字符嵌入向量转化为数值矩阵,作为CNN-LSTM模型的输入。模型自动从输入序列中学习和抽取特征,然后对细胞穿透性进行预测。 实验结果表明,这种方法在相同数据集上取得了优异的性能,测试集上的曲线下面积(AUC)达到了0.97,正确指数达到了0.846,均优于其他已知方法。这些结果证明了所提出的方法在细胞穿透肽预测任务中具有更高的准确性和效率,简化了预测流程,降低了对人工特征工程的依赖。 该研究展示了深度学习和字符嵌入技术在生物信息学中的潜力,为细胞穿透肽的研究提供了新的工具和思路,有望促进药物设计和生物分子传递领域的进步。同时,这也为其他序列预测问题提供了一个可能的通用框架,尤其是在生物序列分析和理解的深度学习应用中。