没有合适的资源?快使用搜索试试~ 我知道了~
使用深度学习预测HLA非依赖性T细胞表位的卷积神经网络
生命科学中的人工智能2(2022)100038研究文章去表位:使用卷积神经网络预测由MHC II类介导的HLA非依赖性T细胞表位Raphael Trevizania, Fábio Lima CustódiobaFIOCRUZ - Fundação Oswaldo Cruz,Eusébio,CE,BrazilbLNCC -国家科学计算中心,巴西,彼得罗波利斯aRT i cL e i nf o保留字:表位预测CD8+顺磁性MHC-I深度学习a b sTR a cT计算线性T细胞表位预测工具允许在下游体外测试中降低成本和劳动力,但是目前可用的方法的质量受到实验数据的稀缺和广泛的HLA多态性的影响。然而,有可能通过放弃允许将所有免疫原性序列作为单个组处理的HLA依赖性来提高预测质量。这将问题简化为确定肽是否具有免疫原性的简单得多的两类分类。在这里,我们使用了一个深度卷积神经网络,它能够预测使用IEDB网站上存放的所有肽训练的一级结构中的线性T细胞表位区域。我们还研究了使用来自已知人类蛋白质的肽作为非免疫原性反例的可能性。我们将我们的模型与最先进的工具进行了比较,并分析了使用更大数据库的好处。我们的研究结果证实了HLA免费的方法,需要识别免疫原性序列的实际应用的有用性。Deepepitope是一个开源项目,可以在https://github.com/raphaeltrevizani/deepitope上找到。1. 介绍生物制药的一个主要问题是它们固有的潜在触发不需要的免疫反应,导致产生抗药抗体,这可能导致不良副作用并改变药物药代动力学,最终阻碍治疗[1触发免疫应答的一个途径始于源自蛋白水解加工的蛋白质的肽,所述蛋白质通过位于抗原呈递细胞的主要组织相容性复合体II类(MHC-II)表面上的膜蛋白呈递给T细胞由于T细胞在驱动体液免疫中发挥的作用,理解其潜在机制特别相关,并且计算工具是帮助绘制T细胞结合物的宝贵资产[8,8这些工具已经在实际应用中成功地使用了很多次[13-预测MHC II类分子的最大挑战之一涉及其固有的多样性,这使得量化与每个现有MHC变体的相互作用变得不切实际。截至2022年5月,它们在3个极其多态的人类白细胞抗原基因座(HLA-DR、DP、DQ[23])中编码,具有9182个HLAII类等位基因[https://www.ebi.ac.uk/ipd/imgt/hla/stats.html]。∗ 通讯作者。电子邮件地址: raphael@raphaeltrevizani.com(R. Trevizani)。https://doi.org/10.1016/j.ailsci.2022.100038接收日期:2022年5月26日;接受日期:2022年5月26日2022年5月29日网上发售为了克服HLA数量带来的问题,开发了“泛”预测因子的概念,NetMHCIIpan[11]等泛方法报告的结果证明了扩展现有实验数据以代表人类中大多数MHC相互作用的变异性的实际优势[24]。为了进一步提高泛化能力,Dhanda及其合作者最近提出的一项工作表明,学习某些方面是可能的。在一级结构中编码的免疫原性,而没有MHC等位基因变异的并发症,具有HLA非依赖性模型[25]。这种HLA非依赖性方法利用了高度的表位混杂性,补偿了MHC分子的不充分数据,并解释了MHC结合以外的免疫原性[25]。除此之外,放弃HLA特异性已被建议提高预测[25],这是由于表位混杂的普遍性[24]。在这项 工作中, 我们通过 将免疫表 位数据库 和分析资 源网站(IEDB,[26])上可用的实验确定的T细胞表位提供给深度卷积神经网络,并对其进行训练以区分免疫原性和非免疫原性肽,而不管其相关的HLA。最近的工作已经成功地应用卷积神经网络(CNN)来学习MHC-I/肽结合的偏好[27]。的2667-3185/© 2022作者。出版社:Elsevier B.V.这是CC BY许可下的开放获取文章(http://creativecommons.org/licenses/by/4.0/)可在ScienceDirect上获得目录列表生命科学期刊首页:www.elsevier.com/locate/ailsciR. Trevizani和F.L. 库斯托迪奥生命科学中的人工智能2(2022)1000382Fig. 1. 卷积神经网络模型本文提出的方法仅依赖于精选表位的序列,因此允许将数据库扩展到所有已知的我们探索了免疫原性肽的不同HLA非依赖性数据集我们将我们的结果与CD4episcore的结果进行了比较,后者是一种预测人群中CD4免疫原性的最先进工具[25]。2. 方法2.1. 模型我们将MHC II类限制性T细胞表位的序列提供给CNN-LSTM(长短期记忆)模型,我们称之为Deepepitope,并训练它在免疫原性和非免疫原性之间进行区分在Python v3.8中使用Tensor TensorFlow v2.0实现Deepepitope该模型使用1-D CNN-LSTM架构进行训练,该架构使用卷积神经网络(CNN)对输入序列进行特征提取,然后使用LSTM网络进行类别预测(图1)。①的人。类似的模型已被证明适用于基于文本的情况[28]。首先,编码后的序列被传递到一个嵌入层,该层将正整数转换为固定大小的密集向量。每个嵌入的序列被传递到卷积层,结果被合并以提取最突出的特征。应用dropout层以避免过拟合。可以使用没有LSTM层的类似模型,但LSTM层捕获了前后令牌的长期依赖性特征,从而能够感知遥远氨基酸之间的长期关系[29]。将产生的前向和后向输出组合并传递到使用ReLU激活函数的全连接密集层,然后传递到使用sigmoid激活函数的具有单个神经元的层2.2. 数据集肽表示为每个氨基酸的一串单字母代码,并读取为阳性(免疫原性)或阴性(非免疫原性)。从各种来源获得肽的集合:1. T+集:由IEDB团队策划的表位序列,已通过实验与MHC II类受体介导的T细胞应答相关。通过使用以下标准在IEDB网站的主页上运行空搜索来获得这些序列:表位:线性;宿主:人;测定:T细胞测定,仅阳性测定; MHC限制:MHC II类。2. T细胞集:该集包含经证实不触发T细胞应答的肽序列通过重复T+集搜索获得该集,而不检查仅阳性检测试剂盒,这意味着所有肽均已导出。来自T+组的肽然后从输出中删除,产生我们称之为T集的东西。3. 混杂T+:在撰写本文时,IEDB搜索输出的csv文件不包含与每个表位相关的HLA,但可以使用IEDB表位ID来搜索此信息。我们自动化了一个脚本来搜索和排除具有未知相关HLA的表位以及与少于两个HLA相关的表位由于该过程产生少量肽,我们添加了Dhanda使用的免疫原性肽[25]。4. 人源肽:从PDB网站(https://www.rcsb.org/)上发现的人蛋白质中切除的一组肽。从PDB中共获得了82660个人蛋白质,平均序列大小为243个残基因此,可以从长度为1的每个序列中提取的大小为n的p肽的量为p = 1-s +1,这导致超过3200亿个大小为9至25的可能肽。与上述任何阳性测试集相比,如果不加以控制,这种不成比例的量会产生新的并发症。 积极类和消极类中的示例数量应该平衡,以免使训练产生偏差。然而,选择仅数千种肽的子集的结果可能不代表更大的集合。 为了克服这些缺点,我们设计了一种方法,根据相应阳性集的配置,从人类蛋白质中动态提取一组非冗余肽。 对于阳性集合的每个肽,从人蛋白质中提取相同长度的随机肽,这使两个集合保持完美平衡,并保证算法仅关注氨基酸分布,而不是使用肽长度作为区分特征。为了证明生成的集合具有相似的肽,并且不会使训练产生偏差,我们对T+集合进行了1000次Deepepitope训练对于每个模拟,创建并测试新的人集合以确定与人体中氨基酸的预期频率的差异[30]。2.3. 基线比较我们相比去表位与CD4表型,一CD4T细胞免疫原性预测工具可在IEDB(http://tools.iedb.org/CD4episcore)获得。使用三个不同的组与CD 4表位比较(组1-虽然Deepitope可以处理任何大小的肽,但它们被限制为15,16和17-mer用于训练和测试,因为CD 4episcore要求肽至少有15个残基长,并且IEDB表位的数量在17-mer后大大减少对于测试的所有四个集合,使用k = 5交叉验证(图 2 B)。每个测试集都提交给CD4R. Trevizani和F.L. 库斯托迪奥生命科学中的人工智能2(2022)1000383图二. A:训练、模型拟合、验证和测试集。对于一个特定的集合,阳性和阴性数据集都被分为训练集和测试集。在训练过程中,90%的数据用于模型拟合,10%的数据用于验证,即在调整模型时进行无偏验证。如果验证分区上的损失在超过5个连续时期内没有改善,则停止训练,并使用具有最佳损失的模型进行测试。超参数训练完成后,使用测试集进行评估。B:交叉验证。进行5重交叉验证以避免模型过度拟合和选择偏倚,其中80%的数据集用于训练,剩下的20%用于测试。该过程重复5次,每次 20%的子集仅用于测试一次免疫原性工具使用免疫原性预测方法,默认最大免疫原性评分阈值=50。我 们 还 使 用 广 泛 使 用 的 NetMHCIIpan[11] 评 估 了 测 试 集 。NetMHCIIpan需要输入给定的大小和特定的MHC等位基因,因此我们使用了15聚体和7个等位基因,报告为一般预测的最佳选择[24]。所有参数均保留为默认值。NetMHCIIpan输出具有其各自的亲和力的肽,并将与每个HLA蛋白质最佳相互作用的肽标记为强或弱结合物(SB或WB,默认剪切)。我们解析了NetMHCIIpan预测,并认为标记为“强”或“弱结合剂”的肽具有免疫原性2.4. 评价使用以下指标评估所获得的预测被分类为阳性的患者中阳性患者的比例表示分类器的精确度(阳性预测值,PPV= TP/(TP+FP)),同样,阴性预测值(NPV= TN/(TN+FN))是被正确分类为阴性的患者的比例。特异性(真阴性率,TNR= TN/(TN+FP))是正确分类的实际阴性率。召回率测量正确分类的阳性比例(真阳性率,TPR= TP/(TP+FN))。准确度是所有预测中正确预测的比例(TP+TN)/(P+N)。受试者工作特征(ROC)曲线针对模型的每种可能的决策规则截数在0和1之间绘制TPR对假阳性率(FP/(FP+TN))。通常通过ROC曲线下面积(AUC)来衡量预测方法的性能,其中1表示两个类别的完美分离,而0.5是随机分类器。所有指标都是在Python语言的Sklearn库的帮助下计算的将1000个人体组中每一组观察到的氨基酸分布与人体[30]使用卡方检验。使用单因素方差分析揭示每个指标观察到的差异的统计学显著性。2.5. 计算机模拟实验LSTM和密集层中的单元数量都是系统性变化的,以优化性能。用范围从10至90的单元数运行EX实验,使用10作为步骤[10,20,30..90],以及从100到2000,使用100作为步骤[100,200,.,2000年]。使用5倍交叉验证进行测试,并使用平均AUC进行比较。去除所有冗余序列以避免训练实施例污染测试集,因此没有用于训练的肽用于测试,并且在训练集中每种肽仅有一种。但是,没有尝试删除基于一些氨基酸相似性的序列图 三 . 具 有 不 同 大 小 的 LSTM 和 密 集 层 的 AUC 。 LSTM : LSTM 层 中 的 单 元数;Dense:密集层的单元数制定了larity标准(如:BLOSUM、Blast等)。使用序列相似性矩阵将不同的氨基酸视为等同物可能将在不同背景下相似的残基分组为一类,从而阻止该方法正确地学习免疫原性标签。例如,尽管天冬氨酸和谷氨酸由于其生物物理学相似性而被认为是用于许多实际目的的相同氨基酸,但它们在TEPITOPE基质的许多位置具有不同的值[31],表明它们不以相同的方式被相同的MHC-II分子识别。2.6. 与其他算法的深度学习方法由于其高性能而越来越普遍。为了测试它们在这个问题上是否确实优于更简单的方法,我们将Deepitope与其他四种算法进行了比较:随机森林,决策树,梯度增强和仅使用15-mer的支持向量机。在所有测试中,15-mer的残基都是one-hot编码的,并提供给使用Scikit v1.0.2-1在Python v3.10.4上实现的方法。参数尽可能接近默认值随机森林分类器使用100棵树进行训练,并使用基尼不纯作为每个节点的最佳分割标准。未设置最大深度或最大叶节点数。对于决策树,在每次迭代中,根据基尼不纯进行最佳分割没有设置最大深度,至少需要两个样本来分割内部节点,并且至少需要一个样本作为叶节点。梯度增强算法以0.1的学习率应用,100个增强阶段,并针对对数损失函数进行优化。没有设置最大深度,通过平均值测量劈裂质量平方误差支持向量机采用径向基函数作为核函数,停止准则的公差为t=0.001。在所有情况下,90%的数据用于训练,10%用于测试。3. 结果3.1. 计算机模拟实验我们通过改变LSTM和密集层的单元数量来实验具有不同超参数的Deepepitope一般来说,将密集层的单元数量增加到1700以上并将LSTM的单元数量减少到400以下已被证明是不利的。对于致密层/LSTM,最佳组合是900/1800和300/1300。 3)。我们继续使用300/1300的数量R. Trevizani和F.L. 库斯托迪奥生命科学中的人工智能2(2022)1000384图四、 不同数据集的去表位预测结果(表1)。表1用于训练去表位并与CD4表位比较的集合设置积极负尺寸范围1T+(15,16,17-聚体)T-(15,16,17-聚体)93852T+(15,16,17-聚体)人类93853混杂T+(15,16,17-聚体)人类33304T+(15,16,17-聚体)人类(训练)T-(测试)9385每个否定集和肯定集的例子数在所有后续的测试中,LSTM层的密集/LSTM单元,因为它的计算成本较低,并产生类似的结果。3.2. 使用不同数据集进行在这项工作中使用了四个不同的数据集(表1)。使用集合1-3的预测结果显示,对于任何测试的度量,都没有显著差异(图1)。4)。当第1组和第2组与第3组比较时,TPR和PPV的高度相似性表明T+与混杂T+的结果在统计学上不可区分。 这表明通过算法学习的用于可证明的混杂表位(混杂T+)的模式也在表位(T+)的较大集合中发现。类似地,当将第2组和第3组与第1组进行比较时,TPR和NPV在统计学上相似,这意味着使用人源肽代替T-产生统计学上相似的结果。用人源肽替代T-的可能性意味着不严格需要坚持实验室测试的肽来进行合理有用的预测,因为人源肽作为由免疫原性T+肽组成的阳性组的合适的阴性对应物起作用。这可能在未来的工作中被证明是有利的,因为当与小得多的可用T-相比时,可以从人蛋白质获得测试1和2的相似统计结果并不意味着人源肽作为IEDB数据库中包含的T肽的模型用组4获得的结果显示,在一组人源肽上训练和在T-上测试在准确度和AUC上具有相似的净然而,TPR和TNR的差异可以在更仔细的检查中得到验证,表明模型的特异性较低。 该模型发现大多数肽具有免疫原性,由于真阳性的数量很高,因此灵敏度很高,但它错误地将许多T肽归类为免疫原性。 这导致高数量的真阳性和低数量的真阴性,表明T-肽的潜在特征被认为比人源肽更接近T+。使用组1和组2的测试显示,使用T-或人源肽作为针对T+的阴性实例同样可行,但是对人进行训练以在T-上进行测试意味着它们不能精确地模拟IEDB数据库中包含的T-肽然而,这两个集合都可以单独用作二元分类问题中T+的对应物表2第2组 1000次运行的平均去表位预测。度量Avg.St.dev度量Avg.St.devTNR0.660.06±0.06F10.61±0.03TPR0.510.06±0.06ACC0.590.01±0.01NPV0.580.01±0.01AUC0.62±0.02PPV0.60±0.02每个单独的运行都是用不同的人进行的。图五. D =去表位,I = IEDB CD 4表位;负面例子:T+(组1和2),混杂T+(组3),阳性实例:T-(组1),人源肽(组3),如表1中详述。3.3. 人源肽我们使用T+集合对1000个不同版本的人类集合进行了1000次模拟。结果之间几乎没有差异,因为任何性能指标获得的最高标准差为0.06。AUC和准确度的标准偏差此外,没有一个人体组与人体中预期的氨基酸分布不同,并且它们都具有高p值,这意味着零假设不能被拒绝(平均p值=0.9999,标准差:6 e-10,表2)。3.4. 基线比较使用5倍交叉验证训练去表位(图2)。将通过5倍交叉验证产生的每个测试集提交至可在IEDB网站获得的CD4episcore工具,并将平均结果与通过Deepitope获得的那些进行比较(图1B)。 5)。由于采用的方法和数据集不同,Deepitope和CD4episcore提供的结果差异很大。在-R. Trevizani和F.L. 库斯托迪奥生命科学中的人工智能2(2022)1000385见图6。上图:与人源肽中氨基酸的频率相比,所有T+ 15-mer的每个位置中氨基酸的相对分布。底部:通过CD4表位预测为免疫原性和非免疫原性的肽中氨基酸的相对分布。脂肪族:Met、Ile、Leu、Ala、Val;(+)-带电:His,Arg,Lys;(-)-带电的:Asp,Glu;中性的:Gln,Thr,Asn,Ser,Cys;芳香的:Trp,Tyr,Phe;未分类的:Pro,Gly。总之,CD4episcore仅选择了少数肽作为免疫原性,使得直接比较有些不一致。由于CD 4 episcore将几乎所有肽类归类为非免疫原性,因此它倾向于阴性结果(即非免疫原性序列,例如:T-和人类),这导致真阴性率高,真阳性率低。这导致在不惩罚假阴性的所有度量中的非常好的性能,导致奖励识别阴性的度量的非常高的值(例如:TNR,PPV)和非常低的值时,考虑到假阴性(TPR,NPV),最终在高AUC值的代价是低精度。人们可能会认为,CD4episcore识别出的免疫原性肽数量较少,因为它是使用受限的、可能多样性较低的数据集训练的。然而,对CD 4表位预测的每个位置的氨基酸分布的分析表明其与T+/人源肽的分布紧密匹配(图6)。图6上的上图显示了每个氨基酸类别在T+中与人类相比在每个位置的频率。下图显示了与CD4表位分类相同的肽。首先,很明显,对于CD4表位预测值更极端,这至少部分归因于预测为免疫原性的肽的数量减少。尽管如此,CD4表位在所有位置上与所有类别的氨基酸模式准确匹配,除了一个:带正电荷的氨基酸在人源性肽中更常见,而CD4表位分析预测富含带正电荷的氨基酸的肽具有免疫原性(图6显示了相反方向的(+)条)。个体化每个带正电荷的氨基酸(H、R、K)的频率揭示了实验数据(图7,顶部)和CD4表位预测(图7,底部)之间的不一致。位置2至5中的组氨酸在人源肽中约多出50%,这是CD4表位预测未检测到的。同样,赖氨酸在人源肽的所有位置都很常见,但CD4episcore经常将富含赖氨酸的肽归类为免疫原性肽。表3与NetMHCpanII比较。度量NetMHCIIpan去表位ACC0.590.60AUC0.590.63TNR0.730.72TPR0.450.48与NetMHCIIpan的比较结果如表3所示。NetMHCIIpan的结果显示AUC为0.59,与德表位的水平相当。值得注意的是,最好的重新-NetMHCIIpan的结果是真阴性率(0.73),这表明NetMHCIIpan能够预测人源肽,尽管使用非结合肽进行训练。这加强了人源肽可用于模拟阴性结合物的事实NetMHCIIpan并不直接模拟T细胞活化,而是模拟肽与特定MHC之间的互补性。虽然肽成为表位需要许多因素,但与MHC的结合是一个因此,我们承认这在技术上与NetMHCIIpan的直接输出不同。然而,考虑到NetMHCIIpan的普遍性以及从MHC结合推断免疫原性的频率,我们认为这种比较是有用的,因为它提供了对通过直接TCR活化与MHC结合亲和力相比模拟免疫原性的差异的洞察。3.5. 与其他算法的我们使用15-mers作为测试用例,针对一些众所周知的传统机器学习算法测试了Deepepitope。将去表位重新训练为仅与15聚体一起工作,并且仅对15聚体进行评估,因此其性能不如对所有肽大小获得的性能好。表4显示了AUC值的比较R. Trevizani和F.L. 库斯托迪奥生命科学中的人工智能2(2022)1000386见图7。上图:与人源肽中氨基酸的频率相比,所有T+ 15-mer的每个位置中带正电荷的氨基酸的相对分布。底部:通过CD4表位预测为免疫原性和非免疫原性的肽中氨基酸的相对分布H:His,R:Arg,K:Lys,未分类:所有其他氨基酸。表415-mer的Deepepitope和其他机器学习的比较算法AUCRF0.50DT0.50SVM0.50GB0.50DP0.62RF=随机森林,DT=决策树,SVM=支持向量机,GB=梯度提升,Dp=去表位。因为结果并不比随机猜测好,所以我们没有进一步测试它们或试图检查它们如何学习人源肽或T+中每个残基的位置偏好。每个算法都可以进行调整以获得更好的性能,但考虑到初始结果不佳,我们认为这不值得研究。Deepepitope采用的CNN-LSTM不包含任何偏离基本CNN-LSTM的复杂性,并取得了相当优异的结果。这表明需要更复杂的算法,能够捕获更高阶的相互作用,并为每个位置,模拟相邻残基中编码的力的相互作用。4. 讨论这项工作旨在显示HLA非依赖性表位作图可以通过利用MHC-II表位之间共享的特征来帮助从肽系综中分离免疫原性序列,而不管其相应的HLA如何。我们提出了一种基于深度学习的方法来区分免疫原性和非免疫原性肽,因为其他机器学习方法过去在这个领域已经取得了成功,并且基于深度学习的新方法在蛋白质科学中很有前途[32]。忽略HLA特异性允许所有已知表位被视为一个单一的、同质的组,该组足够大以在训练中有用。因此,不是预测结合特异性,而是将问题最终简化为简单的两类分类问题,其中识别非HLA特异性免疫原性特征。因此,一种稳健的HLA无关方法可以弥补目前提供HLA特异性方法训练的数据集不够小的几种类型的肽可用作免疫原性。IEDB数据库包含实验证明与MHC-II裂缝结合的肽[26],许多方法使用MHC数据,这依赖于公认的事实,即与MHC裂缝结合更强的肽在那里停留更长时间,因此有更大的机会被T细胞受体识别[33使用MHC数据也更常见,因为关于肽/MHC复合物的数据比引起T细胞活化的表位虽然这给出了关于与表位相互作用的精确信息,但它需要昂贵、费力的实验室测试,导致数据量不足尽管如此,触发免疫反应还需要T细胞识别肽,因此我们使用了IEDB网站上识别为“T细胞测定”的表位。当我们想要模拟T细胞活化时,过滤实验证明与T细胞受体结合的表位似乎是一个合适的选择,尽管它导致了较小的数据集。虽然缺乏相关HLA的信息只能粗略地将每个肽分类为免疫原性或非免疫原性,但HLA独立模型可以用于检测使表位超出每个HLA特异性的一些潜在模式。这可能有助于更好地建立一组基本签名,理想地尽可能广泛地覆盖人类群体。必须询问的是,从一组相关HLA仍有待确定的表位中概括模式是否可行。因为并非IEDB中的所有表位都具有已知的相关HLA,所以我们使用与一种以上HLA结合的T+表位进行了单独的使用以下方法获得的结果R. Trevizani和F.L. 库斯托迪奥生命科学中的人工智能2(2022)1000387不同的免疫原性集合非常相似,表明T+和混杂T+的作用几乎相同(图4)。由于混杂T+与完整的T+集没有实质性差异,因此可以假设使用未证明混杂的集获得混杂表位的相同特征非免疫原性肽也有不同的可能性。由于本文提出的模型旨在在群体水平上识别表位,因此合理的方法是从人类蛋白质中收集肽。从PDB网站提取人肽,因为它允许轻松导出所有人FASTA文件。有趣的是,IEDB T细胞表位和PDB人肽之间的交叉与IEDB自身免疫表位一致(数据未显示),并被丢弃以简化模型。使用人源肽的理论优势是天然丰度、多样性和零成本,但在实践中,它们能否被证明可作为实验室验证的非免疫原性肽在组1与组2和组3的阳性度量的结果之间几乎没有检测到差异,表明人肽(组2和组3)可以适当地替代非免疫原性肽,如组1的那些。在本研究过程中生成了超过一千个人类集合,并且所有集合都证明与人体中的氨基酸分布一致,而任何评价指标的标准偏差变化不超过6%(表2)。我们还表明,人源肽的不同子集始终符合预期的人类氨基酸分布(表2),并证实Deepitope的预测与非免疫原性数据集的预测具有显著的相似性(图4),从而暗示了人源肽代替实验验证的非免疫原性肽的实际用途。使用人源性肽作为非免疫原性肽是一个飞跃,应谨慎对待。考虑到免疫系统是通过阴性选择训练的,并且阴性数据集由在实验室测试中显示T细胞活化的策划表位组成,它们在理论上应该作为具有不同模式的相反数据集工作问题是它们是否可以被证实用于上述目的。在此,我们证明了从人蛋白质中切除的肽作为对抗免疫原性肽的阳性组的有用性,这似乎是足够的,因为手头的任务是分离对人具有免疫原性的肽。与CD4episcore预测的比较显示,CD4episcore仅将数据集中的少数肽归类为表位。然而,它显示出良好的回忆(TPR)和AUC,并且有效地捕获了大多数T+表位的特征。然而,它将太多富含带正电荷氨基酸的肽归类为免疫原性。总之,这些结果说明了较小的、不具代表性的输入数据的影响,这些数据可能会导致预测结果产生偏差,并加强了对数据库扩展和多样化的需求。使用更广泛的数据库与深度学习方法相结合,可能会为免疫原性肽的几个基本方面开辟新的见解。5. 结论由于HLA基因的高度多态性,表位作图工具的效率依赖于实验数据。在这项工作中,我们训练了一个CNN-LSTM模型,使用MHC-II介导的T细胞表位来评估肽与免疫原性/非免疫原性类别的相似性。我们提出HLA非依赖性线性T细胞表位作图工具有利于发现免疫原性肽,因为存在潜在的非HLA特异性免疫原性模式。因此,HLA特异性被排除,模型仅被训练来预测查询肽是否最好分类为免疫原性或非免疫原性。我们显示从人蛋白质切除的肽对于免疫原性T+是足够的由于IEDB数据集的不完整性,T集是否仍然过于受限而不能跨越所有非免疫原性序列仍有待确定。最后,它表明,提供T细胞表位允许学习这一模式类似于一组普遍的T细胞表位所呈现的模式,这些表位已被证明是真正混杂的。放弃HLA特异性限制了应用范围,因为它提供的信息较少,但它提高了预测的质量,并可能有助于探索免疫原性肽的基本原理。Deepepitope是一个开源项目,可以在github.com/raphaeltrevizani/deepitope上找到。竞争利益作者声明,他们没有已知的竞争性经济利益或个人关系,可能会影响本文报告的工作。致谢我们衷心感谢Santos Dumont超级计算机和Fiocruz使用其计算设施,并感谢NVIDIA公司捐赠用于本研究的Titan Xp GPU。引用[1]作者:Edmart-K-U.抗促红细胞生成素抗体引起的纯红细胞再生障碍。肾细胞透析移植2003;18(5):865-9。doi:10.1093/ndt/gfg182。[2] Casadevall N,Nataf J,Viron B,Kolta A,Kiladjian J-J,Martin-Dupont P,et al.Pure red-cell aplasia and antierythropoietin antibodies in patients treated withrecombinant erythropoietin. N top N Engl J Med 2002;346(7):469-75。doi:10.1056/nej-moa011931.[3] Tatarewicz SM,Wei X,Gupta S,Masterman D,Swanson SJ,MoX ness MS.Devel-通过连续硬膜内输注接受r-methugdnf的特发性帕金森病患者中成熟t细胞介导的免疫应答的开放临床免疫学杂志2007;27(6):620-7。doi:10.1007/s10875-007-9117-8。[4] Jawa V,Hokom M,Hu Z,El-Abaadi N,Zhuang Y,Berger D,et al. Assessmentof immunoglobulin in clinical studies with ITP subjects. Ann Hematol 2010;89(S1):75-85。doi:10.1007/s00277-010-0908-2。[5] Shankar G,Pendley C,Stein KE. 基于风险的生物分析策略,评估针对生物药物的抗体免疫应答。Nat Biotechnol 2007;25(5):555-61。doi:10.1038/nbt1303。[6] Li J.血小板生成素抗体引起的血小板减少症血液2001;98(12):3241-8。doi:10.1182/blood.v98.12.3241。[7] Baert F , Noman M , Vermeire S , Assche GV , Haens GD , Carbonez A , 等 .Inconjuence免疫原性对Ingenix imab治疗克罗恩N top N Engl J Med 2003;348(7):601-8.doi:10.1056/nejmoa020888。[8] Nielsen M,Lund O. Nn-align。用于MHC II类肽结合预测的人工神经网络比对算法BMC Bioinformatics 2009;10:296.doi:10.1186/1471-2105-10-296。[9] [10]杨文,杨文.Netmhciipan-3.0 a常见的泛特异性MHC II类预测方法,包括所有三种人类MHC II类同种型,HLA-DR , HLA-DP 和 HLA-DQ 。 免 疫 遗 传 学 2013;65 ( 10 ) : 711724. doi :10.1007/s00251-013-0720-y。[10] [10]杨伟,杨伟华. Netmhcpan-4.1和netmhciipan-4.0:通过同时进行基序去卷积和整合ms mhc洗脱配体数据改进mhc抗原呈递的预测。核酸研究2020;48(W1):W449doi :10.1093/nar/gkaa379.[11]Andreatta M,Karosiene E,Rasmussen M,Stryhn A,Buus S,Nielsen M.AC-通过改进的结合核心鉴定,策划肽-MHC II类结合亲和力的泛特异性预测免疫遗传学2015;67:641-50. doi:10.1007/s00251-015-0873-y。[12]张丽,陈英,黄宏生,周生,马米冢,朱生。Tepitopepan:延伸抗原表位预测超过700个hla-dr分子。PLoSONE2012;7:e30483.doi:10.1371/journal.pone.0030483。[13]放大图片DeGroot AS,Knopp PM,Martin W.治疗性蛋白质的去免疫化,T细胞表位修饰。 Dev Biol(Basel)2005;122:171-94.[14] Salvat RS,Verma D,Parker AS,Kirsch JR,Brooks SA,Bailey-Kellogg C,等 人 , Computationally optimized deimmunization librariesyield highlymutated enzymes with low immunogenicity and enhanced activity. Proc NatlAcad Sci USA 2017;114:E5085-93. doi:10.1073/pnas.1621233114。[15][10]李国雄,李国雄,李国雄.治疗性蛋白质的结构引导的去免疫化。J Comput Biol2013;20:152-65. doi:10.1089/cmb.2012.0251。[16]Osipovitch DC,Parker AS,Makokha CD,Desrosiers J,Kett WC,Moise L,等.设计和 分 析 免 疫 逃 避 酶 的 专 业 治 疗 。 Prot Eng Des Select 2012;25 : 613-23. doi :10.1093/protein/gzs044.[17]杨文,李文,李文.从基因组到疫苗:计算机预测,体外验证。Vaccine 2001;19(31):4385-95. doi:10.1016/s0264-410 X(01)00145-1。[18] Ahlers JD,Belyakov IM,Thomas EK,Berzofsky JA.高亲和力辅助性t细胞表位诱导互补辅助和APC极化、增加的CTL和针对病毒感染的保护。临床投资杂志2001;108:1677doi :10.1172/JCI 13463。R. Trevizani和F.L. 库斯托迪奥生命科学中的人工智能2(2022)1000388[19]AS. 免 疫 组 衍 生 疫 苗 。 《 生 物 治 疗 学 评 论 》 2004 年 ;4 : 767doi :10.1517/14712598.4.6.767。[20] De Groot AS,Ardito M,McClaine EM,Moise L,Martin WD.新型猪源甲型h1n1流感病毒t细胞表位与2008-2009年传统甲型h1n1流感疫苗表位的免疫信息学Vaccine2009;27:5740doi:10.1016/j.vaccine.2009.07.040。[21]Inaba H,Martin W,De Groot AS,Qin S,De Groot LJ.促甲状腺激素受体表位及其与Graves病组织相容性白细胞抗原-DR分子的关系。临床内分泌代谢杂志2006;91:2286doi:10.1210/jc.2005-2537。[22] 林宏华,张桂光,东楚萨克,雷因赫,布鲁斯克。 mhc-ii肽结合预测服务器的评估:在疫苗研究中的应用。BMC Bioinformatics 2008;9 Suppl 12:S22.doi :10.1186/1471-2105-9-S12-S22。[23] 特拉埃纳JA.人类MHC架构和演变:影响用 于疾 病 关联 研 究。Int J Immunogenet 2008;35: 179-92. doi : 10.1111/j.1744-313X.2008.00765。X.[24] Paul S,Lindefilt Arlehamn CS,Scriba TJ,Dillon MBC,Osero C.C.,Hinz D,etal. De-emment and validation of a broad scheme for prediction of hla class iirestrictedtcellepitopes.JImmunolMethods2015;422:28doi:10.1016/j.jim.2015.03.022。[25] [10] ChangS,Chang S,Chang S,Chang S,et al.预测人类群体中的HLACD4免疫原性Front Immunol 2018;9:1369.[26] [10] J.J. R,J.J. L,J.J. H,J.J. H,et al.免疫表位数据库2.0.Nucleic Acids Res2010;38:D854doi:10.1093/nar/gkp1004。[27
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功