没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报iVaccine-Deep:使用深度学习预测COVID-19 mRNA疫苗降解Amgad Muneera,Suliman Mohamed Fatib,Nur Arifin Akbarc,David Agustriawand,塞强托·特里·瓦尤迪和a马来西亚斯里依斯干达32160,马石油技术大学计算机与信息科学系b信息系统系,计算机和信息科学学院,苏丹王子大学,利雅得11586,沙特阿拉伯c研究部门,Idenitive Mashable Prototyping,Banyumas 53124,印度尼西亚d印度尼西亚国际生命科学研究所生物信息学院,印度尼西亚,物理系,IPB大学,茂物16680,印度尼西亚阿提奇莱因福奥文章历史记录:收到2021年2021年8月29日修订2021年10月5日接受2021年10月13日网上发售保留字:COVID-19疫苗mRNA降解卷积神经网络图卷积神经网络A B S T R A C T信使RNA(mRNA)已成为一项关键的全球技术,需要不同实体的全球共同努力然而,RNA的化学性质对利用mRNA作为候选疫苗提出了挑战。例如,这些分子容易降解,这对mRNA在患者中的分布有负面影响。此外,人们对分子中单个RNA碱基的降解特性知之甚少。因此,本研究旨在研究混合深度学习是否可以从RNA序列预测RNA降解提出了两种深度第一个模型是基于图卷积神经网络(GCN)和门控递归单元(GRU)。第二个模型基于GCN和卷积神经网络(CNN)。两种模型都是在mRNA分子的结构图上计算的。实验结果表明,在测试时间内,GCN_GRU混合模型建议的混合模型的验证是由众所周知的评价措施。在不同的深度神经网络中,基于GCN_GRU的模型在公共和私人MCRMSE测试中分别获得了最佳成绩,分别为0.22614和0.34152。最后,GCN_GRU预训练模型达到了0.938的最高AuC分数GCN的这种被为了证明所提出的GCN_GRU混合模型的重要性,已经联系了计算机实验。计算机模拟结果表明,我们的模型在预测给定位置的反应性时关注局部,版权所有©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY许可下的文章(http://creativecommons.org/licenses/by/4.0/)。1. 介绍*通讯作者。电子邮件地址:muneeramgad@gmail.com(A. Muneer),smfati@yahoo.com(S.M. Fati),arifin@idenitive.pro(N.阿里芬·阿克巴),大卫·阿古斯特里亚万@ i3l.ac.id(D.Agustriawan),stwayhudi@apps.ipb.ac.id(S. Tri Wahyudi)。沙特国王大学负责同行审查2019年12月,中国武汉报告了首例新型冠状病毒病(COVID-19)病例(Jinet al.,于2020年12月31日,本集团于2019冠状病毒病爆 发 前 的 2020 年 12 月 31 日 ( 即 2020 年 12 月 31 日 ) 。 随后,COVID-19大流行对世界各地人们的生活产生了持续的巨大影响(Zhang和Ma,2020年; Arba等人,2020; Bong等人, 2020年)。在撰写本文时,COVID-19的全球死亡人数达到惊人的136万人以上,这还不包括大流行本身的超额发病率此外,全球每天新增病例数增加62万例(Esteban Ortiz-Ospina Max Roser,H2020)。这场全球性灾难带来了前所未有的努力,https://doi.org/10.1016/j.jksuci.2021.10.0011319-1578/©2021作者。由Elsevier B.V.代表沙特国王大学出版。这是CC BY许可下的开放获取文章(http://creativecommons.org/licenses/by/4.0/)。制作和主办:Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comA. Suliman Mohamed Fati,N. MuneerArifin Akbar等.沙特国王大学学报7420≥-在创纪录的时间内开发、批准和分发针对新病毒的疫苗(Chung等人,2020; Lazarus等人,2020年)。值得注意的是,疫苗接种准备过程通常需要10至15年(国际制药商联合会,2020)。然而,在COVID 19的情况下,它正在加速到一年的时间框架(Jeyanathan et al., 2020年)。我们非常感谢全球工业界、学术界和政府的大力支持和合作。这种加速的努力激励研究人员参与为全世界服务的疫苗生产在这些生产有效疫苗的举措中,信使RNA(mRNA)疫苗已成为COVID-19最快的候选疫苗;然而,目前它面临着关键的潜在限制(Wang et al.,2020年)。一个主要的挑战是在适当的条件下设计稳定的mRNA分子。常规疫苗(季节性流感疫苗)包装在一次性注射器中,并在冷藏条件下运输到世界各地,但这对于mRNA疫苗是完全不可能的(Pardi et al.,2018年)。例如,研究人员观察到RNA分子倾向于自发降解。例如,单次切割可使mRNA疫苗不可用,这被认为是严重的限制。目前,人们对RNA骨架最有可能受到影响的细节知之甚少。因此,目前针对COVID-19的mRNA疫苗必须在高强度冷藏条件下制备和运输(表1),除非能够稳定下来,否则不太可能达到地球上一小部分人的水平。特别地,正在定期更新关于开发中的mRNA COVID-19疫苗候选物的稳定性概况的可用知识(Crommelin等人,2021年)。表1显示了三家疫苗生产商(Modera、Pfizer-BioNTech和CureVac)发布的最新有效期和温度储存条件。在撰写本文时(2021年3月22日),这些信息仅由疫苗制造商提供,尚未得到监管机构的确认。然而,在制造、运输和最终用户现场的储存要求显然是mRNA疫苗药品的基本特征,因为它们提供了竞争(不利)优势。据报道,这些候选人有效,90%的百分比(Loftus等人,2020年)。与由灭活或减毒组分组成的传统疫苗相比,作为病原体本身的一部分,mRNA疫苗为病毒成分的细胞合成提供了模板。mRNA分子是结构,如图所示。 1的碱基,其中碱基彼此环回以与线性远离的碱基形成键合相互作用。这些RNA序列的开发成本相对较低且耗时较少,因为其避免了具有挑战性的蛋白质纯化过程(Jackson等人, 2020年)。然而,mRNA疫苗是一种新技术,并且由于其化学结构而遇到独特的具体而言,已知 mRNA 分子随时间自发降解( vanHoof 和 Parker ,2002)。 在实验室环境中,RNA通常储存在保持在80 °C的专用冷冻器中(Fabre et al. 2014年)。因此,从物流的角度来看,这种温度偏好对成功施用这种基于RNA的疫苗构成了实质性障碍例如,这种冷冻机并不容易获得,并且单个碱基的降解可能使疫苗无用。自辉瑞 /BioNTech 和 Moderna 对 于 特 定 碱 基 降 解 的 趋 势 知 之 甚 少(OpenVaccine. Openvaccine:Covid-19 mrna疫苗降解预测。 斯坦福大学,Eterna,2020年9月)。在这个问题的推动Fig. 1.不同RNA环结构的示意图。共价键由直线段表示,而锯齿线表示H-键碱基配对(Lyngswestern和Pedersen,2000)。表1mRNA COVID-19候选疫苗开发中:当前稳定性特征,剂量和给药时间表(2021年3月22日状态)。申办者冷冻状态2°C稳定性摄氏8室内稳定性温度剂量(注射体积);给药附表引用辉瑞-BioNTech-80 °C至-60 °C,最高长达5天最多2小时(最多后6h100 mg(0.5 mL);第1天,第29((cid:129)Moderna宣布其COVID-19候选疫苗在冷藏温度下的保质期更长。 https://www.businesswire.com/news/home/Moderna6个月-20°C,长达6个月30天稀释)12h内30 mg(0.3 mL);第1天,第212020,2021;一项评价mRNA-,2021)(关于COVID-19疫苗的冷酷真相。https://www.genengnews.com/news/the-cold-truth-about-covid-19-vaccines/. 2021年3月22日访问;一项1/2/3期、安慰剂对照、随机化、双盲、剂量探索研究,旨在评估SARS-CoV-2 RNA候选疫苗对抗COVID-19的安全性、耐受性、免疫原性和疗效,CureVac-60 °C,在至少3个月至少3个月长达24小时12 mg(无信息);天健康的个体。 pfe- pfizer.com. https://pfe-pfizercom-d8-prod.s3的网站。amazonaws.com/,2021;为医疗保健专业人员提供的辉瑞BioNTechCOVID-19疫苗信息。英国卫生和社会保健部2021年3月20日访问)((cid:129)一项剂量确认研究,以评估疫苗CVnCoV在健康成人中对COVID-19的安全性、反应原性和免疫原性。1,第29https://clinicaltrials.gov/ct2/show/NCT045,2021年; CureVac表示其COVID-19疫苗可在标准冰箱温度下储存。https:www.pmlive.com/pharma_news/curevac_says_its_covid-19_vaccine_can_be_stored_at_standard_refrigerator_temperature_,2021年;CureVac的COVID-19候选疫苗CVnCoV,适用于标准冰箱温度物流。https://www.curevac.com/en/,2021年)A. Suliman Mohamed Fati,N. MuneerArifin Akbar等.沙特国王大学学报7421lem,这项研究旨在通过使用混合深度神经网络(DNN)算法,通过局部特征预测RNA分子每个碱基处RNA的mRNA碱基分辨率降解,从而提高mRNA疫苗在运输和运输过程中的稳定性。两种类型的深度混合神经网络算法将被研究和评估,以实现这一目标。然而,保持高质量、可靠、安全和负担得起的药物的持续供应是良好卫生系统的关键组成部分(Juvin,2019)。本文的主要工作概括如下。1.1. 贡献在这项研究中,作者探索了GCN和GRU模型在mRNA降解领域的杂交,以预测mRNA序列的稳定性/反应性和降解风险。据作者所知,在这一领域还没有使用混合GCN-GRU模型的作品。其次,本研究通过将所提出的模型与GCN_CNN进行比较,强调了混合GCN-GRU 模型的效率和有效性这项工作基于斯坦福大学COVID-19mRNA疫苗数据集进行了深入的实验。第三,我们通过众所周知的评估 指标, 如平均列 均方根误 差( MCRMSE )和 曲线下 面积(AUC),验证了所提出的基于DL的COVID-19 mRNA疫苗降解混合模型本文的其余部分组织如下。第2概述了方法和数据集描述。第3节讨论了结果,第4节给出了第五是结论和今后的工作。2. 相关作品人工智能和机器学习,特别是深度学习,由于它们能够彻底理解特征,已经在广泛的科学和工程背景下取得了重大进展最深刻的影响是对疫苗的发现(Keshavarzi Arshadi et al.,2020年)。深度学习技术的最新进展,如GCN、GRU和CNN,已经使DNA和RNA序列的建模成为可能。人工智能可用于对抗COVID-19大流行,并在各种领域产生解决方案,包括药物研究,疫苗开发,公共传播和综合医学(Ahuja et al.,2020年)。在机器学习(或深度学习)的早期利用递归神经网络(RNN)来处理有向非循环图中的数据表示(Frasconi等人,1998年)。后来,作为RNN的推广,图神经网络(GNNs)(Goriet al.,2005)被开发用于处理一般有向图和无向图。卷积神经网络(CNN)被设计为处理从空间域到空间域的数据表示,图域。图卷积网络(GCN)是在这方面创建的方法,它们分为两类:谱方法和非谱方法。GCN已经在各种复杂的挖掘任务(例如,半监督节点分类和序列预测)中显示出尖端性能(Hamilton等人, 2017年; Kipf和Welling,2016年)。根据所进行的广泛研究,迄今为止只进行了两项类似的研究。Singhal,2020)的作者提出了三种单DL方法(LSTM,GRU和GCN)来预测mRNA疫苗降解。作者声称,在开发的三种方法中,GRU表现最好,准确率为76%。(Singhal,2020)工作的关键缺点是,单一算法具有有限的准确性,并且不能捕获mRNA降解特征。此外,(Singhal,2020)的作者没有考虑疫苗的稳定性,这与我们提出的研究不同,我们提出了双杂交DNN模型并进行了广泛的实验来预测RNA序列降解。此外,未提供显示一般反应性评分、在10 pH下与镁孵育后的降解可能性预测以及在50 °C温度下与镁的降解可能性预测的实验类似地,作者在(Qaid等人,2021年)提出了一个双向GRU与LSTM模型集成该模型已经过测试和评估,与斯坦福大学科学家提供的基准数据集相同然而,仅报告了MCRMSE评分,未对温度储存条件进行进一步实验,而温度储存条件是评价其模型有效性的重要因素。3. 所提出的方法本节提供数据集描述和使用的预处理技术。它还说明了所提出的方法和本研究中使用的深度学习算法。3.1. 数据集收集和预处理3.1.1. 数据集描述(序列、环类型和碱基配对)2020年9月,斯坦福生物化学的Das实验室和Eterna合作赞助了一项专注于RNA降解问题的Kaggle竞赛(OpenVaccine. Openvaccine:Covid-19mRNA疫苗降解预测。斯坦福大学,Eterna,2020年9月)。为了实现当前研究的目标,作者使用了他们发表的3029个RNA序列的数据集,这些序列用与降解相关的碱基信息进行了注释。训练集中的每个序列包含107个碱基。数据包括碱基标识(A、G、U、C)和指示哪些碱基彼此配对的二级结构信息。这种配对由一串左括号和右括号表示,其中匹配对表示这些索引处的配对碱基。另外,根据序列结构的局部特征,数据提供了在碱基分辨率中的RNA环结构类型的预测,包括凸起、发夹环、配对茎等,遵循(Lorenz等人,2011年)。图1显示了这些循环结构的原型示例(Watters和Lucks,2016),表2显示了本研究中使用的三输入数据。数据集的标签是一组反应性,并且在每个碱基的不同条件下通过实验测量降解值。使用SHAPE-Seq测量反应性,并表征核苷酸的结构柔性(Seetin et al., 2014年)。在四种条件下使用MAP-Seq测量降解速率,并表征每种条件下降解的可能性(Yan等人,2020年)。数据集包括反应性和降解的五个指标,如表3所列。然而,本研究的重点是评价前三个指标,即反应性、deg_Mg_ph10和deg_Mg_50C,由Das Lab竞赛决定。基于此,我们将重点放在这三个矩阵上,与相关的著作进行比较分析。因此,本研究将开发一个多任务网络,该网络将RNA序列信息作为输入,并在每个碱基处产生三个预测:反应性,deg_Mg_pH10和deg_Mg_50C。所提出的模型的性能将在两个测试集上进行评估,包括公共测试集和私有测试集(由原始Kaggle竞赛定义)。此外,所提出的方法的性能将评估使用平均列的根A. Suliman Mohamed Fati,N. MuneerArifin Akbar等.沙特国王大学学报7422MCRMSE¼Nyij-y^ij表2本研究中使用的三输入数据及其示例。输入标签示例序列GGAAAAGCUCUAAUAACAGGAGA结构. . .. . .((((((.)))).))..预测循环类型EEEEESSSSSSHHHHHHSSSSBSSX表3反应性标签及其描述。前三个指标是我们提出的模型的预测输出,而最后两个指标没有进行评估。没有输出标签描述1一般反应性评分。2deg_Mg_pH10在高pH值下与镁孵育后降解的可能性。3deg_Mg_50C高温下降解的可能性,镁。4deg_pH10在高pH(pH 10)条件下孵育后可能发生降解。5deg_50C高温(50 ℃)下降解的可能性均方误差(MCRMSE),已用于“OpenVac- cine:COVID-19 mRNA疫苗降解预测”竞赛MCRMSE评估矩阵在等式(1)中描述。1XNt vut1X n。ffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiΣffiffi2ffiffitj¼11/1Ding层用于捕获序列中的关系,否则这些关系将难以捕获。然后,如图2所示,特征提取用于利用统计和数学计算来提取分类特征。3.1.3. 使用伪标签的鉴于训练数据有限,作者(Lee,2013)试图使用伪标签来利用额外的非标记数据进行训练。伪标记是一种数据增强技术,在训练期间使用未标记和标记的数据;它是一种半监督学习算法。该过程如图3所示。我们首先在标记数据上训练网络20个epoch。然后我们通过在未标记和标记批次上混合训练来引入未标记数据。作者使用两种类型的未标记数据进行伪标记。首先,我们使用训练集的序列(碱基68到107)的结尾。在标记数据上训练网络20个epoch后,我们开始使用未标记数据。对于每个时期,我们使用伪标签计算标记和未标记部分的损失。伪标签是通过网络中的未标记数据在从前一个历元获得的状态下的前向传递来计算的。这个过程在第20个历元之后的每个历元唯一的例外是,其中 NT是列/任务的数量(即,反应性/稳定性、deg_Mg_pH10和deg_Mg_50C)和(yij,yij)分别为反应性类型和特定碱基处的RNA序列的真实值和3.1.2. 特色工程这两种提出的混合模型(GCN_GRU和GCN_CNN)模型都是从使用特征工程提取特征开始的,然后使用序列输入来预测负责降解的mRNA序列,方法是预测序列中每个位置的三个反应性值。分类特征(序列、结构和预测循环类型)是通过特征工程提取的特征类型。首先,分类特征被存储,并且嵌入-图三.使用伪标记的数据扩充技术。图二、编码序列、结构和预期循环类型数据的基本技术中的步骤nð1ÞA. Suliman Mohamed Fati,N. MuneerArifin Akbar等.沙特国王大学学报7423在10个epoch中,我们回到只在标记数据上训练其次,我们使用私有测试集序列作为未标记数据。在标记数据上训练网络20个epoch后,我们仅在未标记数据上训练模型2个epoch,然后在标记数据上训练5个epoch。因此,我们使用了一种在每个伪标记部分的末尾如果当前损失比伪标记之前的损失高0.04,则作者不接受当前模型,并在伪标记部分之前重新加载模型3.1.4. 聚合函数选择方法由于GraphSAGE中有各种形式的聚合函数,因此迫切需要评估这些函数因此,进行实验以检查三个聚合器函数(均值、卷积和LSTM(Cho等人,2014),从而在RNA降解预测中比较它们的性能。平均聚合器取相邻节点的平均值,并将其与原始节点嵌入连接起来。另一方面,LSTM 聚合器将相邻节点的嵌入顺序地馈送到LSTM,并将最终输出与原始节点嵌入连接对于LSTM和平均聚合器,连接后的节点嵌入被馈送到线性层中,以将其减少到原始维度。最后,卷积运算在相邻节点(包括节点本身)上聚合,并将结果传递到线性层进行最终嵌入。基于不同聚合函数的比较,作者从GCN提取节点嵌入,然后将其传递给门控递归单元(GRU)(Heet al., 2016),它是递归神经网络(RNN)的一个变体。GRU的输出被馈送到一个完全连接的层,以进行最终预测。3.2. 候选深度模型训练和优化3.2.1. 基线卷积神经网络模型一开始,作者实现了一个简单的基线模型,该模型将给出较低的性能界限。 它由简单的卷积神经网络(CNN)算法组成,该算法具有两个1D卷积层,随后是两个完全连接的层(Naseer等人,2021年)。该模型编码序列中每个碱基周围的小窗口大小特征(21),并预测三个输出:反应性、deg_Mg_pH10和deg_Mg_50C。根据观察结果,作者指出,第一个基线模型的性能对所选窗口大小敏感。 该模型的预测仅限于沿一级序列的相邻碱基的局部窗口。因此,作者设计了第二个基线模型,其中整个RNA分子的序列和结构被编码为CNN算法的输入。因此,该模型可以在预测过程中通过将RNA序列中每个碱基的序列、环类型和碱基配对考虑为独热编码和级联的最终输入来利用全局测序信息。输入被传递到三个卷积层,它们在所有三个窗口中应用平均池化。所有层都应用批量归一化、校正线性单元和丢弃。CNN3.2.2. 图卷积网络(GCN)如上所述,所提出的基于1D卷积的基线仅聚集来自沿着分子的一级序列的然而,mRNA分子结构保持碱基彼此环回,以与线性距离的碱基形成键合相互作用,如图1所示。见图4。为了反映更真实的3D结构,RNA分子可以表示为图,其中节点表示每个碱基的信息,并且边缘表示相邻或通过键合相互作用配对的碱基(Duvenaud et al. 2015年)。传统的CNN不能直接在图上操作,因为它们的结构不规则。因此,为了这个特定的目的,开发了称为图卷积网络(GCN)的CNN的一般形式(Hamilton等人,2017; Naseer等人,2021年)。根据(Duvenaud等人,2015),GCN是一种有吸引力的架构来推断RNA结构,并已在文献中多次使用。在实现阶段,序列、循环类型和碱基配对信息用于在将整数编码输入传递到嵌入层之后生成每个节点的嵌入,如图4所示。使用从二级结构计算的邻接矩阵来表示边缘。我们使用一种叫做GraphSAGE的GCN架构。GraphSAGE(Hochreiter and Schmidhuber,1997)是为表征学习而开发的GCN的一个实例。GraphSAGE不是直接学习节点嵌入,而是学习聚合函数,并通过将聚合函数应用于相邻节点来计算节点嵌入。在我们的应用程序中,我们以监督的方式训练GraphSAGE。从GCN中提取节点嵌入,并将其馈送到另一个神经网络,最后的预测。所提出的混合模型架构如图4所示。GCN生成的图嵌入可以被馈送到GRU中,我们将这种架构称为GCN_GRU架构。作为替代方案,我们还尝试在图嵌入之上使用CNN,并将CNN的输出传递到完全连接的层来进行预测。这个模型被称为GCN_CNN架构,我们尝试了层之间有和没有残余连接的CNN架构(Kingma和Ba,2017)。除了改变模型组件之外,我们还试验了GCN层的数量(K)。GCN层数K影响节点嵌入的生成方式。例如,当K = 2时,节点嵌入是通过聚集位于最多两个边缘分开的所有邻居来生成的。然而,这被认为是一个多任务学习问题。我们还通过为明确评估的任务分配更高的权重来进行减肥实验(这将在第3节中进一步解释)。聚合函数也与RNA降解预测联合训练。因此,节点嵌入是每个碱基的序列和结构的表示。GCN用于计算每个节点的图嵌入。然后,节点嵌入通过GRU(或CNN)和完全连接的层进行最终的反应性预测。3.3. 基于预训练节点嵌入技术的GCN_GRU模型增强训练集的大小相对较小。在以低信噪比过滤测量值之后,仅2096个因此,我们还使用训练集中的序列和测试集中的3000个序列,以自动编码器(Lee,2013GCN层的节点嵌入被馈送到全连接网络中以重构原始序列和结构(即, 碱基配对和环类型)。输入和重建之间的均方误差(MSE)被用作自动编码器损失函数。在自动编码器收敛后,提取节点嵌入以初始化GCN_GRU架构中的节点根据公共和私人测试分数综合所提出的模型性能有助于我们量化所提出的模型是否会在实践中准确评估mRNA序列的实际降解速率然而,与许多黑盒方法一样,A. Suliman Mohamed Fati,N. MuneerArifin Akbar等.沙特国王大学学报7424见图4。混合GCN_GRU模型的体系结构,从输入序列到反应性预测。我们也有兴趣了解所提出的模型的行为和可解释性。对于相对较小的数据,我们可以实现统计计算机诱变(ICM)来探测我们模型的行为。考虑到在许多突变输入上运行向前传递的计算成本,我们将我们的分析限制在序列的样本上,并以5的间隔而不是在每个碱基上扰动序列。在实施ICM时,我们在序列中的每五个位置扰动输入数据,并测量五个不同反应性和退化度量中的每一个的输出预测。图5描绘了给定序列的第一个核苷酸上的扰动的该过程的实例。在第1步中,我们选择了一个原始序列和结构数据的样本。我们从原始公共训练数据集中的2000个示例中抽取了250个示例进行以下分析。在步骤2中,我们扰动序列中的碱基:在每五个碱基位置(0,5,10等),我们将基值更改为每个其他三种含氮碱基的组合。在上面的例子中,由于碱基位置0是“A”,我们将这个碱基分别改为“C”、“G”和“U”。在扰动序列的情况下,原始二级结构不再有效:即使扰动单个碱基也会对分子的整体结构产生连锁反应(Danaee等人, 2018年)。因此,我们必须计算新扰动序列的二级结构。来自Vienna RNA 2.0包(OpenVaccine. Openvaccine:Covid-19 mRNA疫苗降解预测。斯坦福大学,Eterna,2020年9月)用于提取扰动序列的预测碱基配对。然后,我们将扰动序列和预测的碱基对数据输入bpRNA,以预测每个碱基的环类型(vander Maaten和Hinton,2008)。我们对样本中的250个序列中的每一个重复步骤2,以获得每个扰动序列的完整输入数据。在步骤3中,我们将这些修改后的图五.推理工作流。注意,mB,N是长度为107的反应性输出的向量,其中B是扰动的基值位置(在上面的示例中为1),并且N是它被扰动的基值。A. Suliman Mohamed Fati,N. MuneerArifin Akbar等.沙特国王大学学报7425序列及其二级结构注释,并将它们输入到建议的GCN_GRU模型中。该模型输出每个修改序列的所有五个预测反应性和降解值(尽管,请记住,最终评估仅使用前三个反应性和降解值进行计算)。因此,可以分析这些预测值以更好地理解所提出的模型的行为。4. 实验结果与讨论4.1. 提出的模型性能评估我们基于两个测试集对所提出的模型进行了评估:一个公共测试集和一个私有测试集(由Kaggle竞赛定义)。公开测试中的RNA序列的长度是107,而私有测试中的RNA序列的长度是130。由于技术挑战,RNA降解速率的测量不包括序列中的最后39个碱基。因此,公共和私有列均方根误差(MCRMSE)测试的预测长度分别为68和91。由于测试分数是预测和标签之间的MCRMSE,因此分数越低表示模型性能越好两个基线模型的结果如表4所示。与只关注局部结构的第一个基线模型相比,第二个基线模型的这一发现在我们的预期之内,因为第二个模型包含了整个RNA分子的结构和序列信息。具有不同聚合器功能的GCN的测试结果如表5所示。GCN对具有不规则结构的数据进行卷积的能力有助于更好地捕获和利用RNA分子的结构信息:二级结构(不仅仅是一级结构)中的相邻碱基可以对预测的反应性产生直接影响。正如预期的那样,所有GCN模型都优于我们基于CNN的基线。平均聚集函数在测试期间实现了最佳性能。因此,选择平均聚合器来比较不同的模型架构。表6总结了具有不同模型架构的GCN的测试结果。仅用CNN替换GRU并不能提高我们的模型性能。在卷积层之间添加残差连接后,该模型的性能是可比较的,但仍略差于原始的GCN_GRU架构。GCN_CNN模型性能的一个可能解释是GCN是CNN的一种广义形式因此,GCN和CNN将有类似的操作。相反,将GCN与循环操作的GRU组合将增加表4基准模型的公共和私人MCRMSE测试分数。表6具有不同模型架构的GCN的公共和私有MCRMSE测试分数。模型架构公开考试成绩私人考试成绩GCN_GRU0.226140.34571GCN_CNN0.232750.35280GCN_CNN(带残基连接)0.227290.34822GCN_GRU(加权损失)0.225140.34494GCN_GRU(预训练嵌入)0.226140.34152模型架构的多样性更大,更好地捕获连续数据。具有不同GCN层(K)的模型的测试结果绘制在图6b中。随着GCN层数的增加,测试损耗也增加。我们假设图的小尺寸导致性能的这种恶化。RNA分子的图形表示仅包含大约100个节点。 当GCN层数增加时,节点嵌入开始捕获更多的全局信息,有利于局部信息。结果,该模型使用加权损失和预训练节点嵌入的测试结果如表6所示。正如预期的那样,为测试期间评估的任务分配更高的权重可以提高模型性能。预训练是指以自动编码器的方式嵌入节点,也改进了公共和私有测试集上的模型。然而,在私有测试集上的性能的改善是边际的。在GCN_GRU 架 构 上 的 伪 标 签 测 试 结 果 如 表 7 所 示 。 我 们 使 用GCN_GRU模型作为伪标记架构,该模型具有加权损失但没有预先训练的节点嵌入序列的结尾和私有测试集提高了模型的性能。然而,使用私有测试集的伪标记的改进小于使用训练集的伪标记。这种效应可以通过与专用测试集序列相比遵循不同分布的训练集序列来解释我们将在第4.2中详细讨论观察到的这种效应。这种分布差异可能会使使用私有测试集上的伪标签训练模型的稳定性降低,从而使模型收敛到最佳解决方案更具挑战性。相关工作(Metzker,2010)已经观察到,由于技术挑战,RNA序列末端碱基的测量误差增加,因此,仅报告了前68个碱基的测量。预测被截断到所有模型的前68个基础,以计算损失,损失是预测和地面实况之间的均方误差(MSE)。所有模型都使用批量梯度下降进行训练,学习率通过Adam优化器进行调整(Hinton和Salakhutdinov,2006)。所提出的深度模型也使用五重交叉验证进行了训练,预测是所有折叠的平均值。GCN_GRU模型在训练和验证期间的MSE性能评估如模型公共MCRMSE考试成绩私立MCRMSE考试成绩图6a.培训和验证损失之间的差距并不意味着-凯特过度拟合,因为我们停止了模型时,valida-基线1 0.3798 0.4727在一定数量的时期内,损耗没有减少基线2(整个序列的CNN)表50.30424 0.41348提前停止模型会导致测试期间性能变差。此外,将模型的ROC曲线洞察总结为指示模型输出的单个标量值通常是有益的。这些常用技术之一是ROC曲线下区域,称为AUC。AUC降低了具有不同聚合函数的GCN的公共和私有MCRMSE测试分数。ROC曲线为单个值,并阐明了数学聚合函数公开考试成绩私人考试成绩对模型成功的见解AUC等于概率-是说0.226140.34571随机选择的阳性样本将被分类为更高Conv0.221730.34989而不是由分类器随机选择的否定实例。的LSTM0.231260.35904本研究中构建的模型的AUC值见A. Suliman Mohamed Fati,N. MuneerArifin Akbar等.沙特国王大学学报7426图六、性能评估:(a)在训练和验证期间使用均方误差(MSE)的GCN_GRU模型;(b)具有不同GCN层数的模型的公共和私有测试损失表7使用伪标签的GCN_GRU架构的公共和私有MCRMSE测试分数。方法公开考试成绩私人考试成绩GCN_GRU(伪标记前)0.225140.34494火车组-基地68至1070.223450.34113私有测试集-基数1到910.224340.34368表8.通过GCN_GRU预训练模型实现了最高的AUC值0.938,而使用具有残基连接的GCN_CNN开发的模型获得了最低的评分0.838。对于另外三个基于DNN的模型,获得的分数不同于两个性能值。三个模型分别实现了GCN_GRU加权损失、GCN_GRU和GCN_CNN的AUC率为0.928、0.925和0.8444.2. 模型性能基准根据表1中给出的条件,根据基准测试不同的拟议模型,对拟议模型进行测试。GCN_GRU模型在私人和公共测试中的表现都大大优于GCN_CNN模型。为了更好地理解模型性能,我们计算了MSE,并绘制了每个任务的标签与预测反应性的MSE、在pH = 10下用Mg的降解速率和在50 °C下用Mg的降解速率分别为0.087、0.255和0.125。从MSE分数,我们观察到,所提出的模型在预测反应性方面比在pH = 10下预测Mg的降解速率要好得多。因此,执行特定于任务的优化,例如提前停止一些任务或训练单独的模型以仅预测pH = 10时的降解速率,可能是有益的。如图7所示,GCN模型通常低估了降解速率,并且很少预测任何超过5的降解速率。在训练示例中,出现了降解率大于5的碱基,表8所提出的模型架构的受试者操作特征(AUC)评分低频率(小于0.2%),这解释了为什么所提出的模型几乎没有预测任何高降解率。图8.第八条。在我们的实验中,观察到公共测试集和私有测试集之间存在一致的性能差距,类似于Kaggle竞争模型中观察到私有测试集上的MCRMSE比公共测试集上的MCRMSE高0.12降解速率的测量在私人测试集中高达91个碱基,而在公共和训练集中仅高达68个碱基因此,作者假设私有测试集中的碱基69-91会有更高的损失,导致私有测试集的性能更差。我们计算了MCRMSE分数,并分别绘制了私人测试集中前68个碱基和碱基69-91的标签与预测令人惊讶的是,如图6所示,我们的模型在碱基69-91上比在前68个碱基上表现得更好。前68个碱基的MCRMSE为0.405,而碱基69因此,后面的基不会导致私有测试集上的性能更差。因此,作者假设两个测试集的序列是不同的,这导致了性能的差异。我们根据Kaggle帖子的建议,使用降维技术分析了训练序列、公共测试集和私有测试集。我们将序列编码为整数数组,并对它们进行t-SNE降维。私有测试集的序列被截断为107个碱基,以确保它们与训练集和公共测试集中的序列具有相同的维度。序列上t-SNE减少的结果绘制在图9中。我们发现,私有测试序列与训练集和公共测试集相比,执行完全不同的分布。尽管我们截短了私有测试集中的序列,但所有序列,包括训练、公共和私有测试集,都不是完整的RNA分子,并且在它们被释放之前被截短。因此,我们认为分布差异有助于在私有测试集上的性能更差。我们认为,数据增强技术是必要的,以进一步改善模型,并帮助它更好地推广私人测试集。此外,一个关键的重要论点是,减少聚腺苷酸尾的长度可以在细胞生物学和疫苗生产中发挥有益和重要的在胚胎中需要短聚腺苷酸尾来抑制翻译,直到达到适当的发育阶段(Subtelny 等人,2014年)。此外,倾向于表示mRNA的短聚(A)尾对于早期发育是必需的,并且可以用于以剂量和时间依赖性方式控制翻译(Gohin等人,2014年)。因此,在本研究中考虑了poly(A)的最佳长度,据报道为250。DNN模型架构公司简介GCN_GRU0.925GCN_CNN0.844GCN_CNN(带残基连接)0.838GCN_GRU(加权损失)0.928GCN_GRU(预训练嵌入)0.938A. Suliman Mohamed Fati,N. MuneerArifin Akbar等.沙特国王大学学报7427见图7。一般反应性评分(左),在10 pH下与镁孵育后的降解可能性预测(中),以及在50 °C温度下与镁的降解可能性预测。见图8。私人测试分数的预测结果;(a)私人测试集中的前68个碱基和(b)私人测试集中的碱基69-91。绿色表示一般反应性评分,橙色表示在高pH值下与镁孵育后降解的可能性,蓝色表示在高温下与镁降解的可能性见图9。对训练集、公共测试集和私有测试集中的序列进行t-SNE约简。5. 模型分析和验证5.1. 推理分析我们可以从几个
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++多态实现机制详解:虚函数与早期绑定
- Java多线程与异常处理详解
- 校园导游系统:无向图实现最短路径探索
- SQL2005彻底删除指南:避免重装失败
- GTD时间管理法:提升效率与组织生活的关键
- Python进制转换全攻略:从10进制到16进制
- 商丘物流业区位优势探究:发展战略与机遇
- C语言实训:简单计算器程序设计
- Oracle SQL命令大全:用户管理、权限操作与查询
- Struts2配置详解与示例
- C#编程规范与最佳实践
- C语言面试常见问题解析
- 超声波测距技术详解:电路与程序设计
- 反激开关电源设计:UC3844与TL431优化稳压
- Cisco路由器配置全攻略
- SQLServer 2005 CTE递归教程:创建员工层级结构
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功