没有合适的资源?快使用搜索试试~ 我知道了~
基因嵌入法筛选阿尔茨海默病危险基因
文章基因嵌入法筛选阿尔茨海默病危险基因图形摘要亮点dGeneEMBED将队列外显子组数据与分子网络信息相dGeneEMBED在两个阿尔茨海默病队列中识别出143个高置信度候选d候选基因在大块脑组织和单细胞RNA表达中d动物模型中候选基因的调节改变了神经变性作者亚什万特Lagisetty,ThomasBourquard,Ismael Al-Ramahi,...,胡安·博塔斯,李广旭,奥利维耶·利希塔尔热对应lichtarg@bcm.edu简言之Lagisetty等人开发了GeneEMBED,这是一种通过研究分子网络中的差异干扰相互作用来评估疾病-基因关联的方法。他们将GeneEMBED应用于两个阿尔茨海默体内候选物的调制显示改变的神经变性。他们预计GeneEMBED在许多复杂疾病中具有广泛的适用性。Lagisetty等人,2022,细胞基因组学2,1001622022年9月14日-作者。https://doi.org/10.1016/j.xgen.2022.100162会会~开放获取文章基因嵌入法筛选阿尔茨海默2,3,4卡尔·格兰特·曼格伯格,2萨曼莎·莫塔,2希林·索莱马尼,2约书亚·M.Shulman,2,3,4,5,6Juan Botas,2,3,4Kwanghyuk Lee,2and Olivier Lichtarge2,4,7,8,*1UTHealth McGovern Medical School,Houston,TX77030,USA生物和药理学系2分子和人类遗传学系,贝勒医学院,休斯敦,TX 77030,美国3Jan and Dan Duncan Neurological Research Institute,Texas Children6美国德克萨斯州休斯顿贝勒医学院神经科学系,邮编770307计算和综合生物医学研究中心,贝勒医学院,休斯敦,TX 77030,美国8引线触点* 通讯地址:https://doi.org/10.1016/j.xgen.2022.100162lichtarg@bcm.edu总结大多数疾病-基因关联方法不考虑基因-基因相互作用,即使这些在复杂的多基因疾病如阿尔茨海默病( AD ) 中 起 着 至 关 重 要 的 作 用 为 了 发 现 新 的 基 因 , 其 相 互 作 用 可 能 有 助 于 病 理 学 , 我 们 引 入GeneEMBED。这种方法比较了由疾病与健康受试者的编码变体在基因相互作用网络邻域中诱导的在两个独立的AD队列的5,169个外显子组和969个基因组中,GeneEMBED确定了新的候选人。这些基因在死后AD脑中差异表达,并调节小鼠的神经学表型。四种在体内差异过表达和修饰的神经变性是PLEC、UTRN、TP53和POLD 1。值得注意的是,TP53和POLD 1参与DNA断裂修复并被批准的药物抑制虽然这些数据证明了AD的概念,但GeneEMBED是一种通用方法,应广泛适用于识别与其他复杂疾病的风险机制和治疗相关的基因。介绍阿尔茨海默病(Alzheimer's disease,AD)是一种以进行性记忆丧失、语言障碍和行为异常为特征的神经退行性疾病。1美国估计有600万人患有AD,预计到2050年这一数字2.AD的多基因性给早期诊断和风险预测带来了障碍。在晚发型AD(LOAD)中,估计的遗传率为60%-80%。 3 , 4虽然全基因组关联研究(GWAS)已经鉴定了>40个LOAD位点,510,11虽然对这种“遗传性缺失”问题有许多解释16遗传相互作用是在基因变体之间观察到的功能性相互作用,其中所得表型不同于每个变体的独立表型。16,17因此,相对良性的突变可能结合起来产生复杂的表型。事实上,在疾病18-20中已经观察到这样的非加性遗传相互作用,并且已经改进了基因型-表型关系的当前模型。21,22然而,在基因组范围内发现成对遗传相互作用之前,发出了重大挑战。理论分析表明,在合理的假设下,需要近50万个样本来确定统计学上显著的遗传相互作用。[16]利用先验知识来弥补必要样本量的潜在用途,促使开发了用于各种疾病的网络信息基因优先化方法。23-然而,当它们这样做时,它们通常依赖于表达数据(例如,HITHotNet2)28,并且不能立即适用于生殖系GWAS典型的病例对照研究设计。图表示学习的进展为在生物网络的背景下分析基因组开辟了新的图形学习技术在各种生物学应用中取得了成功,包括预测蛋白质-蛋白质相互作用29具体地,节点嵌入通过在数学上合适的框架中压缩网络节点的定性和定量属性来实现网络上的机器学习。例如,Deep Walk38和Node2Vec39使用随机游走算法将节点表示为向量。或者,图卷积网络40或图注意力网络41使用图神经网络架构来构造节点表示CellGenomics 2,100162,September 14,2022?作者。1这是CC BY许可下的开放获取文章(http://creativecommons.org/licenses/by/4.0/)。会开放获取文章2Cell Genomics2,100162,2022-而不是.无论采用哪种方法,节点嵌入都应该保留原始图节点之间的相对属性,这意味着相似的节点应该相似地嵌入。基于这一原理,我们假设,基因嵌入疾病网络与嵌入健康网络的差异这促使我们开发了GeneEMBED(基于基因嵌入的疾病基因相关性评估),通过检查基因相互作用的差异扰动模式来确定该方法采用预定义的分子网络,并用蛋白质编码变体在病例和单独对照中的功能影响对其进行注释。重要的是,该方法在估计基因水平扰动的蛋白质功能时考虑了所有蛋白质编码变体。机器学习在每个网络上执行嵌入,然后发现哪些基因在案例与对照嵌入中差异最大。值得注意的是,这种方法通过可行地评估成对和高阶遗传相互作用对疾病的贡献并使用典型全基因组研究的病例对照研究设计来这样做来解决标准模型的局限性。虽然这种方法是通用的并且适用于许多复杂疾病,但是我们在两个LOAD数据集中测试了这种方法:阿尔茨海默为了评估GeneEMBED的稳健性,我们使用了两种变体影响评分方法,进化行动(EA)42和PolyPhen2(PPh2)43,我们测试了三种不同的分子相互作用网络:STRING,44HINT,45和大脑特异性网络。四十六、四十七来自发现和扩展队列的候选基因彼此一致,并且与已知的AD基因一致。候选人与手动策划的AD相关基因相互作用功能性计算机分析表明,它们参与了AD相关的途径,包括细胞周期和DNA复制。体内干扰分析证实,GeneEMBED基因是成熟的果蝇AD模型中tau和b-淀粉样蛋白诱导的表型的修饰剂,48重要的是,许多GeneEMBED候选药物可以与已经批准的化合物一起使用。总体而言,这些结果指出了AD治疗开发的新目标,并广泛支持了询问其他复杂遗传疾病的新的一般范式结果为了发现AD基因,GeneEMBED旨在将网络生物学的综合特征与机器学习相结合,以发现由于突变而在病例和对照之间具有不同干扰的功能相互作用的基因。首先,GeneEMBED通过计算每个基因的扰动得分(PS)来构建个性化的功能影响网络,一个队列的主题。该评分反映了基因中的所有非同义变体(V);通过EA42或PPh 243(分别为变体影响评分EA和VISPPh 2)和接合性(zyg)来估计每个变体的影响(图1A;STAR方法)。然后,通过将两个基因之间的现有边的权重设置为它们的PS得分之和,将PS得分映射到选择的基因网络,例如STRING蛋白质最后,在所有情况下或在所有对照中分别对边权重进行然后用GraphWave51机器学习算法处理这两个网络,该算法应用无监督扩散辅助小波分解来为每个基因或节点分配连续的向量值嵌入。这种嵌入是基于网络中基因周围的拓扑(节点附近边的几何分布)和功能(与每条边相关的因此,分配给每个基因的向量表示其网络邻域中变体的集成功能扰动。最后一步应用主成分分析(PCA)来识别病例和对照网络之间具有显著差异的向量(错误发现率[FDR] 0.01),表明AD与对照之间这些基因中存在不同的接 下 来 , 为 了 测 试 算 法 并 识 别 AD 的 遗 传 因 素 , 我 们 将GeneEMBED应用于来自ADSP发现和扩展队列的全外显子组测序(WES)和全基因组测序(WGS)数据,分别使用VISEA或VISPPh 2进行变体影响评分,并最初使用STRING蛋白质-蛋白质相互作用网络。此外,我们使用VISEA和VISPPh2将GeneEMBED应用于健康对照与健康对照,以鉴定潜在的假阳性(FP)基因。去除FP后,GeneEMBED在发现队列中鉴定出69个AD候选基因,在VISEA扩展队列中鉴定出119个候选基因,在发现队列中鉴定出128个候选基因,在VISPPh2扩展队列中鉴定出120个基因(表S1)。当使用VIS EA时,14个基因在发现和扩展队列之间重叠(单尾超几何p z1.86e-16)。其中,9个基因在文献中有证据证明其与AD 相关(图1B;APOE 、CSF 1 R、ILR 4、MAPK 6、MAPT、REST、RIPK 4、SP3和Trib 3)。52-60特别值得注意的是MAPT和APOE。神经元缠结是AD的主要生物标志物之一,是高磷酸化MAPT基因产物的聚集体另一方面,APOE是AD最强的遗传预测因子之一。61类似地,当使用VISPPh 2(单尾超几何pz4.25e-15)时,发现和扩展队列之间有16个基因重叠,其中6个先前已与AD病理学相关(图1B;CCT 5、ERBB 2、MAPK 6、REST、SYNJ1和TP53)。55,57,62-GeneEMBED还鉴定了与AD相关的罕见变异的已知基因,包括TREM266和SORL 1,67,尽管这些基因仅在发现队列中回收比较VISEA与VISPPh 2,发现队列中有34个基因重叠(单尾超几何pz1.46e-53)Cell Genomics2,100162,2022年9月14日3会开放获取文章图1. GeneEMBED和AD候选基因(A) 基因嵌入:对于个体,基因首先被分配扰动分数(PS),其整合来自个体中出现的所有基因变体的信息。基因PS估计给定变体水平功能丧失概率的各种组合的总功能丧失概率个体网络的边权重然后对边缘权重取平均值以构建一个病例特异性图和一个对照特异性图。在两个网络中的基因上执行节点嵌入最后,将嵌入投影到PCA空间中,以测量案例和控制网络中节点之间的距离。(B) 使用EA的GeneEMBED在Discovery中鉴定出69个候选基因,在Extension中鉴定出119个候选基因,其中14个重叠基因,通过单尾超几何检验显著在PPh2分析中,发现Discovery中有128个候选基因,Extension中有120个,其中16个重叠基因,通过单尾超几何检验显著很大一部分重叠基因先前已经与AD生物学有关。44个基因在扩展网络中重叠(单尾超几何pz 2.46e-64),表明这两个影响分数之间的一致性。最后,我们发现四个基因在所有cohort-VIS组合中重叠,具有单尾超几何p z 8.58e-10。这些数据表明,GeneEMBED对队列间变异性以及影响评分系统的差异具有鲁棒性,并且可以回收几种充分表征的阳性对照AD基因。为了对照用于推断基因-疾病关联的标准方法,我们使用了基因组注释的多标记分析(MAGMA),其基于多元回归分析对基因进行优先级排序。这种方法可以在全基因组范围内进行,使其能够用于基因发现。68MAGMA在Discovery中鉴定了31个AD相关基因队列和扩展组中只有7个,没有重叠(表S2)。Discovery组群中 的 MAGMA 仅 与 GeneEMBED-VISEA 分 析 和 GeneEMBED-VISPPh 2在Extension中共 享APOE ,而 与Discovery组群 中的VISPPh 2分析通过两个基因 SORL 1和PRIM 1重叠。同样,MAGMA在Extension中仅与Discovery中的VISPPh2共享TPO在来自发现队列的31个MAGMA候选者中,有9个先前与AD相关,包括APOE和TOMM 40。52,69这表明MAGMA在这种小样本量下的有效性和重现性较低。为了以系统的方式评估GeneEMBED的恢复,我们测量了GeneEMBED候选基因和208个AD相关基因4Cell Genomics2,100162,2022会开放获取文章在DisGeNet数据库里DisGeNet基于遗传、临床和动物模型治疗汇编基因-疾病关联。我们发现,在功能突变影响方法(VIS EA与VIS PPh 2)和群组(发现与扩展;表S3)中,GeneEMBED候选基因和DisGeNet基因之间存在显著重叠(p = 0.012-此外,我们发现Discovery(p = 0.047)和Extension(p =3.3e-3)队列中比较毒理基因组学数据库(CTD)71和GeneEMBED-VISEA的AD相关基因之间存在发现组群中的MAGMA候选者恢复了类似的显著重叠(表S3;扩展组群中的MAGMA候选者的数量少阻止了类似的分析)。这些数据表明,GeneEMBED能够显着恢复几个已知的AD基因,尽管队列大小存在很大差异。此外,MAGMA无法重复检索Discovery和Extension队列之间的基因,而GeneEMBED发现了显着的重叠。总之,这些发现证明了GeneEMBED与MAGMA相比对两个队列间的稳健性。变异性和样本量。总的来说,GeneEMBED鉴定了与MAGMA不同的候选物,尽管如此,这些候选物富集了已知的AD相关基因,这表明了对疾病相关信号的鉴定。GeneEMBED候选人与AD为了评估GeneEMBED候选物的作用,我们询问它们是否涉及与AD相关的分子变化,具体地说,如加速药物合作伙伴关系阿尔茨海默病(AMP-AD)RNA测序从七个脑区域所记录的那样,基因表达失调725,6,70,71,78AD患者(TCX)的颞叶皮质中其余部分显 著 失 调 (单 尾 超 几 何 p 0.05; 图 2 A ) , 与 功 能影 响 方 法(VISEAvsVISPPh 2)和队列(Discovery vs Extension)无关然而,GeneEMBED-VISEA候选物在两个队列的海马旁回(PHG)(图2A)以及扩展队列的小脑(CBE)、额极(FP)、颞上回(STG)和背外侧前额叶皮层(DLPFC)(单尾超几何学p 0.05;图2A )中也存在失调,而这仅适用于CBE 的GeneEMBED-VISPPh 2,也适用于扩展队列。相反,MAGMA没有发现失调基因的富集。除此之外,发现队列中GeneEMBED-VISEA和扩展队列中GeneEMBED-VISPPh 2候选基因显著失调的脑区数量与两项AD GWAS荟萃分析的数量相当(分别为基于排列的z1.2e-2、pz2.3e-3、pGWAS Meta 1-2.8e-3和值得注意的是,应用于扩展组群的GeneEMBED-VIS EA鉴定了AD中6个脑区域中显著失调的候选物(pz 1.6e-13)(图2B). 此外,这些基因中的许多在单细胞中也是失调的(图2C)。这些数据表明,这组候选基因与AD病理学之间有很强的联系。然而,这种联系可能是因果关系,也可能是回应关系。接下来,我们测试了新的GeneEMBED候选基因是否与AD参考基因集相连。为此,我们使用n扩散方法测量了蛋白质-蛋白质相互作用(PPI)网络79-81中它们与AD相关基因之间的信息传播情况82接受者-操作者曲线下的面积(AUROC)测量它们相互作用的强度,并且计算超过100个排列的基于排列的Z我们使用了两个疾病-基因关联数据库(DisGeNet-208基因70和CTD-103基 因 71 ) 和 三 个 基 于 变 体 的 AD 参 考 基 因 集 ( GWAS Meta1GeneEMBED候选物显示出对大多数选择的AD相关基因集的统计学显著扩散(ROC > 0.5 +Z评分> 2),而与群组无关(图3;表S4; AUROC = 0.63有趣的是,MAGMA候选者也显著扩散到DisGeNet、CTD和ClinVar,但没有扩散到两个GWAS数据集。这些数据表明,GeneEMBED可以在功能上和显着连接到先前策划的AD相关基因,进一步表明疾病相关信号的识别。为 了 测 试 GeneEMBED46 , 47 首 先 , 使 用 HINT 网 络 , 仅Discovery中的VISEA显示来自CTD、GWAS Meta 1和GWASMeta两个参考文献的基因的显著召回(单尾超几何p = 0.0014、0.0058和0.015)(表S5和S6)。然而,nDiffusion发现Disc中的 VISEA 和 VISPPh 2 均 扩 展 中 的 VISEA 和 VISPPh2 也 与 CTD 和DisGeNet基因列表具有显著的网络连接性,AUROC = 0.75和0.7(Z= 3.33和5.16),AUROC = 0.74和0.67(基于置换的Z评分= 3.32和4.91)。或者,使用脑特异性PPI,Discovery中的VISEA和VISPPh 2 均VISEA在扩展中发现与CTD和DisGeNet显著相关,AUROC =0.77和0.69(基于排列的Z评分= 4.64和5.07)。VISPPh2在Extension中未显示出与策展基因集的任何显著联系。这些数据表明,GeneEMBED使用各种替代PPI网络稳健地鉴定了富集用于功能相互作用的基因与策划的AD相关基因集。有趣的是,在跨队列、VIS系统和PPI网络的两个或多个GeneEMBED分析中重复鉴定了大量基因(图S1和S2;表S11),表明其在AD中的潜在作用。Cell Genomics2,100162,2022年9月14日5会开放获取文章C一B图2.GeneEMBED候选基因在AD脑组织中差异表达(A) GeneEMBED候选物针对来自七个脑区域的差异表达基因的单尾超几何富集:小脑(CBE)、颞叶皮层(TCX)、额极(FP)、额下回(IFG)、海马旁回(PHG)、颞上皮层(STG)和背外侧前额叶皮层(DLPFC)。(B) 已知AD基因集和GeneEMBED候选基因之间基于RNA测序的富集的比较。星号表示通过排列测试在每个基因集中具有显著富集的脑区域的数量。小提琴图显示了当使用随机基因集时,富集的大脑区域的预期数量的分布。(C) 在143个高置信度的基因中,显著数量(22个;单尾FisherGeneEMBED候选物在功能上连接并富集由tau和b-淀粉样蛋白触发的神经元功能障碍的体内调节剂的显著重叠在基因嵌入候选基因在队列和网络中观察到的结果(图S2)表明,GeneEMBED可能正在识别特定的途径,其中突变负荷浓度的增加调节AD风险。为了研究这一点,我们进行了功能富集分析。我们在STRING中构建了一个具有143个高置信度命中的网络。使用以下标准选择这些基因,即它们必须在同一网络中跨队列或跨VIS方法至少鉴定两次。基于网络之间的重叠程度对基因进行优先排序,其中复发基因越多,排名越高,前提是在任何健康对照与健康对照试验中从未鉴别出这些基因(图S1;表S11)。有趣的是,该网络显示出显著的PPI富集(STRING PPI富集p= 9.56e-07)。在用Louvain算法聚类后,143个候选基因中的127个被映射到显著富集的途径(图4),其中包括(1)参与神经胶质生物学的机制(神经胶质细胞源性神经营养因子受体);83,84(2)炎症(IP-10产生的调节、转化生长因子b1(TGFb1)产生的正调节和趋化因子信号传导),其已知在AD中失调;61(3)蛋白聚集体的清除(聚集吞噬和MTOR信号传导的调节);和(4)细胞外信号传导级联。这些级联反应涉及Wnt/b-连环蛋白、G-α或ErbB,其在AD中失调63,85并调节动物模型中的神经变性,86或多配体蛋白聚糖-3,其可能在tau和b-淀粉样蛋白内化中起作用87(5)高置信度GeneEMBED候选者中最大的功能模块与DNA6Cell Genomics2,100162,2022会开放获取文章一BCD图3.GeneEMBED候选者与策划的AD基因集显著相关(A) 显示了Disc的受试者操作特性曲线。VISEA用于CTD和ClinVar AD基因集的网络扩散。为了确定观察到的曲线下面积(AUC)的显著性,使用排列测试策略,其中产生100次相同大小的随机基因组,并通过nDiffusion分析以产生AUC的随机分布。相对于这些背景计算报告的Z分数。ROC图的y轴为真阳性率(TPR),x轴为假阳性率(FPR)。类似地,Z得分分布的y轴是概率密度,并且x轴是随机基因集的AUROC得分。(双链断裂修复有趣的是,参与双链断裂修复调节的基因调节动物模型中的神经变性,59和其他参与DNA质量控制的基因在AD脑中积累。这些途径表明,调节GeneEMBED基因可能会影响神经元功能。这一假设得到以下事实的支持:143个高置信度命中物在来自AD死后脑的本体和单细胞转录组数据集中富集了差异表达的基因虽然已经在AD小鼠模型中研究了许多基因以了解它们对疾病的贡献,但目前用大的基因集合进行这种类型的分析是为了规避这一限制并系统地测量GeneEMBED候选物是否在CNS中发挥重要作用,我们询问其小鼠同源物的调节是否会引起小鼠基因组信息学(MGI)数据库中记录的任何神经学表型这将揭示候选基因是否参与神经元的维持和功能,以及它们的功能丧失是否可能构成AD的风险因素或神经变性的触发因素。我们发现,在139个具有同源性的高置信度基因中,48个(35%)在调节时显示出异常的神经系统表型(单尾Fisher精确检验p = 0.00024)。值得注意的是,在这些小鼠中,25个小鼠同源物的子集也显示出异常的行为和神经表型(单尾Fisher最后,一个额外的11个同源物仅显示异常的行为和神经学表型(图4显示其调节导致小鼠中CNS相关表型的基因,如红色或黄色边界节点)。值得注意的是,无论是ADSP变体数据集还是GeneEMBED使用的因此,观察到的介导正常神经元功能的基因的富集增加了对GeneEMBED的信心,并增加了其发现的基因的潜在致病或保护作用。为了进一步确定GeneEMBED基因在神经变性中的作用,我们接下来转向体内实验。小鼠模型概括了AD的神经元功能障碍和神经病理学特征;然而,它们不适合使用功能测定来测试相反,培养的细胞不能重现AD的核心特征(年龄依赖性、回路功能障碍和神经元-胶质细胞相互作用)。因此,为了在体内AD背景下最佳地验证GeneEMBED候选物,我们求助于果蝇AD模型,其捕获重要的核心AD性状,包括年龄依赖性和蛋白质积累。89我们之前在AD和其他神经退行性疾病背景下的果蝇研究支持了这种方法,其中在果蝇中鉴定的治疗靶点已经在小鼠或诱导多能干细胞(iPSC)衍生的神经元模型中得到验证。48、49、89-94对于GeneEMBED候选物,我们在两个充分验证的果蝇AD模型48-50中调节其果蝇Cell Genomics2,100162,2022年9月14日7会开放获取文章图4.143个高可信度基因间的相互作用网络网络是使用STRING边缘构建的节点基于其在AD脑中的差异log2倍数变化表达而基因周围的红色环表明,MGI中报告的基因在敲除时具有异常的神经学表型。绿色环表示在AD果蝇模型的体内实验中黄色环表示在果蝇模型中观察到改变AD表型并且在MGI中的敲除(KO)小鼠模型中报告了异常神经学表型的基因旁边带星号的基因是那些已经存在FDA批准的药理学激活剂或抑制剂的基因,表明药物再利用研究的潜在靶点。CNS中由淀粉样蛋白(分泌的Ab42)或Tau(2N4R hTau)引起的功能障碍。在有丝分裂后神经元中特异性表达分泌的b42或人tau蛋白诱导果蝇中进行性神经系统功能障碍,这可以通过测量动物随着年龄增长的运动表现来监测。首先,我们筛选出高置信度的候选基因,这些基因在公共知识库中没有果蝇同源物或可用等位基因。然后,我们尽可能使用过表达以及功能丧失等位基因来测试所得的43个基因。我们发现果蝇的28个基因是b42和/或tau蛋白诱导的神经元功能障碍(图4,绿色和黄色边界节点,S3和S4)。我们进一步发现,在这28个 修 饰 物 中 , 5个 基 因 ( UTRN 、 REST 、 PLEC 、 BAG3 和TP53)也显示出人类死后AD脑转录组中失调的证据和敲除小鼠中异常神经学表型。有趣的是,MGI命中以及果蝇修饰符都均匀分布-不同功能簇之间的相互作用(图4),表明所有这些途径可能潜在地调节AD发病机制。重要的是,使用的一些果蝇等位基因(诱导型过表达和短发夹RNA [shRNA]系)特异性靶向神经元,因此可能在神经元细胞中特异性发挥其然而,使用的其他等位基因是经典的功能丧失或经典的拯救构建体(使用内源性基因启动子);在这些情况下,该效应可能是细胞自主的或非细胞自主的,例如,通过调节神经胶质细胞或肌肉细胞中的重要功能。此外,虽然一些已鉴定的修饰剂可能通过调节tau或b42的积累来发挥其作用,但其他修饰剂可能通过保护或增强神经元退化的倾向或甚至通过引起一定水平的神经变性本身来起作用。修饰等位基因的完整列表及其对靶基因的推定效应的简要描述见表S12。8Cell Genomics2,100162,2022会开放获取文章考虑到这些高置信度的GeneEMBED候选物可能的神经学作用,我们研究了它们的治疗潜力。在这143个基因中,21个基因具有被表征为其功能的激动剂或拮抗剂的药物(表S13)。有趣的是,在总共109种激活或抑制这些基因的化合物中值得注意的是EPHA2和S1PR3,这两种药物在AD大脑中均被上调。EPHA2有两种抑制剂(瑞格非尼和达沙替尼),这两种抑制剂都在小鼠AD模型中显示出神经保护作用。95,96S1PR3具有激动剂(芬戈莫德),其在小鼠中也具有治疗益处。97此外,舒尼替尼抑制了两个基因FLT3和RET,从而抑制脑血管激活以改善AD模型小鼠的认知功能。98在果蝇AD模型中,敲低基因可改善神经退行性变,其中3个基因(ABL1、TP53和POLD 1)具有药理学作用,具有先前证实的抑制作用。虽然ABL1抑制已经在AD的背景下进行,但99 、100TP53和POLD 1仍有待探索。总之,我们的研究结果表明,高置信度GeneEMBED候选人在果蝇模型中显示出显著富集tau和b-淀粉样蛋白表型的修饰剂,在AD脑组织中差异表达,并且在小鼠模型中调节时显示出异常的神经学表型。这些发现强调了GeneEMBED成功识别疾病病理学相关基因的能力,其中一些基因具有重要的治疗潜力。讨论AD是全球痴呆症的主要原因。随着其患病率的上升,迫切需要确定治疗靶点、潜在的生物标志物和风险预测策略。这些任务是复杂的事实,虽然已经发现了几个AD基因,他们只是部分解释了 遗 传 学 在 疾 病 中 的 作 用 。 10 , 11 在 这 里 , 我 们 开 发 了GeneEMBED,这是一种通过检查基因相互作用的差异扰动模式来确定疾病遗传风险因素的新方法。虽然在本研究中,我们分析AD作为概念验证,但GeneEMBED是适用于许多复杂多基因疾病的通用方法。当应用于ADSP组群时,GeneEMBED鉴定了143个候选基因,其与先前已知的AD基因显著相互作用(Z评分= 2.03-虽然在AD相关小鼠模型中测试如此大量的基因目前是不可能的,但我们试图确定GeneEMBED候选者与神经元生物学之间的实验联系。我们使用两个良好表征的果蝇AD模型在体内验证候选基因,并利用MGI数据库来识别GeneEMBED基因和神经表型之间的功能联系。这些基因也与已知的AD途径有关,并揭示了几个新的和潜在的药物靶点。这些通路包括与神经胶质生物学、炎症、蛋白聚集体清除和信号级联相关的功能。虽然炎症在AD的发病机制中起着重要作用,但我们的富集引起了对干扰素-γ诱导的蛋白10(IP-10)产生的调节的注意。在AD患者中,IP-10在星形胶质细胞中的表达升高,并且显示脑脊液(CSF)水平与认知损害正相关。101在AD转基因小鼠中,它与淀粉样斑块共定位。101有趣的是,在负责富集该功能的基因中,三种(NDUFA 10、GOT 2和TLR 10)在动物模型中显示出异常表型的调节(图4),而另外四种(NDUFA 10、NDUFA9、EPHX2和CYP 2C9)已被批准为药理学激活剂或抑制剂(图4)。与神经胶质生物学相关的功能突出了胶质细胞源性神经营养因子(GDNF)受体(GFRa 1)信号传导。在转基因AD小鼠中的研究发现,GDNF的过表达诱导神经保护作用并改善学习和记忆。83通过将外源性GFRa 1引入皮质AD神经元恢复GDNF的作用已显示可减轻神经元死亡。84引人注目的是,我们发现负责在该途径中富集的所有八个基因(RET、ROR1、GRIN3A、PLEC、GFRA1、BAG3、NQO1和BCLAF1)均显示出对小鼠和果蝇中异常神经学表型的调节(图4)。其中,RET、GRINA3和NQO1都具有美国食品和药物管理局(FDA)批准的药理具体地说,GRINA3与阿坎酸相互作用,阿坎酸在群体研究中与痴呆的发病率降低相关,并且已经被认为减轻淀粉样前体蛋白(APP)转基因小鼠的认知缺陷。需要对这些候选基因进行进一步研究,以解开它们与AD的几个GeneEMBED命中代表新的和未被怀疑的候选人为AD。特别值得注意的是PLEC和UTRN,据我们所知,尚未在AD中进行研究。这两种基因在多个GeneEMBED分析中被反复鉴定,并且在AD脑的大块组织中显著上调,它们的调节导致小鼠模型中异常的神经表型,104,105并且它们是遗传修饰剂AD相关表型的研究PLEC编码一种参与中间丝网络并与放线菌素和微管相互作用的细胞骨架蛋白质--网素。神经元中PLEC同种型P1c缺陷的小鼠表现出疼痛感觉的改变以及由于微管中tau蛋白的积累增加而导致的学习和长期记忆的减少。104蛋白质组学研究也将PLEC与AD病理学相关联。106 ,107 UTRN编码utrophin,细胞骨架系统的另一种组分。 尽管UTRN在含有神经原纤维缠结的CA1神经元中下调,108但其在缠结发展中的作用仍不清楚。UTRN和PLEC显示与AD表型相关的许多模式需要更深入和更详细的研究来阐明它们在疾病中的作用同样,我们发现了另外两个与AD相关的基因(TP53和POLD1)109,110,它们在果蝇中的敲除减轻了AD相关的表型。此外,这两种基因都有预先存在的FDA批准的药理学抑制剂。我们发现了四种化合物Cell Genomics2,100162,2022年9月14日9会开放获取文章(氯法拉滨、阿糖胞苷、氟达拉滨和吉西他滨)和一种抑制TP53的化合物(硼替佐米)。鉴于这些基因在动物模型中的独特作用及其可药用性,这些基因将是在动物模型中进一步表征和研究的优先候选基因。作为一种基因组工具,GeneEMBED通过考虑分子相互作用网络中功能的突变扰动来搜索影响疾病风险的基因这与基于变异或基因的关联方法相反,该方法将个体基因或变异作为独立和孤立的风险基因座来处理。68,111-其中第一种是变异影响估计器,它根据各种数据预测编码突变对蛋白质功能的可能影响。EA是一种未经训练的方法,它使用序列变异的进化历史和系统发育差异来预测变异的影响。PPh2通过将机器学习工具应用于序列和结构特征来评估影响。这些估计值在基因中的所有变体中组合,以预测它们对蛋白质功能的总体影响。第二种技术,节点嵌入,是一种机器学习过程,旨在以易于操作的形式表示节点的复杂拓扑属性通过权衡基因的相互作用与其突变影响及其相互作用者的总和,GeneEMBED使用基因的扰动相互作用作为学习特征,而不是它们的单一突变负担。将这些特征与节点嵌入相结合,允许GeneEMBED估计病例与对照中基因的 差 异 例 如 , 在 AD 中 , 单 基 因 方 法 MAGMA 没 有 将 NQO1(pMAGMAz0.33)鉴定为疾病相关的,尽管其与AD相关。115-这表明GeneEMBED识别的遗传过程与标准工具发现的过程不同,可以为复杂疾病的定义因素提供补充性见解。GeneEMBED的整合框架提供了其他优势。首先,网络信息的整合使GeneEMBED对样本量具有鲁棒性。在我们对AD的分析中,GeneEMBED能够可靠地重现来自整个ADSP Discovery队列的结果,其中连续较小的子采样队列大小(图S6A)。更重要的是,GeneEMBED对不同队列之间的变异具有鲁棒性,在ADSP Discovery和Extension数据集中鉴定的基因中恢复了显著重叠(p =1.86e-16和4.25e-15)然而,为了最佳地解释导致队列间变异性的各种因素并增加发现的稳健性,我们建议读者验证两个或更多个队列中的潜在候选基因列表。这个框架也是灵活的,因为它与许多不同的变量影响估计兼容。在这里,我们使用EA,因为它在盲,客观研究119,120和基因组研究中的总体效用,121,122以及一个完善的替代方案,PPh2。尽管他们的差异,我们发现他们的预测显着重叠(p z2.46e-64至1.46e-53),支持兼容性的GeneEMBED与多个影响估计。GeneEMBED框架关键地依赖于PS度量,其仅与具有概率解释的估计器兼容。虽然一些工具(REVEL、SIFT、MutPred2或VEST)符合此标准,但许多工具不具有此类解释或可能需要进一步转换(例如,CADD或Eigen)。GeneEMBED策略的灵活性也适用于不同的网络。我们发现,GeneEMBED在本研究中使用的三个PPI网络中一致地识别出相似的基因(p z 1.06e-8至5.78e-28;图S2),这表明使用任何构造良好的疾病相关网络将倾向于收敛于相似的发现。虽然网络的使用是GeneEMBED策略的关键,但它也引入了潜在的错误来源即使是严格策划的网络也可能倾向于研究偏见。使用高通量技术构建的无偏网络可能提供替代方案。然而,由于技术限制,它们往往在大小上受到限制,导致疾病相 关 相 互 作 用 的 捕 获 不 足 ( STAR 方 法 ; 表 S14 、 S15 和S16)。在这方面,GeneEMBED策略显示出对假阳性和假阴性边缘的稳健性(STAR方法;图S7)。框架的灵活性也提供了一个渠道,提高预测能力,即边缘加权方案。虽然对其他边缘加权方法进行了表征(STAR方法;表S13、S14和S15),但当前框架独立估计每个相互作用的扰动,但认为所有边缘同等重要。然而,由于通路冗余,生物网络对突变具有高度鲁棒性。123 、124其中,有些是支配性的,而另一些是辅助性的,125表明网络的不同部分具有不同的重要性水平这表明了GeneEMBED框架的潜在局限性和改进领域。解决这个问题的潜在方法是考虑节点嵌入的替代方法,包括各向异性扩散技术,这将是未来工作的重点。该研究虽然我们预计GeneEMBED将广泛适用于各种复杂遗传疾病的病例对照生殖系研究,但我们注意到这项研究并非没有限制。首先,虽然我们努力验证候选基因参与AD生物学,进一步深入的实验表征是必要的,以阐明其在病理学中的作用。其次,虽然网络数据的整合是GeneEMBED的关键创新组件,但它也存在局限性。对网络数据的依赖意味着,在缺乏相互作用或可能对疾病病理学至关重要的基因的情况下,GeneEMBED可能无法做出信息性预测。这表明GeneEMBED可能与某些网络(例如,建立在高通量筛选上的无偏网络)。第三,GeneEMBED的当前实现仅考虑编码突变。但10Cell Genomics2,100162,2022会开放获取文章越来越多的文献表明,非编码变化也可能在AD病理学中发挥重要作用,126,127以及其他复杂疾病。因此,将GeneEMBED扩展到包含非编码数据可能是一个富有成效的未来方向。结论总之,使用AD作为概念验证,我们表明,通过将基因置于其网络相互作用的背景下,GeneEMBED识别了新的疾病基因,这些基因增加了我们对病理学的理解,并且可能具有潜在的治疗价值。这种方法是通用的,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功