没有合适的资源?快使用搜索试试~ 我知道了~
文章扩展基因组百科全书具有824个分离参考基因组的放线菌图形摘要亮点d824来自不同环境的新放线菌分离株基因组d只有三分之一的放线菌多样性具有基因组代表性d强调了新的生态位特异性基因决定簇,如新的抗菌肽d通过水平基因转移作者放大图片作者:Rekha Seshadri,Simon Roux,KatharinaJ. 胡伯,...,MarkusGoüker,Nikos C.NataliaKyrpides 伊万诺娃通信rseshadri@lbl.gov(R.S.),markus. dsmz.de(M.G.),nnivanova@lbl.gov(N.N.I.)简言之Seshadri等人贡献了824个新的放线菌基因组,这对药物发现很重要。他们观察到,负责产生这类化合物的基因经常在微生物之间移动,这使得如果没有高质量的基因组,它们更难被捕获。他们强调了有趣的适应性,例如实验验证的抗菌肽。Seshadri等人,2022,细胞基因组学2,1002132022年12月14日-作者。https://doi.org/10.1016/j.xgen.2022.100213会会开放获取文章扩大放线菌的基因组百科全书有824个分离的参考基因组RekhaSeshadri,1,13,* Simon Roux,1Katharina J. 胡伯,2吴东英,1于索拉,3丹乌德韦尔,1,3李呼叫,1斯蒂芬Nayfach,1理查德L。 Hahnke,2R.Pukall,2JamesR. White,4NehaJ. Varghese,1CodyWebb,1Krishnaveni Palaniappan,1Lorenz C.Reimer,2Joaquim Sarda`,2Jonaim Bertsch,1Supratim Mukherjee,1T.B.K.Reddy,1Patrick P. Hajek,1Marcel Huntemmann,1I-Min A.1、 Alex Spunde,1、Alicia Clum,1、NicoleShapiro,1、Zong-Yen Wu,3、Zhiying Zhao,1、Yuguang Zhou,5、Lyudmila Evtushenko,6、Sofie Thijs,7、VincentStevens,7、Emiley A。Eloe-Fadrosh埃洛伊-法德罗什1,3Nigel J. Mouncey,1,3Yasuo Yoshikuni,1,3,10,11,12William B.惠特曼,8汉斯-彼得·克伦克,9塔尼娅·沃伊克,1,3马库斯·戈克,2,* 尼科斯·C。 Kyrpides,1,3和NataliaN. 伊万诺娃1,3,*1美国能源部联合基因组研究所,美国2莱布尼茨研究所DSMZ -德国微生物和细胞培养物保藏中心,德国布伦瑞克3美国加州伯克利劳伦斯伯克利国家实验室环境基因组学和系统生物学分部4美国马里兰州巴尔的摩Resphera Biosciences5中国普通微生物菌种保藏中心,北京,中国6俄罗斯科学院普希奇诺生物研究科学中心,全俄微生物保藏中心,普希奇诺7比利时迪彭贝克哈瑟尔特大学环境生物学环境科学中心8美国佐治亚州雅典市佐治亚大学微生物学系9英国泰恩河畔纽卡斯尔大学生物学院10生物系统和工程部,劳伦斯伯克利国家实验室,伯克利,CA 94720,美国11先进生物能源和生物产品创新中心,劳伦斯伯克利国家实验室,伯克利,CA 94720,美国12北海道大学全球合作研究与教育机构,北海道060-858913引线触点* 通信地址:rseshadri@lbl.gov(R.S.),markus. dsmz.de(M.G.),nnivanova@lbl.gov(N.N.I.)https://doi.org/10.1016/j.xgen.2022.100213总结放线菌门包括重要的人类病原体,如结核分枝杆菌和白喉棒状杆菌,以及具有商业价值的次级代谢产物的著名生产者,但其多样性中只有一小部分由测序的基因组表示。在这里,我们提出了824放线菌分离基因组的背景下,全门的6,700个基因组,包括公共分离株和宏基因组组装基因组(MAG)的分析。我们估计只有30%-50%的放线菌系统发育多样性具有通过分离株和MAG的基因组代表性。基因功能的比较揭示了宿主-微生物相互作用的新决定因素以及环境特异性适应,如潜在的抗菌肽。我们鉴定了分离株中的质粒和原噬菌体,并揭示了主要由宿主分类学构成的广泛的原噬菌体多样性。对> 80,000个生物合成基因簇的分析表明,水平基因转移和基因丢失形成了跨分类群的次级代谢产物库。我们的观察结果说明了高质量分离株基因组序列的重要作用和必要性。介绍放线菌是一个庞大而多样的门,包括高鸟嘌呤加胞嘧啶(G +)的革兰氏阳性细菌C)基因组含量和基因组大小范围为0.5至100000。15.0 Mbp。该门的成员表现出不同的形态和生理特征,包括多细胞性和复杂的分化,并广泛(和丰富)分布在不同的生态系统中。1,2著名的放线菌包括结核病和白喉的病原体,人类历史上最具毁灭性的疾病3其他物种在土壤和水生环境的碳循环中发挥着关键的生态作用,或者作为植物和动物的互惠共生体广泛存在,合成天然产物以造福宿主,或者帮助食草动物消化植物生物量。作为多种次级代谢产物(包括目前临床使用的所有抗生素的三分之二以上和临床或农业重要的其它化合物)的著名生产者,它们是许多天然产物开发工作的主题。1、4-7细胞基因组学2,100213,2022年12月14日,2022年作者。1这是CC BY许可下的开放获取文章(http://creativecommons.org/licenses/by/4.0/)。会开放获取文章2细胞基因组学2,100213,2022图1.放线菌门的系统发育多样性(A) 从不同的类群和栖息地,共824个分离物的基因组进行了测序。快照的824 GEBA-Actino基因组的分类(订单水平)组成和分离来源每个分类单元或分离来源的基因组数量显示在每个标签旁边。(B) PD累积曲线描绘了从RpoB树的计算分支长度推断的PD的增量增加x轴上的单位代表按基因组类别排序的单个分类群或其等同物(由宏基因组产生)作为基于总分支长度的PD评分显示在y轴上。(C) 基于RpoB基因的最大似然系统发育树用于PD计算。该树基于一组代表性的古细菌RpoB序列而扎根。为了可视化的目的,具有零分支长度的进化枝被折叠,并且保留单个进化枝代表单个放线菌(图例接下页)细胞基因组学2,100213,2022年12月14日3文章会开放获取尽管它们的重要性,放线菌代表了迄今为止200,000多个公开可用的基因组的10%,即使这些基因组也主要属于与人类和兽医学相关的生物体。8截至2020年1月(分析开始日期),公共数据库中有18,411个放线菌分离株基因组,尽管相当大的比例属于多种人类病原体菌株,如结核分枝杆菌和Mycobacteroidesdiseassus。在这项研究中,我们报告了824个放线菌分离物的基因组测序的主持下的细菌和放线菌的基因组百科全书(GEBA)的倡议,9大部分的模式菌株从莱布尼茨研究所DSMZ培养收集来源于不同的栖息地。根据国际原核生物命名法(ICNP)的规定,模式菌株永久性地附在种和亚种的名称上,10在表型、分离来源和其他标准方面得到了很好的表征,并且已经通过至少两个不同的培养物保藏中心提供给世界范围的具有预先存在的生化和遗传特征的此类分离株的参考基因组的饱和集合(例如,BacDive11)为一系列实验奠定了坚实的基础,包括微生物模型系统的开发和生物技术相关途径的分析。此外,与非致病性亲属进行比较的新机会可以产生新的见解和基因靶点,扩大我们对重要放线菌病原体的理解。在这里,我们进行了一个全门范围的比较分析,将824个新测序的基因组与5,922个非冗余的公共放线菌基因组相结合,以探索(1)该门的整体系统发育多样性和培养状态,(2)不同代表的生态位特异性功能适应,以及(3)天然产物编码生物合成基因簇(BGC)的纲要和该多样性的驱动因素。本文生成的数据和综合分析在生物、生物医学、农业和环境科学领域具有广泛的实用性结果和讨论研究数据集共对放线菌门12个菌株的824个高质量基因组草案进行了测序、组装和注释(平均>99.33%[avg.]完整性,平均1.36%。污染,平均1.88 Mbp。支架N50;参见STAR方法和表S1)。我们选择保留放线菌的门名,因为它为广大读者所熟悉,但修订后的门名包括放线菌门和放线菌门,后者的名称最近被有效出版。13这些基因组(下文称为所研究的GEBA-放线菌基因组来自放线菌纲、Coriobacteriia纲、嗜酸菌纲和嗜热菌纲4个纲230个属(54科,24目)。与可能受到生态位限制的其他纲相比,放线菌纲是最大和最多样化的该数据集包括81个属的首次测序代表,扩大了三个未代表的科(嗜热菌科,Rarobacteraceae,动杆菌科)以及未分类的多样性 。 白 嗜 热 菌 ( Thermoleophilum album ) 是 嗜 热 菌 目(Thermoleophilales)的第一个测序分离物。GEBA-Actino基因组的总体分类组成和分离来源示于图1A和表S1。GEBA-Actino型菌株主要来源于陆地和植物相关的栖息地(图1A),包括一些来自极端或不寻常的环境(例如,碱性、干旱、永久冻土、高盐、深海沉积物)和非人类宿主如海绵、真菌和昆虫。这些来自环境的非模型微生物构成独特的代谢挑战,对于发现新的次级代谢物前景,如对动物具有低毒性的那些具有特别的意义1,15-出于比较分析的目的,包括来自地球微生物组19的综合基因组目录的4,824个公开可用的分离物基因组(称为“公开”)和1,098个宏基因组组装的基因组(MAG)的去复制组(参见表S1中的STAR方法和附加的MAG对分类群的多样性做出了显著贡献,特别是对于分离株代表性不足的类别(Corio-bacteria、Acidimicrobiia、Thermoleophilia)(图S1)。值得注意的是,MAG具有2.7 Mbp平均值。基因组大小与分离株的5.48 Mbp相比(图S2A)。虽然这可能是由于MAG的较低完整性或从宏基因组学数据组装较大基因组的困难而导致的潜在偏差,但它也可能反映了系统发育和样品栖息地组成的偏差,并说明了它们相对不可培养的原因MAG也倾向于与avg更分散支架长度N50为131Kbp(对于MAG),相比之下,平均长度超过1.88 Mbp。对于GEBA-Actino(或对于所有分离株为1.4 Mbp)。此处突出显示这些差异,因为它们影响分析方法的下游选择以及结果和生物学推断(图S2)。更重要的是,他们强调了分离基因组序列的独特价值,特别是在放线菌大而复杂的基因组的情况下。“未开垦”的现状冰山“为“大平板计数异常实验”20显示绝大多数(>99%)微生物谱系未被培养,因此未被研究。这一概念经常被比喻为冰山中不成比例的大量水下冰所说明。考虑到最近从栽培和非栽培来源中测序的基因组的数量(由于宏基因组组装和分箱方法的创新),我们重新审视了这一原则,因为它与使用iToL接口对类进行着色。18未着色的扇区表示完全由未培养的(宏基因组和MAG)特征组成的操作分类单位(OTU)。饼状图显示了分离序列与未培养序列对每个指定类别贡献叶的比例。插图树显示放线菌纲(插图I)或嗜热菌纲(插图II)内的进化枝,突出显示可以告知相邻未培养进化枝的成员的培养的GEBA型菌株。4细胞基因组学2,100213,2022会开放获取文章(图例见下页)细胞基因组学2,100213,2022年12月14日5文章会开放获取属于放线菌门。我们估计了放线菌类群的系统发育多样性(PD),一个简单而有效的生物多样性措施的基础上总结的分支长度连接这些类群的系统发育树。最大似然树是基于从5,648个分离株基因组(GEBA-Actino和Public)、3,321个MAG(高质量[HQ]加中等质量[MQ])和来自不同环境样品的超过20,000个metage-nome鉴定的通用单拷贝标记基因生成的(参见STAR方法)。该分析显示,放线菌分离物基因组仅占该门总估计多样性的34.68%(图1B)。虽然总部MAG的贡献相对较小,但包括MQ MAG将覆盖率提高到总PD的54.72%。这使得接近50%的放线菌多样性没有任何基因组表示,突出了从宏基因组数据集恢复基因组的在纲水平上,分离株占放线菌纲总PD的60.25%(图S3A),放线菌纲是该门中最大和最多样化的纲,大多数分离株属于该纲(图S1)。HQ MAG的促进作用可以忽略不计,这再次表明回收大型复杂放线菌基因组的此类MAG可能存在困难。对于Coriobacteria类,>45.31%被分离株捕获,而HQ MAG将覆盖率提高到远超过83.55%(图S3B),该主要与宿主相关的分类组具有较小的基因组(图S2C)。放线菌的几个进化枝几乎完全由宏基因组标签或MAG代表(图1C)。对这些神秘分支的样本来源的检查表明,新的多样性来自水生和陆生环境,特别是极端或营养有限的环境,如酸性土壤、泥炭永冻层、岩石、极地沙漠和铀污染土壤(表S2)。这些进化枝包括具有很少或没有分离的代表性的类的不同成员嗜热菌属、红杆菌属),以及潜在的新的未分类的分类群(图1C)。使用标准或高通量培养策略靶向极端或营养有限的环境可能导致捕获这些未代表的谱系。23在相关的情况下,GEBA型菌株可以帮助指导特定未培养亚进化枝的培养(图1C,插图),因为它们的表型、生长和其他要求在如BacDive的策划数据库11例如,JejuensisDSM 18607,一种充分表征的石头分离物,24可以作为未培养的进化枝的适当参考。内孢囊科岩石内体(图1C,插图I)。适应宿主或其他环境我们比较了宿主相关(2,650个基因组,包括678个MAG)和环境(2,306个,包括2,306个MAG)的基因组。284 MAG)生物,以确定可能归因于适应不同生活方式的新途径或因素。使用同源性归一化广义线性模型方法,我们鉴定了在宿主相关或环境组中过度表达的蛋白质家族(Pfam或KEGGOrthology [KO]术语)(表S3)。例如,在4,956个基因组捕获的6,546个KO术语中,1,100个术语在任一组中显著(错误区分率[FDR]-校正p 0.005)过度表达(图2A)。环境基因组在与各种芳香族或异生素化合物的降解、糖的吸收和利用以及用于植物木质纤维素降解的碳水化合纤维素、半纤维素、果胶)(图2B)。这些结果在很大程度上可归因于该组中的许多土栖陆地分离物(图S1B)。使用Pfams进行了类似观察(表S3)。其他过度代表的功能包括氮循环、辅因子生物合成、各种转运蛋白和调节剂,以及有趣的是,已知的促进植物生长的决定因素,如吡咯喹啉(PQQ)合成、1-氨基环丙烷-1-羧酸脱氨酶(ACCase)和植酸酶。27相反,约238个KO术语在宿主相关组中过度表达-这种相对较少数量的富集的KO术语可能反映了宿主相关基因组的较小基因组大小(以及因此较小的功能库)(图S2E)。在丰富的功能中,有已知的致病或宿主相互作用的决定因素,如粘附素、铁载体、乳素、溶菌酶抑制剂和类固醇降解酶。28-31超过15个脂质代谢KO术语值得注意(图2B),并且可能在宿主来源的脂肪酸利用中发挥作用-例如,脂肪酸辅酶A(CoA)连接酶(K12421、K12422、K12423、K12427、K12428、K 01909),酰基-转移酶、酰基辅酶A合成酶等32、33(表S3)。其他明显过度或不足的功能可能在细菌中不太清楚或表征图2.宿主放线菌对环境的功能适应(A) 代表性明显过高或过低的职能(KO术语,经FDR调整[adj.] p 0.005)。x轴显示单个KO项,而y轴显示固定效应广义线性模型的logistic回归系数。正值(红色)表示宿主相关基因组中的过度表达,而负值(蓝色)表示环境组基因组中的过度表达。(B) 显示了单个KO功能类别(x轴,在正文中讨论)的logistic回归系数(y轴)分布每个函数类别中的单个KO项的数量显示在括号中。蓝色箱形图表示环境组中代表性过高的类别,而红色框表示主机相关组中的类别。(C) 分配给PF 09117的真核和细菌候选序列的最大似然树表征的植物参考序列用绿色文本突出显示细菌分支是红色的,植物分支是绿色的,真菌分支是黑色的。(D) 在大肠杆菌中过表达的Streptosporangium becharense DSM 46887的AMP候选物对酿酒酵母的抑制作用 杆菌(E) SDS-PAGE凝胶显示重组AMP在E. 杆菌泳道分别是蛋白质大小标记物(M)、对照菌株(C)和AMP产生菌株(AMP)。突出显示AMP的预期11.2 kDa条带6细胞基因组学2,100213,2022会开放获取文章例如,基于从存储在IMG数据库中的细菌、古细菌或真核生物的100,000+分离物基因组中募集到单个Pfam的序列的比例,划分宿主过度代表组中具有有限系统发育分布(LPD)或潜在真核起源的Pfam例如,来自昆虫和蝎子的对革兰氏阳性细菌病原体具有活性的节肢动物防御素(PF 01097,91%真核候选序列)可以类似地被放线菌属的成员使用。其他真核样Pfam的作用可能更隐蔽,如在棒状杆菌属中发现的PF01490(氨基酸转运体,94%真核)和库克菌属,或PF 05241(包括特征性甾醇异构酶的扩增的emopamil结合蛋白超家族,84%真核),其限于几种宿主相关的分枝杆菌属,分枝杆菌属,微杆菌属,和诺卡氏菌属,并且是膜结合的(平均6个跨膜区)。(图S4)。真核磷脂酶B(PF 04916,45%真核)在双歧杆菌属中具有远程同源物分枝杆菌属,和Adlercreutziaspp.;假设存在于共享小生境中的成员之间的水平基因转移和乳杆菌属之间)(图S5)。仅在植物和真菌基因组之外的土壤和植物相关放线菌的一小部分中检测到潜在的新型抗微生物肽或AMP(PF 09117,96%真核)(图2C)。我们证明了一个AMP候选物对酿酒酵母的抑制作 用 , 该 AMP 候 选 物 来 自 于 克 隆 到 大 肠 杆 菌 中 的Streptosporangiumbe- charense DSM 46887。大肠杆菌(参见STAR方法;图2D)。AMP的潜在二聚体形式由除了预期的二聚体形式之外的约在SDS-PAGE凝胶上的11.2 kDa产物(图2E)。AMP二聚体现象以前已有报道。59个候选放线菌AMP的序列长度从101至121个氨基酸不等,中值长度为102个残基。在每种情况下都检测到N-末端信号肽对基因邻近区的调查抗菌肽是一类有前途的新型治疗性抗生素,对细菌、真菌和病毒具有广谱抗菌功效。37-39在细菌谱系的狭窄子集内显示不一致的系统发育分布的LPDPfam也是有趣的-例如,DUF4300(PF14133)在放线菌门和一些其他细菌门内的已知致病性或宿主相关谱系中检测到(图S4)。该示例和其他示例在数据S1中描述。许多其他的比较是可能的,这取决于基础元数据的可用性,突出实验研究的有趣目标。例如,由微球菌目的植物(195)与动物(214)宿主分离株的基因组比较产生的显著差异包括已知植物糖(如鼠李糖或木糖)的摄取和利用以及GABA(植物信号)、ACCase(公认的植物生长促进因子)、鞭毛组分、尿酸盐分解作用等的利用。类似地,对于动物相关分离株,发现已知毒力决定因子(如自转运蛋白和粘附素)的富集以及厌氧菌、抗生素抗性、毒素/抗毒素系统、CRISPR-Cas系统和许多LPD家族的标志物(表S4)。放线菌次级代谢产物库的形成几十年来一直是天然产物或次级代谢产物(SM)发现的焦点,并且大规模基因组学已经阐明了数千种具有新的治疗和抗菌应用潜力的BGC。4,40-在这里,我们使用AntiSMASH 6分析了所有5,648个分离株基因组中的BGC的SM生产。[44]从5,194个基因组(共5,648个)中预测了总共80,947个BGC(表S5;数据S2)。使用BiG-SLICE将这些分配到44,923个不同的基因簇家族(GCF)(表S6),其中32,570个是单例,而具有>100个BGC的最大尺寸的GCF包括非核糖体肽降解酶(NRPS)(1,040个BGC)、铁载体(523)、RiPP样(297)、异戊四醇(259)、萜烯(193)等(图S6)。这些GCF中的大多数的分类组成是广泛的,少数例外如铁载体(GCF ID 249228)、RiPP样(ID 249163)和萜烯(ID252912),主要限于各种链霉菌属,一种限制于红球菌属的四氢嘧啶(ID 251253),或98元萜烯GCF(ID 251612),来自小囊孢菌属(Micromospora spp.)目前研究中共有744个GEBA-Actino基因组贡献了6,939个GCF,其中822个来自94个这些结果与Gavriilidou等人最近对BGC的调查一致,该调查强调放线菌(特别是链霉菌属、拟无枝酸菌属、库茨奈氏菌属和小单孢菌属)是所有细菌门中GCF多样性的主要贡献者。43总的来说,NRPS,萜烯,和I型聚酮合酶(T1PKS)是最丰富的SM类,萜烯(和,在较小程度上,T3PKS,RiPP样,和β内酯)广泛分布在各属。其他类型的SM显示出高度散发或遗传学上不一致的分布,暗示SM的广泛水平基因转移,这在下文中进一步探讨。总BGC中仅2,609个(3.2%)与已知功能的手动策划的MIBiG BGC具有显著(R80%同一性超过参考序列的R80%)命中。45在R90%同一性下,只有1,155(1.4%)个匹配,这是一个与其他研究中报告的相似的低值,19因为绝大多数BGC产物尚未进行化学表征或其他实验验证。如所预期的,在基因组大小和具有平均值的BGC46、47的数量之间存在正趋势每个基因组检测到15.58个BGC,占总基因组长度的8.05%,下文称为%BGC(图3A和3B)。寄主相关基因组的平均大小较小。比环境基因组(图1B)和编码较少的BGC,其中包括,平均,7.15%的BGC,而环境基因组的BGC为9.09%(图S7)。Kitasatospora kifunensisDSM 41654是一种土壤分离物,显示出最高的BGC承诺,具有26.50%的BGC(表S5)。具有显著BGC贡献的其他基因组包括几种链霉菌属,诺卡氏菌属 , 以 及 来 自 GEBA-Actino 组 的 新 测 序 的 属 ( 例 如 ,Goodfellowiella coeruleoviolaceaDSM 43935,Actino- crispumwychmiciniDSM 45934,根球Labedaea rhizosphaelae会开放获取文章细胞基因组学2,100213,2022年12月14日7图3.放线菌基因组(A) 基因组大小与每个基因组预测的BGC数据点根据隔离源(如可用)进行着色。X轴是基因组大小(以Mbp计),y轴是BGC的总数。(B) 与HQ MAG相比,分离株基因组(包括GEBA和公共)的BGC百分比分布(总BGC长度占总基因组长度的百分比)。DSM 45361)。在图S8A-S8 C中通过各种分类学水平总结了BGC定型使用AntiSMASH或基于机器学习的替代方法DeepBGC,在454个分离基因组中无法预测BGC。48这些几乎完全是小的宿主相关基因组(2.2 Mbp中值长度;图S9)。少数例外包括陆生类诺卡氏菌属的基因组。基因组大小高达5 Mbp(平均. > 99%完整性)-其他类诺卡氏菌属(from不同的环境)表现出非常低的BGC承诺(平均。2.63% BGC)。对包含具有和不具有BGC的物种的个别属的检查证明了在个别亚进化枝中BGC存在或不存在的一致模式-例如,在Gardnerella vagulosa菌株的亚进化枝的最后共同祖先中单独的III型聚酮合酶簇的相对损失(图S10)。双歧杆菌属物种中单个SM类别的不连续分布再次表明了相对的获得和 损 失 ( 图 S11 A ) - 例 如 , B 中 羊 毛 硫 肽 的 中 断 模 式 。pseudocatenulatum DSM 20438和DC2A的突变可以归因于羊毛硫肽“钩"蛋白的截短或点突变导致的失活(图S11 B),而在菌株L15中没有检测到标记基因。在所有分离的B菌株中检测到吩嗪样BGC(含有PhzA/B,但不含与典型吩嗪操纵子相关的其他基因)49。嗜热菌分支,但在该属的其他地方很少出现,表明可能被该群体的最后一个共同祖先获得(图S11 A)。SM型的这种零星分布模式是规律,而不是例外,并且在每个属和大多数种中观察到,与个别报告相呼应。[50-为了解决这个问题,我们交叉引用含有BGC的支架与通过至少两种独立预测方法指定为推定质粒的scaf-折叠列表。从属于74个属的659个基因组中鉴定了总共936个携带一个或多个BGC的质粒(总共1,119个)(预测了来自240个属的2,920个基因组的11,999个质粒支架,有或没有BGC,这些质粒支架列于表S7中)。BGC编码质粒的长度范围为2,535(由于某些草图基因组的较高片段化,可能存在部分质粒长度)至1,356,931 bp(图S12)。所有的巨细胞-在陆地分离物中检测到了500 Kbp以上的DNA片段,其中一些已被报道过。五十三,五十四在属水平上检查具有携带BGC的质粒的基因组的数量,链霉菌属,红球菌属,Frankiaspp.,和Salinisporaspp.是使用质粒作为BGC扩增的主要策略的实例,除了假诺卡氏菌属,马杜拉放线菌属,分枝杆菌属等(图S13;表S5)。质粒在形成链霉菌的一小部分的SM库中的作用和红球菌属(Rhodococcusspp.)以前已经检查过了。53、55质粒携带的BGC对总数量或总每个基因组的BGC %范围为1%至66.6%(三个基因组具有位于质粒上的单个BGC)。虽然质粒编码的SM类没有明显优势,但羊毛硫肽-I类、硫代酰胺和丁内酯相对过多。类分枝杆菌属、拉氏杆菌属、戈登氏菌属、分枝杆菌属等属的平均菌数均在1000以上。%BGC定型,但似乎不使用质粒进行BGC扩增。在假诺卡氏菌属中,多个质粒携带的BGC是明显的(图4A)-例如,菌株EC 080610 -09中的800 kb大质粒导致八个新的菌株特异性BGC(参见亚进化枝I)。在亚进化枝II中,除了几乎相同的菌株HH 130629 -09之外,所有菌株都具有携带乳糖肽的质粒(图4A),该菌株缺失该(或任何其他)质粒,但具有额外的菌株特异性SM。检查它们的基因邻域揭示它们的侧翼是转座酶、整合酶、重组酶等,表明可能采用了其他HGT方法(图4B)。核苷和NRPS+其他的BGC似乎插入在tRNA基因上,表明它们可能已经承载在整合和可移动或接合元件(分别为IME或ICE)上。五十六、五十七为了在整个数据集中更系统地调查这一点,我们将BGC与HGTector58预测的HGT衍生基因进行了交叉引用,发现来自4,776个基因组的28,913个BGC预测了HGT基因。在预测的质粒上发现了457个这些BGC。这意味着大多数基因组可能拥有至少一个水平获得的BGC。这种HGT BGC的比例范围为每个基因组BGC总数的2.85%至100%(中值38%)178个基因组会开放获取文章8细胞基因组学2,100213,2022图4.BGC的水平基因转移(A) 研究质粒介导的HGT在密切相关的假诺卡氏菌亚群中的作用基于所选菌株的RpoB基因比对的最大似然树用条形图注释,该条形图描述了通过AntiSMASH预测的每个类别的BGC数量(使用iToL绘制)。包括Bootstrap支持(图例接下页)会开放获取文章细胞基因组学2,100213,2022年12月14日9~显示100%的HGT率;然而,这些中的大多数属于具有单个BGC的小宿主相关属,例如放线菌属、双歧杆菌属、角质杆菌属、嗜浮游生物属等的几个物种。具有显著比例的HGT衍生的BGC以及高BGC承诺的其他属包括链霉菌属(来自770个基因组的总BGC的41.5%)、红球菌属(来自235个基因组的33%)、小单孢菌属(来自139个基因组的38%)、北里孢菌属(来自31个基因组的41%)、戈登氏菌属(来自61个基因组的42%)、假诺卡氏菌属(来自37个基因组的54%)等(图4C)。在链霉菌属中,先前已经认识到由质粒或放线菌IME和ICE介导的BGC通量。59在该HGT亚组中显著过度代表的SM类别包括萜烯、RiPP样、铁载体、四氢嘧啶、丁内酯、氧化还原辅因子、黑色素等。(图S14)。在646株假诺卡氏菌中,共检出313株BGC出现在此列表中,包括上面突出显示的菌株特异性BGC。类似地,在双歧杆菌属中,21个基因组中的23个BGC可能是最近获得的(图S11A)。总体而言,每个谱系内的亚进化枝可能处于不同的持续选择压力下,这些压力驱动高度不相似的BGC组成,这是由各种HGT策略以及缺失事件促成的。60这种相对较新获得的证据可以用作除了先前建议的那些之外对特定BGC的表征进行优先化的策略。61水平转移甚至在HQ MAG中也可能影响BGC的检测-例如,MAG仅编码3个BGC/基因组或2.39%的BGC(图3B)。这些是可能的预测不足,因为与主染色体相比,宏基因组分箱过程预计由于其偏离的核苷酸组成和/或覆盖(质粒拷贝数效应)而对HGT区域62此外,MAG的较高相对对于HQ MAG,支架N50为141.6 Kbp,而对于所有分离株,支架N50为1.4 Mbp)也可导致假阴性 ,因为 BGC长度平 均值为1.5 Mbp。> 33 kb(基于MiBIG45和GenBank条目)。这进一步强调了HQ分离株基因组序列用于继续SM基因发现工作的需要六十三,六十四丙酸和宿主-病毒相互作用原噬菌体是存在于细菌细胞中的噬菌体基因组,通常在其感染周期的潜伏期整合到其宿主染色体中。除了有助于HGT,噬菌体-宿主相互作用也可能在迭代基因组进化中发挥作用从全基因组数据中鉴定原噬菌体为更好地了解放线菌感染的流行率、多样性、宿主范围和基因含量提供了独特的机会。我们应用VirSorter 265和VirSorterkV66自动检测、管理和鉴定Ac-100中(接近)完整的原噬菌体序列锡细菌分离物基因组(参见STAR方法;图S15)。在质量过滤和去复制之后,获得了来自2,756个基因组的4,831个不同前噬菌体的最终数据集,包括来自2,244个基因组的3,393个估计为(接近)完整的前噬菌体然后,我们将来自所有放线菌分离物基因组的预测蛋白质映射到放线菌原噬菌体的非冗余目录,以建立放线菌中原噬菌体流行和分布的全局图。总体而言,60.4%的放线菌分离株基因组(n = 3,412)包括至少一个前噬菌体样区域(表S8),而在45.4%的基因组中可以检测到完整或接近完整的前噬菌体。这种差异可能是由于存在无活性和/或衰变的前噬菌体以及从短读段组装可变基因组区域(包括前噬菌体)的挑战在放线菌门中没有任何可检测的前噬菌体的基因组的相对高频率(40%)与先前的观察结果67总的来说,每个属检测到的前噬菌体的数量与该属内测序的基因组的数量成比例(Pearson相关系数= 0.89),具有少数离群值。首先,类分枝杆菌属、双歧杆菌属和Leifsonia中的菌株产生了不成比例的大量原噬菌体,并且与其他属相比(分别为19%、26%和31%),始终显示出较低的基因组百分比而没有任何原噬菌体的痕迹。在类分枝杆菌的情况下,这可能部分是由于大量收集了从该属菌株中分离的细菌,70这可能有助于鉴定(HQ)前噬菌体。在谱的另一端,棒状杆菌属菌株包括90%的基因组而没有任何原噬菌体的痕迹。由于棒杆菌属基因组相对紧凑(~3 Mb),它们可能比其他较大的放线菌属基因组包含更少的原噬菌体;然而,棒杆菌属原噬菌体也可能只是比其他放线菌属原噬菌体更远离参考并且更难以检测。然而,当存在时,在同一宿主基因组中观察到多个不同的前噬菌体并不罕见(总体为17%),这可能为不相关的前噬这与一些温带噬菌体被鉴定为表现出“高横向基因流”模式,即,比大多数其他物种有更高水平基因交换率。在包括基因组大小、分离来源、属、科或目等级的宿主分类、tRNA的数量以及CRISPR-CAS系统和BGC的存在的各种基因组特征中,仅分类被检测为与检测到的原噬菌体的数量显著相关(在所有测试等级下的ANOVAp值为23 10- 16这表明原噬菌体 存在的变化SM生产商),但相反,可能是由于差异,质粒其他基因组可能有质粒,但BGC不在这些质粒上编码如手稿中所讨论的,分支被突出显示黑星标志着HGT的进一步实例,如(B)所示。(B) 菌株HH 130629 -09中可能通过HGT替代方法(如ICE)获得的BGC示例示意图BGC的核心基因是绿色的,而红色表示整合或转座的标志基因。tRNA基因以黑色显示。(C) 将编码最高数量的HGT BGC(橙色条)的属与非HGT BGC(蓝色条)进行对比为了更好地显示,链霉菌的条被截短,并且总共11,018个HGT BGC与15,507个非HGT BGC。具有加权点的上图是每个属中基因组的BGC的平均百分比在x轴上,属按不含HGT的BGC总数的降序排列每个属的基因组数量显示在括号中。会开放获取文章10细胞基因组学2,100213,2022图5.放线菌基因组中原噬菌体含量的概述(A) 通过基因组在主要家族中检测到的完整和接近完整的前噬菌体的数量。具有% 50个基因组的家族被聚集在“其他”类别中。(B) 按宿主属检测到的不同病毒簇的数量,相对于在属中筛选的基因组数量。下图显示了具有%105基因组的属的数据的放大版本。在每个图上命名具有最多VC和/或基因组的个体属。(C) 主要放线菌科的原噬菌体插入位点对于每种原噬菌体,分别筛选紧邻50和30末端上游和下游1kb的宿主基因组区域,用于检测属于其他可动遗传元件的tRNA、整合酶样基因或转座酶(即,不是目前考虑的原噬菌体)和转录调节子。具有% 50个基因组的家族被聚集在“其他”类别中菌株之间的生活史特征,这可能是最好的捕获在这个数据集中的分类分类。72接下来,我们通过在vContact 2中实施的自动噬菌体基因组网络分析评估了放线菌基因组中回收的原噬菌体的多样性。73将所有(接近)完整的放线菌原噬菌体与来自INPHARED数据库74的14,256个参考基因组一起克隆,产生总共约1,837个属水平组(即,病毒簇[VC]),包括365个R2亚型。几乎一半(46%)的宿主属与2个或更多个VC相关,并且每个属检测到的VC的数量随着宿主属中采样的基因组的数量而明显增加(图5B)。这说明了单个属内的放线菌如何被广泛的细菌感染,以及给定属内许多成员的全基因组鸟枪测序如何揭示这种广泛的原噬菌体多样性。考虑到这种广泛的噬菌体多样性,我们接下来评估了单个前噬菌体在宿主多样性中的分布。通常在单个基因组中检测到蛋白酶(78%),当在多个基因组中检测到蛋白酶时,主要与单个属相关(85%;图S16)。然而,当在多个属中检测到时,宿主属往往在不同的科(58%)和目(45%;图S16)中。这表明,虽然大多数放线菌原噬菌体是具有狭窄的宿主范围,“多面手”原噬菌体的宿主范围不能紧密地反映属级以外的宿主分类。相反,在不同的宿主中更频繁地检测到单个VC(图S16)。在拥有2个或更多50%的原噬菌体与一个以上的宿主属相关,25%的原噬菌体与多个宿主科相关。几个VC还包括感染多个类别的放线菌的成员,这表明这些要么反映了这些不同类别的分歧之前的古老群体,要么更有可能的是,一些原噬菌体能够最后,我们探索了放线菌原噬菌体的基因含量,以评估原噬菌体对宿主细胞功能的潜在影响。如在噬菌体基因组中典型的,大多数基因(60%-整合酶、主要衣壳蛋白或尾蛋白。然而,在3个Atopobium原噬菌体中鉴定出一个例外,即编码预测Mn/ Zn摄取复合物组分的基因(图S17)。锌的摄取在某些细菌的致病性中起关键作用,75并且噬菌体编码的Mn/Zn转运蛋白的存在表明某些放线菌亲脂蛋白可能通过提供额外的资源来获取这些营养物质而直接增加其宿主的适应性。然而,除了噬菌体编码的基因之外,原噬菌体整
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功