没有合适的资源?快使用搜索试试~ 我知道了~
文章在阳光照射的海洋中丰富的远亲真核浮游生物谱系图形摘要亮点d近3000亿个宏基因组读数是从海洋d数百个真核环境基因组被表征和策划d与养殖d这些基因组揭示了远亲真核生物作者汤姆·欧放大图片创作者:James D.欣辛格,Eric Pelletier,PatrickWincker,Olivier Jaillon对应tom. genoscope.fr简言之Delmont等人使用近3000亿个宏基因组读数来表征阳光照射的海洋中这一大型基因组资源涵盖了我们的文化组合中代表性不足的类群,并揭示了远亲真核浮游生物谱系的功能融合Delmont等人,2022,细胞基因组学2,1001232022年5月11日,作者。https://doi.org/10.1016/j.xgen.2022.100123会会开放获取文章在阳光照射的海洋中丰富的远亲真核浮游生物谱系的功能汇聚汤姆·欧德尔蒙特,1,2,9,*摩根盖亚,1,2达米恩D。欣辛格,1,2保罗弗莱蒙特,1,2基亚拉瓦尼,3安东尼奥·费尔南德斯-格拉,4A。Murat Eren,5Artem Kourlaiev,1,2LeoJean-Marc Aury,1,2Tara Oceans Coordinators,Colomban de Vargas,2,6Chris Bowler,2,7Eric Karsenti,2,6,8Eric Pelletier,1,2Patrick Wincker,1,2and Olivier Jaillon1,21Ge'nomiqueMe'tabolique, Genoscope,InstitutFrancPlancois-Jacob,CEA,CNRS,Universite'4Lundbeck基金会地球遗传学中心,GLOBE研究所,哥本哈根大学,丹麦5德国奥尔登堡亥姆霍兹海洋功能生物多样性研究所6Sorbonne Universite 'and CNRS,UMR 7144(AD2M),ECOMAP,Station Biologique de Roscoff,Roscoff,France7InstitutdeBiologiede8德国海德堡欧洲分子生物学实验室主任9引线触点* 通讯地址:tom.genoscope.frhttps://doi.org/10.1016/j.xgen.2022.100123总结海洋浮游真核生物在全球海洋地球化学循环和气候中起着重要作用然而,他们在文化收藏的代表性差,限制了我们的进化历史和基因组基础的亚热带生态系统的理解。在这里,我们使用了来自极地,温带和热带阳光照射的海洋的2800亿个TaraOceans宏基因组读数来重建和手动管理700多个丰富和广泛的真核环境基因组,范围从10 Mbp到1.3 Gbp。这种基因组资源涵盖了广泛的特征不明显的真核细胞谱系,补充了长期以来的培养物收集,同时更好地代表了海洋上层的浮游生物。据我们所知,我们首次对丰富的单细胞真核浮游生物进行了全面的全基因组功能分类,揭示了连接远亲谱系的四个主要群体。无论是浮游生物的营养模式还是其垂直进化史都不能完全解释数百万年来在洋流中共存的主要真核生物谱系的功能介绍阳光照射下的海洋中的浮游生物贡献了地球约一半的初级生产力,影响着全球生物地球化学循环和食物网。1,2浮游生物生物量似乎以单细胞真核生物和小型动物3-5、7、8水生群落的组成是高度动态的,并受生物和非生物变量的影响,其中一些变量在人类世的变化异常迅速。9-11我们对海洋真核生物的了解近年来随着转录组学的进展(例如,12,13)和基因组(例如,14-16)对培养物中分离的生物体的分析和有效的培养物独立调查的出现(例如,17、18)。然而,大多数真核生物谱系在过去的十年中,塔拉海洋计划已经从所有主要海洋和两个海洋的阳光照射区产生了海洋浮游生物宏基因组和元转录组的同质资源[21]至关重要的是,大多数测序的浮游生物大小片段对应于真核生物的大小,为调查这一生命领域的基因组特征和表达模式提供了主要数据集。超过1亿个真核生物基因簇已经被元转录组所表征,其中一半与已知蛋白质没有相似性。[5]其中大多数不能与基因组背景联系起来,[22]限制了它们对以基因为中心的见解的有用性。 真核生物的重量-nomic数据集(相当于约10,000个人类基因组)另一只手部分用于浮游生物,phies,23,24,但由于缺乏强有力的方法来理解其多样性,它仍然未被用于基因和基因组的表征。基因组解析宏基因组学25已被广泛应用于塔拉海洋浮游生物最小的尺寸级分,Cell Genomics2,100123,May 11,2022?作者。1这是CC BY许可下的开放获取文章(http://creativecommons.org/licenses/by/4.0/)。会开放获取文章2Cell Genomics2,100123,2022揭示了在阳光普照的海洋中丰富的数千种病毒、细菌和古细菌种群的生态和进化[26-31]因此,这种方法也可能适用于描述最丰富的真核浮游生物的基因组特征。然而,到目前为止,很少有真核生物基因组已经从metage-nomes中解析出来,26,32高密度的重复36)和延伸的大小37,这可能使许多人相信这种方法的不可行性除了一些光合作用的真核生物,宏基因组学远远落后于真核生物基因组学的培养在这里,我们使用从塔拉海洋的真核浮游生物尺寸级分产生的数千亿元基因组读数来填补这一关键空白,并证明基因组分辨的metage- nomics非常适合海洋真核生物基因组的实质性复杂性和长度超过象征性的千兆字节。我们利用这一新的基因组资源,将主要的真核生物板块谱系置于生命树中,并基于来自保守基因标记的系统发育信号和当今的基因组功能景观来探索它们的进化结果和讨论来自阳光照射海洋的真核浮游生物环境基因组的新资源我们进行了第一次,据我们所知,全面的基因组解析宏基因组调查微生物真核生物从极地,温带和热带阳光照射的海洋使用798宏基因组(其中265个是通过本研究发布)来自塔拉海洋探险。它们对应于太平洋、大西洋、印度洋、北极和南大洋以及地中海和红海143个站点的表层和深层叶绿素最大值层,包括8种真核生物富集的浮游生物,大小范围为0.8 m-2 mm(图1;表S1)。我们使用2800亿个读段作为11个宏基因组共组装的输入(每个共组装60 -[26]我们倾向于共组装,以扩大覆盖范围并优化大型海洋真核生物基因组的回收然而,很可能其他组装策略(例如,来自单个样品)将提供对我们的复杂基因组共组装体未能解析的基因组数据的访问。此外,我们使用来自七个TaraOceans站的通过流式细胞术分选的158个真核单细胞(表S2)作为输入以进行互补基因组组装(STAR方法)。因此,我们为阳光照射的海洋中的浮游真核生物创建了一个独立于培养物的非冗余(平均核苷酸同一性98%)基因组数据库,该数据库由683个碱基组组装的基因组(MAG)和30个单细胞基因组(SAG)组成,所有基因组都含有超过1000万个核苷酸(表S3)。这713个MAG和SAG使用anvi'o 38,39内的整体框架进行手动表征和策划近一半的MAG在任何metage- nomes中都没有>103的垂直覆盖率足够覆盖相对较大的真核生物基因组。此外,TaraOceans的宏基因组读数仍然没有检测到三分之一的SAG,这强调了细胞分选针对不太丰富的谱系的能力。MAG和SAG中不存在与焦点真核生物群体物理相关的DNA分子,但其不一定与其跨宏基因组的核基因组相关或具有不同的序列组成。它们包括叶绿体、线粒体和通常以多拷贝存在的病毒。最后,一些高度保守的多拷贝基因,如18S rRNA基因也由于与组装和分箱相关的技术问题而缺失,这与海洋细菌MAG中16S rRNA基因的命运有关。26真核浮游生物的这个新的基因组数据库具有25.2Gbp的总大小,并且根据结合元转录组学、从头算和蛋白质相似性方法(STAR方法)的工作流程包含10,207,450个基因。估计完成塔拉海洋MAG和SAG平均约为40%(redun,0.5%),范围从0.0%(一个15-Mbp长的后,konta MAG)至93.7%(47.8-Mbp长的子囊菌MAG)。基因组长度平均为35.4 Mbp(第一个千兆级真核MAG高达1.32 Gbp,隶属于Odontella weissflo),GC含量范围为18.7%至72.4%(表S3)。MAG和SAG隶属于泡孔动物门(n = 44)、变形虫门(n = 4)、古质体门(n = 64)、隐体门(n = 31)、触体门(n = 31)、(n = 92)、后鞭毛纲(n = 299)、根瘤菌属(n = 2)和Strameno-piles(n = 174)。只有三个密切相关的MAG不能隶属于任何已知的真核生物超群(见遗传学部分)。在713个MAG和SAG中,271个含有对应于叶绿素a-b结合蛋白的多个基因,被认为是浮游植物(表S3)。与来自海洋真核生物分离株的484个参考转录组的全基因组比较(METdb数据库40,其改进了来自MMETSP12的数据并添加了来自塔拉海洋的新转录组;参见表S3)仅将24个MAG和24个转录组关联起来。SAG(~3%)与已培养的真核细胞群(平均核苷酸同一性>98%)。 其中包括著名的微单胞菌属、深海球菌属、牡蛎属、密球藻属、绿球藻属和Prasinoderma属内的古质体群以及Straveliles中的一些分类群(例如,硅藻Minutocellus polymorphus)和Haptista(例如,棕囊藻(Phaeo- cystis cordata)。在这一有限数量的匹配中,MAG代表了相应培养物基因组的几乎相同的子集(图S1,表S4)。总的来说,我们发现metage- nomics,单细胞基因组学,和文化高度互补的海洋真核浮游生物的基因组特征很少重叠MAG和SAG从939个宏基因组中招募了391亿个具有>90%同一性(平均同一性为97.4%)的读段,代表塔拉海洋宏基因组数据集的11.8%,这些数据集专门用于单细胞和多细胞生物,范围从0.2mm至2 mm(表S5)。相比之下,总大小约为23 Gbp的METdb招募了不到70亿个读段(平均同一性为97%),表明TaraOceans MAG和与来自全球数十年培养努力的转录组学数据相比,本文报道的SAG 更 好 地 代 表 了 开 阔 海 洋 真 核 生 物 的 多 样 性 。 大 部 分TaraOceans宏基因组读段仍然没有被招募,这可能是一个错误。Cell Genomics2,100123,2022年5月11日3会开放获取文章图1.一项致力于阳光照射海洋中真核生物的基因组分辨宏基因组调查该地图显示了用于进行基因组解析宏基因组学的TaraOceans站,总结了宏基因组的数量,长于2,500个核苷酸的重叠群ARC:北冰洋; MED:地中海; RED:红海; ION:北印度洋;IOS:南印度洋; SOC:南大洋; AON:北大西洋; AOS:南大西洋; PON:北太平洋; PSE:东南太平洋; PSW:西南太平洋。下图总结了来自组织成四个大小级分的939个宏基因组的MAG和SAG的作图结果完整MAG和SAG的映射投影在STAR方法和补充信息中描述。我们的方法未能重建的真核生物基因组解释,在我们考虑的大尺寸级分中大量细菌、古细菌和病毒群体的出现,41事实上,在正确完成估计的假设下,完整MAG和SAG将招募所有宏基因组读数的约26%,包括20- 200个基因组的>50%的读数180μ m大小的部分单独由于一个重要的贡献,数以百计的大型桡足类MAG丰富的细胞范围内(见图1和表S5)。扩展真核生命树的基因组表达然后,我们确定了新的海洋MAG和SAGs在真核生物树中的系统发育分布。选择METdb作为分类学策划的参考转录组学从培养物收集的数据库中,选择了三种DNA依赖性RNA聚合酶(在所有现代真核生物中发现的六种多千碱基基因,因此已经存在于最后的真核生物共同祖先中)的两个最大亚基。这些基因是用于远缘微生物有机体44的系统发育推断的高度相关的标记,并且有助于我们对真核发生的理解。[45]在研究真核生物的生命树时,它们长期被忽视,可能是因为目前缺少自动方法来在进行系统发育分析之前有效地鉴定每种DNA依赖性RNA聚合酶类型在此,使用专用于MAG和SAG(n = 2,150)和METdb参考转录组(n = 2,032)的两个最大亚基的隐马尔可夫模型(HiddenMarkov Model,HALF)鉴定蛋白质序列。这些蛋白质被手动管理,并连接到相应的DNA依赖性RNA聚合酶类型的每个亚基使用4Cell Genomics2,100123,2022会开放获取文章图2.真核浮游生物依赖DNA的RNA聚合酶蛋白串联序列的系统发育分析来自三种DNA依赖性RNA聚合酶(总共六个基因)的串联的两个最大亚基的最大似然系统发育树包括TaraOceans MAG和SAG以及METdb转录组,并且使用比对中的总共7,243个位点和LG + F + R10生成。模型;后角类动物被用作外组。将显示选定进化枝的支持。系统发生支持被认为是高(aLRTR 80和UFBootR95)、中(aLRTR 80或UFBootR 95)或低(aLRT 80和UFBoot 95)(STAR方法)。这棵树使用anvi'o界面装饰了额外的层新颖性评分层(STAR方法)被设置为最小值30(即,70%相似性)和最大60(即,40%相似度)。红色的分支和名称对应于METdb中缺少代表的主要谱系。参考蛋白质和系统发育推断(STAR方法和补充信息)。BLAST结果提供了其中每一个的nov-10评分(STAR方法和表S3),将我们的分析范围扩展到截至2020年8月储存在NCBI中的真核基因组我们最终的系统发育分析包括416个参考转录组和576个环境MAGs和SAGs,其中至少包含六个标记之一基因(图2)。串联的DNA依赖性RNA聚合酶蛋白质序列有效地重建了真核生物的连贯树,与先前基于其他基因标记的大规模系统发生学分析46以及使用对应于数百个较小基因标记的蛋白质序列的互补BUSCO-中心基因组分析相当(图S2)。作为一个明显的区别,HaptistaCell Genomics2,100123,2022年5月11日5会开放获取文章与古质体纲关系最密切,而隐体纲包括Picozoa门,与TSAR超类群关系最密切(Telonemia在此未示出,Stramenopiles,Alveolata和Rhizaria),尽管支持较弱。这种使用以前未充分利用的通用标记的真核生物树的观点本身绝不是结论性的,但有助于理解真核生物之间的深层进化关系的持续努力,同时提供有效的框架来评估大量塔拉海洋MAG和SAG的系统发育位置。在 小 型 浮 游 动 物 中 , 塔 拉 海 洋 MAG 发 现 了 一 个 与Oikopleuridae科相关的脊索动物谱系,以及包括各种桡足类的甲壳动物谱系(图2;表S3)。桡足类在浮游生物中占主导地位,是地球上最丰富的动物之一。47、48它们以单细胞浮游生物为食,是鱼类等大型动物的重要食物来源,因此是全球碳循环中的一个关键营养环节[49]到目前为止,只有不到10种桡足类的基因组被分离出。50, 51本文揭示的额外8.4 Gbp的基因组材料被分成217个MAG,并且它们本身被组织成两个主要的系统发育簇,我们称之为海洋六囊藻分支A和B。这两个进化枝大大扩展了已知的内荚的基因组多样性,尽管进化枝B与很少的参考基因组相连(图S3)。这些分支同样丰富,并在所有海洋区域检测到。桡足类MAG通常具有广泛的地理分布,平均在全球分布的塔拉海洋站的25%被检测到。相比之下,后孔虫MAGs隶属于脊索动物和Choanoflagella-茶(刺藻纲),平均而言,在不到10%的采样点检测到。通常以较小的尺寸级分出现,对应于单细胞真核生物的MAG和SAG大大扩展了我们对泡孔动物门、原生动物门、单鞭毛纲和层 座 纲 内 已 知 属 的 基 因 组 知 识 ( 图 2; 表 S3 ) 。 仅 在 硅 藻(Straviiles)中,就重建了Fragilariopsis(n = 5),Pseudo-nitzschia(n = 7),Chaetoceros(n = 11),Thalassiosira(n= 5 ) 和 其 他 七 个 属 的 MAGs ( 包 括 一 个 开 花 的 O.weissflococcus物种),所有这些物种都对阳光照射下的海洋中的光合作用做出了重大贡献。52,53在古质体中,全基因组平均核苷酸同一性和分布模式表明,大部分MAG对应于不同的种群,其中许多种群尚未通过培养基因组学进行表征。特别地,我们表征了至少16个微单胞菌种群(图S4)、11个绿球藻种群(图S5)和5个深海球菌种群(图S6)的基因组内容。除了这种已知的亚属的基因组扩增之外,MAG和SAG覆盖了在METdb中缺乏代表性的各种谱系。这些包括(1)Picozoa作为隐孢子虫的姐妹分支(最近使用不同的基因标记和数据库将该门的SAG与古质体门联系起来54),与藻类纲,以及Phaeocystis和Pycnococcus属,(2)Strameno-piles内的卵菌门和Alveolata内的Myzozoa的基础谱系,(3)MAST谱系内的多个分支55(图S7),(4)和可能的小集群在根瘤菌的根部,我们称单个DNA依赖性RNA聚合酶基因的新颖性得分值得注意的是,不同的MAST谱系,Picozoa,和推定的新组都显示出很深的分支距离文化和高的新颖性得分。此外,以BUSCO为中心的系统基因组分析将“推定的新组”置于 此外,这种替代的DNA基因组分析证实了姐妹进化枝与棕囊藻属的关系,而不是姐妹进化枝与密球藻属的关系,而是将其作为与由MAG、SAG和METdb代表的任何古质体纲谱系不同的独立谱系。虽然不同的基因标记可能会提供略有不同的进化趋势,一个众所周知的系统发育现象,在这里,我们的两种方法一致,当谈到强调的MAG和SAG的基因组新颖性相比,文化参考。缺乏任何MAG和SAG的最明显的谱系之一是Dinoflagellata,一个突出的和极其多样化的门在小型和大型真核生物的大小比例的塔拉海洋。8这些生物体具有非常大且复杂的基因组56,可能需要更深入的测序工作才能通过基因组解析宏基因组学来恢复。此外,许多其他重要的血统也在MAG和SAG中缺失(例如,在放射虫和挖掘),可能是由于缺乏丰富的人口,尽管他们的多样性。海洋真核生物进化和功能之间的复杂相互作用MAG和SAG提供了一个广泛的基因组评估的真核生物树在阳光照射的海洋中,涵盖了广泛的海洋浮游生物真核生物的文化远亲,但丰富的开放的海洋。因此,该资源为利用基因组学探索真核浮游生物的系统发育信号和功能库之间的相互作用提供了机会。使用EggNOG,57-http://eggnog5.embl.de/其中,功能冗余(即,在同一MAG或SAG中多次检测到的功能)涵盖了46.6%然后,我们使用这些基因注释基于其功能谱对MAG和SAG进行分类(表S6)。我们使用欧几里德距离和沃德连锁(一种基于泛基因组学特征组织基因组的方法60)的分层聚类分析首先将MAG和SAG分成小动物(脊索动物、甲壳动物、豆荚动物)和推定的单细胞真核生物(图3)。细粒度的功能集群表现出高度一致的单细胞真核生物内的分类。例如,隶属于球石藻Emiliana(完成度范围从7.8%到32.2%)、网囊藻科(完成度范围从8.6%到76.9%)和棕囊藻的姐妹分支(完成度范围从18.4%到60.4%)的MAG形成了不同的聚类。微型动物门(完成率从1.6%到75.7%)也局限于一个单一的集群,这可以部分解释6Cell Genomics2,100123,2022会开放获取文章图3.阳光照射海洋中单细胞真核生物的基因组功能景观该图显示了基于以下事件的681个MAG和SAG的层次聚类(具有沃德连锁的欧几里得距离57-59约28,000种功能通过EggNOG识别,以小动物(脊索动物、甲壳动物和桡足动物)为基础,并使用anvi'o交互式界面装饰有多层信息。当在功能组A、B、C和D之间执行Welch方差分析时,层包括100个具有最低p值的功能的log 10中的出现(参见树中的节点)。从分析中去除的是纤毛门MAG(基因识别对于该谱系是有问题的),两个不太完整的MAG隶属于后鞭毛门,以及在千兆碱基规模MAG中发生超过500次并与连接其他无关MAG和SAG的反转录转座子相关的功能。与双加氧酶活性相关的基因(多达644个基因)的大量辐射。最引人注目的是,古质体纲MAG不仅在其属级分类学方面聚类,而且这些聚类的组织与它们的进化关系高度一致(见图2),这不仅证实了推定的密球藻姐妹分支的新颖性,而且证实了我们的框架绘制单细胞海洋真核生物功能景观的敏感性。显然,MAG和SAG的重要功能冗余最大限度地减少了我们评估单细胞海洋真核生物功能谱的努力中基因组不完整性的影响。单细胞真核生物的四个主要功能组从分层聚类中出现(图3),当掺入与MAG匹配的标准培养物基因组时(图S9)和当仅聚类MAG和SAG>25%完成时(图S10),这被完美地概括。重要的是,在细粒度簇中观察到的分类一致性在向这些官能团的根移动时消失。A群是一个例外,因为它只包括Haptista(包括Phaeocys的高度世界性的姐妹分支)。另一方面,B组包括一个高度多样化和多系的远亲异养类群(例如,MAST和MALV)和兼养型(例如,Myzozoa和Crypto-phyta)谱系的各种基因组大小,这表明广泛的基因组功能的趋势可能不仅是解释浮游生物的营养模式。C组以光合作用为主,覆盖硅藻(不同基因组大小的和古质体(小基因组)作为姐妹簇。这一发现可能反映了硅藻是唯一一个群体与强制 性 的 光 合 自 养 生 活 方 式 内 的Strageliles,像古质体。最后,D组包括三个亲缘关系较远的异养生物谱系(系统地缺乏光合作用的基因标记),表现出相当大的基因组:卵菌门,Acan-thoecida choanoflagellates和Picozoa。这四个功能组具有相似的检测功能量,并且包含了整个塔拉海洋台站的全球性和很少检测到的MAG和SAG。虽然过去已经尝试基于基因组功能性状对海洋真核生物进行分类(例如,使用几个SAG61),我们的资源因此为海洋上层单细胞真核浮游生物的丰富谱系的第一个全基因组功能分类提供了足够广泛的基因组材料谱。共有2,588个已知功能和680个未知功能,1.94 100万个基因(约40%的注释基因)在四个功能组之间显著差异地发生我们显示了在表中具有最低p值的100个函数的出现率图3所示的分层聚类用于说明并帮助在组之间传达强信号。然而,有3,000多项职能促成了咨询小组和咨询助理小组的基本划分。它们涵盖了在470万个基因中以相似比例确定的所有高水平功能类别(图S11),表明与信息存储和处理、细胞过程和信号传导以及代谢相关的广泛功能有助于组的划分。作为一个显着的区别,与转录相关的功能-RNA加工和修饰(-47%)代表性较低,而与碳水化合物运输和代谢是丰富(+43%)在Cell Genomics2,100123,2022年5月11日7会开放获取文章图4.2006- 2015年和2090- 2099年期间三个真核生物MAG的世界地图分布预测出现的概率范围从0(紫色)到1(红色),绿色对应的概率为0.5。最下面一行显示了第一等级的区域相关环境参数,这些参数驱动了分布的预计变化(在|D P|>0.1)。值得注意的是,赤道地区硅酸盐的预计减少驱动了TARA_PSW_MAG_00,299膨胀的34%,同时驱动了TARA_PSE_93_MAG_00,246减少的34%,可能反映了放牧)。相比之下,TARA_IOS_50_MAG_00,098的膨胀主要由温度驱动(74%)。不同的功能。有趣的是,我们注意到在C组中缺乏各种功能,否则在单细胞真核生物中会出现高丰度。这些包括与离子通道相关的功能(例如,细胞外配体门控离子通道活性、细胞内氯离子通道活性、镁离子跨膜转运蛋白活性、钙离子跨膜转运蛋白、钙钠反向转运蛋白活性),其可能与鞭毛运动性和对外部刺激的反应有关,62反映了真正的自养生物的生活方式。另一方面,D组具有与碳水化合物运输和代谢相关的各种功能的显著富集(例如,α和β-半乳糖苷酶活性、糖基水解酶家族、糖原脱支酶、α-L-岩藻糖苷酶),表明不同的碳获取策略。总的来说,成千上万的差异发生的功能的属性表明,真核浮游生物这反映了生物体基因组结构和表型进化的复杂性,它们很少符合它们的进化关系。在这一点上,我们的分析集中在功能注释到EggNOG的440万个基因上,这丢弃了我们在MAG和SAG中鉴定的一半以上的基因我们目前对许多真核生物的功能基因缺乏了解,即使在模式生物的范围内也是如此,这可以解释基于参考的方法在研究真核浮游生物基因含量方面的局限性因此,为了获得进一步的见解和克服这些局限性,我们分区和分类的真核基因内容与AGNOSTOS。增十六将540万个基因分组为424,837组具有远程同源性的基因,增加了230万个未被EggNOG注释特征化的基因。AGNOSTOS应用一组严格的参数对基因进行分组,通过其质量控制丢弃了575,053个基因,并在单例中丢弃了4,264,489个基因将EggNOG注释整合到AGN0STOS中产生了25,703个EggNOG正向组(单例和基因簇)和271,464个AGN0STOS基因组的组合数据集,包含640万个基因,比原始数据集(STAR方法)多45%的基因。基于该扩展的基因集的MAG和SAG的全基因组功能分类支持先前仅用EggNOG注释观察到的大多数趋势(图S12;表S7),从而加强了我们的观察。但最有趣的是,仅基于23,674个新鉴定的未知功能基因组的分类(表S8;总共1.3 EggNOG丢弃的100万个基因)也支持总体趋势,包括硅藻和绿藻之间以及Picozoa和Acanthoecida之间的显著联系(图S13)。因此,我们在已知和未知的编码序列空间中确定了远亲真核浮游生物谱系的功能库真核生物种群的生态位和生态地理学除了深入了解生物进化和基因组功能,MAG和SAG还提供了一个评估8Cell Genomics2,100123,2022会开放获取文章使用全基因组宏基因组读数招募的真核生物种群的当前和未来地理分布(接近物种水平分辨率)。在这里,我们确定了利基特征(例如,温度范围)检测到374个MAG和SAG(约占资源的50%)在至少五个站点(表S9),并使用气候模型,基于2006- 2015年和2090- 2099 24年气候学的世界地图分布项目(http://end.mio.osupytheas.fr/Ecological_Niche_database/据估计,这些MAG和SAG中的每一个都发生在第一和第二次平均4200万和3900万平方周期,分别对应于~12%的表面,海洋我们的数据表明大多数真核生物在未来几十年内仍将广泛存在。然而,预计会发生许多变化。例如,在第一个时期(MAST MAG)中分布最广的种群在本世纪末仍然排在第一位,但表面积从37%增加到46%(图4),相当于北美的表面积增加了2800万km2。它从热带向更温和的海洋区域扩张,无论经度如何,主要是通过温度解释的,反映了由于全球变暖引起的热带生态位的扩张,这与最近用扩增子调查和成像数据做出的预测相呼应。65作为一个极端的例子,在两个时期之间受益最大的MAG(桡足类)可能会增加5500万平方公里(图4),比亚洲和欧洲的表面加起来还要多。另一方面,MAG失去大部分地面(也是桡足类)可能会减少4700万平方公里。这两个例子中的预测变化与各种变量(包括硅酸盐的显著贡献)相关,这是一个重要的提醒,即温度本身不能解释海洋中浮游生物的地理分布。我们对基因组学、宏基因组学和气候模型的整合,提供了在阳光照射的海洋中预测单个真核生物种群生态位轨迹所需的解决方案。该研究基因组解析宏基因组学应用于塔拉海洋大细胞大小部分的大量环境DNA测序遗产,证明有效地补充了我们的海洋真核生物培养组合。然而,该方法未能覆盖含有非常大的基因组的谱系(1)(例如,甲藻56),(2)仅以低丰度发现,(3)或发现是丰富的但具有异常高水平的微多样性,挑战宏基因组组装(例如,主要的浮游单胞菌属66,我们只回收到高纬度MAG代表)。更深入的测序努力加上长读序测序技术将可能在未来几年克服许多这些限制。我们对海洋真核生物的功能聚类利用了用平台anvi'o人工表征的广泛的基因组,并且还考虑了使用AGNOSTOS框架的然而,这种方法也有明显的局限性。例如,聚类方法可以影响观察到的趋势。此外,整合额外的分类群,目前缺乏基因组表征可能会影响功能聚类,类似于通常用PCR基因组分析观察到的情况。因此,我们预计,后续的调查可能会发现功能集群略有不同,从我们已经确定的四个主要群体,完善我们的理解,在我们的研究中确定的远亲真核细胞谱系的功能收敛。结论与阐明病毒、细菌和古细菌谱系的最新进展相似,微生物学正在经历从培养到宏基因组学的转变,用于海洋真核生物的基因组表征。事实上,我们对阳光照射的海洋中丰富的单细胞真核生物群体和微观动物桡足类及其猎物,混合营养体,自养体和寄生虫),并提供了第一个千兆碱基规模的宏基因组组装基因组。我们的基因组解析调查和其他人的平行努力67,68不仅不同于过去对孤立海洋生物的转录组调查,而且更好地代表了开放光海洋中的真核浮游生物。它们代表了创新的步骤,以使用基因组学来探索与环境相关的真核生物的生态和进化基础,使用宏基因组学来填补我们非凡的文化遗产中的关键空白。21系统发生基因标记,如DNA依赖性RNA聚合酶(我们系统发生分析的基础),提供了对真核生物谱系起源的重要理解,并使我们能够将大多数环境基因组置于一个可解释的进化框架中。然而,该框架基于核心基因内的序列变异,理论上核心基因遗传自代表真核生物垂直进化的最后一个真核生物共同祖先,与基因组结构分离。因此,它不能概括浮游生物的功能进化历程,正如我们在已知和未知编码序列空间中对单细胞真核生物的全基因组功能分类所证明的那样。形态学和其他表型性状已经很好地描述了植物发生和功能之间的69-我们确定了由远亲谱系组成的单细胞真核生物的四个主要基因组功能群在基因组功能分化方面,Strageliles被证明是特别有效的,这可能解释了他们在这个生物群系中取得显著成功的部分原因八、七十三系统发育树的拓扑结构相比,广泛的真核生物谱系的功能聚类,揭示了对比的进化历程,广泛审查的基因标记的进化和较少研究的浮游生物的基因组功能。远距离的明显功能收敛Cell Genomics2,100123,2022年5月11日9会开放获取文章在同一生物群系中共存数百万年的相关谱系既不能用单细胞真核生物的垂直进化史来解释,也不能用趋同进化是一种众所周知的生物学性状(例如分子和行为74、75)独立起源的现象,其已经在微生物真核生物76的形态学中观察到,并且通常由相似环境条件内的共同选择压力驱动。然而,类似功能的独立起源并不是生物共享相同栖息地的唯一可能解释。事实上,人们可能想知道真核生物77,78之间的横向基因转移是否在这些过程中发挥了核心作用,正如以前在真核植物病原体79或草之间观察到的那样。80一个恰当的例子是,已知次级内共生事件导致海洋内共生体与其宿主之间的大规模基因转移。69,70特别是,这些事件涉及到从绿藻到硅藻的基因转移,81在我们的真核浮游生物的基因组功能分类中,两个谱系聚集在一起。然而,具有相同次级内共生史的谱系并不总是属于同一功能群。这是双原子,Haptista和Cryptista的情况,它们具有不同的功能趋势,但起源于一个共同的祖先,它的质体来自红藻和绿藻。69,70,82调查从这里确定的约1000万个基因中衍生的功能的遗传学趋势可能有助于对以下方面的新见解真核生物之间横向基因转移的程度,83,84功能性状的独立出现(趋同进化),以及谱系之间的功能丧失,85这些可能共同驱动了阳光普照的海洋中丰富的远亲真核生物谱系的功能趋同。无论涉及的机制如何,我们观察到的功能库收敛可能突出了对浮游生物生态及其在海洋生态系统和海洋地球化学循环中的功能具有根本影响的初级生物功能。因此,这里描述的浮游生物发生(垂直进化框架)和全基因组功能库(基因组结构进化)之间的明显二分法应被视为海洋单细胞真核生物的基本属性,我们建议为研究浮游生物的结构和状态提供一个新的理论基础,这个理论基础也是基于当今的基因组功能,而不仅仅是系统发育和形态学调查。财团放大图片作者:Shinichi Sunagawa,Silvia G. Acinas,PeerBork ,Eric Karsenti ,Chris Bowler ,Christian Sardet , LarsStemmann,Colomban de Vargas,Patrick Wincker,MagaliLescot , Marcel Babin , Gabriel Gorsky , Nigel Grimsley ,Lionel Guidi , Pascal Hingamp , Olivier Jaillon , StefanieKandels , Daniele Iudicone , Hiroyuki Ogata , Ste 'phanePesant,Matthew B.Sullivan,Fabrice Not,Lee Karp- Boss,Emmanuel Boss , Guy Cochrane , Michael Follows , NicolePoulton,Jeroen Raes,Mike Sieracki,and Sabrina Speich.STAR+方法本文件的在线版本提供了详细的方法,包括以下内容:d关键资源表d资源可用性B电极导线触点B材料供应情况B数据和代码可用性d方法样本BTaraOceans宏基因组B基因组解析宏基因组学B来自0.2-3 μ m大小级分的第一千兆碱基级真核MAGB MAGBMAG和SAGBMAG和SAG的分类推断B蛋白质编码基因B MAG的蛋白质编码基因B SAG的蛋白质编码基因BMAG和SAG中蛋白质编码基因的BUSCO完成评分BMAG和SAGB.确定MAG和SAGs的环境生态位BCosmopolitan评分B手动管理的DNA依赖性RNA聚合酶基因的数据库BDNA依赖性RNA聚合酶基因BMAG和SAG的系统发育分析BEggNOG MAG和SAG的功能推断B真核MAG和SAG在AGNOS- TOS-DB中的整合BAGNOSTOS功能聚集推理BMAG和SAG的功能聚类d量化和统计分析B函数的微分出现补充信息补 充 信 息 可 以 在 www.example.com 上 找 到 https://doi.org/10.1016/j 。xgen.2022.100123。致谢我们的调查是由两个科学努力成为可能:塔拉海洋项目的采样和测序工作以及anvi'o提供的生物信息学和可视化能力。我们感谢所有为这些努力作出贡献的人,感谢其他开放源码生物信息学工具致力于透明度和公开性。如果没有塔拉海洋基金会的领导和23个研究所的持续支持,塔拉海洋(包括塔拉海洋和塔拉海洋极地圈探险)就不会存在https://oceans.taraexpeditions。org/)。我们感谢以下人员和赞助商的承诺,他们使这次独特的探险成为可能:CNRS(特别是Groupement de Recherche GDR 3280和全球海洋系统生态学和进化研究联合 会 FR 2022/Tara GOSEE ) , 欧 洲 分 子 生 物 学 实 验 室 ( EMBL ) ,Genoscope/CEA,法国研究部和法国政府10Cell Genomics2,100123,2022会开放获取文章Oceanomics(ANR-11-BTBR-0008),FRANCE GENOMIQUE(ANR-10-INBS-09)、ATIGE Genopole博士后研究金、HYDROGEN/ANR- 14-CE23 -0001 、
下载后可阅读完整内容,剩余1页未读,立即下载
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![doc](https://img-home.csdnimg.cn/images/20210720083327.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![application/x-dosexec](https://img-home.csdnimg.cn/images/20210720083343.png)
![application/x-rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![doc](https://img-home.csdnimg.cn/images/20210720083327.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![](https://csdnimg.cn/release/wenkucmsfe/public/img/green-success.6a4acb44.png)