来自北美河流的功能性微生物组目录众包

  为了构建GrowDB,我们使用了两种方法来从美国河流中获取样品。一个是基于全球水生物地球化学观测网络(WHONDRS)联盟的抽样工作的一种网络网络61方法,该观察网络旨在促进利益相关者之间可转移的科学理解和共同利益的发展26,27。Whondrs采样本身是基于向全球感兴趣的研究人员发送免费的抽样套件以及标准化协议。这些研究人员自愿使用时间来收集样品,并使用一致的方法将样品寄回处理,以实现跨站点的比较,可互操作数据和可转移的理解。来自Whondrs联盟的样品贡献了44%的元基因组和GrowDB中所有元转录组。此外,WHONDRS数据包括傅立叶转换离子循环共振质谱数据,并按照先前所述收集和分析63,并在线报告的数据分析(https://data.ess-dive.lbl.gov/datasets/doi:10.15485545555/2439202)。我们注意到,所有WHONDRS样品均在2019年夏季的6周内收集,这意味着本文中报告的所有元转录组都在此采样期内收集。   描述了根据Whondrs 2019采样活动收集的样品(补充数据1),并以前报道了63。简而言之,我们根据地理抽样的优先级招募了合作者,这些采样收集器选择了仪表站100 m以内的采样站点,以测量河流排放,高度或压力。在Whondrs 2019采样活动下收集的地球化学数据可在ESS-Dive上获得,并以前描述了这些方法64。对于微生物组分析,在每个位点,使用60 mL注射器对大约1升地表水进行采样,并通过0.22μmsterivex滤波器(EMD Millipore)过滤。过滤器被盖上了,装满了3毫升的rnalater,并在收集期24小时内运送到蓝冰西北国家实验室。分别在接受核酸提取后立即在-20°C下立即冷冻地表水样品和过滤器。   为了构建GrowDB,除了Whondrs之外,第二种抽样方法是与美国地质调查局(USGS)国家水质网络(NWQN)65合作。这个长期的水质监测计划表征了有关水流和水质条件的一致信息。收集数据以评估大内陆和沿海河流地点的水质状况的状态和趋势,以及指示城市,农业和参考条件的小流中。65。NWQN使用的样品收集方法符合USGS国家现场手册,用于收集水质数据66,并使用0.22μmselivex-GP滤波器(EMD Millipore)收集DNA。在这里,我们提供了与USGS协议集成的河流样品处理的套件,并如前所述保留了样品67。所有样品都存储在冰上,并在-20°C下储存直至提取核酸。   该分析的一个关键组成部分是在数据处理和分析中发生的标准化。对于Whondrs样品,在科罗拉多州立大学的单个设施中将DNA和RNA共提取。使用Zymobiomics DNA/RNA MiniPREP试剂盒(Zymo Research,r2002)与RNA Clean&Comentator-5 Kit(Zymo Research,Zymo Research,r1013)一起,从科罗拉多州立大学的过滤器中进行DNA和RNA。将样品在40μL中洗脱,并在-20°C下储存直至测序(补充注释4)。对于NWQN样品,使用标准苯酚 - 氯仿提取方案提取DNA68。联合基因组研究所(JGI)提供的社区测序项目确保了整个项目的测序方案和方法一致。由于大多数站点的数据收集的广泛地理分布,重复测序实验并未在同一站点进行。JGI提供了所有的元基因组和23%的元文字组,并使用与JGI指定的相同的套件和方法在科罗拉多州Anschutz大学处理的元文字平衡。最后,使用GROWDB标准操作程序使用GITHUB69上的GROWDB标准操作程序对每个样品进行了每个样本的序列数据处理。总体而言,众包方法,JGI支持和标准化方法的使用导致了GrowDB,这是河流微生物组数据的汇编,这是一项仅在此时间范围内由单个实验室进行的努力。   每个样本的分水岭统计数据主要是从环境保护署的StreamCat数据库70和国家水文图2版(NHDPLUS V2)数据集中使用的NHDPlustools Package 71在R. StreamCat中的nhdplustool package71提供了600多个超过600多个始终计算出的水域for in usgs n e usgs nhdplus v2 grous v2这项研究中样本位置的频谱。对于未包含在StreamCat中的流域指标(即主导的Omernik Ecoregion,平均净产量和平均干旱指数),我们首先使用NHDPlustools描绘了每个样本的流域,然后使用Terra Package72将每个样品的附加数据集汇总在每个站点的水域中汇总。这种方法与Steamcat的地理空间方法一致。   最后,我们收集了具有附近流量计的站点的流量数据。对于没有鉴定的共同置换的流量表的位置(通常使用流量表将其样品位点共同关注其样品位点),我们使用dataretreval和nhdplustools套餐鉴定了在我们上游10 km或下游的USGS流量测量值。然后,所有流量表都经过手动验证,以便其适用于每个采样位点(例如,验证位点和流量表之间没有大坝,这是一个主要的汇合处)。补充数据1中提供了我们分析中包含的数据集的完整列表。该地理空间分析的完整R工作流程可在GitHub73上找到。   在JGI,制备基因组DNA,用于使用基于板的DNA库在Perkinelmer Sciclone NGS机器人液体处理系统上制备的元基因组测序。简而言之,使用nextera XT套件(Illumina)和独特的8 bp双索引适配器(IDT,自定义设计)对1 ng的DNA分裂并连接适配器。用沿海基因组学院高通量琼脂糖凝胶电泳大小选择到450-600 bp,用12个周期的PCR富含结扎的DNA片段。根据2×150核苷酸索引运行程序,使用Illumina Novaseq Sequencer对制备的库进行测序。   描述和可视化了我们的元基因组工作流(扩展数据图9和补充注释3)。简而言之,使用GITHUB69上发布的可访问的growDB管道组装并汇总了所得的FASTQ文件。为了最大程度地提高基因组恢复,对每组FASTQ文件进行了三个组件,并分别进行了添加:(1)用镰刀(v.1.33)74读取修剪(v.1.2.9)75(v.1.2.9)75和用metabat276(v.2.12.12.12.1)和binning;(2)用镰刀(v.1.33)读取修剪,随机过滤至25%的读数,与idba-ud77(v.1.1.0)组装,并使用metabat276(v.2.12.1)进行binning;(3)下载了从JGI-IMG Pipeline78(使用Metaspades79和Metabat276)得出的垃圾箱。使用CheckM80(V.1.1.2)和中等和高质量的MAG评估所有结果垃圾箱的质量,并完成> 50% <10% contamination were retained. The resulting 3,284 MAGs across all samples and assemblies were dereplicated at 99% identity using dRep81 (v.2.6.2) to obtain the dereplicated first version of the GROW database (n = 2,093 MAGs). MAG taxonomy was assigned using GTDB-tk82 (v.2.1.1, r207) and annotated using DRAM (v.1.4.4)83.   To quantify MAG relative abundance across samples, trimmed metagenomic reads were mapped to the dereplicated MAG set using Bowtie284 and output as SAM files, which were then converted to sorted BAM files using samtools. Sorted BAM files were then filtered to paired reads only with a 95% identity match using reformat.sh. To obtain the mean coverage for each MAG, we used CoverM85 (-m trimmed_mean). The mean coverage table was then filtered to MAGs that had at least 60% coverage across a MAG with at least 3× coverage within a sample, using additional CoverM85 outputs (-m relative_abundance --min-covered-fraction 0.6 and -m reads_per_base, respectively). CoverM outputs were merged in R; the script is available on the GROWdb GitHub69.   RNA was prepared for metatranscriptome sequencing according to JGI established protocols. In brief, rRNA was removed from 10 ng of total RNA using Qiagen FastSelect probe sets for bacterial, yeast and plant rRNA depletion (Qiagen) with RNA blocking oligo technology. The fragmented and rRNA-depleted RNA was reverse transcribed to create first-strand cDNA using the Illumina TruSeq Stranded mRNA Library prep kit (Illumina) followed by second-strand cDNA synthesis, which incorporates dUTP to quench the second strand during amplification. The double-stranded cDNA fragments were then A-tailed and ligated to JGI dual-indexed Y-adapters, followed by an enrichment of the library through 13 cycles of PCR. The prepared libraries were quantified using the KAPA Biosystems’ next-generation sequencing library qPCR kit and run on the Roche LightCycler 480 real-time PCR instrument. Sequencing of the flowcell was performed on the Illumina NovaSeq sequencer following a 2 × 150 nucleotide indexed run program.   The resulting fastq files were mapped using Bowtie284 (-D 10 -R 2 -N 1 -L 22 -i S,0,2.50) to the dereplicated GROWdb. SAM files were transformed to BAM files using samtools, filtered to 97% ID using reformat.sh and name sorted using samtools. Transcripts were counted for each gene using feature-counts86. Counts were transformed to geTMM (gene length corrected trimmed mean of M-values) in R using edgeR package87. Genes were considered if they were expressed in 10% of samples. Core calculations in Fig. 2 had an additional requirement to express at least 20 genes per genome.   To classify microbial genes and genomes based on their carbon metabolism, we curated the metabolism assignments made by DRAM83 using rulesets to assign genomes to functional guilds (Extended Data Fig. 5). For example, genomes were classified by respiratory capacity based on the presence of >电子传输链的复合物1所需的50%的亚基和至少一个电子受体基因的存在。因此,要将基因组归类为微粒细胞,我们要求基因组具有复合物1亚基的50%以上,至少一个低亲和力细胞色素氧化酶的亚基。同样,如果基因组没有电子传播链的复合物1所需的亚基的50%以上,或者对任何电子受体的潜力都没有分类为强制发酵剂(扩展数据图5)。手动检查了定义规则集的所有呼叫,以说明失调,低分分和基因组不完整的呼叫。   从DRAM输出中,我们将基因组进一步分配为碳固定,如果它们编码了六个七个碳固定途径之一中的一个> 70%。然后,我们通过评估该系统中的基因表达来分配每个河中元文字中的每个MAG为光自养生,光旋嗜蛋力,化学脂蛋白植物,异育或混合营养。然后,我们专注于在鉴定出杂质的基因组中使用不同碳底物所需的基因。我们将碳基因的表达分配为以下类别:聚合物,糖,芳香族化合物,甲烷营养,甲基营养,短链脂肪酸利用率和使用DRAM分配规则的一氧化碳利用率。碳使用策划脚本可在growdb github69上找到。P/R比通过有氧呼吸呼吸代谢(有氧呼吸呼吸呼吸代谢,有氧光合作用,厌氧光合作用和光霍顿)的表达(有氧光合作用,厌氧光合作用和光霍顿)的表达比率定义。   进行系统发育分析以完善与氮相关的代谢的注释,包括注释为呼吸道硝酸盐还原酶(NAR),亚硝酸盐氧化还原酶(NXR),氨基氧氧合酶(AMO)(AMO)或甲烷单烷基二氧酶(PMO)改善NITROgen的甲烷cycnclogencl cycnclogencl cyclyclagity cyclyclage cyclyclage cycnclogy cycncloge cyclys cyclycab。具体而言,下载了NXR/NAR和PMOA/AMOA氨基酸参考序列30,88,89,这组参考序列与GrowDB的同源物的氨基酸序列相结合,使用肌肉(v.3.8.31)分别对齐,并通过python脚本进行生成python脚本以生成python脚本(生成pytropatient Protypopipipipipipipipipipipipipipipeleler(Protyperate);https://github.com/wrightonlabcsu/protpipeliner/tree/main)90,91。ProtPipeliner的运行如下:(1)通过Gblocks92进行最小编辑来策划对齐;(2)模型选择是通过Prottest93进行的;(3)使用RAXML94 v.8.3.1进行对齐对齐的最大样式系统发育,并重复100个自举。这导致了两个系统发育,一种用于NXR/NAR,一个用于PMO/AMO,使用Itol95(https://itol.embl.de/shared/shared/wrighton_lab)可视化,并用于在MAG数据库中精炼基于同源的基因基因注释。在Zenodo(https://doi.org/10.5281/zenodo.8173286)上,RAW树文件也可作为Newick文件提供。   对于ARGS的硅预测,使用阻力基因标识符(RGI; v.6.0.2)43,在综合抗生素抗性数据库中搜索了GROWDB预测的蛋白与蛋白质的同源性(Card; v.3.2.7,2023年下载)。RGI以蛋白质输入模式在本地运行,具有分布式输入和默认参数,并带有“ inclage loode”选项。但是,此处分析的候选ARG的最终列表仅包括RGI识别为“完美”或“严格”命中的蛋白质,仅包括蛋白质同源模型(即,分析中不包含蛋白质变体模型)。其他污染物注释来自DRAM注释,其中包括靶向基因列表(补充数据4)。   为了分析通过公共数据集生长回收的微生物谱系的分布,使用SandPiper96数据库(https://sandpiper.qut.edu.au)作为基础96。在分析时,它包含2021年12月15日公开可用的宏基因组。这些数据集的重新分析是通过Singlem 1.0.0.0beta796进行的。“补充”子命令首先用于将95%的Ani添加模型添加到Singlem96参考Metapackage中,该参考Metapackage用GTDB RS07-207(https://doi.org/10.5281/zenodo.7582579)构建。然后使用“续订”子命令重新分析了砂纸数据库中存在的所有宏基因组,输出了分类学轮廓,详细介绍了每个元素组中的微生物谱系和未分类的谱系,以及它们的相对丰度。   为了搜索存在种植MAG的公共宏基因组,进一步分析了具有相关生长MAG的含有微生物谱系的宏基因组的分类学特征(无论是新颖还是在GTDB中代表)。为了减少错误识别的发生率,我们需要至少两个由成长mag代表的微生物谱系,并且相对丰度的综合为1%。使用翠鸟“注释”(https://github.com/wwood/wwood/kingfisher-download)收集了含有生长型的元基因组的元数据。   地理空间变量分为现场或局部,土地使用或流域特征组,并与微生物数据结合以生成生物地理数据集(图3B)。生物地理模式以三种方式评估:(1)使用COR.检验来测试显着性的所有变量,对所有变量进行了成对的Pearson相关矩阵,所有与p> 0.05的相关性均已删除;(2)对于每个可变的非微生物变量,使用欧几里得距离度量标准计算距离矩阵,然后进行单个壁炉架测试,以评估可变距离矩阵与metatranscriptome或Metagenome Mag的Bray-Curtis距离矩阵之间的相关性;(3)使用具有999个排列的Adonis2函数进行了Permanova,以评估各种环境预测因子对微生物群落表达的影响。对于(3),计算空间距离指标,并针对微生物群落进行评估,因为纬度,经度或通过主要的空间变量计算为纬度和经度的第一个主要成分。同样,将集体土地使用变量计算为图3B中土地使用指标的第一个主要组成部分。运行了几种模型,文本中的两个报告为模型1:流秩序的影响,月份,土地利用和最高温度对微生物社区组成的影响;和模型2:流阶和空间变量对微生物群落组成的影响。请注意,空间变量通常与非生物和生物因子相关。因此,相关性使解开特定微生物分类单元相对丰富的转移是否受到温度直接影响,还是受影响河流微生物群落的其他因素的同时变化,这是具有挑战性的。在这里,我们提供了多个级别的测试,以成对以及集体评估这些变量。   元基因组和元转录组组成,功能和多样性与36个选定的位点,使用壁炉架测试(前两行)相关。随后是使用皮尔森相关性的成对比较(热图图3B)。变量按类别进行着色,包括微生物(紫色),现场或局部(浅蓝色),土地使用(橙色)和流域指标(深蓝色)。为了对微生物数据进行成对比较,将元文字指标用于多样性和功能丰度计算。   所有数据分析和可视化均在r(v4.2.1)中进行以下软件包:统计数据(v.4.1.1),素食主义者(v.2.6),ggplot2(v.3.3.6),综合器(v.2.8.0)(v.2.8.0),tidyr(v.1.2.0),(v.1.2.0),dplyr(dplyr(v.1.0.0.9),cororplot(v.92)(v.1.0.12),rcolorbrewer(v.1.1-3),PLS(v.2.8),Edger(v.3.16)。用于人物生成和数据分析的脚本可在GitHub69上获得。地图数据源自公开可用的数据源:(1)图1b,c和扩展数据图7是使用使用tigris开发的状态边界(https://github.com/walkerke/tigris)生成的;(2)图1B,C是使用国家水文和271版的流程线生成的;(3)使用https://www.epa.gov/eco-research/ecoregions提供的EcoreGions50生成了扩展数据图7。   有关研究设计的更多信息可在与本文有关的自然投资组合报告摘要中获得。

本文来自作者[lejiaoyi]投稿,不代表言希号立场,如若转载,请注明出处:https://lejiaoyi.cn/kepu/202506-1051.html

(3)
lejiaoyi的头像lejiaoyi签约作者

文章推荐

发表回复

作者才能评论

评论列表(3条)

  • lejiaoyi的头像
    lejiaoyi 2025年06月18日

    我是言希号的签约作者“lejiaoyi”

  • lejiaoyi
    lejiaoyi 2025年06月18日

    本文概览:  为了构建GrowDB,我们使用了两种方法来从美国河流中获取样品。一个是基于全球水生物地球化学观测网络(WHONDRS)联盟的抽样工作的一种网络网络61方法,该观察网络旨在促...

  • lejiaoyi
    用户061804 2025年06月18日

    文章不错《来自北美河流的功能性微生物组目录众包》内容很有帮助

联系我们

邮件:言希号@gmail.com

工作时间:周一至周五,9:30-17:30,节假日休息

关注微信