本文来自作者[lejiaoyi]投稿,不代表言希号立场,如若转载,请注明出处:https://lejiaoyi.cn/jyan/202506-1106.html
由于统一的标准工作流程利用了现有样本和数据报告标准,以允许地球上不同环境的生物量和元数据收集。收集样品后,按照相同的协议对所有样品进行处理。实施了标准DNA提取方案(http://www.earthmicrobiome.org/protocols-and-andards/dna-standards/dna-estraction-protocol),以确保观察到的趋势是由于生物系统所致,或者是由于生物系统中的偏见是由于有机体对不同环境矩阵的提取潜力的偏见,也要归因于本质的biases and reftaction bialses in nenthent biases中。为了避免合并多个扩增子策略时出现的已知问题49,我们还标准化PCR引物,扩增策略和测序50。这项荟萃分析中未包括的最新研究采用了其他引物修饰,以允许在海洋和土壤样品中恢复关键分类单元17,18,19。数据报告标准,包括由基因组标准联盟10和环境本体论(Envo)11,51开发的混合物(有关任何序列的最小信息),启用了互操作性,数据分析以及通过未跨性别的研究计划收集的截然不同环境中的样本之间的互操作性,数据分析和解释。
为了将我们对微生物环境的了解转移到更广泛的社区,我们与Envo的开发人员进行了互动,以确保微生物环境的基本,显着特征(分别与宿主相关或自由生活,以及在这些植物或植物相关的或植物相关,盐水或非盐碱材料中)在该本体学或与其互化的那些本体学或中的代表。为了易于应用,我们将这些贡献收集到了应用本体论,即EMP本体论(EMPO)中(图1A)。EMP社区将继续与本体论工程师合作,以塑造EMPO应用本体论周围的Envo和其他本体论。EMPO将作为Envo的逻辑子集维持,并将其集成到Envo释放周期中,以最大化互操作。
使用Pandas(http://pandas.pydata.org)自动化元数据策划。The size of the dataset also required extensive software development to support analysis at this scale, leading to tools including the data and analysis portal Qiita (http://qiita.microbio.me), the BIOM format52, new ‘OTU picking’ methods Deblur21 and a subsampled open-reference procedure53, a scalability improvement of Fast UniFrac phylogenetic inference software54, speed序列插入树方法SEPP55的改进,以及皇帝秩序可视化软件的速度和特征改进56(http://biocore.github.io/emperor)。
邀请了微生物生态学家的全球社区提交样品进行微生物组分析,并接受样品进行DNA提取和测序,前提是在提交样品之前提供了科学的理由和高质量的样本元数据。贡献者使用了每种样本类型的标准化抽样程序。将样品收集新鲜,并在可能的情况下立即冷冻在液氮中,并储存在–80°C。详细的抽样方案在单个研究的出版物中描述(补充表1)。使用微量离心管采集散装样品(例如,土壤,沉积物,粪便)和分离的散装样品(例如,海绵珊瑚表面组织,离心的浑浊水)。拭子(BD刀双棉签或类似)用于生物膜或表面样品。过滤器(Sterivex墨盒,0.2μm,Millipore)用于水样。样本被送到美国的实验室进行DNA提取和测序:水样给Argonne国家实验室,土壤样本,劳伦斯·伯克利国家实验室(2014年以前)或太平洋西北国家实验室(2014年开始),以及粪便和其他样本,以及Co. boulder University of Collado Boulder大学(2015年之前)或加州大学(SAN)。
按照EMP Metadata指南中所述(http://www.earthmicrobiome.org/protocols-and-andards/metadata-guide)。Qiime映射文件(元数据)从Qiita下载,使用Python与Pandas合并,并进行了完善,从而生成了质量控制的映射文件。补充表2中描述了映射文件列。完整EMP数据集的映射文件和子集(见下文)可在ftp://ftp.microbio.me.me/emp/release1/mapping_files/上找到。设计用于微生物环境的EMP本体(EMPO)是为了促进当前分析的同时保留互操作性的。由Envo团队协调,Envo11,51,Uberon(后生解剖)57,PO(植物本体论)58,FAO(真菌解剖学本体学,http://purl.obolibrary.orbo..orbo.orbo/obo/fao.owl)和级别(Microbial op ombapper)of toge of torkote of toge of toge,3(empo_2和empo_3)。此外,在1级类别(EMPO_1)中捕获了自由生活或与宿主相关的生活方式。EMPO_3类别的描述在http://www.earthmicrobiome.org/protocols-and-andards/empo上提供。W3C Web本体语言(OWL)文档可在http://purl.obolibrary.org/obo/envo/subsets/envoempo.owl上找到。地图数据源自开源项目Matplotlib软件包BASEMAP,该项目从GNU Limeser Publicer Public Licensen许可V3下发布的通用映射工具数据(http://gmt.soest.hawaii.edu)中分发了地图数据。
使用EMP标准方案(http://www.earthmicrobiome.org/protocols-and-andards/16s)14,使用EMP标准方案(http://www.earthmicrobiome.org/14)进行DNA提取和16S rRNA扩增子测序。简而言之,使用Mo Bio Powersoil DNA提取试剂盒(CARLSBAD,CA)提取DNA,因为它具有多种样品类型的多功能性(而不是任何给定样品类型的高产量)。使用引物对515F – 806R50在反向引物上使用Golay误差校正的条形码在16S rRNA基因的V4区域进行扩增。尽管任何基于底漆的方法都必定是样本不足的多样性,但最近对shot弹枪igagenomic序列中捕获的16S rRNA基因的分析表明,该引物对是对细菌和非核苷古细菌的最佳可用性分析。对扩增子进行条形码并以相等的浓度合并以进行测序。使用Mobio UltraClean PCR清理套件纯化扩增子池,并在Illumina Hiseq或Miseq测序平台上进行测序;这两个平台都使用了相同的测序引物,并且先前的工作表明,从16S rRNA扩增子数据得出的结论不依赖于使用这些测序平台中的哪一个。使用Qiime 1.9.1脚本split_libraries_fastq.py60对序列数据进行反复列出,并最低质量,pHRED质量阈值为3和默认参数,以生成每个研究FASTA序列文件。
使用DeBlur Software21对序列数据进行错误过滤并修剪至最短测序运行(90 bp)的长度;除非另有说明,否则将最终的90 bp Deblur Biom表用于所有分析。还生成并提供了修剪至100 bp和150 bp的DeBlur表,其中包含更大的序列分辨率,但样品较少。对DeBlur观察表进行过滤,以在所有样品中保留至少25个读取的标签序列。为了与现有的OTU表进行比较,使用SortMernA61进行了16S RRNA数据库和SILVA 12326进行传统的闭引引用OTU拾取,并使用SortMernA61进行了silva 12326,并且对GreenGenes 13.8进行了式开放参考OTU Picking53。这些未过滤的表以及下面描述的过滤和子集表可在ftp://ftp.microbio.me/emp/release1/otu_tables上获得。
本研究和未经过滤的生物膜中总共包括97项研究和27,742个样本。核心多样性分析中使用的QC过滤子集(图2)包含96个研究和23,828个样本,并进一步以某些分析为子集。在提供的BIOM表(ftp://ftp.microbio.me.me/emp/release1/otu_tables/和https://zenodo.org/record/890000)中,“ Release1”集包含97个研究中至少有一个序列的97个样品中的所有样品中的所有样品;该集合包括控件(空白和模拟社区)。从中绘制子集的“ QC_Filter”集中的四个观测表中的每个观测值≥1,000个:封闭引用的绿色基因,闭引引用的silva,开放引用绿色和deblur 90 bp;对控件(empo_1 =='控制')被排除在外。然后生成子集,从而在环境(EMPO 3级)和这些环境中的研究中产生相等的(尽可能)的表示。该子集包含10,000、5,000和2,000个样品(嵌套子集)。在每个子集中,样品在DeBlur 90 bp观测表中必须具有≥5,000个观测值,并且在每个封闭引用的绿色基因,闭引引用SILVA和开放引用Greengenes观察表中,每个样品必须进行≥10,000个观测。请注意,由于怀疑误差,DeBlur删除了大约三分之一至一半的序列,这与〜90–150 bp的序列长度一致,平均错误率为0.006,每个位置的误差率为0.006。
为了将本研究中的独特序列多样性与现有数据库中的唯一序列多样性进行比较,将完整的DeBlur 90-BP观测表中的序列与Greengenes 13.8的唯一全长序列进行了比较,以及使用开放式搜索工具vsearch search63在全球搜索模式中相比,SILVA 128数据库的非整体序列比较100%,并要求100%的范围。
将QC过滤的Deblur 90 bp观测表额外过滤到具有至少50,000个序列的样品(观测)。我们选择专注于四种环境类型(EMPO 3级),其中有数百种具有50,000多个序列的样本:土壤(n = 2,279),盐水(n = 478),淡水(n = 1,508)和动物远端肠道(n = 695)环境。对于每个环境,每个样品的观察表被随机取为50、500、5,000和50,000个序列。每个标签序列的患病率被确定为样品中的非零发生数量除以样品总数。然后,我们在每个采样深度上绘制了TAG序列流行率的直方图。为了控制潜在的研究偏见,我们对观察表的一部分进行了相同的分析,其中将30个样品从每项研究中随机抽样(丢弃了少于30个样本的研究样本少于30个样本)。为了调查平均TAG序列流行率如何随着环境之间的测序深度的增加而变化,我们计算了三个重复稀有因素的平均平均TAG序列流行率。我们绘制了复制子样本的平均平均偏差和标准偏差(即每个样品的50、100、500、1,000、5,000、10,000、10,000、10,000和50,000个序列)。
使用SEPP55将DeBlur标签序列插入Greengenes参考树中,该序列使用分裂和串扰技术在非常大的参考树上实现系统发育位置。SEPP方法在内部使用HMMER64将每个Deblurred序列与参考绿色对准(GG_13_5_SSSU_SSU_ALIGN_LIGN_99_PFILTERED.FASTA)和99%的阈值进行聚类(导致203,452 TAG序列),并将参考序列分别与一千次分配。然后,它使用pplacer65将序列插入参考绿色树(99_otus.tree)中,将其分为大小5,000的子集。在放置之前,使用GTRCAT模型下的Raxml66在Greengenes树上的分支长度进行了重新计算。可以在ftp://ftp.microbio.me/emp/release1/otu_info/greengenes_sepp_pipeline上找到所使用的管道,包括参考树和对齐https://github.com/biocore/emp/blob/master/code/03-otu-picking-trees/deblur/run_sepp.sh。
使用Scikit-Bio68中快速unifrac54的Cythonized67实现计算了未加权和加权UNIFRAC。由于算法所需的中间数据结构,快速的unifrac本身对于EMP数据集无法扩展,该算法在空间中按O(nm)扩展,其中n是系统发育中的节点的数量,M是样品的数量。在Scikit-bio(Skbio.diversity.block_beta_diversity)中设计和实施了一个解决方法,该解决方法可以计算部分距离矩阵,而不是所有样品成对的所有样品,可以通过缩小M,在串联中缩小n,仅将N缩小到相关的Nodesnodes nodesnodes nodesnodes nodeant。这种分解还允许经典的地图和平行方法,其每个程序空间要求低。通过实现和使用平衡 - 父母的树表示和使用,获得了进一步的空间和时间缩减69(https://pypi.python.org/pypi/iow)。
使用single_rarefaction.py在Qiime 1.9.160中使用AS Input进行alpha-rarefaction计算deblur 90 bp Biom Table和1,000、5,000、10,000、30,000和100,000的稀有深度。Alpha-diversity was computed using scikit-bio 0.5.0 with the input Deblur 90-bp BIOM table rarefied to 5,000 observations per sample, and alpha-diversity indices were observed_otus (number of unique tag sequences), shannon (Shannon diversity index70), chao1 (Chao 1 index71), and faith_pd (Faith’s phylogenetic diversity72, using theGreengenes插入树)。快速的unifrac54使用上述方法和相应的插入树在DeBlur 90 bp表上运行。使用Qiime 1.9.1计算主坐标。
编译了映射文件(元数据)的版本,其中包含要测试的预测因子:study_id,host_scientific_name(宿主分类法的代理),latitude_deg,latitude_deg,lootsitude_deg,envo_biome_3(biome或biome或环境的Proxy),empo_3(empo_3)(empo_3)(empo_3)(empo_3)(phor_3)(salige_p ph ph ph ph ph ph ph ph ph ph ph ph ph),pl ph,ph ph ph ph),温度,温度,温度),,,,,,温度,dec.c。nitrate_umol_per_l(通常是营养水平的代理)。选择的预测因素预计与未选择的其他预测因子相比会减少,但研究ID与许多其他预测因子之间存在实质重叠 - 因为独立的研究通常集中在受约束地理范围内的有限样本类型上,预计研究ID可以作为其他测量和不稳定的环境变量的广泛范围(请参阅extexteral variables)。选择每个预测因子的类别如下:首先使用四分位数将数值数据转换为类别;然后,必须在所有样品的至少0.3%(对应75个样品)中找到每个类别;忽略的类别不那么普遍。请注意,我们数据中的某些预测因素具有复杂的非线性关系,使用四分位数可能会错过多元统计分析,例如温度和pH的单峰基于基于上限的丰富性关系。然后,我们测试了每个预测变量的效果大小与观察到的标签序列(alpha多样性)的数量以及加权且未加权的unifrac距离(β多样性)。效应大小是使用混合方向错误发现率(MDFDR)73,74的Python实施计算的。MDFDR通过惩罚每个元数据类别中的多个成对比较和多个元数据类别比较来降低错误发现率。MDFDR有四个步骤。首先,它对每个类别中的每个组进行了成对的比较(用于α多样性的Mann-Whitney U,用于Beta多样性的Permanova)。第二, 对于每个类别,我们根据任何给定类别的所有成对比较的P值计算一个合并的P值。第三,我们将Benjamini-Hochberg程序应用于合并的P值并删除非显着的元数据类别。最后,我们估计了这些类别在步骤3中的效果大小,并且具有成对比较的P值大于(r/m×Qi)×α,其中r是发现重要的类别数量,m是要比较的类别数量(输入映射文件中的原始类别数量),QI是对每个级别的f lebals in Chore seffemess in Chorts in Chorty in flwise in n ran flwore in and flwore in n aftry in n ran flator and ran caltore n aftression in aftry in n after in aftression in and flworde flator and rans in n ran cantory。给定元数据柱的效应大小计算为每个成对比较的平均值差,除以汇总的标准偏差。为了进一步评估具有非冗余解释能力对α和β多样性的预测变量的组合效应大小,通过使用R package vegan75 ordir2step函数选择了非冗余预测因子。该分析提供了每个非冗余预测因子对组合效应大小及其独立部分对社区变化的相对贡献的估计。
通过PICRUST 1.1.0运行闭合引用观测表(Greengenes 13.8)命令均衡函数normanize_by_copy_number.py脚本76,该脚本将每个OTU的丰度除以其推断的16S rRNA基因拷贝数(即,拷贝数是从Greengenes 16S 16S rrrna Gene gene gene Gene Gene Gene rrrna Gene recection rrna Copply Copply coppy编号中推断出来的。在拷贝数归一化和原始观察表中,求和了10,000多个序列读取的样品(即在每个样品中求和OTU丰度)。每个样品的加权平均社区16S rRNA基因拷贝数(ACN)被计算为原始样品总和除以标准化样品总和。
使用将研究ID作为随机变量和环境和纬度的相互作用作为固定效应的线性混合效应模型,将α多样性的测量与绝对纬度进行了比较。这是在过滤的数据集上进行的,仅包括包括跨越绝对纬度10°的样品的研究。丰富度与pH和温度的相关性与拉普拉斯分布拟合。拉普拉斯分布是一个连续的概率分布,同时捕获了模态值(μ)周围的指数增加和指数下降。该分布也称为双重指数或双向指数,因为它代表了两个对称指数分布背对背。Laplace对于测试生物学假设特别有用,即系统正在强烈选择以采用特定值(μ),而与μ的小偏差产生了指数下降,例如多样性。我们用标记序列丰富度与pH和温度相关的标记序列丰富度如何检验了这一假设。我们使用了pH(100箱)和温度(120箱)范围内的标签序列丰富度的第99个百分位数,这意味着我们的问题与最大TAG序列丰富度(SMAX)与pH和温度的关系有关。我们比较了我们对最大s呈指数减小的期望与对高斯曲线的拟合度的期望,这也可以预测随着μ的小偏差而陡峭的对称减小。
对DeBlur 90 bp观测表的2,000个样本子集进行了随机森林分类模型,以测试样品的成功分类为它们来的环境类别。使用了R包Caret77和Randomforest78。使用五个十倍跨验证的重复来评估分类准确性。计算混淆矩阵以衡量预测与真实观察之间的一致性。然后,将模型用于在完整的QC滤波子集中对其他剩余样品进行分类。
Sourcetracker79使用贝叶斯分类模型以及Gibbs采样,以预测从给定的一组源环境的标记序列的比例,这些源环境有助于下沉环境。我们应用了Sourcetracker 2.0.1(http://github.com/biota/sourcetracker2)来定义在环境样本之间共享标签序列的程度,使用2,000个样本的DeBlur 90-BP观察表(每种样本类型的20%)作为源样品的样本和剩下的模型和模型samples samples sampless samples samples samples sampless(〜20%)。此外,我们使用剩余的交叉验证来预测每个源样本的样品类型时,当该样品类型被排除在模型之外,以评估源样本的同质性和每种源类型的独立性。在选择和测试之前,将源和水槽样品稀有每个样品的1,000个序列。
嵌套捕获了大组的元素包含在逐渐较小的集合中的程度。我们使用NODF统计80来量化样品序列矩阵的嵌套性。该矩阵的行对应于在特定分类水平上分组的特定分类单元(例如,门,班级等),而列对应于特定的样品。根据行和列总和从最高到最高的矩阵分类后,我们量化了NODF统计量的两个方面。第一个是NODF的“行”版本,它量化了较少普遍的分类单元的程度是更普遍的分类单元的子集。第二个是NODF的“专栏”版本,它量化了较少的社区是更多样化社区的子集的程度。我们采用了两个空模型来更好地解释NODF统计量的观察值。第一个是基于每行内发生的随机改组,保持行总和恒定(固定行,固定列),而第二行是基于每列内发生的随机改组,保持列总和常数(固定行,固定的列,固定的列)81。这两个无效模型的结果在质性上都是一致的,因此我们仅使用固定行,固定的列模型报告发现,因为它与观察表的罕见更一致。我们考虑了每个分类学水平(门,阶级,秩序,家庭,属)的无效模型,以及所有样品和每个样品的每个样本和每个样品的每个子集,在EMPO级别2中。为了计算标准化效应评分(SES),我们基于分析结果,基于分析结果,以找到两个模型下NODF统计的预期和差异。SES值通常很大(> 2);我们使用WALD测试计算近似P值。
对于每个Deblur标签序列B,在所有EMP样品s的集合中采样S和样本类型(EMPO级别3)类别E,定义
作为样本类型类别E中TAG序列B的总出现比例(具有N可能的值)。对于给定的TAG序列簇t(例如,发育子树或分类组,富公司),我们将群集分布矢量作为
在序列群集中所有标记序列的合并的地方由
标签序列的簇以两种方式定义:首先,使用标签序列的分类谱系信息进行分区;其次,按系统发育树上的节点的最大尖端到尖端分支长度。为了计算环境分布作为分类水平的函数(例如,门),计算了属于该分类学水平的所有分类学组的香农熵的平均值(计算了每个分类学组中标记序列的数量加权)。为了计算熵作为系统发育子树组宽度的函数,计算了所有子树的集群香农熵,以及每个子树的最大尖端到尖端距离。为了确定在标签序列之间观察到的环境熵分布的分类和系统发育水平之间的熵变化是否预期,通过随机置换了deblur标签序列分类学关联(对于熵与分类学分析)或系统发育尖端的位置(用于侵入性侵入性分析)来计算无效模型。为了减少离散化对两个分析中熵计算的影响,只有当它们具有至少20个TAG序列时,分析中包括标签序列的簇。对于唯一的标记序列(即分支长度阈值为0.0),需要至少10个样品找到序列。为了计算与每个分类水平相对应的近似分支长度,我们发现了每个组的最低祖先,并计算了该子树中的最大尖端到尖端距离。
我们从一个90 bp DeBlur标签序列(16S rRNA基因,V4区域)的生物膜表开始,每个样品稀有5,000个观测值,其中包含2,000个样品在环境和研究中均匀分布(扩展数据图7a)。从中,我们计算出以下内容:找到标签序列的样本的数字,分数和等级;该标签序列代表的观测值的丰度,分数和等级;Greengenes的标签序列的分类学;以及找到标签序列的所有样本的列表。该摘要位于ftp://ftp.microbio.me/emp/release1/otu_distributions/。此外,对于每个标签序列,在扩展数据中使用交易卡中的每个标签序列图7b或http://www.earthmicrobiome.org/trading-cards,我们在RDP(http://rdp.cme.msu.edu)中鉴定了序列,沿90-BP区域匹配16s gene gene gene gene。http://www.earthmicrobiome.org/trading-cards上的交易卡是所有标签序列的前10名中的流行或丰度的交易卡,或每个标签序列的前十名或每个环境中最丰富的标签序列,该环境具有分配Shannon熵<1,该环境的比例≥25%≥25%,并且是≥25%的一部分,以及≥1,000。
可以通过Redbiom获得包含EMP数据的元数据和功能搜索服务。Redbiom是Biom表和样品元数据的缓存层,默认情况下它允许用户与Qiita的公共部分进行交互(其中包括所有EMP研究)。This service allows users to find samples on the basis of sample details (for example, all soil samples with pH < 7), to find samples on the basis of features they contain (for example, all samples in which Greengenes ID 131337 exists), to find features on the basis of taxonomy (for example, all samples in which genus Pyrobaculum exists), to extract sample data into BIOM tables, and to extract sample metadata.命令行客户端的安装和使用说明可在https://pypi.python.org/pypi/redbiom上找到;在https://github.com/biocore/redbiom上提供了命令行查询的示例。Redbiom的图形用户界面可在http://qiita.microbio.me上找到。
在https://github.com/biocore/emp上提供了复制序列处理,数据分析和图生成的代码,并在https://zenodo.org上存档,doi 10.5281/zenodo.1009693。Redbiom代码可在https://github.com/biocore/redbiom上获得,并在https://zenodo.org上存档,doi 10.5281/zenodo.1009150。
Per-study sequence files and sample metadata are available from EBI (http://www.ebi.ac.uk/ena) with accession numbers in Supplementary Table 1. Per-study sequence files, sample metadata, and observation tables and information are available from Qiita (http://qiita.microbio.me) using the study IDs in Supplementary Table 1. EMP-wide sample元数据,观察表和信息(树木和分类法),alpha-和beta多样性结果以及交易卡的观察摘要,请访问ftp://ftp.microbio.me.me/emp/release1;这些文件以及出版时的Redbiom数据库在https://zenodo.org上存档,doi 10.5281/zenodo.890000。
赞 (5)
评论列表(3条)
我是言希号的签约作者“lejiaoyi”
本文概览: 由于统一的标准工作流程利用了现有样本和数据报告标准,以允许地球上不同环境的生物量和元数据收集。收集样品后,按照相同的协议对所有样品进行处理。实施了标准DNA提取方案(htt...
文章不错《公共目录揭示了地球的多尺度微生物多样性》内容很有帮助