本文来自作者[lejiaoyi]投稿,不代表言希号立场,如若转载,请注明出处:https://lejiaoyi.cn/kepu/202506-1176.html
大脑捐献者是由哈佛大学脑组织资源中心/NIH Neurobiobank(HBTRC/NBB)以基于社区的方式招募的。人脑组织是从HBTRC/NBB获得的。捐赠者的法律临近和验证后验尸后的验尸样本以及用于研究目的的人口统计和临床数据的HBTRC程序得到了知情同意,并获得了大规模的Brigham机构审查委员会的批准。验尸后的收集遵循《加利福尼亚健康与安全法》第7150条以及其他适用的州和联邦法律和法规的2006年美国统一解剖学礼物法的规定。联邦法规45 CFR 46和相关的指导表明,从验证后标本中产生的数据生成并不构成需要机构审查委员会审查的人类参与者研究。
补充表1中提供了带有匿名供体ID的捐助者信息。通过回顾性审查医疗记录和有关家庭成员提供的有关社会和病史的广泛问卷,对精神分裂症的共识诊断进行了诊断。神经病理学家检查了每个大脑的几个区域。我们排除了参与者,这些参与者有证据表明大脑的严重和/或宏观大脑变化,或与脑血管事故或其他神经系统疾病一致的临床病史。Braak III期或更高(改良的Bielchowsky染色)的参与者被排除在外。没有参与者在死亡后的10年或更长时间内有大量报道的物质依赖史,正如负面毒理学报告进一步证实的那样。对于HBTRC的样本,最近没有药物滥用是典型的,该样品仅接受社区的组织捐赠。
根据医疗记录评估了心理和神经旋转药物的接触。估计每日毫克剂量的抗精神病药被转化为氯丙嗪的近似等效物作为标准比较51。这些值报告为寿命以及生命的最后六个月,每位患者克。据报道,暴露于其他类别的精神药物是存在或不存在的。
我们分析了DLPFC(Brodmann地区46(BA46)),该区域在精神分裂症52,53和年龄46年中表现出功能性和微观结构异常。从HBTRC获得了含有BA46的冷冻组织块。我们使用snRNA-seq而不是单细胞RNA-seq来避免细胞形态对确定性的影响,并且因为核(但不是血浆)膜在冷冻后验尸中保持完整。根据我们在协议上提供的协议(https://doi.org/10.17504/protocols.io.4r3l22e3xl1y/v1)产生了来自冷冻组织的核悬浮液。为了确保批处理成分是平衡的,研究人员并未对每个标本的批处理分配或处理顺序视而不见。为了最大程度地提高SNRNA-Seq数据的技术统一性,我们一次处理了20个大脑样本(每个标本)的集合,同时将其作为单个合并样本作为单一的样本。将标本分配给每批20个样本的批次,以确保每批相同数量的病例和年龄匹配的对照(每组10个),每批男性和女性(每组10个)。一些捐助者在多个批次上重新采样以实现质量控制分析(扩展数据图2)。每个批次内还以交替顺序处理案例和年龄匹配的对照的标本。研究人员可以使用分配给每个标本的供体的独特数值代码以及基本的供体元数据(例如,病例 - 控制状态,年龄,性别)。
从每个供体中,从DLPFC中阐述了50 mg的组织 - 在皮质层上采样并避免可见的白质浓度 - 并用于提取核进行分析。根据10倍铬单核3'v3.1协议(版本cg000204_chromiumnextgemsinglecell3'v3.1_rev d),进行了凝胶珠的生成 - 乳液和库制剂。我们使用每个反应的大约16,500个核将核封装在液滴中,理解所有双重动物中约有95%(将两个核封装在同一液滴中)将由不同的供体的核组成,因此被滴分析分析7所识别为含有不同供体的SNP等位基因的组合。使用13个PCR循环进行cDNA扩增。
使用标准的Drop-seq(v.2.4.1)54工作流程将原始测序读取与HG38参考基因组对齐,修改后,从C4转录本进行了修改,将不会将其丢弃为多映射(请参阅下面的“ Metagene Discovery”部分)。如果将读取为注释的基因,则分配给这些基因的外显子或内含子。使用Cellbender(V.0.1.0)55删除背景从数字基因表达(DGE)矩阵中除去环境/背景RNA。
我们使用数百个转录SNP的组合使用掉落(v.2.4.1)7将每个核分配给其来源的供体。先前对干细胞实验的脱落分析使用了此类分析的各个供体的全基因组测序(WGS)数据。在这项研究中,我们基于具有插补的SNP阵列数据开发了一种具有成本效益的方法。SNP阵列(Illumina GSA)对单个脑供体的基因组DNA进行了基因分型。
来自GSAMD-24V1-0_20011747阵列(2,085个样本)和GSAMD-24V3-0-EA_20034606阵列(456个样本)的原始Illumina IDAT文件使用GenCall(V.3.0.0)56和Genotypes使用ShapeIt4(V.3.0.0)56(V.3.0.0)(V.3.0.0)(V.3.22)Workflow(V.2022-12-21)58,59(https://github.com/freeseek/mochawdl)使用默认设置并针对GRCH38基因组对齐标记。由于基因型不可靠,删除了标记RS429358的APOE基因型。为了改善定相,将来自McLean队列的基因型与基因组精神病学队列的基因型结合使用,其中还可以提供来自GSAMD-24V1-0_20011747阵列(5,689个样本)60的IDAT文件。在删除了128个被识别为重复的样本后,通过使用MOCHA工作流程从Mocha工作流程中处理来自Mocha工作流程的输出数据,然后使用MOCHA插入工作流程,并使用GRCH3862的高量化1000基因组参考,包括GRCH3862的全部杂物,并使用73,452,452,470 vrations,然后使用Mocha工作流程中的输出数据来估算基因型。X.仅使用具有质量质量信息的SNP> 0.95用于捐助者分配。使用这种方法,我们发现可以自信地分配99.6%的核分配给供体(扩展数据图2a)。
为了评估这种捐助者分配方法的准确性,我们使用WGS和SNP阵列基因分类了11个捐助者的先导队列。重要的是,这两种方法在分配单个核向供体的分配方面具有100%的一致性,从而验证了我们的计算供体分配方法和SNP-Plus-Imputation方法的充分性(扩展数据图2C)。单个捐赠者的SNP数据可在Nemo(https://assets.nemoarchive.org/dat-bmx7s1t)上获得。
捐助者分配后,将每个批处理中所有库的DGE矩阵(每批7至8个库)合并以进行下游分析。
使用SCPRED(V.1.9.2)63培训了所有细胞分配的分类模型。DGE matrices were processed using the following R and python packages: Seurat (v.3.2.2)64, SeuratDisk (v.0.0.0.9010)65, anndata (v.0.8.0)66, numpy (v.1.17.5)67, pandas (v.1.0.5)68,69 and Scanpy (v.1.9.1)70.
用于细胞类型分配的分类模型在批次6(BA46_2019-10-16)的DGE矩阵上进行了训练,该模型的注释如下所示。从该批次的DGE基质中除去了少于400个检测到的基因和100个转录本的核。归一化和可变基因选择后,通过使用独立的组件分析(ICA,使用FastICA(v.1.2-1))71来处理DGE矩阵,如前所述71。该分析通过43种主要细胞类型(星形细胞,内皮细胞,GABA能神经元,谷氨酸能神经元,小胶质细胞,小胶质细胞,少突胶质细胞和多肾上细胞)产生了聚集溶液,可以基于围绕规范标记基因的表达(标记物中的标记层中的表达)(标记层中的指标。由于内皮细胞不表达经典的内皮细胞标记,而是周围的细胞标记;这些〜1400个细胞已与内皮细胞一起分组以进行下游分析)。SCPRED在此注释的DGE矩阵上接受了培训,随后将所得模型用于对剩余批次的DGE矩阵进行细胞类型分配。
在使用上述模型进行初始细胞类型分类之后,将DGE矩阵进一步过滤,以去除SCPRED错过的任何剩余的异型双线。首先,将11批批次的原始DGE矩阵子集均由以形成7种主要细胞类型中的每一种(77个子集DGE矩阵总计)。使用具有7,000个可变特征,缩放和中心的SCTRANSFORM(V.0.3.1)64对每个子集DGE矩阵进行标准化。对于每种细胞类型,将来自11批的归一化DGE矩阵合并并聚集在Scanpy中(v.1.9.1)70(v.1.9.1)70,使用50个主要组件,使用BBKNN(V.1.5.1)73和Leiden Compustring使用一系列解决方案进行供体校正。使用Clustree(V.0.4.4)74选择了每种单元格的最稳定聚类分辨率。表达多种细胞类型的标记的簇被确定为异型双线。这些簇中的细胞条形码从上述DGE矩阵中丢弃,然后将这些过滤的DGE矩阵携带,以进行跨批处理的集成分析。
使用先前研究75的DGE基质对神经元亚型的分类模型进行了培训,这些dge矩阵在中间颞中回(MTG)中被子为谷氨酸能或GABA能神经元核。尽管从主要运动皮层(M1)76中存在类似的人脑核的数据集,但我们仅在MTG数据集上训练了该模型,因为M1缺少传统的4层(L4),而BA46确实具有L4。
The neuronal subtypes in this dataset include glutamatergic neuron subtypes of distinct cortical layers and with predicted intratelencephalic (IT), extratelencephalic (ET), corticothalamic (CT) and near-projecting (NP) projection patterns, as well as the four cardinal GABAergic neuron subtypes arising from the caudal (CGE:LAMP5+,VIP+)和内侧(MGE:PVALB+,SST+)神经节象征。
在模型培训之前,我们对MTG注释进行了以下调整。首先,由于MTG数据集无法使用亚型级别的注释(例如,以前使用的76),我们基于M1/MTG群集对应关系(根据参考文献76中的扩展数据10)推断了这些。其次,我们将MTG中的以下谷氨酸能神经元类型重新分配为L4 IT亚型(通过参考文献76中的M1集成推断)至L2/3 IT亚型:EXC L3-5 RORB FILIP1L,EXC L3-5 RORB l3-5 RORB TWIST2和L3-5-5-5-5-5-5这是根据其他研究中描述的特性来完成的,例如,EXC L3-5 RORB COL22A1类型被描述为斑块seq77的深度L3类型,以及通过其标记基因在甲状腺胶质性神经元核的RNA-Expressions的二维投影中的表达。
使用https://bioportal.bioontology.org/ontologies/pcl(V1.0,2020-04-26)75,76,78中的https://bioportal.bioontology.org/ontologies/pcl(75,76,78)中的仓库中生成了神经元亚型(补充图2和3)的特征图(补充图2和3)。
使用8个主要组件合并了11个批次的归一化,过滤的DGE矩阵,并将其聚集在Scanpy中,并使用BBKNN73和Leiden聚类使用一系列分辨率进行供体校正。使用Clustree74选择了针对推定星形胶质细胞亚型(分辨率1.3)的最稳定的分辨率。先前在MTG和M175,76中描述的星形胶质细胞亚型的特征图(扩展数据9)是使用https://bioportal.bioontology.org/ontologies/pcl(V.1.0,2020-04-26)75,75,76,78的https://bioportal.bioontology.org/ontologies/pcl(v.1.1.0,2020-04-26)生成的。根据这些亚型标记的表达,将莱顿簇分配给三个星形胶质细胞亚型之一。
如下所述,根据异常的基因表达谱和/或细胞类型比例(可能与激动事件相关)排除捐助者。
首先排除了任何细胞类型中UMIS总数少于1,000的捐助者。接下来,对于每种细胞类型,包括剩余供体的基因表达基因矩阵缩放为每个供体的100,000 UMIS,并将其过滤至顶部表达基因(定义为至少一个供体的每100,000个umis至少10个UMIS;这些捐赠者在表达的基因的最高12-19%中是其中的最高12-19%)。将这些按细胞类型进行过滤的表达矩阵合并为单个表达矩阵,该基质用于计算每个供体与其他供体的成对相似性(跨基因的log10尺度表达值的Pearson相关性)。这些成对相关值的中值确定为每个捐赠者的一致性评分。为了识别异常值,这些供体的符合度得分被转换为每个捐赠者的修改Z分数(MI),如上所述79:
XI是捐助者的一致性得分的地方,是捐助者一致性得分的中位数,而疯狂的是捐助者一致性得分的绝对偏差。
修改Z分数的绝对值> 5的供体被排除在外。这种方法标记了五个捐助者(一个捐助者,一个较低的UMI计数和四个是根据表达方式的离群值)。
每个捐赠者与其他捐赠者的成对相似性是根据细胞类型比例确定的(即补充图1c,d中绘制的值)。根据上面描述的表达值相同的方法,根据这些供体计算了每个供体的供体构符得分和修改的Z分数。修饰Z分数的捐赠者的绝对值> 15被排除在外。这种方法总共标记了九个捐助者,其中两个也被标记为表达异常值。
在这两种方法之间,总共将11个独特的捐助者标记为离群值(4个对照,7个精神分裂症),并将其排除在下游分析中。
我们的方法是(1)为每种细胞类型中的每一种创建一个表达测量的基因矩阵;(2)将这些矩阵串成一个较大的矩阵,其中每个基因被多次表示(每次单元格一次);(3)在此较大的矩阵上执行潜在因子分析8,80。我们在其他方法(例如主成分分析(PCA))上选择了表达残差(PEER)81的概率估计来推断潜在变量,因为它更敏感,并且较少依赖于建模的因子数量。进行潜在因子分析时要避免的主要陷阱是由于过度拟合而获得的高度相关因素。当我们比较它们的基因负荷时,我们推断出的潜在因素是彼此独立的(图3C的扩展数据),从而使我们能够根据这些因素进行下游分析。
从11个批次中的每一个中的每一个中的每一个中的原始过滤的DGE矩阵都为7种主要的单元格类型中的每一种(77个子集DGE矩阵总计)形成单独的DGE矩阵。对于每个子集DGE矩阵,排除了来自异常值供体的细胞条形码,使用SCTRANSFORM(v.0.3.1)64对DGE矩阵进行标准化,具有3,000个可变特征,并且Pearson残留表达值的输出(所有输入基因都返回)被导出到新的DGE Matrix。对于每种细胞类型,在11个归一化DGE矩阵中的这些新表达值均在供体之间汇总(以残留表达值的总和)创建一个基因划分的表达矩阵。这些表达矩阵中的每一个被过滤到表达基因的前50%(基于每个捐赠者的特征计数为100,000个转录本),每种细胞类型约为16,000至18,000个基因,产生表达矩阵。在每个表达矩阵中,每个基因名称都用后缀修饰,以指示细胞类型的原点(例如,ACAP3至ACAP3_ASTROCYTE),并将七个表达矩阵组合在一起以产生一个单个表达矩阵,该矩阵具有来自每个供体的所有七个单元格类型的表达值(图1F中显示了示意图)。使用默认参数和一系列请求的因子k,将此表达矩阵用作使用PEER(V.1.0)81的潜在因子分析的输入。
尽管我们寻找这些因素和技术变量之间的相关性,但这些分析是负面的,但一个例外:潜在因子2(LF2)似乎捕获了每种解剖中深层和表面皮质层的相对表示中的定量变化(扩展数据图3F)。
潜在因子供体表达值通过从供体表达值的回归中获取残差来调整年龄。
为了改善潜在因子供体表达值的可视化,而离开统计分析的结果不变,使用函数qNORM在R中计算了分位数归一化值(rank(x)/(长度(x)+1))。该图传说指示何时使用这些分位数归一化值。
从蛋白酶Xchange联盟(PXD026491)下载了先前研究82的LRRK2队列联盟(LCC)队列的蛋白质强度,并将至少25%的所有分析样本中的QVALUE阈值通过的肽子集下载到那些通过QValue阈值的肽。这些进一步是来自没有LRRK2(G2019S)突变的对照供体的强度,并且没有红细胞污染(n = 22个供体)。使用SCTRANSFORM(V.0.3.1)64归一化蛋白质强度后,将Pearson残留表达值(所有输入蛋白返回)的输出导出到新矩阵中。使用默认参数,将这种归一化蛋白质强度的基质用作使用PEER(V.1.0)81的潜在因子分析的输入。
为了比较CSF蛋白负载与补充图7中的SNAP基因载荷的比较,SNAP中的每个基因都由代表所有细胞类型的基因载荷的单个复合载荷表示。通过首先计算每个基因的中值表达(在每种细胞类型中),然后通过这些中位表达值计算出跨单元类型的SNAP,确定了每个基因的复合负荷。
对于扩展数据图4F,如先前所述进行节奏分析,使用GitHub(https://github.com/kellycahill/circahill/circadian-analysis--)和死亡时间的供体时间,如先前所述。83。分析还使用以下软件包:LME4(v.1.1-31)84,minpack.lm(v.1.2-4)85。
对于PEER推断的潜在因子的GSEA9,86,C5基因本体论收集(V.7.2)87,88来自分子特征数据库89,90与Syngo合并(版本20210225)91 91个生物学过程(BP)和细胞组件(CC)基因列表。使用10,000个排列和基因载荷作为排名度量的GSEA(v.4.0.3)9,86,用GSEAPRERANK鉴定出富含每个潜在因子的合并数据库的基因集。
对于CNMF10推断的星形胶质细胞潜在因素,如上所述,在数据库中添加以下自定义基因集,进行GSEA:
对于L5,CNMF推断出的谷氨酸能神经元潜伏因子,如上所述,在数据库中添加以下自定义基因集,进行了GSEA:
根据上述GSEA的结果,我们选择了几个富含顶级的基因集进行进一步分析。这些是在为简短修改的标签的数字中提到的,但在下面进行了详细描述。补充表9中提供了每个基因集中的基因列表。
图2b中显示的基因集是每个顶级类别中最强烈地富集的合成术语(在生物学过程中:突触前,突触信号,突触组织,突触组织,分别分别是后传输,运输和代谢中的过程)。
CNMF(V.1.2)10在星形胶质细胞和谷氨酸能L5 IT神经元上进行。我们使用了CNMF,因为它的可扩展性对星形胶质细胞和谷氨酸能L5 IT神经元数据集。在GITHUB(https://github.com/dylkot/cnmf/blob/master/master/tutorials/analyze_pbmc_example_data.ipynb)中详细介绍了PBMCS教程中详细介绍的CNMF协议。对于两个数据集,都过滤数据以删除少于200个基因或200个UMI的细胞。除去少于10个细胞的基因被去除。过滤后对原始计数数据进行分解,每个k的分数迭代(请求的因素)迭代,k范围为3到30。
星形胶质细胞原始计数数据包含179,764个细胞和42,651个基因,其中0个细胞和9,040个基因被排除在外。根据基因表达矩阵的PCA和CNMF稳定性报告,选择了K = 11的分解以进行进一步分析。11个CNMF因素一起解释了单个星形胶质细胞中基因表达水平的25%。
L5原始计数数据包含75,929个细胞和42,651个基因,其中0个细胞和8,178个基因被排除在外。根据基因表达矩阵的PCA和CNMF稳定性报告,选择了K = 13的分解以进行进一步分析。13个CNMF因素共同解释了单个L5 IT谷氨酸能神经元中基因表达水平的44%。为了使所有三个分析(SNAP,SNAP-A和SNAP-N)的解释方向保持一致,我们对CNMF因子6(SNAP-N)细胞评分,基因载荷和供体评分的否定为阴性。
在分析之前,将潜在因子使用矩阵(按因子逐元)进行标准化,以扩展每个因子的总用法为1。
为了进一步评估由SNAP和SNAP-A表示的星形胶质细胞基因表达变化的鲁棒性,我们使用了第三种计算方法 - 各个邻域分析(CNA,V.0.1.4)96。遵循数据预处理和分析,遵循GITHUB(https://nbviewer.org/github/yakirr/yakirr/cna/blob/master/master/master/master/master/master/master/master/master/blob/cna/blob/cna/ yakirr/yakirr/yakirr/yakirr/yakirr/yakirr/yakirr/yakirr/yakirr/clob/dem.ipynb)提供的协议。
初步使用Nnull的默认值进行了与精神分裂症病例对照状态相关的转录邻域的试验关联测试。这些试点分析评估了批化校正的影响(按批次或供体)和协变量校正(按年龄,性别,验尸间隔,UMIS数量或表达基因的数量)。几乎所有分析都产生了与案例对照状态相同的高度相似的社区,具有相同的全局P值(P = 1×10-4),除了通过供体进行批处理校正的批处理p = 1。
Pyscenic97,98的目标是从单细胞基因表达数据中推断转录因子和调节网络。PYSCENIC(V0.11.2)协议在GitHub的教程(https://github.com/aertslab/scenicprotocol/blob/master/notebooks/pbmc10k_scenic-protot-clotocol-cli.ipynb)详细介绍了最初的数据过滤。对于星形胶质细胞和L5 IT谷氨酸能神经元,对数据进行过滤以清除少于200个基因的细胞,并且基因少于3个细胞。去除具有高MT表达的细胞(>其总转录本的15%)。
基因调节网络发现邻接矩阵是通过在基因计数矩阵上运行Arboreto的,以及作者提供的所有转录因子的列表(https://resources.aertslab.org/cistarab.org/cistarget/tf_lists/tf_lists/alltfs/alltfs_hg38.txt),以生成初始segulns neculte neculte segulons segulons secullons secullons。使用CTX进一步完善了此组,该集合可以使用一组提供的人类特异性主题(https://resources.aertslab.org/cistarget/cistarget/motif2tf/motif2tf/motifs-motifs-motifs-v9-nr.v9-nr.v9-nr.gnr.hgnc-m0.001-.001-.001-.001-.001-co.tbl)和CTX进一步精炼。(https://resources.aertslab.org/cistarget/databases/homo_sapiens/hg38/refseq_r80/mc9nr/gene_based)。最后,运行AUCELL以生成每个发现的转录因子的每个细胞富集得分。
输入BAM文件的准备如下执行。从中间额叶Gyrus99的批量H3K27AC HICHIP数据的FASTQ文件从Gene表达式Omnibus下载(GEO:GSM44441830和GSM44441833)。使用参数滑动窗口:5:30,用三件(v.0.33)100修剪反复的fastq文件。使用默认参数将修剪读数与Bowtie2(v2.2.4)101与HG38参考基因组对齐。使用参数-H -B -F 3844 -Q 10提取独特映射的读取(V.1.3.1)102视图。
输入成分增强子的准备如下如下。从GEO(GSM444441830和GSM44441833)下载了中额回39的H3K27AC的Fithichip交互文件。将它们过滤为相互作用的垃圾箱(在与Q <0.01的相互作用时),在两个重复中,一维Hichip数据中重叠了散装H3K27AC峰。接下来,这些垃圾箱与IDR滤波单细胞测定法相交,用于转座酶可访问的染色质,使用测序(SCATAC – SEQ)峰在等皮质和未分类的星形胶质细胞中(簇13、15和17的峰值,从GEO(GEO)下载(GEO(GSE147672)99)。这些过滤区域的唯一坐标转换为GFF文件。
使用上面准备的输入文件和Homo Sapiens的启动子元素的坐标(2013年12月GRCH38/HG38)使用上述输入文件和参数-s 12500 -T 2500。(https://epd.expasy.org/epd/epdnew_select.php)106。使用这些坐标集,在星形胶质细胞中重叠的H3K27AC峰和SCATAC峰重叠的FithichIP环被亚组与另一个锚固剂中的启动子和另一个锚固剂中的超级增强器的那些子集。如先前所述,生成了二项式光滑图。
参考文献的摘要统计数据。将22个上传到FUMA(v.1.5.6)108 Web服务器(https://fuma.ctglab.nl)。基因级Z分数是使用SNP2Gene和“ perform Magma”功能(Magma V.1.08)和默认参数设置计算的。参考小组的人口设置为“ 1000G期3欧元”。MHC地区由于其不寻常的遗传结构和LD而被排除在外。然后,如补充说明中所述,岩浆Z得分被用于下游分析。
为了划分SNP的遗传力,我们使用了分层的LD评分回归(S-LDSC; V.1.0.1)26,它评估了基因表达程序对疾病遗传力的贡献。首先,为了分析星形胶质细胞认同基因,我们(仅在BA46区域内),使用PRESTO(V.1.0.0.0)109在星形胶质细胞和所有其他细胞类型之间以每基因(V.1.0.0)109进行了Wilcoxon Rank-sum测试;为了分析星形胶质细胞活性基因(SNAP-A),我们通过SNAP-A载荷在星形胶质细胞中表达的所有基因排序,并获得了前2,000个基因。然后,我们通过将窗口大小扩展到100 kb(从转录起始站点和转录终端位点)将每个基因设置为S-LDSC的注释,并以与.bim文件相同的顺序(从1000个基因组Project110的第3阶段)订购SNP,用于计算LD Scores。然后,我们使用1 cm窗口计算了注释的LD分数,并将分析限制为HAPMAP3 SNP。由于其高LD和高基因密度,我们排除了MHC区域。我们使用了针对HAPMAP3 SNP计算的LD权重作为回归权重。然后,我们共同建模了与我们的基因表达程序以及所有蛋白质编码基因和基线模型相对应的注释(基线模型v.1.2)。我们在下面列出的特征上测试了SNP遗传力的富集。LDSC脚本“ munge_sumstats.py”用于准备摘要统计文件。我们使用了所得的p值,该值反映了系数(τ)大于零的单方面测试,作为决定是否富含给定特征111的SNP可雄性的决定因素。
我们在补充图12:ADHD112,ALS113,阿尔茨海默氏病114,吸烟启动年龄115,自闭症116,双相情感障碍(全部I型和II型117)中,我们使用了以下研究的摘要统计数据。Inomnia122,Neurotism123,OCD124,精神分裂症22,PTSD125,Risk126,主观福利127,吸烟戒烟115,吸烟Initiation115,Tourette’S128和溃疡性结肠炎和溃疡性结肠炎129。
从99,194个常染色体标记中下载了精神分裂症的总结统计数据(来自参考文献22)。使用自定义工具将标记升级为GRCH38后,有99,135个标记可用于评分。我们使用bcftools(v.1.16)和摩卡咖啡得分(V.20222-12-21)58,59工作流(https://github.com/github.com/freeseek/score)处理了摩卡咖啡归档工作流程58,59的输出数据。
具有高序列同源性的基因通常很难使用标准UMI计数方法捕获。从这些区域读取映射到基因组中的多个位置,其映射质量低,并且被许多基因表达算法忽略了。Metagene的发现利用了高序列相似性,通过寻找持续映射到许多细胞质量下的多个基因的UMIS,始终在许多细胞中映射。
如果至少有一个从UMI唯一地图读取到单个基因模型,则每个UMI都与单个基因相关联。如果所有读数均以低质量映射到多个基因,则将UMI分配到特定基因模型是模棱两可的,并且UMI与所有基因模型相关。通过调查大量细胞,发现了一组基因家族,而UMIS一直与基因组持续相关。这个发现过程可直接从映射(例如C4A/C4B,CSAG2/CSAG3和SERF1A/SERF1B)中找到具有高序列同源性基因家族的预期基因家族。
然后将这些UMI在计数矩阵中提取为每组中所有基因的关节表达。我们更喜欢将表达计算为集合中所有基因的联合表达,因为数据中的先验阻止了对这些模棱两可的UMIS的确定分布。例如,C4A和C4B很少有umis在集合中唯一地映射到任何一个基因(8 UMIS,<占该基因捕获的所有UMI的0.5%),这是一个弱的弱,在成比例地将模棱两可的UMI分配给正确的模型。
通过生成仅包含一个C4副本的参考基因组来验证C4表达的方法。这使每个UMI都可以使用标准工具唯一地映射到基因的剩余副本。在测试的15,669个细胞中,有15,664个在Metagene方法的基础上,C4A/C4B的自定义参考方法和联合表达是一致的(扩展数据图15C)。
通过使用Osprey插入插入C4基因家族的结构特征的分阶段拷贝数,这是一种归纳结构变化的方法。C4基因的总拷贝数,C4A和C4B的副本数量以及将长期与简短形式C429区分开的多态性HERV元件的拷贝数使用基于1000基因组62的参考面板将其归因于McLean colhort。
使用1000个基因组中的2,604个不相关个体(在3,202个中,在3,202个中,在3,202个中,在GRCH38中构建了一个插补参考面板。如果(1)在6:24000000-34000000染色体中,则包括在参考面板中,但不包括复制数字可变区域染色体6:31980001–32046200;(2)它们不是多平行性的,(3)当子集与2,604个参考个体子集时,它们的等位基因计数(AC)至少为3。
插定参考面板与从GSA基因分型阵列获得的麦克莱恩队列合并。使用默认参数加上shapeit4(v.4.2.0)57删除了未出现在两个数据集中的标记,并使用默认参数加上 - 序列和默认的GRCH38遗传图。
使用基于基因组条的自定义管道(v.2.0)130获得了3,202 1000基因组样品的GRCH38结构特征的参考拷贝数。该管道的源代码可在Terra(http://app.terra.bio)131上获得。简而言之,该管道使用基因组条来估计C4拷贝数和HERV拷贝数中的总覆盖深度,然后使用最大似然性估算C4A和C4B的副本数量,这些副本基于C4活性站点的读数(坐标,COORDINATE,CORDINATE,CLOMOSOME 6:319996082-31996082–3199999999999999和CHROMOSOMESOMESOMESOMESOMESOMESOMESOME)3202820–32028837)。然后将这些拷贝数基因型子集取为2,604个无关的个体。
The structural features were imputed into the merged imputation panel using Osprey (v.0.1-9)132,133 by running ospreyIBS followed by osprey using the default parameters plus ‘-iter 100’, the SHAPEIT4 genetic map for GRCh38 chromosome 6 and a target genome interval of chromosome 6: 31980500–32046500.
Osprey的输出是使用自定义R脚本(Refine_c4_haplotypes.r)进行后处理的,该脚本在复制数字功能之间执行约束,并重新校准仅考虑可能的单倍型的可能性。强制约束是C4A+C4B副本必须等于总C4副本编号,并且HERV拷贝数必须小于或等于C4拷贝数。
除了上面引用的软件外,我们还使用了彩色Oracle(v.1.3)134,135以及以下软件包来准备此手稿中的源数据和数字。
Python(V.3.8.3):Matplotlib(V.3.5.2)136和Seaborn(V.0.10.1)137。r(v.4.1.3):群集(v.2.1.2)138,complexHeatMap(v.2.10.0)139,140,data.table(v.1.14.8)141,desctools(v.0.99.48)142,142,dplyr(v.1.1.1.1.1.1.1.1.1.1.2)143,gdata,gdata(v.2.19.044,(v.0.4.1)145,ggplot2(v.3.4.2)146,ggpmisc(v.0.5.3)147,ggpointdenty(v.0.1.0)148,ggpubr(v.0.5.0)149,149,ggrastr(ggrastr(v.1.0.2)150,ggrepel(ggrepel(v.0.0.0.0.3.3)。(v.4.1.3)152,gridextra(v.2.3)153,gtable(v.0.3.3)154,matrixStats(v.0.63.0)155,pheatmap(v.1.0.0.12)156,plyr(plyr(v.1.8.8)157,purrr(v.1.8)157,purrr(v.1.1.1.1.1.1.1088,c)(v.1.1-3)159,readxl(v.1.4.2)160,reshape2(v.1.4.4)161,量表(v.1.2.1)162,splitstackShape(v.1.4.4.8)163,stats(stats),stats(v.4.1.1.3)152,strigni(v.1.7.7.7.7.7.7.7.7.7.7.7.7.12)164,v.5.11。(v.1.3.0)166和Viridis(V.0.6.2)167。
有关研究设计的更多信息可在与本文有关的自然投资组合报告摘要中获得。
赞 (3)
评论列表(3条)
我是言希号的签约作者“lejiaoyi”
本文概览: 大脑捐献者是由哈佛大学脑组织资源中心/NIH Neurobiobank(HBTRC/NBB)以基于社区的方式招募的。人脑组织是从HBTRC/NBB获得的。捐赠者的法律临近和...
文章不错《衰老和精神分裂症的一致神经元 - 胃细胞计划下降》内容很有帮助