论文解析-scMAGIC

发布于:2022-12-28 ⋅ 阅读:(248) ⋅ 点赞:(0)

参考

Zhang, Yu & Zhang, Feng & Wang, Zekun & Wu, Siyi & Tian, Weidong. (2022). scMAGIC: accurately annotating single cells using two rounds of reference-based classification. Nucleic acids research. 50. 10.1093/nar/gkab1275.

亮点

  1. 基于参考数据集的二次分类算法
  2. 13个对比方法,86个数据集
  3. 借助已发表的大规模大细胞图谱,可对无参考的单细胞数据进行分类

方法

在这里插入图片描述

A. 输入

Query的scRNA-seq,Reference的scRNA-seq及标签
同时,该方法内置2个单细胞图谱Atlas(scRNA-seq与对应标签),人类的HCA与MCA
scRNA-seq中行为基因,列为细胞

B. 第一轮RBC

  1. 识别Reference细胞类型特异性的marker gene
    (1)将Reference中同类型细胞的scRNA-seq整合起来
    (2)对每种细胞类型,选取前20%高表达的基因A
    (3)用limma算法从A中选择相对于其他细胞类型,显著高表达的基因(P value > 0.05)B
    (4)用RUVSeq算法消除Reference和Atlas的batch effect
    (5)用limma算法从B中选择相对于其他细胞类型,显著高表达的基因(P value > 0.001)C
    C即为细胞类型特异性的marker gene,整合了Reference与Atlas的信息。
  2. 识别候选细胞类型
    (1)基因筛选:用Seurat包中‘Find-VariableFeatures’函数选取Reference中高表达的2000个基因
    (2)用pcaPP这个R包计算Query中每个细胞与Reference中每个细胞类型的相似度,以Kendall’s tau coefficient作为相似度衡量指标,得到每个细胞的候选细胞类型
  3. 验证候选类型
    (1)将Query根据候选细胞类型分类
    (2)对于每一类,通过 Wilcoxon秩和检验(推断两个总体分布的位置是否有差别)检测该类别marker gene是否比其他基因表达显著,通过负对数转换将P value转化为置信度
    (3)通过R包mclust将置信度的密度分布分解为多个高斯分布
    (4)属于置信度最高的高斯分布的标签,认为是被验证的标签;置信度低于阈值的细胞认为是对应标签的负样本(Negative control)
    (5)Negative control将用于第二轮RPC;只利用被验证标签的细胞scRNA-seq构建LocalReference,将作为第二轮RPC的Reference

C. 第二轮RBC

  1. 识别LocalReference细胞类型特异性的marker gene
    (1)将LocalReference中同类型细胞的scRNA-seq整合起来
    (2)利用Seurat包中‘Findmarkers’函数,从每一类细胞中识别相对于Negative control,显著高表达的基因A
    重复第一轮RBC的(1)-(5),得到的基因即为marker gene
  2. 识别候选细胞类型
    (1)以R中‘dmultinom’作为相似度衡量指标,计算Query中每个细胞与LocalReference中每个细胞类型的相似度,得到每个细胞的候选细胞类型
  3. 验证候选类型
    (1)重复第一轮RBC的(1)-(3)
    (2)计算每个高斯分布的均值:如果均值低于阈值(5),则该分部内的细胞预测标签为‘unassigned’;否则,将细胞的候选类型作为预测结果

D. 对无标签细胞进行无监督聚类

(1)利用Seurat包中‘FindClusters’函数对Query中所有细胞聚类
(2)如果一个簇中大多数细胞都被预测为同一类别,且其中‘unassigned’细胞占比低于20%,则认为这些无标签细胞与该簇的其他细胞为同一类别。

数据集

Dataset Tissue Reference Link
Mouse brain dataset primary visual cortex(PVC) Tasic et al. GSE71585
primary somatosensory cortex (S1) Zeisel et al. GSE60361
hippocampal CA1 region GSE115746
neocortex Tasic et al. GSE93374
hypothalamic arcuate-median eminence complex (HArcME) Campbell et al. GSE95315
dentate gyrus of the hippocampus (DGH) Hochgerner et al. GSE109447
ventricular-subventricular zone (V-SVZ) Mizark et al.
Mouse pancreas dataset Baron et al. GSE84133
Mouse duodenum dataset Haber et al. GSE92332
Human pancreas datasets Baron et al., Muraro et al., Xin et al., Segerstolpe et al. GSE84133, GSE85241, GSE81608, E-MTAB-5061
Human PBMC datasets Ding et al., Butler et al., Zheng et al. GSE132044, Seurat Data, https://support.10xgenomics.com/single-cellgene-expression/datasets
CellBench 10X dataset mixture of five human lung cancer cell lines Tian et al. GSM3618014
CellBench 10X dataset mixture of five human lung cancer cell lines Tian et al. GSM3618022, GSM3618023, GSM3618024
Tabula Muris dataset The Tabula Muris Consortium GSE109774
MCA Atlas GSE108097
HCL Atlas GSE134355

评价指标

  1. Accuracy
    类别预测正确的细胞数占细胞总数的比例
  2. Balanced Accuracy
    分别计算每个类别的Accuracy,再平均
  3. Cluster accuracy
    (1)对于Query中每个细胞,用Seurat包中‘FindClusters’函数进行无监督聚类
    (2)用本文方法或对比方法,为Query中每个细胞预测Label
    (3)对于无监督聚类的每个簇,以其中数量最多的Label作为该簇的类别
    (4)计算类别预测正确的聚类数占聚类总数的比例,即为Cluster accuracy

对比算法

Category Method Reference
Statistical metric based methods SciBet Li,C., Liu,B., Kang,B., Liu,Z., Liu,Y., Chen,C., Ren,X. and Zhang,Z.(2020) SciBet as a portable and fast single cell type identifier. Nat.Commun., 11, 1818.
SingleR Aran,D., Looney,A.P., Liu,L., Wu,E., Fong,V., Hsu,A., Chak,S.,Naikawadi,R.P.,Wolters,P.J., Abate,A.R. et al. (2019)Reference-based analysis of lung single-cell sequencing reveals a transitional profibrotic macrophage. Nat. Immunol., 20, 163–172.
scmap Kiselev,V.Y., Yiu,A. and Hemberg,M. (2018) scmap: projection ofsingle-cell RNA-seq data across data sets. Nat. Methods, 15, 359–362.
Tree-based methods CHETAH de Kanter,J.K., Lijnzaad,P., Candelli,T., Margaritis,T. and Holstege,F.C.P. (2019) CHETAH: a selective, hierarchical cell type identification method for single-cell RNA sequencing. Nucleic Acids Res., 47, e95.
scClassify Lin,Y., Cao,Y., Kim,H.J., Salim,A., Speed,T.P., Lin,D.M., Yang,P. and Yang,J.Y.H. (2020) scClassify: sample size estimation and multiscale classification of cells using single and multiple reference. Mol. Syst. Biol., 16, e9389.
Machine-learning-based methods SingleCellNet Tan,Y. and Cahan,P. (2019) SingleCellNet: a computational tool to classify single cell RNA-Seq data across platforms and across species. Cell Syst., 9, 207–213.
scPred Alquicira-Hernandez,J., Sathe,A., Ji,H.P., Nguyen,Q. and Powell,J.E. (2019) scPred: accurate supervised method for cell-type classification from single-cell RNA-seq data. Genome Biol., 20, 264.
scID Boufea,K., Seth,S. and Batada,N.N. (2020) scID uses discriminant analysis to identify transcriptionally equivalent cell types across single-cell RNA-Seq data with batch effect. Iscience, 23, 100914.
CaSTLe Lieberman,Y., Rokach,L. and Shay,T. (2018) Correction: castle - Classification of single cells by transfer learning: harnessing the power of publicly available single cell RNA sequencing experiments to annotate new experiments. PLoS One, 13, e0208349
SVM Pedregosa,F., Varoquaux,G., Gramfort,A., Michel,V., Thirion,B., Grisel,O., Blondel,M., Prettenhofer,P., Weiss,R., Dubourg,V. et al. (2011) Scikit-learn: machine learning in python. J. Mach. Learn Res., 12, 2825–2830.
semi-supervised learning methods Seurat v4 Hao,Y., Hao,S., Andersen-Nissen,E., Mauck,W.M. 3rd, Zheng,S., Butler,A., Lee,M.J., Wilk,A.J., Darby,C., Zager,M. et al. (2021) Integrated analysis of multimodal single-cell data. Cell, 184, 3573–3587.
scSemiCluster Chen,L., He,Q., Zhai,Y. and Deng,M. (2021) Single-cell RNA-seq data semi-supervised clustering and annotation via structural regularized domain adaptation. Bioinformatics, 37, 775–784.
CALLR Wei,Z. and Zhang,S. (2021) CALLR: a semi-supervised cell-type annotation method for single-cell RNA sequencing data. Bioinformatics, 37, i51–i58.

实验评估

3种经典分类场景

1. Reference包含Query中所有细胞类型

此处模拟Reference和Query之间不同程度的BatchEffect,分别考虑同一数据集的五折交叉验证(无BatchEffect),相同平台相同组织的不同样本数据集(小BatchEffect),不同平台数据集(大BatchEffect)。左列为Accracy值,右列为BalancedAccuracy值。scMAGIC结果达到0.9左右。
在这里插入图片描述

2. Reference包含Query中部分细胞类型

对于Query中未出现在Reference的细胞类型,他们的正确Label为‘unassigned’。同时,为了模拟不同程度的BatchEffect,分别考虑深度测序场景(Reference的scRNA-seq中平均每个细胞包含超过2500个基因,Smart-seq2等)代表小BatchEffect,低度测序场景(Reference的scRNA-seq中平均每个细胞包含低于650个基因,Seq-Well等)代表大BatchEffect。左列为Accracy值,右列为BalancedAccuracy值。scMAGIC结果达到0.9左右。
在这里插入图片描述
以小鼠大脑数据集作为CaseStudy。行为Query真实类别,其中后5种未包含在Reference中,因此其正确预测Label应为‘Unassigned’。对比结果看出,scMAGIC做出的预测最接近真实Label,scPred为第二名。
在这里插入图片描述

3. 跨物种的细胞类型识别

对于同一组织,以小鼠数据集作为Reference,人类数据集作为Query。通过基因同源性进行基因对齐,因此存在很大BatchEffect。结果表明,scMAGIC的Accuracy达到0.92,Balanced accuracy达到0.78.(跨物种预测比前2种同物种场景下的Accuracy高???)
在这里插入图片描述

方法在所有场景的综合评估

横坐标为不同实验场景,纵坐标为每种方法在对应实验中的排名。左图看出在交叉验证中,大多数方法都很好,scMAGIC并不突出;但在低测序深度与跨物种预测的场景下,大多数方法效果均不好,scMAGIC优势明显。右图看出,综合所有场景,scMAGIC性能稳定,综合准确性排名第一。
在这里插入图片描述
此处利用指标CDI(考虑Reference和Query之间的BatchEffect)衡量预测任务的难度,横坐标为所有实验场景的难度系数,纵坐标为各方法在各实验场景下的Accuracy,直线为每种方法所有点的线性回归。左图表明所有方法准确率随着任务难度增大而降低,其中scMAGIC对于低难度分类任务没有优势,但对于高难度分类任务优势明显。
在这里插入图片描述

评估scMAGIC中各模块的重要性

A:分别在不同场景数据集中,测试第二轮RBC的重要性,即LocalReference的作用。结果表明,在BatchEffect较小情况下,LocalReference作用不明显;在BatchEffect较小情况下,LocalReference替换Reference后能明显提高Accuracy。
B:分别在不同场景数据集中,测试第三轮RBC的必要性。结果表明,第三轮RBC对预测精度提升不明显。这是由于第二轮RBC已经引入高质量的LocalReference,第三轮没有引入更多有效信息,所以不需要进行第三轮RBC。
C:分别在不同场景数据集中,测试Atlas的重要性。结果表明,在BatchEffect较大情况下,Atlas能明显提高Accuracy。因为Atlas引入很多额外数据及标签,相当于增加训练集,当然明显提升Accuray,尤其是跨物种,大数据带来高精度。
D:评估LocalReference的可信度对预测结果的影响。横坐标为第一轮RBC后被验证细胞的Accuracy,纵坐标为最终预测Accuracy。结果表明,LocalReference的Accuracy与最终预测结果的Accuracy正相关,可信度高的训练集导致准确的预测结果。
E:评估分类难度对LocalReference可信度的影响。结果表明,分类难度与LocalReference的Accuracy负相关,合理。
F:评估分类难度对LocalReference包含细胞数量的影响。结果表明,分类难度与LocalReference大小负相关,即困难的分类任务具有较高置信度的预测结果数量较少,因为每个样本都更加难以分类。
在这里插入图片描述

scMAGIC可作为无参考数据集的细胞注释工具

scMAGIC根据内置的MCA和HCL两个Atlas,即可在researcher不提供Reference的情况下对Query做出高准确度的细胞注释。
scMCA与scHCL是MCA和HCL文献中提出的细胞注释方法。结果表明scMCA对一些小鼠数据集注释的Accuracy很低,scHCL对一些人类数据集注释的Accuracy不高。scMAGIC在researcher不提供Reference的情况下,在该4个数据集的平均预测Accuracy可达到0.92-0.98,因此可作为十分可靠的细胞注释工具。
在这里插入图片描述

本文含有隐藏内容,请 开通VIP 后查看

网站公告

今日签到

点亮在社区的每一天
去签到