当前位置：首页社区单细胞数据分析的重中之重——细胞类型注释

单细胞数据分析的重中之重——细胞类型注释

您是不是想找：细胞角蛋白19片段偏高的原因细胞瘤是一种怎样的病细胞免疫治疗法细胞结构图细胞培养基是干什么的细胞储存细胞回输疗法到底有没有效果细胞角蛋白19片段是什么肿瘤指标细胞量>40%是什么意思细胞激活填充维持多久

细胞类型注释

Cell Type Annotation

单细胞数据通常以二维“图谱”的形式呈现，由于细胞异质性，聚类后的细胞群被命名为cluster0,1,2,3…需要对其进行注释，来定义细胞类型和状态，从而支持生物学发现，更好地理解组织生物学。

一、如何做细胞类型注释？

细胞类型注释是进行单细胞数据分析的基础，也是最重要的一步，同时该过程也是最复杂、最耗时。2021年发表在nature protocols上的一篇综述推荐的注释流程为：自动注释、手动注释、证实（图1）。

图1 细胞注释流程[1]

01 自动注释

自动注释是使用细胞类型注释算法和先验生物学知识来标记细胞或细胞群的有效方法。一般原理是识别单个细胞或细胞群与已知细胞类型或状态的特征基因表达特征相匹配的基因表达信号（模式或特征）；然后为细胞或细胞群分配相应的标签，标签通常有一个相关的置信度分数。

有两类主要的自动注释方法：一类是使用已知的标记基因来标记每一种可能在待注释的样本中发现的细胞类型，标记基因和细胞类型是从数据库中获得的，例如SCSig、PanglaoDB和CellMarker，或者也可以从文献中获得，然后细胞或细胞群根据其特征性表达的标记基因进行标记；

第二类方法是将待注释的单细胞RNA-seq数据与现有的、相似的、经过专业注释的scRNA-seq数据库进行比较，并将标签从参考细胞或细胞群转移到查询中足够相似的细胞或细胞群（称为“基于参考的自动注释”），参考单细胞数据来源于GEO数据库、单细胞表达图谱等[1]。比如：SingleR通过训练好的已知细胞类型标签的样本作为参考数据集，计算待注释数据集中与参考集相似的细胞进行标记注释；首先计算参考数据集中Marker Gene与待注释细胞基因表达谱Spearman相关性，在细胞类型中只使用可变基因提高了区分细胞亚群的能力，该过程仅使用前一步骤中的top cell types和其中的可变基因反复进行，直到只剩下一种细胞类型。SingleR自带7个参考数据集，包含5个人源数据集，2个小鼠数据集[2]。

02 手动注释

尽管自动注释方法非常方便，但它们需要适当的参考数据库，有时产生的注释结果的置信度并不高，当自动注释结果置信度较低、细胞标签冲突或缺失时，需要生信工程师手动注释，一方面可以检查算法自动注释的结果是否准确，另一方面将算法没注释出来的细胞群通过Marker Gene等方法手动注释出来。虽然手动注释被认为是细胞类型注释的“gold-standard method”，但注释过程是复杂且耗时的，同时存在着人为的主观性[1]。

首先，我们需要知道样本中包含有哪些主要的细胞类型，如：血液样本中有T细胞、B细胞、单核细胞等，方便工程师快速完成初步注释；然后需要有对应组织类型的Marker Gene list，可以通过相关研究领域的文章、Marker数据库获得以及自己通过多年的实验经验积累，常用的marker数据库：CellMarker, HCA, PanglaoDB, SCSig, EMBL-EBI, MCA, CancerSEA；最后就可以通过基因表达可视化结果来命名，如：通过热图、小提琴图、箱线图、气泡图等方式查看Marker Gene的表达情况来注释细胞类型，如图2所示，MS4A1, CD79A为B细胞的经典Marker，在cluster3中特异高表达而在其他细胞群中基本不表达或表达较低，故可将cluster3命名为B细胞。也可以通过获得每个细胞群的Marker Gene，结合富集分析获得基因可能的功能来完成注释。注释时会经常碰到一些细胞群同时高表达2个或2个以上的细胞类型标志物，可能需要考虑是不是doublet所带来的影响[1]。

图2 MS4A1, CD79A在不同细胞群中的表达

03 验证

通过上述2种方法已经可以将某种组织类型的细胞图谱完成，但mRNA检测能部分定义细胞类型和功能，对于得到的稀有或者新的细胞类型须经过实验验证（多组学技术、原位杂交、免疫荧光等实验）。比如：使用T细胞受体（TCR）和B细胞受体克隆分型来细化组织驻留免疫细胞的细胞类型标签，以检查T细胞和B细胞的转录特征。

二、如何判断细胞类型注释结果是否正确

很多老师会问：我怎么知道做的细胞类型注释是不是正确的？最简单的办法通过查看特征基因的表达来确认。注释大类细胞图谱时，检查每一个特征基因在细胞群里的表达情况，比如：2022年Emont等人对人类与小鼠中的白色脂肪组织的单细胞图谱做了精细的刻画，注释T cell时IL7R在其他细胞群中基本不表达或表达较低[3]。注释细胞亚群时因为多个细胞亚群表达模式本身就比较相似，区分开比较困难，因而需要借助多个特征基因的表达来划分。比如：2018年张泽民教授课题组对NSCLC患者应用单细胞测序技术以高分辨率表征了NSCLC的T细胞图谱，将TCR克隆型的分布作为单细胞亚群分析的线索，并对Treg进行分析，最终与患者预后直接关联[4]。

图3 特征基因表达

三、细胞类型注释后下一步该做什么？

1. 计算不同组织类型、不同疾病发育阶段、不同年龄等多维度的细胞类型占比；

2. 特征基因的可视化展示；

3. 比较感兴趣细胞群间的差异基因。

参考文献：

[1] Clarke, Z.A., Andrews, T.S., Atif, J. et al. Tutorial: guidelines for annotating single-cell transcriptomic maps using automated and manual methods. Nat Protoc 16, 2749–2764 (2021).

[2] Aran, D., Looney, A.P., Liu, L. et al. Reference-based analysis of lung single-cell sequencing reveals a transitional profibrotic macrophage. Nat Immunol 20, 163–172 (2019).

[3] Emont, M.P., Jacobs, C., Essene, A.L. et al. A single-cell atlas of human and mouse white adipose tissue. Nature 603, 926–933 (2022).

[4] Guo, X., Zhang, Y., Zheng, L. et al. Global characterization of T cells in non-small-cell lung cancer by single-cell sequencing. Nat Med 24, 978–985 (2018).