问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

动植物单细胞测序细胞类型注释还在用同源转换?! 快来试试AI新方法

创作时间:
作者:
@小白创作中心

动植物单细胞测序细胞类型注释还在用同源转换?! 快来试试AI新方法

引用
1
来源
1.
https://bydrug.pharmcube.com/news/detail/dc404467e79bbb6b755777f2da0ac2a2

前段时间,元小新与大家分享了一系列与动植物相关的微信推文和直播内容,包括《生信秘方 | 新格元农口动植物单细胞注释解决方案》等。在这些内容中,介绍了老师们非常关心的一个问题,即细胞类型注释。今天,元小新将向大家介绍2024年最新发表在Nature Methods杂志的AI新方法SATURN,该模型利用深度学习技术和大型蛋白质语言模型,通过获取细胞潜在表示(cell embeddings)整合不同物种之间的单细胞转录组测序数据,从而实现跨物种单细胞数据注释。相比以往的方法,SATURN模型有较大的性能提升,也能实现跨物种的单细胞图谱比较分析。

背景

目前,针对非模式物种(非人鼠猴等模式物种)进行单细胞RNA项目时,面临着细胞注释的难题。主要原因是这些物种缺乏足够的细胞标记基因和先前的研究基础,导致细胞注释变得异常困难。例如2023年在《Developmental Cell》杂志发表的一篇文章的细胞注释结果(如Fig. 1所示),大部分细胞无法明确定义其细胞类型,只能用"Undefined cells"来表示。


Fig. 1 | 非模式物种scRNA-Seq细胞类型注释存在未知细胞类型

对非模式物种的单细胞数据进行注释,除了利用自身物种的研究信息进行注释外,我们通常还采用同源基因转换的方法。具体的是通过基因序列的相似性,将非模式物种的基因映射到模式物种(如人类、小鼠、拟南芥)上,并借助这些模式物种的marker基因进行注释。

然而,这种方法存在明显的缺陷,因为同源转换需要一定的序列相似性和一一对应的比对关系,一般情况下,只有一部分的基因符合条件,物种分化时间越远,能保留的基因就越少,从而导致注释结果存在一定的不确定性和误差。尽管如此,这种同源转换方法仍然是目前在非模式物种中进行细胞注释的一种常见策略。

SATURN模型

正如前面所说,非模式物种一般与模式物种之间的同源基因对较少,这样会使得利用同源转换注释的时候,丢失很多有意义的基因marker。SATURN通过使用大型蛋白质语言模型来学习编码基因的生物学含义的细胞嵌入来克服这个问题。具体的是SATURN通过整合scRNA-seq数据的embeddings和物种对应的protein序列的embeddings来构建macrogene space,我们可以称之为宏基因空间。通过不同物种的细胞数据在宏基因空间的相似性,SATURN可以将不同物种的细胞数据进行聚类,从而解决了以往单纯只能靠有限一一对应的同源基因进行注释的问题。


Fig. 2 | SATURN结合蛋白质序列和基因表达来潜在表征单个细胞

跨物种注释测试


Fig. 3 | SATURN在以斑马鱼为reference对青蛙进行单细胞注释的测试中表现出色

作者首先使用了两个在物种分化时间距离较远的两个物种斑马鱼和青蛙来测试SATURN软件进行跨物种注释的效果,也就是青蛙的单细胞数据借助斑马鱼单细胞图谱细胞标签进行注释的准确性,其标准为青蛙原先的注释细胞标签。在此过程中,纳入了常见的整合方法SAMap以及无监督整合方法Harmony、scVI和Scanorama进行比较。

具体的方法是,首先使用这些软件分别整合斑马鱼和青蛙图谱数据,然后利用参考物种斑马鱼中细胞的细胞类型注释训练了一个逻辑回归分类器来预测青蛙的细胞类型,如果预测与已知的蛙细胞类型相匹配,则认为是正确的。首先如Fig. 3上图,第一行的umap中不同的颜色代表的是不同的细胞类型,第二行的umap中的不同颜色代表的是青蛙和斑马鱼。从细胞标签结果来看,SAMap和Harmony在整合数据之后细胞标签较为混乱。从物种批次的Umap图来看,Harmony几乎无法消除物种的批次效应。这些结果与准确性的评估结果符合(Fig. 3下图),SATURN软件获得了85.8%的中位数准确率,比第二好的方法SAMap表现出显著的119%性能提升。

SATURN发现图谱注释错误

Fig. 4 | SATURN检测出小鼠图谱中标记为小鼠巨噬细胞的错误问题

作者将SATURN应用于整合从人类(Tabula Sapiens)、鼠狐猴(Tabula Microcebus)和小鼠(Tabula Muris)生成的大规模单细胞图谱数据集,创建了包含33.5万个细胞的哺乳动物细胞图谱(图Fig. 4上图)。从整合结果来看,主要细胞类型在三个物种之间如T细胞、B细胞和肌肉细胞之间有很好的对齐,在此整合结果基础上,作者进行了组织水平上的对齐分析。例如,在肌肉组织中,作者发现一小部分被标记为小鼠巨噬细胞的细胞亚群与人类和鼠狐猴粒细胞聚在一起(图Fig. 4下左图虚线圈内),而其余被标记为小鼠巨噬细胞的细胞与人类和鼠狐猴巨噬细胞对齐(图Fig. 4下左图虚线圈外)。为了调查SATURN是否正确,作者检查了已知粒细胞标记物Cd55和已知巨噬细胞标记物Cd74的表达情况。作者发现这一被标记为小鼠巨噬细胞的小细胞亚群确实表达Cd55,不表达Cd74,表明这一小簇被错误地注释为巨噬细胞,而实际应该被注释为粒细胞,显示了SATURN映射细胞的高度准确性。

跨物种细胞比较分析


Fig. 5 | SATURN整合多物种单细胞AH图谱有助于新细胞发现及基因功能推测

如Fig. 5右上图,SATURN 成功对包含五种物种(人类、恒河猴、恒河猴、小鼠和猪)的 AH 细胞图谱中的 50,000 个细胞进行了对齐,从Umap结果来看,SATURN 消除了物种的批次,来自不同物种的细胞按照其功能类似聚在一起。如Fig. 5左图,是通过SATURN的重新注释的细胞类型的热图和树状图,右侧的标签显示原始的细胞类型注释,而底部显示使用SATURN获得的重新注释。这些聚类包括最初被标记为成纤维细胞和束A/Y细胞(聚类1),束A和葡萄膜细胞(聚类2),JCT和束细胞(聚类3和聚类4)以及角膜内皮细胞(聚类5)的细胞类型。作者特别重新注释了小鼠的束A和束Y细胞,这些细胞高表达成纤维细胞标记物,如Pi16、Fbn1和Mfap5,这是跟之前文献报道符合的。此外,作者还将人类的束B细胞重新分组为JCT细胞,而其他物种中没有发现束B细胞。

随后,作者利用得到SATURN整合的跨物种AH图谱来研究不同物种的宏基因模块功能分析。作为例子,作者选择与青光眼相关基因对应的宏基因模块。尽管猪、小鼠、恒河猴和恒河猴的Myoc基因被预期地与同一宏基因相关联,但我们发现人类MYOC基因与该宏基因没有关联,如图Fig. 5右下图所示,人类的MYOC基因与其他物种的Myoc基因相比,嵌入位置更远。此外,作者发现人类MYOC基因对包含人类A2M的宏基因具有最高权重,A2M是一个非同源基因,也与青光眼有关,以及一些不同的非人类物种的基因,如小鼠Folr1、小鼠Fbln2、小鼠Srgn和猪SCP2D1。此外,非人类物种的A2m基因在此宏基因模块具有最高权重。上述的分析表明A2m在功能上与Myoc类似,而这在以往基于序列同源性的方法中可能是无法识别出来的。

SATURN生成的细胞嵌入可用于许多下游任务。这些任务包括但不限于数据集集成、发现保守和物种特异性细胞类型、差异宏基因表达分析、细胞类型重新注释、签名集富集、基因模块确定或轨迹推断。随着单细胞转录组学在越来越多的物种中应用,我们预期SATURN将成为理解跨物种细胞类型保守性和多样性、揭示基本进化过程的重要工具。

AI技术,例如ChatGPT模型,正在深刻地改变着千行百业。同样,AI技术也给单细胞数据领域带来了革命性的分析手段和成果,例如之前我们推送的《新格元推出果蝇预训练大模型:探索动物单细胞研究的新途径》文章,更多例子可以关注我们的公众号查阅更多的文章。此外,借助SATURN软件能提高非模式物种的单细胞注释的准确率和确定性,新格元目前已经完成约2000个非人鼠猴物种的单细胞样品的实验处理和数据分析的交付,并已建立超过200个相关物种组织的细胞标记数据库。

参考文献

[1]Wang, Long, et al. "The maturation and aging trajectory of Marchantia polymorpha at single-cell resolution." Developmental Cell 58.15 (2023): 1429-1444.

[2]Rosen, Yanay, et al. "Toward universal cell embeddings: integrating single-cell RNA-seq datasets across species with SATURN." Nature Methods (2024): 1-9.

  • THE END -

往期推荐

供稿:生信与数据中心

审核:市场部

想了解更多关于单细胞测序信息,欢迎点击“阅读原文”留下联系方式,我们将安排同事与您对接。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号