生信新包|LINGER·从单细胞多组学数据推断基因调控网络
生信新包|LINGER·从单细胞多组学数据推断基因调控网络
基因调控网络(Gene Regulatory Networks,GRN)是生物信息学研究中的重要领域,它揭示了基因之间复杂的调控关系。然而,传统的GRN推断方法往往难以处理大规模的单细胞多组学数据。最近,一款名为LINGER的计算框架应运而生,它能够利用大规模外部数据资源,从单细胞多组学数据中高效推断出精准的基因调控网络。本文将详细介绍LINGER的工作原理及其在基因调控网络研究中的应用。
原理
LINGER是一个计算框架,旨在从单细胞多组学数据推断基因调控网络。其输入包括基因表达和染色质可及性的计数矩阵以及细胞类型注释,输出则包含三种不同层次的基因调控网络:细胞群体水平(cell population GRN)、细胞类型特异性(cell type-specific GRN)和单细胞水平(cell-level GRN)。每个GRN包含三种类型的相互作用:反式调节(TF-TG)、顺式调节(RE-TG)和TF结合(TF-RE)。
工作流程
预训练阶段:LINGER首先使用来自ENCODE项目(这是一个包含了数百个样本,覆盖多种细胞环境的大型数据库)的大量数据进行预训练。这个阶段称为BulkNN,目的是让模型学习到基因表达的一般规律。
单细胞数据细化:接着,LINGER利用单细胞数据对模型进行细化。这里使用的是一种叫做Elastic Weight Consolidation(EWC)的技术,它允许模型保留从大量数据中学到的知识,同时适应新的单细胞数据。这个过程就像是在保持基础知识的同时,学习更具体的新技能。
神经网络模型:LINGER使用一个神经网络模型来模拟基因表达。这个模型接收转录因子(TFs)的表达水平和调控元件(REs)的可及性作为输入,然后预测目标基因(TGs)的表达。
调控模块的形成:在神经网络的第二层,通过加权求和的方式,将TFs和REs结合起来形成监管模块。这个过程是通过转录因子与调控元件之间的基序匹配(motif matching)来指导的,确保模型能够识别出哪些TFs与REs结合,从而调控同一基因表达。
推断调控强度:使用一种称为Shapley值的方法,LINGER能够估计TF与基因(TF–TG)以及调控元件与基因(RE–TG)之间相互作用的强度。Shapley值是一种评估每个特征对每个基因表达贡献的方法。
构建基因调控网络:最后,LINGER根据从单细胞数据中学习到的信息,构建出特定细胞类型和细胞水平的基因调控网络。
后续分析:利用构建的基因调控网络,LINGER可以进行更深入的分析,比如识别与疾病相关的细胞类型、转录因子和基因调控网络,以及在外部表达数据上构建调控子活动,并识别作为差异活性转录因子的驱动调节因子。
通过LINGER推断的调控环境阐明GWAS特征
根据转录谱识别驱动调节因子
LINGER通过模拟终身学习的概念,使得神经网络模型能够从不同阶段和不同类型的数据中学习,同时保留了之前学习到的知识,从而提高了模型的预测准确性和泛化能力。
参考文献:
- Inferring gene regulatory networks from single-cell multiome data using atlas-scale external data | Nature Biotechnology
- Durenlab/LINGER (github.com)