生信新包｜LINGER·从单细胞多组学数据推断基因调控网络

创作时间:

作者:

@小白创作中心

生信新包｜LINGER·从单细胞多组学数据推断基因调控网络

引用

CSDN

https://blog.csdn.net/qq_43022495/article/details/138535746

基因调控网络（Gene Regulatory Networks，GRN）是生物信息学研究中的重要领域，它揭示了基因之间复杂的调控关系。然而，传统的GRN推断方法往往难以处理大规模的单细胞多组学数据。最近，一款名为LINGER的计算框架应运而生，它能够利用大规模外部数据资源，从单细胞多组学数据中高效推断出精准的基因调控网络。本文将详细介绍LINGER的工作原理及其在基因调控网络研究中的应用。

原理

LINGER是一个计算框架，旨在从单细胞多组学数据推断基因调控网络。其输入包括基因表达和染色质可及性的计数矩阵以及细胞类型注释，输出则包含三种不同层次的基因调控网络：细胞群体水平（cell population GRN）、细胞类型特异性（cell type-specific GRN）和单细胞水平（cell-level GRN）。每个GRN包含三种类型的相互作用：反式调节（TF-TG）、顺式调节（RE-TG）和TF结合（TF-RE）。

工作流程

预训练阶段：LINGER首先使用来自ENCODE项目（这是一个包含了数百个样本，覆盖多种细胞环境的大型数据库）的大量数据进行预训练。这个阶段称为BulkNN，目的是让模型学习到基因表达的一般规律。
单细胞数据细化：接着，LINGER利用单细胞数据对模型进行细化。这里使用的是一种叫做Elastic Weight Consolidation（EWC）的技术，它允许模型保留从大量数据中学到的知识，同时适应新的单细胞数据。这个过程就像是在保持基础知识的同时，学习更具体的新技能。
神经网络模型：LINGER使用一个神经网络模型来模拟基因表达。这个模型接收转录因子（TFs）的表达水平和调控元件（REs）的可及性作为输入，然后预测目标基因（TGs）的表达。
调控模块的形成：在神经网络的第二层，通过加权求和的方式，将TFs和REs结合起来形成监管模块。这个过程是通过转录因子与调控元件之间的基序匹配（motif matching）来指导的，确保模型能够识别出哪些TFs与REs结合，从而调控同一基因表达。
推断调控强度：使用一种称为Shapley值的方法，LINGER能够估计TF与基因（TF–TG）以及调控元件与基因（RE–TG）之间相互作用的强度。Shapley值是一种评估每个特征对每个基因表达贡献的方法。
构建基因调控网络：最后，LINGER根据从单细胞数据中学习到的信息，构建出特定细胞类型和细胞水平的基因调控网络。
后续分析：利用构建的基因调控网络，LINGER可以进行更深入的分析，比如识别与疾病相关的细胞类型、转录因子和基因调控网络，以及在外部表达数据上构建调控子活动，并识别作为差异活性转录因子的驱动调节因子。