问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

生信新包|LINGER·从单细胞多组学数据推断基因调控网络

创作时间:
作者:
@小白创作中心

生信新包|LINGER·从单细胞多组学数据推断基因调控网络

引用
CSDN
1.
https://blog.csdn.net/qq_43022495/article/details/138535746

基因调控网络(Gene Regulatory Networks,GRN)是生物信息学研究中的重要领域,它揭示了基因之间复杂的调控关系。然而,传统的GRN推断方法往往难以处理大规模的单细胞多组学数据。最近,一款名为LINGER的计算框架应运而生,它能够利用大规模外部数据资源,从单细胞多组学数据中高效推断出精准的基因调控网络。本文将详细介绍LINGER的工作原理及其在基因调控网络研究中的应用。

原理

LINGER是一个计算框架,旨在从单细胞多组学数据推断基因调控网络。其输入包括基因表达和染色质可及性的计数矩阵以及细胞类型注释,输出则包含三种不同层次的基因调控网络:细胞群体水平(cell population GRN)、细胞类型特异性(cell type-specific GRN)和单细胞水平(cell-level GRN)。每个GRN包含三种类型的相互作用:反式调节(TF-TG)、顺式调节(RE-TG)和TF结合(TF-RE)。

工作流程

  1. 预训练阶段:LINGER首先使用来自ENCODE项目(这是一个包含了数百个样本,覆盖多种细胞环境的大型数据库)的大量数据进行预训练。这个阶段称为BulkNN,目的是让模型学习到基因表达的一般规律。

  2. 单细胞数据细化:接着,LINGER利用单细胞数据对模型进行细化。这里使用的是一种叫做Elastic Weight Consolidation(EWC)的技术,它允许模型保留从大量数据中学到的知识,同时适应新的单细胞数据。这个过程就像是在保持基础知识的同时,学习更具体的新技能。

  3. 神经网络模型:LINGER使用一个神经网络模型来模拟基因表达。这个模型接收转录因子(TFs)的表达水平和调控元件(REs)的可及性作为输入,然后预测目标基因(TGs)的表达。

  4. 调控模块的形成:在神经网络的第二层,通过加权求和的方式,将TFs和REs结合起来形成监管模块。这个过程是通过转录因子与调控元件之间的基序匹配(motif matching)来指导的,确保模型能够识别出哪些TFs与REs结合,从而调控同一基因表达。

  5. 推断调控强度:使用一种称为Shapley值的方法,LINGER能够估计TF与基因(TF–TG)以及调控元件与基因(RE–TG)之间相互作用的强度。Shapley值是一种评估每个特征对每个基因表达贡献的方法。

  6. 构建基因调控网络:最后,LINGER根据从单细胞数据中学习到的信息,构建出特定细胞类型和细胞水平的基因调控网络。

  7. 后续分析:利用构建的基因调控网络,LINGER可以进行更深入的分析,比如识别与疾病相关的细胞类型、转录因子和基因调控网络,以及在外部表达数据上构建调控子活动,并识别作为差异活性转录因子的驱动调节因子。

通过LINGER推断的调控环境阐明GWAS特征

根据转录谱识别驱动调节因子

LINGER通过模拟终身学习的概念,使得神经网络模型能够从不同阶段和不同类型的数据中学习,同时保留了之前学习到的知识,从而提高了模型的预测准确性和泛化能力。

参考文献:

  • Inferring gene regulatory networks from single-cell multiome data using atlas-scale external data | Nature Biotechnology
  • Durenlab/LINGER (github.com)
© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号