中国科学家在生物信息学领域取得重要进展
中国科学家在生物信息学领域取得重要进展
中国科学家在生物信息学和基因组学领域取得了一系列重要进展,从泛癌种自然杀伤细胞异质性解析到单细胞命运轨迹预测,从基因组重复序列调控机制揭示到新型碱基编辑器开发,这些研究不仅发表在Nature、Cell等顶级期刊,还提供了多个实用的数据库和分析工具,展示了中国在生物信息学领域的前沿水平。
泛癌种自然杀伤细胞异质性的生物信息学解析
自然杀伤(NK)细胞是抗肿瘤免疫反应的关键,但对其在不同患者、癌种间的异质性研究仍十分有限。北京大学张泽民、王东方、朱琳楠团队与中国科学技术大学彭慧团队合作,以大规模单细胞测序数据的生物信息学整合为支撑,系统性揭示了NK细胞在不同癌症类型和组织之间的异质性规律,首次定义了癌组织特异富集、杀伤功能受损的NK细胞亚类,该群细胞在泛癌种水平上与患者不良预后及免疫治疗耐受相关;研究还发现LAMP3+树突状细胞是导致癌组织中NK功能受损的关键。该研究提供了准确、全面的肿瘤浸润NK细胞图谱,助力开发新型以NK细胞为基础的肿瘤治疗策略。
该成果发表于Cell
生物信息学整合分析揭示NK细胞的泛癌种异质性规律
人类和小鼠细胞身份识别及单细胞功能分析平台——CellMarker 2.0
细胞是构成生命体的基本单元,细胞身份识别是十分重要的。哈尔滨医科大学张云鹏教授团队开发了人类和小鼠细胞身份识别的分析平台——CellMarker 2.0。该平台资源丰富,涵盖人类和小鼠656个组织,2578个细胞类型,26,915个细胞标记,共计83,361个组织-细胞类型-细胞标记条目可用于细胞身份识别。该平台还拥有细胞注释、细胞聚类、细胞分化轨迹等六项单细胞数据分析及可视化展示功能。CellMarker 2.0自发布以来获得了全球超100个国家和地区用户的158,000余次访问,是识别人类和小鼠千万种细胞身份的宝贵资源。文章被Web of Science 列为生物学与生物化学领域ESI热点论文。
该成果发表于Nucleic Acids Research
CellMarker 2.0细胞身份识别及单细胞功能分析平台
揭示基因组重复序列Alu调控转录新机制
人类基因组含有大量功能不明的重复序列,导致基因组巨大、转录调控极其复杂,使得解析人类遗传信息如何精准传递异常困难。中国科学院生物物理研究所薛愿超团队利用自主创建的RNA原位构象测序(RIC-seq)技术,绘制了细胞核内精细的RNA—RNA互作图谱,率先发现互补性Alu重复序列可介导增强子—启动子的配对选择特异性和转录激活。更重要的是,通过构建“突变-功能”图谱,系统注释了疾病相关非编码突变的分子功能,并在细胞和动物水平进行了深入的验证。该研究揭示了重复序列Alu在人类遗传信息精确传递过程中的基本规则,为重大疾病的精准医疗和致病机理研究提供了新策略。
该成果发表于Nature
“增强子-启动子互作图谱”以及“突变-功能图谱”构建
我国生命组学数据资源体系建设成效显著
中国科学院北京基因组研究所(国家生物信息中心)国家基因组科学数据中心(CNCB-NGDC)已连续7年被Nucleic Acids Research称为与美国国家生物技术信息中心(NCBI)、欧洲生物信息研究所(EBI)并列的全球主要生物数据中心。2023年,CNCB-NGDC协同国内共建和合作单位,强化多组学数据整合与知识融合,新建、升级并扩展了多个核心数据库,建成了原始测序、表达、表观、生物多样性等9大主题资源体系,为国家基因组科学数据的汇交共享、安全管理和挖掘利用提供了重要支撑。其中,组学原始数据归档库(GSA)成功入选全球核心生物数据资源(GCBR),是我国目前唯一入选的数据库。
该成果发表于Nucleic Acids Research
CNCB-NGDC多组学数据资源体系
结构驱动的碱基编辑器开发与应用
碱基编辑可在单碱基精度实现精准遗传操纵,是基因功能研究、疾病治疗、生物育种的变革性技术之一,但其核心底盘脱氨酶难以满足多元化的应用需求。中国科学院遗传与发育生物学研究所高彩霞团队联合北京齐禾生科生物科技有限公司赵天萌团队,创新性地运用人工智能辅助的蛋白结构预测,建立了基于蛋白质三级结构的高通量聚类分析新方法,实现了脱氨酶功能结构的深入挖掘。一系列新挖掘的脱氨酶被开发为具有我国自主专利的新型碱基编辑工具,具有紧凑、高效、特异、功能多样等特点,解决了医学领域单个腺相关病毒(AAV)递送及农业领域大豆高效碱基编辑的应用难题。
该成果发表于Cell
新型碱基编辑器开发与应用
新方法实现单细胞命运轨迹的精确预测——PhyloVelo
细胞命运决定是生命的奥秘之一,揭示其规律和机制对于理解发育和疾病具有重要意义。然而,如何利用静态单细胞组学数据预测动态命运决定过程是生物信息学领域的一项重大挑战。中国科学院深圳先进技术研究院胡政和厦门大学周达团队合作提出了一项基于单调表达基因的轨迹推断新算法框架,命名为PhyloVelo。该方法通过整合谱系示踪和单细胞转录组数据,利用单调表达基因构建一个新颖的细胞分化时钟模型,能准确预测细胞过往状态和分化轨迹。相比传统方法,PhyloVelo在推断准确性和稳定性方面都有明显提升,为发育和疾病研究提供了有力的计算分析工具。
该成果发表于Nature Biotechnology
基于单调表达基因的细胞分化轨迹推断新框架(PhyloVelo)
单液滴细胞外囊泡异质性解析新技术——SEVtras
胞外小囊泡(sEVs)是细胞间信息交流的关键环节,它们在免疫反应、病毒致病和癌症发生发展中发挥着重要作用。目前仍缺乏有效的研究手段来高效解析胞外小囊泡的异质性,以及深入揭示细胞对胞外小囊泡的分泌状态。中国科学院北京生命科学研究院赵方庆/冀培丰团队首次建立了胞外小囊泡异质性追踪算法SEVtras,并提出胞外小囊泡分泌活性指标,从细胞外尺度刻画了不同类型细胞的生理活动状态。该研究填补了胞外囊泡组学异质性追踪的空白,为海量单细胞转录组学数据的解析提供了独特的胞外视角。
该成果发表于Nature Methods
SEVtras追踪胞外小囊泡异质性
空间多组学数据库及分析算法——SODB
近年来快速发展的空间组学技术(spatial omics)可同时测量细胞/组织的分子表达及空间位置信息,为解析组织微环境提供了条件。腾讯AI Lab姚建华团队、复旦大学原致远团队、德州大学达拉斯分校张奇伟团队合作开发了空间多组学数据库SODB,提供了丰富的空间多组学数据资源和分析算法。SODB利用跨模态空间多组学数据共性,将异质性数据标准化为统一数据结构。SODB采用分布式计算和树型存储设计,处理了超过6000万个细胞的空间多组学数据。SODB提出了组织空间分子景观可视化算法SOView,支持交互式分析组织结构及marker基因, 支持多种空间组学分析算法的基准研究。
该成果发表于Nature Methods
SODB支持多种算法的基准研究
肿瘤免疫治疗相关的基因表达资源——TIGER
免疫治疗引领了癌症治疗模式的变革,然而在非筛选人群中其获益率并不高,亟需开发新型的免疫治疗策略和精准的疗效预测标志物。中山大学任间、左志向团队,周鹏辉团队,浙江省肿瘤医院赵安团队合作开发了一个泛癌种水平的肿瘤免疫治疗相关的转录组学数据整合分析的平台——TIGER。目前TIGER收录了33种癌症类型的11,057个肿瘤与正常样本的非免疫治疗的转录组数据,8种癌症类型的1508个肿瘤样本的免疫治疗转录组数据,来自25个癌症类型的655个样本的单细胞转录组数据。该数据库致力于促进免疫治疗新靶点和新型疗效预测标志物的鉴定和开发。
该成果发表于Genomics, Proteomics & Bioinformatics
TIGER整体设计概览
基于工程化纳米孔的氨基酸及其翻译后修饰检测
蛋白质是生命活动的执行者,蛋白质序列的准确测定对于理解蛋白质的结构和功能至关重要。南京大学黄硕团队构建了一种高分辨率的工程化纳米孔,在孔道的传感区域精准引入了一个镍离子-次氮基三乙酸(Ni-NTA)适配器,借助金属离子与氨基酸之间的配位相互作用实现了20种蛋白质氨基酸和4种经典的翻译后修饰(磷酸化、糖基化、乙酰化、甲基化)的直接检测与完全区分,机器学习准确率可达98.6%。该策略被进一步应用于肽的氨基酸组成鉴定,为基于纳米孔的单分子蛋白质测序方法的开发提供了重要的设计策略和坚实的分辨率基础。
该成果发表于Nature Methods
镍离子修饰纳米孔道实现20种蛋白质氨基酸全分辨
本文原文来自Genomics, Proteomics & Bioinformatics