问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

复旦大学和上海科学智能研究院联合发布女娲系列生命科学大模型

创作时间:
作者:
@小白创作中心

复旦大学和上海科学智能研究院联合发布女娲系列生命科学大模型

引用
1
来源
1.
https://cloud.tencent.com/developer/article/2479331

复旦大学和上海科学智能研究院联合发布了女娲系列生命科学大模型,包括女娲-基因导航大模型、女娲-生命流体大模型和女娲生物分子结构大模型。这些模型在各自领域都取得了突破性进展,为生命科学和药物研发带来了新的可能性。

2024年11月11日,2024科学智能创新论坛在复旦大学举行。论坛由上海市科学技术委员会和徐汇区人民政府指导,复旦大学、上智院主办,上海交通大学、西湖大学、上海创智学院及集智俱乐部共同协办。论坛也是由中华人民共和国科学技术部与上海市人民政府联袂主办的2024浦江创新论坛的主题论坛之一。

论坛上发布了多项重要科研成果。其中,复旦大学和上海科学智能研究院联合发布了一系列突破性的垂直领域科学大模型,包括女娲-基因导航大模型、女娲-生命流体大模型、以及女娲-生物结构大模型等。

女娲-基因导航大模型

复旦大学人工智能创新与产业研究院副院长、研究员、上智院AI科学家程远介绍,其团队研发的女娲基因导航基础模型,基于图神经网络预训练和知识图谱技术,能够支持高精度预测单细胞分辨率的长程基因调控关系。尤其在调控距离超过100kb的远端调控关系预测任务上,该模型的预测精度相较于现有方法提升了一倍以上。

女娲模型的命名富有深意,源自中国古代神话,象征着对生命科学规律的探索和掌握。程远称,“我们希望这个模型能够像女娲造人一样,掌握人体生命科学的基本规律。”

在DNA序列中,占DNA约98.5%的非编码区域对编码区的表达量有着调控作用。某些基因非编码区域的变异会导致如急性白血病、小白鼠肢体发育不良等疾病。然而,在非编码区域研究方面,由于基因 “暗物质”分布广、与调控位点距离远、且基因调控在不同细胞差异明显,此前AI的应用相对较少且面临诸多挑战。

为攻克这些难题,研发团队设计了女娲基因导航基础模型,其能够对基因组非编码的“暗物质”区域进行功能注释,发现复杂疾病的机制和可能的疾病治疗靶点。目前该模型在不同细胞组织调控关系预测精度上表现优异,与实验验证结果相比,精度可达85%以上,在长距离调控关系预测精度上更是比现有最好模型高一倍以上,如在大脑皮层、大脑前额叶、骨髓等细胞组织上均有出色表现。

女娲基因导航基础模型的产业潜力巨大。通过发现新的疾病靶点,该模型不仅能开发自有IP的药物,还能为合作企业提供新靶点发现服务,同时也能为合作企业提供已知靶点的计算验证服务,为新药研发和疾病治疗带来革命性变化。

借助女娲基因导航基础模型,研究人员已在实际应用中有了重要发现。例如在对阿尔茨海默症病人基因突变情况分析中,通过共性非编码区变异情况找到了新靶点,为阿尔茨海默症药物研发开辟了新路径。这一模型的出现,将推动生命科学在微观领域研究迈向新的高度,在未来的医学和药物研发等领域有望产生深远影响。

女娲-生命流体大模型

生命中的流体分析,如血液在血管中的流动、呼吸时口腔到肺部的气流甚至妊娠分娩时羊水的状况等,对生命健康的研究与临床实践都极为关键。程远团队研发女娲生命流体基础模型,是基于医学图像预训练的物理保守端到端模型,能够支持复杂几何形状的高精度物理流场模拟。

模型通过医学图像几何约束与物理学方程约束,在实际临床场景里针对复杂血管几何进行高精度血液流体动力学模拟时表现优异。以实际血管几何数据为例,它能够实现仅8%的速度物理场模拟误差,这一数据大幅超越了JMLR 2024上发表的方法,并且计算效率相较于传统CFD提升了百倍之多,极大地提高了模拟的精准性与时效性。

该模型在生命体复杂管网流速预测上误差极低,仅为0.06米每秒。在临床实际应用场景中,模型可以辅助壁面剪切力与血管壁增厚关联分析等方面的科学研究,以及脑动脉瘤破裂风险预估等临床诊断。未来,该模型还可以在众多心脑血管疾病的智能诊疗发挥产业潜能,诸如心血管血流模型分析、脑动脉瘤破裂风险预估、动脉血管狭窄支架设计等。

目前,该模型已经顺利完成流体模拟计算流程搭建,与附属华山医院在脑血管瘤风险评估场景深入合作并应用于临床,同时与附属口腔医院合作评估口腔及扁桃体畸形对气流影响,还与其他医院携手模拟心脏内部畸形或病变时的血流情况,这些合作都将有力推动医疗健康技术的进步与发展。

女娲生物分子结构大模型

在生命科学与药物研发领域,理解蛋白质、RNA、DNA以及小分子如何在生物体内相互作用对于揭示多蛋白质结构-功能关系和药物开发至关重要。

复旦大学人工智能创新与产业研究院研究员、上智院AI科学家朱思语团队研发的女娲生物分子结构大模型,是业内首个基于扩散模型的蛋白质动态3D结构预测模型,该模型突破了AlphaFold3在动态结构预测上的局限性。

该模型依据不同数据特性,采用不同分子处理等级,统一至token等级,以获取生物分子复合结构的几何embedding信息。同时,该模型利用共进化信息与Template信息,建模复合物中各个原子之间的作用关系,并通过扩散模型实现原子级别的坐标建模,捕捉蛋白质和其它生物分子的相互关系,达到了Alphafold3的同等水平。

AlphaFold3作为蛋白质结构预测领域的佼佼者,以其静态结构预测能力著称,然而,生物结构的复杂性远不止静态形态。女娲生物结构大模型通过动态结构生成技术,能够模拟生物分子在微观状态下的动态变化,其动态精度比既有机器学习方法提高 50%,能够实现长达32个时间点和256序列长度的动态结构预测,这一创新使得模型能够捕捉到生物分子在不同时间和条件下的行为,为生物医药研究提供了更为精确的数据支持。

此外,该模型还能根据物理条件,如温度、加速度和力等条件信息,对生物结构进行精确控制和预测。同时还能够生成多种蛋白质构象,这有助于识别潜在的药物结合位点,从而加速新药的发现和开发。其中,基于扩散模型构建的蛋白质多构象采样算法表现卓越,相较于现有的SOTA的alphaflow算法,在精确度基本持平的情况下,采样多样性提升了50%。

研发团队的目标是创建一个能够全面模拟生物结构多样性的模型,以辅助制药流程和药物筛选,未来应用前景广阔,尤其在生物医药合成领域,有望通过模拟方式减少实验需求,提高药物研发效率,为生命科学研究和药物开发带来新的曙光。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号