问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

纽约大学等机构开发TM-Vec模型:快速蛋白质同源检测与比对新突破

创作时间:
作者:
@小白创作中心

纽约大学等机构开发TM-Vec模型:快速蛋白质同源检测与比对新突破

引用
1
来源
1.
https://hub.baai.ac.cn/view/19308

在蛋白质结构预测和比对领域,纽约大学等机构的研究团队开发了一种名为TM-Vec的新模型。该模型通过深度学习技术,能够快速检测和比对蛋白质序列的同源性,为生物信息学研究提供了新的工具。本文将详细介绍TM-Vec的工作原理、性能评估及其在蛋白质结构搜索中的应用。


图1:TM-Vec概述

TM-Vec的工作流程

TM-Vec的工作流程主要分为两个阶段:搜索和比对。

  1. 搜索阶段:对于需要搜索的蛋白质序列,TM-Vec快速检索那些被预测为与查询序列有相似结构(TM-scores)的蛋白质。
  2. 比对阶段:TM-Vec-align产生具有最高预测结构相似性的蛋白质的比对。

模型训练与数据库构建

TM-Vec的训练过程如下:

  1. 输入一对蛋白质序列,使用预训练的深度蛋白质语言模型提取每个残基的嵌入。
  2. 应用孪生神经网络对每个序列的嵌入进行处理,生成向量表征。
  3. 计算向量表征的余弦相似度,作为这对序列的TM-score(结构相似度)的预测。

为了实现快速检索,研究团队建立了TM-Vec数据库:

  1. 从SwissProt数据库中提取蛋白质序列。
  2. 使用TM-Vec模型对每个序列进行编码,生成向量表征。
  3. 建立一个基于向量表征的索引数据库。

性能评估

研究团队对TM-Vec模型进行了全面的性能评估,主要集中在结构相似性预测和比对能力上。

结构相似性预测

研究团队建立了两个TM-Vec模型,并在SwissProt和CATHS40的蛋白质序列对上进行了基准测试。

  1. SwissProt TM-score预测误差:针对不同序列同一性的对,评估预测误差。测试集包含超过100万个配对,序列相似性范围从[0, 0.1]到(0.9, 1]。

  2. 预测误差对比:将TM-Vec的预测误差与TM-align的TM-score进行比较,测试基准包括pair、domain和fold三个层次。

  3. T-SNE可视化:在CATH分类层(类、拓扑、结构、同源)中,对代表性最强的5个类别的蛋白质嵌入进行可视化。结果显示,TM-Vec嵌入比ProtTrans生成的默认蛋白质序列嵌入更好地分离结构类别。

  4. CATH标签预测能力:与ProtTrans和5种基于结构的方法(cliques、GRAFENE、ORCA、DeepFRI和GCN)进行比较,评估TM-Vec预测CATH标签的能力。

蛋白质注释和比对

在Malidup基准中,研究团队对蛋白质进行了注释和比对测试。

  1. 序列和结构比对方法比较:将TM-Vec与Needleman-Wunsch(序列比对方法)以及Fast、Dali、TM-align(结构比对方法)进行比较。结果显示,TM-Vec的表现与结构比对方法相当,且优于Needleman-Wunsch。

  2. 具体案例分析:以两个重复的Annexin结构域为例,展示了TM-Vec-align的准确对齐能力(TM-score=0.75),而Needleman-Wunsch的对齐效果较差(TM-score=0.33)。

创新点与应用前景

  1. 缩小序列-结构差距:TM-Vec能够从序列信息中进行结构比对,并在大规模蛋白质序列数据库中进行远程同源搜索。
  2. CATH层次区分能力:与基于序列和基于结构的方法相比,TM-Vec能够竞争性地区分CATH层次的层级。
  3. 性能优势:TM-Vec能够预测接近现有结构相似性方法的结构相似性,同时具有比BLAST更高的准确度和更低的运行时间。
  4. 生物注释新机遇:鉴于BLAST等工具在生物医学领域的广泛应用,TM-Vec有望为生物注释提供新的机会。其高结构精度和快速查询能力,可以弥补数十亿观察到的蛋白质的序列-结构-功能差距。

总结

TM-Vec模型的开发为蛋白质结构预测和比对领域带来了新的突破。通过深度学习技术,该模型不仅提高了预测的准确性和效率,还为生物信息学研究提供了新的工具和思路。随着模型的不断迭代和优化,TM-Vec有望在未来的生物医学研究中发挥重要作用。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号