纽约大学等机构开发TM-Vec模型:快速蛋白质同源检测与比对新突破
纽约大学等机构开发TM-Vec模型:快速蛋白质同源检测与比对新突破
在蛋白质结构预测和比对领域,纽约大学等机构的研究团队开发了一种名为TM-Vec的新模型。该模型通过深度学习技术,能够快速检测和比对蛋白质序列的同源性,为生物信息学研究提供了新的工具。本文将详细介绍TM-Vec的工作原理、性能评估及其在蛋白质结构搜索中的应用。
图1:TM-Vec概述
TM-Vec的工作流程
TM-Vec的工作流程主要分为两个阶段:搜索和比对。
- 搜索阶段:对于需要搜索的蛋白质序列,TM-Vec快速检索那些被预测为与查询序列有相似结构(TM-scores)的蛋白质。
- 比对阶段:TM-Vec-align产生具有最高预测结构相似性的蛋白质的比对。
模型训练与数据库构建
TM-Vec的训练过程如下:
- 输入一对蛋白质序列,使用预训练的深度蛋白质语言模型提取每个残基的嵌入。
- 应用孪生神经网络对每个序列的嵌入进行处理,生成向量表征。
- 计算向量表征的余弦相似度,作为这对序列的TM-score(结构相似度)的预测。
为了实现快速检索,研究团队建立了TM-Vec数据库:
- 从SwissProt数据库中提取蛋白质序列。
- 使用TM-Vec模型对每个序列进行编码,生成向量表征。
- 建立一个基于向量表征的索引数据库。
性能评估
研究团队对TM-Vec模型进行了全面的性能评估,主要集中在结构相似性预测和比对能力上。
结构相似性预测
研究团队建立了两个TM-Vec模型,并在SwissProt和CATHS40的蛋白质序列对上进行了基准测试。
SwissProt TM-score预测误差:针对不同序列同一性的对,评估预测误差。测试集包含超过100万个配对,序列相似性范围从[0, 0.1]到(0.9, 1]。
预测误差对比:将TM-Vec的预测误差与TM-align的TM-score进行比较,测试基准包括pair、domain和fold三个层次。
T-SNE可视化:在CATH分类层(类、拓扑、结构、同源)中,对代表性最强的5个类别的蛋白质嵌入进行可视化。结果显示,TM-Vec嵌入比ProtTrans生成的默认蛋白质序列嵌入更好地分离结构类别。
CATH标签预测能力:与ProtTrans和5种基于结构的方法(cliques、GRAFENE、ORCA、DeepFRI和GCN)进行比较,评估TM-Vec预测CATH标签的能力。
蛋白质注释和比对
在Malidup基准中,研究团队对蛋白质进行了注释和比对测试。
序列和结构比对方法比较:将TM-Vec与Needleman-Wunsch(序列比对方法)以及Fast、Dali、TM-align(结构比对方法)进行比较。结果显示,TM-Vec的表现与结构比对方法相当,且优于Needleman-Wunsch。
具体案例分析:以两个重复的Annexin结构域为例,展示了TM-Vec-align的准确对齐能力(TM-score=0.75),而Needleman-Wunsch的对齐效果较差(TM-score=0.33)。
创新点与应用前景
- 缩小序列-结构差距:TM-Vec能够从序列信息中进行结构比对,并在大规模蛋白质序列数据库中进行远程同源搜索。
- CATH层次区分能力:与基于序列和基于结构的方法相比,TM-Vec能够竞争性地区分CATH层次的层级。
- 性能优势:TM-Vec能够预测接近现有结构相似性方法的结构相似性,同时具有比BLAST更高的准确度和更低的运行时间。
- 生物注释新机遇:鉴于BLAST等工具在生物医学领域的广泛应用,TM-Vec有望为生物注释提供新的机会。其高结构精度和快速查询能力,可以弥补数十亿观察到的蛋白质的序列-结构-功能差距。
总结
TM-Vec模型的开发为蛋白质结构预测和比对领域带来了新的突破。通过深度学习技术,该模型不仅提高了预测的准确性和效率,还为生物信息学研究提供了新的工具和思路。随着模型的不断迭代和优化,TM-Vec有望在未来的生物医学研究中发挥重要作用。