问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

DeepTMHMM:α-螺旋和 β-桶跨膜蛋白的预测工具详解

创作时间:
作者:
@小白创作中心

DeepTMHMM:α-螺旋和 β-桶跨膜蛋白的预测工具详解

引用
CSDN
1.
https://blog.csdn.net/weixin_41368414/article/details/141075008

DeepTMHMM是一种基于深度学习的跨膜蛋白预测工具,能够以高精度预测α-螺旋和β-桶跨膜蛋白的拓扑结构。本文将详细介绍DeepTMHMM的算法原理、使用方法及结果解读,帮助研究人员更好地利用这一工具进行蛋白质结构预测。

简 介

跨膜蛋白跨越脂质双分子层,分为两种主要结构类,即螺旋状和桶状。DeepTMHMM是一种基于深度学习蛋白质语言模型的算法,可以以前所未有的精度检测和预测α-螺旋和β-桶跨膜蛋白的拓扑。DeepTMHMM可扩展到蛋白质组,并涵盖生命的所有领域,这使其成为宏基因组学分析的理想选择。

在过去的几年中,使用深度学习方法进行蛋白质结构预测已经取得了一些进展。在这个项目中,我们研究了深度学习预测跨膜蛋白的膜拓扑结构。跨膜蛋白与药物开发相关,因为它们占所有人类药物靶点的50%以上。DeepTMHMM是目前预测α-螺旋和β-桶跨膜蛋白拓扑结构最完整、性能最好的方法。该模型通过预训练的语言模型对初级氨基酸序列进行编码,并通过状态空间模型对拓扑进行解码,从而以前所未有的精度产生拓扑和类型预测。DeepTMHMM使扫描全蛋白质组成为可能,以便检测两类跨膜蛋白,我们预计我们的方法对研究界非常有价值。

分析流程

a.考虑的蛋白质类型的蛋白质拓扑结构的状态空间模型。1a顶部为AlphaTM、SP+TM、Glob和SP+Glob拓扑,底部为原核β桶和SP+Glob拓扑。蛋白质序列从n端开始(为了清晰地在图中分开),在c端结束,箭头表示向其他“区室”的过渡。该模型可以在预先指定的范围内,在每个隔间内停留若干个残差。

b. DeepTMHMM神经网络架构由ESM1-b模型(如图“Embedding”所示)、双向LSTM、带dropout的密集层和最后的CRF解码器层组成。

文件准备

这个输入文件只有一个文件可以是蛋白序列文件,例如:

>GLR1_DROME Glutamate receptor 1 OS=Drosophila melanogaster GN=GluRIA PE=1 SV=2
MHSRLKFLAYLHFICASSIFWPEFSSAQQQQQTVSLTEKIPLGAIFEQGTDDVQSAFKYAMLNHNLNVSSRRFELQAYVDVINTADAFKLSRLICNQFSRGVYSMLGAVSPDSFDTLHSYSNTFQMPFVTPWFPEKVLAPSSGLLDFAISMRPDYHQAIIDTIQYYGWQSIIYLYDSHDGLLRLQQIYQELKPGNETFRVQMVKRIANVTMAIEFLHTLEDLGRFSKKRIVLDCPAEMAKEIIVQHVRDIKLGRRTYHYLLSGLVMDNHWPSDVVEFGAINITGFRIVDSNRRAVRDFHDSRKRLEPSGQSQSQNAGGPNSLPAISAQAALMYDAVFVLVEAFNRILRKKPDQFRSNHLQRRSHGGSSSSSATGTNESSALLDCNTSKGWVTPWEQGEKISRVLRKVEIDGLSGEIRFDEDGRRINYTLHVVEMSVNSTLQQVAEWRDDAGLLPLHSHNYASSSRSASASTGDYDRNHTYIVSSLLEEPYLSLKQYTYGESLVGNDRFEGYCKDLADMLAAQLGIKYEIRLVQDGNYGAENQYAPGGWDGMVGELIRKEADIAISAMTITAERERVIDFSKPFMTLGISIMIKKPVKQTPGVFSFLNPLSQEIWISVILSYVGVSFVLYFVTRFPPYEWRIVRRPQADSTAQQPPGIIGGATLSEPQAHVPPVPPNEFTMLNSFWYSLAAFMQQGCDITPPSIAGRIAAAVWWFFTIILISSYTANLAAFLTVERMVAPIKTPEDLTMQTDVNYGTLLYGSTWEFFRRSQIGLHNKMWEYMNANQHHSVHTYDEGIRRVRQSKGKYALLVESPKNEYVNARPPCDTMKVGRNIDTKGFGVATPIGSPLRKRLNEAVLTLKENGELLRIRNKWWFDKTECNLDQETSTPNELSLSNVAGIYYILIGGLLLAVIVAIMEFFCRNKTPQLKSPGSNGSAGGVPGMLASSTYQRDSLSDAIMHSQAKLAMQASSEYDERLVGVELASNVRYQYSM

在线分析

在线网址DeepTMHMM,在线使用还是非常简单,序列少可以优先选择在线操作。

线上分析对数据量要求有一定局限性:

粘贴序列测试结果:

或者在DeepTMHMM在线分析,结果是一样的。

本地分析

软件包安装

pip3 install pybiolib

测试安装是否成功:

biolib run DTU/DeepTMHMM --help
usage: wrapper.py
       [-h]
       [--fasta FASTA]
       [--N_SLEEP_SECONDS N_SLEEP_SECONDS]
       [--local]
       [--verbose]
WARNING:
Wrong
DeepTMHMM
version
downloaded.
Please use
biolib run 
'DTU/DeepTM
HMM:1.0.24'
optional arguments:
  -h, --help
    show this
    help
    message and
    exit
  --fasta FASTA
  --N_SLEEP_SECONDS N_SLEEP_SECONDS
  --local
    Connect to
    localhost
    monolith
  --verbose
    Connect to
    localhost
    monolith

实际操作

  1. 参数说明

--fasta 输入蛋白序列

--local 从终端本地运行,这里需要安装Docker才能使用

其他参数根据自己使用的环境设置。

  1. 实际操作命令如下:

测试例子来自在线分析上的一个序列,并且启用预测:

biolib run DTU/DeepTMHMM --fasta test.fa
#2024-08-09 03:44:18,581 | INFO : Extracted zip file to: output/
#2024-08-09 03:44:18,581 | INFO : Done in 4.41 seconds

结果解读

生产文件夹 biolib_results/,里面有很多个文件:

再看一下TMRs.gff3文件:

第一列:序列名称

第二列:预测类型

第三列:起始位置

第四列:终止位置

Reference

Jeppe Hallgren, Konstantinos D. Tsirigos, Mads Damgaard Pedersen, José Juan Almagro Armenteros, Paolo Marcatili, Henrik Nielsen, Anders Krogh, Ole Winther bioRxiv 2022.04.08.487609.

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号