比现有方法快5倍,南方科技大学团队提出基于二级结构的蛋白质功能预测模型
比现有方法快5倍,南方科技大学团队提出基于二级结构的蛋白质功能预测模型
南方科技大学廖茂富教授团队联合华大智造倪鸣博士,在《生物信息学简讯》(Briefings in Bioinformatics)上发表了一篇重要研究论文。他们提出了一种名为DeepSS2GO的深度神经网络模型,该模型结合了蛋白质的二级结构特征、一级序列和同源性信息,能够快速准确地预测蛋白质功能。
蛋白质功能预测是理解生物生命过程、预防疾病和开发新药物靶点的关键。近年来,基于序列、结构和生物网络的蛋白质功能标注方法得到了广泛研究。然而,现有的基于一级序列或三级结构的预测方法存在局限性:仅通过氨基酸序列信息预测功能具有挑战性,而利用三级结构虽然能提高准确性,但耗时较长,不适合大规模数据分析。
DeepSS2GO模型巧妙地将基于序列的信息速度与基于结构的特征准确性相结合,同时简化了一级序列中的冗余数据,并绕过了三级结构分析的耗时挑战。研究结果表明,该算法的预测性能优于目前最先进的算法,且预测速度比先进算法快5倍,非常适合处理大量测序数据。
DeepSS2GO模型结构
DeepSS2GO模型的结构如图1所示。首先,使用SPOT-1D-LM套件将初级氨基酸序列批量转化为二级结构。SPOT-1D-LM结合了ESM-1b和Prottrans预训练模型进行蛋白质二级结构预测,但受限于蛋白质长度,需要筛选长度不大于1024的蛋白质序列。
然后,将一级序列和二级结构分别输入深度学习模型(图2B),得出对pred-aa和pred-ss8的初步预测。同时,使用Diamond方法进行同源性比较,这是一种高速高性能的蛋白质同源性搜索工具。最后,将三个预测分数组合计算最终预测分数。
由于初级序列和次级结构都是一维线性数据结构,研究团队采用了最经典、最简洁的CNN提取其特征。对于给定的蛋白质序列,首先将其转换成一个独热矩阵。数据集中的蛋白质序列长度均不大于1024,如果输入是一级氨基酸序列,则矩阵大小为[1024,21];如果输入是二级结构,则矩阵大小为[1024,9]。然后,输入通过一系列具有不同核大小和过滤器的CNN层,然后是最大池化层,并通过Sigmoid函数分别归一化为n种GO项的评分范围[0,1]。接下来,分别对model-aa和model-ss8进行训练,模型Pred-aa或Pred-ss8预测的GO分数将与Pred-bit-score相结合,得出最终分数。
性能评估指标
在蛋白质功能预测中,研究团队采用了三个关键指标进行绩效评估:
- Fmax:是在所有潜在阈值设置中实现的最大F值,反映了精度和召回率之间的最佳平衡。
- AUPR:是所有潜在阈值下的精确召回曲线下的面积。它在不平衡数据集中评估模型性能,特别是在正样本和负样本数量存在巨大差异时。与传统的受试者工作特征曲线(ROC)相比,AUPR对模型对少数类的预测性能更为敏感。
- Smin:是最小灵敏度指数,即跨阈值的真阳性率和假阳性率之间的差距的计算,可以精确地评估分类器在正实例和负实例之间的判别能力。
模型对比与消融实验
研究团队将DeepSS2GO与一些具有代表性的方法进行了比较。如表1所示,DeepSS2GO在三个数据集的大多数指标上超越了现有方法。
此外,研究团队还设计了消融实验来验证模型设计的有效性。结果显示,同时使用序列信息模型Pred-aa、二级结构信息模型Pred-ss8以及同源性对齐模型Diamond预测的DeepSS2GO在三个数据集的所有性能指标上超越了消融模型。
案例分析
研究团队以LYPA2_MOUSE蛋白(UniProt Symbol: Q9WTL7)为例进行了案例分析。LYPA2_MOUSE蛋白是一种酰基蛋白硫酯酶,负责水解附着在各种蛋白质中s-酰基化半胱氨酸残基上的脂肪酸。研究发现,DeepSS2GO成功地准确预测了所有标签,超越了所有其他同类算法。
未来展望
虽然DeepSS2GO已经取得了显著成果,但仍有一些改进空间。例如,可以探索更先进的深度学习算法(如图神经网络、扩散模型等)来进一步提高预测准确性。此外,目前模型受限于蛋白质序列长度,未来可以开发更通用的二级结构预测方法来扩展应用范围。
这项研究由南方科技大学廖茂富教授团队联合华大智造倪鸣博士完成,相关成果发表在《生物信息学简讯》(Briefings in Bioinformatics)上。