比现有方法快5倍，南方科技大学团队提出基于二级结构的蛋白质功能预测模型

创作时间:

作者:

@小白创作中心

比现有方法快5倍，南方科技大学团队提出基于二级结构的蛋白质功能预测模型

引用

来源

https://cloud.tencent.com/developer/article/2426782

南方科技大学廖茂富教授团队联合华大智造倪鸣博士，在《生物信息学简讯》（Briefings in Bioinformatics）上发表了一篇重要研究论文。他们提出了一种名为DeepSS2GO的深度神经网络模型，该模型结合了蛋白质的二级结构特征、一级序列和同源性信息，能够快速准确地预测蛋白质功能。

蛋白质功能预测是理解生物生命过程、预防疾病和开发新药物靶点的关键。近年来，基于序列、结构和生物网络的蛋白质功能标注方法得到了广泛研究。然而，现有的基于一级序列或三级结构的预测方法存在局限性：仅通过氨基酸序列信息预测功能具有挑战性，而利用三级结构虽然能提高准确性，但耗时较长，不适合大规模数据分析。

DeepSS2GO模型巧妙地将基于序列的信息速度与基于结构的特征准确性相结合，同时简化了一级序列中的冗余数据，并绕过了三级结构分析的耗时挑战。研究结果表明，该算法的预测性能优于目前最先进的算法，且预测速度比先进算法快5倍，非常适合处理大量测序数据。

DeepSS2GO模型结构

DeepSS2GO模型的结构如图1所示。首先，使用SPOT-1D-LM套件将初级氨基酸序列批量转化为二级结构。SPOT-1D-LM结合了ESM-1b和Prottrans预训练模型进行蛋白质二级结构预测，但受限于蛋白质长度，需要筛选长度不大于1024的蛋白质序列。

然后，将一级序列和二级结构分别输入深度学习模型（图2B），得出对pred-aa和pred-ss8的初步预测。同时，使用Diamond方法进行同源性比较，这是一种高速高性能的蛋白质同源性搜索工具。最后，将三个预测分数组合计算最终预测分数。

由于初级序列和次级结构都是一维线性数据结构，研究团队采用了最经典、最简洁的CNN提取其特征。对于给定的蛋白质序列，首先将其转换成一个独热矩阵。数据集中的蛋白质序列长度均不大于1024，如果输入是一级氨基酸序列，则矩阵大小为[1024,21]；如果输入是二级结构，则矩阵大小为[1024,9]。然后，输入通过一系列具有不同核大小和过滤器的CNN层，然后是最大池化层，并通过Sigmoid函数分别归一化为n种GO项的评分范围[0,1]。接下来，分别对model-aa和model-ss8进行训练，模型Pred-aa或Pred-ss8预测的GO分数将与Pred-bit-score相结合，得出最终分数。

性能评估指标

在蛋白质功能预测中，研究团队采用了三个关键指标进行绩效评估：

Fmax：是在所有潜在阈值设置中实现的最大F值，反映了精度和召回率之间的最佳平衡。
AUPR：是所有潜在阈值下的精确召回曲线下的面积。它在不平衡数据集中评估模型性能，特别是在正样本和负样本数量存在巨大差异时。与传统的受试者工作特征曲线(ROC)相比，AUPR对模型对少数类的预测性能更为敏感。
Smin：是最小灵敏度指数，即跨阈值的真阳性率和假阳性率之间的差距的计算，可以精确地评估分类器在正实例和负实例之间的判别能力。