基于机器学习预测噬菌体宿主
基于机器学习预测噬菌体宿主
随着细菌耐药性问题日益严重,噬菌体疗法作为抗生素的替代方案受到越来越多的关注。然而,如何准确预测噬菌体的宿主细菌一直是该领域面临的一大挑战。近日,来自深圳大学、香港大学和哈尔滨工业大学的研究团队提出了一种基于机器学习的新方法,能够显著提高噬菌体宿主预测的准确性。
噬菌体是地球上最多样化和最丰富的生物,它们能够通过将其基因组注入宿主细胞来调节生态系统。噬菌体疗法试图寻找有效的噬菌体来消除细菌,这在临床抗菌试验、靶向植物病原体和食品安全等各个领域都受到了高度关注。然而,由于缺乏噬菌体与细菌之间有效噬菌体相互作用的先验知识,以及高通量基因组和表观基因组实验耗时且成本高,因此很难鉴定这些有效的噬菌体。因此,噬菌体宿主预测(HPP) 成为一个紧迫的问题,它试图找到可以被某些噬菌体感染的特定细菌。
近年来,人们提出了许多解决HPP问题的计算方法,主要分为两类:基于对齐的方法和基于学习的方法。基于比对的方法首先计算噬菌体和原核基因组之间的相似性,然后根据基因相似性比对噬菌体和宿主对。基于学习的方法主要使用各种机器学习模型来构建 HPP 任务的预测模型。这些模型首先从噬菌体和宿主序列中提取特征,然后采用某些机器学习算法进行宿主预测。
深度学习方法在各个领域都产生了重大影响,包括生物识别、自然语言处理、图像中物体的识别等。卷积神经网络(CNN)和图卷积网络(GCN)是深度学习方法的两种代表性类型,由于它们在捕获噬菌体和宿主序列的潜在特征方面具有良好的性能,因此已被广泛用于解决HPP任务。
现有的HPP方法主要基于传统的湿实验室实验,既费力又费时。尽管已经出现了某些计算方法来解决这些问题,但它们在基因组和噬菌体重叠群中表现不佳,因为它们忽视了噬菌体在序列和蛋白质簇中的相似性。来自深圳大学、香港大学和哈尔滨工业的研究人员试图通过机器学习的方法提高噬菌体宿主的预测效率,共同参与了这项研究。这项研究中,作者提出了一种简单但准确的多视图注意力图卷积网络(称为PGCN)来解决 HPP 问题。PGCN首先构建两个噬菌体相似性网络作为多视图图,捕获序列和蛋白质簇中噬菌体之间的相似性。然后,PGCN使用图卷积网络从多视图图中捕获噬菌体的特征。最后,PGCN提出了一种自适应注意力机制,从多视图特征中获得噬菌体的整合特征。实验结果表明,PGCN在宿主预测方面优于最先进的方法。结果还显示了PGCN在宏基因组中宿主预测方面的优异性能。
在本文中,作者提出了一种用于解决 HPP 任务的新型图卷积神经网络模型 (PGCN)。PGCN首先构建两个噬菌体相似性网络作为多视图图,捕获序列和蛋白质簇中噬菌体之间的相似性。然后,应用图卷积编码器将特征向量嵌入到图上,并采用自适应注意力技术从嵌入的特征向量中获取积分特征。最后,它使用两层神经网络来预测噬菌体的宿主。对四个数据集的广泛实验表明,所提出的PGCN在物种水平上将宿主预测精度从43%提高到约83%此外,结果验证了所提出的PGCN在宏基因组和短重叠群分析中的可靠性和实用性。请注意,由于菌株之间的高度相似性和菌株水平的有限训练样本,PGCN在菌株水平的宿主预测方面表现不佳。为了应对这一挑战,作者接下来将研究将 PGCN扩展到菌株水平宿主预测的可行性。