机器学习预测细菌间水平基因转移,助力控制抗生素耐药性传播
机器学习预测细菌间水平基因转移,助力控制抗生素耐药性传播
康奈尔大学的研究团队开发了一种基于机器学习的预测模型,能够准确预测细菌间水平基因转移(HGT)事件,特别是抗生素耐药性基因的传播。这项研究不仅揭示了HGT事件的关键驱动因素,还为预测和控制抗生素耐药性传播提供了新的工具。
水平基因转移(HGT)是一种普遍的进化过程,导致基因在不同的原核谱系之间分布。尽管这一过程塑造了微生物的古老进化,但最近的转移事件是抗生素或金属抗性基因、毒力因子和其他对人类感染过程具有深远影响的特征传播的基础。
康奈尔大学的研究人员将机器学习算法应用于一组精选的不同细菌基因组,以梳理特定功能特征对 HGT 事件的重要性。研究人员发现功能性内容准确预测HGT网络,涉及抗生素抗性基因(ARG)的转移的性能进一步提高,突出了HGT机制、生态位特异性和代谢功能的重要性。发现尚未检测到的高概率 ARG 转移事件,几乎是人类相关细菌所独有的。该方法在预测病原体的 HGT 网络方面是可靠的,包括鲍曼不动杆菌和大肠杆菌,以及在局部环境中,例如个人的肠道微生物组。
研究方法
研究团队构建了一个观察到的基因转移事件的无向网络。在从几个公共数据库下载基因组后,特别注意去除这些基因组中可能被错误注释为 HGT 的任何潜在污染物(宿主或载体传播的),以及由CheckM确定的完整性较低(<90%)或污染分数较高(>5%)的任何基因组。
这产生了一个由 12,518 个分离和测序的基因组组成的数据集,代表 10,500 多个细菌物种,从公开可用的数据集中获得。为了减少抽样偏差,研究人员为每个物种最多选择了三个分离株或 97% 16S 核糖体 RNA (rRNA) 相似性簇。由于在这种大小的基因组上应用基于系统发育的方法进行 HGT 检测的计算限制,以及在大规模识别密切相关生物之间最近转移的挑战;研究人员使用先前审查过的启发式方法来识别参与 HGT 的生物。
HGT 阳性边缘被定义为远亲生物(其 16S rRNA 的序列相似性低于 97%)之间的那些,它们具有至少 500 个碱基对 (bp) 的几乎相同(99% 或更高的序列相似性)DNA 区域。最终的 HGT 网络是稀疏的,由 6566 个基因组中观察到的 147,889 个 HGT 事件或大约 7830 万个成对比较的 0.189% 组成。
研究发现
研究团队发现,基因组的功能内容可以准确预测 HGT 率。在预测 HGT 时,利基特异性、代谢和移动性状非常重要。门间(Interphylum) HGT 事件特别重要,因为它们可能导致在 HGT 与共生生物发生后,病原生物最近出现抗生素耐药性。
研究人员评估了预测时特别涉及一种或多种 ARG 转移的能力;这些转移占观察到的 HGT 事件的 43.63% 和所有门间转移的 47.44%。尽管边缘较少,但 HGT 预测提高到近乎完美的准确度(RF:平均 AUROC = 0.990;具有 60% 未删失边缘的 GCN,平均 AUROC = 0.993)并且重要特征在所有转移训练的模型中保持基本一致。
研究人员检查了测试数据中的稀有边缘(23,545 个边缘中的 46 个,或 0.2%),这些边缘实现了 ARG-HGT 的高预测概率(超过 0.9),但没有检测到转移。这些边缘几乎是厚壁菌门、拟杆菌门和放线菌门的人类相关肠道和口腔微生物组成员所独有的;涉及几种病原体;并且不同于随机排列的 HGT 负边缘样本。
应用前景
这项工作的前景在于它能够预测病原体之间的潜在传播。作为概念证明,研究人员使用原始数据集回顾性分析了病原分离物集合的 HGT 网络。研究人员在所有 ARG 类别中都实现了可靠的预测(平均 AUROC 范围从 0.756 到 0.967)。
令人惊讶的是,最近 HGT 事件的可预测性不仅在最广泛的范围内、跨门和生物群落是显而易见的,而且还扩展到特定环境,例如个体的肠道或植物的根茎,甚至在单个致病物种进化枝内, 表明选择的特征优于随机抽样。
最近 HGT 事件的可预测性让研究人员更好地了解细菌对快速变化的条件的适应,例如由抗生素的人为传播带来的条件。这开启了量化病原体和微生物组成分之间 HGT 风险的可能性,这些风险导致新型抗生素抗性菌株的出现和 ARG 库在局部环境中的扩张。该框架可用于改进用于改造微生物组的移动遗传元件的设计,或告知通过治愈或消除质粒或抑制结合来减少 ARG 负担的策略。
网络拓扑足以预测 HGT
HGT 的预测对于小型生态特定数据集是准确的