进化信息机器学习增强基因与表型关系预测能力
进化信息机器学习增强基因与表型关系预测能力
从基因组信息中准确预测生物体的表型特征是一个极具挑战性的科学问题。近日,纽约大学等机构的研究团队在《自然通讯》杂志上发表了一项重要研究成果,他们开发了一种基于进化信息的机器学习方法,显著提高了预测基因与表型关系的能力。
研究背景与挑战
利用基因组数据预测生物体对营养、毒素和病原体等环境因素的反应,对于作物改良、疾病预后、流行病学和公共卫生等领域具有重要意义。然而,从基因组规模信息中准确预测复杂的表型性状面临诸多挑战:
- 高质量表型数据的收集难度大
- 实验中收集的表型数据与测序数据存在样品和实验差异
- 数据稀疏性、多重共线性、多重测试和过拟合等问题
研究方法与创新
为解决上述挑战,研究团队提出了一种基于进化信息的机器学习方法,通过利用物种内部和跨物种的遗传多样性来增强预测能力。具体步骤如下:
功能选择:从拟南芥和玉米在低氮与高氮条件下的转录组数据中,鉴定出在两个物种中保守的氮响应差异表达基因(N-DEG)作为特征。
特征重要性评估:使用XGBoost算法计算特征重要性得分,并结合GENIE 3调控网络分析,确定关键转录因子(TF)。
特征验证:通过拟南芥和玉米的功能丧失突变体验证关键TF对氮素利用效率(NUE)的影响。
图1:进化信息机器学习方法流程示意图
研究结果
1. 拟南芥和玉米的NUE表型量化
拟南芥:NUE计算为每株植物将供能氮素转化为茎部生物量的效率,变异系数CV为0.58(图2a)。性状相关性分析表明,抽薹前NUE与NUpE高度相关(r = 0.88),与NUtE相关性较低(r = 0.39)(图2b)。
玉米:使用总NUtE(秸秆生物量+谷粒生物量)/(秸秆N含量+谷粒N含量)作为目标性状,变异系数CV为0.15(图3a)。ANOVA结果显示,55%的变异归因于遗传效应(图3c)。
图5:进化信息机器学习模型预测结果
2. 进化保守的转录组特征降维
研究发现,进化保守的氮响应差异表达基因(N-DEG)可以作为有效的特征降维手段,显著改善机器学习模型的预测性能(图4)。
3. 模型验证与泛化能力
研究团队进一步将该方法应用于水稻和小鼠的转录组数据集,证明了其在不同物种和性状预测中的普遍适用性。结果显示,基于转录的预测可以使用更小的群体实现,相比GWAS和eQTL研究所需的样本量大幅减少。
图6:功能丧失突变体验证结果
结论与展望
这项研究展示了遗传多样性、跨物种转录组分析和机器学习方法的融合在预测复杂表型性状中的强大潜力。通过进化信息指导的特征选择和机器学习模型优化,研究团队不仅提高了预测精度,还揭示了控制氮素利用效率的关键基因。这一方法有望为作物改良、疾病诊断等领域的研究提供新的思路和工具。