Nature Methods重磅：可解释机器学习助力生物研究突破

创作时间:

作者:

@小白创作中心

Nature Methods重磅：可解释机器学习助力生物研究突破

引用

国家自然科学基金委员会

等

来源

https://www.nsfc.gov.cn/csc/20340/20343/68360/index.html

https://m.medsci.cn/article/show_article.do?id=a0348280800c

https://blog.csdn.net/weixin_47195452/article/details/145317469

https://m.medsci.cn/article/show_article.do?id=0ae583e4235c

https://www.ebiotrade.com/newsf/2024-8/20240811070348392.htm

https://neurips.cc/virtual/2024/poster/98319

https://ai-scholar.tech/zh/articles/large-language-models/llm-in-bioinformatics

https://www.ebiotrade.com/newsf/2024-3/20240307045622175.htm

https://hanlab.net/newsinfo/7494370.html

10.

https://swarma.org/?p=52109

11.

https://www.jiqizhixin.com/articles/2025-01-21-11

近日，卡内基梅隆大学研究团队在《Nature Methods》发表重要论文，探讨了可解释机器学习（IML）在计算生物学领域的应用指南。这一研究不仅揭示了IML方法在基因表达预测、表观遗传修饰以及蛋白质-DNA相互作用等方面的重要应用，更为复杂生物环境下的模型解释提供了新的视角和机会。

基因表达预测：从DNA序列到功能解读

在基因组学研究中，准确预测基因表达模式是理解生物功能的关键。近年来，基于大规模语言模型的生物信息学方法取得了显著进展。例如，DNABERT-2模型通过引入基因组理解评估（GUE）数据集，在28个测试任务中的23个取得了性能提升。而基因组预学习网络（GPNs）则通过无监督预学习，实现了对全基因组变异效应的精准预测。

表观遗传修饰：解码生命的“第二语言”

表观遗传修饰通过化学标签调节基因表达，是生命活动的重要调控机制。亥姆霍兹慕尼黑大学的研究团队开发了一种创新方法，通过试管实验结合人工智能，成功解析了不同表观遗传修饰组合如何协同工作。研究发现，某些表观遗传标记对基因活性具有显著影响，而这些发现已被整合到一个名为“染色质状态调节的修改图谱”的在线资源中，供全球科研人员使用。

蛋白质-DNA相互作用：突破传统实验局限

蛋白质与DNA的相互作用是生命活动的基础，但传统实验方法存在周期长、成本高等问题。湖南大学彭绍亮教授课题组在Nature Communications上发表的研究提出了一种新的解决方案。他们开发的ESM-DBP模型通过领域自适应预训练，显著提高了DNA结合蛋白预测的准确性。特别值得一提的是，该模型在低同源蛋白序列上的预测性能远超现有方法，并通过可解释性分析揭示了模型对DNA结合域的关注机制。