增强人工智能助力药物研发的四种方法
增强人工智能助力药物研发的四种方法
药物研发极具挑战性。德国 Evotec 公司的计算化学家大卫・帕尔多指出:“在现代医学约 100 年的时间里,我们仅为大约 7000 种罕见病中的 500 种左右找到了治疗方法,研发耗时太长且成本过高。”不过,理论上人工智能(AI)有望解决这些难题,这让很多人充满期待。
规范报告与实验方法
学术科学家的灵活性在科研中是优势,但对机器学习而言却可能是问题。不同实验室在实验方法、试剂、仪器使用上的差异,会使数据产生 “批次效应”,导致 AI 模型错误解读数据。例如 ChEMBL 数据库,虽应用广泛,但整合的信息存在不一致性。要解决这一问题,需制定实验操作和报告规则,统一疾病、基因命名和实验方案。“人类细胞图谱” 项目以标准化方式绘制人体细胞图谱,为 AI 提供了优质数据。Polaris 平台也在为机器学习清理和规范数据集,还会对符合标准的数据集给予认证。
重视阴性结果的价值
学术研究中,报告实验失败成果往往难以发表,制药公司也倾向于隐藏阴性结果,这使得 AI 获取的数据存在偏差。以新型抗生素研发为例,基于已发表研究,AI 模型会过度推荐含特定结构的化合物,但实际并非如此有效,只因阴性结果未被公开。詹姆斯・弗雷泽领导的 “避错组学” 项目致力于解决这一问题,该项目收集药物代谢动力学相关数据,为 AI 提供全面信息,帮助创建预测模型,优化候选药物的药代动力学。
共享行业数据与专业知识
制药公司积累了大量数据,却很少公开。虽然有 Melloddy 这样的项目尝试促进数据共享,但在数据合并和匿名化方面仍面临难题。一些研究人员呼吁制药公司资助公共数据库,如英国生物银行,以此改善公共数据集的状况。
充分利用现有资源
部分研究人员认为,大量数据结合智能处理,能有效推动 AI 在药物研发中的应用。Insilico Medicine 公司整合多方数据并进行处理,借助 AI 平台发现疾病靶点和候选药物。同时,他们主张利用现有不太理想的公共数据,建立小规模高质量数据集,用于测试 AI 模型的准确性。