问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

一文读懂:AI 为药物研发带来的颠覆性变化

创作时间:
作者:
@小白创作中心

一文读懂:AI 为药物研发带来的颠覆性变化

引用
搜狐
1.
https://m.sohu.com/sa/863502728_121124565

在现代医学的发展进程中,药物研发一直是一项充满挑战的艰巨任务。传统的药物研发模式依赖研发人员的经验以及大量的试错实验,不仅耗费大量的时间和资金,而且成功率相对较低。据相关研究表明,研发一种新药平均需要投入约 26 亿美元,耗时长达 12 - 15 年,然而在临床试验阶段的成功率却不足 10% 。不过,随着人工智能(AI)技术的蓬勃发展,药物研发领域正迎来前所未有的变革机遇。

图 1:Overview of AI applications in the drug development pipeline

AI 驱动药物发现

虚拟筛选:高效筛选 “潜力股”

虚拟筛选在药物研发中起着至关重要的作用,它能够从庞大的化合物库中快速筛选出具有潜在活性的化合物,大大提高药物研发的效率。随着化合物库规模的不断扩大,传统的筛选方法逐渐难以满足需求,而 AI 技术的应用为虚拟筛选带来了革命性的变化。基于 AI 的受体 - 配体对接模型可以预测配体的空间变换,甚至能直接生成复杂原子坐标。例如,基于 AlphaFold2 和 RosettaFold 的受体 - 配体共折叠网络,能够从序列信息直接预测复杂结构。

从头设计:创造全新可能

为了引导设计朝着目标特征发展,通常会引入基于与已知活性分子相似性、预测生物活性等指标的评分函数,并结合强化学习进行迭代优化。但设计合适的评分函数并非易事,直接量化合成可行性、药物相似性等目标难度较大,还可能带来一些意想不到的结果。此外,在分子生成过程中融入疾病相关基因表达特征、药效团、蛋白质序列或结构等约束条件,能更精准地生成所需分子。例如,PocketFlow 模型基于蛋白质口袋条件,成功生成了针对 HAT1 和 YTHDC1 靶点的活性化合物。然而,如何在保证生成分子质量的同时,平衡化学多样性,仍是科研人员需要攻克的难题。

图 2:Pipeline for AI - driven molecular generation in drug discovery

ADMET 预测:提前评估 “潜力”

ADMET 性质(吸收、分布、代谢、排泄和毒性)是评估药物疗效和安全性的重要指标。虽然湿实验室评估是药物上市审批的必要环节,但早期进行 ADMET 预测可以有效减少因不良性质导致的研发失败,从而节省大量的时间和成本。AI 在 ADMET 预测方面具有独特的优势,它可以利用分子指纹或描述符等预定义特征,通过机器学习和深度学习算法预测 ADMET 性质。例如,拜耳的计算机模拟 ADMET 平台运用随机森林和支持向量机等技术,结合圆形扩展连接性指纹描述符,确保预测的准确性和相关性。

随着深度学习的发展,ADMET 预测能够自动从简单输入数据中提取有意义的特征。各种神经网络架构,如 Transformer、卷积神经网络和图神经网络,在从 SMILES 字符串和分子图等格式中建模分子性质方面表现出色。其中,图神经网络由于融入了几何信息,在 ADMET 预测中性能更优。不过,ADMET 预测领域仍面临不少挑战,比如标记数据稀缺,容易导致模型过拟合;模型的可解释性不足,难以深入理解分子亚结构与性质之间的关系。目前,运用无监督和自监督学习方法,以及设计更有效的注意力机制和融入化学知识,成为提升 ADMET 预测水平的重要方向。

合成规划与自动化合成:加速研发进程

化学合成是小分子药物发现的瓶颈之一,其技术要求高、劳动强度大,严重制约了药物研发的速度。计算机辅助合成规划(CASP)和有机化合物的自动合成技术,借助 AI 的力量,为化学家减轻了负担,使他们能够专注于更具创新性的工作。CASP 通过逆合成分析,将目标分子转化为更简单的前体,帮助化学家确定反应路线。早期的 CASP 程序基于规则,如今机器学习技术,特别是深度学习模型,在人工小分子和天然产物的合成规划中得到广泛应用。Transformer 模型也被应用于逆合成分析、区域选择性和立体选择性预测以及反应指纹提取等方面。但当前大多数深度学习方法缺乏可解释性,为解决这一问题,新的逆合成预测模型 RetroExplainer 应运而生,它通过可解释的深度学习框架,将逆合成任务重构为分子组装过程,提高了模型的可解释性和性能。

有机化合物的自动化合成是化学相关领域的前沿方向。理想的自动化合成平台应整合 CASP、实验设置与优化、机器人执行化学合成、分离和纯化等各个环节。近年来,深度学习驱动的自动化流动化学和固相合成技术在药物化合物合成中备受关注。例如,利用 AI 驱动的设计 - 制造 - 测试 - 分析(DMTA)平台,结合深度学习进行分子设计和微流控芯片化学合成,成功生成了肝 X 受体激动剂。不过,自动化合成仍处于起步阶段,面临诸多技术挑战,如减少固体形成避免堵塞、预测非水溶剂和不同温度下的溶解度、优化多步反应等。

图 3:AI - driven synthesis planning and automation in drug discovery

AI 在临床试验中的应用

生物标志物发现:疾病诊疗的 “指示灯”

预测药代动力学性质:个性化治疗的 “钥匙”

药物重定位:挖掘旧药新价值

提高临床试验效率与预测结果:优化研发流程的 “助推器”

临床试验往往成本高、耗时长且效率低下,AI 技术的应用有望改善这一现状。通过整合多模态数据集,AI 能够优化试验设计,如更精准地选择患者、制定更合理的治疗方案和确定更有效的结果测量指标,从而提高试验效率和成功率,降低成本和时间消耗。例如,有研究利用真实世界数据和 Trial Pathfinder 工具模拟肺癌临床试验结果,发现放宽试验标准可使符合条件的患者数量翻倍,并改善生存结果。

数字双胞胎技术在临床试验中的应用也备受关注。它通过创建参与者的虚拟副本作为对照组,增加了实验组的参与者数量,提高了试验效率。一些公司已经开始利用数字双胞胎技术进行临床试验模拟,为药物研发提供更可靠的依据。然而,数字双胞胎技术面临计算成本高、工作流程整合困难、伦理问题和个性化程度有限等挑战,这些问题影响了患者模拟的准确性、试验设计的合理性和监管部门的接受度,需要进一步探索解决方案。

图4:Utilizing AI capabilities to enhance both clinical trial processes and real - world medical practice

AI 药物研发面临的挑战

数据困境:高质量数据稀缺

AI 在药物研发中的应用高度依赖高质量的训练数据,但目前面临着诸多数据问题。获取数据的成本高昂,隐私法规的限制以及数据共享的不足,使得高质量数据难以收集,特别是针对罕见疾病或新型药物靶点的数据更为稀缺。此外,现有数据常常存在信息缺失、错误和偏见等问题,药物发现实验结果的不一致性以及为节省成本导致的数据不完整,都降低了 AI 模型的可靠性。而且,文献中 “阴性” 数据(如不成功的实验和阴性试验结果)的代表性不足,阻碍了对药物 - 靶点 - 疾病相互作用、疗效和其他临床特征的全面理解。

药物设计难题:多目标平衡不易

在药物设计过程中,需要平衡多个目标以确保成功。当前的研究往往过于关注化学空间,而忽视了其他关键因素,如成药性和可合成性。虽然多目标设计方法在不断改进,但开发有效的评分函数(如用于亲和力预测和生物活性评估)仍然是一个复杂的过程,需要大量的实验探索。此外,缺乏标准化的评估流程使得模型评估变得困难,当出现相互冲突的目标时,如在追求与已知生物活性分子的最大相似性的同时实现结构新颖性,难以确定最佳的实践方案。尽管存在一些基准测试平台,但在最佳实践方面尚未达成共识。

分子表示挑战:复杂性与可合成性难兼顾

合适的分子表示在生成模型中至关重要。传统的分子表示方法,如 SMILES 和图形,虽然应用广泛,但在捕捉分子复杂性和确保可合成性方面存在不足。新兴的数据驱动方法,如分层分子图自监督学习,为分子表示提供了新的思路,但仍需要进一步完善。目前评估合成可行性的方法不够精确,容易导致发现无法合成的分子。将反应知识整合到分子生成过程中虽有前景,但仍需改进。此外,模型的可解释性、生成新分子的不确定性和偏差等问题,也成为学术界关注的焦点,如何有效整合偏差控制与不确定性估计,是提高生成分子质量的关键。

“不可成药” 靶点难题:现有方法难以攻克

技术与资源瓶颈:算法和计算能力受限

许多用于药物研发的 AI 算法最初是为其他领域设计的,可能并不完全适用于药物研发的复杂场景。例如,基于 NLP 的新算法需要进一步开发,以更好地捕捉三维空间相互作用。此外,AI 方法对计算资源的高要求也成为了限制其应用的障碍,特别是对于小型研究团队来说,计算资源的不足可能导致无法开展相关研究。与云服务提供商合作以及开发更高效的算法,是解决这些技术和资源瓶颈的有效途径。同时,AI 药物研发还面临人才短缺和投资风险的问题,由于研发周期长、成功率低且回报不确定,影响了投资者的信心,制约了该领域的发展。

AI 药物研发的未来展望

突破数据困境:创新数据策略

解决数据稀缺问题是未来 AI 药物研发的首要任务。可以通过制定新的策略来加强数据共享,建立统一的数据标准,确保数据的质量和规范性。开发新的 AI 算法,如 “稀疏” AI 方法,能够在有限的数据条件下实现准确的预测。多模态预训练模型整合文本和化学信息,在零样本学习场景中具有巨大潜力,有助于更充分地利用现有数据资源。此外,整合基因组学、转录组学、疾病特异性分子途径、蛋白质相互作用和临床记录等多源数据,能够挖掘现有药物在治疗罕见病或被忽视疾病方面的潜力,为药物研发开辟新的方向。

多模态融合:挖掘数据深度价值

融入物理定律:提升模型可靠性

当前许多 AI 模型纯粹基于数据驱动,由于高质量数据的相对匮乏,限制了其在药物研发中的有效性。药物研发遵循物理定律,将物理定律融入现有的数据驱动 AI 算法中,是未来的重要研究方向。这不仅可以减少模型对数据的依赖,还能提高模型的准确性和通用性,使 AI 模型在药物研发中更加可靠和有效。

确保合规与可解释性:构建信任基础

AI,尤其是大型语言模型(LLMs),可以通过分析大量文档并跟踪最新法规要求,确保药物研发过程符合法规标准,提高研发效率,降低合规风险,避免药物审批延误。开发既准确又具有可解释性的 AI 模型至关重要,这有助于在药物开发者、监管机构、临床医生和患者之间建立信任。可解释的 AI 模型能够在药物研发早期优化项目资金配置,指导投资决策,加速药物研发进程。

医疗建模与模拟:引领医疗变革

在未来,AI 在医疗建模和模拟领域将发挥变革性作用。先进的 AI 模型能够创建更详细的虚拟人体模拟,帮助研究人员深入理解疾病机制、药物作用和个体生物学差异。通过模拟不同的场景,AI 可以优化临床试验设计和执行,选择最佳的筛选标准,加速患者招募,提高试验的代表性。此外,AI 还能通过分析健康数据和基因组学,为患者提供个性化的医疗决策支持,实现精准的风险预测、优化治疗方案以及提供更精准的手术指导。同时,AI 驱动的虚拟现实技术将为医学教育带来新的突破,提供更真实的训练场景,提升医疗服务的整体质量。

未来,AI 与药物研发的融合将更加深入,我们有理由相信,AI 将在药物研发领域发挥更为重要的作用,加速新药的研发进程,为人类健康事业带来更多的福祉。让我们共同期待 AI 赋能药物研发的美好未来,见证医学领域的更多奇迹。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号