AI发现16万种新RNA病毒成果登上《Cell》,阿里云算法专家详解背后技术突破
AI发现16万种新RNA病毒成果登上《Cell》,阿里云算法专家详解背后技术突破
近期,AI for Science领域迎来重大突破,阿里云与中山大学合作研发的深度学习模型"LucaProt"在RNA病毒发现方面取得重要进展。该研究成果已发表在国际顶级学术期刊《Cell》上,论文题为《基于人工智能探索和记录隐藏的RNA病毒世界》。
研究团队利用云计算与AI技术发现了超过16万种新RNA病毒,这一数字是已知RNA病毒种类的近30倍,极大地丰富了人类对RNA病毒多样性和演化历史的认知。
LucaProt:RNA病毒检测的革命性突破
LucaProt基于Transformer框架与大模型技术,结合蛋白质序列与结构特征,能够快速准确地判别RNA病毒。在测试中,该模型展现出高准确性与特异性,外部验证集上的召回率达到97.4%,假阳性率仅为0.023%。更令人印象深刻的是,LucaProt的检测速度仅需几百毫秒至几秒,远超传统方法所需的几天至几周。
阿里云和中山大学团队(右二贺勇、右三李兆融、右四施莽)
跨学科合作:传统学科与AI技术的完美融合
论文的作者团队横跨生物学领域与AI领域,展现了传统学科与AI前沿技术双方人才的高效联合。阿里云飞天实验室算法专家贺勇与中山大学医学院侯新博士为论文共同第一作者。论文共同通讯作者包括中山大学施莽教授、阿里云生物计算研究总监李兆融以及悉尼大学全球知名病毒学家Edward Holmes。
作为论文共同一作,贺勇表示:“基于AI+病毒学的新研究框架刷新了人类对病毒圈的认识,随着这种认识的不断完善,有助于人类对未来可能发生的大流行进行预警,以及进一步推动RNA病毒疫苗的研发。”
AI for Science:从理论到实践的突破
近年来,AI技术在学术发展上展现出巨大潜力。阿里云已与全球超过70所高校开展学术合作,累计支持合作高校发表100余篇高水平论文,共同申请近70项发明专利。在AI for Science领域,阿里云与中山大学、浙江大学等国内知名高校共同开展病毒学、药物学、生物学等方向的科研课题,在生命科学领域已发表核酸和蛋白质统一基础模型-LucaOne、RNA病毒发现-LucaProt、磷循环蛋白家族识别-LucaPCycle等研究成果,其中多项成果由贺勇主导参与。
专访阿里云算法专家贺勇:AI for Science的未来展望
为深入了解这次科研成果背后的AI逻辑,雷峰网旗下的AI科技评论专访了阿里云飞天实验室算法专家贺勇。贺勇分享了科研成果的经验、AI for Science的洞见。
AI在RNA病毒寻找中的优势
贺勇表示,传统方法需要大量人工迭代过程,而AI方法则实现了端到端处理,大大简化了流程。基于Transformer架构的LucaProt模型,能够对RNA病毒的复制酶序列进行表征,从而实现快速准确的病毒鉴定。
AI for Science的发展阶段
贺勇认为,AI for Science虽然仍处于起步阶段,但已经成为解决科学问题的重要手段。在生物学领域,AI目前处于识别阶段,类似于文本或图像领域的“读懂”阶段,尚未达到生成式阶段。未来,随着技术的发展,AI将在生物医疗领域实现更多突破。
AI for Science的未来展望
贺勇指出,要达到AI for Science改造世界的阶段,需要三个条件:一是更多精细化的数据积累;二是大模型架构的变革,以适应生物学信息的空间分子结构;三是基础设施的跟进,如算力、显卡等需要重构与之匹配。
阿里云在生命科学领域的三款大模型均已开源,这主要是为了推动生物学细分领域的基础通用模型完善,并降低使用者数据训练的成本。同时,阿里云在与高校合作AI for Science时具有显著的算力优势,以及支持有意义项目的文化基因。