创新训练方向 提升人工智能语言能力
创新训练方向 提升人工智能语言能力
香港理工大学(理大)人文学院院⻓兼冼为坚基⾦人文与科技讲座教授李平教授领导的研究团队在人工智能语言模型训练⽅⾯取得了重要突破。研究发现,通过"下一句预测"(Next Sentence Prediction, NSP)⽅式训练的⼤语⾔模型,在多个⽅⾯更符合⼈脑活动,与⼈类语义理解的神经模型也非常吻合。
大语言模型是人工智能模型的一种。它预先获取大量数据进行预训练,进而生成类似人类语言的内容。由OpenAI开发的聊天机器人ChatGPT,就是其中一个大语言模型的例子。现有的大语言模型主要依赖"上下文单词预测"的方式进行预训练,生成式人工智能平台也使用类似方式进行预训练,训练后的人工智能平台能够处理语言,并按写作提示生成文本、图像、影片和其他数据。然而,单词预测只是人脑处理语言其中一种方式,人类还会整合自然语言理解中的高层次信息,例如词语、句子及会话语境,从而全面理解语言内容。
句子比词语效果更佳
由李平教授领导的理大研究团队探讨了运用"下一句子预测"(Next Sentence Prediction, NSP)的方式训练大语言模型的效果。他们发现使用NSP训练的大语言模型,相比单靠"上下文单词预测"进行训练的大语言模型,在多个方面更符合人脑活动,这是因NSP任务要求大语言模型理解句子之间的关联所致。此外,这些使用NSP训练的改良模型与人类语义理解的神经模型亦非常吻合。
这项研究的结果不仅有助于研究人员运用NSP提升大语言模型的语义理解,帮助人工智能更接近人类的认知过程,同时在人脑对语言的运作方面提供了新见解,包括帮助科学家了解大脑如何理解语义,例如对话中的语义等。
促成人⼯智能和认知神经科学研究
李教授说:"我们的研究发现,像NSP这类多样化的学习任务可以改进大语言模型,使其更接近人类,并有机会像人脑一样,在不需要海量数据支援下高效能地运作。这项研究还能促进人工智能和认知神经科学领域研究人员之间的互动与合作,进而推动未来以人工智能为导向的大脑研究,以及受人脑启发的人工智能研究。"
李教授团队的研究已在学术期刊《Science Advances》上发表。
由李平教授领导、关于训练大语言模型的最新研究,为脑科学研究和人工智能模型开发带来启发。
新研究中心协助训练人工智能模型
训练大型人工智能模型需要使用大量电子计算方面的资源。为回应这方面的大量需求,理大早前成立了"AI大模型研究中心"(Centre for Large AI Models, CLAIM)。CLAIM隶属理大人工智能与数据科学研究中心,主要使命为向理大研究人员提供有效训练人工智能模型的必要基础设施,并促进人工智能研究和跨学科应用至艺术、科学、工程和其他领域,同时亦会在大学内积极推动人工智能技术共享。
李青教授
- AI大模型研究中心联席主任
- 电子计算学系系主任兼数据科学讲座教授
张磊教授
- AI大模型研究中心联席主任
- 电子计算学系计算机视觉及图像分析讲座教授
本文原文来自香港理工大学出版物