最高法发布国内首个法律AI大模型,引领司法智能化变革
最高法发布国内首个法律AI大模型,引领司法智能化变革
11月15日,最高人民法院举行新闻发布会,发布国内首个完成网信部门生成式人工智能服务备案的法律行业基座大模型——“法信法律基座大模型”。该模型的发布标志着我国在法律科技领域取得重要突破,将为司法服务的提质增效提供强大助力。
技术创新:从“通才”到“专才”
清华大学计算机科学与技术系副教授刘知远表示,法律基座大模型的技术创新主要体现在如何将司法审判业务需求与大模型技术相结合,实现“先通后专,通专结合”。模型从“通才”到“专才”的转变,类比于人类的知识学习过程,即先接受广泛的基础教育,再接受法律专业培训,最后获取特定任务的实践经验。
在这个过程中,研究团队应用了基于课程学习的模型训练技术,分阶段、递进式地使用不同类型的训练数据,以最大化专业数据的价值;应用了高效的数据治理与合成技术,解决了特定场景下数据样本量有限的问题;通过加入安全对齐语料培养模型价值观,增强模型内生安全,并且在系统设计上,通过全链路多级工程方案确保模型输出内容安全可靠;最后,采用基于规模法则的模型风洞技术,保证了大模型训练结果的高效、稳定、可控。
跨学科合作:法律与计算机科学的深度融合
在法律和计算机科学跨学科合作研发大模型的过程中,最大的挑战在于实现通用能力与专业知识的深度融合。为确保模型在法律领域的结果具有专业性,需要法学专家对计算机专家进行指导。在深圳智能审判辅助项目中,深圳法院、人民法院出版社投入了大量业务专家对模型效果进行指导与评测,构建了优质的评测数据集和评测标准。模型的训练过程融入了大量专家知识,在法律法规理解、法律事实整理、案件争议焦点发现、决策推理等多个任务的评测指标上有了较大提升。
在探索模型在法律行业的应用边界时,需要计算机专家对法学专家进行指导。在大模型落地于真实的法律应用场景时,需要厘清大模型在不同场景下的适用度和能力边界。实践中,通过模型开发人员给出应用建议,一方面确保真实应用场景中模型能力可控;另一方面,也明确了模型在实际业务中的辅助角色,严格保证人的决策权。
国际对比:走在法律大模型研发前列
实际上,我国在法律大模型研发领域已经走在前列。清华自然语言实验室一直专注于法律人工智能领域,2021年就开源了首个中文法律大语言模型Lawformer。同时,我国拥有最为先进的司法信息化系统以及系统化的数据储备,例如“法信”法律大数据平台。通过法律知识体系编码“法信大纲”,对万亿字量级的法律专业语料进行了高质量专业标注,为模型研发提供了宝贵的“燃料”。
近年来,国际前沿研究中以快慢系统(GPT-o1)、思维链为代表的关于模型推理能力的相关工作值得进一步探索。快慢系统在快速回答一些常见的法律问题时,运用快系统快速给出初步答案;而对于复杂的案件分析、法律策略制定等,则启动慢系统模式,进行更深入的推理和分析,为用户提供更详细、更准确的建议。思维链在证据、事实分析与推理上,可以运用思维链的方法进行综合分析,以确定证据、当事人主张的可信度。在法律文书撰写方面,有助于避免法律文书中出现逻辑漏洞或论证不充分的情况,提高法律文书的质量。
未来发展:构建高质量群体智能工作协同网络
未来,法律基座大模型应在极大提升法律工作者工作效率的同时,更好地实现工作的规范化以及统一法律适用。此外,随着大模型智能体技术的发展,每一位法律工作者都可以拥有专属的智能体助理,承担机械的重复性劳动以及简单的创造性工作。在不久的将来,法律智能体还会呈现多角色分工与多智能体协同。当事人、律师、法官、法律学者都能够通过专属自身角色的智能体助手,构建出一个更高质量、更高效的群体智能工作协同网络。
研发团队:多方协同,共同推进
人民法院电子音像出版社副社长石鹏介绍,研发法律基座大模型的过程是一个不断攻坚克难的过程,团队需要解决众多技术难题,包括优质数据筛选与处理、模型架构设计、训练算法优化和专业评测、模型的可解释性与安全性等。但归结起来说,最大的难题就是大模型的通用训练技术方法如何和法律行业相匹配和适应的问题。
为了解决这些难题,研发团队采用以下方法:
- 组织法律专业人员构造高质量的训练数据和指令集,并体系化的进行模型迭代。
- 通过引入最高人民法院“法信”平台全流程法律资源标注机制和历时十余年搭建的18万法律知识体系编码“法信大纲”,来增强模型的知识理解和应用能力。
- 在构建微调数据时,精心设计了法律领域的数据集,并实施了大量的知识工程,以确保模型能够准确理解和处理法律文本。
- 研发团队构建了法律大模型的评测方法和评价标准,评价指标体系广泛涵盖了法律基座大模型的能力体系,尤其注重法律专业性测评和内容安全测评。
人民法院出版社负责大模型研发实施的团队是人民法院电子音像出版社,这支团队目前负责建设、运营人民法院案例库、法答网、中国裁判文书网、“法信”、数字图书馆等项目,有20多年建设运营国家级法律大数据平台的经验。同时,法律基座大模型的研发还和地方法院、高校科研机构、科技企业、算力企业有密切的合作与协同。整个研发团队一开始就注重顶层设计和整体谋划,强调以目标为导向,实现专业化分工与协作,保持灵活性和开放性,以数据驱动决策,并确保有效的控制和沟通。
研发团队的构成包括组织领导团队、规划管控团队、技术研发团队。组织领导团队主要负责设定目标、总体规划,配置资源,协调各个专业团队之间的沟通与合作,确保项目按照既定计划顺利推进。规划管控团队负责设计“法信法律基座大模型”的六大支撑体系(“六纵”),即知识工程体系、评测体系、数据合规体系、内容安全体系、传统安全和创新安全体系、算力资源筹划体系。技术研发团队包括算法团队、系统开发团队、业务专家团队、评测团队、运维保障团队。技术研发团队负责“法信法律基座大模型”研发“三横”,即法律基座大模型、行业大模型及场景应用的技术研发实施。
研发团队虽然人员众多、分属不同领域和专业,协同难度大,但是都抱着一个共同的目标,就是要为中国法律人研发最智能化的服务和产品,让法律行业拥有和落地先进的人工智能技术。锚定目标和深度协同,团队之间促进了专业知识和底层技术的融合创新,通用领域和行业业务的交流匹配,共同推动法律基座大模型项目的研发,最高人民法院院长张军在近期调研出版社的时候,也肯定我们是一支特别能战斗、特别讲奉献的队伍。团队受到了极大的鼓舞。未来我们会一如既往、全力以赴地为法律行业数字化智能化的创新和变革贡献力量!