中国发布首个法律行业基座大模型，技术安全双突破

创作时间:

2025-01-22 02:08:33

作者:

@小白创作中心

中国发布首个法律行业基座大模型，技术安全双突破

11月15日，最高人民法院发布国内首个完成网信部门生成式人工智能服务备案的法律行业基座大模型——“法信法律基座大模型”。这一创新成果将如何赋能司法服务，提升法律工作效率和质量？

技术创新：从“通才”到“专才”的转变

清华大学计算机科学与技术系副教授刘知远表示，法律基座大模型的技术创新主要体现在如何将我国司法审判业务需求与大模型技术相结合，使大模型实现“先通后专，通专结合”。在这个过程中，研发团队应用了基于课程学习的模型训练技术，分阶段、递进式地使用不同类型的训练数据，以最大化专业数据的价值；应用了高效的数据治理与合成技术，解决了特定场景下数据样本量有限的问题；通过加入安全对齐语料培养模型价值观，增强模型内生安全，并且在系统设计上，通过全链路多级工程方案确保模型输出内容安全可靠；最后，采用基于规模法则的模型风洞技术，保证了大模型训练结果的高效、稳定、可控。

跨学科合作：通用能力与专业知识的深度融合

在法律和计算机科学跨学科合作研发大模型的过程中，最大的挑战在于实现通用能力与专业知识的深度融合。为确保模型在法律领域的结果具有专业性，需要法学专家对计算机专家进行指导。在深圳智能审判辅助项目中，深圳法院、人民法院出版社投入了大量业务专家对模型效果进行指导与评测，构建了优质的评测数据集和评测标准。模型的训练过程融入了大量专家知识，在法律法规理解、法律事实整理、案件争议焦点发现、决策推理等多个任务的评测指标上有了较大提升。

国际视野：走在法律大模型研发前列

刘知远指出，我国在法律大模型研发方面走在国际前列。清华自然语言实验室早在2021年就开源了首个中文法律大语言模型Lawformer。同时，我国拥有最为先进的司法信息化系统以及系统化的数据储备，例如“法信”法律大数据平台。通过法律知识体系编码“法信大纲”，对万亿字量级的法律专业语料进行了高质量专业标注，为模型研发提供了宝贵的“燃料”。

未来展望：智能化助力法律工作提质增效

刘知远对我国法律基座大模型的未来发展充满期待。他表示，未来，法律基座大模型应在极大提升法律工作者工作效率的同时，更好地实现工作的规范化以及统一法律适用。随着大模型智能体技术的发展，每一位法律工作者都可以拥有专属的智能体助理，承担机械的重复性劳动以及简单的创造性工作。在不久的将来，法律智能体还会呈现多角色分工与多智能体协同。当事人、律师、法官、法律学者都能够通过专属自身角色的智能体助手，构建出一个更高质量、更高效的群体智能工作协同网络。

研发历程：攻克技术难题，实现创新突破

人民法院电子音像出版社副社长石鹏介绍，在研发法律基座大模型的过程中，团队需要解决众多技术难题，包括优质数据筛选与处理、模型架构设计、训练算法优化和专业评测、模型的可解释性与安全性等。最大的难题就是大模型的通用训练技术方法如何和法律行业相匹配和适应的问题。为此，研发团队采取了多种措施，如组织法律专业人员构造高质量的训练数据和指令集，引入“法信”平台的法律资源标注机制和“法信大纲”知识体系，精心设计法律领域的数据集，构建评测方法和评价标准等。