DISC-LawLLM:面向智能法律服务的大型语言模型微调研究
DISC-LawLLM:面向智能法律服务的大型语言模型微调研究
DISC-LawLLM是一个基于大型语言模型的智能法律服务系统,通过法律三段论提示策略和检索增强模块,为用户提供全面的法律服务。本文详细介绍了DISC-LawLLM的架构、数据集构建、训练方法以及评估基准。
摘要
提出了DISC-LawLLM,这是一个利用大型语言模型的智能系统,以提供广泛的法律服务。我们采用法律三段论提示策略,构建中国司法领域的监督微调数据集,并建立具有法律推理能力的 Law LLM。我们通过检索模块增强了 LLM,以增强模型获取和利用外部法律知识的能力。提出了一个综合性法律基准,即 DISC-Law-Eval,用于评估客观和主观因素的智能法律系统。DISC-Law-Eval 的定量和定性结果表明,我们的系统在为不同法律场景中的各种用户提供服务方面是有效的。
1. 引言
原论文地址
源代码地址
2. 相关工作
3. DISC-Law-SFT 数据集
为了训练 DISC-LawLLM,我们构建了一个高质量的监督微调数据集 DISC-Law-SFT,其中包含两个子集,即 DISC-Law-SFT-Pair 和 DISC-Law-SFT-Triplet。前一部分旨在向 LLM 引入法律推理能力,而后一部分则有助于提高模型利用外部知识的能力。构造 DISC-Law-SFT 的工作流程如图所示
3.1 数据来源
从三个来源获取原始样本:
- 公开的 NLP 法律任务数据集
- 法律原始文本
- 开源指令数据集:从最近开放的指令数据集中借鉴了一些样本。我们收集开源指令数据,包括 Lawyer-LLaMa、LawGPT-zh 和 COIG-PC。
3.2 Pair 指令生成
为了构建监督微调 DISC-LawLLM 的指令,首先使用基于一定规则的方法来清理数据并将其转换为 “输入-输出” 对。但是,这些对在语言模式中过于僵化和嘈杂,并且不同来源的表达风格可能有所不同。因此,我们利用通用大语言模型,利用以下三种方法重构指令对:
- 行为塑造(Behavior Shaping):在法律判断的三段论中,大前提是适用法律,而次要前提是相关事实,结论是最终判决。这构成了法官的基本法律推理过程。每个案例都可以通过三段论得出一个结论,如下所述:
- 主要前提:法律
- 次要前提:相关事实
- 结论:判断
利用LLMs来提炼输出,以符合法律三段论。本文为 GPT-3.5-turbo 设计了 prompt,以确保每个结论都应从法律和相关事实中得出,并且回答应使用中文
知识扩展(Knowledge Expansion):Behavior Shaping 不适用于选择选项的多项选择题,我们直接使用 Knowledge Expansion 输出答案,以提供更多推理细节。这些问题来自各种与中国法律相关的考试和知识竞赛,涉及刑法、宪法和民法知识。虽然其中许多只提供答案选项,但我们使用 LLM 来扩展给定正确答案和重建指令对所涉及的法律知识。
思维发展(Thinking Development):思维链(CoT)已被证明可以有效提高模型的推理能力。为了进一步将法律推理赋予模型,我们设计了特定于法律的思维链,称为 LCoT,以执行模型行为法律三段论以得出答案。LCoT 包含将输入X XX转换为X l X_lXl 的提示,如下所示:
在法律三段论中,大前提是法律依据,次要前提是案件事实,结论是案件的判决。
案例:X
让我们用法律三段论来思考和输出判决
3.3 Triplet 指令生成
为了生成监督指令三元组 <输入、输出、引用> 用于检索增强的 DISC-LawLLM,我们创建了一个名为 DISC-Law-SFT-Triplet 的子集。对于每个条目,我们利用第 3.2 节中概述的三种策略来处理原始数据并获得输入和输出。随后,我们设计了启发式规则,从这些原始数据中提取引用信息。
4. DISC-LawLLM
4.1 监督微调
使用 DISC-Law-SFT 数据集进行监督微调。这些经过提炼的 SFT 数据使该模型能够配备法律推理和司法行为模式。
4.2 检索增强
在许多法律场景中,例如法律咨询、判决预测等,用户都希望模型的响应能够得到法律先例和法规的大力支持。虽然我们用高质量的教学数据微调 LLM,但由于幻觉或过时的知识,它可能会产生不准确的反应。为了解决这个问题,本文用一个基于开源检索框架的检索模块来增强 DISC-LawLLM。首先建立一个包含 50 多个中国法律类别的知识库,包括宪法、刑法、行政诉讼法、著作权法、专利法。我们将这些定律编码为向量,并将它们保存在本地。给定用户输入,我们的检索器然后从知识库中返回它们与输入的相似性。这些候选文档以及用户输入都是使用我们设计的模板制定的,然后输入到 DISC-LawLLM 中。通过查询知识库中的参考资料,模型可以理解主要前提,从而得出更准确、更可靠的答案。为了适应检索场景,我们专门使用 DISC-Law-SFT-Triplet,如第 3.3 节所述,作为我们的 SFT 数据集进行训练。这使模型能够使用检索到的引用来推断可靠的结果。此外,我们的知识库专为动态更新而设计,确保提供最新的法律。因此,我们思考开发的 DISC-LawLLM 可以根据检索到的新知识推导出正确答案
5. DISC-Law-Eval 基准
该文章开发了一个公平的评估框架,即 DISC-Law-Eval Benchmark,从客观角度和主观角度评估系统
5.1 客观评估
为了客观、定量地评估智能法律系统的法律知识和推理能力,设计了一个客观的评估数据集。它由多项选择题组成,每个题可能有一个或多个正确答案。根据内容复杂度和推理难度,这些问题被分为三个级别:难、正常和简单。表 3 显示了目标问题数据集的详细信息
5.2 主观评估
此外,还进行了主观评估,以准确展示模型对法律知识和推理能力的掌握。该评估采用问答式方法,模拟主观试题的过程。我们通过法律咨询、在线发布、司法相关出版物和法律文件手工构建了一个高质量的测试集,包括 300 个示例。这些示例涵盖了包括法律工具、法律咨询和判断预测在内的场景。为了评估这种主观反应,我们通过引出裁判模型来评估模型的输出。像 GPT-3.5、GPT-4 这样强大的 LLM 与人类偏好非常吻合。在我们的评估中,GPT 3.5 作为裁判,通过为以下三个标准中的每一个提供 1 到 5 的评分分数来执行评估:
- 准确性(Accuracy):待评分答案的内容和语义应与参考答案一致。
- 完整性(Completeness):与参考答案相比,待评分答案不会遗漏参考答案中的任何细节。不要让待定评分答案的长度影响的判断。
- 清晰度(Clarity):与参考答案相比,待定评分答案的法律逻辑分析严谨且清晰,句子组织良好。