北邮团队发布BaiJia大模型：用AI对话古人，开启沉浸式历史体验

创作时间:

作者:

@小白创作中心

北邮团队发布BaiJia大模型：用AI对话古人，开启沉浸式历史体验

引用

CSDN

https://m.blog.csdn.net/2401_85375298/article/details/145155783

北京邮电大学（北邮）白婷老师团队近日发布了BaiJia大模型，这是一个专注于低资源历史人物的智能体大模型，目前包含2万个中国历史人物AI智能体。该模型通过整合多种历史人物的信息，包括其传记、文学作品、家族关系、历史事件等内容，实现了低资源历史数据在大模型中的高效利用。

研究背景与意义

近年来，大语言模型（LLMs）展现了极大的角色扮演潜力，但现有的研究主要集中于现代虚构角色，鲜少涉及历史人物的扮演能力。而中国历史人物丰富且复杂，从历史背景到情感与文化表达，这类任务对模型提出了更高的要求。

研究中面临的核心挑战包括：数据稀缺、多样性不足、评价体系空白等。为解决这些问题，北邮团队构建了BaiJia语料库，并构建了BaiJia历史人物垂域大模型，实现了低资源历史数据在大模型中的高效利用。此外，团队设计了一套针对中国古代人物的科学测评框架，填补了历史角色扮演领域的空白。

技术方法

数据收集：团队精心挑选并整合了多个权威数据来源，包括维基百科、CBDB、古诗文网以及中国哲学书电子化计划等丰富数据来源。这些顶尖资源确保了数据的权威性和广泛性，使团队能够全方位还原中国历史人物的真实风貌。
角色模版设计：团队为每位历史人物精心构建了详尽的角色简历（Resume），内容结构清晰，细分为15个子类别。每份简历全面呈现人物的生平细节，从基础信息到家族关系、职业生涯，再到文学成就等，力求以丰富的维度真实还原历史人物的风貌。
对话生成：在完成历史人物角色简历构建后，团队进一步通过对话生成技术，为每位历史人物设计个性化的对话内容。这一过程分为对话场景提取和对话内容生成两大关键步骤：团队为历史人物精心设计了10个独特的对话场景。这些场景覆盖宫廷对话、家族交流、文学辩论等，充分体现人物的社交关系、重要人生事件及其文学作品背景。所有场景均遵循历史真实语境，力求还原人物所处的时代氛围和思想风貌。
微调BaiJia模型：团队基于Qwen2.5-7B模型进行微调，基于2万个中国历史人物，30余万部历史著作，19万对话数据对基座大模型进行训练微调。最终，团队得到了一个轻量级、精于中国历史角色扮演的BaiJia大模型。

测评框架

在角色扮演能力的测评中，团队打造了一套全面且科学的测评框架。从问题的自动化生成到针对性评分规则的设计，每一步都精心优化，确保了模型在中国古代历史角色扮演任务中的表现能够被科学地评估。

在问题集的构建方面，每个人物的问题集涵盖五个核心维度，分别为个人背景、时代背景、家族与社会关系、思想与价值观，以及成就与贡献。在评测方面，BaiJia除了通用的角色扮演评价指标，还设计了专门针对中国古代人物的角色扮演评测维度。从角色一致性（CC）、对话能力（DA）、角色吸引力（CA）、情感表达与智识深度（EI）、创造力与角色深度扩展（CR），以及文化与历史适配性（CHA）六个大维度、十二个子维度，能够从表层表现到深层精神内核，全面覆盖对模型的评估需求。

为了提升评测的效率和公平性，框架中引入了GPT自动化评分技术。评分过程结合了预设模板与生成文本的多维度分析，能够快速判断模型生成内容是否符合历史角色的背景、个性特征以及文化内涵。通过这一自动化技术，整个测评流程在减少人工评分主观性的同时，也大大提高了评估效率。

实验验证

为验证BaiJia语料对大语言模型（LLMs）角色扮演能力的提升效果，团队在多个主流模型（如ChatGLM、Baichuan、Qwen等）上进行了实验。实验中，团队分别对比了无BaiJia语料（只提供基础信息）与结合BaiJia语料的模型表现，具体的结果如下：

通过观察结果，团队发现以下显著提升：引入BaiJia语料后，所有模型在六个维度上均有显著提升，其中角色一致性（CC）和文化与历史适配性（CHA）提升幅度尤为突出，分别达到23.5%和21.7%（以ChatGLM为例）。在六大维度的综合表现中，各模型的平均提升幅度达到了11.8%。

样例演示

百家智能体交互和评测功能介绍，以李清照为例，百家内容更加充实可靠，语言风格明确，情感丰富。

样例分析：针对元代历史人物白贲的经典问题——“你最自豪的文学作品是什么？”，不同模型给出了截然不同的答案。这场“角色扮演答题”的较量，直观展现了「BaiJia」智能体的独特优势。

Baichuan-NPC：生成了虚构的作品《白子令·咏雪》，尽管文采动人，但完全背离了历史事实，暴露了对真实历史信息的掌控不足。
GPT-4 与 Qwen2.5-7B：两款模型因缺乏相关知识，给出的回答模棱两可，未能准确捕捉白本的历史身份，GPT-4 甚至仅表示白贲“可能并没有传世之作”。
BaiJia 模型：精准还原历史记录，回答白贲的代表作《鹦鹉曲·渔父》，并结合情感表达与历史背景描述出人物的内心情感与创作灵感。