聊聊 LLM 的角色扮演评测(下)
聊聊 LLM 的角色扮演评测(下)
随着大语言模型(LLM)在各个领域的广泛应用,对其角色扮演能力的评测变得越来越重要。本文将介绍三个最新的角色扮演评测基准:CharacterEval、RoleEval和Ditto,它们分别从不同角度对LLM的角色扮演能力进行了全面评估。
CharacterEval
CharacterEval [1] 是一个中文的角色扮演代理评估基准,包含1785个多轮角色扮演对话,11376条数据,涉及77个来自中国小说和剧本的角色。其数据收集过程秉持着对素材的忠实、多样的数据分布、更多的多轮对话、人类的积极参与。
CharacterEval 采用了多方面的评估方法,包括四个维度的13个指标:
- 对话能力(流畅度、相关性、一致性)
- 角色一致性(知识暴露、知识准确性,知识幻觉、人物角色行为、人物说话风格)
- 角色扮演吸引力(人类相似性、沟通技巧、表达多样性、同理心)
- 人格回溯测试(MBTI 准确率)
CharacterEval 对多个 LLM(包括 ChatGLM3、XVERSE、Qwen、InternLM、Baichuan2)进行了测试,部分开源模型的测试结论如下:
- InternLM-20B 和 Baichuan2-13B 展示出了令人印象深刻的潜力
- 在参数量小于 10B 的模型中,Baichuan2-7B 和 InternLM-7B 表现出相当的能力
- InternLM-20B 在同理心方面成为领先模型,突出了其提供情感支持的独特潜力
- InternLM-20B 在角色一致性和对话能力方面保持了一致的性能
可以看到,作为开源通用模型的 InternLM-20B 在共情能力,提供情感支持能力方面表现出色。
RoleEval
RoleEval [2] 提出了一个双语角色扮演评测基准,包含 RoleEval-Global(国际公认角色)和 RoleEval-Chinese(中国流行角色)两部分,共有6000个问题。这些任务来自各种领域,包括名人、动漫、漫画、电影、影视剧、游戏和小说。
如上图所示,RoleEval 的评测数据包括不同类型的人物、问题、语言、影响力、推理方式和知识类型。RoleEval 考虑了描述角色所需的三种基本知识,即固有属性(性别、个性等)、社会关系(与父母、门徒等人的关系)、经验(角色的经历)。
在评测形式方面,RoleEval 选择了与 MMLU 类似的评测方式,即单项选择题(Multiple-Choice Questions)。尽管这种评测方法在评测过程中存在着局限性,比如无法充分测试多个答案可能正确的场景。在评测过程中,RoleEval 采用了 Zero-shot 和 Few-shot 的方法来评测各种模型的效果。
Ditto
Ditto [3] 所采用的角色扮演评测方法共包含三个度量指标(如上图所示),分别为一致的角色身份、准确的角色相关知识、未知问题的拒绝。除此之外,评测时只给模型提供目标人物的人物简介,以评估 LLM 是否可以挖掘角色扮演过程的内在知识。
尽管这篇论文的重心在于使用自对齐(Self-Alignment)的方式进行角色扮演微调,但是这篇论文所进行的角色扮演评测方法也是值得我们学习的。