大模型评测中的基础指标都包括哪些

创作时间:

作者:

@小白创作中心

大模型评测中的基础指标都包括哪些

引用

CSDN

https://m.blog.csdn.net/longxiaotian718/article/details/144236187

大语言模型（LLM）评测是LLM开发和应用中的关键环节。目前评测方法可以分为人工评测和自动评测，其中，自动评测技术相比人工评测来讲，具有效率高、一致性好、可复现、鲁棒性好等特点，逐渐成为业界研究的重点。

大模型评测中常见的评估指标覆盖了多个方面，旨在全面衡量模型的性能和能力。

关键的评估指标：

准确性（Accuracy）：预测正确的样本数占总样本数的比例，适用于分类和某些回归任务。
完全匹配（Exact Match, EM）：模型输出与标准答案完全一致的比例，常见于问答任务。
BLEU（Bilingual Evaluation Understudy）：用于评估机器翻译，通过比较模型输出与参考翻译的N-gram重叠度来衡量质量。
ROUGE（Recall-Oriented Understudy for Gisting Evaluation）：评估文本摘要的召回率，通过计算N-gram的重叠度。
正则表达式匹配（Regex Patterns）：检测特定模式，如敏感信息过滤，适用于数据安全评估。
BERTScore：通过余弦相似度评估生成文本与参考文本的相似度，适用于文本生成任务。
困惑度（Perplexity）：衡量语言模型对文本序列的预测能力，越低表示模型预测越好。
F1分数：召回率和精确率的调和平均值，适用于类别不平衡的数据集。
N-gram：用于分析文本相似度或构建语言模型的统计基础，如bigram、trigram等。
校准度：模型预测概率与实际正确率的一致性。
泛化能力：模型在未见过的数据上的表现，体现学习的迁移能力。
适配能力：模型在实际应用中的适应性和实用性。
鲁棒性：模型对输入变化的敏感度，如对抗性攻击的抵抗力。
效率与复杂度：模型在计算资源使用上的效率，包括训练和推理时间。
歧视与偏见倾向：评估模型输出是否公平，是否存在对特定群体的偏见。
公平性：确保模型决策对所有群体一致，避免不公平待遇。
有害性：评估模型输出是否可能造成伤害，包括误导信息或负面情绪激发。
可解释性：模型决策过程的透明度，便于理解其工作原理。
幻觉情况：检测模型是否产生不准确、无根据的输出。
情感分析能力：模型识别和理解文本情感的能力。
多语言、多模态能力：评估模型处理不同语言和多媒体数据的能力。
对话能力：在连续对话中的理解和回应质量。