问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

人工评估 | 人工标注员

创作时间:
作者:
@小白创作中心

人工评估 | 人工标注员

引用
CSDN
1.
https://blog.csdn.net/HuggingFace/article/details/144463265

在大规模语言模型的开发和应用中,高质量的数据标注是确保模型性能的关键环节。本文详细介绍了如何选择合适的标注员、设计标注准则、进行迭代标注以及实施质量检查等关键步骤,并提供了多个实用的工具和资源推荐。

这是人工评估系列文章的第二篇《人工标注员》,全系列包括:

  • 基础概念
  • 人工标注员
  • 技巧与提示

推荐阅读这篇综述的第三章,介绍了许多数据标注质量管理的实践经验。如果你追求的是生产级的质量,并且具备实施条件,那么请继续阅读吧!

无论项目规模多大,一旦定义了具体的评估任务和打分细则,请注意:

  • 选择合适的标注员,如果可能的话提供经济激励

你可能希望参与任务的标注员具有以下品质:

  1. 符合特定的人口统计特征。例如:母语是测试目标语言、较高的教育水平、特定领域的专业知识、多样化的地域背景等。根据评估任务不同,对标注员统计特征需求也不一样。

  2. 提供高质量标注。

有些任务中筛选合适的标注员很重要,比如近期有一种任务是检查回答是否是 LLM 生成的。

个人认为,除非你众包标注员有强烈的自我驱动意识,否则一般还是支付合理的费用更好。

设计标注准则

请务必深入思考制定标注准则,非常值得花费大量时间去做!我们在制作GAIA数据集时的耗时最多的地方就是这里。

迭代标注

很多时候标注员会误解标注指南 (他们的想法可能比你想象的更模棱两可),所以要做好多轮迭代标注的准备,来不断改进直到达到你的需求。

质量检查手动筛选

你需要仔细检查答案的质量 (检查标注员间的答案一致性),并筛选出质量最优、相关性最高的答案。

你也可以使用专用工具来构建高质量标注数据集,如Argilla。

深入阅读推荐链接:

原文链接:https://github.com/huggingface/evaluation-guidebook/blob/main/contents/human-evaluation/using-human-annotators.md

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号