问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

应对大模型幻觉挑战,如何构建高质量SFT数据?

创作时间:
作者:
@小白创作中心

应对大模型幻觉挑战,如何构建高质量SFT数据?

引用
网易
1.
https://m.163.com/dy/article/J8QL9KV80518B55B.html

大模型在内容生成方面展现出强大的能力,但同时也面临着“幻觉”问题的挑战。本文将探讨如何通过高质量的SFT数据来应对这一问题,并详细介绍了构建高质量SFT数据的具体方法和标准。

大模型发展日新月异,其超强的内容生成能力已被广泛认可,日益成为人们日常生活和工作学习中名副其实的效率提升工具。但有时面对专业领域的问题,大模型会出现“大模型幻觉”,生成不真实、虚构、不一致或无意义的内容。在近期OpenAI华人科学家翁荔发布的博文中,大模型幻觉也被定义为“不基于所提供的上下文或世界知识所输出的虚构内容”。

目前有许多种方法应对大模型幻觉。大致可分为五个方面:

  1. 数据增强,既包括无监督学习阶段训练数据质量、数量、多样性的增强,也包括后期监督学习阶段中SFT数据质量增强和强化学习数据质量的增强。

  2. 外部知识库检索及其他类似的验证方法,包括检索增强生成(RAG),即检索相关文档,然后利用额外的相关文档作为上下文进行生成;在没有外部检索知识的基础上,也可以设计一个利用模型本身进行验证和修订的过程,以减少幻觉。

  3. 特殊的采样方法,比如22年有学者提出基于假设的事实和采样算法;23年有学者提出Inference-Time Intervention(ITI),通过在每层上对激活进行线性探测,以区分真实与虚假的输出等。

  4. 对齐微调,既包括针对事实的微调,如目前必备的监督微调(SFT)和基于人类反馈的强化学习(RLHF),也包括针对归因的微调,比如,为避免低质量响应,将模型配置为拒绝使用预设答案 “I don't know” 进行回答。

  5. 其他可解释性方法,比如通过神经元编辑来减少幻觉问题。

如何定义高质量监督微调数据(SFT数据)?

基于在SFT领域积累的诸多经验,形成了一套定义高质量监督微调数据的评估标准,以更好指导和校准实际的SFT数据服务工作。

高质量Prompt标注数据需要符合以下四点:

  • 具体性:避免复杂或模棱两可的指令,文本直接,易于理解。
  • 相关性:符合逻辑,多轮对话主题相同。例如,问题要符合给定的标签类别,同时要通过评估各个问题的相似度、常用性、合理性,筛选出高质量的问题文本。
  • 精确性:避免太过广泛或开放的问题。问题文本要清晰、简洁,精确表达内容含义。
  • 直接性:避免说不要做什么,问题文本要直截了当、简明达意。

高质量Output标注数据需要符合以下五点:

  • 相关性:问题和答案之间要准确贴合,避免答非所问。其中要特别注意答案是否有对问题要点进行一一回应。
  • 真实性:输出准确无误的信息,不可以误导用户。
  • 连贯性:避免错别字、语法错误、语义不顺等表达问题,尽量口语化。
  • 有益性(有帮助的):遵循用户意图并帮助解决问题,且答案简明扼要。
  • 无害性:输出内容不应对用户造成身体、心理或社会伤害。

此外在实际应用中,还需要针对项目的具体需求调整和规定SFT数据的实施细节,以更好保障数据质量始终如一。比如,细化标签颗粒度和分类层级,关注内容占比和特殊问答的具体要求等。最终通过一系列定制化手段,更好保障SFT数据质量。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号