问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

深入理解Prompt Engineering:创建评估指标

创作时间:
作者:
@小白创作中心

深入理解Prompt Engineering:创建评估指标

引用
CSDN
1.
https://blog.csdn.net/fanjinglian_/article/details/142786687

在Prompt Engineering中,评估指标的设计至关重要。本文将深入探讨如何创建有效的评估指标,包括具体的成功标准、评估设计原则以及实际应用案例。通过这些内容,读者将能够更好地理解如何评估大语言模型的表现,并设计出更有效的Prompt。

Building strong criteria

创建鲁棒的评价准则

良好的成功标准是:

  • 具体:明确界定你想要实现的目标。不要使用模糊的“良好表现”,而是具体说明“准确的情感分类”。
  • 可衡量:使用定量指标或定义明确的定性尺度。数字提供了清晰度和可扩展性,但如果与定量指标一起一致应用,定性指标也可以很有价值。

以情感分析为例:

常见成功的标准

  • 任务真实性:模型在处理罕见或具有挑战性的输入时需要表现得多好。
  • 一致性:模型对相似类型输入的响应需要有多相似。
  • 相关性和连贯性:模型直接回答用户的问题或指令表现得多好。
  • 语气和风格:模型的输出风格与预期匹配程度如何。
  • 隐私保护:模型处理个人或敏感信息的成功指标是什么。
  • 上下文利用:模型使用提供的上下文有多有效。
  • 延迟:能接受的反应时间是多少。
  • 价格:运行模型的预算是多少。

Create strong empirical evaluations

创建鲁棒的实验性评价

基于上述的评价准则来评估LLM的表现,这是提示工程中非常重要的一部分。

评估设计原则

  1. 任务特定性:设计的评估应与现实任务分布相匹配。不要忘记考虑边缘案例!
    示例边缘案例:
  • 无关或不存在的输入数据
  • 过长的输入数据或用户输入
  • [聊天用例] 用户输入差、具伤害性或无关
  • 即使是人类也很难达成共识的模糊测试案例
  1. 自动化尽可能:设计问题时,尽量支持自动评分(例如,多项选择题、字符串匹配、代码评分、大模型评分)。

  2. 优先考虑数量而非质量:比起少量高质量的人工评分评估,更多的问题加上略微低质量的自动评分更为优先。

评估例子

  1. 任务真实性(情感分析)- 精确匹配评估
  • 衡量标准:精确匹配评估衡量模型的输出是否与预定义的正确答案完全一致。
  • 示例评估测试用例:1000条带有人类标注情感的推文。
  1. 一致性(FAQ 机器人)- 余弦相似度评估
  • 衡量标准:余弦相似度通过计算两个向量(在此例中,使用 SBERT 生成的模型输出的句子嵌入)的夹角余弦值来衡量它们之间的相似性。
  • 示例评估测试用例:50 组,每组有几种重述版本。
  1. 相关性和连贯性(摘要) - ROUGE-L评估
  • ROUGE-L(面向召回的摘要评估替补 - 最长公共子序列)评估生成摘要的质量。
  • 示例评估测试用例:200篇文章及其参考摘要。
  1. 语调和风格(客户服务) - 基于LLM的李克特量表
  • 基于LLM的李克特量表是一种心理测量量表,使用LLM来判断主观态度或感知。
  • 示例评估测试用例:100个客户询问及其目标语调(富有同情心、专业、简洁)。
  1. 隐私保护(医疗聊天机器人) - 基于LLM的二元分类
  • 二元分类确定输入是否属于两个类别之一。在这里,它用于分类响应是否包含受保护的健康信息(PHI)。
  • 示例评估测试用例: 500个模拟患者查询,其中一些包含PHI。
  1. 上下文利用(对话助手) - 基于LLM的序数量表
  • 类似于李克特量表,序数量表在固定的有序量表(1-5)上进行测量。
  • 示例评估测试用例:100个多轮对话,包含依赖上下文的问题。

在Prompt Engineering中,Use Case(用例)指的是一个特定的场景或任务,我们希望通过精心设计的prompt来解决或完成这个任务。这里的用例描述了我们期望AI模型(如GPT)在给定prompt后能够执行的具体任务或产生的特定输出。

在Prompt Engineering中,用例通常包括以下几个方面:

  • 目标:明确定义我们希望通过prompt实现的具体目标。
  • 输入:描述提供给AI模型的信息或上下文。
  • 期望输出:详细说明我们希望AI模型生成的理想响应或结果。
  • 约束条件:任何特定的限制或要求,如输出格式、语言风格等。
  • 评估标准:如何判断prompt的效果是否达到预期。

以下是Prompt Engineering中的一个用例示例:

用例:生成产品描述
目标:为电子商务网站的新产品创建引人入胜的产品描述。
输入:

  • 产品名称
  • 关键特性列表
  • 目标受众
  • 产品类别
    期望输出:
  • 150-200字的产品描述
  • 突出产品的独特卖点
  • 使用吸引目标受众的语言风格
  • 包含至少一个号召性用语
    约束条件:
  • 不使用夸张或误导性的说法
  • 保持专业但友好的语气
  • 避免使用技术术语,除非绝对必要
    评估标准:
  • 描述的准确性和吸引力
  • 是否符合字数要求
  • 是否有效突出产品特性
  • 语言风格是否适合目标受众

基于这个用例,我们可以设计一个相应的prompt:

作为一名专业的产品文案撰写人,请为以下产品创建一个引人入胜的产品描述:
产品名称:[产品名称]
关键特性:
- [特性1]
- [特性2]
- [特性3]
目标受众:[目标受众描述]
产品类别:[类别]
请遵循以下指南:
1. 描述长度应为150-200字
2. 突出产品的独特卖点
3. 使用适合目标受众的语言风格
4. 包含至少一个号召性用语
5. 保持专业但友好的语气
6. 避免使用技术术语,除非绝对必要
7. 不要使用夸张或误导性的说法
请提供您的产品描述。
© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号