深入理解Prompt Engineering:创建评估指标
创作时间:
作者:
@小白创作中心
深入理解Prompt Engineering:创建评估指标
引用
CSDN
1.
https://blog.csdn.net/fanjinglian_/article/details/142786687
在Prompt Engineering中,评估指标的设计至关重要。本文将深入探讨如何创建有效的评估指标,包括具体的成功标准、评估设计原则以及实际应用案例。通过这些内容,读者将能够更好地理解如何评估大语言模型的表现,并设计出更有效的Prompt。
Building strong criteria
创建鲁棒的评价准则
良好的成功标准是:
- 具体:明确界定你想要实现的目标。不要使用模糊的“良好表现”,而是具体说明“准确的情感分类”。
- 可衡量:使用定量指标或定义明确的定性尺度。数字提供了清晰度和可扩展性,但如果与定量指标一起一致应用,定性指标也可以很有价值。
以情感分析为例:
常见成功的标准
- 任务真实性:模型在处理罕见或具有挑战性的输入时需要表现得多好。
- 一致性:模型对相似类型输入的响应需要有多相似。
- 相关性和连贯性:模型直接回答用户的问题或指令表现得多好。
- 语气和风格:模型的输出风格与预期匹配程度如何。
- 隐私保护:模型处理个人或敏感信息的成功指标是什么。
- 上下文利用:模型使用提供的上下文有多有效。
- 延迟:能接受的反应时间是多少。
- 价格:运行模型的预算是多少。
Create strong empirical evaluations
创建鲁棒的实验性评价
基于上述的评价准则来评估LLM的表现,这是提示工程中非常重要的一部分。
评估设计原则
- 任务特定性:设计的评估应与现实任务分布相匹配。不要忘记考虑边缘案例!
示例边缘案例:
- 无关或不存在的输入数据
- 过长的输入数据或用户输入
- [聊天用例] 用户输入差、具伤害性或无关
- 即使是人类也很难达成共识的模糊测试案例
自动化尽可能:设计问题时,尽量支持自动评分(例如,多项选择题、字符串匹配、代码评分、大模型评分)。
优先考虑数量而非质量:比起少量高质量的人工评分评估,更多的问题加上略微低质量的自动评分更为优先。
评估例子
- 任务真实性(情感分析)- 精确匹配评估
- 衡量标准:精确匹配评估衡量模型的输出是否与预定义的正确答案完全一致。
- 示例评估测试用例:1000条带有人类标注情感的推文。
- 一致性(FAQ 机器人)- 余弦相似度评估
- 衡量标准:余弦相似度通过计算两个向量(在此例中,使用 SBERT 生成的模型输出的句子嵌入)的夹角余弦值来衡量它们之间的相似性。
- 示例评估测试用例:50 组,每组有几种重述版本。
- 相关性和连贯性(摘要) - ROUGE-L评估
- ROUGE-L(面向召回的摘要评估替补 - 最长公共子序列)评估生成摘要的质量。
- 示例评估测试用例:200篇文章及其参考摘要。
- 语调和风格(客户服务) - 基于LLM的李克特量表
- 基于LLM的李克特量表是一种心理测量量表,使用LLM来判断主观态度或感知。
- 示例评估测试用例:100个客户询问及其目标语调(富有同情心、专业、简洁)。
- 隐私保护(医疗聊天机器人) - 基于LLM的二元分类
- 二元分类确定输入是否属于两个类别之一。在这里,它用于分类响应是否包含受保护的健康信息(PHI)。
- 示例评估测试用例: 500个模拟患者查询,其中一些包含PHI。
- 上下文利用(对话助手) - 基于LLM的序数量表
- 类似于李克特量表,序数量表在固定的有序量表(1-5)上进行测量。
- 示例评估测试用例:100个多轮对话,包含依赖上下文的问题。
在Prompt Engineering中,Use Case(用例)指的是一个特定的场景或任务,我们希望通过精心设计的prompt来解决或完成这个任务。这里的用例描述了我们期望AI模型(如GPT)在给定prompt后能够执行的具体任务或产生的特定输出。
在Prompt Engineering中,用例通常包括以下几个方面:
- 目标:明确定义我们希望通过prompt实现的具体目标。
- 输入:描述提供给AI模型的信息或上下文。
- 期望输出:详细说明我们希望AI模型生成的理想响应或结果。
- 约束条件:任何特定的限制或要求,如输出格式、语言风格等。
- 评估标准:如何判断prompt的效果是否达到预期。
以下是Prompt Engineering中的一个用例示例:
用例:生成产品描述
目标:为电子商务网站的新产品创建引人入胜的产品描述。
输入:
- 产品名称
- 关键特性列表
- 目标受众
- 产品类别
期望输出: - 150-200字的产品描述
- 突出产品的独特卖点
- 使用吸引目标受众的语言风格
- 包含至少一个号召性用语
约束条件: - 不使用夸张或误导性的说法
- 保持专业但友好的语气
- 避免使用技术术语,除非绝对必要
评估标准: - 描述的准确性和吸引力
- 是否符合字数要求
- 是否有效突出产品特性
- 语言风格是否适合目标受众
基于这个用例,我们可以设计一个相应的prompt:
作为一名专业的产品文案撰写人,请为以下产品创建一个引人入胜的产品描述:
产品名称:[产品名称]
关键特性:
- [特性1]
- [特性2]
- [特性3]
目标受众:[目标受众描述]
产品类别:[类别]
请遵循以下指南:
1. 描述长度应为150-200字
2. 突出产品的独特卖点
3. 使用适合目标受众的语言风格
4. 包含至少一个号召性用语
5. 保持专业但友好的语气
6. 避免使用技术术语,除非绝对必要
7. 不要使用夸张或误导性的说法
请提供您的产品描述。
热门推荐
人-AI协同的需求捕获、逐级传递与动态调整
计算机网络-Filter-Policy过滤策略
为什么"白月光"如此难忘?从心理学和情感层面解析
2024年提升高考英语作文写作水平的方法及技巧
中国z高烂尾楼的传奇与困境,天津117大厦,看 DeepSeek 分析如何解困!
如何与孩子建立安全型依恋关系?
哲学思想的传播路径
黄鹤楼攻略路线图 黄鹤楼游览图最简单的图
探秘温州,走进这座山水之城的文化之旅
“粽”享端午 内蒙古各地特色活动人气旺
转行新能源汽车维修月入两万,创业者抓住行业机遇
让传统戏曲“俘获”更多年轻人
API设计模式:粒度细化 vs 粒度粗化的利弊分析
如何进行临时域名查询?步骤详解!
水仙花怎么种植才能长得好?
无故旷工多久可以辞退?劳动法权威解读
做香肠时,10斤肉抹多少盐?很多人都放错了,难怪不香还容易坏
热传导系数:构建更节能建筑的关键要素
重磅,合肥3家企业上榜中国500强,数量位居全省第一
如何评估美国经济的现状?这种评估方法对投资决策有何参考意义?
奋进蝶变一路歌,美丽茶乡入“画”来
豆漿可以天天喝嗎?分析其營養價值與益處,健康秘訣一次掌握!
乘客为体验新型飞机购票却遇空客老机型执飞,要求赔差价遭拒
铱金与铂金不同领域中的作用:它们的优势分别是什么?
特工17sakura剧情怎么触发 - 特工17sakura攻略
如何补交公积金?补交时需要遵循哪些规定?
万古神帝剧情讲了什么?
网络安全 - DDoS 攻击原理 + 实验
苦恼,怎么吃都长不胖?!瘦子如何成功增重20斤?
事业单位退休金计算和退休年龄规定详解