深入理解Prompt Engineering:创建评估指标
创作时间:
作者:
@小白创作中心
深入理解Prompt Engineering:创建评估指标
引用
CSDN
1.
https://blog.csdn.net/fanjinglian_/article/details/142786687
在Prompt Engineering中,评估指标的设计至关重要。本文将深入探讨如何创建有效的评估指标,包括具体的成功标准、评估设计原则以及实际应用案例。通过这些内容,读者将能够更好地理解如何评估大语言模型的表现,并设计出更有效的Prompt。
Building strong criteria
创建鲁棒的评价准则
良好的成功标准是:
- 具体:明确界定你想要实现的目标。不要使用模糊的“良好表现”,而是具体说明“准确的情感分类”。
- 可衡量:使用定量指标或定义明确的定性尺度。数字提供了清晰度和可扩展性,但如果与定量指标一起一致应用,定性指标也可以很有价值。
以情感分析为例:
常见成功的标准
- 任务真实性:模型在处理罕见或具有挑战性的输入时需要表现得多好。
- 一致性:模型对相似类型输入的响应需要有多相似。
- 相关性和连贯性:模型直接回答用户的问题或指令表现得多好。
- 语气和风格:模型的输出风格与预期匹配程度如何。
- 隐私保护:模型处理个人或敏感信息的成功指标是什么。
- 上下文利用:模型使用提供的上下文有多有效。
- 延迟:能接受的反应时间是多少。
- 价格:运行模型的预算是多少。
Create strong empirical evaluations
创建鲁棒的实验性评价
基于上述的评价准则来评估LLM的表现,这是提示工程中非常重要的一部分。
评估设计原则
- 任务特定性:设计的评估应与现实任务分布相匹配。不要忘记考虑边缘案例!
示例边缘案例:
- 无关或不存在的输入数据
- 过长的输入数据或用户输入
- [聊天用例] 用户输入差、具伤害性或无关
- 即使是人类也很难达成共识的模糊测试案例
自动化尽可能:设计问题时,尽量支持自动评分(例如,多项选择题、字符串匹配、代码评分、大模型评分)。
优先考虑数量而非质量:比起少量高质量的人工评分评估,更多的问题加上略微低质量的自动评分更为优先。
评估例子
- 任务真实性(情感分析)- 精确匹配评估
- 衡量标准:精确匹配评估衡量模型的输出是否与预定义的正确答案完全一致。
- 示例评估测试用例:1000条带有人类标注情感的推文。
- 一致性(FAQ 机器人)- 余弦相似度评估
- 衡量标准:余弦相似度通过计算两个向量(在此例中,使用 SBERT 生成的模型输出的句子嵌入)的夹角余弦值来衡量它们之间的相似性。
- 示例评估测试用例:50 组,每组有几种重述版本。
- 相关性和连贯性(摘要) - ROUGE-L评估
- ROUGE-L(面向召回的摘要评估替补 - 最长公共子序列)评估生成摘要的质量。
- 示例评估测试用例:200篇文章及其参考摘要。
- 语调和风格(客户服务) - 基于LLM的李克特量表
- 基于LLM的李克特量表是一种心理测量量表,使用LLM来判断主观态度或感知。
- 示例评估测试用例:100个客户询问及其目标语调(富有同情心、专业、简洁)。
- 隐私保护(医疗聊天机器人) - 基于LLM的二元分类
- 二元分类确定输入是否属于两个类别之一。在这里,它用于分类响应是否包含受保护的健康信息(PHI)。
- 示例评估测试用例: 500个模拟患者查询,其中一些包含PHI。
- 上下文利用(对话助手) - 基于LLM的序数量表
- 类似于李克特量表,序数量表在固定的有序量表(1-5)上进行测量。
- 示例评估测试用例:100个多轮对话,包含依赖上下文的问题。
在Prompt Engineering中,Use Case(用例)指的是一个特定的场景或任务,我们希望通过精心设计的prompt来解决或完成这个任务。这里的用例描述了我们期望AI模型(如GPT)在给定prompt后能够执行的具体任务或产生的特定输出。
在Prompt Engineering中,用例通常包括以下几个方面:
- 目标:明确定义我们希望通过prompt实现的具体目标。
- 输入:描述提供给AI模型的信息或上下文。
- 期望输出:详细说明我们希望AI模型生成的理想响应或结果。
- 约束条件:任何特定的限制或要求,如输出格式、语言风格等。
- 评估标准:如何判断prompt的效果是否达到预期。
以下是Prompt Engineering中的一个用例示例:
用例:生成产品描述
目标:为电子商务网站的新产品创建引人入胜的产品描述。
输入:
- 产品名称
- 关键特性列表
- 目标受众
- 产品类别
期望输出: - 150-200字的产品描述
- 突出产品的独特卖点
- 使用吸引目标受众的语言风格
- 包含至少一个号召性用语
约束条件: - 不使用夸张或误导性的说法
- 保持专业但友好的语气
- 避免使用技术术语,除非绝对必要
评估标准: - 描述的准确性和吸引力
- 是否符合字数要求
- 是否有效突出产品特性
- 语言风格是否适合目标受众
基于这个用例,我们可以设计一个相应的prompt:
作为一名专业的产品文案撰写人,请为以下产品创建一个引人入胜的产品描述:
产品名称:[产品名称]
关键特性:
- [特性1]
- [特性2]
- [特性3]
目标受众:[目标受众描述]
产品类别:[类别]
请遵循以下指南:
1. 描述长度应为150-200字
2. 突出产品的独特卖点
3. 使用适合目标受众的语言风格
4. 包含至少一个号召性用语
5. 保持专业但友好的语气
6. 避免使用技术术语,除非绝对必要
7. 不要使用夸张或误导性的说法
请提供您的产品描述。
热门推荐
高纯气体管道工程施工方案详解
浮漂安装与调整技巧详解:从基础概念到实战应用
野钓选浮漂,外观、材质甚至品牌都不重要,吃铅量才是核心!
全波段无线电接收机技术研究及应用
温州清明节有什么风俗
HTTPS 为什么比 HTTP 更安全?
怎么防止手上长倒刺
葡萄酒的「酒體」是什麼?要達到平衡感必須精準掌握「軟硬元素」!
如何应对2025年行业发展趋势带来的挑战?
什么是电极极化?
水下无人机机械臂:开创水下作业新纪元
Steam账号共享:全面了解、安全操作与潜在风险
DeepSeek开源新一代注意力机制NSA,梁文锋亲自挂名,长上下文建模更高效!
去年汾河公园爆火的“红嘴鸥”又回太原来了~
英语中“大傻子”的多种表达方式
三皈五戒中三皈的意义
猫薄荷对猫有害处吗?猫薄荷对猫咪有什么副作用
银行的活期存款利率和贷款利率的联动关系如何?
紫杉醇为什么能有效治疗乳腺癌?
如何制作秸秆有机肥
Excel动态图表设置指南:从入门到精通
从负债(或零资产)通向财富自由的六个阶段
诞生在中国的棋类鼻祖,创下“千古无重局”传奇
人工智能实验室命名指南:涵创意名称、行业应用与前沿技术解析
新职业时代,探索全新的工作领域
音频主动降噪可以通过软件算法实现吗
蓝紫色系花卉都有哪些?花期长且不用打理
哪些花卉可以实现一年四季持续开花?
经常梦魇是怎么回事
揭秘重离子放疗:一种可能彻底改变癌症治疗面貌的尖端技术