资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

深入理解Prompt Engineering：创建评估指标

创作时间:

作者:

@小白创作中心

深入理解Prompt Engineering：创建评估指标

引用

CSDN

https://blog.csdn.net/fanjinglian_/article/details/142786687

在Prompt Engineering中，评估指标的设计至关重要。本文将深入探讨如何创建有效的评估指标，包括具体的成功标准、评估设计原则以及实际应用案例。通过这些内容，读者将能够更好地理解如何评估大语言模型的表现，并设计出更有效的Prompt。

Building strong criteria

创建鲁棒的评价准则

良好的成功标准是：

具体：明确界定你想要实现的目标。不要使用模糊的“良好表现”，而是具体说明“准确的情感分类”。
可衡量：使用定量指标或定义明确的定性尺度。数字提供了清晰度和可扩展性，但如果与定量指标一起一致应用，定性指标也可以很有价值。

以情感分析为例：

常见成功的标准

任务真实性：模型在处理罕见或具有挑战性的输入时需要表现得多好。
一致性：模型对相似类型输入的响应需要有多相似。
相关性和连贯性：模型直接回答用户的问题或指令表现得多好。
语气和风格：模型的输出风格与预期匹配程度如何。
隐私保护：模型处理个人或敏感信息的成功指标是什么。
上下文利用：模型使用提供的上下文有多有效。
延迟：能接受的反应时间是多少。
价格：运行模型的预算是多少。

Create strong empirical evaluations

创建鲁棒的实验性评价

基于上述的评价准则来评估LLM的表现，这是提示工程中非常重要的一部分。

评估设计原则

任务特定性：设计的评估应与现实任务分布相匹配。不要忘记考虑边缘案例！
示例边缘案例：

无关或不存在的输入数据
过长的输入数据或用户输入
[聊天用例] 用户输入差、具伤害性或无关
即使是人类也很难达成共识的模糊测试案例

自动化尽可能：设计问题时，尽量支持自动评分（例如，多项选择题、字符串匹配、代码评分、大模型评分）。
优先考虑数量而非质量：比起少量高质量的人工评分评估，更多的问题加上略微低质量的自动评分更为优先。

评估例子

任务真实性（情感分析）- 精确匹配评估

衡量标准：精确匹配评估衡量模型的输出是否与预定义的正确答案完全一致。
示例评估测试用例：1000条带有人类标注情感的推文。

一致性（FAQ 机器人）- 余弦相似度评估

衡量标准：余弦相似度通过计算两个向量（在此例中，使用 SBERT 生成的模型输出的句子嵌入）的夹角余弦值来衡量它们之间的相似性。
示例评估测试用例：50 组，每组有几种重述版本。

相关性和连贯性（摘要） - ROUGE-L评估

ROUGE-L（面向召回的摘要评估替补 - 最长公共子序列）评估生成摘要的质量。
示例评估测试用例：200篇文章及其参考摘要。

语调和风格（客户服务） - 基于LLM的李克特量表

基于LLM的李克特量表是一种心理测量量表，使用LLM来判断主观态度或感知。
示例评估测试用例：100个客户询问及其目标语调（富有同情心、专业、简洁）。

隐私保护（医疗聊天机器人） - 基于LLM的二元分类

二元分类确定输入是否属于两个类别之一。在这里，它用于分类响应是否包含受保护的健康信息（PHI）。
示例评估测试用例： 500个模拟患者查询，其中一些包含PHI。

上下文利用（对话助手） - 基于LLM的序数量表

类似于李克特量表，序数量表在固定的有序量表（1-5）上进行测量。
示例评估测试用例：100个多轮对话，包含依赖上下文的问题。

在Prompt Engineering中，Use Case（用例）指的是一个特定的场景或任务，我们希望通过精心设计的prompt来解决或完成这个任务。这里的用例描述了我们期望AI模型（如GPT）在给定prompt后能够执行的具体任务或产生的特定输出。

在Prompt Engineering中，用例通常包括以下几个方面：

目标：明确定义我们希望通过prompt实现的具体目标。
输入：描述提供给AI模型的信息或上下文。
期望输出：详细说明我们希望AI模型生成的理想响应或结果。
约束条件：任何特定的限制或要求，如输出格式、语言风格等。
评估标准：如何判断prompt的效果是否达到预期。

以下是Prompt Engineering中的一个用例示例：

用例：生成产品描述
目标：为电子商务网站的新产品创建引人入胜的产品描述。
输入：

产品名称
关键特性列表
目标受众
产品类别
期望输出：
150-200字的产品描述
突出产品的独特卖点
使用吸引目标受众的语言风格
包含至少一个号召性用语
约束条件：
不使用夸张或误导性的说法
保持专业但友好的语气
避免使用技术术语，除非绝对必要
评估标准：
描述的准确性和吸引力
是否符合字数要求
是否有效突出产品特性
语言风格是否适合目标受众

基于这个用例，我们可以设计一个相应的prompt：

作为一名专业的产品文案撰写人，请为以下产品创建一个引人入胜的产品描述：
产品名称：[产品名称]
关键特性：
- [特性1]
- [特性2]
- [特性3]
目标受众：[目标受众描述]
产品类别：[类别]
请遵循以下指南：
1. 描述长度应为150-200字
2. 突出产品的独特卖点
3. 使用适合目标受众的语言风格
4. 包含至少一个号召性用语
5. 保持专业但友好的语气
6. 避免使用技术术语，除非绝对必要
7. 不要使用夸张或误导性的说法
请提供您的产品描述。

热门推荐

高纯气体管道工程施工方案详解