资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

一文详看大模型长文本如何评估：四大主流评测数据集的任务设计、数据集构建方案

创作时间:

作者:

@小白创作中心

一文详看大模型长文本如何评估：四大主流评测数据集的任务设计、数据集构建方案

引用

来源

https://hub.baai.ac.cn/view/32736

随着大语言模型（LLM）在各种语言任务中展现出强大的能力，对长文本理解能力的评估变得尤为重要。本文详细介绍了当前四大主流长文本评测数据集：Zero-SCROLLS、L-Eval、LongBench和LooGLE。从任务设计到数据集构建方案，这些评测数据集为评估LLM的长文本理解能力提供了全面的参考框架。

ZeroSCROLLS评测数据集

ZeroSCROLLS将不同来源的数据集自动处理成平均10k词的统一输入格式。

ZeroSCROLLS作为一个零测试基准，包含十个自然语言任务的测试集，每个任务都要求对不同类型的长文本进行推理，每个任务最多只能使用500个示例。其中，六个数据集是该工作根据Shaham等人的研究成果改编的，另外四个是新任务。

1. Summarization摘要任务

该工作采用了SCROLLS中的三个摘要数据集（GovReport、SummScreenFD和QM-Sum），并增加了第四个数据集（SQuALITY）。GovReport和SummScreenFD是全文档摘要任务，而QMSum和SQuALITY则以查询为重点。

其中：

GovReport：包含国会研究服务处和美国政府问责办公室的长篇报告及其专家书面摘要。
SummScreenFD：包含从维基百科和TVMaze收集的电视节目集脚本及其摘要。
QMSum：一个基于查询的会议记录摘要数据集。该数据集包含学术会议、工业产品会议以及威尔士和加拿大议会的会议记录。除了会议笔录，每个实例还包含一个查询，目的是将摘要集中在特定主题上。
SQuALITY：一个以问题为中心的摘要数据集，给定古腾堡计划中的一个故事，任务是根据一个指导性问题生成该故事或其某些方面的摘要。

2. Question Answering

该工作采用了SCROLLS的三个问题解答数据集（Qasper、NarrativeQA和QuAL-ITY），并增加了MuSiQue，该数据集侧重于多跳问答。

其中：

Qasper：包含来自语义学者开放研究语料库（S2ORC）的NLP论文。NLP从业人员根据摘要提出问题，另一组从业人员根据文章内容进行回答。
NarrativeQA：包含对古腾堡计划（ProjectGutenberg）中的书籍和各种网站中的电影剧本的提问和回答。为了创建问题和答案，标注人员者从维基百科中获得了书籍和电影的摘要。每个问题由一个或多个标注人员回答。
QuALITY：包含来自古腾堡计划、开放美国国家语料库等的故事和文章。每篇文章都包含一个故事和一个选择题；问题编写者在指导下编写需要阅读故事的大部分内容才能正确作答的问题。
MuSiQue：一个多跳问题解答数据集，输入是20个维基百科段落和一个需要在不同段落之间进行多次跳转的问题。在原始数据集中，每个问题都有一个无法回答的孪生问题，即正确答案不存在于段落中。该工作为ZeroSCROLLS随机抽取了100个无法回答的问题和400个可以回答的问题。

3. Aggregation

该工作创建了两个新任务，从结构上看，这两个任务要求对输入信息的不同部分进行上下文关联和信息聚合。其中：

SpaceDigest：一项新的情感聚合任务。给定Space数据集中的50条酒店评论（不含评分），任务是确定正面评论的百分比。
BookSumSort：一项基于Book-Sum数据集的新任务，该数据集包含各种来源的小说、戏剧和长诗的章节（或部分）摘要。

L-Eval评测数据集

L-Eval(L-EVAL: INSTITUTING STANDARDIZED EVALUATION FOR LONG CONTEXT LANGUAGE MODELS)从规模较小的类似公共数据集中重新标注数据和指令，以确保质量。此外，它还优化了评估程序和基线，以获得更准确的结论。

L-Eval包含多种题型，如：

选择题（TOFEL、QuALITY、Coursera）
真假题（SFiction）
数学题（GSM）
代码理解（CodeU）
目标导向对话（Multi-Doc2Dial）
提取式QA（CUAD、NQ）
摘要性QA（LongFQA、NarrativeQA、Qasper）
单篇文档摘要（GovReport、BigPatent、SummScreen、SummScreen、QMSum）
多文档摘要（Multi-News、SPACE）
研究写作（Openre-view）

在数据分布方面，L-Eval中的长文档涉及法律、金融、学术论文、讲座、长篇对话、新闻、著名Python代码库、长篇小说和会议等多个领域。

在长度方面，L-Eval的平均输入长度从4k到60k不等，最大样本包含近20万个token。这种多样性代表了现实世界中不同任务可能需要不同长度的上下文和指令的情况，不同任务的引用长度也有很大差异。

1. 从零开始的数据标注

L-Eval共有4个从头标注的数据集：Coursera、SFcition、CodeU和LongFQA。原始资源分别是来自Coursera的视频、以前的开源数据集、著名Python库的源代码以及公开的通话记录。

2. 从公共数据集重新标注数据

该工作在L-Eval中对5个公开数据集进行了重新标注。其中：

GSM(16-shot)源自GSM8k数据集。考虑到如果LCLM在较长的语境中仍能保持其推理能力，那么使用更多高质量的示例将对数学问题的解决产生积极影响。该工作用较长的"思维链"（Chain-of-Thought）构建了16个上下文示例，其中8个示例来自"思维链"集线器（Chain-of-Thought-hub），8个示例由该工作自己构建。
在QuALITY中注入了新的合成指令来测试全局上下文建模，例如"该工作能从这个故事中最长的句子中推断出什么？"和"故事中有多少个单词？

3. 数据过滤与校正

剩下的12个任务来源于现有数据集。然而，L-Eval在数据收集后需要更多的人力，因为该工作发现以前的长序列数据集的标注质量波动很大，有很多无法回答的问题与上下文无关。这些错误很难通过以往工作中的自动预处理脚本来纠正。

在L-Eval中，所有样本都是在数据收集后手动过滤和校正。具体地，该工作使用Claude-100k作为助手来过滤错误的QA和无法回答的问题。

LongBench评测数据集

LongBench《LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding》提供了一个双语和多任务数据集，具有不同长度、分布、模式、语言和领域的各种序列，用于全面评估长语境理解能力。

1. Single-Doc QA单文档问答

对于单文档QA，该工作主要关注具有较长文档的实例。包括NarrativeQA，该数据集由长故事和测试阅读理解能力的问题组成。该工作还从Qasper中采样，该数据集的特点是对NLP论文进行QA，并由NLP从业人员进行标注。

为了更好地测试模型在不同领域的长语境理解能力，该工作手工整理了中英文的MultiFieldQA数据集。

2. Multi-Doc QA多文档问答

多文档问答要求模型从多个文档中提取和组合信息以获得答案，这通常比单文档问答更具挑战性。英语测试样本来自三个基于维基百科的多跳QA数据集：HotpotQA、2WikiMultihopQA和MuSiQue。

为了调整数据以进行长文本评估，该工作利用维基百科中包含支持段落或干扰段落的完整段落作为语境。首先，在上下文中包含支持性段落，然后添加尽可能多的干扰性段落，直到总长度达到最大长度。最后，这些段落被随机排序，形成多文档上下文。

3. Summarization摘要

与通常可以利用上下文中的局部信息来解决的质量保证任务相比，摘要要求对整个上下文有更全面的了解。原始GovReport数据集是美国政府问责局和国会研究服务部的详细报告的大规模集合，每份报告都附有人工撰写的摘要，内容涵盖各种国家政策问题。

4. Few-shot Learning

为了确保任务的多样性，该工作将分类、总结和阅读理解任务纳入了few shot学习场景中。该工作纳入了两个具有细粒度类标签的分类数据集，包括TREC和LSHT，前者是涉及50个细粒度类的问题分类任务，后者是涉及24个类的中文新闻分类任务。

5. Synthetic Task合成任务

合成任务通过精心设计来测试模型在特定场景和模式下的能力。在LongBench中，该工作设计了三个合成任务。

6. Code Completion代码补全任务

代码自动补全是自动补全系统的一项重要任务，它可以根据先前的代码输入和上下文帮助用户补全代码。这项任务会对模型构成巨大挑战，尤其是在处理冗长的代码输入或甚至是资源库级数据时。

LooGLE评测数据集

LooGLE包含更具挑战性的长依赖任务，如事件时间线重排、理解/推理和计算。这些任务不仅需要信息检索，还需要对整个文本进行理解/推理。

1. 数据集的选择和构建

LooGLE基准由3个数据源组成：科学论文、维基百科文章、电影和电视脚本，它们都涵盖了不同的主题和类别，用所有文档都是2022年后的文档，长度超过10k。

2. 长依赖任务

摘要Summarization：直接使用每篇论文的摘要作为生成摘要的参考。摘要有效地捕捉了每篇论文的主要内容和关键信息。

每个文档的平均字数在10,000到20,000之间，需要生成5到10个问题。此外，参与者不得使用大型语言模型和ChatGPT等工具进行文章阅读、数据生成和标注。

Long dependency QA长依赖性问答：花费了大量精力手动编制了约1.1k个真正的长依赖性质量保证对。该工作手动设计了4个长依赖性任务：多重信息检索、时间轴重排、计算、理解和推理，如图2所示。

3. 短依赖任务

短依赖任务包括Question Answering (QA) 任务和Cloze任务。为了生成简短的依赖关系问题解答对，该工作利用了GPT3.5-turbo-16k。这些简短的依赖关系问答对通常不需要大量的证据检索，可以从本地化的片段中提取。

该工作将每篇文章分为多个片段，并采用迭代方法来提示语言模型(LLM)根据这些片段生成QA对，包括文章中的相关支持证据。

总结

本文主要针对长文本评估，梳理了当前具有代表性的长文本评测，包括Zero-SCROLLS、L-Eval、LongBench以及loge四个基准。其中关于数据集的选取，任务的设计，以及对现有模型的评估都具有很好的指引性，对于具体的细节信息，可以对参考文献进行查阅，会有更多的收获。