问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

LONGWRITER:突破大语言模型10,000+字长文本生成的技术方案

创作时间:
作者:
@小白创作中心

LONGWRITER:突破大语言模型10,000+字长文本生成的技术方案

引用
CSDN
1.
https://blog.csdn.net/m0_75077001/article/details/141270873

当前的大语言模型虽然能够处理超过100,000个token的输入,但在生成输出时却难以突破2000个token的限制。为了解决这一问题,研究者提出了LONGWRITER方案,通过Agent Write方法、Long Writer-6k数据集以及Longbench-Write基准测试,成功实现了生成超过10,000字的长文本输出。

Agent Write:受人类写作启发的长文本生成方案

Agent Write方法受到人类作家写作过程的启发,通常作家在面对长时间的写作任务时,会先制定一个详细的写作计划,包括每个章节的结构和目标字数。这种方法同样适用于大语言模型的长文本生成。

Agent Write主要包括三个步骤:

  1. 计划:模型根据用户输入生成详细的写作计划,包括每个段落的结构和目标字数。
  2. :在生成文本时,将前n-1段的内容作为输入,采用串行方式生成每段内容。
  3. 检验:通过LongWrite-Ruler检测模型的最长输出能力,并通过Longbench-Writer评估生成内容与用户指令的一致性。

Longbench-Write:评估长文本生成能力的基准测试

为了全面评估模型的长文本生成能力,研究者构建了Longbench-Write基准测试集。该测试集包含120个用户写作提示,其中60个中文,60个英文,每个提示都明确规定了字数要求,分为四个子集:

  • 0-500字
  • 500-2000字
  • 2000-4000字
  • 超过4000字

此外,测试集中的文本被分为七种类型:

  • 文学和创意写作
  • 学术和专著
  • 大众科学
  • 功能写作
  • 新闻报道
  • 社区论坛
  • 教育和培训

评估方法

评估主要从两个维度进行:

  1. 文章长度达标情况
  2. 文章质量

文章质量的评估采用GPT-4o模型,从以下方面进行打分:

  • 相关性
  • 准确性
  • 一致性
  • 清晰度
  • 广度和深度
  • 阅读体验

最终取平均分作为文章的质量评分。

LongWriter数据集及模型训练

为了进一步提升模型的长文本生成能力,研究者构建了Long Writer-6k数据集,并基于此数据集对模型进行训练。

数据集构建

数据集构建过程如下:

  1. 从GPT-4o的SFT中选取3000条中文指令
  2. 从WildChat-1M中选取3000条英文指令
  3. 过滤掉有毒指令和无关内容
  4. 最终构建了输出长度在2k至10k之间的LongWriter-6k数据集

模型训练

研究者基于GLM-4-9B和Llama-3.1-8B两个开源模型进行微调,得到LongWriter-8B和LongWriter-9B。为了进一步提高模型质量,还对LongWriter-9B进行了偏好优化(DPO):

  1. DPO数据来自GLM-4聊天数据(约5万个样本)
  2. 额外构建了4000对针对长篇写作的数据
  3. 通过对比采样生成正负样本进行优化

实验结果表明,经过DPO优化后,模型性能提升了3%到4%。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号