LONGWRITER:突破大语言模型10,000+字长文本生成的技术方案
创作时间:
作者:
@小白创作中心
LONGWRITER:突破大语言模型10,000+字长文本生成的技术方案
引用
CSDN
1.
https://blog.csdn.net/m0_75077001/article/details/141270873
当前的大语言模型虽然能够处理超过100,000个token的输入,但在生成输出时却难以突破2000个token的限制。为了解决这一问题,研究者提出了LONGWRITER方案,通过Agent Write方法、Long Writer-6k数据集以及Longbench-Write基准测试,成功实现了生成超过10,000字的长文本输出。
Agent Write:受人类写作启发的长文本生成方案
Agent Write方法受到人类作家写作过程的启发,通常作家在面对长时间的写作任务时,会先制定一个详细的写作计划,包括每个章节的结构和目标字数。这种方法同样适用于大语言模型的长文本生成。
Agent Write主要包括三个步骤:
- 计划:模型根据用户输入生成详细的写作计划,包括每个段落的结构和目标字数。
- 写:在生成文本时,将前n-1段的内容作为输入,采用串行方式生成每段内容。
- 检验:通过LongWrite-Ruler检测模型的最长输出能力,并通过Longbench-Writer评估生成内容与用户指令的一致性。
Longbench-Write:评估长文本生成能力的基准测试
为了全面评估模型的长文本生成能力,研究者构建了Longbench-Write基准测试集。该测试集包含120个用户写作提示,其中60个中文,60个英文,每个提示都明确规定了字数要求,分为四个子集:
- 0-500字
- 500-2000字
- 2000-4000字
- 超过4000字
此外,测试集中的文本被分为七种类型:
- 文学和创意写作
- 学术和专著
- 大众科学
- 功能写作
- 新闻报道
- 社区论坛
- 教育和培训
评估方法
评估主要从两个维度进行:
- 文章长度达标情况
- 文章质量
文章质量的评估采用GPT-4o模型,从以下方面进行打分:
- 相关性
- 准确性
- 一致性
- 清晰度
- 广度和深度
- 阅读体验
最终取平均分作为文章的质量评分。
LongWriter数据集及模型训练
为了进一步提升模型的长文本生成能力,研究者构建了Long Writer-6k数据集,并基于此数据集对模型进行训练。
数据集构建
数据集构建过程如下:
- 从GPT-4o的SFT中选取3000条中文指令
- 从WildChat-1M中选取3000条英文指令
- 过滤掉有毒指令和无关内容
- 最终构建了输出长度在2k至10k之间的LongWriter-6k数据集
模型训练
研究者基于GLM-4-9B和Llama-3.1-8B两个开源模型进行微调,得到LongWriter-8B和LongWriter-9B。为了进一步提高模型质量,还对LongWriter-9B进行了偏好优化(DPO):
- DPO数据来自GLM-4聊天数据(约5万个样本)
- 额外构建了4000对针对长篇写作的数据
- 通过对比采样生成正负样本进行优化
实验结果表明,经过DPO优化后,模型性能提升了3%到4%。
热门推荐
如何计算你的股票成本价与盈亏
前端如何显示出cookie信息
抑郁症有自残行为怎么安慰
全球首例!“成都造”AI+手术机器人实现跨越5000公里手术成功
电感电容谐振原理及Matlab仿真
塔罗牌权杖七正位感情意义解读
12岁孩子保持心理健康,家长能做什么?
不同接口USB连接器存在的差异
丹寨苗族共庆祭尤节 民俗传承赋能文旅发展
北京天坛建成600周年历史文化展开幕
京城印记:必赴一场北京之旅的梦幻(第2站:天坛公园)
十大高薪专业排行榜:金融业计算机包揽前三甲?
业内:楼市到了关键时刻,房企如何应对毛利率下降?
告别暴饮暴食:23个实用建议助你养成健康饮食习惯
农民工工资发放结算确认单的规范与作用
12岁男生应该食用哪些食物以助长身高
律师去哪里找法条:信息检索与实践应用
识别固态硬盘WinPE全解析:确保系统安装与数据恢复无忧
头发毛囊萎缩怎么治疗
《科学》:揭示mRNA传递到细菌核糖体的分子基础
有一种传统,叫“八宝饭”丨爱申活 暖心春
燕郊是北京吗?虽非北京却享同等繁华,这背后的故事太精彩!
面试技术岗位怎么应对团队合作的问题
供血不足吃什么补得最快
异养生物:特征、分类及其重要性
如何排版和打印劳动合同书:确保法律效力与规范性
茶花炭疽病的发病原因及治疗方法(茶花叶片发黑怎么办)
美联储降息周期开启:对全球和中国经济的影响分析
JKL在MSI中的稳定发挥 TES的可靠支点
黑巧克力的健康与幸福双赢:科学解析苯乙胺的力量