LONGWRITER:突破大语言模型10,000+字长文本生成的技术方案
创作时间:
作者:
@小白创作中心
LONGWRITER:突破大语言模型10,000+字长文本生成的技术方案
引用
CSDN
1.
https://blog.csdn.net/m0_75077001/article/details/141270873
当前的大语言模型虽然能够处理超过100,000个token的输入,但在生成输出时却难以突破2000个token的限制。为了解决这一问题,研究者提出了LONGWRITER方案,通过Agent Write方法、Long Writer-6k数据集以及Longbench-Write基准测试,成功实现了生成超过10,000字的长文本输出。
Agent Write:受人类写作启发的长文本生成方案
Agent Write方法受到人类作家写作过程的启发,通常作家在面对长时间的写作任务时,会先制定一个详细的写作计划,包括每个章节的结构和目标字数。这种方法同样适用于大语言模型的长文本生成。
Agent Write主要包括三个步骤:
- 计划:模型根据用户输入生成详细的写作计划,包括每个段落的结构和目标字数。
- 写:在生成文本时,将前n-1段的内容作为输入,采用串行方式生成每段内容。
- 检验:通过LongWrite-Ruler检测模型的最长输出能力,并通过Longbench-Writer评估生成内容与用户指令的一致性。
Longbench-Write:评估长文本生成能力的基准测试
为了全面评估模型的长文本生成能力,研究者构建了Longbench-Write基准测试集。该测试集包含120个用户写作提示,其中60个中文,60个英文,每个提示都明确规定了字数要求,分为四个子集:
- 0-500字
- 500-2000字
- 2000-4000字
- 超过4000字
此外,测试集中的文本被分为七种类型:
- 文学和创意写作
- 学术和专著
- 大众科学
- 功能写作
- 新闻报道
- 社区论坛
- 教育和培训
评估方法
评估主要从两个维度进行:
- 文章长度达标情况
- 文章质量
文章质量的评估采用GPT-4o模型,从以下方面进行打分:
- 相关性
- 准确性
- 一致性
- 清晰度
- 广度和深度
- 阅读体验
最终取平均分作为文章的质量评分。
LongWriter数据集及模型训练
为了进一步提升模型的长文本生成能力,研究者构建了Long Writer-6k数据集,并基于此数据集对模型进行训练。
数据集构建
数据集构建过程如下:
- 从GPT-4o的SFT中选取3000条中文指令
- 从WildChat-1M中选取3000条英文指令
- 过滤掉有毒指令和无关内容
- 最终构建了输出长度在2k至10k之间的LongWriter-6k数据集
模型训练
研究者基于GLM-4-9B和Llama-3.1-8B两个开源模型进行微调,得到LongWriter-8B和LongWriter-9B。为了进一步提高模型质量,还对LongWriter-9B进行了偏好优化(DPO):
- DPO数据来自GLM-4聊天数据(约5万个样本)
- 额外构建了4000对针对长篇写作的数据
- 通过对比采样生成正负样本进行优化
实验结果表明,经过DPO优化后,模型性能提升了3%到4%。
热门推荐
检测官如何全面审查证据:以张军案件调查为例
前端开发程序员的必备功底:深入理解HTTP请求头和响应头
知“胖”才能健康 中西医专家谈肥胖的三把标尺和三道防线
狮身人面像之谜:1990年,一位地质博士来到埃及,他揭开黑幕一角
口角炎快速缓解与预防全攻略
魔兽世界WLK后或成怀旧服终章:大灾变版本争议重重
耳机评测术语大揭秘:从煲耳机到听诊器效应,一文读懂专业术语
主动离职后发现没签劳动合同怎么办?一文详解维权途径与补偿标准
小麦胚芽的功效和作用是否适合糖尿病人群
英国大学计算机科学专业详细解读 高薪热门专业值得选
碟片选择指南:解密自行车制动系统的核心密码
2025年中国金融市场投资者白皮书:财富缩水与投资风险下的新机遇
如何成为一名优秀的守门员(掌握足球守门站位技巧)
漫威电影宇宙十大最佳反派(按动机合理程度排名)
2024年北京机械加工专业职称评定流程
英国留学去苏格兰好吗
黄金,如何影响中华文明和中华民族?
付费阅读、免费阅读:技术迭代下的网文生产机制变革
城市更新进行时!来看上海世博文化公园的华丽转变
百鸟朝凤:成语背后的文化内涵与象征意义是什么?
开发大型公司ERP项目的策略与实施步骤
深圳湾又一新地标要来了!进度和建成时间…
去土耳其带啥货币?选择指南与实用建议
上海迪士尼乐园票价结构调整!最低最高票价不变,新增两级票价
糯米种:含义、种植方法及用途详解
跨文化团队协作的成功秘诀与挑战解析
病毒性肝炎患者等高危人群必看!守好三重防线,远离肝癌威胁
变压器参数测定方法详解:空载试验与短路试验
区块链的主要技术特点及应用场景分析
旅游业在2024年成了“贬义词”,明年将何去何从?