问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

ChatGLM-v2和中文Bloom:AI助手NLP技术的新突破

创作时间:
2025-01-22 02:16:22
作者:
@小白创作中心

ChatGLM-v2和中文Bloom:AI助手NLP技术的新突破

在人工智能快速发展的今天,自然语言处理(NLP)领域正经历着前所未有的变革。作为当前最前沿的大型预训练语言模型,ChatGLM-v2和中文Bloom正在引领AI助手在NLP技术上的新突破。

01

ChatGLM-v2:自回归空格填充法的创新

ChatGLM-v2是基于General Language Modeling(GLM)框架的最新版本,其核心创新在于自回归空格填充法。这种技术结合了自编码和自回归两种预训练模型的优点:

  • 自编码:在输入文本中随机删除连续的tokens,然后顺序重建这些连续的tokens。这种设计使得模型能够更好地理解文本的内在结构。
  • 自回归:在重建过程中采用自回归方式预测缺失的tokens,模型可以访问已被corrupted的文本和之前被预测的spans,从而提高长文本处理的效率和准确性。

此外,ChatGLM-v2还引入了两项关键技术:

  • Span shuffling:通过改变缺失spans的数量和长度,增强模型对文本结构的理解。
  • 二维位置编码:第一个位置id标记Part A中的位置,第二个位置id表示跨度内部的相对位置,能够更好地捕捉文本中的位置信息。

这些技术创新使得ChatGLM-v2在文本生成和理解方面表现出色,特别是在中文场景下。模型经过约1T标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术,虽然只有62亿参数,但已经能生成相当符合人类偏好的回答。

02

中文Bloom:多语言多任务学习的突破

中文Bloom是BigScience项目开发的开源多语言模型,具有176B参数,支持59种语言,包括46种口语和13种编程语言。其核心优势在于多任务学习策略

  • Transformer架构:采用仅因果解码器模型,这是零样本泛化功能最有效的方法。
  • ALiBi位置嵌入:根据按键和查询之间的距离直接削弱注意力分数,使训练更顺畅。
  • 嵌入LayerNorm:在嵌入层后立即包含额外的层归一化,提高训练稳定性。

中文Bloom的训练过程也颇具特色:

  • 在ROOTS语料库上训练,包含数百个来源的数据集。
  • 在Jean Zay超级计算机上进行了为期117天的培训课程。
  • 采用多任务提示微调,展现出强大的零样本任务泛化能力。
03

两个模型的对比分析

特征
ChatGLM-v2
中文Bloom
参数量
62亿
1760亿
语言支持
中英双语
59种语言
核心创新
自回归空格填充法
多任务学习策略
技术特点
Span shuffling和二维位置编码
ALiBi位置嵌入和嵌入LayerNorm
应用场景
智能客服、在线教育
多语言翻译、内容推荐

从上表可以看出,两个模型各有优势:

  • ChatGLM-v2专注于中文优化,参数量较小,但通过技术创新在中文场景下表现出色。
  • 中文Bloom则是更大规模的多语言模型,虽然参数量是ChatGLM-v2的近30倍,但在多语言处理方面具有明显优势。
04

对AI助手NLP发展的贡献

ChatGLM-v2和中文Bloom的出现,标志着AI助手在NLP技术上的新纪元:

  • 技术创新:ChatGLM-v2的自回归空格填充法和中文Bloom的多任务学习策略,为NLP模型的设计提供了新的思路。
  • 开源趋势:中文Bloom作为开源项目,推动了AI技术的透明度和社区合作。
  • 领域专业化:ChatGLM-v2针对中文场景的优化,展现了AI模型在特定领域深耕的价值。

这两个模型不仅扩展了AI助手的应用范围,还提高了其在复杂场景中的表现,预示着未来人机交互将更加高效和智能化。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号