问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

马斯克xAI开源大语言模型Grok-1:3140亿参数的MoE架构详解

创作时间:
作者:
@小白创作中心

马斯克xAI开源大语言模型Grok-1:3140亿参数的MoE架构详解

引用
CSDN
1.
https://blog.csdn.net/weixin_40774379/article/details/136803305

北美时间3月17日,马斯克的xAI公司正式开源其大语言对话模型Grok-1。该模型拥有3140亿(314B)参数,采用专家混合(Mixture-of-Experts, MoE)架构,训练基于JAX和Rust之上的定制训练栈。

模型介绍

Grok-1是一个拥有3140亿(314B)参数的专家混合模型(Mixture-of-Experts, MoE)。该模型由xAI公司从头开始训练,未使用任何特定应用的预训练数据集。

发布内容

  • 发布的是Grok-1模型的原始基础模型权重和网络架构。
  • 这些资源是在Grok-1的预训练阶段结束时的检查点,该阶段于2023年10月完成。
  • 由于模型没有针对特定应用进行微调,因此它可能不适用于直接的对话或其他特定任务。

许可协议

  • 权重和架构的发布遵循Apache 2.0许可证,这意味着它们可以被自由使用、修改和分发。

如何使用

  • 为了开始使用Grok-1模型,用户可以参考位于github.com/xai-org/grok的指南和文档。

模型细节

  • Grok-1在大量文本数据上进行了训练,但并未针对任何特定任务进行优化。
  • 在模型中,大约有25%的权重会在处理任何给定标记时活跃,这是专家混合模型的一个特点,其中不同的“专家”(即模型的不同部分)负责处理不同类型的信息。
  • 训练工作是在2023年10月使用xAI的定制训练栈完成的,该训练栈建立在JAX和Rust之上。

封面图片

博文的封面图片是通过Midjourney使用Grok提出的提示生成的。图片展示了一个3D神经网络插图,其中节点是透明的,连接是发光的,并且连接线的粗细和颜色代表了权重的不同。

相关链接

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号