马斯克xAI开源大语言模型Grok-1:3140亿参数的MoE架构详解
创作时间:
作者:
@小白创作中心
马斯克xAI开源大语言模型Grok-1:3140亿参数的MoE架构详解
引用
CSDN
1.
https://blog.csdn.net/weixin_40774379/article/details/136803305
北美时间3月17日,马斯克的xAI公司正式开源其大语言对话模型Grok-1。该模型拥有3140亿(314B)参数,采用专家混合(Mixture-of-Experts, MoE)架构,训练基于JAX和Rust之上的定制训练栈。
模型介绍
Grok-1是一个拥有3140亿(314B)参数的专家混合模型(Mixture-of-Experts, MoE)。该模型由xAI公司从头开始训练,未使用任何特定应用的预训练数据集。
发布内容
- 发布的是Grok-1模型的原始基础模型权重和网络架构。
- 这些资源是在Grok-1的预训练阶段结束时的检查点,该阶段于2023年10月完成。
- 由于模型没有针对特定应用进行微调,因此它可能不适用于直接的对话或其他特定任务。
许可协议
- 权重和架构的发布遵循Apache 2.0许可证,这意味着它们可以被自由使用、修改和分发。
如何使用
- 为了开始使用Grok-1模型,用户可以参考位于github.com/xai-org/grok的指南和文档。
模型细节
- Grok-1在大量文本数据上进行了训练,但并未针对任何特定任务进行优化。
- 在模型中,大约有25%的权重会在处理任何给定标记时活跃,这是专家混合模型的一个特点,其中不同的“专家”(即模型的不同部分)负责处理不同类型的信息。
- 训练工作是在2023年10月使用xAI的定制训练栈完成的,该训练栈建立在JAX和Rust之上。
封面图片
博文的封面图片是通过Midjourney使用Grok提出的提示生成的。图片展示了一个3D神经网络插图,其中节点是透明的,连接是发光的,并且连接线的粗细和颜色代表了权重的不同。
相关链接
- xAI博文地址:https://x.ai/blog/grok-os
- Grok-1 Github地址:https://github.com/xai-org/grok-1
- Grok-1数据集地址:https://academictorrents.com/details/5f96d43576e3d386c9ba65b883210a393b68210e
热门推荐
“滚蛋”一词与母婴互动:语言起源的新视角
《骆驼祥子》里的“滚蛋”:一个词的社会意义
斐波那契数列算法优化全解析:从递归到矩阵快速幂
平潭岛旅游攻略:交通住宿景点一文详解
洱海边9个POSE,轻松拍出度假大片
Phillips 66关闭洛杉矶炼油厂,加州能源供应告急
“滚蛋”成网络热梗,背后情绪管理有学问
《甄嬛传》主创重聚,蒋勤勤谈如何平衡事业家庭
蒋勤勤获亚洲影后,夫妻互捧成就18年幸福婚姻
泰国内阁批准赌博业合法化法案,2027年迎首家合法赌场
推迟活动终亮相,赵露思病后首次公开露面
赵露思病后首晒动态,57张照片见证康复路
医生教你:食欲不振的诊断方法与治疗方案
手把手教你做糖醋里脊:专治胃口不佳
解压助食:4种实用方法改善女性食欲不振
详解ETC停车场系统:架构设计、功能模块与运维管理
春节家庭聚会活动方案出炉啦!
乌镇VS徽州VS佛山:三地年味大不同
自驾游必备证件全攻略:从国内到国外,这些证件不能少
驾驶房车必备B1/B2证,这些车型规定需谨记
驾驶房车需B1/B2驾驶证,最新政策放宽申请年龄至63岁
眼部健康:日常护眼小贴士与常见问题解答
发动机舱基本项目检查包括哪些内容?如何通过定期检查来确保发动机性能?
冬季养生首选:金针菇鲜肉水饺
春节日期背后的农历秘密
年夜饭的那些趣事:从传统到创新,年味儿这样变
阳江古城见证:从革命火种到红色教育
阳江闸坡大角湾:2.5公里黄金海岸,冲浪摩托艇等你来
“东方夏威夷”海陵岛:自然美景、文化古迹与度假攻略
26度暖阳、人少景美,海陵岛成北方游客避寒新选择