马斯克xAI开源大语言模型Grok-1:3140亿参数的MoE架构详解
创作时间:
作者:
@小白创作中心
马斯克xAI开源大语言模型Grok-1:3140亿参数的MoE架构详解
引用
CSDN
1.
https://blog.csdn.net/weixin_40774379/article/details/136803305
北美时间3月17日,马斯克的xAI公司正式开源其大语言对话模型Grok-1。该模型拥有3140亿(314B)参数,采用专家混合(Mixture-of-Experts, MoE)架构,训练基于JAX和Rust之上的定制训练栈。
模型介绍
Grok-1是一个拥有3140亿(314B)参数的专家混合模型(Mixture-of-Experts, MoE)。该模型由xAI公司从头开始训练,未使用任何特定应用的预训练数据集。
发布内容
- 发布的是Grok-1模型的原始基础模型权重和网络架构。
- 这些资源是在Grok-1的预训练阶段结束时的检查点,该阶段于2023年10月完成。
- 由于模型没有针对特定应用进行微调,因此它可能不适用于直接的对话或其他特定任务。
许可协议
- 权重和架构的发布遵循Apache 2.0许可证,这意味着它们可以被自由使用、修改和分发。
如何使用
- 为了开始使用Grok-1模型,用户可以参考位于github.com/xai-org/grok的指南和文档。
模型细节
- Grok-1在大量文本数据上进行了训练,但并未针对任何特定任务进行优化。
- 在模型中,大约有25%的权重会在处理任何给定标记时活跃,这是专家混合模型的一个特点,其中不同的“专家”(即模型的不同部分)负责处理不同类型的信息。
- 训练工作是在2023年10月使用xAI的定制训练栈完成的,该训练栈建立在JAX和Rust之上。
封面图片
博文的封面图片是通过Midjourney使用Grok提出的提示生成的。图片展示了一个3D神经网络插图,其中节点是透明的,连接是发光的,并且连接线的粗细和颜色代表了权重的不同。
相关链接
- xAI博文地址:https://x.ai/blog/grok-os
- Grok-1 Github地址:https://github.com/xai-org/grok-1
- Grok-1数据集地址:https://academictorrents.com/details/5f96d43576e3d386c9ba65b883210a393b68210e
热门推荐
减脂期间蛋白质摄入量,减脂期间蛋白质摄入量是多少
在软件开发过程中,如何提高内聚性并减少耦合性
特朗普上任首周金融市场震荡:美元下跌、金价上涨,油价受挫
脱脂牛奶比全脂牛奶更健康?很多人都没喝对,看完终于明白了
冬天几天洗一次澡最好?这几类人懒一点更健康
车上播放歌曲应该下载什么格式
UEFI和GPT下硬盘克隆后的BCD引导修复
产学研协同 共谋全固态电池材料创新与技术突破
各产业巨头混战,固态电池要起飞!
什么话题?聚起北大清华四位老师对谈
优化内推招聘流程:构建高效的内推管理体系
优化员工考勤时间管理,提高工作效率和企业效益
美元下跌的原因是什么?这种趋势对全球经济有何影响?
甲醛检测仪HCHO和TVOC标准:室内空气质量监测指南
20mm奥氏体不锈钢厚板焊接实录:激光填丝焊的“多道穿透术”有多硬核?
川观独家丨吴艳妮教练杨辉揭秘:成绩有预期 冬训有效果
喝醉酒第二天吃点什么会舒服点
物联网重塑世界:洞察物联网未来趋势及影响
布偶猫饮食营养搭配全解析:科学喂养延长爱宠寿命
男人冷静期:一场情感的迷雾与成长的契机
分手冷静期一般要多久:法律规定与实务分析
人名的民族特色:探索不同文化背景下的姓名
工作压力大导致失眠吃什么可以改善
胆碱与怀孕:您的必要营养素指南
汽车轮胎保养与维护
盆栽榕树怎么养才长得好 榕树需要什么肥料
盆景榕树的养植方法?榕树盆景栽培
女子捡手机关机索要报酬,这种“占便宜”心态引发争议
Intel主板RAID阵列重建完整指南
大米蒸多少分钟才能熟啊?