问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

马斯克xAI开源大语言模型Grok-1：3140亿参数的MoE架构详解

创作时间:

作者:

@小白创作中心

马斯克xAI开源大语言模型Grok-1：3140亿参数的MoE架构详解

引用

CSDN

1.

https://blog.csdn.net/weixin_40774379/article/details/136803305

北美时间3月17日，马斯克的xAI公司正式开源其大语言对话模型Grok-1。该模型拥有3140亿（314B）参数，采用专家混合（Mixture-of-Experts, MoE）架构，训练基于JAX和Rust之上的定制训练栈。

模型介绍

Grok-1是一个拥有3140亿（314B）参数的专家混合模型（Mixture-of-Experts, MoE）。该模型由xAI公司从头开始训练，未使用任何特定应用的预训练数据集。

发布内容

发布的是Grok-1模型的原始基础模型权重和网络架构。
这些资源是在Grok-1的预训练阶段结束时的检查点，该阶段于2023年10月完成。
由于模型没有针对特定应用进行微调，因此它可能不适用于直接的对话或其他特定任务。

许可协议

权重和架构的发布遵循Apache 2.0许可证，这意味着它们可以被自由使用、修改和分发。

如何使用

为了开始使用Grok-1模型，用户可以参考位于github.com/xai-org/grok的指南和文档。

模型细节

Grok-1在大量文本数据上进行了训练，但并未针对任何特定任务进行优化。
在模型中，大约有25%的权重会在处理任何给定标记时活跃，这是专家混合模型的一个特点，其中不同的“专家”（即模型的不同部分）负责处理不同类型的信息。
训练工作是在2023年10月使用xAI的定制训练栈完成的，该训练栈建立在JAX和Rust之上。

封面图片

博文的封面图片是通过Midjourney使用Grok提出的提示生成的。图片展示了一个3D神经网络插图，其中节点是透明的，连接是发光的，并且连接线的粗细和颜色代表了权重的不同。

相关链接

xAI博文地址：https://x.ai/blog/grok-os
Grok-1 Github地址：https://github.com/xai-org/grok-1
Grok-1数据集地址：https://academictorrents.com/details/5f96d43576e3d386c9ba65b883210a393b68210e

热门推荐

减脂期间蛋白质摄入量，减脂期间蛋白质摄入量是多少

减脂期间蛋白质摄入量，减脂期间蛋白质摄入量是多少

在软件开发过程中，如何提高内聚性并减少耦合性

在软件开发过程中，如何提高内聚性并减少耦合性

特朗普上任首周金融市场震荡：美元下跌、金价上涨，油价受挫

特朗普上任首周金融市场震荡：美元下跌、金价上涨，油价受挫

脱脂牛奶比全脂牛奶更健康？很多人都没喝对，看完终于明白了

脱脂牛奶比全脂牛奶更健康？很多人都没喝对，看完终于明白了

冬天几天洗一次澡最好？这几类人懒一点更健康

冬天几天洗一次澡最好？这几类人懒一点更健康

车上播放歌曲应该下载什么格式

车上播放歌曲应该下载什么格式

UEFI和GPT下硬盘克隆后的BCD引导修复

UEFI和GPT下硬盘克隆后的BCD引导修复

产学研协同共谋全固态电池材料创新与技术突破

产学研协同共谋全固态电池材料创新与技术突破

各产业巨头混战，固态电池要起飞！

各产业巨头混战，固态电池要起飞！

什么话题？聚起北大清华四位老师对谈

什么话题？聚起北大清华四位老师对谈

优化内推招聘流程：构建高效的内推管理体系

优化内推招聘流程：构建高效的内推管理体系

优化员工考勤时间管理，提高工作效率和企业效益

优化员工考勤时间管理，提高工作效率和企业效益

美元下跌的原因是什么？这种趋势对全球经济有何影响？

美元下跌的原因是什么？这种趋势对全球经济有何影响？

甲醛检测仪HCHO和TVOC标准：室内空气质量监测指南

甲醛检测仪HCHO和TVOC标准：室内空气质量监测指南

20mm奥氏体不锈钢厚板焊接实录：激光填丝焊的“多道穿透术”有多硬核？

20mm奥氏体不锈钢厚板焊接实录：激光填丝焊的“多道穿透术”有多硬核？

川观独家丨吴艳妮教练杨辉揭秘：成绩有预期冬训有效果

川观独家丨吴艳妮教练杨辉揭秘：成绩有预期冬训有效果

喝醉酒第二天吃点什么会舒服点

喝醉酒第二天吃点什么会舒服点

物联网重塑世界：洞察物联网未来趋势及影响

物联网重塑世界：洞察物联网未来趋势及影响

布偶猫饮食营养搭配全解析：科学喂养延长爱宠寿命

布偶猫饮食营养搭配全解析：科学喂养延长爱宠寿命

男人冷静期：一场情感的迷雾与成长的契机

男人冷静期：一场情感的迷雾与成长的契机

分手冷静期一般要多久：法律规定与实务分析

分手冷静期一般要多久：法律规定与实务分析

人名的民族特色：探索不同文化背景下的姓名

人名的民族特色：探索不同文化背景下的姓名

工作压力大导致失眠吃什么可以改善

工作压力大导致失眠吃什么可以改善

胆碱与怀孕：您的必要营养素指南

胆碱与怀孕：您的必要营养素指南

汽车轮胎保养与维护

汽车轮胎保养与维护

盆栽榕树怎么养才长得好榕树需要什么肥料

盆栽榕树怎么养才长得好榕树需要什么肥料

盆景榕树的养植方法？榕树盆景栽培

盆景榕树的养植方法？榕树盆景栽培

女子捡手机关机索要报酬，这种“占便宜”心态引发争议

女子捡手机关机索要报酬，这种“占便宜”心态引发争议

Intel主板RAID阵列重建完整指南

Intel主板RAID阵列重建完整指南

大米蒸多少分钟才能熟啊？

大米蒸多少分钟才能熟啊？

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号