马斯克xAI开源大语言模型Grok-1:3140亿参数的MoE架构详解
创作时间:
作者:
@小白创作中心
马斯克xAI开源大语言模型Grok-1:3140亿参数的MoE架构详解
引用
CSDN
1.
https://blog.csdn.net/weixin_40774379/article/details/136803305
北美时间3月17日,马斯克的xAI公司正式开源其大语言对话模型Grok-1。该模型拥有3140亿(314B)参数,采用专家混合(Mixture-of-Experts, MoE)架构,训练基于JAX和Rust之上的定制训练栈。
模型介绍
Grok-1是一个拥有3140亿(314B)参数的专家混合模型(Mixture-of-Experts, MoE)。该模型由xAI公司从头开始训练,未使用任何特定应用的预训练数据集。
发布内容
- 发布的是Grok-1模型的原始基础模型权重和网络架构。
- 这些资源是在Grok-1的预训练阶段结束时的检查点,该阶段于2023年10月完成。
- 由于模型没有针对特定应用进行微调,因此它可能不适用于直接的对话或其他特定任务。
许可协议
- 权重和架构的发布遵循Apache 2.0许可证,这意味着它们可以被自由使用、修改和分发。
如何使用
- 为了开始使用Grok-1模型,用户可以参考位于github.com/xai-org/grok的指南和文档。
模型细节
- Grok-1在大量文本数据上进行了训练,但并未针对任何特定任务进行优化。
- 在模型中,大约有25%的权重会在处理任何给定标记时活跃,这是专家混合模型的一个特点,其中不同的“专家”(即模型的不同部分)负责处理不同类型的信息。
- 训练工作是在2023年10月使用xAI的定制训练栈完成的,该训练栈建立在JAX和Rust之上。
封面图片
博文的封面图片是通过Midjourney使用Grok提出的提示生成的。图片展示了一个3D神经网络插图,其中节点是透明的,连接是发光的,并且连接线的粗细和颜色代表了权重的不同。
相关链接
- xAI博文地址:https://x.ai/blog/grok-os
- Grok-1 Github地址:https://github.com/xai-org/grok-1
- Grok-1数据集地址:https://academictorrents.com/details/5f96d43576e3d386c9ba65b883210a393b68210e
热门推荐
超出工伤保险基金报销的医疗费,由谁承担?
今年报名人数继续减少?多家院校2025考研报名数据公布
英超纽卡斯尔联VS布伦特福德比赛前瞻 纽卡士气高涨
在湖北!襄阳这5家地道的美食馆子,开了几十年,排队也要去!
机房空调:温湿度和洁净度的控制
微观世界的奇妙理论:量子力学
如何搭建选品团队
版权符号指南:如何正确使用
体育中考中长跑通关秘籍:科学原理+技术细节+临场发挥
全固态电池,真的“绝对安全”吗?
买车分期还是全款?4S店销售:分期更划算,但要注意这3事项
新仙剑奇侠传之挥剑问情李逍遥技能详解:蜀山掌门版实战攻略
智能黑板微课教学,职校信息化教学探索的新方向
如何顺利办理入户手续?办理入户时需要准备哪些材料?
全球最快高铁,CR450动车组样车下线,有哪些技术亮点?
夏季女士运动背心的选择注意事项和经验
外贸营销型独立站建设全攻略:设计、谷歌SEO、内容及运营指南
混凝土和水泥砂浆的区别及应用领域
迷你世界攻略:掌握核心技巧,轻松成为游戏高手!
做残根拔除的全过程,麻醉方式选择哪个更合适?
女性必知!法律如何守护“她权益”(附维权指南)
“失控”的智能门锁
美丽的长白山作文有哪些?优秀范文带你领略绝美风光!
顶楼一般多久开始漏水?顶楼防水问题及维护
儿童过敏性鼻炎的药物治疗指南
补充蛋白质吃什么食物最易吸收
护照过期换新指南:5步轻松搞定
网上换发/补发护照详细流程!请注意照片上传标准!
王境泽靠真香定律年入百万
健身先健脑!11个健身误区,别再瞎练了,只会浪费时间