马斯克xAI开源大语言模型Grok-1:3140亿参数的MoE架构详解
创作时间:
作者:
@小白创作中心
马斯克xAI开源大语言模型Grok-1:3140亿参数的MoE架构详解
引用
CSDN
1.
https://blog.csdn.net/weixin_40774379/article/details/136803305
北美时间3月17日,马斯克的xAI公司正式开源其大语言对话模型Grok-1。该模型拥有3140亿(314B)参数,采用专家混合(Mixture-of-Experts, MoE)架构,训练基于JAX和Rust之上的定制训练栈。
模型介绍
Grok-1是一个拥有3140亿(314B)参数的专家混合模型(Mixture-of-Experts, MoE)。该模型由xAI公司从头开始训练,未使用任何特定应用的预训练数据集。
发布内容
- 发布的是Grok-1模型的原始基础模型权重和网络架构。
- 这些资源是在Grok-1的预训练阶段结束时的检查点,该阶段于2023年10月完成。
- 由于模型没有针对特定应用进行微调,因此它可能不适用于直接的对话或其他特定任务。
许可协议
- 权重和架构的发布遵循Apache 2.0许可证,这意味着它们可以被自由使用、修改和分发。
如何使用
- 为了开始使用Grok-1模型,用户可以参考位于github.com/xai-org/grok的指南和文档。
模型细节
- Grok-1在大量文本数据上进行了训练,但并未针对任何特定任务进行优化。
- 在模型中,大约有25%的权重会在处理任何给定标记时活跃,这是专家混合模型的一个特点,其中不同的“专家”(即模型的不同部分)负责处理不同类型的信息。
- 训练工作是在2023年10月使用xAI的定制训练栈完成的,该训练栈建立在JAX和Rust之上。
封面图片
博文的封面图片是通过Midjourney使用Grok提出的提示生成的。图片展示了一个3D神经网络插图,其中节点是透明的,连接是发光的,并且连接线的粗细和颜色代表了权重的不同。
相关链接
- xAI博文地址:https://x.ai/blog/grok-os
- Grok-1 Github地址:https://github.com/xai-org/grok-1
- Grok-1数据集地址:https://academictorrents.com/details/5f96d43576e3d386c9ba65b883210a393b68210e
热门推荐
DRG一年结余4347万,三明这家医院如何做到的?
咸池在日柱是什么意思
怎么快速查询车辆的出险记录?答案原来如此简单
等高线山谷山脊怎么区分 区别是什么
等高线山谷山脊怎么区分 区别是什么
如何获取小说数据库信息
何以中国 行走河南|“豫”见非遗传承发展新画卷
臧天朔:摇滚巨匠的辉煌与陨落
科普|身体的呐喊:解密青少年进食障碍
肥胖对腰间盘突出的影响及预防建议
“才高八斗”之曹植
比熊犬疫苗接种全攻略:从幼犬到成年的完整时间表
太酷了!广西喜提新款复兴号动车组,座位竟设有“小包间”
中国美食文化最丰富的十大省份排行榜
职工医疗保险如何合理返还?返还过程中有哪些要点?
三包期内保修是否收费?法律这样规定
这座适合夏日避暑逛吃的小城,不靠海鲜就能刷新台州美食的新高度
AI医疗攻坚深水区:万亿诊疗场景突破“不可能三角”
医生解答:哪些食物容易让人"上火"
钢筋混凝土容重(混凝土一方多重)
博尔赫斯《阿莱夫》:无限与有限的哲学思考
商务宴请点菜的讲究
月球或为戴森球
汽车保险价格计算指南:交强险与商业险收费标准详解
公历和农历的区别
建议老年人别心疼钱,这6种零食经常吃,腿脚有劲营养好
偏执型人格障碍的心理动力学
病毒感冒与普通感冒的区别及用药
调制肉馅全攻略:正确顺序与实用技巧,让肉馅又香又嫩
人性七宗罪心理学:揭秘人类内心深处的黑暗面