【架构解析】深入浅析DeepSeek-V3的技术架构
创作时间:
作者:
@小白创作中心
【架构解析】深入浅析DeepSeek-V3的技术架构
引用
CSDN
1.
https://m.blog.csdn.net/m0_74823044/article/details/145216063
运行这个DeepSeek-V3需要的显存资源,我先去找更大的GPU VM去了…
一、DeepSeek-V3 的架构详解
- 模型总体概述
DeepSeek-V3 是一款采用 Mixture-of-Experts(MoE)架构的大型语言模型,其核心参数配置如下:
- 模型层数:61 层
- 隐藏层维度:7168
- 前馈网络维度:18432
- 注意力头数:128
- 词汇表大小:129280
- 最大位置嵌入:163840
该模型通过精细的架构设计,实现了在计算效率和性能上的平衡。
- Mixture-of-Experts(MoE)架构
MoE 设置:
- MoE 层频率:1(即每一层都是 MoE 层)
- 共享专家数:1
- 路由专家数:256
- 每个 Token 选择的专家数:8
- MoE 专家前馈网络维度:2048
专家数量与分布:
- 总 MoE 层数:58 层(第 4 层至第 61 层)
- 每层专家总数:257 个(1 个共享专家 + 256 个路由专家)
- 模型总专家数:14,906 个(257 个专家 × 58 层)
活跃专家数量:
- 每层活跃专家:9 个(1 个共享专家 + 8 个路由专家)
- 整个模型的活跃专家:522 个(9 个活跃专家 × 58 层)
MoE 架构的优势:
- 计算效率高:每个 Token 只需计算少量专家,降低了计算成本。
- 参数利用率高:拥有巨大参数容量(总参数量 6,710 亿),但实际计算的激活参数仅约 370 亿。
- 专家专精化:路由机制使得专家专注于特定特征,提高模型性能。
路由专家与共享专家的结合:
路由专家(Routed Experts):
选择性激活:按需激活,利用门控机制(如基于亲和度分数的 Top-K 选择)决定哪些专家处理当前 Token。
专精化处理:每个路由专家擅长处理特定类型的输入或特征,实现专精化。
稀疏计算:仅激活部分专家,提高计算效率。
负载均衡:确保不同专家在不同输入上均衡被激活,避免过载。
共享专家(Shared Experts):
热门推荐
米其林推荐:亲子DIY新年手工灯笼
用红色打造时尚年味:新年家居装饰全攻略
新年美妆大作战:亢奋妆vs倒钩眼线,谁是你的菜?
EB病毒发现60周年,甲子展望新篇章
东坡肘子:一道菜的千年文化传承
年夜饭必备:大荔带把肘子的品牌故事
年夜饭必备!大荔带把肘子火了
《甄嬛传》里的宫斗,竟有伍子胥的影子?
伍子胥:从说谎大师到忠臣的逆袭之路
从天水麻辣烫到宝鸡辣子铜火锅 挑动舌尖味蕾
八尺大人:日本都市传说中的恐怖女妖
八尺大人:日本都市传说中的神秘妖怪
江西安义县:“千年古县”的千亿“铝”想
南昌滕王阁景区
血脂高,如何让血脂降下来?医生为你总结4招,不妨试一试
从全民狂欢到商业盛宴:央视春晚42年变迁史
龙年春晚:传统文化的现代演绎
赵露思分享抑郁症康复经验:勇敢站起来!
石英杰《晚霞》:河北诗歌的新高度
小伤口别不当回事!出现这些症状及时就医!可能是破伤风!
破伤风几天过安全期
2025流感指南新发布,4个要点更新,补点维生素能预防
净水“国补”来袭,方太以创新技术抢占市场高地
病毒保存液:病毒样本保存的关键工具
企业如何科学应对甲流疫情?这份防控指南请收好
赛诺菲四价流感疫苗暂停供应,专家解读:如何科学选择流感疫苗
秋冬流感高发季:学校如何有效预防甲流?
带你解读EB病毒抗体五项报告,全是阳性真的不可怕
如何去云南芒市最方便?
种植牙与传统牙齿修复哪个好?深入分析两者的优缺点与适用情况