资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

【架构解析】深入浅析DeepSeek-V3的技术架构

创作时间:

作者:

@小白创作中心

【架构解析】深入浅析DeepSeek-V3的技术架构

引用

CSDN

https://m.blog.csdn.net/m0_74823044/article/details/145216063

运行这个DeepSeek-V3需要的显存资源，我先去找更大的GPU VM去了…

一、DeepSeek-V3 的架构详解

模型总体概述

DeepSeek-V3 是一款采用 Mixture-of-Experts（MoE）架构的大型语言模型，其核心参数配置如下：

模型层数：61 层
隐藏层维度：7168
前馈网络维度：18432
注意力头数：128
词汇表大小：129280
最大位置嵌入：163840

该模型通过精细的架构设计，实现了在计算效率和性能上的平衡。

Mixture-of-Experts（MoE）架构

MoE 设置：

MoE 层频率：1（即每一层都是 MoE 层）
共享专家数：1
路由专家数：256
每个 Token 选择的专家数：8
MoE 专家前馈网络维度：2048

专家数量与分布：

总 MoE 层数：58 层（第 4 层至第 61 层）
每层专家总数：257 个（1 个共享专家 + 256 个路由专家）
模型总专家数：14,906 个（257 个专家 × 58 层）

活跃专家数量：

每层活跃专家：9 个（1 个共享专家 + 8 个路由专家）
整个模型的活跃专家：522 个（9 个活跃专家 × 58 层）

MoE 架构的优势：

计算效率高：每个 Token 只需计算少量专家，降低了计算成本。
参数利用率高：拥有巨大参数容量（总参数量 6,710 亿），但实际计算的激活参数仅约 370 亿。
专家专精化：路由机制使得专家专注于特定特征，提高模型性能。

路由专家与共享专家的结合：

路由专家（Routed Experts）：
选择性激活：按需激活，利用门控机制（如基于亲和度分数的 Top-K 选择）决定哪些专家处理当前 Token。
专精化处理：每个路由专家擅长处理特定类型的输入或特征，实现专精化。
稀疏计算：仅激活部分专家，提高计算效率。
负载均衡：确保不同专家在不同输入上均衡被激活，避免过载。
共享专家（Shared Experts）：

热门推荐

解决水危机：海水淡化VS南水北调，哪种方案更胜一筹？

2024，肿瘤免疫百花齐放

广东·体验龙母文化游购肇美乡村

广东十大特色美食：从白切鸡到煲仔饭，每一道都是舌尖上的粤味盛宴

德国杯：斯图加特状态复苏，凯泽斯劳滕晋级无望？

家庭存款100万在中国是什么水平？从数据到现实的全面解析

如今社会，100万还能算百万富翁吗？银行人有话说！

分户≠多拿宅基地！最高法判例明确：“公安户”≠“征拆户”

多层PCB板在汽车电子领域的应用

补骨粉在牙科治疗中的应用：功能、手术过程、费用及注意事项全解析

塑胶跑道一圈是多少米？全面解读塑胶跑道的长度标准

xAI发布Grok 3模型，全球最大十万卡集群再现“力大砖飞”

宅基地使用权范围与特征详解

Unity技巧移动篇——步移和顶点吸附

中国科幻电影开启多维创新之旅

中国实现最远距离太赫兹无线通信传输，6G商用指日可待

3D打印在文物修复方面的应用——以陶瓷类文物为例

938Gbps！到底6G网络有多快：130G大的《黑神话》下载1秒搞定

《剑侠情缘2白金版》简体中文硬盘版

最新地产政策如何影响房价？专家解读

雄心勃勃又忧心忡忡，揭开中国留学生在光环中挣扎的一面

选择适合多云气候的最佳太阳能电池板：综合指南

血糖高能吃大枣吗？专家解读食用注意事项及血糖管理建议

肌肽：一种重要的二肽分子

杜鹃啼血的历史典故与成语故事

到手的机会没了！历经两年实战磨砺的苏-35，出口难度更大了？

俄军5个月内仅接收4架苏35，战场上接连被击落，俄自己都不喜欢了

DeepSeek 预测：未来十年，电车会彻底取代油车吗？

如何有效去除结构性眼袋？探讨不同方法与治疗方案

轮胎保养全攻略：延长轮胎寿命，保障行车安全