问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

DeepSeek开源第二弹DeepEP,但它究竟是个啥?

创作时间:
作者:
@小白创作中心

DeepSeek开源第二弹DeepEP,但它究竟是个啥?

引用
CSDN
1.
https://blog.csdn.net/shenjian58/article/details/145891980

DeepSeek开源第二弹DeepEP,它究竟是个啥?本文将从功能、技术原理以及对普通人写提示词的启示三个方面,为你详细解读这个AI领域的前沿技术。

DeepEP是干嘛的?

DeepEP(Distributed Expert Parallel Communication Library)是为混合专家MOE(Mixture of Experts)与并行专家EP量身定制的通信库。其主要作用是优化MOE混合专家节点间的数据分发与合并,从而达到降低延时、提升吞吐量的效果。这背后意味着训练/计算更快,成本更低,模型迭代更快。

它是怎么做到的?

什么是混合专家MOE?

混合专家模型(Mixture of Experts)不再追求大而全,转而追求多而专精。它会将任务动态路由给各个领域专家,并将各个领域专家的输出进行组合。

DeepEP的核心优化

  1. NVLink优化:好比建成城际高铁,负责同一节点内专家高速通讯,带宽高达160GB/s,接近硬件极限;
  2. RDMA优化:好比建成跨城磁悬浮,负责跨节点专家高速通讯,跨节点直接访问内存,带宽高达50GB/s;
  3. FP8优化:低精度运算,好比货物压缩,更省空间,能交换更多信息。

这些优化对DeepSeek非常重要:

  • 专家分发(Dispatch):数据快速精准分配给多个专家;
  • 数据合并(Combine):汇总各个专家的处理结果,统筹形成最终数据;

对普通人写提示词有什么启示?

为了充分发挥DeepSeek的混合专家MOE的最大潜力,可以显性告诉它,你希望它扮演哪些专家角色来回复问题。

bad case:如何设计高并发高可用系统?

这样的提示词,你会得到一个泛泛而谈的回答。

good case:假设你是由以下专家组成的团队:

  1. 分布式领域系统架构师
  2. 电商领域业务架构师
  3. 资深DBA

请分别从各自领域提出5项技术选型建议,并组合设计方案满足每秒10万次交易,数据满足最终一致性,故障恢复时间小于30秒的系统。

没错,你不止可以让DeepSeek扮演一个角色,你甚至可以让他扮演专家团的多个角色。此时处理时间并不会显著增长,但输出质量会显著提高。

节省训练资源,缩短回复时间,提升回答质量,多个专家还能够交叉验证(大而全模型可能过拟合),DeepSeek创新性使用MOE之后,很快就得到了业界的广泛认可与复制。

总结

  1. DeepEP,是为混合专家MOE量身定制的通信库;
  2. DeepEP的核心思路是:优化MOE混合专家节点间的数据分发与合并;
  3. 提示词层面:通过让DeepSeek显示扮演专家团的多个角色,能充分发挥DeepSeek的混合专家MOE机制,不会显著增加处理时间,但能显著提升输出质量;
  4. 提示词只有适配了AI的认知模式,才能最高效的发挥最大的作用。

知其然,知其所以然。思路比结论更重要。

补充阅读材料:
《DeepEP》
https://github.com/deepseek-ai/DeepEP

本文原文来自CSDN博客

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号