DeepSeek-v3大模型震撼AI圈:年轻团队的崛起与创新
DeepSeek-v3大模型震撼AI圈:年轻团队的崛起与创新
DeepSeek-v3大模型的发布在AI圈引起了巨大轰动。这个由一群年轻人组成的团队,以仅需Llama 3十分之一的算力训练出了性能更强大的开源模型。从应届生到博士后,这些来自清华北大的顶尖人才,不仅在技术上取得了突破,更以独特的组织文化和运作方式,展现了年轻团队的创新力量。
横空出世的技术突破
DeepSeek-v3大模型的发布,以仅需Llama 3十分之一的算力训练出性能更强大的开源模型,震撼了整个AI圈。紧接着,“雷军开千万年薪挖DeepSeek研究员罗福莉”的传闻,更是将人们的目光聚焦到这家神秘的公司。不仅是科技圈,全网都在好奇:这究竟是一支怎样的团队?
国际关注与团队揭秘
国际上,梁文锋的访谈被翻译成英语,并附上详细注释,试图从中寻找这家公司崛起的蛛丝马迹。量子位整理的各种资料显示,DeepSeek团队的最大特点就是年轻化。应届生、在读生,特别是来自清华北大的顶尖人才,在其中非常活跃。
许多团队成员在2024年一边在DeepSeek搞研究,另一边还在攻读博士学位,甚至有新鲜热乎的博士学位论文刚评上奖。这些年轻人参与了从DeepSeek LLM v1到DeepSeek-v3的全程,有的只是实习了一段时间也做出了重要成果。
- MLA新型注意力机制:为DeepSeek提出MLA(Multi-head Latent Attention)的高华佐和曾旺丁,分别来自北大物理系和北邮,他们在Transformer架构的基础上大幅减少了计算量和推理显存。
- GRPO强化学习对齐算法:DeepSeek-Math提出的GRPO(Group Relative Policy Optimization)显著减少了训练资源的需求,这一算法在圈内得到广泛关注,阿里Qwen 2.5的技术报告中也透露用到了GRPO。
核心成员揭秘
- 邵智宏:清华交互式人工智能(CoAI)课题组博士生,师从黄民烈教授,曾在微软研究院工作,参与了DeepSeek-Prover、DeepSeek-Coder-v2等多个项目。
- 朱琪豪:北大计算机学院软件研究所2024届博士毕业生,发表CCF-A类论文16篇,主导开发了DeepSeek-Coder-V1,其博士论文入选2024 CCF软件工程专业委员会博士学位论文激励计划。
- Peiyi Wang:北大博士生,受穗志方教授指导,参与了多项DeepSeek项目。
- 代达劢:2024年博士毕业于北京大学计算机学院计算语言所,获EMNLP 2023最佳长论文奖,CCL 2021最佳中文论文奖,参与了从v1到v3的全部工作。
- 王炳宣:北大元培学院硕士毕业,参与了从DeepSeek LLM v1开始的一系列重要工作。
- 赵成钢:清华学生超算团队成员,三次获得世界大学生超算竞赛冠军,担任DeepSeek训练/推理基础架构工程师,有英伟达实习经历。
组织架构与文化
DeepSeek的成功不仅在于技术突破,还在于其独特的组织文化和运作方式。创始人梁文锋在接受采访时透露,团队招人看能力而非经验,核心技术岗位以应届和毕业一两年的人为主。即使是团队leader级别,也偏年轻化,以毕业4-6年的为主。
- 自然分工,灵活调动资源:DeepSeek不做前置的岗位分工,而是采取自然分工的方式。每个人可以随时调用训练集群,只要几个人有兴趣就可以开始一个项目。当一个idea显示出潜力,也会自上而下地调配资源。
- 软硬件协同设计:DeepSeek非常重视模型算法和硬件工程的配合。团队中有专门负责优化硬件的成员,他们通过软硬件协同设计降低训练成本,解决传统超算架构在AI训练需求上的不足。例如,Fire-Flyer AI-HPC项目通过使用英伟达A100 GPU,实现了相比英伟达官方DGX-A100服务器有成本和能耗的优势。
多元化的研究方向
除了语言模型相关的工作,DeepSeek还在其他领域取得了重要成果。例如,清华博士生孙景翔在DeepSeek实习期间,与导师刘烨斌及DeepSeek成员合作完成了3D生成相关的研究。中山大学逻辑学专业的辛华剑也在DeepSeek实习期间参与了用大模型证明数学定理的DeepSeek-Prover项目,现在在爱丁堡大学读博士。
类似OpenAI的组织形态
DeepSeek的运作结构让人联想到AI界的另一家巨头——OpenAI。两者都重视新人的能力,本科生、辍学生只要有潜力就照样招进来。同样的重用新人,应届生与00后可以调动资源从无到有研究Sora。面对潜力方向,整个公司从顶层开始设计布局和资源推动。可以说,DeepSeek可能是组织形态上最像OpenAI的一家中国AI公司。
结语
DeepSeek-v3的发布不仅是技术上的突破,更是年轻团队崛起的象征。这支由应届生、在读生和年轻博士组成的团队,以创新和灵活性赢得了全球的关注。未来,我们期待DeepSeek继续在AI领域带来更多令人瞩目的成就。