DeepSeek发布V3更新:推理增强、中文优化
DeepSeek发布V3更新:推理增强、中文优化
3月25日,DeepSeek官方在开源平台上发布了更新版的DeepSeek-V3模型,并详细披露了其性能改进的具体情况。此次升级主要体现在推理任务表现的提升、前端开发能力的增强、中文写作水平的优化以及中文搜索能力的改善等方面。此外,在工具调用、角色扮演和问答闲聊等功能上也实现了不同程度的能力提升。
当前版本号为DeepSeek-V3-0324,用户可通过登录官方网站、APP或小程序进入对话界面体验新版模型。只需关闭“深度思考”功能即可快速切换至新版本。值得注意的是,API接口及使用方式保持不变,方便开发者无缝切换。
官方建议,除非涉及复杂推理任务,否则用户应优先选择新版本V3模型,以享受更流畅的对话速度和全面提升的效果体验。
DeepSeek-V3-0324与之前的DeepSeek-V3版本基于相同的基模型,仅在后训练方法上进行了优化。在私有化部署时,只需更新checkpoint和tokenizer_config.json(与工具调用相关部分)。该模型参数量约为660亿,开源版本支持最大上下文长度为128K(网页端、APP和API提供64K上下文支持)。
与DeepSeek-R1保持一致,此次DeepSeek-V3-0324的开源仓库(包括模型权重)继续采用MIT License授权,允许用户通过模型输出或模型蒸馏等方式训练其他模型。
以下是DeepSeek-V3-0324模型的具体优化情况:
推理任务表现提高
新版V3模型借鉴了DeepSeek-R1训练过程中使用的强化学习技术,显著提升了推理任务的表现。在数学和代码相关的评测集上,其得分已超越GPT-4.5。
前端开发能力增强
在HTML等前端代码任务中,新版V3模型生成的代码不仅可用性更高,而且视觉效果更加美观,设计感更强。
中文写作升级
新版V3模型在中文写作方面进一步优化了R1的基础能力,特别是在中长篇文本创作中,内容质量得到了显著提升。
中文搜索能力优化
在联网搜索场景下,新版V3模型能够针对报告生成类指令输出更为详实准确的内容,同时排版更加清晰美观。