问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

DeepSeek发布V3更新:推理增强、中文优化

创作时间:
作者:
@小白创作中心

DeepSeek发布V3更新:推理增强、中文优化

引用
中关村在线
1.
https://ai.zol.com.cn/965/9650176.html

3月25日,DeepSeek官方在开源平台上发布了更新版的DeepSeek-V3模型,并详细披露了其性能改进的具体情况。此次升级主要体现在推理任务表现的提升、前端开发能力的增强、中文写作水平的优化以及中文搜索能力的改善等方面。此外,在工具调用、角色扮演和问答闲聊等功能上也实现了不同程度的能力提升。

当前版本号为DeepSeek-V3-0324,用户可通过登录官方网站、APP或小程序进入对话界面体验新版模型。只需关闭“深度思考”功能即可快速切换至新版本。值得注意的是,API接口及使用方式保持不变,方便开发者无缝切换。

官方建议,除非涉及复杂推理任务,否则用户应优先选择新版本V3模型,以享受更流畅的对话速度和全面提升的效果体验。

DeepSeek-V3-0324与之前的DeepSeek-V3版本基于相同的基模型,仅在后训练方法上进行了优化。在私有化部署时,只需更新checkpoint和tokenizer_config.json(与工具调用相关部分)。该模型参数量约为660亿,开源版本支持最大上下文长度为128K(网页端、APP和API提供64K上下文支持)。

与DeepSeek-R1保持一致,此次DeepSeek-V3-0324的开源仓库(包括模型权重)继续采用MIT License授权,允许用户通过模型输出或模型蒸馏等方式训练其他模型。

以下是DeepSeek-V3-0324模型的具体优化情况:

推理任务表现提高

新版V3模型借鉴了DeepSeek-R1训练过程中使用的强化学习技术,显著提升了推理任务的表现。在数学和代码相关的评测集上,其得分已超越GPT-4.5。

前端开发能力增强

在HTML等前端代码任务中,新版V3模型生成的代码不仅可用性更高,而且视觉效果更加美观,设计感更强。

中文写作升级

新版V3模型在中文写作方面进一步优化了R1的基础能力,特别是在中长篇文本创作中,内容质量得到了显著提升。

中文搜索能力优化

在联网搜索场景下,新版V3模型能够针对报告生成类指令输出更为详实准确的内容,同时排版更加清晰美观。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号