DeepSeek-V3引发热议:AI模型如何避免“污染”?
DeepSeek-V3引发热议:AI模型如何避免“污染”?
近日,深度求索公司发布的DeepSeek-V3模型引发了广泛关注。这款拥有6710亿参数的AI大模型在多项评测中表现优异,甚至在某些方面超越了GPT-4等顶尖闭源模型。然而,在其引发热议的同时,也暴露出一些值得关注的问题。
DeepSeek-V3的技术实力
12月26日,深度求索官方微信公众号宣布,旗下全新系列模型DeepSeek-V3首个版本上线并同步开源。据公众号描述,DeepSeek-V3是一款自研的MoE(Mixture of Experts)模型,拥有6710亿参数,激活370亿参数,在14.8万亿token上进行了预训练。
图片来源:深度求索微信公众号
国外独立评测机构Artificial Analysis对DeepSeek-V3进行了全面测试,结果显示:
- 质量:DeepSeek-V3的质量指数为80,高于平均水平。
- 价格:DeepSeek-V3的使用成本远低于同类产品,每100万个Token的价格仅为0.48美元。
- 速度:DeepSeek-V3的输出速度为每秒87.5个Token。
- 延迟:接收首个Token需要1.14秒。
- 上下文窗口:DeepSeek-V3的上下文窗口为13万个Token。
Artificial Analysis总结道:“DeepSeek-V3超越了迄今为止发布的所有开源模型,并且在某些方面甚至超过了OpenAI的GPT-4o和Anthropic的Claude 3.5 Sonnet。”
性能评测与成本优势
广发证券的评测结果显示,DeepSeek-V3在逻辑推理和代码生成方面表现出色,特别是在密文解码和代码注释生成任务中优于其他大模型。然而,在文本生成和数学计算能力方面,DeepSeek-V3与其他大模型相当,未见明显优势。
DeepSeek-V3的另一大亮点是其低成本。据报道,深度求索仅用了两个月时间,花费约558万美元,就完成了DeepSeek-V3的训练。相比之下,Meta的Llama-3.1训练成本超过5亿美元。这种显著的成本优势,使得DeepSeek-V3获得了“AI界拼多多”的称号。
“AI污染”引发的争议
然而,DeepSeek-V3也暴露出一些问题。有用户发现,当被问及“你是什么模型”时,DeepSeek-V3会错误地回答:“我是一个名为ChatGPT的AI语言模型,由OpenAI开发。”这一现象引发了关于DeepSeek-V3是否使用了ChatGPT输出数据进行训练的质疑。
对此,机器学习专家Thomas G. Dietterich表示,几乎所有大模型都是基于公开数据训练的,数据污染是一个普遍问题。TechCrunch则推测,DeepSeek-V3可能使用了包含GPT-4输出的公共数据集,导致模型记住了部分GPT-4的输出。
图片来源:Artificial Anlaysis
这一现象揭示了一个更深层次的问题:随着AI生成内容在互联网上的占比越来越高,如何避免AI模型受到“污染”,成为一个亟待解决的挑战。据外媒估计,到2026年,90%的互联网数据将由AI生成,这无疑将给AI模型的训练带来更大的挑战。
结语
DeepSeek-V3的出现,展示了AI模型开发的新可能。通过优化算法和训练策略,即使在有限的算力预算下,也能开发出高性能的AI模型。然而,这也带来了新的挑战,如何在海量AI生成数据中保持模型的纯净度,将是未来AI发展需要面对的重要课题。