问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

DeepSeek-V3引发热议:AI模型如何避免“污染”?

创作时间:
作者:
@小白创作中心

DeepSeek-V3引发热议:AI模型如何避免“污染”?

引用
网易
1.
https://www.163.com/dy/article/JKK108Q30512B07B.html

近日,深度求索公司发布的DeepSeek-V3模型引发了广泛关注。这款拥有6710亿参数的AI大模型在多项评测中表现优异,甚至在某些方面超越了GPT-4等顶尖闭源模型。然而,在其引发热议的同时,也暴露出一些值得关注的问题。

DeepSeek-V3的技术实力

12月26日,深度求索官方微信公众号宣布,旗下全新系列模型DeepSeek-V3首个版本上线并同步开源。据公众号描述,DeepSeek-V3是一款自研的MoE(Mixture of Experts)模型,拥有6710亿参数,激活370亿参数,在14.8万亿token上进行了预训练。


图片来源:深度求索微信公众号

国外独立评测机构Artificial Analysis对DeepSeek-V3进行了全面测试,结果显示:

  • 质量:DeepSeek-V3的质量指数为80,高于平均水平。
  • 价格:DeepSeek-V3的使用成本远低于同类产品,每100万个Token的价格仅为0.48美元。
  • 速度:DeepSeek-V3的输出速度为每秒87.5个Token。
  • 延迟:接收首个Token需要1.14秒。
  • 上下文窗口:DeepSeek-V3的上下文窗口为13万个Token。

Artificial Analysis总结道:“DeepSeek-V3超越了迄今为止发布的所有开源模型,并且在某些方面甚至超过了OpenAI的GPT-4o和Anthropic的Claude 3.5 Sonnet。”

性能评测与成本优势

广发证券的评测结果显示,DeepSeek-V3在逻辑推理和代码生成方面表现出色,特别是在密文解码和代码注释生成任务中优于其他大模型。然而,在文本生成和数学计算能力方面,DeepSeek-V3与其他大模型相当,未见明显优势。

DeepSeek-V3的另一大亮点是其低成本。据报道,深度求索仅用了两个月时间,花费约558万美元,就完成了DeepSeek-V3的训练。相比之下,Meta的Llama-3.1训练成本超过5亿美元。这种显著的成本优势,使得DeepSeek-V3获得了“AI界拼多多”的称号。

“AI污染”引发的争议

然而,DeepSeek-V3也暴露出一些问题。有用户发现,当被问及“你是什么模型”时,DeepSeek-V3会错误地回答:“我是一个名为ChatGPT的AI语言模型,由OpenAI开发。”这一现象引发了关于DeepSeek-V3是否使用了ChatGPT输出数据进行训练的质疑。

对此,机器学习专家Thomas G. Dietterich表示,几乎所有大模型都是基于公开数据训练的,数据污染是一个普遍问题。TechCrunch则推测,DeepSeek-V3可能使用了包含GPT-4输出的公共数据集,导致模型记住了部分GPT-4的输出。


图片来源:Artificial Anlaysis

这一现象揭示了一个更深层次的问题:随着AI生成内容在互联网上的占比越来越高,如何避免AI模型受到“污染”,成为一个亟待解决的挑战。据外媒估计,到2026年,90%的互联网数据将由AI生成,这无疑将给AI模型的训练带来更大的挑战。

结语

DeepSeek-V3的出现,展示了AI模型开发的新可能。通过优化算法和训练策略,即使在有限的算力预算下,也能开发出高性能的AI模型。然而,这也带来了新的挑战,如何在海量AI生成数据中保持模型的纯净度,将是未来AI发展需要面对的重要课题。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号