问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

GDC探营 | AI大模型企业热议DeepSeek,共谋差异化发展策略

创作时间:
作者:
@小白创作中心

GDC探营 | AI大模型企业热议DeepSeek,共谋差异化发展策略

引用
澎湃
1.
https://m.thepaper.cn/newsDetail_forward_30184608

2025全球开发者先锋大会(GDC)将于2月21日至23日在上海徐汇举办。近日,《国际金融报》记者走访了商汤科技和MiniMax,了解这两家AI企业对DeepSeek技术突破的看法。

DeepSeek的出现,推动了大模型竞争进入"免费普惠阶段"。商汤科技于2月8日正式宣布在万象平台上架DeepSeek系列模型,包括DeepSeek-V3和DeepSeek-R1等版本,并为企业客户和开发者提供3个月内1000万tokens的免费使用权益。

商汤大装置产品总监刘叶枫表示,DeepSeek的推出预计将引发一系列应用浪潮,推动算力需求的增长。商汤科技产品总监、小浣熊家族产品负责人贾安亚认为,DeepSeek带来的浪潮主要体现在三个方面:成本降低、模型能力增强和多模态融合。

从技术差异化角度,刘叶枫分析称,"DeepSeek的核心竞争力体现在其卓越的上下文理解与深度推理能力,而商汤的模型体系在多模态融合领域构筑了独特优势。不同技术路径意味着各家企业能在差异化的应用场景中发挥所长。"

贾安亚表示,随着DeepSeek的普及,AI技术的应用门槛逐渐降低,更多用户开始尝试使用AI技术。这对于整个AI生态和产业发展来说是一个非常利好的消息。此外,在本周末举行的全球开发者先锋大会上,商汤科技将发布功能更丰富的代码小浣熊2.0,并邀请实际用户展示使用体验。

值得一提的是,商汤科技在大模型训练和推理环节实现了成本的大幅降低。这使得公司能够在相同硬件上部署更大、更通用的模型,为客户提供更优质、更低成本的解决方案。

刘叶枫还透露,商汤即将在2025开发者大会上发布面向开发者的一站式开源Agent应用开发框架——LazyLLM。该框架以数据为核心,支持在应用开发过程中持续迭代数据,从而不断提升数据效果。这一框架可满足国内开发者面向行业和垂域的特定需求,弥补国外工具的不足,同时确保软件自主可控。

MiniMax是一家位于上海徐汇区、成立于2021年的大模型创业公司,拥有数百名员工。据悉,MiniMax是国内首个将Linear Attention架构与MoE结合并应用于模型研发的大模型企业,也是国内领先的拥有文本、图像、语音音乐、视频等多种模态大模型,打通产品全链路的创业公司。2023年8月,公司自主研发的"MiniMax-abab"大模型通过了国家第一批大模型服务备案。

据公司负责人介绍,MiniMax于今年1月开源了全球首个大规模实现线性注意力机制的模型——MiniMax-01系列。该模型的语音功能能够识别并反映人类的情绪,目前支持17种语言,在长文、数学、写作等能力有大幅度提升。尤其是,相比于传统Transformer架构,新架构的原生线性计算复杂度大幅减少了大模型的训练和推理成本。

对于同为业内"友商"的DeepSeek,MiniMax公司副总裁刘华给予了高度评价。他指出,DeepSeek在强化学习和算力调配方面展现出显著的创新性,并迅速获得了广泛关注。

刘华认为,AI行业技术迭代迅速,大模型技术每隔几个月就有重要突破,DeepSeek的创新是推动这一进程的重要力量,预计未来两三年,大模型的能力将实现数倍量级的提升。然而,刘华也强调,行业竞争激烈,中国大模型的发展仍需得到持续的关注和支持。

在顶层研发框架迭代的情况下,刘华强调,研发人员需要对技术变革保持极致的热情。刘华指出,DeepSeek在招聘时注重年轻人的热情和创新精神,而MiniMax同样拥有一支年轻的研发团队,大部分成员在35岁以下,许多博士还在读书阶段就加入公司作为实习生。

刘华透露,在即将到来的全球开发者先锋大会上,MiniMax将展示大模型的应用场景和创新点。

本文照片均由记者潘洁拍摄

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号