Deepseek又出连招:刚发布了超越DALL-E3的多模态模型
Deepseek又出连招:刚发布了超越DALL-E3的多模态模型
春节前夕,AI领域迎来重大突破。中国AI公司DeepSeek接连发布创新模型,不仅在推理领域取得突破,其最新发布的多模态模型Janus-Pro-7B还在多项基准测试中超越了DALL-E 3和Stable Diffusion,引发全球科技圈关注。
AI时代就这么悄悄降临了。大概谁也没想到,今年春节,打的最热的不再是传统互联网的红包大战,谁和春晚合作了,而是AI公司。
临近春节,各家大模型公司都完全没放松,更新了一波模型和产品,而最受关注的,却是去年崭露头角的「大模型公司」DeepSeek(深度求索)。
1月20日晚,DeepSeek公司发布推理模型DeepSeek-R1正式版,使用低廉的训练成本直接训练出了不输OpenAI推理模型o1的性能,而且完全免费开源,直接引发了行业地震。
这是第一次国产AI大范围在全球,特别是美国引起了科技圈的震动。开发者纷纷表示,正在考虑用DeepSeek「重构一切」,在这一浪潮下,经过一周的发酵,甚至一月才刚刚发布的DeepSeek移动端应用,迅速登顶美区苹果应用商店免费App排行第一,不但超越了ChatGPT,也直接超越了美区的其他热门应用。
DeepSeek的成功甚至直接影响了美股,没有使用巨量昂贵GPU就训练出的模型,让人们重新思考了AI的训练路径,直接让AI第一股英伟达最大跌幅达到17%。
而这还没结束。
1月28日凌晨,除夕夜前一晚,DeepSeek又开源了其多模态模型Janus-Pro-7B,宣布在GenEval和DPG-Bench基准测试中击败了DALL-E 3(来自OpenAI)和Stable Diffusion。
DeepSeek真的要血洗AI圈了吗?从推理模型到多模态模型,拿DeepSeek重构一切,是蛇年开年的第一主题吗?
Janus Pro,多模态模型创新架构的验证
DeepSeek此次深夜一共发布了两个模型,Janus-Pro-7B和Janus-Pro-1B(1.5B参数量)。
从命名上就能看出,模型本身来自之前Janus模型的升级。
2024年10月,DeepSeek才第一次发布Janus模型。和DeepSeek的贯套路一样,模型采取了一个创新的架构。在不少视觉生成模型中,模型都是采用了统一的Transformer架构,能够同时处理文生图和图生文任务。
而DeepSeek则是提出了一种新的思路,对理解(图生文)和生成任务(文生图)的视觉编码进行解耦,提升了模型训练的灵活性,有效缓解了使用单一视觉编码导致的冲突和性能瓶颈。
这也是DeepSeek为什么将模型命名为Janus(杰纳斯)。Janus是古罗马门神,被描绘为有分别朝向相反方的两个面孔。DeepSeek表示命名为Janus,指的是模型可以像Janus一样,用不同的眼睛看向视觉数据,分别编码特征,然后用同一个身体(Transformer)去处理这些输入信号。
在Janus系列模型中,这种新思路已经产生了不错的效果,团队表示,Janus模型的指令跟随能力很强,有多语言能力,且的模型更聪明,能读懂meme图像。同时还能处理latex公式转换、图转代码等任务。
而在Janus Pro系列模型中,团队对模型的训练流程进行了部分修改,直接做到了在GenEval和DPG-Bench基准测试中击败了DALL-E 3和Stable Diffusion。
随着模型本身,DeepSeek也发布了Janus Flow新型多模态AI框架,旨在统一图像理解与生成任务。
Janus Pro模型能做到使用简短提示提供更稳定的输出,具有更好的视觉质量、更丰富的细节以及生成简单文本的能力。
模型既可以生成图像,也可以对图片进行描述,识别地标景点(例如杭州的西湖),识别图像中的文字,并能对图片中的知识(如「猫和老鼠」蛋糕)进行介绍。
X上不少人已经开始试用新模型。
上图左为图像识别的测试,右图则为图像生成的测试。
可以看到,在高精度读图上,Janus Pro也做的很好。能够识别数学表达式和文字的混合排版。未来搭配推理模型使用,可能有更大意义。
1B和7B的参数量,或能解锁新应用场景
在多模态理解任务中,新模型Janus-Pro采用SigLIP-L作为视觉编码器,支持384 x 384像素的图像输入。而在图像生成任务中,Janus-Pro使用一个来自特定来源的分词器,降采样率为16。
相对而言,这样的图像规模尺寸仍然较小。X上有用户分析认为,Janus Pro模型更多是方向上的验证,如果验证靠谱,就会推出可以投入生产的模型了。
不过值得注意的是,此次Janus发布的新模型,不但在架构上对多模态模型有创新意义可以参考,在参数量上,也是一个新的探索。
此次DeepSeek Janus Pro对比的模型,DALL-E 3,之前公布的参数量为120亿,而Janus Pro的大尺寸模型只有70亿参数。在这样紧凑的尺寸下,Janus Pro能够做到这样的效果已经十分不错。
尤其是Janus Pro的1B模型,只使用了15亿参数。外网上已经有用户将对模型的支持添加到了transformers.js。这意味着模型现在可以在WebGPU上的浏览器中100%运行!
虽然截止发稿,笔者还没能成功地在网页版上使用到Janus Pro的新模型,但是参数量小到能够在网页端直接运行,仍然是一项令人惊叹的进步。
这意味着图片生成/图片理解的成本,正在进一步下降。而我们有机会在更多原本无法使用生图和图片理解功能的地方,看到AI的使用,改变我们的生活。
2024年的一大热点,在于加入了多模态理解的AI硬件,能够如何介入我们的生活。而参数量越来越低的多模态理解模型,或者可以让我们期待能够在端侧运行的模型,能够让AI硬件进一步爆发。
DeepSeek搅动新年,万事万物可以用中国AI重做一遍?
AI世界一日千里。
去年春节前后,搅动世界的是OpenAI的Sora模型,而一年下来,中国公司已经完全在视频生成方面迎头赶上,让年尾Sora的发布显得有些暗淡了。
而今年搅动世界的,变成了中国的DeepSeek。
DeepSeek并不算传统的科技公司,然而用远低于美国大模型公司GPU卡和成本,做出了极其创新的模型,直接让美国同行感到震动——美国人纷纷感叹:R1模型的训练,仅仅花费560万美元,甚至只相当于Meta GenAI团队任一高管的薪资,这是什么神秘的东方力量?
DeepSeek创始人梁文峰直接在X上发布了一张有趣的图片:
图片使用了爆火的2024年全球爆火的土耳其射击选手的梗。
在法国巴黎奥运会射击项目混合团体10米气手枪决赛中,51岁的土耳其射击男选手迪凯奇,仅佩戴了一副普通的近视眼镜和一对睡眠耳塞,便以单手插兜的潇洒姿态,稳稳地将银牌收入囊中。而在场的全部其他射击选手都需要两块聚焦和遮光的专业镜片和一副防噪声耳塞,才能开始比赛。
自从DeepSeek「破解」了OpenAI的推理模型,美国各大科技公司开始背上了巨大的压力。今天,Sam Altman也终于扛不住压力出来回应了一段官方发言。
2025年,会是中国AI冲击美国认知的一年吗?
DeepSeek,手里还藏着什么秘密——这注定是个不平凡的春节。