北大开源多模态版DeepSeek-R1:评测表现超GPT-4o!
北大开源多模态版DeepSeek-R1:评测表现超GPT-4o!
当DeepSeek-R1的深度推理能力与多模态场景相结合,会碰撞出怎样的火花?北京大学与香港科技大学的研究团队给出了答案。他们基于自研的全模态框架Align-Anything,推出了多模态版本的DeepSeek-R1——Align-DS-V。在部分视觉理解评测集上,这款模型的表现甚至超越了GPT-4o。
Align-DS-V:超越GPT-4o的多模态大模型
当研究人员询问Align-DS-V在减肥时更适合喝哪一款饮品时,它不仅能精确识别图中饮品的种类,还能给出专业建议:“低糖原味豆奶”是减脂期的理想选择,同时指出图中的原味豆奶也同样适合减脂期饮用。
更令人惊喜的是,研究团队发现多模态训练不仅提升了模型在视觉任务上的表现,还显著增强了其在文本模态任务中的推理能力。例如,在ARC-Challenge(5-shot)评测中,模型的成绩从单模态的21.4大幅提升至多模态的40.5。
Align-Anything:全模态对齐的创新框架
为了实现全模态大模型与人类意图的有效对齐,研究团队提出了Align-Anything框架。这个框架支持文生文、文生图、文图生文、文生视频等多种模态转换,并具备以下特点:
- 高度模块化:支持用户自定义算法和数据集
- 跨模态微调能力:支持LLaMA3.2、LLaVA、Chameleon等多模态大模型的微调
- 多样化对齐方法:支持SFT、DPO、PPO等多种对齐算法
- 全面的评估体系:支持30多个多模态评测基准
Align-Anything团队还开源了首个全模态人类偏好数据集,包含高质量的图、文、视频、语音数据,为模型训练提供了丰富的资源。
DeepSeek-R1的多模态升级之路
研究团队借鉴LLaVA的训练思路,通过训练投影层将视觉信息映射到语言空间,成功扩展了DeepSeek-R1的视觉模态能力。训练过程分为两步:
- 预训练阶段:仅优化投影层参数,使其能够将视觉特征映射到语言空间
- 微调阶段:同时优化投影层和大语言模型,激发其多模态推理能力
训练完成后,研究团队将多模态版本的DeepSeek-R1命名为Align-DS-V。在多个视觉理解评测集上,Align-DS-V的表现超越了GPT-4o。
应用探索与未来展望
为了验证模型在实际场景中的应用潜力,研究团队对Align-DS-V进行了香港本地化对齐,使其能够处理粤语、英语和普通话的混合输入。在面对包含繁体字的图文数学问题时,Align-DS-V展现了出色的推理能力。
目前,Align-Anything框架和Align-DS-V模型均已开源,研究团队将持续进行维护和更新。未来,研究团队计划在视觉语言动作模型(VLA)领域开展更深入的研究,探索如何利用多模态推理模型的跨模态穿透能力实现更高效的VLA模型。
本文原文来自CSDN