问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

北大开源多模态版DeepSeek-R1:评测表现超GPT-4o!

创作时间:
作者:
@小白创作中心

北大开源多模态版DeepSeek-R1:评测表现超GPT-4o!

引用
CSDN
1.
https://blog.csdn.net/CV_Autobot/article/details/145505955

当DeepSeek-R1的深度推理能力与多模态场景相结合,会碰撞出怎样的火花?北京大学与香港科技大学的研究团队给出了答案。他们基于自研的全模态框架Align-Anything,推出了多模态版本的DeepSeek-R1——Align-DS-V。在部分视觉理解评测集上,这款模型的表现甚至超越了GPT-4o。

Align-DS-V:超越GPT-4o的多模态大模型

当研究人员询问Align-DS-V在减肥时更适合喝哪一款饮品时,它不仅能精确识别图中饮品的种类,还能给出专业建议:“低糖原味豆奶”是减脂期的理想选择,同时指出图中的原味豆奶也同样适合减脂期饮用。

更令人惊喜的是,研究团队发现多模态训练不仅提升了模型在视觉任务上的表现,还显著增强了其在文本模态任务中的推理能力。例如,在ARC-Challenge(5-shot)评测中,模型的成绩从单模态的21.4大幅提升至多模态的40.5。

Align-Anything:全模态对齐的创新框架

为了实现全模态大模型与人类意图的有效对齐,研究团队提出了Align-Anything框架。这个框架支持文生文、文生图、文图生文、文生视频等多种模态转换,并具备以下特点:

  • 高度模块化:支持用户自定义算法和数据集
  • 跨模态微调能力:支持LLaMA3.2、LLaVA、Chameleon等多模态大模型的微调
  • 多样化对齐方法:支持SFT、DPO、PPO等多种对齐算法
  • 全面的评估体系:支持30多个多模态评测基准

Align-Anything团队还开源了首个全模态人类偏好数据集,包含高质量的图、文、视频、语音数据,为模型训练提供了丰富的资源。

DeepSeek-R1的多模态升级之路

研究团队借鉴LLaVA的训练思路,通过训练投影层将视觉信息映射到语言空间,成功扩展了DeepSeek-R1的视觉模态能力。训练过程分为两步:

  1. 预训练阶段:仅优化投影层参数,使其能够将视觉特征映射到语言空间
  2. 微调阶段:同时优化投影层和大语言模型,激发其多模态推理能力

训练完成后,研究团队将多模态版本的DeepSeek-R1命名为Align-DS-V。在多个视觉理解评测集上,Align-DS-V的表现超越了GPT-4o。

应用探索与未来展望

为了验证模型在实际场景中的应用潜力,研究团队对Align-DS-V进行了香港本地化对齐,使其能够处理粤语、英语和普通话的混合输入。在面对包含繁体字的图文数学问题时,Align-DS-V展现了出色的推理能力。

目前,Align-Anything框架和Align-DS-V模型均已开源,研究团队将持续进行维护和更新。未来,研究团队计划在视觉语言动作模型(VLA)领域开展更深入的研究,探索如何利用多模态推理模型的跨模态穿透能力实现更高效的VLA模型。

本文原文来自CSDN

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号