问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

北大开源多模态版DeepSeek-R1：评测表现超GPT-4o！

创作时间:

作者:

@小白创作中心

北大开源多模态版DeepSeek-R1：评测表现超GPT-4o！

引用

CSDN

1.

https://blog.csdn.net/CV_Autobot/article/details/145505955

当DeepSeek-R1的深度推理能力与多模态场景相结合，会碰撞出怎样的火花？北京大学与香港科技大学的研究团队给出了答案。他们基于自研的全模态框架Align-Anything，推出了多模态版本的DeepSeek-R1——Align-DS-V。在部分视觉理解评测集上，这款模型的表现甚至超越了GPT-4o。

Align-DS-V：超越GPT-4o的多模态大模型

当研究人员询问Align-DS-V在减肥时更适合喝哪一款饮品时，它不仅能精确识别图中饮品的种类，还能给出专业建议：“低糖原味豆奶”是减脂期的理想选择，同时指出图中的原味豆奶也同样适合减脂期饮用。

更令人惊喜的是，研究团队发现多模态训练不仅提升了模型在视觉任务上的表现，还显著增强了其在文本模态任务中的推理能力。例如，在ARC-Challenge（5-shot）评测中，模型的成绩从单模态的21.4大幅提升至多模态的40.5。

Align-Anything：全模态对齐的创新框架

为了实现全模态大模型与人类意图的有效对齐，研究团队提出了Align-Anything框架。这个框架支持文生文、文生图、文图生文、文生视频等多种模态转换，并具备以下特点：

高度模块化：支持用户自定义算法和数据集
跨模态微调能力：支持LLaMA3.2、LLaVA、Chameleon等多模态大模型的微调
多样化对齐方法：支持SFT、DPO、PPO等多种对齐算法
全面的评估体系：支持30多个多模态评测基准

Align-Anything团队还开源了首个全模态人类偏好数据集，包含高质量的图、文、视频、语音数据，为模型训练提供了丰富的资源。

DeepSeek-R1的多模态升级之路

研究团队借鉴LLaVA的训练思路，通过训练投影层将视觉信息映射到语言空间，成功扩展了DeepSeek-R1的视觉模态能力。训练过程分为两步：

预训练阶段：仅优化投影层参数，使其能够将视觉特征映射到语言空间
微调阶段：同时优化投影层和大语言模型，激发其多模态推理能力

训练完成后，研究团队将多模态版本的DeepSeek-R1命名为Align-DS-V。在多个视觉理解评测集上，Align-DS-V的表现超越了GPT-4o。

应用探索与未来展望

为了验证模型在实际场景中的应用潜力，研究团队对Align-DS-V进行了香港本地化对齐，使其能够处理粤语、英语和普通话的混合输入。在面对包含繁体字的图文数学问题时，Align-DS-V展现了出色的推理能力。

目前，Align-Anything框架和Align-DS-V模型均已开源，研究团队将持续进行维护和更新。未来，研究团队计划在视觉语言动作模型（VLA）领域开展更深入的研究，探索如何利用多模态推理模型的跨模态穿透能力实现更高效的VLA模型。

本文原文来自CSDN

热门推荐

你家叫“爷爷”还是“外公”？中西家庭称谓大不同

你家叫“爷爷”还是“外公”？中西家庭称谓大不同

教娃用英语叫爷爷奶奶，这些称呼你都知道吗？

教娃用英语叫爷爷奶奶，这些称呼你都知道吗？

机械手动态分析：精确控制机械运动的高级技术

机械手动态分析：精确控制机械运动的高级技术

Cookie劫持攻击：原理、危害与防范策略

Cookie劫持攻击：原理、危害与防范策略

Chrome浏览器：Cookie安全管理新招数

Chrome浏览器：Cookie安全管理新招数

双十一购物攻略：这些实用工具让你不再错过心仪商品

双十一购物攻略：这些实用工具让你不再错过心仪商品

前端开发：Cookie如何提升用户体验？

前端开发：Cookie如何提升用户体验？

重金属中毒是什么

重金属中毒是什么

申根签证新规：旅游保险成必备！

申根签证新规：旅游保险成必备！

保加利亚罗马尼亚加入申根区，欧洲签证政策迎重大调整

保加利亚罗马尼亚加入申根区，欧洲签证政策迎重大调整

申根签证申请全攻略：轻松搞定欧洲行

申根签证申请全攻略：轻松搞定欧洲行

马斯洛五大层次需求理论深度解析

马斯洛五大层次需求理论深度解析

学会正视死亡，是人生的必修课

学会正视死亡，是人生的必修课

用英文向姥爷表白：跨越文化的爱的表达

用英文向姥爷表白：跨越文化的爱的表达

如何用英语准确区分"爷爷奶奶"和"姥姥姥爷"？

如何用英语准确区分"爷爷奶奶"和"姥姥姥爷"？

郑州如何借力独角兽企业推动经济发展？

郑州如何借力独角兽企业推动经济发展？

合众思壮连续4年年报虚假记载被行政处罚！

合众思壮连续4年年报虚假记载被行政处罚！

这6种常见的家居物品，千万别贪便宜，很可能会“有毒”

这6种常见的家居物品，千万别贪便宜，很可能会“有毒”

这8个最容易被忽视的家居安全隐患，每一个都可能很危险

这8个最容易被忽视的家居安全隐患，每一个都可能很危险

加入兴趣小组：提升魅力的新方式

加入兴趣小组：提升魅力的新方式

男生护肤新潮流：掌握这些步骤变型男！

男生护肤新潮流：掌握这些步骤变型男！

健身让你成为校园里的高颜值男神

健身让你成为校园里的高颜值男神

少吃多动还不瘦？减肥的小伙伴请注意：气血不足很难变瘦！

少吃多动还不瘦？减肥的小伙伴请注意：气血不足很难变瘦！

日常如何补气血？告别气血不足，日常调理有方法，健康生活从此开始！

日常如何补气血？告别气血不足，日常调理有方法，健康生活从此开始！

猪肉质量检测流程有哪些？猪肉检测需要多长时间

猪肉质量检测流程有哪些？猪肉检测需要多长时间

如何判断一款汽车是否适合家用需求？这类判断标准有哪些实际应用？

如何判断一款汽车是否适合家用需求？这类判断标准有哪些实际应用？

高邮地标美食节：以品牌化战略打造城市新名片

高邮地标美食节：以品牌化战略打造城市新名片

惠州小学生上学时间调整：落实“双减”政策的新举措

惠州小学生上学时间调整：落实“双减”政策的新举措

汪曾祺笔下的高邮美食：从咸鸭蛋到烫干丝

汪曾祺笔下的高邮美食：从咸鸭蛋到烫干丝

惠州市第一小学：百年名校的传承与创新

惠州市第一小学：百年名校的传承与创新

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号