问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

显著超越SFT，o1/DeepSeek-R1背后秘诀也能用于多模态大模型了

创作时间:

作者:

@小白创作中心

显著超越SFT，o1/DeepSeek-R1背后秘诀也能用于多模态大模型了

引用

1

来源

1.

https://news.sina.cn/ai/2025-03-05/detail-inenqhuv2093981.d.html

上海交大、上海AI Lab、港中文大学的研究人员推出了视觉强化微调开源项目——Visual-RFT (Visual Reinforcement Fine-Tuning)，该技术只需10~1000条数据，就能通过思考过程和基于规则的监督提升多模态大模型的性能。

o1/DeepSeek-R1背后的技术秘诀也能扩展到多模态领域了！例如，当模型被问及“什么宝可梦可以释放技能十万伏特”时，它能准确识别出皮卡丘并标注其位置，展示了强大的泛化能力。

从R1到Visual-RFT：强化学习的多模态突破

OpenAI的o1模型通过强化微调（Reinforcement Fine-Tuning）能力，能够用少量样本快速适应新任务。最近的研究揭示，o1模型的强推理能力源自基于可验证奖励（Verified Rewards）/规则奖励（Rule-based Verifier）的强化学习策略。然而，这种基于规则奖励的方法通常被认为只适用于数学推理、代码等少数便于验证的任务。

Visual-RFT项目则突破了这一局限，成功将基于规则奖励的强化学习方法从纯文本领域拓展到视觉语言模型。通过对细分类、目标检测等视觉任务设计对应的规则奖励，Visual-RFT打破了DeepSeek-R1方法局限于文本、数学推理、代码等少数领域的认知，为视觉语言模型的训练开辟了全新路径。

Visual-RFT的创新优势

传统的视觉指令微调（Visual Instruction Tuning/Supervised Fine-Tuning，SFT）需要大量数据才能有效提升模型性能，但在数据稀缺的场景下效果有限。相比之下，Visual-RFT具有以下优势：

少样本学习能力：只需要10~1000条数据就能实现有效训练
更强的泛化性：在数据量有限的情况下仍能保持高性能
任务覆盖面广：已在Detection、Classification、Grounding等多个视觉感知任务上得到验证

实验结果与对比

实验主要基于视觉语言大模型基座QWen2-VL 2B/7B模型，与传统的监督微调（Supervised Fine-Tuning）方法进行对比。结果显示，Visual-RFT在开放目标检测、少样本检测、细粒度分类和推理定位任务上全面超越SFT。

应用场景展示

在推理定位任务中，Visual-RFT展现出显著优势。例如，当被问及“图中的运动员在水下保持清晰视野需要带什么物体”时，传统SFT方法会错误地将整个运动员框出，而Visual-RFT则能准确识别并标注出防水眼镜的位置。

开源项目信息

目前，Visual-RFT项目已全面开源，包含训练、评测代码和数据。感兴趣的读者可以访问项目地址：https://github.com/Liuziyu77/Visual-RFT

热门推荐

洗牙能让牙齿变白吗？专业牙医这样回答

洗牙能让牙齿变白吗？专业牙医这样回答

豆粕是什么？它在农业中有哪些用途？

豆粕是什么？它在农业中有哪些用途？

上海通报17起损坏承重墙案例：多人被罚！这事儿千万别做

上海通报17起损坏承重墙案例：多人被罚！这事儿千万别做

怎样煮鸡蛋才不会开裂？8个实用技巧让你轻松掌握

怎样煮鸡蛋才不会开裂？8个实用技巧让你轻松掌握

右眼皮频繁抽动的原因及缓解方法解析

右眼皮频繁抽动的原因及缓解方法解析

相寻梦里路，飞雨落花中。

相寻梦里路，飞雨落花中。

潮汕美食宝藏：为何鱼丸能成为食客心中的无冕之王？

潮汕美食宝藏：为何鱼丸能成为食客心中的无冕之王？

新研究：一周“饿”两天，血糖和代谢都变好了

新研究：一周“饿”两天，血糖和代谢都变好了

频繁改革下的币制变迁与社会动荡——新莽货币的变革

频繁改革下的币制变迁与社会动荡——新莽货币的变革

世界文化遗产“焕活”丽江古城

世界文化遗产“焕活”丽江古城

浅说中微子

浅说中微子

鼓浪屿美食全攻略：从街头小吃到特色餐厅

鼓浪屿美食全攻略：从街头小吃到特色餐厅

三问“沪惠保”：特药赔付占比超20%，经验能否复制｜上海支持创新药械大调研

三问“沪惠保”：特药赔付占比超20%，经验能否复制｜上海支持创新药械大调研

AI音乐创作与自动作曲：未来音乐的无限可能

AI音乐创作与自动作曲：未来音乐的无限可能

雪地撒欢儿这些应急技巧要掌握

雪地撒欢儿这些应急技巧要掌握

涨幅近5%！稀土精矿价格迎来首季“开门红” 业内：将在一定程度上提振市场信心

涨幅近5%！稀土精矿价格迎来首季“开门红” 业内：将在一定程度上提振市场信心

头顶沉重有压迫感是什么原因

头顶沉重有压迫感是什么原因

肝恶性肿瘤的治疗方法有哪些？

肝恶性肿瘤的治疗方法有哪些？

守护肝脏健康：深度剖析肝癌早筛的筛查人群、手段及结果判读

守护肝脏健康：深度剖析肝癌早筛的筛查人群、手段及结果判读

为什么看了《三体》？就再也看不下去别的科幻小说

为什么看了《三体》？就再也看不下去别的科幻小说

当AI遇到“制药”，能激发多强的生产力？

当AI遇到“制药”，能激发多强的生产力？

补钾全靠吃香蕉？怎么吃够膳食中的钾

补钾全靠吃香蕉？怎么吃够膳食中的钾

遭遇威胁恐吓时如何报警与报案？这份指南请收好

遭遇威胁恐吓时如何报警与报案？这份指南请收好

被网络威胁勒索怎么办

被网络威胁勒索怎么办

驾乘险和驾乘意外险有什么区别

驾乘险和驾乘意外险有什么区别

诗人冯胜兵《朝霞满天》：描绘黎明之美，寄寓生命哲思

诗人冯胜兵《朝霞满天》：描绘黎明之美，寄寓生命哲思

世界上最有价值的硬币：探索钱币珍宝

世界上最有价值的硬币：探索钱币珍宝

英国小费如何给

英国小费如何给

抗生素导致的胃肠功能紊乱症

抗生素导致的胃肠功能紊乱症

从玉女教主变成“原谅教教主”，周慧敏其实一点都不傻

从玉女教主变成“原谅教教主”，周慧敏其实一点都不傻

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号