显著超越SFT,o1/DeepSeek-R1背后秘诀也能用于多模态大模型了
显著超越SFT,o1/DeepSeek-R1背后秘诀也能用于多模态大模型了
上海交大、上海AI Lab、港中文大学的研究人员推出了视觉强化微调开源项目——Visual-RFT (Visual Reinforcement Fine-Tuning),该技术只需10~1000条数据,就能通过思考过程和基于规则的监督提升多模态大模型的性能。
o1/DeepSeek-R1背后的技术秘诀也能扩展到多模态领域了!例如,当模型被问及“什么宝可梦可以释放技能十万伏特”时,它能准确识别出皮卡丘并标注其位置,展示了强大的泛化能力。
从R1到Visual-RFT:强化学习的多模态突破
OpenAI的o1模型通过强化微调(Reinforcement Fine-Tuning)能力,能够用少量样本快速适应新任务。最近的研究揭示,o1模型的强推理能力源自基于可验证奖励(Verified Rewards)/规则奖励(Rule-based Verifier)的强化学习策略。然而,这种基于规则奖励的方法通常被认为只适用于数学推理、代码等少数便于验证的任务。
Visual-RFT项目则突破了这一局限,成功将基于规则奖励的强化学习方法从纯文本领域拓展到视觉语言模型。通过对细分类、目标检测等视觉任务设计对应的规则奖励,Visual-RFT打破了DeepSeek-R1方法局限于文本、数学推理、代码等少数领域的认知,为视觉语言模型的训练开辟了全新路径。
Visual-RFT的创新优势
传统的视觉指令微调(Visual Instruction Tuning/Supervised Fine-Tuning,SFT)需要大量数据才能有效提升模型性能,但在数据稀缺的场景下效果有限。相比之下,Visual-RFT具有以下优势:
- 少样本学习能力:只需要10~1000条数据就能实现有效训练
- 更强的泛化性:在数据量有限的情况下仍能保持高性能
- 任务覆盖面广:已在Detection、Classification、Grounding等多个视觉感知任务上得到验证
实验结果与对比
实验主要基于视觉语言大模型基座QWen2-VL 2B/7B模型,与传统的监督微调(Supervised Fine-Tuning)方法进行对比。结果显示,Visual-RFT在开放目标检测、少样本检测、细粒度分类和推理定位任务上全面超越SFT。
应用场景展示
在推理定位任务中,Visual-RFT展现出显著优势。例如,当被问及“图中的运动员在水下保持清晰视野需要带什么物体”时,传统SFT方法会错误地将整个运动员框出,而Visual-RFT则能准确识别并标注出防水眼镜的位置。
开源项目信息
目前,Visual-RFT项目已全面开源,包含训练、评测代码和数据。感兴趣的读者可以访问项目地址:https://github.com/Liuziyu77/Visual-RFT