图像生成推理大模型,港中文北大等联手破解画质提升难题
图像生成推理大模型,港中文北大等联手破解画质提升难题
近日,香港中文大学、北京大学和上海AI实验室的研究团队在图像生成领域取得重要突破。他们将思维链(Chain of Thought,简称CoT)方法引入图像生成模型,提出了一种新的图像生成框架,并开发了两种专门针对图像生成任务的奖励模型——潜力评估奖励模型(PARM)及其增强版本PARM++。实验结果表明,这种方法能够有效提升自回归图像生成的质量,甚至超越扩散模型。
研究团队观察到,自回归图像生成与大语言模型(LLM)具有类似的推理架构,即都采用离散化的Token表示,并通过逐步预测的方式进行生成。基于这一观察,他们设计了一种新的用CoT推理进行文生图的方法。
具体来说,研究团队以“文生图”为任务场景,并使用Show-o作为baseline模型,研究主要分为测试时验证(Test-time Verification)、直接偏好优化(DPO)对齐以及二者的结合三个部分。
测试时验证
研究团队首先探索了如何使用奖励模型来进行测试时验证,实现了结果奖励模型(ORM)和过程奖励模型(PRM)方案。在此基础上,他们提出了两种全新的针对图像生成任务的潜力评估奖励模型(PARM)和PARM++。
针对结果奖励模型,论文提出了零样本和微调两种方案,均使用Best-of-N的方式进行验证,即进行多次完整路径的生成,并从中选择出质量最高的最终图片。
对于过程奖励模型,作者使用了类似ORM的方案,同样尝试了零样本和微调两种方式,并对每个步骤进行Best-of-N的方案,即逐步选择出质量最高的中间阶段的生成图片。然而,作者发现这种PRM无法对图像生成有显著的提升。
为了同时结合ORM的简洁和有效性,以及PRM细粒度逐个步骤验证的思想,作者提出了PARM。PARM通过以下三步提升图像生成质量:
- 清晰度判断(Clarity Judgment):识别哪些中间步骤的图像已经足够清晰,可用于后续评估。
- 潜力性评估(Potential Assessment):分析当前步骤是否有潜力生成高质量的最终图像。
- 最佳选择(Best-of-N’ Selection):在高潜力路径中选择最佳的最终图像。
在PARM的基础上,作者进一步提出了PARM++,使模型能够在生成错误时进行自我修正。具体来说,基于PARM选出的最终图片,作者首先使用PARM++评估生成图片是否符合文本描述。若图片不符合要求,会要求RM提供详细的错误描述,并根据该描述,要求生成模型进行自我修正(Self-correction),即模型接收反馈,并参考错误信息重新生成结果。
结果表明,PARM++进一步将GenEval成绩提升了10%,生成结果在物体数量、颜色、空间关系等方面更加准确。
直接偏好优化对齐
作者进一步引入DPO偏好对齐,即使用大规模排名数据训练模型,使其生成结果更符合人类偏好。研究团队构建了288K条图文排名数据用于训练。具体来说,训练过程是采用最大似然优化,调整模型输出,使其更偏向人类偏好。同时,论文也进一步使用迭代DPO,在模型优化后重新生成新数据进行再次训练。
结果表明,初次DPO训练使模型在GenEval性能提升9%,而迭代DPO的提升比例可以达到12%,超越微调ORM。
测试时验证与DPO结合
在前述两种方法的基础上,作者探索了将测试时验证与DPO对齐相结合的策略,以实现端到端的优化。在DPO训练的模型基础上,作者进一步应用测试时验证进行筛选,使生成图像质量更高,文本一致性更强。
实验结果表明,结合DPO和测试时验证后,模型在GenEval指标上的整体提升达27%,超越了单独使用DPO或测试时验证的方案。
整体来看,这项研究展示了将思维链方法应用于图像生成领域的创新思路,提出的新方法在多个方面都取得了显著的性能提升,为未来图像生成技术的发展提供了新的方向。
论文地址:
https://arxiv.org/abs/2501.13926
项目地址:
https://github.com/ZiyuGuo99/Image-Generation-CoT
本文原文来自量子位公众号