LiFT:利用人工反馈实现文本到视频模型对齐
LiFT:利用人工反馈实现文本到视频模型对齐
近年来,文本生成视频(T2V)模型取得了显著进展,但这些模型仍难以有效与人类偏好对齐(如准确反映文本描述,生成连续的动作)。为此,研究者提出了一种基于人类反馈的T2V模型微调对齐方法——LiFT。
研究背景
近年来,文本生成视频(T2V)模型取得了显著进展,但这些模型仍难以有效与人类偏好对齐(如准确反映文本描述,生成连续的动作)。这是因为人类偏好具有主观性,难以形式化为客观函数,所以无法在训练中对模型直接进行引导。为此,该工作提出了一种基于人类反馈的T2V模型微调对齐方法, LiFT。
方法简介
该工作提出的的LiFT微调方法包含以下三个关键步骤:
收集人类反馈:从提前设计好的丰富的类别词中随机选择来生成短语,并使用LLM扩展为详细提示,再将文本提示输入到T2V模型中来生成视频-文本对,最后通过人工标注来构建出视频领域全新的人类反馈数据集,LiFT-HRA;
学习奖励函数:基于该数据集训练出视觉-语言大模型LiFT-Critic,学习反映人类偏好的奖励函数,从三个维度对合成视频进行评分,
T2V模型对齐:使用LiFT-Critic对T2V模型生成的视频进行评估,通过将评分映射为奖励权重,引导T2V模型的奖励加权学习。
实验结果
在CogVideoX-2B模型上应用LiFT后,其性能在16项指标上全面超越了更大规模的CogVideoX-5B,充分展示了人类反馈在提升视频生成质量中的巨大潜力。
实验结果展示
A student sits in a quiet library, surrounded by towering shelves of books. The camera captures their focused expression as they take notes, then pans to reveal sunlight streaming through a large arched window.
A farmer harvests ripe apples in an orchard during golden hour. The camera captures the lush trees laden with fruit, the farmer's gentle movements, and the sunlight filtering through the branches.
A woman with long, flowing hair stands on a sandy beach, pulling a colorful kite string. The kite, vibrant and large, soars high above her against a clear blue sky. Her casual attire, consisting of a white tank top and denim shorts, complements the relaxed, sunny atmosphere. She looks upwards, her face lit with a sense of joy and freedom, as the kite dances in the breeze, creating a dynamic and lively scene.
结论
本文提出了一种全新的视频生成人类偏好对齐方法——LiFT。该方法首先构建了包含约10,000条合成视频评分及其理由的人类标注数据集LiFT-HRA,并在此基础上训练奖励模型LiFT-Critic,从人类反馈中学习奖励函数,作为人类判断的代理,评估合成视频与人类期望的匹配度。最后,通过最大化奖励加权似然的微调方法,利用LiFT-Critic对T2V模型进行优化,使生成的视频更符合人类偏好。实验结果表明,在CogVideoX-2B模型上应用LiFT后,其性能在16项指标上全面超越了更大规模的CogVideoX-5B,充分展示了人类反馈在提升视频生成质量中的巨大潜力。