LiFT：利用人工反馈实现文本到视频模型对齐

创作时间:

作者:

@小白创作中心

LiFT：利用人工反馈实现文本到视频模型对齐

引用

51CTO

https://blog.51cto.com/u_16658015/12856891

近年来，文本生成视频（T2V）模型取得了显著进展，但这些模型仍难以有效与人类偏好对齐（如准确反映文本描述，生成连续的动作）。为此，研究者提出了一种基于人类反馈的T2V模型微调对齐方法——LiFT。

研究背景

近年来，文本生成视频（T2V）模型取得了显著进展，但这些模型仍难以有效与人类偏好对齐（如准确反映文本描述，生成连续的动作）。这是因为人类偏好具有主观性，难以形式化为客观函数，所以无法在训练中对模型直接进行引导。为此，该工作提出了一种基于人类反馈的T2V模型微调对齐方法, LiFT。

方法简介

该工作提出的的LiFT微调方法包含以下三个关键步骤：

收集人类反馈：从提前设计好的丰富的类别词中随机选择来生成短语，并使用LLM扩展为详细提示，再将文本提示输入到T2V模型中来生成视频-文本对，最后通过人工标注来构建出视频领域全新的人类反馈数据集，LiFT-HRA；
学习奖励函数：基于该数据集训练出视觉-语言大模型LiFT-Critic，学习反映人类偏好的奖励函数，从三个维度对合成视频进行评分，
T2V模型对齐：使用LiFT-Critic对T2V模型生成的视频进行评估，通过将评分映射为奖励权重，引导T2V模型的奖励加权学习。

实验结果

在CogVideoX-2B模型上应用LiFT后，其性能在16项指标上全面超越了更大规模的CogVideoX-5B，充分展示了人类反馈在提升视频生成质量中的巨大潜力。

实验结果展示

A student sits in a quiet library, surrounded by towering shelves of books. The camera captures their focused expression as they take notes, then pans to reveal sunlight streaming through a large arched window.
A farmer harvests ripe apples in an orchard during golden hour. The camera captures the lush trees laden with fruit, the farmer's gentle movements, and the sunlight filtering through the branches.
A woman with long, flowing hair stands on a sandy beach, pulling a colorful kite string. The kite, vibrant and large, soars high above her against a clear blue sky. Her casual attire, consisting of a white tank top and denim shorts, complements the relaxed, sunny atmosphere. She looks upwards, her face lit with a sense of joy and freedom, as the kite dances in the breeze, creating a dynamic and lively scene.

结论

本文提出了一种全新的视频生成人类偏好对齐方法——LiFT。该方法首先构建了包含约10,000条合成视频评分及其理由的人类标注数据集LiFT-HRA，并在此基础上训练奖励模型LiFT-Critic，从人类反馈中学习奖励函数，作为人类判断的代理，评估合成视频与人类期望的匹配度。最后，通过最大化奖励加权似然的微调方法，利用LiFT-Critic对T2V模型进行优化，使生成的视频更符合人类偏好。实验结果表明，在CogVideoX-2B模型上应用LiFT后，其性能在16项指标上全面超越了更大规模的CogVideoX-5B，充分展示了人类反馈在提升视频生成质量中的巨大潜力。

论文链接：https://arxiv.org/pdf/2412.04814

代码链接：https://github.com/CodeGoat24/LiFT

热门推荐

《亮剑》一部战争史诗的传奇演绎