问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

LiFT:利用人工反馈实现文本到视频模型对齐

创作时间:
作者:
@小白创作中心

LiFT:利用人工反馈实现文本到视频模型对齐

引用
51CTO
1.
https://blog.51cto.com/u_16658015/12856891

近年来,文本生成视频(T2V)模型取得了显著进展,但这些模型仍难以有效与人类偏好对齐(如准确反映文本描述,生成连续的动作)。为此,研究者提出了一种基于人类反馈的T2V模型微调对齐方法——LiFT。

研究背景

近年来,文本生成视频(T2V)模型取得了显著进展,但这些模型仍难以有效与人类偏好对齐(如准确反映文本描述,生成连续的动作)。这是因为人类偏好具有主观性,难以形式化为客观函数,所以无法在训练中对模型直接进行引导。为此,该工作提出了一种基于人类反馈的T2V模型微调对齐方法, LiFT。


方法简介

该工作提出的的LiFT微调方法包含以下三个关键步骤:

  1. 收集人类反馈:从提前设计好的丰富的类别词中随机选择来生成短语,并使用LLM扩展为详细提示,再将文本提示输入到T2V模型中来生成视频-文本对,最后通过人工标注来构建出视频领域全新的人类反馈数据集,LiFT-HRA;

  2. 学习奖励函数:基于该数据集训练出视觉-语言大模型LiFT-Critic,学习反映人类偏好的奖励函数,从三个维度对合成视频进行评分,

  3. T2V模型对齐:使用LiFT-Critic对T2V模型生成的视频进行评估,通过将评分映射为奖励权重,引导T2V模型的奖励加权学习。

实验结果

在CogVideoX-2B模型上应用LiFT后,其性能在16项指标上全面超越了更大规模的CogVideoX-5B,充分展示了人类反馈在提升视频生成质量中的巨大潜力。

实验结果展示

  1. A student sits in a quiet library, surrounded by towering shelves of books. The camera captures their focused expression as they take notes, then pans to reveal sunlight streaming through a large arched window.

  2. A farmer harvests ripe apples in an orchard during golden hour. The camera captures the lush trees laden with fruit, the farmer's gentle movements, and the sunlight filtering through the branches.

  3. A woman with long, flowing hair stands on a sandy beach, pulling a colorful kite string. The kite, vibrant and large, soars high above her against a clear blue sky. Her casual attire, consisting of a white tank top and denim shorts, complements the relaxed, sunny atmosphere. She looks upwards, her face lit with a sense of joy and freedom, as the kite dances in the breeze, creating a dynamic and lively scene.

结论

本文提出了一种全新的视频生成人类偏好对齐方法——LiFT。该方法首先构建了包含约10,000条合成视频评分及其理由的人类标注数据集LiFT-HRA,并在此基础上训练奖励模型LiFT-Critic,从人类反馈中学习奖励函数,作为人类判断的代理,评估合成视频与人类期望的匹配度。最后,通过最大化奖励加权似然的微调方法,利用LiFT-Critic对T2V模型进行优化,使生成的视频更符合人类偏好。实验结果表明,在CogVideoX-2B模型上应用LiFT后,其性能在16项指标上全面超越了更大规模的CogVideoX-5B,充分展示了人类反馈在提升视频生成质量中的巨大潜力。

论文链接:https://arxiv.org/pdf/2412.04814

代码链接:https://github.com/CodeGoat24/LiFT

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号