开源视频生成模型Pyramid Flow本地部署实测
创作时间:
作者:
@小白创作中心
开源视频生成模型Pyramid Flow本地部署实测
引用
CSDN
1.
https://blog.csdn.net/u010522887/article/details/143279061
Pyramid Flow是一个开源的视频生成模型,具有参数量小、分辨率高、生成速度快等特点。本文将详细介绍如何在本地部署Pyramid Flow,并通过实测来验证其效果。
Pyramid Flow简介
项目地址:https://github.com/jy0205/Pyramid-Flow
Pyramid Flow的主要亮点包括:
- 仅需2B参数,即可生成768p分辨率、24fps的10秒视频
- 支持“文本到视频”和“图像到视频”两种模式
- 采用自回归生成方式,基于先前帧预测后续帧,确保视频内容的连贯性
- 采用金字塔式的多尺度架构,生成效率更高
根据官方评测结果,除了语义得分(semantic score)外,其他指标均优于开源方案CogVideo。
在线体验
Pyramid Flow已在Hugging Face上线,可以直接在线体验:
- 在线体验地址:https://huggingface.co/spaces/Pyramid-Flow/pyramid-flow
- 官方生成样例:https://pyramid-flow.github.io/
接下来,我们将详细介绍如何在本地部署Pyramid Flow。
本地部署
环境准备
首先需要准备Pyramid Flow的运行环境:
git clone https://github.com/jy0205/Pyramid-Flow
cd Pyramid-Flow
conda create -n pyramid python==3.8.10
conda activate pyramid
pip install -r requirements.txt
然后下载模型权重到本地:
export HF_ENDPOINT=https://hf-mirror.com
huggingface-cli download rain1011/pyramid-flow-sd3 --local-dir ckpts/
模型权重包括768p和384p两种版本。384p版本支持5秒长的24FPS视频,而768p版本则可以生成10秒视频。
推理测试
加载模型:
import os
import torch
from PIL import Image
from pyramid_dit import PyramidDiTForVideoGeneration
from diffusers.utils import export_to_video
os.environ['CUDA_VISIBLE_DEVICES'] = '2'
model = PyramidDiTForVideoGeneration('ckpts/', 'bf16', model_variant='diffusion_transformer_384p')
model.vae.enable_tiling()
# model.vae.to("cuda")
# model.dit.to("cuda")
# model.text_encoder.to("cuda")
# if you're not using sequential offloading bellow uncomment the lines above ^
model.enable_sequential_cpu_offload()
如果将模型全部加载到GPU,至少需要19GB显存。建议采用上述代码以节省显存。
测试文本生成视频:
def t2v():
prompt = "A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors"
with torch.no_grad(), torch.amp.autocast('cuda', dtype=torch.bfloat16):
frames = model.generate(
prompt=prompt,
num_inference_steps=[20, 20, 20],
video_num_inference_steps=[10, 10, 10],
height=384,
width=640,
temp=16, # temp=16: 5s, temp=31: 10s
guidance_scale=9.0, # The guidance for the first frame, set it to 7 for 384p variant
video_guidance_scale=5.0, # The guidance for the other video latent
output_type="pil",
save_memory=True, # If you have enough GPU memory, set it to `False` to improve vae decoding speed
)
export_to_video(frames, "./text_to_video_sample.mp4", fps=24)
测试图片生成视频:
def i2v():
image = Image.open('assets/the_great_wall.jpg').convert("RGB").resize((640, 384))
prompt = "FPV flying over the Great Wall"
with torch.no_grad(), torch.amp.autocast('cuda', dtype=torch.bfloat16):
frames = model.generate_i2v(
prompt=prompt,
input_image=image,
num_inference_steps=[10, 10, 10],
temp=16,
video_guidance_scale=4.0,
output_type="pil",
save_memory=True, # If you have enough GPU memory, set it to `False` to improve vae decoding speed
)
export_to_video(frames, "./image_to_video_sample.mp4", fps=24)
Pyramid Flow对显存要求较高,生成5秒视频至少需要13分钟:
100%|████| 16/16 [13:11<00:00, 49.45s/it]
实测效果
实测结果显示,Pyramid Flow的效果并未与CogVideo拉开明显差距。
总结
本文介绍了如何本地部署最新开源的视频生成模型Pyramid Flow。虽然AI视频生成技术在不断发展,但目前的效果仍需进一步提升。如果你对AI视频生成感兴趣,欢迎尝试部署并探索更多可能性。
热门推荐
《西游记》里的观音菩萨法力有多强?这三种神通来告诉你答案
道家的宇宙观与现代科学相遇有哪些共通之处
10余部新剧待播 2024家庭剧再掀创作热潮
近期最火新剧排行前10名,《柳舟记》《孤舟》《私藏浪漫》上榜,第一实至名归
摄像头偷窥黑产猖獗,如何用信息技术守护隐私?
隐私被窥探后的法律与心理双重应对指南
自动驾驶汽车的道德困境:如何在生死瞬间做出正确决策?
AI隐私之困:从法规到技术的全方位应对
人工智能:点亮残障人士的生活
广州博物馆珍稀藏品展,不容错过的文化盛宴
镇海楼:广州千年商都的历史见证
广州博物馆里的石湾公仔传奇
国庆打卡广东省博物馆,感受岭南文化魅力
猪肉的7种做法,不会还有人不爱猪肉吧?香醇可口,让你欲罢不能
《名侦探柯南》游戏二十年:从GB到移动设备的侦探之旅
中国古代祭祀文化:从图腾崇拜到宗庙祭祀的千年演变
《名侦探柯南HD》最新版本评测:策略卡牌玩法再升级
柯南最新剧情:安室透终于发现柯南真身!
高山南林原惠美热议柯南灰原关系:从敌对到默契的命运共同体
《名侦探柯南》M27票房破2亿,柯南和基德的“神操作”太燃了!
兹维列夫澳网完胜路德,年终总决赛蓄势待发
兹维列夫爆冷横扫纳达尔,终结红土之王法网首轮不败金身
兹维列夫年终总决赛三连胜晋级,半决赛将战弗里茨
翻面洗衣服,护色神器了解一下?
寻味武功:江西武功山旅游攻略及费用,入冬四日游攻略
武功山旅游攻略:两日游路线及详细费用预算
2024国民健康生活方式干预及影响研究报告
直播带货为广州服装产业插上科技翅膀
流花商圈:引领广州服装批发转型升级
新疆茅姐带火广州白马:2亿播放量背后的服装市场密码