问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

16个文生视频/图生视频AI开源大模型项目专题汇总

创作时间:
作者:
@小白创作中心

16个文生视频/图生视频AI开源大模型项目专题汇总

引用
1
来源
1.
https://www.bilibili.com/opus/932044096958103591

随着AI技术的快速发展,文生视频和图生视频领域涌现出了众多开源项目。本文汇总了16个热门的AI视频生成开源项目,涵盖了从基础模型到具体应用的多个层面,为开发者和研究者提供了丰富的资源选择。

1. Open-Sora:国产开源的视频生成模型

国产技术团队Colossal-AI开源了视频生成模型Open-Sora 1.0,该模型继承并超越了OpenAI Sora的优异视频生成效果,通过提供一个低成本且高效的训练及推理复现流程,极大降低了技术门槛。

Open-Sora的架构采用了Diffusion Transformer (DiT)模型,结合时间注意力层,优化了对视频数据的处理。通过预训练的VAE和文本编码器,以及空间-时间注意力机制的应用,实现了高效的空间布局和时间序列关联的学习。此外,模型还引入了多阶段训练策略,包括大规模图像预训练、视频预训练及高质量视频数据的微调,有效提升了视频生成的细节和质量。

GitHub: Open-Sora

2. Stable Video Diffusion

Stable Video Diffusion是Stability AI发布的视频生成大模型。

技术特点:

  • 多阶段训练策略:Stable Video Diffusion采用了多阶段的训练策略,包括文本到图像的预训练、视频预训练以及高质量视频微调。这种分阶段的训练方法使得模型能够逐步学习到从文本到图像,再到视频的复杂映射关系,提高了生成视频的质量和准确性。

  • 灵活的应用场景:由于Stable Video Diffusion提供了强大的多视图3D先验和运动表征能力,它可以广泛应用于各种场景,包括文本到视频的生成、图像到视频的生成以及对摄像机运动特定的适应性等。此外,该模型还可以以前馈方式生成对象的多个视图,具有较小的算力需求和优于基于图像方法的性能。

  • 高质量的生成效果:通过多阶段的训练策略和精心准备的数据集,Stable Video Diffusion能够生成高质量、动作连贯且时间一致的视频内容。

开源地址GitHub

官方提供文生视频地址Stable Video

demo体验地址Demo

huggingface地址HuggingFace

3. MoneyPrinterTurbo

MoneyPrinterTurbo 是一个开源AI项目,已经获得了1.2k的star量。只需提供一个视频主题或关键词,就可以全自动生成视频文案、视频素材、视频字幕、视频背景音乐,然后合成一个高清的短视频。

GitHub地址MoneyPrinterTurbo

4. StreamingT2V

StreamingT2V采用自回归方法来逐帧生成视频内容,也就是会根据前一段视频的内容来生成下一段内容,就像连环画中,每一幅画都是基于前一幅来绘制的。

它能够生成长达1200帧(约2分钟)的视频,同时保证整个视频与文本描述紧密相关且动态连续。

项目及演示StreamingT2V

论文arXiv

GitHubGitHub

5. AnimateDiff

AnimateDiff是由上海人工智能实验室、香港中文大学和斯坦福大学的研究人员推出的一款将个性化的文本到图像模型扩展为动画生成器的框架,其核心在于它能够利用从大规模视频数据集中学习到的运动先验知识,可以作为Stable Diffusion文生图模型的插件,允许用户将静态图像转换为动态动画。该框架的目的是简化动画生成的过程,使得用户能够通过文本描述来控制动画的内容和风格,而无需进行特定的模型调优。

原图

生成视频效果

开源地址AnimateDiff

6. StoryDiffusion

StoryDiffusion可以通过生成一致的图像和视频来创建一个神奇的故事,基于一致性自注意力(Consistent Self-Attention)和语义运动预测(SemanticMotion Predictor)技术的创新生成模型。它主要用于生成一系列风格和内容一致的图像和视频,适用于需要连续视觉内容来讲述故事的场景。

生成动漫视频效果展示

生成人物视频效果展示

官方地址StoryDiffusion

GitHub地址GitHub

huggingfaceHuggingFace

7. Video-LaVIT

Video-LaVIT模型的核心在于将视频分解为关键帧和时间运动。视频通常被分为多个镜头,每个镜头内的视频帧往往存在大量的信息冗余。因此,将视频分解为交替的关键帧和运动向量,关键帧捕捉主要的视觉语义,而运动向量描述其对应关键帧随时间的动态演变。这种分解表示的好处在于,与使用3D编码器处理连续视频帧相比,单个关键帧和运动向量的组合需要更少的标记来表示视频的时空动态,这对于大规模预训练更为高效。

为了将连续的视频数据转换为紧凑的离散标记序列,Video-LaVIT设计了视频标记器。关键帧通过使用已建立的图像标记器进行处理,而时间运动的转换则通过设计一个时空运动编码器来实现。该编码器能够捕捉提取的运动向量中包含的随时间变化的上下文信息,从而显著提高LLMs理解视频中复杂动作的能力。

项目地址Video-LaVIT

8. MagicTime

MagicTime是一个创新的模型,专注于创建变形时间延迟视频。它采用了基于DiT(Detection and Tracking)的架构,有效解决了现有文本到视频(Text-to-Video,T2V)生成模型在编码现实世界物理知识方面的不足。在传统的T2V生成过程中,视频往往动作范围有限,变化表现不足,无法充分展现复杂的变形效果。

MagicTime的核心贡献在于:

  1. 物理知识编码的改进:MagicTime通过更精确地反映现实世界的物理规律,解决了现有模型在物理知识编码上的不足。
  2. 动作和变化的丰富性:与以往生成的视频相比,MagicTime能够产生动作更丰富、变化更复杂的视频,更好地模拟了物体的变形过程。

项目及演示MagicTime

论文arXiv

GitHubGitHub

9. Follow Your Click

腾讯、混元、清华大学以及香港科技大学共同合作推出了一项全新的图像生成视频模型,名为Follow-Your-Click。

这项创新的技术具有非常简单的操作方法。用户只需将任意一张照片输入该模型,然后点击相应区域并添加少量简单的提示词,即可使原本静态的图像区域焕发生机,轻松地转换为一段动态视频。

论文链接arXiv

GitHubGitHub

10. Animate Anyone

Animate Anyone是阿里巴巴旗下研究院发布的动画制作Al软件。能够自动生成角色、场景、动作等动画元素,并将其组合成完美动画作品,用户只需提供一些简单的参数即可。这大大降低了动画制作的难度,让动画制作变得更加简单。

体验地址Animate Anyone

github地址GitHub

11. MuseV

MuseV是一个由腾讯音乐娱乐的天琴实验室开源的虚拟人视频生成框架,专注于生成高质量的虚拟人视频和口型同步。它利用先进的算法,能够制作出具有高度一致性和自然表情的长视频内容。MuseV支持自定义动作和风格,视频时长理论上无限,且生成速度快。这一技术在AI创作领域中表现出色,为虚拟人视频制作提供了新的可能性。

试玩页面HuggingFace

项目地址GitHub

12. AniPortrait

AniPortrait是一个让照片开口说话的项目,可以根据音频和图像输入生成会说话、唱歌的动态视频。它可以根据音频(比如说话声)和一张静态的人脸图片,自动生成逼真的人脸动画,并保持口型一致。支持多种语言,同时支持进行面部重绘和头部姿势控制。

github地址GitHub

13. Champ

Champ 利用潜在扩散框架内的 3D 人体参数模型,实现了无与伦比的形状对齐和运动引导。捕捉复杂的人体几何形状和运动从未如此简单!

github地址GitHub

14. DreamTalk

DreamTalk是一个基于扩散的音频驱动表达性头部生成框架,能够生成具有多种说话风格的高质量头部视频。DreamTalk在各种输入中表现出强大的性能,包括歌曲、多种语言的语音、含噪声音频和领域外的肖像画。

githubGitHub

15. AniTalker

AniTalker通过一个静态的肖像画和输入音频,生成生动多样的说话面部动画视频。该框架不仅仅着重于嘴唇同步这样的言语线索,而且能够捕捉到面部表情和非言语线索的复杂动态。

  • 面部动画生成:通过输入静态的人像和音频信号,AniTalker可以生成说话的面部动画。这种动画不仅包括口型同步,还包括与说话内容匹配的面部表情和头部动作。

  • 多样化和可控性:集成的扩散模型和方差适配器允许生成具有高度多样性和可控性的动画。这意味着可以根据不同的输入和参数设置,生成各种不同表情和动作的面部动画。

  • 真实感和动态表现:AniTalker的动画不仅外观真实,动作流畅,还能很好地捕捉细微的面部动态和复杂的非言语信息,如眨眼、微笑等。

  • 长视频生成:AniTalker 可以生成较长的面部动画视频,演示视频显示,最长可以超过3分钟,适用于多种应用场景,如虚拟助理、数字人物表演等。

项目及演示AniTalker

论文arXiv

GitHubGitHub

16. VASA-1

VASA-1,由微软亚洲研究员开发的项目,可以实现从单一静态图像和一段语音音频生成逼真的对话面部动画。VASA-1不仅能够精确同步音频和唇部动作,还能捕捉到丰富的面部细微表情和自然的头部动作,增强了真实感和生动感。

项目及演示VASA-1

论文arXiv

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号