问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

4个惊艳的AI项目,开源了!

创作时间:
作者:
@小白创作中心

4个惊艳的AI项目,开源了!

引用
1
来源
1.
https://cloud.tencent.com/developer/article/2404353

本文介绍了4个惊艳的AI开源项目,涵盖了人体图像动画生成、虚拟人视频生成、图像修复和内容爬取等多个领域。这些项目不仅展示了AI技术的最新进展,也为开发者提供了丰富的实践资源。

Champ:三维参数导引下可控一致的人体图像动画生成项目

只需要一张照片,Champ就能让照片里的人物动起来。给出一个动作视频,Champ可以让不同的人像复刻出相同的动作。

项目主要依靠于人体网格恢复模型,从输入视频中提取参数化三维人体网格模型SMPL序列,渲染不同的信息控制视频的生成。

Champ采用了一个多层运动融合模块(MLMF),通过深度、骨骼、蒙版、法线、语义几项信息控制视频的细节生成,使其更加真实灵动。这五项信息,也可以通过comfy节点的示例工作流生成。

另外,Champ利用SMPL保持了生成视频中人物体型的一致。通过对齐体型参数,Champ在保持人物的体态和动作方面超过了其他SOTA工作。

项目地址:
https://github.com/fudan-generative-vision/champ

MuseV:基于视觉条件并行去噪的无限长度和高保真虚拟人视频生成项目

在这个项目里,我们能看到:

  • 会动的永恩和金克斯
  • 跨越多年眨巴大眼睛的杜甫老师

而作为虚拟人视频生成项目,MuseV在生成场景的方面也有不错的表现。

MuseV支持以下几种生成方式:图像到视频、文本到图像到视频、视频到视频。另外,它还能兼容Stable Diffusion的生态系统。

对于当前的生成方案,如果不对齐视频和图像的首帧条件,首帧的信息可能会被破坏,所以MuseV一般有如下的使用流程:

  1. 确定参考视频
  2. 用参考视频的首帧走图生图、controlnet流程,可以使用MJ等各种平台
  3. 拿2中的生成图、参考视频用MuseV生成视频

由于训练数据类型有限,MuseV在较低分辨率下具有更大的动作范围,但视频质量较低;在高分辨率下,画质更好、但动作范围较小。可能还需要使用更多类型的数据进行训练,如高质量、高分辨率的视频数据集。

在近期的更新中,作者团队更新了Huggingface的GUI,可以在线进行体验。

Huggingface地址:
https://huggingface.co/spaces/AnchorFake/MuseVDemo

作者团队的主页上还说到,他们即将发布的MuseTalk(一个实时高质量的唇同步模型,在MuseV项目的主页也已经给出演示demo了)可与MuseV配合使用,生成的效果会更好,可以期待一手。

项目地址:
https://github.com/TMElyralab/MuseV

BrushNet:具有分解双分支扩散的图像修复模型

BrushNet是一个具有分解双分支扩散的图像修复模型。对于画面上的Mask区域(蒙版,存在缺失的部分),BrushNet可以对其进行修复。此外,BrushNet对于任何已经预先训练好的扩散模型都可以实现“即插即用”。

模型在给定蒙版和蒙版图像输入的情况下输出一个未绘制的图像。首先,对掩模进行下采样以适应潜空间的大小,并将掩模图像输入VAE编码器以对齐潜在空间的分布。然后,将噪声潜伏、掩码图像潜伏和下采样掩码连接起来作为输入。接下来从模型中提取特征,特征去噪后,生成的图像和蒙版图像与模糊蒙版混合,生成图像。

BrushNet不会修改预训练的扩散模型的权重,可以实现保存尺度调整,也可以进一步自定义非Mask区域的保存比例。这使得BrushNet具有很强的灵活性,实现即插即用。

作者团队还展示了将BrushNet与不同的扩散模型相结合的能力,其中有:

  • DreamShaper(DS)
  • epiCRealism(ER)
  • Henmix_Real(HR)
  • MeinaMix(MM)
  • Realistic Vision(RV)

根据用户个人的需求,可以灵活选用已经训练好的SD模型进行集成,只需要选择自己满意的效果即可。

项目地址:
https://github.com/TencentARC/BrushNet

MediaCrawler:开源内容爬虫项目

这是一款开源的爬虫项目,用于爬取小红书、抖音、快手、B站、微博的视频、图片、评论、点赞、转发等信息。

MediaCrawler基于playwright库搭桥,保留登录成功后的上下文浏览器环境,通过执行JS表达式获取一些加密参数。通过这样的方式,免去了复现核心加密JS代码,逆向难度大大降低。在Python环境下搭建项目也使得这个项目的可扩展性大大提升,潜力无限。

该项目有以下三种登录态:

  • QRCode(login_by_qrcode)
  • 手机号(login_by_mobile)
  • Cookie(login_by_cookies)

作者也对登录的准备工作进行了说明,方便用户使用。

而且,MediaCrawler具备模块化设计,用户可以根据自己的使用需求,定义爬取的关键词、指定目录等。可以实现抓取策略的“私人定制”。

顺提一句,作者曾将这个在几天之内就获取10k+star数的项目亲手删除。当我们再一次看到它的时候,主页上新增了很多免责声明。想必作者自己也不希望这个功能如此便捷的爬虫项目给自己带来什么麻烦吧。

项目地址:
https://github.com/NanmiCoder/MediaCrawler

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号