问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

MikuDance:混合运动建模与控制扩散实现高质量动画生成

创作时间:
作者:
@小白创作中心

MikuDance:混合运动建模与控制扩散实现高质量动画生成

引用
CSDN
1.
https://blog.csdn.net/AIGCer/article/details/143871846

近日,一篇关于AI动画生成技术的最新研究论文在学术界引起了广泛关注。研究团队提出了名为MikuDance的创新动画pipeline,通过混合运动建模和混合控制扩散技术,实现了高质量的角色艺术动画生成。本文将详细介绍这一突破性技术的核心原理、实现方法及其在动画生成领域的应用前景。

技术亮点

  • 混合运动建模(Mixed Motion Modeling):在统一的逐像素空间中显式建模角色和相机运动,有效表示高动态运动。
  • 混合控制扩散(Mixed-Control Diffusion):隐式对齐角色的形状、姿势和比例与运动引导,实现连贯运动控制。
  • 实验验证:大量实验表明,MikuDance在各种角色艺术和运动引导场景中展现出优异的性能,生成的动画具有高质量的动态效果。

核心技术原理

混合运动建模

MikuDance采用场景运动跟踪策略(Scene Motion Tracking)对动态相机进行逐像素建模,实现角色与场景的统一运动建模。具体来说,通过深度图和相机姿势转换,计算场景点云在不同帧之间的运动,从而获得逐像素的场景运动引导。

混合控制扩散

MikuDance利用预训练的Stable Diffusion模型作为基础,通过VAE编码器将图像和姿势信息编码到潜在空间。然后,将角色姿势和场景运动的混合运动引导作用于图像,通过混合控制扩散实现动画生成。

运动自适应归一化(MAN)

为了增强前景和背景动画的时间一致性,MikuDance引入了运动自适应归一化模块(Motion-Adaptive Normalization)。该模块通过空间感知归一化方法,对场景运动进行逐像素引导,增强动画的连贯性。

混合源训练方法

MikuDance采用两阶段的混合源训练方法:

  1. 第一阶段:在成对的视频帧上进行训练,通过SDXL-Neta模型传递艺术风格,同时保留图像内容。
  2. 第二阶段:引入MAN模块和时间模块,使用MMD视频片段和无角色的相机运动视频进行训练。

实验结果

定性结果

  • 与基线方法比较:MikuDance在处理角色形状和比例错位、高动态运动等方面明显优于Animate Anyone、DISCO等现有方法。
  • 高动态运动:MikuDance能够有效处理快速移动的相机和大幅度舞蹈动作,生成高质量动画。
  • 参考引导对齐误差:MikuDance通过隐式对齐处理,成功解决了参考角色与运动引导的错位问题。
  • 多样化的形状和比例:MikuDance能够处理不同体型、姿势和服装的角色,保持每个角色的独特特征。
  • 艺术风格泛化能力:MikuDance能够处理多种艺术风格,包括赛璐璐、古典风格和线条素描等。

定量结果

通过用户研究和定量指标评估,MikuDance在所有图像和视频指标上均达到最先进的性能,超过97%的用户更偏好MikuDance生成的动画。

结论与展望

MikuDance通过创新的混合运动建模和混合控制扩散技术,为野外艺术角色生成高质量的高动态动画。尽管目前仍存在一些背景扭曲和伪影的问题,但这一突破性技术为动画生成领域带来了新的可能性。

论文链接https://arxiv.org/pdf/2411.08656
项目链接https://kebii.github.io/MikuDance/

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号