央视春晚首个AI视频制作揭秘:技术挑战与解决方案
央视春晚首个AI视频制作揭秘:技术挑战与解决方案
2024年央视春晚中,任素汐演唱的《枕着光的她》首次采用了AI生成的视频。该AI视频由数字栩生的宋震老师邀请的海辛和Simon阿文团队制作,使用了开源社区中的ControlNet、AnimateDiff、LCM和IPAdapter等最新技术。本文将详细介绍这个AI视频的制作过程、遇到的技术挑战及解决方案。
项目需求与工作流设计
项目的核心需求是将一段真人双人舞视频用AI风格转绘成陶瓷质感的舞蹈。为此,团队设计了以下工作流:
- 基于ComfyUI平台,实现高度自定义且节省显存
- 使用ControlNet Lineart和OpenPose模型,参考原视频的线条和骨骼生成AI动画
- 应用AnimateDiff技术确保动画稳定流畅
- 利用LCM加快生成速度
为了满足项目需求,团队获得了英伟达提供的48GB显存显卡和自己的4090显卡支持。
面临的挑战与解决方案
挑战一:双人舞角色稳定性问题
AI在处理双人舞时容易混淆两个角色的特征,导致性别交换等问题。团队尝试了单人抠像转绘再合成的方法,但发现这种方法存在工期长、动态模糊导致抠像困难、肢体衔接不自然等问题。最终,团队通过接入ControlNet tile模型,参考原视频的角色细节特征,成功解决了这一问题。
挑战二:瓷器材质的实现
团队在SDXL和Civitai开源模型的加持下进行了大量材质探索。然而,将静帧参数套用到视频工作流时发现,SDXL结合AnimateDiff会导致画面细节损失。团队转而使用SD1.5,并通过关键词优化和IPAdapter技术成功实现了瓷器材质的生成。
挑战三:换装稳定性测试
节目设计要求双人舞在三个阶段进行变装,包括结婚、婚后和老年阶段。团队通过在PR中对齐剪辑,并使用prompt travel方式实现变装效果。但发现当生成帧数超过800帧时,AI会开始偏离关键词。因此,团队采用分段小批量转绘的方法,最终在4-5小时内完成了1200+帧的渲染。
结语
通过这个项目,团队不仅熟悉了开源社区的最新技术,还探索了这些技术在实际项目中的应用可能性。最终作品的成功得益于开源社区的共享精神,以及舞者、编导、导演等各方的共同努力。这个项目展示了AI与人类艺术创作结合的可能性,为未来更多创新合作开启了新的篇章。