研究员展示高质量实时对话互动的数字化身生成技术
研究员展示高质量实时对话互动的数字化身生成技术
近日,斯蒂文斯理工学院、佐治亚理工学院和伊利诺伊大学厄巴纳-香槟分校的研究人员开发了一种名为RITA的实时交互式对话化身框架。该框架能够将用户上传的照片转换为能够参与实时对话互动的数字化身,为虚拟现实和交互式游戏等应用开辟了新的可能性。
将单个图像动画化以创建动态语音驱动的面部动画是人工智能、计算机视觉和多媒体技术的交汇点。生成模型的出现极大地推动了有声视频的创作,将曾经静止的描述转变为生动的语音表现。
但由于视频生成的固有延迟,所述领域面临着挑战,因为将图像和音频转换为无缝视频序列需要大量的计算资源和时间,这通常使实时应用难以实现。
SadTalker和MakeItTalk等最先进的模型中率先通过复杂的面部建模和运动合成来生成对口型视频。以其作为灵感,研究人员提出的RITA框架在生成速度和交互质量方面取得了进展。
尽管SadTalker和类似模型表现出色,但它们主要依赖于离线处理,因为需要复杂的计算来确保音频线索和面部运动(包括嘴唇运动、头部姿势和眨眼)之间的同步性。模型非常有效,但在需要实时交互的应用程序中效果不佳,因而限制了它们在动态的、以用户为中心的场景中的效用。
RITA旨在通过促进端到端的实时对话解决方案来弥合这一差距。就其核心,RITA利用了一种新颖的架构,结合了实时处理的即时性和生成模型的深度来动画化静态肖像。
通过集成实时反馈机制,用户可以在一个无缝的、响应式的环境中与虚拟人物互动。虚拟人物不仅可以对口型,而且可以表现出自然的头部运动和表情,密切模仿人类的互动。这种技术创新的飞跃是通过轻量级模型的战略性应用实现,在不影响角色响应的丰富性的情况下,对速度进行了优化。
另外,RITA引入了大型语言模型的创新应用,以允许虚拟角色参与连贯的、与上下文相关的对话。这种集成不仅增强了交互体验,而且扩展了会说话的虚拟形象的潜在应用。
在RITA中,研究人员改进了生成过程,以确保高清晰度输出和数字化身-用户交互的流畅性。团队指出,所述方案既解决了实现实时交互性的技术挑战,同时解决了在以用户为中心的应用程序中部署这种技术的实际含义。
实验证明,RITA在延迟、质量和适用性方面优于现有模型,从而预示着交互式数字化身的新时代。
相关论文:RITA: A Real-time Interactive Talking Avatars Framework
总的来说,团队介绍的RITA是一个用于生成实时互动的说话化身的框架。RITA采用动态帧匹配和视频插值技术,大大减少了视频生成过程中所需的帧数,从而提高了生成速度。另外,RITA集成了大型语言模型来构建自然的虚拟用户对话,从而提升用户的交互体验。实证结果表明,与现有方法相比,RITA的性能优越,在生成速度、交互质量和用户参与度方面有显著改善。
