问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

AI新突破!复旦等机构研发"Hallo",让霉霉开口唱碧昂丝的歌

创作时间:
作者:
@小白创作中心

AI新突破!复旦等机构研发"Hallo",让霉霉开口唱碧昂丝的歌

引用
澎湃
1.
https://m.thepaper.cn/newsDetail_forward_27763244

近日,一项名为"Hallo"的研究在GitHub上火了,收获了1k+颗星。这项研究由来自复旦大学、百度、苏黎世联邦理工学院和南京大学的研究人员共同完成,能够实现将一张人像与一段音频参考相结合,生成高质量的视频效果。

技术原理

Hallo通过使用参考图像、音频序列以及可选的视觉合成权重,结合基于分层音频驱动视觉合成方法的扩散模型来实现。整体架构主要包括以下几个部分:

  1. 参考图像编码器(ReferenceNet):用于从参考图像中提取全局视觉特征,指导视频生成过程的外观和纹理。
  2. 时序对齐模块(Temporal Alignment):用于建模连续视频帧之间的时间依赖关系,保证生成视频的时序连贯性。
  3. 分层音频驱动视觉合成模块:将人脸划分为嘴唇、表情和姿态三个区域,分别学习它们与音频的对齐关系,再通过自适应加权将这三个注意力模块的输出融合在一起。

技术优势

研究团队将Hallo与SadTalker、DreamTalk、Audio2Head、AniPortrait等SOTA方法进行定量和定性比较。实验结果表明,Hallo在多个指标上表现最优,特别是在唇形同步性、生成视频的真实性以及人脸保真度等方面。

未来展望

虽然Hallo已经取得了显著的成果,但研究人员也指出了其局限性,比如在快速运动场景下时序一致性还有待提高,推理过程计算效率有待优化等。此外,目前Hallo仅支持固定尺寸的人像输入,且不能实现实时生成。

这项研究不仅展示了AI在视频生成领域的巨大潜力,也为未来的研究方向提供了有价值的参考。随着技术的不断进步,我们有理由相信,AI生成的视频将越来越逼真,应用场景也将越来越广泛。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号