AI新突破!复旦等机构研发"Hallo",让霉霉开口唱碧昂丝的歌
创作时间:
作者:
@小白创作中心
AI新突破!复旦等机构研发"Hallo",让霉霉开口唱碧昂丝的歌
引用
澎湃
1.
https://m.thepaper.cn/newsDetail_forward_27763244
近日,一项名为"Hallo"的研究在GitHub上火了,收获了1k+颗星。这项研究由来自复旦大学、百度、苏黎世联邦理工学院和南京大学的研究人员共同完成,能够实现将一张人像与一段音频参考相结合,生成高质量的视频效果。
技术原理
Hallo通过使用参考图像、音频序列以及可选的视觉合成权重,结合基于分层音频驱动视觉合成方法的扩散模型来实现。整体架构主要包括以下几个部分:
- 参考图像编码器(ReferenceNet):用于从参考图像中提取全局视觉特征,指导视频生成过程的外观和纹理。
- 时序对齐模块(Temporal Alignment):用于建模连续视频帧之间的时间依赖关系,保证生成视频的时序连贯性。
- 分层音频驱动视觉合成模块:将人脸划分为嘴唇、表情和姿态三个区域,分别学习它们与音频的对齐关系,再通过自适应加权将这三个注意力模块的输出融合在一起。
技术优势
研究团队将Hallo与SadTalker、DreamTalk、Audio2Head、AniPortrait等SOTA方法进行定量和定性比较。实验结果表明,Hallo在多个指标上表现最优,特别是在唇形同步性、生成视频的真实性以及人脸保真度等方面。
未来展望
虽然Hallo已经取得了显著的成果,但研究人员也指出了其局限性,比如在快速运动场景下时序一致性还有待提高,推理过程计算效率有待优化等。此外,目前Hallo仅支持固定尺寸的人像输入,且不能实现实时生成。
这项研究不仅展示了AI在视频生成领域的巨大潜力,也为未来的研究方向提供了有价值的参考。随着技术的不断进步,我们有理由相信,AI生成的视频将越来越逼真,应用场景也将越来越广泛。
热门推荐
如何在服务器上进行磁盘空间管理
地榆升白片的作用与功效及副作用
东风长安合并在即,长安汽车能否引领中国品牌高质量发展?
突然!金融股,大抛售!
数字货币的含义和意义(数字货币的作用)
组装电脑避坑指南:从硬件选购到安装维护全方位解析
地暖能做地台(做了榻榻米的房间怎么装地暖)
光密度传感器的工作原理与应用
银行的金融市场业务的投资分析方法?
漫画解读电解质,这下彻底记住了!
如何理解产权比率并进行相关计算?这种计算对投资决策有何影响?
苏州户口迁移手续新规,苏州户口迁移手续流程及材料
基于Vue的工作流项目模块中,使用动态组件的方式统一呈现不同表单数据的处理
如何挑选美观的银项链?挑选时需要注意哪些方面?
如何选择适合家居的绿植?
乳胶床垫的正确使用与保养指南
早上服用逍遥丸、晚上服用归脾丸,蕴含的“养生智慧”是什么呢?
公路技术状况评定标准的关键指标有哪些
花豇豆是什么,花豇豆的功效与作用
花豇豆的营养功效与选购技巧
Excel中FV公式的全面解析与实战应用
叹早茶,看摔角,广东人有自己的WWE
钻石切工:影响钻石外观的神奇因素
C语言指针箭头详解:从基础到高级应用
C语言中箭头操作符的使用详解
菜籽油和玉米油哪个好?哪个炒菜香?
中医能治疗心肌缺血吗
《渔帆暗涌》:如何为传统钓鱼游戏打造沉浸式叙事体验
上海二手房市场火爆:一天成交背后的秘密
自然分娩VS剖腹产全面解析优劣势,好处坏处一一对比