AI新突破!复旦等机构研发"Hallo",让霉霉开口唱碧昂丝的歌
创作时间:
作者:
@小白创作中心
AI新突破!复旦等机构研发"Hallo",让霉霉开口唱碧昂丝的歌
引用
澎湃
1.
https://m.thepaper.cn/newsDetail_forward_27763244
近日,一项名为"Hallo"的研究在GitHub上火了,收获了1k+颗星。这项研究由来自复旦大学、百度、苏黎世联邦理工学院和南京大学的研究人员共同完成,能够实现将一张人像与一段音频参考相结合,生成高质量的视频效果。
技术原理
Hallo通过使用参考图像、音频序列以及可选的视觉合成权重,结合基于分层音频驱动视觉合成方法的扩散模型来实现。整体架构主要包括以下几个部分:
- 参考图像编码器(ReferenceNet):用于从参考图像中提取全局视觉特征,指导视频生成过程的外观和纹理。
- 时序对齐模块(Temporal Alignment):用于建模连续视频帧之间的时间依赖关系,保证生成视频的时序连贯性。
- 分层音频驱动视觉合成模块:将人脸划分为嘴唇、表情和姿态三个区域,分别学习它们与音频的对齐关系,再通过自适应加权将这三个注意力模块的输出融合在一起。
技术优势
研究团队将Hallo与SadTalker、DreamTalk、Audio2Head、AniPortrait等SOTA方法进行定量和定性比较。实验结果表明,Hallo在多个指标上表现最优,特别是在唇形同步性、生成视频的真实性以及人脸保真度等方面。
未来展望
虽然Hallo已经取得了显著的成果,但研究人员也指出了其局限性,比如在快速运动场景下时序一致性还有待提高,推理过程计算效率有待优化等。此外,目前Hallo仅支持固定尺寸的人像输入,且不能实现实时生成。
这项研究不仅展示了AI在视频生成领域的巨大潜力,也为未来的研究方向提供了有价值的参考。随着技术的不断进步,我们有理由相信,AI生成的视频将越来越逼真,应用场景也将越来越广泛。
热门推荐
即使是铁打的肾脏,这几种茶最好也不要喝
门槛为什么不能踩?门槛可踩吗?
王者荣耀S39赛季更新内容详解:新英雄、英雄调整及地图优化
学书如何才能出帖? 这里有6个程序
波罗的海三国与俄电网脱离?前苏联加盟国,为何热衷于脱俄入欧
锂电池保护板故障解析与应对策略
“红娘”不诚信?“探探”创始团队二次创业的“牵手”遭官方警示
掌握战略情报分析能力,应对复杂的市场环境
西甲硅油乳剂详细的使用方法是什么
根管治疗的必要性:如何判断自己是否需要进行根管治疗?
如何选择适合自己的学历提升方式
如何构建和管理一个多元化的股票组合:六大关键步骤详解
喝水计算器在线小工具,测测自己每天需要喝多少水
Excel教程:如何画资金流向图
中国家谱知识服务平台:数字人文助力传统文化传承
直播互动性重要吗?如何提高观众参与度?
存储转发机制详解:网络数据传输的关键步骤
品牌出海新机遇:与海外红人营销公司一起打造全球影响力
激光焊接技术的最新进展如何-质子激光告诉你
为国际职业教育交流合作搭建平台
中药里的“广谱抗癌药”,全方仅4味药材,治疗不下8种类型
第三次组建前后的红二十八军
广州传统美食:广式云吞面
职场必修课:为什么要避免对工作过多投入感情
髋袖修补术后康复程序全攻略
冬天老人洗澡,早灭阳晚生湿?什么时间最合适?提醒:几点需注意
植物外泌体:下一代生物治疗技术新星?
如何增加老客户续费率,挽回流失客户?
潮汕“迎老爷”:信仰的坚守与人情的纽带
椰子水的营养价值与功效:补水护心,美容养颜