AI新突破!复旦等机构研发"Hallo",让霉霉开口唱碧昂丝的歌
创作时间:
作者:
@小白创作中心
AI新突破!复旦等机构研发"Hallo",让霉霉开口唱碧昂丝的歌
引用
澎湃
1.
https://m.thepaper.cn/newsDetail_forward_27763244
近日,一项名为"Hallo"的研究在GitHub上火了,收获了1k+颗星。这项研究由来自复旦大学、百度、苏黎世联邦理工学院和南京大学的研究人员共同完成,能够实现将一张人像与一段音频参考相结合,生成高质量的视频效果。
技术原理
Hallo通过使用参考图像、音频序列以及可选的视觉合成权重,结合基于分层音频驱动视觉合成方法的扩散模型来实现。整体架构主要包括以下几个部分:
- 参考图像编码器(ReferenceNet):用于从参考图像中提取全局视觉特征,指导视频生成过程的外观和纹理。
- 时序对齐模块(Temporal Alignment):用于建模连续视频帧之间的时间依赖关系,保证生成视频的时序连贯性。
- 分层音频驱动视觉合成模块:将人脸划分为嘴唇、表情和姿态三个区域,分别学习它们与音频的对齐关系,再通过自适应加权将这三个注意力模块的输出融合在一起。
技术优势
研究团队将Hallo与SadTalker、DreamTalk、Audio2Head、AniPortrait等SOTA方法进行定量和定性比较。实验结果表明,Hallo在多个指标上表现最优,特别是在唇形同步性、生成视频的真实性以及人脸保真度等方面。
未来展望
虽然Hallo已经取得了显著的成果,但研究人员也指出了其局限性,比如在快速运动场景下时序一致性还有待提高,推理过程计算效率有待优化等。此外,目前Hallo仅支持固定尺寸的人像输入,且不能实现实时生成。
这项研究不仅展示了AI在视频生成领域的巨大潜力,也为未来的研究方向提供了有价值的参考。随着技术的不断进步,我们有理由相信,AI生成的视频将越来越逼真,应用场景也将越来越广泛。
热门推荐
早餐真的有必要吃吗?揭秘早晨第一餐的重要性
有机肥有多少种?哪些含氮肥、磷肥和钾肥?哪些有机肥最有效果?
网络安全如何入职公务员
竹蔗的作用与功效
舟山定海:海岛千年古城赓续文脉焕新开放
五行理论在企业管理中的应用与实践
土地征收过程中几个常见问题解答
SCI的doi是什么
生活困苦怎麼辦?全方位应对指南
高宗、武则天并称“二圣”之说
骑车途经围挡施工道路摔伤,责任算谁的?
月圆之夜怎么玩:策略卡牌游戏玩法详解
真正自律的人:办事不拖,说话不多,独处不孤
银行的内部控制风险的识别与评估有哪些?
Nature刊文:“open”AI的实际作用非常有限
境外劳务派遣和劳务输出的商务相关政策解读
国际劳务合同关键:主要条款深度解读
脱发、白发、油腻、头皮屑?4个古老偏方帮你解决头发问题
深入解析:三大热门Z690主板全面评测与选购指南
同样是鱼子,鱼子酱凭什么5万一斤?
《夏日重现》:一部在多个层面都表现优异的悬疑动画
男孩新颖有涵养的季姓名字
山区道路的限速是多少公里
头晕心慌恶心,这可能是哪些问题的信号?
爆款揭秘!智能家居全解析:从核心概念到热门产品大搜罗
标准的辞职报告格式要求是怎样的
揭秘银行“安全护盾”:拨备覆盖率全解析
膝关节置换术后的疼痛该怎么办
嘴唇麻木是什么病的前兆
如何缓解嘴唇麻木