问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

香港大学新研究:LiT模型如何改变计算硬件需求?

创作时间:
作者:
@小白创作中心

香港大学新研究:LiT模型如何改变计算硬件需求?

引用
腾讯
10
来源
1.
https://new.qq.com/rain/a/20250131A038TS00
2.
https://blog.csdn.net/hero272285642/article/details/140916518
3.
https://cloud.baidu.com/article/3324078
4.
https://blog.csdn.net/qq_44681809/article/details/140827379
5.
https://blog.csdn.net/weixin_38739735/article/details/142756388
6.
https://blog.csdn.net/2401_84250575/article/details/137966880
7.
https://www.jiqizhixin.com/articles/2025-01-31-2
8.
https://www.bilibili.com/read/cv33716523/
9.
https://developer.volcengine.com/articles/7382359107094708261
10.
https://medium.com/@huangyihe/%E6%9C%AC%E5%9C%B0%E8%B7%91%E5%A4%A7%E6%A8%A1%E5%9E%8B-%E9%9C%80%E8%A6%81%E4%BB%80%E4%B9%88%E9%85%8D%E7%BD%AE-04832150eafb

01

研究背景与动机

在当前的AI技术发展中,扩散模型因其强大的图像生成能力而备受关注。然而,传统的自注意力机制由于计算复杂度较高,限制了其在高分辨率图像生成和端侧设备部署中的应用。针对这一挑战,香港大学研究团队提出了基于线性注意力的扩散模型LiT(Linearized Diffusion Transformer),旨在实现更高效的图像生成。

02

核心技术创新

研究团队从架构设计和训练策略两个维度对线性扩散Transformer进行了系统性研究。LiT的核心创新点包括:

  1. 极简线性注意力机制:研究发现,通过简化线性注意力的设计,可以有效提升扩散模型的图像生成性能。此外,线性注意力还具有一个"免费午餐"特性,即通过减少注意力头的数量,可以在增加理论计算量的同时不增加实际GPU延迟。

  2. 优化的训练策略

    • 权重继承:从预训练的Diffusion Transformer中继承权重,但不包括自注意力部分的权重。
    • 知识蒸馏:采用混合知识蒸馏策略,同时蒸馏噪声预测结果和方差预测结果,以加速模型训练。
03

实验结果与应用

在标准ImageNet基准测试中,LiT展现出卓越的性能:

  • 在ImageNet 256×256基准上,仅需DiT 20%的训练迭代次数即可达到相当的FID(Frechet Inception Distance)指标。
  • 在ImageNet 512×512基准上,仅需DiT 23%的训练迭代次数即可实现相当的FID指标。

更值得关注的是,LiT-0.6B模型已经能够在Windows笔记本电脑上实现离线部署,断网状态下遵循用户指令快速生成1K分辨率的逼真图片,这为AIPC时代的到来提供了新的技术支撑。

04

未来展望

LiT的研究成果不仅展示了线性注意力在扩散模型中的巨大潜力,更为AI技术的端侧部署和商业化应用开辟了新的路径。随着技术的进一步优化,我们有望看到更多高性能、低功耗的AI应用在个人设备上实现,为用户带来更加便捷、智能的使用体验。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号