问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

算法优化:提升智算中心算力利用率的关键

创作时间:
作者:
@小白创作中心

算法优化:提升智算中心算力利用率的关键

引用
新浪网
12
来源
1.
https://finance.sina.com.cn/stock/relnews/cn/2024-10-02/doc-increkkt0010031.shtml
2.
https://lw.xinhuanet.com/20250119/3a097eca3bf94c8186e3753347d70ecd/c.html
3.
https://finance.sina.com.cn/tech/roll/2024-11-21/doc-incwusvu1541873.shtml
4.
https://news.sciencenet.cn/htmlnews/2024/9/530773.shtm
5.
https://zhidx.com/p/451583.html
6.
https://www.idc.com/getdoc.jsp?containerId=prCHC53176225
7.
https://www.hljbigdata.org/news/1179.html
8.
https://m.c114.com.cn/w6437-1267235.html
9.
http://www.360doc.com/content/24/0406/08/48115167_1119553627.shtml
10.
https://xxzx.fujian.gov.cn/jjxx/xxhdt/202405/t20240513_6447544.htm
11.
https://www.sznews.com/news/content/mb/2024-06/27/content_31045861.htm
12.
http://www.cdcica.org.cn/newsshow.asp?id=1193

截至2024年6月,全国在用算力中心机架总规模超过830万标准机架,算力规模达246 EFLOPS(FP32),智算同比增速超过65%。然而,在这轮算力基础设施建设热潮中,一个不容忽视的问题逐渐浮现:智算中心算力利用率普遍偏低。

01

算力闲置之困

“现在很多算力已经得到了消化,但行业内确实存在小部分算力闲置的情况,比如说市场上可能有千台机器的供应量,但可能有几百台机器在闲置。”上海六尺科技集团董事长张亚洲表示。

造成算力闲置的原因是多方面的。从供给端来看,虽然算力供应紧张的状况有所缓解,但供需两端仍存在不完全匹配的情况。部分供给方可能只有5台、10台服务器,大一些的是64台、100多台,大批量的基本很少,这种零散的供应模式难以满足大规模算力需求。

从需求端来看,虽然整体算力需求呈增长态势,但不同类型的需求方情况各异。头部企业如字节、腾讯、华为、百度等“不停训练大模型,数据量越大,算力需求越大,几乎不存在算力闲置情况”。而科研高校和中小企业则面临算力紧张的问题,存在算力闲置现象。

此外,算力价格也是影响利用率的重要因素。由于部分智算中心供应价过高,用户用不起,导致算力中心计算的连续性不够,成本过高。

02

算法优化破局

面对算力闲置的挑战,业界普遍认为,算法优化是提升算力利用率的关键途径。其中,超智融合(HPC+AI)成为重要的技术发展方向。

超智融合并非简单的“超算+智算”堆叠,而是从芯片到计算、存储、网络,再到算力调度、系统运维,以及平台层、应用层的系统化融合。这种融合包含了数据融合、算法融合、业务融合、基础设施融合等多个层面。

中国科学院院士、超算互联网总体专家组组长钱德沛认为,超智融合正沿着超算支撑AI应用、用AI技术改进超算、超智内生融合等阶段演进。未来,随着通用全精度高算力芯片等技术突破,超智融合将迎来井喷式发展。

在具体实现路径上,算力调度技术是关键。国家超算互联网平台通过一体化服务与调度平台,实现了分布式异构算力资源的高效调度。该平台构建了动态更新的资源感知系统,能够实时获取各中心各类资源的状态,并根据其状态匹配或调整调度策略,实现算力需求和算力资源的统一匹配和高效调度。

同时,平台还注重用户体验,让用户在使用软件、调用模型和编译代码等场景时对资源调度无感知,获得和本地使用算力一致的良好体验。

03

实践成效显著

在实际应用中,超智融合和算力调度技术已经展现出显著成效。以郑州高新区全域算力网为例,该项目在设计之初就采用了分层解耦的开放技术架构,通过多角色分层规划和管理模式,供给侧完成异构异属的通算、超算、智算资源并网调度,需求侧实现统一细粒度计量计费。

建成后,用户可以像在超市一样按需选择购买算力,有效提升了算力资源的利用率。

在产业应用方面,智算中心通过算力生产、聚合、调度和释放,为政府、企业、高校及科研机构等提供更高效、普惠的公共算力服务。例如,中国电信京津冀智能算力中心通过先进的国产AI技术、自主可控的计算设备、网络设备和存储设备,外加多云互联和算力调度平台,实现全国区域间的算力协同对接,促进通算、智算和超算协同发展,打造高速互联、高效调度、安全可靠的智算体系。

云从科技西部智算中心则基于云从科技算力资源储备,配备了全球领先的计算设备和云计算技术能力,集成包括算力、算法、基础大模型训练和行业大模型训练等多个平台,能够同步满足超大规模量级的大模型训练和调优,对内支撑从容大模型的训练,对外服务行业大模型应用,同时为视听交互国家新一代人工智能开放创新平台上的算法训练提供算力底座。

04

未来展望

随着算法优化技术的不断进步,智算中心的算力利用率有望得到显著提升。这不仅能够降低算力成本,提高算力资源的使用效率,更为重要的是,这将为人工智能等前沿技术的发展提供更强大的支撑,推动我国数字经济的高质量发展。

然而,这一过程也面临着诸多挑战,如通用全精度高算力芯片的研制、算力调度算法的优化、以及如何平衡投资驱动和利润驱动等。这些都需要产业界、学术界和政府部门的共同努力,通过持续的技术创新和政策引导,构建稳定可靠的算力体系,为我国数字经济的持续发展提供坚实保障。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号