中国信通院发布《高质量大模型基础设施研究报告（2024年）》

创作时间:

作者:

@小白创作中心

中国信通院发布《高质量大模型基础设施研究报告（2024年）》

引用

CSDN

https://blog.csdn.net/weixin_72959097/article/details/145276074

随着大模型技术的飞速发展，模型参数量急剧增长，模型能力持续增强，智能应用百花齐放。基础设施的可用性决定了大模型研发及服务的效率，大模型服务的可用性又决定了智能应用的服务质量。在此背景下，高质量大模型基础设施成为推动大模型应用落地的关键要素。为充分发挥大模型基础设施的赋能作用，更好支撑大模型发展，推动大模型应用落地，特编制此研究报告。

2025年1月8日，在大模型工程化成果发布会上，中国信息通信研究院（简称“中国信通院”）人工智能研究所发布《高质量大模型基础设施研究报告（2024年）》，由中国信通院人工智能研究所平台与工程化部主任曹峰解读。

报告聚焦大模型基础设施的五大核心能力领域：计算、存储、网络、开发工具链和运维管理，系统梳理了大模型发展对基础设施提出的新需求，剖析了基础设施发展的关键技术，并提出体系化评价指标。同时，报告通过分析业界典型实践案例，为企业建设高质量大模型基础设施提供了参考。

报告核心观点

1. 计算资源分配粗放，高效异构算力融合调度成为新需求

异构资源统一纳管：算力资源利旧带来不同架构AI芯片纳管需求，大模型在科学、工业仿真等领域应用加深带来CPU和AI芯片纳管需求。华为、移动、电信等厂商积极推动异构智算管理平台研发，通过统一编程接口、智能调度等技术，实现对多类异构算力资源协同管理，提高算力利用率。
智能化调度实现算力经济最大化：通过自动化监控、预测、自适应调度等技术优化资源利用，采用“AI+历史数据+实时数据”分析，实现算力需求精准预测，动态调度。

2. 海量数据处理低效，高性能大模型存储技术成为新关键

长记忆存储助力推理降本增效：通过高性能存储的大范围全局共享和持久化KV Cache能力，可实现高性价比推理加速，经企业实践验证，推理吞吐提速可超50%，推理成本显著下降。
加速卡直通存储实现数据直达：通过加速卡和存储设备的数据一跳直达，可以消除CPU处理瓶颈，极大提升数据从存储到加速卡的数据传输效率，经企业实践验证，可实现TB/s级带宽和亿级IOPS，每个机架单元的存储性能可达50GB/s以上，大幅提升集群可用度。
数据编织技术提高全流程效率：通过数据编织技术，实现全局数据可视可管，跨域统一视图。

3. 并行计算规模攀升，高通量大规模网络技术成为新方案

负载均衡技术助力解决“算等网”问题：经企业实践验证，逐流方案通过定制化的xCCL配合网络路径优化，在保证网络高可靠性的同时，网络链路利用率可达90%以上。逐包方案通过自适应路由等技术，可实现整网吞吐达到90%以上。
参数面、存储面/样本面、业务面、带外管理面网络互联有效提升大模型训练效率：在训前、训中、训后，多网络面互联解决训练过程涉及的数据、模型、模型参数、检查点等的写入和导出问题。

4. 模型参数急剧增长，高效能大模型开发技术成为新解法

训练加速技术涌现支撑大模型高效构建：计算资源优化方法通过混合精度计算等方式，减少计算和存储需求，有效提升模型效率。计算优化策略通过算子融合、梯度积累技术等实现模型执行效率提升。
推理技术提升模型推理效率：模型压缩通过低比特量化、稀疏化等方式实现模型训中、训后的低损与高效压缩。推理引擎技术进一步提升推理性能和兼容性。