问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

中型企业运维总监的成本优化实战案例——自建IDC机房

创作时间:
2025-01-21 23:21:43
作者:
@小白创作中心

中型企业运维总监的成本优化实战案例——自建IDC机房

在互联网人口红利逐渐消退的当下,企业如何在保证业务稳定的同时实现成本优化,成为了一个重要课题。本文以一个中型电商公司的运维总监小王为例,详细介绍了其如何通过一系列技术手段,将IT成本降低近70%的实战经验。

背景介绍

小王所在的电商公司自建IDC机房,拥有1000台业务服务器(线上+线下),由3名运维人员管理。机器规格大多为8核32G,整体CPU利用率只有10%左右,年成本在1000万以上。CTO希望在现有业务市场状况不变的情况下,以业务稳定为基本前提,降低至少30%的IT成本,并将其定为小王今年的KPI。

第一阶段:云迁移与基础优化

1. 云+公有云厂商/算力品牌比选

小王首先将IT成本分解为算力成本和人工成本。考虑到公有云模式易于更新、基本免维护、灵活,小王决定先将业务迁移到云端。

目前云厂商主要提供三种方式:

  • 预留实例(包年、包月)
  • 按需实例(弹性)
  • 竞价实例

为了保证系统稳定性,小王采取了以下措施:

  • 将大部分无状态在线服务和部分离线服务迁移到公有云机器上
  • 通过专线连接公有云和私有机房
  • 接入公有云相应的部署发布、监控报警、限流自愈等辅助功能

在上云过程中,小王根据公司需求对比了多个公有云厂商,选择了最合适的云资源。同时,他将CPU品牌从Intel改为AMD,两者叠加后,成本降低了约7%。

2. 系统指标描述业务算力特征

完成混合云转型后,小王进一步将算力成本分解为服务算力成本和基础设施资源成本。结合公司目前的成本比例,服务算力成本占比超过60%。


图1 算力成本来源占比

基于80/20原则,小王决定从第三方运维的角度,在对业务影响较小的前提下,重点关注节省服务算力成本。

小王首先查看了公司已上云的典型业务的算力特征。由于公司业务属于计算型,他选择通过常见的性能指标CPU利用率来观察算力消耗,发现公司业务经常在中午12点和晚上8点左右达到算力消耗峰值。


图2 CPU利用率指标计算能力图

3. 优化低频冗余算力

根据上面的业务算力模型,小王发现,即使业务完全处于巅峰状态,所需的机器数量也不到现有数量的80%。在公有云的弹性保障下,小王分阶段释放了200余台8核32G年月冗余机,未触及历史峰值,节省了20%左右的成本。

4. 压测+公有云模型规格降级

粗略剔除明显冗余算力后,小王观察到业务算力即使在繁忙时利用率也不高,尤其是内存空闲时。接下来,小王对业务进行了压力测试,最终得出的结论是,业务机规格保持在8核3G比例,使用率比较均衡。

公有云机器的CPU核心和内存比例一般都是1:2或者1:4的固定比例,所以小王首先按照公有云厂商的标准配置将机器规格从8核32G降低到8核16G,节省了20%的成本。

第一阶段总结

第一阶段的优化方法比较常规,取得了一定的效果。小王总共节省了40%左右的成本,以更低的成本获得了第一波降本红利。

第二阶段:深度优化

1. 替代CPU指标,精准衡量算力

小王利用系统引入指标,并没有造成业务大规模转型。该指标考虑了QPS中不同请求占用机器资源的时长,最终通过时长对QPS进行分段并分配相应的权重进行拟合。相比普通QPS指标,更能准确反映业务的实际负载情况。该指标的基本计算公式如下:


图3 公式

小王利用这个指标进行了第一阶段的“优化低频冗余算力”操作,再次下线了60台机器,节省了10%左右的成本。

2. 使用弹性扩展,用短期峰值计算能力取代年度和月度订阅

小王对比了公有云8核16G包年包月价格(约600元/月)和弹性机价格(约1.20元/小时),发现包月机的1天费用是弹力机30天成本的70%。可以推断,对于每日高峰时长小于总时长(8小时左右)30%的机器,可以采用弹性方式,而不是包年或包月。


图4 短期峰值弹性取代年度和月度订阅

对于其他规格的服务器,小王将推导扩展如下:

假设每小时弹性扩容一台同规格机器的成本为Y元,高峰期机器总数为K1,高峰期为H小时,包年包月合理机器数为K2。从节约成本的角度来看,需要保证以下条件:

(K1-K2)* H * Y < (X / 30)* (K1 - K2) => H * Y < (X / 30)

由于X和Y是相对固定的值,因此可以根据这个不等式计算出适合弹性的理论业务峰值持续时间。因此,在留有一定安全余量的前提下,小王依靠测量和弹性能力,下线了50多台机器,节省了10%左右的成本。

3. 低峰时段按年、按月算力共享

面对剩下的包年包月机,小王发现还有优化的空间。从波形覆盖面积来看,孔波形区域(蓝色阴影区域)至少占红框中矩形区域的1/3,如图:


图5 低峰时年月算力共享

小王计划将这部分机器作为整个公司的共享资源池,可以在非高峰期供公司其他周期性和离线任务使用。由于涉及面广,小王请求CTO出面推动协调。最终,系统能够根据业务算力模型曲线实时扩容和缩容,总共节省了10%的成本。

4. 裸金属切割,精确适应规格

完成基于指标和横向时序的算力优化后,小王再次将注意力集中在机器规格与业务需求的精准匹配上。

小王使用了公有云上的高规格裸机服务器,并对公有云的裸机原材料进行了二次裁剪。虽然公有云上的裸机也是按照固定比例的算力资源出售,但切割后的算力规格可以精准匹配业务的8核3G规格需求。还有500台机器。与原来的8核16G云主机相比,砍掉的8核3G机器可以节省15%以上的成本。

5. 利用算力的地区价格差异来节省成本

完成机器规格的精准裁剪和匹配后,基本上单一算力规格和顺序算力的数量和类型都已经优化。小王把目光转向了算力的地区差异。他了解到,公有云上西部机房相同规格的算力比东部机房便宜。他将近百台离线服务器迁移到西部机房,同时借助快速大规模数据迁移的能力实现了东西向计算,节省了10%的成本。

总结

第二阶段基本解决了第一阶段遗留的三大问题:算力精准计量、模型匹配精准、切割规格精准。经过两个阶段后,CPU利用率提升到60%,总成本节省近70%,达到并超出了CTO的预期。

结合这两个阶段,小王的整体优化流程如下图所示:


图6 降低成本流程图

降低成本配套设施

为了顺利推进成本优化,除了设计和运营各种算力增减之外,小王还依靠了以下配套措施和制度:

  1. 有必要明确算力衡量指标体系。前期可以大致使用CPU利用率等系统指标。后期需要使用精准的业务指标,比如QPS以及结合单个请求的时间消耗的综合指标。
  2. 降低成本的过程需要有相对完善的监控报警系统和灾难恢复SOP,以防止优化过程中出现意外情况。
  3. 为了准确衡量业务算力,需要压力测量系统和解决方案。
  4. 为了全面反映每一步的优化结果,需要有一个成本仪表盘。

遇到的非技术问题

在推动降低成本的过程中,小王还总结了遇到的一些非技术问题及其主要解决方案:

结论

回顾整个降本历程,除了前面总结的实施中的技术/非技术问题外,还有以下几点值得一提:

在互联网下半场的今天,降低成本、提高效率已经成为企业的大势所趋,甚至上升到了企业核心竞争力的层面。面对各种成本优化路径和手段,谁先朝正确的方向迈出了一步,谁就能占到对手的便宜。本文全面讲述了典型腰部企业的成本降低路径,希望对读者有所启发。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号