河北移动数据库国产化替代实践:从选型到运维的完整解决方案
河北移动数据库国产化替代实践:从选型到运维的完整解决方案
导读:随着全球数字化进程的加速,数据库国产化替代已成为企业确保数据安全和实现核心技术自主可控的重要举措。本文以河北移动O域支撑系统软件和硬件国产化替代项目为例,详细介绍了数据库替换选型的具体方法和实践,为企业开展类似项目提供了有价值的参考。
案例企业
中国移动作为中国最大的移动通信运营商,承担着打造网络中国、数字中国战略落地的战略使命。2023年,中国移动在发展战略方面提出始终锚定“世界一流信息服务科技创新公司”的发展定位,加快推进“两个转变”,一体发力“两个转型”,一方面是“5G+算力网络+智慧中台”的新型信息基础设施建设,另一方面是打造“链接+算力+能力”的新型信息服务体系,主动激发“五个红利”,促进数字经济与实体经济深度融合,实现高质量可持续发展。
项目背景
数字和信息的全球化趋势加剧全球经济风险,从国际形势上看,网络和信息安全已经成为权力博弈和大国竞争的主战场,国际网络安全生态环境越来越复杂多变。近年来,俄乌战争中西方国家对俄罗斯在技术和经济的上制裁,以及中美之间不断发生摩擦,都使得中国自主研发核心技术的需求迫在眉睫。从国内政策来看,国家对科技创新和信息安全的相关政策密集出台,尤其是四法一条例公布后,对于通信行业的网络和信息安全提出更高要求。二十大报告中也多次提及信息安全保护问题,近期国务院机构改革强调重新组建科学技术部,强调健全新型举国体制,强化国家战略科技力量,提升国家整体的创新体系效能。从中国移动公司发展来看,中国移动O域网管支撑体系建设历经从专业网管到综合网管到网管4+1的三段式发展过程,主要以Oracle数据库为主。当前网管支撑领域正在向“全面云化”、“大中台化”和“智能化”的2+5+N新型支撑体系建设稳步迈进。
为了从根本上确保企业数据安全,实现核心技术自主可控,河北移动自2020年起,开启在O域支撑系统软件和硬件国产化替代的工作。经过近两年的推进,已经完成去“I”和去“E”的实施,当前正处于全面“去O”阶段。
当前国产以及开源数据库蓬勃发展,在通信、金融等领域已经逐步开启应用。国际环境和国内环境已经具备去“O”的先决条件,但面对众多国产数据库品牌,如何选择与河北移动支撑业务场景高度适配的数据库,成为国产数据库推进的首要任务。为此,2022年初,河北移动网管中心启动数据库自主可控改造及数据迁移工程项目。项目研究内容包括三个部分,第一部分是明确O域网管支撑领域中与业务场景紧密相关的数据库国产化自主可控的改造目标;第二部分是在改造目标的基础上,完成部分业务数据库国产化迁移改造;第三部分是总结选型经验,提出具有中国移动特色、可行性强的去O方法论,指导后续网管支撑系统国产化迁移和改造工作。国产化数据库迁移和改造是一个复杂的系统工程,数据库替换选型需要从技术、容量、管理、成本、业务安全、生态、服务支撑等多维度进行衡量,相对使用新系统,上线改造现有系统的难度更大。为此,河北移动从四个方面进行相关因素梳理:
第一,种类差异。数据库按商业模式分为开源和闭源,按照架构分为集中和分布,按照技术路线分为MySQL路线、PG路线和纯自研路线。
第二,部署差异。不同品牌数据库在部署方式、资源需求,参数配置上都有较大差异,对于习惯于Oracle数据库的移动来说,需要进行重点关注和管控。
第三,实施差异。产品功能、性能、兼容性、工具等方面的差异,为项目实施过程中的项目工期、改造代价、测试方法等方面带来挑战和风险。
第四,维护差异。国产数据库各有运维特点,对河北移动的维护和管理水平提出巨大挑战。
解决方案
针对以上四方面挑战,河北移动将问题分解为三个关键环节:
第一,产品选型。选不好如同上错船,一旦选错产品或方向,就会面临产品不持续、功能有偏离、性能不满足、改造周期长、运行有风险等问题。
第二,迁移替代。干不好,项目就会深陷泥潭,迁不成可能导致业务不可用、数据不一致,迁移不不顺利也会导致改造适配过多、战线拉得太长、超过工期、高投入高成本,迁不好会给项目留下尾巴,为后续运维埋雷,造成资源浪费。
第三,运维提升。维不好,可能会导致业务体验差、投诉多,上线全是坑。
针对以上三个关键环节的问题,河北移动逐一进行解决方案拆解,用科学健全的方法实施,并建立一套行之有效的标准体系指导后续工作。经过不断尝试与验证,河北移动成功探索出一套适用于中国移动支撑领域的去“O”方法论,总结为“6原则、4方针”、“3阶9步”法,通过理论与实践结合的方式,进一步指导项目成果的落地。
6原则包括:
第一,应用等价。确保应用功能模块与源系统等价,无功能性退化或差异;
第二,数据一致。确保数据对象的数量、记录数、类型、精度等均与源系统一致或兼容;
第三,性能保证。确保业务性能指标不发生退化(如TPS/并发/延时/吞吐等);
第四,可回退。提供各类异常情况下的迁移回退机制,提供新、旧环境双轨运行机制,可确保灵活切换;
第五,周期可控。权衡项目投入产出比,降低重复工作量,保障高质量高效率完成数据库迁移改造;
第六,改造适度。重点指标筛选结论要突出,进行减少高难度适配工作(如SQL语句改写、存储过程改写等)。
从开始的业务画像到最后的生产运维,每一步都坚持去“O”原则和测得全、改得少、迁得顺、跑得稳方针,坚持原则和方针的指引性,对每一个阶段进行关键步骤的分解,逐一击破项目中存在的难点,最终实现平滑去“O”。
第一阶段:画像选型
这一阶段最主要的工作是充分了解源端数据库的运行特征全貌,通过工具化避免信息缺漏和误差。河北移动选取画像技术,从尽可能丰富的视角、层面、广度、深度和力度等多元化维度,对现有数据库系统的相关组件及运行状态等展开深入挖掘、分析评估和展示呈现。通过画像数据可以对现有数据库的细节实现全面、准确、充分的理解和评估。
第一阶段包含四个步骤:
第一步:业务画像梳理。结合不同网管支撑系统的业务特点,判断数据库基本类型,是TP交易型类型,还是AP分析类型,或是HATP混合类型。
第二步:应用画像。与所有网管支撑系统了解应用架构、开发框架、运行环境、开发接口以及整体的应用连接方式、切换方式等,掌握各个系统对数据库的依赖程度。
第三步:数据库画像。通过深入细致调研现有Oracle数据库的整个架构模型、容量负载模型、特性依赖模型等,了解源端数据库运行的特征和全貌。
第四步:替代选型。通过前面三个阶段画像统计和数据收集工作,再加上对主流国产数据库的性能指标对比,得到符合需求的最佳替代选型的数据库范围。
第二阶段:替换迁移
这一阶段最主要的工作是制定标准化的数据库迁移方案,确保执行效果没有偏移。
替换迁移至少包含数据对象结构迁移、数据迁移以及应用迁移改造。对于数据结构迁移来说,数据对象的源库和目标库之间对象定义相同就无需进行改造。对于不兼容的对象,优先考虑通过数据库厂商进行补充开发,实现兼容。如果开发的难度非常大或者是无法实现,就必须与网管系统厂商合作通过应用程序改写的方式上线,从而保证功能价。
替换迁移的工作量较大,需要提前制定兼容性改造流程,统一进行分工界面划分,采取数据库厂商和应用厂商多方协作模式,才可以进一步降低改造代价、缩短项目工期。
第二阶段包含三个步骤:
第一步,基准测试。得到最佳替换选型数据库后,需要针对性进行TPCC基准性能和业务模型性能测试。针对应用的重要程度,需要进行高可用的验证测试。
第二步,应用改造。替换过程不可避免涉及应用程序改写,通过第一阶段对数据库画像的数据准备和梳理,改造工作量已得到初步统计,额外需要进行的包括SQL改造、SQL优化、Schema改造,确保业务功能得到满足。
第三步,数据迁移。通过方案制定和测试,保证基础数据和业务数据的一致性,根据停机时间要求的不同,分为在线和离线两种数据迁移方案。
第三阶段:上线运维
第三阶段包含2个步骤:
第一步,上线割接。需要考虑数据同步、数据验证以及当前割接现场保障三方面方案的整体性。
第二步,生产运维。需要提供监控工具和平台,对新数据库进行7×24小时全方位监控,对业务应用开发提供的或监控工具监控到的Top SQL进行整体调优。
河北移动借助现有的数据库云管平台拓展国产库支撑能力,构建符合标准化、自动化、智能化和服务化的数据库全生命周期管理体系,包括数据库资源自服务,数据库自动部署安装、数据库最佳实践模板、统一的数据库监控和智能巡检、数据库性能容量管理、数据库高可用和备份恢复管理、SQL审核等工具,进而达到提升运维效率,保障业务稳定、高效、安全运行的目标。
通过国产数据库统一云管平台建设,河北移动逐步提升数据库运维管理水平,实现数据库运维的敏捷化、自动化和智能化。同时极大降低DBA以及整体运维人员对系统巡查、空间检测以及各种重复日常工作的强度和次数,让运维人员的主要精力可以放在关键问题的处理和解决上。
河北移动在项目过程中,不断积累、修正数据画像技术参数,历经3个月的打磨,最终研发出数据库替换选型智能分析工具。
数据库智能分析工具选型基本方法是通过采集统计原有数据库6个方面的数据信息,刻画不同维度的数据画像,以实现科学选出替换数据库的选型范围。6个方面的数据信息包括:
第一,通过数据库对象和数据类型信息刻画对象数据画像;
第二,通过数据库资源信息刻画规模数据画像;
第三,通过数据库会话连接信息刻画会话数据画像;
第四,通过数据库运行性能指标信息刻画数据库负载数据画像;
第五,通过数据库Top SQL信息刻画数据库风险数据画像;
第六,通过数据类型及数据流信息刻画数据库复杂度数据画像。
当前,数据库智能分析工具在河北移动整体网管O域得到广泛应用并初见成效,国产化数据库选型从最初一套库需要2~3周人工作业量,到不足10分钟,提高效率的同时规避人员水平参差不齐可能带来的选型误差。该工具从180多个技术指标勾勒出数据库的画像,自动生成可视化报告,并总结出选型范围。
价值与效果
通过数据库自主可控改造及数据迁移工程项目,河北移动实现如下价值与效果:
在业务功能方面:第一,降低成本和风险,通过本项目实践,河北移动有效降低系统改造过程中的试错成本与改造周期,在满足功能需求的前提下,减少应用程序的改造工作量,同时减少转维阶段后系统维护和运营的成本和风险;第二,提升业务稳定性,通过科学选型分析,使目标库亲和应用程序,提升业务的性能和稳定性,提高用户体验;第三,增强数据安全性,保护企业的核心业务数据自主可控。
在成果产出方面,通过研发“数据库替换选型智能分析工具”,数据库的指标采集及分析工作效率大幅提升,同时规避了人员水平参差不齐可能带来的误差,保障了选型分析工作的质量。
在应用范围方面,目前该选型方法已在河北移动网管中心应用实施,为数据库自主可控改造工作提供了充分的理论与实践支撑,并适用于通信领域支撑系统的选型和替换工作。
在应用推广方面,目前收录10多个选型维度180多个指标500多个参数,输出选型方法及智能分析工具,计划通过中国移动智慧中台在集团范围推广。
经验借鉴
国产数据库的替换是一项复杂的工程,选型尤为重要,选择合适的技术路线会给企业带来长久的利益。河北移动非常重视前期数据库画像的梳理,并因此研发出数据库替换选型智能分析的工具,解决当前数据库国产化的真正挑战——在有限工期和成本内实现平滑替代、高质量替代和低代价替代。
在国产数据库替换的过程中,企业应重点关注三个方面:
第一,以数据库产品为基础,选择一款适合业务系统的高可靠、高安全、高稳定性的数据库品牌,是数据库替换的前提条件。
第二,以标准方法论为指导,进行周密的替换迁移方案设计,以专业的项目管理为手段,整合各方优势资源,实现平滑迁移。
第三,以替换选型智能分析工具为保障,提升工程质量,规避人员水平问题导致的技术风险,提升效率,自动实现画像梳理,缩短选型的工程周期,降低改造难度。通过匹配主流国产数据库兼容性及物理设备要求,选择最优的方案节约替代成本。