OpenAI 解释 ChatGPT 等服务故障原因:K8s 循环依赖导致
创作时间:
作者:
@小白创作中心
OpenAI 解释 ChatGPT 等服务故障原因:K8s 循环依赖导致
引用
1
来源
1.
https://www.oschina.net/news/325137
2024年12月11日,OpenAI的ChatGPT、Sora及API服务遭遇了长达四个多小时的严重故障。此次事件并非由安全漏洞或新产品发布引起,而是由于内部系统升级过程中出现的配置错误导致。
OpenAI在服务状态页面中详细回顾了此次故障。据分析,问题源于11日下午部署的一项新的遥测服务。由于配置失误,导致每个节点同时执行大量Kubernetes API操作,最终造成服务器负载过重、控制平面瘫痪。这进一步引发了DNS解析故障,致使服务间无法互相通信。
在故障处理过程中,尽管OpenAI的监控系统在初期就发出了警报,但DNS缓存机制延迟了问题的暴露,使得故障影响范围不断扩大。由于Kubernetes控制平面陷入死锁,工程师们不得不采取缩小集群规模、限制API访问、以及扩容服务器等措施,最终才恢复了部分控制并移除了故障服务。
此次事件暴露了OpenAI在测试和部署流程上的不足,例如仅在小型预发布环境中进行了测试,而没有充分评估对大型集群的潜在影响。为此,OpenAI承诺将实施一系列改进措施,包括建立更完善的阶段性发布流程、设立紧急Kubernetes控制平面访问机制、以及将Kubernetes数据平面和控制平面解耦等。
影响范围
在太平洋时间2024年12月11日下午3:16至晚上7:38期间,所有OpenAI服务均出现了严重降级或完全不可用的情况。具体影响如下:
- ChatGPT: 在下午5:45左右开始大幅恢复,并于晚上7:01完全恢复。
- API: 在下午5:36左右开始大幅恢复,于晚上7:38所有模型全部恢复正常。
- Sora: 于晚上7:01完全恢复。
故障时间线
- 2024年12月10日: 新的遥测服务部署到预发布集群,经测试无异常。
- 2024年12月11日 下午2:23: 引入该服务的代码合并到主分支,并触发部署流水线。
- 下午2:51至3:20: 变更逐步应用到所有集群。
- 下午3:13: 告警触发,通知到工程师。
- 下午3:16: 少量客户开始受到影响。
- 下午3:16: 根因被确认。
- 下午3:27: 工程师开始把流量从受影响的集群迁移。
- 下午3:40: 客户影响达到最高峰。
- 下午4:36: 首个集群恢复。
- 晚上7:38: 所有集群恢复。
热门推荐
春季旅游的好景点,我强烈推荐九寨沟
殴打与冲突的区别:从行为目的到法律后果
死亡,是否能让生命变得毫无意义?
物权是否具有绝对权:一个法律哲学的探讨
免洗消毒洗手液执行标准
海拔每升高100米温度下降多少?了解温度变化的规律
易蒙停胶囊使用的正确方法
卓别林:默片时代的喜剧之王
最实用的拖把是哪种?一文读懂拖把选购指南
观众热议《大千猴》设计:传统艺术与现代创意的完美融合
自研影像芯片降温了?或被AI摄影再引爆,手机影像高端化的关键
本命年戴什么转运?这些都可以佩戴
成都公积金买房提取指南及住房公积金好处详解
喝红酒有益健康?适量饮用才能显著降低患心血管疾病的风险
太原城市功能升级,老百姓的生活越来越好
“动物小说大王”沈石溪:我的笔名取自故乡慈溪
以色列希伯来大学:中东的哈佛
ENFP人格类型的特点、含义、优缺点及职业适配性
对比定位:精准营销策略提升品牌竞争力
社会优抚政策解析:提升弱势群体生活质量的探讨
沙葛的营养成分含量表
“药山”脚下种“仙草” 特色产业促振兴
肠胃不适治不好?医生:你可能要看精神科!
冬季养花秘籍!如何延长美丽的期限?|上海市消保委现代农业办
自制洗发水配方大全:中药、基本、保湿等多种配方详解
全国人力资本总量持续增长,但多地性别差异增大
如果按实力划分,战国七雄应该怎么排?谁最强,谁最弱?
长期服用复合维生素可能增加死亡风险?专家解读维生素摄入指南
央视强推的五部中国历史纪录片,你要是一部都没看,那就太遗憾了
《二十四史》中唯一被尊称为“威震华夏”的武将——岳飞