OpenAI 解释 ChatGPT 等服务故障原因:K8s 循环依赖导致
创作时间:
作者:
@小白创作中心
OpenAI 解释 ChatGPT 等服务故障原因:K8s 循环依赖导致
引用
1
来源
1.
https://www.oschina.net/news/325137
2024年12月11日,OpenAI的ChatGPT、Sora及API服务遭遇了长达四个多小时的严重故障。此次事件并非由安全漏洞或新产品发布引起,而是由于内部系统升级过程中出现的配置错误导致。
OpenAI在服务状态页面中详细回顾了此次故障。据分析,问题源于11日下午部署的一项新的遥测服务。由于配置失误,导致每个节点同时执行大量Kubernetes API操作,最终造成服务器负载过重、控制平面瘫痪。这进一步引发了DNS解析故障,致使服务间无法互相通信。
在故障处理过程中,尽管OpenAI的监控系统在初期就发出了警报,但DNS缓存机制延迟了问题的暴露,使得故障影响范围不断扩大。由于Kubernetes控制平面陷入死锁,工程师们不得不采取缩小集群规模、限制API访问、以及扩容服务器等措施,最终才恢复了部分控制并移除了故障服务。
此次事件暴露了OpenAI在测试和部署流程上的不足,例如仅在小型预发布环境中进行了测试,而没有充分评估对大型集群的潜在影响。为此,OpenAI承诺将实施一系列改进措施,包括建立更完善的阶段性发布流程、设立紧急Kubernetes控制平面访问机制、以及将Kubernetes数据平面和控制平面解耦等。
影响范围
在太平洋时间2024年12月11日下午3:16至晚上7:38期间,所有OpenAI服务均出现了严重降级或完全不可用的情况。具体影响如下:
- ChatGPT: 在下午5:45左右开始大幅恢复,并于晚上7:01完全恢复。
- API: 在下午5:36左右开始大幅恢复,于晚上7:38所有模型全部恢复正常。
- Sora: 于晚上7:01完全恢复。
故障时间线
- 2024年12月10日: 新的遥测服务部署到预发布集群,经测试无异常。
- 2024年12月11日 下午2:23: 引入该服务的代码合并到主分支,并触发部署流水线。
- 下午2:51至3:20: 变更逐步应用到所有集群。
- 下午3:13: 告警触发,通知到工程师。
- 下午3:16: 少量客户开始受到影响。
- 下午3:16: 根因被确认。
- 下午3:27: 工程师开始把流量从受影响的集群迁移。
- 下午3:40: 客户影响达到最高峰。
- 下午4:36: 首个集群恢复。
- 晚上7:38: 所有集群恢复。
热门推荐
驾车必知:八个有效减少发动机积碳的小窍门!
展会ToB(面向企业)的参展流程通常包括哪些关键步骤
DeepSeek大火,AJ搜索世界第一上单,前五的全是LCK选手
树、二叉树、完全二叉树、哈夫曼树和Trie树详解
如何在Windows系统运行泰拉瑞亚Terraria私服并实现与好友远程联机
深圳出台首个即时配送指引 骑手:工时受限或致收入下降
如何取消电脑屏幕保护?学会这3招,操作无难度!
多模态机器学习在精准健康中的应用
2025,当华为成为标配
急性脓胸和慢性脓胸纵膈的区别
股票无量的原因有哪些?这些原因对股市行情有何影响?
探究表面张力:实验装置与操作指南
如何有效查看与监测《崩坏3》游戏服务器状态与网络环境优化技巧
全球最新癌症统计报告出炉!185个国家、36种癌症的发病率和死亡率
灰色柜子怎么搭配更显高级感?
灰色柜子怎么搭配更显高级感?
左眼皮“跳舞”20天:探究原因与应对策略
贴牌生产合同标准:确保产品品质与信任的基石
产品外观工业设计:如何设计以实现产品差异化?
咽炎的症状有哪些?如何用药和生活调适?
威胁需要负法律责任吗?被威胁后如何维权?
深入了解康普茶:全方位解析其健康益处与潜在功效
如何让宠物猫避免乱吃东西(解决宠物猫咪乱吃东西的5种有效方法)
现代 CSS 布局技术:Grid 与 Flexbox
事业单位旷工辞退程序:法律依据、操作流程与实务要点解析
易知微智慧工厂车间生产线数字孪生管理系统项目案例
吉伦沃特禁赛1场罚款5万,杜锋被罚2万;广东队或注册库克
有限合伙企业利润分配顺序研究
最新!《余生有涯》《许我耀眼》等都市情感剧待播
股市风向标 | 踏入夏令时!美股交易时间调整带来的影响