OpenAI 解释 ChatGPT 等服务故障原因:K8s 循环依赖导致
创作时间:
作者:
@小白创作中心
OpenAI 解释 ChatGPT 等服务故障原因:K8s 循环依赖导致
引用
1
来源
1.
https://www.oschina.net/news/325137
12 月 12 日,OpenAI更新服务状态页面,在其中补充了对前一天 ChatGPT、Sora 及 API 服务宕机四个多小时事故的回顾。
OpenAI 表示,此次事件并非安全漏洞或新产品发布导致,而是源于一项内部系统升级。
OpenAI 工程师在 11 日下午部署了一项新的遥测服务,但由于配置失误,导致每个节点同时执行大量 Kubernetes API 操作,最终因服务器不堪重负、控制平面瘫痪。这进而引发 DNS 解析故障,导致服务间无法互相通信。
在此过程中,尽管 OpenAI 的监控系统在问题初期发出警报,但 DNS 缓存机制延迟了问题的暴露,使得故障在更大范围内蔓延。由于 Kubernetes 控制平面陷入死锁,工程师们经历了缩小集群规模、限制对 API 的访问、以及扩容服务器等多个步骤,才最终恢复了部分控制并移除了故障服务。
OpenAI 承认,此次事件暴露了测试和部署流程上的不足,例如只测试了小型预发布环境,没有评估对大型集群的潜在影响。相应地,OpenAI 承诺将采取一系列改进措施,包括实施更完善的阶段性发布流程、建立紧急 Kubernetes 控制平面访问机制、将 Kubernetes 数据平面和控制平面解耦等。
影响
在太平洋时间 2024 年 12 月 11 日下午 3:16 至晚上 7:38 之间,所有 OpenAI 服务均出现了严重降级或完全不可用。
这起事故源于我们在所有集群中推出的新遥测服务配置,并非由安全漏洞或近期产品发布所致。
从下午 3:16 开始,各产品性能均出现大幅下降。
- ChatGPT: 在下午 5:45 左右开始大幅恢复,并于晚上 7:01 完全恢复。
- API: 在下午 5:36 左右开始大幅恢复,于晚上 7:38 所有模型全部恢复正常。
- Sora: 于晚上 7:01 完全恢复。
时间线
- 2024 年 12 月 10 日: 新的遥测服务部署到预发布集群,经测试无异常。
- 2024 年 12 月 11 日 下午 2:23: 引入该服务的代码合并到主分支,并触发部署流水线。
- 下午 2:51 至 3:20: 变更逐步应用到所有集群。
- 下午 3:13: 告警触发,通知到工程师。
- 下午 3:16: 少量客户开始受到影响。
- 下午 3:16: 根因被确认。
- 下午 3:27: 工程师开始把流量从受影响的集群迁移。
- 下午 3:40: 客户影响达到最高峰。
- 下午 4:36: 首个集群恢复。
- 晚上 7:38: 所有集群恢复。
热门推荐
从0开始学统计:什么是弹性系数?
面具设计与制作的艺术:表情、材质与佩戴舒适度的考量
鸡眼,趾疣,胼胝“三兄弟”你能分辨吗?
奥利司他胶囊真的能减肥吗
父母资助婚后子女购房:无偿赠与协议范文
身旺走比肩大运命理,比劫禄刃对命运的影响
文档太大LLM处理不过来?这10种LangChain分割技术帮你搞定!
如何判断内存条是否故障及解决方法分享
学会认输:开启内心平静的钥匙
如何通过八字看父母的情况
医疗质量管理:构建高效医疗体系的关键
AI人工智能测试的五个维度:从功能到稳定性全方位解析
命格食神格身弱格女命:如何调和五行以增强运势
婚俗习惯:伴郎伴娘属相要求
生化危机4艾达·王的终极行动指南:你准备好掌握她的独特技能了吗?
“无证行医”“非法行医”,别再傻傻分不清!
杭州余杭试水小黄狗“物联网+智能回收”垃圾分类新模式
当遗嘱遇上“必留份”,会是什么结果?如何保障遗嘱完全有效?
孩子厌学的心理解析和应对策略(家长老师必读!)
清朝宫女出宫年龄及其婚姻困境:出宫后不受青睐的背后原因深析
零和博弈在生活中其实很常见,即赢家通吃
德文卷毛猫:独特的魅力与温暖伴侣
心脏骤停的紧急救治—心肺复苏术
自来水中有氯味儿正常吗?反复烧开的水和隔夜水能不能喝?北京疾控→
电动机过热或冒烟故障原因与处理方法
《魔兽世界》新种族"土灵"最全大揭秘:如何做到最丑却最强?
探寻临高林氏:千年传承的姓氏源头与文化底蕴
赤芍和白芍的区别
《剑仙归来骑驴上学》短剧里的秘密:情感深处的探索
美国学校膳食标准大调整:限制糖和钠摄入