OpenAI 解释 ChatGPT 等服务故障原因:K8s 循环依赖导致
创作时间:
作者:
@小白创作中心
OpenAI 解释 ChatGPT 等服务故障原因:K8s 循环依赖导致
引用
1
来源
1.
https://www.oschina.net/news/325137
2024年12月11日,OpenAI的ChatGPT、Sora及API服务遭遇了长达四个多小时的严重故障。此次事件并非由安全漏洞或新产品发布引起,而是由于内部系统升级过程中出现的配置错误导致。
OpenAI在服务状态页面中详细回顾了此次故障。据分析,问题源于11日下午部署的一项新的遥测服务。由于配置失误,导致每个节点同时执行大量Kubernetes API操作,最终造成服务器负载过重、控制平面瘫痪。这进一步引发了DNS解析故障,致使服务间无法互相通信。
在故障处理过程中,尽管OpenAI的监控系统在初期就发出了警报,但DNS缓存机制延迟了问题的暴露,使得故障影响范围不断扩大。由于Kubernetes控制平面陷入死锁,工程师们不得不采取缩小集群规模、限制API访问、以及扩容服务器等措施,最终才恢复了部分控制并移除了故障服务。
此次事件暴露了OpenAI在测试和部署流程上的不足,例如仅在小型预发布环境中进行了测试,而没有充分评估对大型集群的潜在影响。为此,OpenAI承诺将实施一系列改进措施,包括建立更完善的阶段性发布流程、设立紧急Kubernetes控制平面访问机制、以及将Kubernetes数据平面和控制平面解耦等。
影响范围
在太平洋时间2024年12月11日下午3:16至晚上7:38期间,所有OpenAI服务均出现了严重降级或完全不可用的情况。具体影响如下:
- ChatGPT: 在下午5:45左右开始大幅恢复,并于晚上7:01完全恢复。
- API: 在下午5:36左右开始大幅恢复,于晚上7:38所有模型全部恢复正常。
- Sora: 于晚上7:01完全恢复。
故障时间线
- 2024年12月10日: 新的遥测服务部署到预发布集群,经测试无异常。
- 2024年12月11日 下午2:23: 引入该服务的代码合并到主分支,并触发部署流水线。
- 下午2:51至3:20: 变更逐步应用到所有集群。
- 下午3:13: 告警触发,通知到工程师。
- 下午3:16: 少量客户开始受到影响。
- 下午3:16: 根因被确认。
- 下午3:27: 工程师开始把流量从受影响的集群迁移。
- 下午3:40: 客户影响达到最高峰。
- 下午4:36: 首个集群恢复。
- 晚上7:38: 所有集群恢复。
热门推荐
抵押率越高越好还是越低越好?抵押率高低的利弊
如何理解房产抵押率的计算方法?这种计算方法有哪些实际应用?
UI设计的发展历程
爱挖鼻孔的娃总是流鼻血,该咋办?
西周青铜精品亮相清华艺博
2梯6户高层会不会太挤?常见房屋的梯户比有哪些
好好说话很难吗?教你如何开启聊天话题
【圣境甘南·非遗新春】舟曲:“东山转灯”绽放非遗光彩
吴恩达对话业界领袖:揭秘2025人工智能五大风口
小孩赴港旅游全攻略:证件准备与出行注意事项
孕妇多喝豆浆有什么好处呢?
银行电子回单是什么
个人收入所得税退税怎么计算
《庆余年第二季》:传奇再续,江湖波澜
误工期司法鉴定:概念、流程与法律适用问题研究
C语言中的flag(标志位)使用详解
科目四11条考试答题技巧口诀总结
爬泰山要准备些什么东西 十件登泰山必备物品清单
1/5升学人选择去留学!清北复上浙等高校最新发布毕业生去向!
古诗《十五从军征》阅读理解及全诗翻译赏析
建盏:宋代黑釉瓷器的艺术瑰宝
探尋千年文脈 專家學者走進“紫玉甌心——中國建窯建盞文化展”
如何打造具有竞争力的特色农业品牌?(附案例)
扑克的历史:从宫廷游戏到全球现象
中考目标责任书集合5篇
硬盘删除分区后如何恢复数据?这几招,真的必看
计算机专业主要学什么内容和课程?女生学计算机可以从事什么职业
《三角洲行动》物品处理技巧:如何统一卖掉不再需要的装备!
梳妆台尺寸一般是多少合适:家居空间的完美选择
欧洲电价波动折射能源转型挑战