问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

OpenAI 解释 ChatGPT 等服务故障原因:K8s 循环依赖导致

创作时间:
作者:
@小白创作中心

OpenAI 解释 ChatGPT 等服务故障原因:K8s 循环依赖导致

引用
1
来源
1.
https://www.oschina.net/news/325137

2024年12月11日,OpenAI的ChatGPT、Sora及API服务遭遇了长达四个多小时的严重故障。此次事件并非由安全漏洞或新产品发布引起,而是由于内部系统升级过程中出现的配置错误导致。

OpenAI在服务状态页面中详细回顾了此次故障。据分析,问题源于11日下午部署的一项新的遥测服务。由于配置失误,导致每个节点同时执行大量Kubernetes API操作,最终造成服务器负载过重、控制平面瘫痪。这进一步引发了DNS解析故障,致使服务间无法互相通信。

在故障处理过程中,尽管OpenAI的监控系统在初期就发出了警报,但DNS缓存机制延迟了问题的暴露,使得故障影响范围不断扩大。由于Kubernetes控制平面陷入死锁,工程师们不得不采取缩小集群规模、限制API访问、以及扩容服务器等措施,最终才恢复了部分控制并移除了故障服务。

此次事件暴露了OpenAI在测试和部署流程上的不足,例如仅在小型预发布环境中进行了测试,而没有充分评估对大型集群的潜在影响。为此,OpenAI承诺将实施一系列改进措施,包括建立更完善的阶段性发布流程、设立紧急Kubernetes控制平面访问机制、以及将Kubernetes数据平面和控制平面解耦等。

影响范围

在太平洋时间2024年12月11日下午3:16至晚上7:38期间,所有OpenAI服务均出现了严重降级或完全不可用的情况。具体影响如下:

  • ChatGPT: 在下午5:45左右开始大幅恢复,并于晚上7:01完全恢复。
  • API: 在下午5:36左右开始大幅恢复,于晚上7:38所有模型全部恢复正常。
  • Sora: 于晚上7:01完全恢复。

故障时间线

  • 2024年12月10日: 新的遥测服务部署到预发布集群,经测试无异常。
  • 2024年12月11日 下午2:23: 引入该服务的代码合并到主分支,并触发部署流水线。
  • 下午2:51至3:20: 变更逐步应用到所有集群。
  • 下午3:13: 告警触发,通知到工程师。
  • 下午3:16: 少量客户开始受到影响。
  • 下午3:16: 根因被确认。
  • 下午3:27: 工程师开始把流量从受影响的集群迁移。
  • 下午3:40: 客户影响达到最高峰。
  • 下午4:36: 首个集群恢复。
  • 晚上7:38: 所有集群恢复。
© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号