OpenAI 解释 ChatGPT 等服务故障原因:K8s 循环依赖导致
创作时间:
作者:
@小白创作中心
OpenAI 解释 ChatGPT 等服务故障原因:K8s 循环依赖导致
引用
1
来源
1.
https://www.oschina.net/news/325137
2024年12月11日,OpenAI的ChatGPT、Sora及API服务遭遇了长达四个多小时的严重故障。此次事件并非由安全漏洞或新产品发布引起,而是由于内部系统升级过程中出现的配置错误导致。
OpenAI在服务状态页面中详细回顾了此次故障。据分析,问题源于11日下午部署的一项新的遥测服务。由于配置失误,导致每个节点同时执行大量Kubernetes API操作,最终造成服务器负载过重、控制平面瘫痪。这进一步引发了DNS解析故障,致使服务间无法互相通信。
在故障处理过程中,尽管OpenAI的监控系统在初期就发出了警报,但DNS缓存机制延迟了问题的暴露,使得故障影响范围不断扩大。由于Kubernetes控制平面陷入死锁,工程师们不得不采取缩小集群规模、限制API访问、以及扩容服务器等措施,最终才恢复了部分控制并移除了故障服务。
此次事件暴露了OpenAI在测试和部署流程上的不足,例如仅在小型预发布环境中进行了测试,而没有充分评估对大型集群的潜在影响。为此,OpenAI承诺将实施一系列改进措施,包括建立更完善的阶段性发布流程、设立紧急Kubernetes控制平面访问机制、以及将Kubernetes数据平面和控制平面解耦等。
影响范围
在太平洋时间2024年12月11日下午3:16至晚上7:38期间,所有OpenAI服务均出现了严重降级或完全不可用的情况。具体影响如下:
- ChatGPT: 在下午5:45左右开始大幅恢复,并于晚上7:01完全恢复。
- API: 在下午5:36左右开始大幅恢复,于晚上7:38所有模型全部恢复正常。
- Sora: 于晚上7:01完全恢复。
故障时间线
- 2024年12月10日: 新的遥测服务部署到预发布集群,经测试无异常。
- 2024年12月11日 下午2:23: 引入该服务的代码合并到主分支,并触发部署流水线。
- 下午2:51至3:20: 变更逐步应用到所有集群。
- 下午3:13: 告警触发,通知到工程师。
- 下午3:16: 少量客户开始受到影响。
- 下午3:16: 根因被确认。
- 下午3:27: 工程师开始把流量从受影响的集群迁移。
- 下午3:40: 客户影响达到最高峰。
- 下午4:36: 首个集群恢复。
- 晚上7:38: 所有集群恢复。
热门推荐
AI绘画训练成本分析:从数据到运营的全方位考量
未来LCD-TFT液晶屏技术的创新与应用前景深度剖析
中美教育比较,从理念到实践的深度解析
糙米与白米的差异:哪一种更适合自己?
孕期警惕:高同型半胱氨酸(HHcy)对母婴健康的潜在风险
新手必看!养猫必备指南,让你成为猫咪达人!
逆龄美肌好物:白藜芦醇
深入理解比例尺的计算方法及实际应用
沉香可以拜祖先吗?了解沉香在祭祀中的重要性与文化背景
南湾疍家渔排 难忘那一碗海鲜粥
LUNA币与UST动荡:加密货币市场的凛冬再现
胎教音乐完宝宝聪明吗 解析音乐胎教的益处
关闭公司在美国的全面指南:从申请到清算的每个步骤
齐齐哈尔十大美食排行榜,哪一道最能代表这座城市的独特风味?
中国(新疆)自贸试验区人才战略与创新发展专题研讨会:共话人才发展新蓝图
中国自主研发28纳米光刻机正式官宣:打破封锁,重塑半导体产业格局
华晨宇的成名史,你想知道吗?
骑士灰熊强强对决,凯尔特人三杀纽约!
贵州六盘水旅游景点攻略,六盘水必吃十大美食
宗教中国化的历史进程和时代内涵
对孩子“追星”行为, 家长该怎么看?
马斯克要求联邦雇员写周报“不写就算辞职”,FBI新任局长反击,加拿大人也有怨气
唐玄宗与唐朝的兴衰:一个复杂的历史评估
古希腊形体教育“从娃娃抓起“,是战争需要,还是对美的极致追求?
皮肤科“万能药”氧化锌的7大妙用
五俞穴 — 井荥输经合(详细解说,非常重要)
深度解析内心抑郁情绪的影响与应对策略
孙悟空的所有称号及由来
辽宁移动深耕智慧文旅,赋能文体旅融合新发展
男士护肤品怎么挑?5个大坑要避开