首页 资讯 正文

Coinbase 5 月 8 日宕机复盘:撮合引擎单点故障,叠加 AWS Kafka 控制面缺陷致中断

ForesightNews 2026年06月01日 13:25
Foresight News 消息,Coinbase 发布 5 月 8 日宕机事件事后复盘报告。报告披露,此次服务中断由两个故障叠加导致:其一,Coinbase Exchange 撮合引擎部署于 AWS 单一可用区集群,缺乏跨区自动故障转移能力,AWS 终止相关 EC2 实例后,五节点集群中三个节点下线,集群失去 quorum;其二,AWS 托管 Kafka 服务(MSK)控制面存在缺陷,分区 Leader 无法自动重新选举,导致事件流基础设施陷入「修复中」状态,进而影响报价、手续费服务及账本管道等多个系统。Coinbase 表示,交易于事发约 8 小时后完全恢复,全部系统恢复耗时约 20 小时。后续改进措施包括:为撮合引擎建立跨区热备设计、与 AWS 联合排查 MSK 控制面缺陷,并将现有双可用区 Kafka 集群迁移至三可用区部署。