Coinbase 承諾在重大交易所事件後提供完整根本原因分析

AWS 基礎設施故障與 Kafka 恢復問題暫時中斷了 Coinbase 的交易

Coinbase 在 5 月 7 日遭遇重大服務中斷,影響多個平台的交易、交易所訪問和客戶餘額更新。問題影響了現貨市場、衍生品、Prime 服務以及國際交易運營數小時。工程師後來追查到問題源於美國一個 AWS 數據中心內的冷卻系統故障。Coinbase 表示,客戶資金仍然安全,事件期間未丟失任何數據。

Kafka 恢復問題加劇 Coinbase 中斷

Coinbase 公布監控系統於 UTC 23:50 左右首次檢測到連鎖報價失敗。隨後不久,出現多起 Sev1 事件,促使工程團隊啟動緊急應對程序。與交易所核心基礎設施相關的內部系統開始失效,原因是 AWS us-east-1 部分機架內溫度升高。

昨天 @coinbase 發生了持續數小時的服務中斷,影響交易、交易所訪問和餘額更新。以下是 Coinbase 工程團隊對事件的初步分析、恢復過程以及我們正在處理的事項。

在 2026-05-07 UTC 23:50 左右,我們的…

— rob (@rwitoff) 2026 年 5 月 8 日

根據 Coinbase 工程師的說法,硬體故障影響了與交易所匹配引擎相關的系統。該引擎負責處理訂單並維護 Coinbase 市場的訂單簿。受影響設施內的基礎設施問題導致只有部分節點運行。結果,集群未能達到法定數量,暫時阻止了零售和機構用戶的交易。

工程師還遇到涉及用於內部訊息傳遞的分散式 Kafka 集群的複雜情況。Coinbase 表示這些集群每天處理數 TB 的數據,並設計為在數據中心故障期間保持運行。事件中恢復保障失效,迫使團隊手動將分區還原到替代硬體代理。

專用硬體故障拖慢恢復進度

在 Kafka 複製恢復期間,客戶的餘額更新出現延遲。Coinbase 表示,一旦系統趕上進度,餘額將自動同步。公司代表補充說,事件期間沒有客戶或交易數據丟失。

自動恢復工具從約 10 個與受影響區域相關的 Kubernetes 集群中抽取工作負載。大多數內部服務在工程師隔離問題後約 30 分鐘內恢復。

由於系統直接依賴專用硬體和存儲配置,與交易所匹配引擎和 Kafka 基礎設施相關的系統恢復時間較長。

在環境穩定後,Coinbase 分階段重新開放市場。首先進入取消模式,然後團隊審核產品狀態。之後市場進入拍賣模式,最後在整個交易所恢復全部交易。

Coinbase 表示多小時平台中斷期間未丟失數據

Coinbase 承認其架構部分將關鍵交易所基礎設施集中在單一可用區內。工程師表示,已設置備用系統以應對故障轉移,但在事件中隔離措施失效,導致中斷時間和範圍超出預期。

公司高層讚揚了恢復過程中的內部協調。工程和值班團隊據報遵循既定的災難恢復程序,在受限的基礎設施條件下測試和驗證修復措施。

Coinbase 向暫時失去帳戶和交易服務的客戶道歉。高層表示,完整的根本原因分析將在未來幾周內公布,並伴隨著旨在防止類似故障的可靠性改進計劃。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆