10,000 USDT 悬赏,寻找Gate广场跟单金牌星探!🕵️♀️
挖掘顶级带单员,赢取高额跟单体验金!
立即参与:https://www.gate.com/campaigns/4624
🎁 三大活动,奖金叠满:
1️⃣ 慧眼识英:发帖推荐带单员,分享跟单体验,抽 100 位送 30 USDT!
2️⃣ 强力应援:晒出你的跟单截图,为大神打 Call,抽 120 位送 50 USDT!
3️⃣ 社交达人:同步至 X/Twitter,凭流量赢取 100 USDT!
📍 标签: #跟单金牌星探 #GateCopyTrading
⏰ 限时: 4/22 16:00 - 5/10 16:00 (UTC+8)
详情:https://www.gate.com/announcements/article/50848
Coinbase 承諾在重大交易所事件後提供完整根本原因分析
AWS 基礎設施故障與 Kafka 恢復問題暫時中斷了 Coinbase 的交易
Coinbase 在 5 月 7 日遭遇重大服務中斷,影響多個平台的交易、交易所訪問和客戶餘額更新。問題影響了現貨市場、衍生品、Prime 服務以及國際交易運營數小時。工程師後來追查到問題源於美國一個 AWS 數據中心內的冷卻系統故障。Coinbase 表示,客戶資金仍然安全,事件期間未丟失任何數據。
Kafka 恢復問題加劇 Coinbase 中斷
Coinbase 公布監控系統於 UTC 23:50 左右首次檢測到連鎖報價失敗。隨後不久,出現多起 Sev1 事件,促使工程團隊啟動緊急應對程序。與交易所核心基礎設施相關的內部系統開始失效,原因是 AWS us-east-1 部分機架內溫度升高。
根據 Coinbase 工程師的說法,硬體故障影響了與交易所匹配引擎相關的系統。該引擎負責處理訂單並維護 Coinbase 市場的訂單簿。受影響設施內的基礎設施問題導致只有部分節點運行。結果,集群未能達到法定數量,暫時阻止了零售和機構用戶的交易。
工程師還遇到涉及用於內部訊息傳遞的分散式 Kafka 集群的複雜情況。Coinbase 表示這些集群每天處理數 TB 的數據,並設計為在數據中心故障期間保持運行。事件中恢復保障失效,迫使團隊手動將分區還原到替代硬體代理。
專用硬體故障拖慢恢復進度
在 Kafka 複製恢復期間,客戶的餘額更新出現延遲。Coinbase 表示,一旦系統趕上進度,餘額將自動同步。公司代表補充說,事件期間沒有客戶或交易數據丟失。
自動恢復工具從約 10 個與受影響區域相關的 Kubernetes 集群中抽取工作負載。大多數內部服務在工程師隔離問題後約 30 分鐘內恢復。
由於系統直接依賴專用硬體和存儲配置,與交易所匹配引擎和 Kafka 基礎設施相關的系統恢復時間較長。
在環境穩定後,Coinbase 分階段重新開放市場。首先進入取消模式,然後團隊審核產品狀態。之後市場進入拍賣模式,最後在整個交易所恢復全部交易。
Coinbase 表示多小時平台中斷期間未丟失數據
Coinbase 承認其架構部分將關鍵交易所基礎設施集中在單一可用區內。工程師表示,已設置備用系統以應對故障轉移,但在事件中隔離措施失效,導致中斷時間和範圍超出預期。
公司高層讚揚了恢復過程中的內部協調。工程和值班團隊據報遵循既定的災難恢復程序,在受限的基礎設施條件下測試和驗證修復措施。
Coinbase 向暫時失去帳戶和交易服務的客戶道歉。高層表示,完整的根本原因分析將在未來幾周內公布,並伴隨著旨在防止類似故障的可靠性改進計劃。