在2023年新年的第二周,美國東部時間1月11日上午,6點29分,美國航空監管機構(FAA)發布了一條僅40字的通告,隨后不久,很快就宣布停飛全美所有國內航班。通告內容是,FAA正在對NOTAM(Notice to Air Missions)系統進行驗證和恢復,在第一條通知之后的50分鐘,FAA就宣布停飛所有國內航班。
成都創新互聯服務項目包括化德網站建設、化德網站制作、化德網頁制作以及化德網絡營銷策劃等。多年來,我們專注于互聯網行業,利用自身積累的技術優勢、行業經驗、深度合作伙伴關系等,向廣大中小型企業、政府機構等提供互聯網行業的解決方案,化德網站推廣取得了明顯的社會效益與經濟效益。目前,我們服務的客戶以成都為中心已經輻射到化德省份的部分城市,未來相信會繼續擴大服務區域并繼續獲得客戶的支持與信任!這應該是自2001年911襲擊以來首次出現如此大規模的禁飛。
在兩個小時之后,也就是8點50分,FAA宣布NOTAM系統已經恢復,并徹底取消了之前的“禁飛令”。
FAA在當天的晚上18點31分,宣布這次系統宕機是由數據庫文件受損導致的,并還將持續跟進并改進。
什么是NOTAMNOTAM是“Notice to Air Missions”的縮寫,該系統是用于向飛行員和其機組人員提供實時的潛在風行信息,包括了關閉的跑道、設備狀態以及起降過程中相關航班信息等,是一個機場正常運行依賴的一個基礎服務。
這次正是NOTAM地城的數據庫系統出現了故障。
更進一步的原因:難道運維又要背鍋了?據一位ABC news(美國廣播公司旗下的新聞事業部)的人員透露,根據內部的復盤信息,可能是由于在一次計劃維護操作過程中,一位工程師進行了一次文件(數據庫文件?)替換操作,之后就出現了故障,最終導致整個美國國內航空癱瘓。
所以,難道運維人員又要被背鍋了?不過,目前為止,FAA僅表示該次事件應該與網絡攻擊沒有關系,暫時還沒有透露任何更加詳細的信息。
堪稱典范的故障過程通知相比互聯網行業,航空業務是更加關鍵的。互聯網很多系統出現故障,雖然影響面很大,但大多數都是在經濟層面(雖然這個數額可能很大),而很多基礎設施行業,如航空,其系統如果故障則可能導致性命攸關的災難,這次FAA的處理與通知過程,是很多行業學習的典范。
對于FAA,這應該是一次p0級別的故障了,我們來看FAA主要的故障通知時間線吧:
6點29分(美東時間)發布第一條通告:說正在恢復NOAMS(Notice to Air Missions System)系統,當前正在進行最后的驗證和重啟。
6點57分:還在進行NOAMS系統的恢復,部分功能已經恢復(參考)
7點19分:恢復還在進行中;現在已經命令在9點前暫停所有的國內航班(參考)
8點13分:所有空中的航班都可以安全降落。NOAMS告知飛行員相關信息包括關閉的跑道、設備狀態以及相關航班信息等。
8點15分:在NOAMS的這次突然宕機之后,恢復取得了進展。目前,部分機場已經可以正常起飛。其他機場也預計在9點都能夠恢復起飛
8點50分:“禁飛令”全面取消,航班逐步恢復
18點31分:我們還在持續跟蹤根因。目前,這次系統宕機與一個受損的數據庫文件有關
企業信息管理的重大隱患:備份恢復與容災經驗豐富的技術人員一定都明白,系統一定會出故障,數據庫也一定會出問題的,只是何時的問題。背后的原因有很多,例如,系統老舊年久失修,以致于當前的技術人員只能去修修補補,而且無法了解系統全貌,那么就會在某個角落踩到某個“坑”。也有可能是,人為失誤、硬件故障、軟件故障,還有可能是一些不可抗力。而一個大故障,還有可能是多個潛在問題,組合而成。總得來說,是防不勝防。
那么,構建合適的備份與容災方案,已經成為當代系統可用性建設的重要組成部分。在軟件設計過程中,以及實施和運維中,都需要考慮。但是,備份與容災的投入有如下特點:
這是一個“成本”,無法給業務帶來直接收益,所以重視程度通常是不夠的
企業通常是有相關的方案的,但是因為系統的持續演進以及缺乏實際有效的演練,導致看似有方案,實則是無效的,所以,有時候真的是在靠天吃飯
備份與容災的規劃,通常對技術和架構能力有非常高的要求,才能夠根據合適的業務場景規劃合適的方案,小的廠商或者某些以非技術業務為核心的大型企業(例如保險、航空、金融等),通常難以持續保障穩定的團隊進行持續的規劃
在很多的行業標準中都有對容災規范的描述,例如ISO 22300、ISO 27001:2022、國內等級保護(等保)等。由IBM的SHARE用戶組在1992年提出的“7 tiers of disaster recovery”,依舊是一個非常簡潔、直白的劃分。并在2012年,該等級劃分新增到了八個等級:
等級0 沒有災難恢復方案(Tier 0 – No off-site data)這種情況下,系統是沒有任何災難恢復方案的,沒有備份,沒有文檔,沒有高可用計劃。通常這種情況下,在發生故障時,系統的恢復時間(RTO)是完全不可預計的,事實上,很有可能系統就恢復不了。
等級1 有冷數據備份方案(Tier 1 – Data backup with no Hot Site)這種情況下,系統有一份安全的、離線備份數據(通常是磁帶)。根據備份的間隔,系統需要接受故障時一定程度的數據丟失,RPO可能是數小時或數天。根據數據量大小,存儲設備的效率等,數據的恢復時間(RTO)則可能達數小時或數天。
等級2 由冷備數據且保障恢復資源(Tier 2 – Data backup with Hot Site)在前面方案的基礎上,還會時刻保障充足的資源和基礎設施來進行災難恢復,這時候,通常RTO是可以預期的。
等級3 在線數據備份(Tier 3 – Electronic vaulting)在前面方案的基礎上,對于業務中的關鍵系統的數據使用一個在線的、安全的存儲系統保存,從而達到更快的數據/業務恢復。
等級4 按時間點的備份(Tier 4 – Point-in-time copies)該等級則要求基于在線的存儲系統,實現按時間的數據備份規劃。雖然,這種模式下,還是可能會有數小時數據丟失,但是,可以通過增加時間點的密度來減少數據丟失。
等級5 數據保護達到事務粒度(Tier 5 – Transaction integrity)對于數據一致性非常高的系統,則需要達到這個等級,這種方案已經很接近于零數據丟失了,但,依舊需要依賴于上層的應用系統做一定的處理的。
等級6 零數據或極少量數據丟失(Tier 6 – Zero or little data loss)這個等級下,無需依賴任何的上層業務系統,就可以達到零數據丟失或者極其少量的數據丟失。
等級7 與業務集成的、高度自動化方案(Highly automated, business-integrated solution)在方案6的基礎上,進一步實現了與業務系統的集成,可以實現自動化的災難恢復,相比手動的恢復,可以實現更低的RTO。
綜述 “7 tiers of disaster recovery”在實際的場景中,我們看看有哪些對應的情況吧:
一般的個人搭建的實驗性站點,通常屬于等級0,沒有考慮任何的災難恢復方案;
如果使用的云服務,那么通過云盤的快照等功能,通過手動快照,則可以實現“等級3”;
對于使用云數據庫服務RDS的業務,通常RDS可以提供事務粒度的數據保護,也就是“等級5”;
對于更加核心的業務系統,例如與金融相關的業務數據,通常需要實現零數據保護方案,例如通過數據庫日志鏡像技術、Paxos或及其變種的跨數據中心的數據保護方案,例如OceaseBase、PolarDB-X、TDSQL、TiDB等都使用Paxos(或其變種)來使用更加通用的硬件來實現數據保護。這類系統其數據保護通常都可以達到“等級6”。
而早期淘寶內部實現的異地多活,則可以認為是一套保護級別達到“等級7”的系統工程。不僅僅要求數據庫,而是要求業務系統、中間件、網絡/服務器等基礎設施都協同起來實現完整的,基于業務的多活系統。
數據庫作為企業數據最重要的持久層,通常,這份數據是最準確、最實時的數據,當其他系統出現數據不一致的時候,都需要依賴數據庫中的數據。如果這份數據出現故障,則可能意味著企業的數據資產受損。
因此,數據庫的備份也異常重要,而,相比其他數據的備份,數據庫的備份也是更加復雜的。這也是為什么企業通常都需要專業的數據庫管理人員的原因之一。
具體的,數據庫種類繁多,版本也很多,而不同的數據庫備份方案可能是完全不同的。例如,MySQL可能是使用外部工具備份、SQL Server則是使用內部命令等。對于增量備份,不同的數據庫,差異則更大,有的需要通過歸檔日志實現、有的則可以通過實時的增量日志實現。另外,數據庫備份時,除了備份數據文件之外,通常還需要備份配置文件、增量日志、數據庫版本、甚至可能還需要保持部分的系統目錄和文件,否則,則可能會出現恢復失敗。數據庫通常數據量非常大,備份時間很長,網絡穩定性、磁盤故障率、OS穩定性等都可能會影響數據庫備份效率與有效性。
而這些因素,都增加了數據庫備份與恢復的復雜度。
數據庫備份方案數據庫的備份方案有很多種。如果使用的是云數據庫RDS,那么,云廠商都會提供默認的數據庫備份,不過作為企業依舊需要關注,這個備份的具體情況:例如是否是一個實時備份方案(RPO是否為分鐘級),備份數據保存時間,備份數據恢復限制等。
如果使用的是自建數據庫,無論是IDC自建還是EC2/ECS自建,則都需要企業中的專業人員(通常為DBA)來構建專門的數據庫備份與恢復方案。根據業務系統的屬性不同,可能選擇使用不同的方案,例如如果業務連續和數據一致性要求并不高,則可以考慮使用EC2/ECS的快照備份,對于更多場景,則需要使用數據庫自身的備份工具,構建一個更加實時的備份方案(通常RPO要求接近于分鐘)。另外,通常還需要進行定期的恢復演練,避免在一些“角落”出現故障,導致看似正常運轉的備份,其實是無效的。
總得來說,數據庫備份與恢復是復雜的,需要專業的人員(通常是DBA)持續的維護與建設,并定期的進行演練以保障其確實有效。否則,就可能出現,靠天吃飯,人在家中坐,鍋從天上來的情況。
關于本文作者orczhouorczhou是來自NineData的工程師。NineData向企業、開發者提供高效、安全的數據庫SQL開發、數據庫備份、數據復制/遷移/集成、數據對比等功能,是一個SaaS服務開箱即用,可以快速提升企業SQL開發效率,保障企業數據安全。
你是否還在尋找穩定的海外服務器提供商?創新互聯www.cdcxhl.cn海外機房具備T級流量清洗系統配攻擊溯源,準確流量調度確保服務器高可用性,企業級服務器適合批量采購,新人活動首月15元起,快前往官網查看詳情吧
文章題目:數據庫故障致美國超一萬航班取消或延遲-創新互聯
標題網址:http://www.yijiale78.com/article18/ceisdp.html
成都網站建設公司_創新互聯,為您提供手機網站建設、服務器托管、網站營銷、電子商務、外貿建站、ChatGPT
聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯