數據庫故障致美國超一萬航班取消或延遲-創新互聯

在2023年新年的第二周，美國東部時間1月11日上午，6點29分，美國航空監管機構（FAA）發布了一條僅40字的通告，隨后不久，很快就宣布停飛全美所有國內航班。通告內容是，FAA正在對NOTAM（Notice to Air Missions）系統進行驗證和恢復，在第一條通知之后的50分鐘，FAA就宣布停飛所有國內航班。

成都創新互聯服務項目包括化德網站建設、化德網站制作、化德網頁制作以及化德網絡營銷策劃等。多年來，我們專注于互聯網行業，利用自身積累的技術優勢、行業經驗、深度合作伙伴關系等，向廣大中小型企業、政府機構等提供互聯網行業的解決方案，化德網站推廣取得了明顯的社會效益與經濟效益。目前，我們服務的客戶以成都為中心已經輻射到化德省份的部分城市，未來相信會繼續擴大服務區域并繼續獲得客戶的支持與信任！

這應該是自2001年911襲擊以來首次出現如此大規模的禁飛。

在兩個小時之后，也就是8點50分，FAA宣布NOTAM系統已經恢復，并徹底取消了之前的“禁飛令”。

FAA在當天的晚上18點31分，宣布這次系統宕機是由數據庫文件受損導致的，并還將持續跟進并改進。

什么是NOTAM

NOTAM是“Notice to Air Missions”的縮寫，該系統是用于向飛行員和其機組人員提供實時的潛在風行信息，包括了關閉的跑道、設備狀態以及起降過程中相關航班信息等，是一個機場正常運行依賴的一個基礎服務。

這次正是NOTAM地城的數據庫系統出現了故障。

更進一步的原因：難道運維又要背鍋了？

據一位ABC news（美國廣播公司旗下的新聞事業部）的人員透露，根據內部的復盤信息，可能是由于在一次計劃維護操作過程中，一位工程師進行了一次文件（數據庫文件？）替換操作，之后就出現了故障，最終導致整個美國國內航空癱瘓。

所以，難道運維人員又要被背鍋了？不過，目前為止，FAA僅表示該次事件應該與網絡攻擊沒有關系，暫時還沒有透露任何更加詳細的信息。

堪稱典范的故障過程通知

相比互聯網行業，航空業務是更加關鍵的。互聯網很多系統出現故障，雖然影響面很大，但大多數都是在經濟層面（雖然這個數額可能很大），而很多基礎設施行業，如航空，其系統如果故障則可能導致性命攸關的災難，這次FAA的處理與通知過程，是很多行業學習的典范。

對于FAA，這應該是一次p0級別的故障了，我們來看FAA主要的故障通知時間線吧：

6點29分（美東時間）發布第一條通告：說正在恢復NOAMS(Notice to Air Missions System)系統，當前正在進行最后的驗證和重啟。

6點57分：還在進行NOAMS系統的恢復，部分功能已經恢復（參考）

7點19分：恢復還在進行中；現在已經命令在9點前暫停所有的國內航班（參考）

8點13分：所有空中的航班都可以安全降落。NOAMS告知飛行員相關信息包括關閉的跑道、設備狀態以及相關航班信息等。

8點15分：在NOAMS的這次突然宕機之后，恢復取得了進展。目前，部分機場已經可以正常起飛。其他機場也預計在9點都能夠恢復起飛

8點50分：“禁飛令”全面取消，航班逐步恢復

18點31分：我們還在持續跟蹤根因。目前，這次系統宕機與一個受損的數據庫文件有關

企業信息管理的重大隱患：備份恢復與容災

經驗豐富的技術人員一定都明白，系統一定會出故障，數據庫也一定會出問題的，只是何時的問題。背后的原因有很多，例如，系統老舊年久失修，以致于當前的技術人員只能去修修補補，而且無法了解系統全貌，那么就會在某個角落踩到某個“坑”。也有可能是，人為失誤、硬件故障、軟件故障，還有可能是一些不可抗力。而一個大故障，還有可能是多個潛在問題，組合而成。總得來說，是防不勝防。

那么，構建合適的備份與容災方案，已經成為當代系統可用性建設的重要組成部分。在軟件設計過程中，以及實施和運維中，都需要考慮。但是，備份與容災的投入有如下特點：

這是一個“成本”，無法給業務帶來直接收益，所以重視程度通常是不夠的

企業通常是有相關的方案的，但是因為系統的持續演進以及缺乏實際有效的演練，導致看似有方案，實則是無效的，所以，有時候真的是在靠天吃飯

備份與容災的規劃，通常對技術和架構能力有非常高的要求，才能夠根據合適的業務場景規劃合適的方案，小的廠商或者某些以非技術業務為核心的大型企業（例如保險、航空、金融等），通常難以持續保障穩定的團隊進行持續的規劃

業務連續性的等級劃分

在很多的行業標準中都有對容災規范的描述，例如ISO 22300、ISO 27001:2022、國內等級保護（等保）等。由IBM的SHARE用戶組在1992年提出的“7 tiers of disaster recovery”，依舊是一個非常簡潔、直白的劃分。并在2012年，該等級劃分新增到了八個等級：

等級0 沒有災難恢復方案（Tier 0 – No off-site data）

這種情況下，系統是沒有任何災難恢復方案的，沒有備份，沒有文檔，沒有高可用計劃。通常這種情況下，在發生故障時，系統的恢復時間（RTO）是完全不可預計的，事實上，很有可能系統就恢復不了。

等級1 有冷數據備份方案（Tier 1 – Data backup with no Hot Site）

這種情況下，系統有一份安全的、離線備份數據（通常是磁帶）。根據備份的間隔，系統需要接受故障時一定程度的數據丟失，RPO可能是數小時或數天。根據數據量大小，存儲設備的效率等，數據的恢復時間（RTO）則可能達數小時或數天。

等級2 由冷備數據且保障恢復資源（Tier 2 – Data backup with Hot Site）

在前面方案的基礎上，還會時刻保障充足的資源和基礎設施來進行災難恢復，這時候，通常RTO是可以預期的。

等級3 在線數據備份（Tier 3 – Electronic vaulting）

在前面方案的基礎上，對于業務中的關鍵系統的數據使用一個在線的、安全的存儲系統保存，從而達到更快的數據/業務恢復。

等級4 按時間點的備份（Tier 4 – Point-in-time copies）

該等級則要求基于在線的存儲系統，實現按時間的數據備份規劃。雖然，這種模式下，還是可能會有數小時數據丟失，但是，可以通過增加時間點的密度來減少數據丟失。

等級5 數據保護達到事務粒度（Tier 5 – Transaction integrity）

對于數據一致性非常高的系統，則需要達到這個等級，這種方案已經很接近于零數據丟失了，但，依舊需要依賴于上層的應用系統做一定的處理的。

等級6 零數據或極少量數據丟失（Tier 6 – Zero or little data loss）

這個等級下，無需依賴任何的上層業務系統，就可以達到零數據丟失或者極其少量的數據丟失。

等級7 與業務集成的、高度自動化方案（Highly automated, business-integrated solution）

在方案6的基礎上，進一步實現了與業務系統的集成，可以實現自動化的災難恢復，相比手動的恢復，可以實現更低的RTO。

綜述 “7 tiers of disaster recovery”

在實際的場景中，我們看看有哪些對應的情況吧：

一般的個人搭建的實驗性站點，通常屬于等級0，沒有考慮任何的災難恢復方案；

如果使用的云服務，那么通過云盤的快照等功能，通過手動快照，則可以實現“等級3”；

對于使用云數據庫服務RDS的業務，通常RDS可以提供事務粒度的數據保護，也就是“等級5”；

對于更加核心的業務系統，例如與金融相關的業務數據，通常需要實現零數據保護方案，例如通過數據庫日志鏡像技術、Paxos或及其變種的跨數據中心的數據保護方案，例如OceaseBase、PolarDB-X、TDSQL、TiDB等都使用Paxos（或其變種）來使用更加通用的硬件來實現數據保護。這類系統其數據保護通常都可以達到“等級6”。

而早期淘寶內部實現的異地多活，則可以認為是一套保護級別達到“等級7”的系統工程。不僅僅要求數據庫，而是要求業務系統、中間件、網絡/服務器等基礎設施都協同起來實現完整的，基于業務的多活系統。

數據庫備份的挑戰

數據庫作為企業數據最重要的持久層，通常，這份數據是最準確、最實時的數據，當其他系統出現數據不一致的時候，都需要依賴數據庫中的數據。如果這份數據出現故障，則可能意味著企業的數據資產受損。

因此，數據庫的備份也異常重要，而，相比其他數據的備份，數據庫的備份也是更加復雜的。這也是為什么企業通常都需要專業的數據庫管理人員的原因之一。

具體的，數據庫種類繁多，版本也很多，而不同的數據庫備份方案可能是完全不同的。例如，MySQL可能是使用外部工具備份、SQL Server則是使用內部命令等。對于增量備份，不同的數據庫，差異則更大，有的需要通過歸檔日志實現、有的則可以通過實時的增量日志實現。另外，數據庫備份時，除了備份數據文件之外，通常還需要備份配置文件、增量日志、數據庫版本、甚至可能還需要保持部分的系統目錄和文件，否則，則可能會出現恢復失敗。數據庫通常數據量非常大，備份時間很長，網絡穩定性、磁盤故障率、OS穩定性等都可能會影響數據庫備份效率與有效性。

而這些因素，都增加了數據庫備份與恢復的復雜度。

數據庫備份方案

數據庫的備份方案有很多種。如果使用的是云數據庫RDS，那么，云廠商都會提供默認的數據庫備份，不過作為企業依舊需要關注，這個備份的具體情況：例如是否是一個實時備份方案（RPO是否為分鐘級），備份數據保存時間，備份數據恢復限制等。

如果使用的是自建數據庫，無論是IDC自建還是EC2/ECS自建，則都需要企業中的專業人員（通常為DBA）來構建專門的數據庫備份與恢復方案。根據業務系統的屬性不同，可能選擇使用不同的方案，例如如果業務連續和數據一致性要求并不高，則可以考慮使用EC2/ECS的快照備份，對于更多場景，則需要使用數據庫自身的備份工具，構建一個更加實時的備份方案（通常RPO要求接近于分鐘）。另外，通常還需要進行定期的恢復演練，避免在一些“角落”出現故障，導致看似正常運轉的備份，其實是無效的。

總得來說，數據庫備份與恢復是復雜的，需要專業的人員（通常是DBA）持續的維護與建設，并定期的進行演練以保障其確實有效。否則，就可能出現，靠天吃飯，人在家中坐，鍋從天上來的情況。

關于本文作者orczhou

orczhou是來自NineData的工程師。NineData向企業、開發者提供高效、安全的數據庫SQL開發、數據庫備份、數據復制/遷移/集成、數據對比等功能，是一個SaaS服務開箱即用，可以快速提升企業SQL開發效率，保障企業數據安全。

你是否還在尋找穩定的海外服務器提供商？創新互聯www.cdcxhl.cn海外機房具備T級流量清洗系統配攻擊溯源，準確流量調度確保服務器高可用性，企業級服務器適合批量采購，新人活動首月15元起，快前往官網查看詳情吧

文章題目：數據庫故障致美國超一萬航班取消或延遲-創新互聯
標題網址：http://www.yijiale78.com/article18/ceisdp.html

成都網站建設公司_創新互聯，為您提供手機網站建設、服務器托管、網站營銷、電子商務、外貿建站、ChatGPT

聲明：本網站發布的內容（圖片、視頻和文字）以用戶投稿、用戶轉載內容為主，如果涉及侵權請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網站立場，如需處理請聯系客服。電話：028-86922220；郵箱：631063699@qq.com。內容未經允許不得轉載，或轉載時需注明來源：創新互聯

猜你還喜歡下面的內容

99偷拍视频精品区一区二,口述久久久久久久久久久久,国产精品夫妇激情啪发布,成人永久免费网站在线观看,国产精品高清免费在线,青青草在线观看视频观看,久久久久久国产一区,天天婷婷久久18禁,日韩动漫av在线播放直播

數據庫故障致美國超一萬航班取消或延遲-創新互聯