nosql存文件,noSQL數據庫

nosql數據庫的四種類型

一般將NoSQL數據庫分為四大類：鍵值(Key-Value)存儲數據庫、列存儲數據庫、文檔型數據庫和圖形(Graph)數據庫。它們的數據模型、優缺點、典型應用場景。

富蘊網站建設公司創新互聯公司,富蘊網站設計制作，有大型網站制作公司豐富經驗。已為富蘊上千多家提供企業網站建設服務。企業網站搭建\成都外貿網站建設公司要多少錢，請找那個售后服務好的富蘊做網站的公司定做！

鍵值(Key-Value)存儲數據庫Key指向Value的鍵值對，通常用hash表來實現查找速度快數據無結構化(通常只被當作字符串或者二進制數據)內容緩存，主要用于處理大量數據的高訪問負載，也用于一些日志系統等。

列存儲數據庫，以列簇式存儲，將同一列數據存在一起查找速度快，可擴展性強，更容易進行分布式擴展功能相對局限分布式的文件系統。

文檔型數據庫，Key-Value對應的鍵值對，Value為結構化數據，數據結構要求不嚴格，表結構可變(不需要像關系型數據庫一樣需預先定義表結構)，查詢性能不高，而且缺乏統一的查詢語法，Web應用。

圖形(Graph)數據庫，圖結構，利用圖結構相關算法(如最短路徑尋址，N度關系查找等)，很多時候需要對整個圖做計算才能得出需要的信息，而且這種結構不太好做分布式的集群方案，社交網絡，推薦系統等。

互聯網如何海量存儲數據？

目前存儲海量數據的技術主要包括NoSQL、分布式文件系統、和傳統關系型數據庫。隨著互聯網行業不斷的發展，產生的數據量越來越多，并且這些數據的特點是半結構化和非結構化，數據很可能是不精確的，易變的。這樣傳統關系型數據庫就無法發揮它的優勢。因此，目前互聯網行業偏向于使用NoSQL和分布式文件系統來存儲海量數據。

下面介紹下常用的NoSQL和分布式文件系統。

NoSQL

互聯網行業常用的NoSQL有：HBase、MongoDB、Couchbase、LevelDB。

HBase是Apache Hadoop的子項目,理論依據為Google論文 Bigtable: A Distributed Storage System for Structured Data開發的。HBase適合存儲半結構化或非結構化的數據。HBase的數據模型是稀疏的、分布式的、持久穩固的多維map。HBase也有行和列的概念，這是與RDBMS相同的地方，但卻又不同。HBase底層采用HDFS作為文件系統，具有高可靠性、高性能。

MongoDB是一種支持高性能數據存儲的開源文檔型數據庫。支持嵌入式數據模型以減少對數據庫系統的I/O、利用索引實現快速查詢，并且嵌入式文檔和集合也支持索引，它復制能力被稱作復制集（replica set），提供了自動的故障遷移和數據冗余。MongoDB的分片策略將數據分布在服務器集群上。

Couchbase這種NoSQL有三個重要的組件：Couchbase服務器、Couchbase Gateway、Couchbase Lite。Couchbase服務器，支持橫向擴展，面向文檔的數據庫，支持鍵值操作，類似于SQL查詢和內置的全文搜索;Couchbase Gateway提供了用于RESTful和流式訪問數據的應用層API。Couchbase Lite是一款面向移動設備和“邊緣”系統的嵌入式數據庫。Couchbase支持千萬級海量數據存儲

分布式文件系統

如果針對單個大文件，譬如超過100MB的文件，使用NoSQL存儲就不適當了。使用分布式文件系統的優勢在于，分布式文件系統隔離底層數據存儲和分布的細節，展示給用戶的是一個統一的邏輯視圖。常用的分布式文件系統有Google File System、HDFS、MooseFS、Ceph、GlusterFS、Lustre等。

相比過去打電話、發短信、用彩鈴的“老三樣”，移動互聯網的發展使得人們可以隨時隨地通過刷微博、看視頻、微信聊天、瀏覽網頁、地圖導航、網上購物、外賣訂餐等，這些業務的海量數據都構建在大規模網絡云資源池之上。當14億中國人把衣食住行搬上移動互聯網的同時，也給網絡云資源池帶來巨大業務挑戰。

首先，用戶需求動態變化，傳統業務流量主要是端到端模式，較為穩定；而互聯網流量易受熱點內容牽引，數據流量流向復雜和規模多變：比如雙十一購物狂潮，電商平臺訂單創建峰值達到58.3萬筆，要求通信網絡提供高并發支持；又如優酷春節期間有超過23億人次上網刷劇、抖音拜年短視頻增長超10倍，需要通信網絡能夠靈活擴充帶寬。面對用戶動態多變的需求，通信網絡需要具備快速洞察和響應用戶需求的能力，提供高效、彈性、智能的數據服務。

“隨著通信網絡管道十倍百倍加粗、節點數從千萬級逐漸躍升至百億千億級，如何‘接得住、存得下’海量數據，成為網絡云資源池建設面臨的巨大考驗”，李輝表示。一直以來，作為新數據存儲首倡者和引領者，浪潮存儲攜手通信行業用戶，不斷探索提速通信網絡云基礎設施的各種姿勢。

早在2018年，浪潮存儲就參與了通信行業基礎設施建設，四年內累計交付約5000套存儲產品，涵蓋全閃存儲、高端存儲、分布式存儲等明星產品。其中在網絡云建設中，浪潮存儲已連續兩年兩次中標全球最大的NFV網絡云項目，其中在網絡云二期建設中，浪潮存儲提供數千節點，為上層網元、應用提供高效數據服務。在最新的NFV三期項目中，浪潮存儲也已中標。

能夠與通信用戶在網絡云建設中多次握手，背后是浪潮存儲的持續技術投入與創新。浪潮存儲6年內投入超30億研發經費，開發了業界首個“多合一”極簡架構的浪潮并行融合存儲系統。此存儲系統能夠統籌管理數千個節點，實現性能、容量線性擴展；同時基于浪潮iTurbo智能加速引擎的智能IO均衡、智能資源調度、智能元數據管理等功能，與自研NVMe SSD閃存盤進行系統級別聯調優化，讓百萬級IO均衡落盤且路徑更短，將存儲系統性能發揮到極致。

“為了確保全球最大規模的網絡云正常上線運行，我們聯合用戶對存儲集群展開了長達數月的魔鬼測試”，浪潮存儲工程師表示。網絡云的IO以虛擬機數據和上層應用數據為主，浪潮按照每個存儲集群支持15000臺虛機進行配置，分別對單卷隨機讀寫、順序寫、混合讀寫以及全系統隨機讀寫的IO、帶寬、時延等指標進行了360無死角測試，達到了通信用戶提出的單卷、系統性能不低于4萬和12萬IOPS、時延小于3ms的要求，產品成熟度得到了驗證。

以通信行業為例，2020年全國移動互聯網接入流量1656億GB，相當于中國14億人每人消耗118GB數據；其中春節期間，移動互聯網更是創下7天消耗36億GB數據流量的記錄，還“捎帶”打了548億分鐘電話、發送212億條短信……海量實時數據洪流，在網絡云資源池(NFV)支撐下收放自如，其中分布式存儲平臺發揮了作用。如此樣板工程，其巨大示范及拉動作用不言而喻。

nosql數據庫庫和sql數據庫的區別

一、概念

SQL?(Structured?Query?Language)?數據庫，指關系型數據庫。主要代表：SQL?Server，Oracle，MySQL(開源)，PostgreSQL(開源)。

NoSQL（Not?Only?SQL）泛指非關系型數據庫。主要代表：MongoDB，Redis，CouchDB。

二、區別

1、存儲方式

SQL數據存在特定結構的表中；而NoSQL則更加靈活和可擴展，存儲方式可以省是JSON文檔、哈希表或者其他方式。SQL通常以數據庫表形式存儲數據。舉個栗子，存個學生借書數據：

而NoSQL存儲方式比較靈活，比如使用類JSON文件存儲上表中熊大的借閱數據：

2、表/數據集合的數據的關系

在SQL中，必須定義好表和字段結構后才能添加數據，例如定義表的主鍵(primary?key)，索引(index),觸發器(trigger),存儲過程(stored?procedure)等。表結構可以在被定義之后更新，但是如果有比較大的結構變更的話就會變得比較復雜。在NoSQL中，數據可以在任何時候任何地方添加，不需要先定義表。例如下面這段代碼會自動創建一個新的"借閱表"數據集合：

NoSQL也可以在數據集中建立索引。以MongoDB為例，會自動在數據集合創建后創建唯一值_id字段，這樣的話就可以在數據集創建后增加索引。

從這點來看，NoSQL可能更加適合初始化數據還不明確或者未定的項目中。

3、外部數據存儲

SQL中如何需要增加外部關聯數據的話，規范化做法是在原表中增加一個外鍵，關聯外部數據表。例如需要在借閱表中增加審核人信息，先建立一個審核人表：

再在原來的借閱人表中增加審核人外鍵：

這樣如果我們需要更新審核人個人信息的時候只需要更新審核人表而不需要對借閱人表做更新。而在NoSQL中除了這種規范化的外部數據表做法以外，我們還能用如下的非規范化方式把外部數據直接放到原數據集中，以提高查詢效率。缺點也比較明顯，更新審核人數據的時候將會比較麻煩。

4、SQL中的JOIN查詢

SQL中可以使用JOIN表鏈接方式將多個關系數據表中的數據用一條簡單的查詢語句查詢出來。NoSQL暫未提供類似JOIN的查詢方式對多個數據集中的數據做查詢。所以大部分NoSQL使用非規范化的數據存儲方式存儲數據。

5、數據耦合性

SQL中不允許刪除已經被使用的外部數據，例如審核人表中的"熊三"已經被分配給了借閱人熊大，那么在審核人表中將不允許刪除熊三這條數據，以保證數據完整性。而NoSQL中則沒有這種強耦合的概念，可以隨時刪除任何數據。

6、事務

SQL中如果多張表數據需要同批次被更新，即如果其中一張表更新失敗的話其他表也不能更新成功。這種場景可以通過事務來控制，可以在所有命令完成后再統一提交事務。而NoSQL中沒有事務這個概念，每一個數據集的操作都是原子級的。

7、增刪改查語法

8、查詢性能

在相同水平的系統設計的前提下，因為NoSQL中省略了JOIN查詢的消耗，故理論上性能上是優于SQL的。

什么是NoSQL數據庫

什么是NoSQL數據庫？從名稱“非SQL”或“非關系型”衍生而來，這些數據庫不使用類似SQL的查詢語言，通常稱為結構化存儲。這些數據庫自1960年就已經存在，但是直到現在一些大公司（例如Google和Facebook）開始使用它們時，這些數據庫才流行起來。該數據庫最明顯的優勢是擺脫了一組固定的列、連接和類似SQL的查詢語言的限制。有時，NoSQL這個名稱也可能表示“不僅僅SQL”，來確保它們可能支持SQL。 NoSQL數據庫使用諸如鍵值、寬列、圖形或文檔之類的數據結構，并且可以如JSON之類的不同格式存儲。

NoSQL-HDFS-基本概念

Hadoop

文件系統：文件系統是用來存儲和管理文件，并且提供文件的查詢、增加、刪除等操作。

直觀上的體驗：在shell窗口輸入 ls 命令，就可以看到當前目錄下的文件夾、文件。

文件存儲在哪里？硬盤

一臺只有250G硬盤的電腦，如果需要存儲500G的文件可以怎么辦？先將電腦硬盤擴容至少250G，再將文件分割成多塊，放到多塊硬盤上儲存。

通過 hdfs dfs -ls 命令可以查看分布式文件系統中的文件，就像本地的ls命令一樣。

HDFS在客戶端上提供了查詢、新增和刪除的指令，可以實現將分布在多臺機器上的文件系統進行統一的管理。

在分布式文件系統中，一個大文件會被切分成塊，分別存儲到幾臺機器上。結合上文中提到的那個存儲500G大文件的那個例子，這500G的文件會按照一定的大小被切分成若干塊，然后分別存儲在若干臺機器上，然后提供統一的操作接口。

看到這里，不少人可能會覺得，分布式文件系統不過如此，很簡單嘛。事實真的是這樣的么？

潛在問題

假如我有一個1000臺機器組成的分布式系統，一臺機器每天出現故障的概率是0.1%，那么整個系統每天出現故障的概率是多大呢？答案是(1-0.1%)^1000=63%，因此需要提供一個容錯機制來保證發生差錯時文件依然可以讀出，這里暫時先不展開介紹。

如果要存儲PB級或者EB級的數據，成千上萬臺機器組成的集群是很常見的，所以說分布式系統比單機系統要復雜得多呀。

這是一張HDFS的架構簡圖：

client通過nameNode了解數據在哪些DataNode上，從而發起查詢。此外，不僅是查詢文件，寫入文件的時候也是先去請教NameNode，看看應該往哪個DateNode中去寫。

為了某一份數據只寫入到一個Datanode中，而這個Datanode因為某些原因出錯無法讀取的問題，需要通過冗余備份的方式來進行容錯處理。因此，HDFS在寫入一個數據塊的時候，不會僅僅寫入一個DataNode，而是會寫入到多個DataNode中，這樣，如果其中一個DataNode壞了，還可以從其余的DataNode中拿到數據，保證了數據不丟失。

實際上，每個數據塊在HDFS上都會保存多份，保存在不同的DataNode上。這種是犧牲一定存儲空間換取可靠性的做法。

接下來我們來看一下完整的文件寫入的流程：

大文件要寫入HDFS，client端根據配置將大文件分成固定大小的塊，然后再上傳到HDFS。

讀取文件的流程：

1、client詢問NameNode，我要讀取某個路徑下的文件，麻煩告訴我這個文件都在哪些DataNode上？

2、NameNode回復client，這個路徑下的文件被切成了3塊，分別在DataNode1、DataNode3和DataNode4上

3、client去找DataNode1、DataNode3和DataNode4，拿到3個文件塊，通過stream讀取并且整合起來

文件寫入的流程：

1、client先將文件分塊，然后詢問NameNode，我要寫入一個文件到某個路徑下，文件有3塊，應該怎么寫？

2、NameNode回復client，可以分別寫到DataNode1、DataNode2、DataNode3、DataNode4上，記住，每個塊重復寫3份，總共是9份

3、client找到DataNode1、DataNode2、DataNode3、DataNode4，把數據寫到他們上面

出于容錯的考慮，每個數據塊有3個備份，但是3個備份快都直接由client端直接寫入勢必會帶來client端過重的寫入壓力，這個點是否有更好的解決方案呢？回憶一下mysql主備之間是通過binlog文件進行同步的，HDFS當然也可以借鑒這個思想，數據其實只需要寫入到一個datanode上，然后由datanode之間相互進行備份同步，減少了client端的寫入壓力，那么至于是一個datanode寫入成功即成功，還是需要所有的參與備份的datanode返回寫入成功才算成功，是可靠性配置的策略，當然這個設置會影響到數據寫入的吞吐率，我們可以看到可靠性和效率永遠是“魚和熊掌不可兼得”的。

潛在問題

NameNode確實會回放editlog，但是不是每次都從頭回放，它會先加載一個fsimage，這個文件是之前某一個時刻整個NameNode的文件元數據的內存快照，然后再在這個基礎上回放editlog，完成后，會清空editlog，再把當前文件元數據的內存狀態寫入fsimage，方便下一次加載。

這樣，全量回放就變成了增量回放，但是如果NameNode長時間未重啟過，editlog依然會比較大，恢復的時間依然比較長，這個問題怎么解呢？

SecondNameNode是一個NameNode內的定時任務線程，它會定期地將editlog寫入fsimage，然后情況原來的editlog，從而保證editlog的文件大小維持在一定大小。

NameNode掛了， SecondNameNode并不能替代NameNode，所以如果集群中只有一個NameNode，它掛了，整個系統就掛了。hadoop2.x之前，整個集群只能有一個NameNode，是有可能發生單點故障的，所以hadoop1.x有本身的不穩定性。但是hadoop2.x之后，我們可以在集群中配置多個NameNode，就不會有這個問題了，但是配置多個NameNode，需要注意的地方就更多了，系統就更加復雜了。

俗話說“一山不容二虎”，兩個NameNode只能有一個是活躍狀態active，另一個是備份狀態standby，我們看一下兩個NameNode的架構圖。

兩個NameNode通過JournalNode實現同步editlog，保持狀態一致可以相互替換。

因為active的NameNode掛了之后，standby的NameNode要馬上接替它，所以它們的數據要時刻保持一致，在寫入數據的時候，兩個NameNode內存中都要記錄數據的元信息，并保持一致。這個JournalNode就是用來在兩個NameNode中同步數據的，并且standby NameNode實現了SecondNameNode的功能。

進行數據同步操作的過程如下：

active NameNode有操作之后，它的editlog會被記錄到JournalNode中，standby NameNode會從JournalNode中讀取到變化并進行同步，同時standby NameNode會監聽記錄的變化。這樣做的話就是實時同步了，并且standby NameNode就實現了SecondNameNode的功能。

優點：

缺點：

什么是NoSQL數據庫？

NoSQL，是not only sql，是非關系數據庫，不同于oracle等關系數據庫。hadoop,是分布式解決方案，即為Mapreduce（計算的）和HDFS（文件系統）,使用Hadoop和NoSQL可以構造海量數據解決方案。

分享名稱：nosql存文件,noSQL數據庫
URL網址：http://www.yijiale78.com/article10/hcsedo.html

成都網站建設公司_創新互聯，為您提供網站營銷、微信小程序、響應式網站、ChatGPT、營銷型網站建設、企業建站

聲明：本網站發布的內容（圖片、視頻和文字）以用戶投稿、用戶轉載內容為主，如果涉及侵權請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網站立場，如需處理請聯系客服。電話：028-86922220；郵箱：631063699@qq.com。內容未經允許不得轉載，或轉載時需注明來源：創新互聯

猜你還喜歡下面的內容