nosql訪問存儲引擎,nosql的存儲模式

NoSQL應用

而傳統的關系數據庫在應付web2.0網站，特別是超大規模和高并發的SNS類型的web2.0純動態網站已經顯得力不從心，暴露了很多難以克服的問題，例如：

岳塘網站建設公司創新互聯建站,岳塘網站設計制作，有大型網站制作公司豐富經驗。已為岳塘近1000家提供企業網站建設服務。企業網站搭建\外貿網站制作要多少錢，請找那個售后服務好的岳塘做網站的公司定做！

1、High performance - 對數據庫高并發讀寫的需求

web2.0網站要根據用戶個性化信息來實時生成動態頁面和提供動態信息，所以基本上無法使用動態頁面靜態化技術，因此數據庫并發負載非常高，往往要達到每秒上萬次讀寫請求。關系數據庫應付上萬次SQL查詢還勉強頂得住，但是應付上萬次SQL寫數據請求，硬盤IO就已經無法承受了。其實對于普通的BBS網站，往往也存在對高并發寫請求的需求。

2、Huge Storage - 對海量數據的高效率存儲和訪問的需求

對于大型的SNS網站，每天用戶產生海量的用戶動態，以國外的Friendfeed為例，一個月就達到了2.5億條用戶動態，對于關系數據庫來說，在一張2.5億條記錄的表里面進行SQL查詢，效率是極其低下乃至不可忍受的。再例如大型web網站的用戶登錄系統，例如騰訊，盛大，動輒數以億計的帳號，關系數據庫也很難應付。

3、High Scalability High Availability- 對數據庫的高可擴展性和高可用性的需求

在基于web的架構當中，數據庫是最難進行橫向擴展的，當一個應用系統的用戶量和訪問量與日俱增的時候，你的數據庫卻沒有辦法像web server和app server那樣簡單的通過添加更多的硬件和服務節點來擴展性能和負載能力。對于很多需要提供24小時不間斷服務的網站來說，對數據庫系統進行升級和擴展是非常痛苦的事情，往往需要停機維護和數據遷移，為什么數據庫不能通過不斷的添加服務器節點來實現擴展呢？

在上面提到的“三高”需求面前，關系數據庫遇到了難以克服的障礙，而對于web2.0網站來說，關系數據庫的很多主要特性卻往往無用武之地，例如：

1、數據庫事務一致性需求

很多web實時系統并不要求嚴格的數據庫事務，對讀一致性的要求很低，有些場合對寫一致性要求也不高。因此數據庫事務管理成了數據庫高負載下一個沉重的負擔。

2、數據庫的寫實時性和讀實時性需求

對關系數據庫來說，插入一條數據之后立刻查詢，是肯定可以讀出來這條數據的，但是對于很多web應用來說，并不要求這么高的實時性。

3、對復雜的SQL查詢，特別是多表關聯查詢的需求

任何大數據量的web系統，都非常忌諱多個大表的關聯查詢，以及復雜的數據分析類型的復雜SQL報表查詢，特別是SNS類型的網站，從需求以及產品設計角度，就避免了這種情況的產生。往往更多的只是單表的主鍵查詢，以及單表的簡單條件分頁查詢，SQL的功能被極大的弱化了。

因此，關系數據庫在這些越來越多的應用場景下顯得不那么合適了，為了解決這類問題的非關系數據庫應運而生。

NoSQL 是非關系型數據存儲的廣義定義。它打破了長久以來關系型數據庫與ACID理論大一統的局面。NoSQL 數據存儲不需要固定的表結構，通常也不存在連接操作。在大數據存取上具備關系型數據庫無法比擬的性能優勢。該術語在 2009 年初得到了廣泛認同。

當今的應用體系結構需要數據存儲在橫向伸縮性上能夠滿足需求。而 NoSQL 存儲就是為了實現這個需求。Google 的BigTable與Amazon的Dynamo是非常成功的商業 NoSQL 實現。一些開源的 NoSQL 體系，如Facebook 的Cassandra， Apache 的HBase，也得到了廣泛認同。

目前哪些NoSQL數據庫應用廣泛，各有什么特點

特點：

它們可以處理超大量的數據。

它們運行在便宜的PC服務器集群上。

PC集群擴充起來非常方便并且成本很低，避免了“sharding”操作的復雜性和成本。

它們擊碎了性能瓶頸。

NoSQL的支持者稱，通過NoSQL架構可以省去將Web或Java應用和數據轉換成SQL友好格式的時間，執行速度變得更快。

“SQL并非適用于所有的程序代碼，” 對于那些繁重的重復操作的數據，SQL值得花錢。但是當數據庫結構非常簡單時，SQL可能沒有太大用處。

沒有過多的操作。

雖然NoSQL的支持者也承認關系數據庫提供了無可比擬的功能集合，而且在數據完整性上也發揮絕對穩定，他們同時也表示，企業的具體需求可能沒有那么多。

Bootstrap支持

因為NoSQL項目都是開源的，因此它們缺乏供應商提供的正式支持。這一點它們與大多數開源項目一樣，不得不從社區中尋求支持。

優點：

易擴展

NoSQL數據庫種類繁多，但是一個共同的特點都是去掉關系數據庫的關系型特性。數據之間無關系，這樣就非常容易擴展。也無形之間，在架構的層面上帶來了可擴展的能力。

大數據量，高性能

NoSQL數據庫都具有非常高的讀寫性能，尤其在大數據量下，同樣表現優秀。這得益于它的無關系性，數據庫的結構簡單。一般MySQL使用 Query Cache，每次表的更新Cache就失效，是一種大粒度的Cache，在針對web2.0的交互頻繁的應用，Cache性能不高。而NoSQL的 Cache是記錄級的，是一種細粒度的Cache，所以NoSQL在這個層面上來說就要性能高很多了。

靈活的數據模型

NoSQL無需事先為要存儲的數據建立字段，隨時可以存儲自定義的數據格式。而在關系數據庫里，增刪字段是一件非常麻煩的事情。如果是非常大數據量的表，增加字段簡直就是一個噩夢。這點在大數據量的web2.0時代尤其明顯。

高可用

NoSQL在不太影響性能的情況，就可以方便的實現高可用的架構。比如Cassandra，HBase模型，通過復制模型也能實現高可用。

主要應用：

Apache HBase

這個大數據管理平臺建立在谷歌強大的BigTable管理引擎基礎上。作為具有開源、Java編碼、分布式多個優勢的數據庫，Hbase最初被設計應用于Hadoop平臺，而這一強大的數據管理工具，也被Facebook采用，用于管理消息平臺的龐大數據。

Apache Storm

用于處理高速、大型數據流的分布式實時計算系統。Storm為Apache Hadoop添加了可靠的實時數據處理功能，同時還增加了低延遲的儀表板、安全警報，改進了原有的操作方式，幫助企業更有效率地捕獲商業機會、發展新業務。

Apache Spark

該技術采用內存計算，從多迭代批量處理出發，允許將數據載入內存做反復查詢，此外還融合數據倉庫、流處理和圖計算等多種計算范式，Spark用Scala語言實現，構建在HDFS上，能與Hadoop很好的結合，而且運行速度比MapReduce快100倍。

Apache Hadoop

該技術迅速成為了大數據管理標準之一。當它被用來管理大型數據集時，對于復雜的分布式應用，Hadoop體現出了非常好的性能，平臺的靈活性使它可以運行在商用硬件系統，它還可以輕松地集成結構化、半結構化和甚至非結構化數據集。

Apache Drill

你有多大的數據集？其實無論你有多大的數據集，Drill都能輕松應對。通過支持HBase、Cassandra和MongoDB，Drill建立了交互式分析平臺，允許大規模數據吞吐，而且能很快得出結果。

Apache Sqoop

也許你的數據現在還被鎖定于舊系統中，Sqoop可以幫你解決這個問題。這一平臺采用并發連接，可以將數據從關系數據庫系統方便地轉移到Hadoop中，可以自定義數據類型以及元數據傳播的映射。事實上，你還可以將數據（如新的數據）導入到HDFS、Hive和Hbase中。

Apache Giraph

這是功能強大的圖形處理平臺，具有很好可擴展性和可用性。該技術已經被Facebook采用，Giraph可以運行在Hadoop環境中，可以將它直接部署到現有的Hadoop系統中。通過這種方式，你可以得到強大的分布式作圖能力，同時還能利用上現有的大數據處理引擎。

Cloudera Impala

Impala模型也可以部署在你現有的Hadoop群集上，監視所有的查詢。該技術和MapReduce一樣，具有強大的批處理能力，而且Impala對于實時的SQL查詢也有很好的效果，通過高效的SQL查詢，你可以很快的了解到大數據平臺上的數據。

Gephi

它可以用來對信息進行關聯和量化處理，通過為數據創建功能強大的可視化效果，你可以從數據中得到不一樣的洞察力。Gephi已經支持多個圖表類型，而且可以在具有上百萬個節點的大型網絡上運行。Gephi具有活躍的用戶社區，Gephi還提供了大量的插件，可以和現有系統完美的集成到一起，它還可以對復雜的IT連接、分布式系統中各個節點、數據流等信息進行可視化分析。

MongoDB

這個堅實的平臺一直被很多組織推崇，它在大數據管理上有極好的性能。MongoDB最初是由DoubleClick公司的員工創建，現在該技術已經被廣泛的應用于大數據管理。MongoDB是一個應用開源技術開發的NoSQL數據庫，可以用于在JSON這樣的平臺上存儲和處理數據。目前，紐約時報、Craigslist以及眾多企業都采用了MongoDB，幫助他們管理大型數據集。（Couchbase服務器也作為一個參考）。

十大頂尖公司：

Amazon Web Services

Forrester將AWS稱為“云霸主”，談到云計算領域的大數據，那就不得不提到亞馬遜。該公司的Hadoop產品被稱為EMR（Elastic Map Reduce），AWS解釋這款產品采用了Hadoop技術來提供大數據管理服務，但它不是純開源Hadoop，經過修改后現在被專門用在AWS云上。

Forrester稱EMR有很好的市場前景。很多公司基于EMR為客戶提供服務，有一些公司將EMR應用于數據查詢、建模、集成和管理。而且AWS還在創新，Forrester稱未來EMR可以基于工作量的需要自動縮放調整大小。亞馬遜計劃為其產品和服務提供更強大的EMR支持，包括它的RedShift數據倉庫、新公布的Kenesis實時處理引擎以及計劃中的NoSQL數據庫和商業智能工具。不過AWS還沒有自己的Hadoop發行版。

Cloudera

Cloudera有開源Hadoop的發行版，這個發行版采用了Apache Hadoop開源項目的很多技術，不過基于這些技術的發行版也有很大的進步。Cloudera為它的Hadoop發行版開發了很多功能，包括Cloudera管理器，用于管理和監控，以及名為Impala的SQL引擎等。Cloudera的Hadoop發行版基于開源Hadoop，但也不是純開源的產品。當Cloudera的客戶需要Hadoop不具備的某些功能時，Cloudera的工程師們就會實現這些功能，或者找一個擁有這項技術的合作伙伴。Forrester表示：“Cloudera的創新方法忠于核心Hadoop，但因為其可實現快速創新并積極滿足客戶需求，這一點使它不同于其他那些供應商。”目前，Cloudera的平臺已經擁有200多個付費客戶，一些客戶在Cloudera的技術支持下已經可以跨1000多個節點實現對PB級數據的有效管理。

Hortonworks

和Cloudera一樣，Hortonworks是一個純粹的Hadoop技術公司。與Cloudera不同的是，Hortonworks堅信開源Hadoop比任何其他供應商的Hadoop發行版都要強大。Hortonworks的目標是建立Hadoop生態圈和Hadoop用戶社區，推進開源項目的發展。Hortonworks平臺和開源Hadoop聯系緊密，公司管理人員表示這會給用戶帶來好處，因為它可以防止被供應商套牢（如果Hortonworks的客戶想要離開這個平臺，他們可以輕松轉向其他開源平臺）。這并不是說Hortonworks完全依賴開源Hadoop技術，而是因為該公司將其所有開發的成果回報給了開源社區，比如Ambari，這個工具就是由Hortonworks開發而成，用來填充集群管理項目漏洞。Hortonworks的方案已經得到了Teradata、Microsoft、Red Hat和SAP這些供應商的支持。

IBM

當企業考慮一些大的IT項目時，很多人首先會想到IBM。IBM是Hadoop項目的主要參與者之一，Forrester稱IBM已有100多個Hadoop部署，它的很多客戶都有PB級的數據。IBM在網格計算、全球數據中心和企業大數據項目實施等眾多領域有著豐富的經驗。“IBM計劃繼續整合SPSS分析、高性能計算、BI工具、數據管理和建模、應對高性能計算的工作負載管理等眾多技術。”

Intel

和AWS類似，英特爾不斷改進和優化Hadoop使其運行在自己的硬件上，具體來說，就是讓Hadoop運行在其至強芯片上，幫助用戶打破Hadoop系統的一些限制，使軟件和硬件結合的更好，英特爾的Hadoop發行版在上述方面做得比較好。Forrester指出英特爾在最近才推出這個產品，所以公司在未來還有很多改進的可能，英特爾和微軟都被認為是Hadoop市場上的潛力股。

MapR Technologies

MapR的Hadoop發行版目前為止也許是最好的了，不過很多人可能都沒有聽說過。Forrester對Hadoop用戶的調查顯示，MapR的評級最高，其發行版在架構和數據處理能力上都獲得了最高分。MapR已將一套特殊功能融入其Hadoop發行版中。例如網絡文件系統（NFS）、災難恢復以及高可用性功能。Forrester說MapR在Hadoop市場上沒有Cloudera和Hortonworks那樣的知名度，MapR要成為一個真正的大企業，還需要加強伙伴關系和市場營銷。

Microsoft

微軟在開源軟件問題上一直很低調，但在大數據形勢下，它不得不考慮讓Windows也兼容Hadoop，它還積極投入到開源項目中，以更廣泛地推動Hadoop生態圈的發展。我們可以在微軟的公共云Windows Azure HDInsight產品中看到其成果。微軟的Hadoop服務基于Hortonworks的發行版，而且是為Azure量身定制的。

微軟也有一些其他的項目，包括名為Polybase的項目，讓Hadoop查詢實現了SQLServer查詢的一些功能。Forrester說：“微軟在數據庫、數據倉庫、云、OLAP、BI、電子表格（包括PowerPivot）、協作和開發工具市場上有很大優勢，而且微軟擁有龐大的用戶群，但要在Hadoop這個領域成為行業領導者還有很遠的路要走。”

Pivotal Software

EMC和Vmware部分大數據業務分拆組合產生了Pivotal。Pivotal一直努力構建一個性能優越的Hadoop發行版，為此，Pivotal在開源Hadoop的基礎上又添加了一些新的工具，包括一個名為HAWQ的SQL引擎以及一個專門解決大數據問題的Hadoop應用。Forrester稱Pivotal Hadoop平臺的優勢在于它整合了Pivotal、EMC、Vmware的眾多技術，Pivotal的真正優勢實際上等于EMC和Vmware兩大公司為其撐腰。到目前為止，Pivotal的用戶還不到100個，而且大多是中小型客戶。

Teradata

對于Teradata來說，Hadoop既是一種威脅也是一種機遇。數據管理，特別是關于SQL和關系數據庫這一領域是Teradata的專長。所以像Hadoop這樣的NoSQL平臺崛起可能會威脅到Teradata。相反，Teradata接受了Hadoop，通過與Hortonworks合作，Teradata在Hadoop平臺集成了SQL技術，這使Teradata的客戶可以在Hadoop平臺上方便地使用存儲在Teradata數據倉庫中的數據。

AMPLab

通過將數據轉變為信息，我們才可以理解世界，而這也正是AMPLab所做的。AMPLab致力于機器學習、數據挖掘、數據庫、信息檢索、自然語言處理和語音識別等多個領域，努力改進對信息包括不透明數據集內信息的甄別技術。除了Spark，開源分布式SQL查詢引擎Shark也源于AMPLab，Shark具有極高的查詢效率，具有良好的兼容性和可擴展性。近幾年的發展使計算機科學進入到全新的時代，而AMPLab為我們設想一個運用大數據、云計算、通信等各種資源和技術靈活解決難題的方案，以應對越來越復雜的各種難題。

一、NoSQL數據庫簡介

Web1.0的時代，數據訪問量很有限，用一夫當關的高性能的單點服務器可以解決大部分問題。

隨著Web2.0的時代的到來，用戶訪問量大幅度提升，同時產生了大量的用戶數據。加上后來的智能移動設備的普及，所有的互聯網平臺都面臨了巨大的性能挑戰。

NoSQL(NoSQL = Not Only SQL )，意即“不僅僅是SQL”，泛指非關系型的數據庫。

NoSQL 不依賴業務邏輯方式存儲，而以簡單的key-value模式存儲。因此大大的增加了數據庫的擴展能力。

Memcache Memcache Redis Redis MongoDB MongoDB 列式數據庫列式數據庫 Hbase Hbase

HBase是Hadoop項目中的數據庫。它用于需要對大量的數據進行隨機、實時的讀寫操作的場景中。

HBase的目標就是處理數據量非常龐大的表，可以用普通的計算機處理超過10億行數據，還可處理有數百萬列元素的數據表。

Cassandra Cassandra

Apache Cassandra是一款免費的開源NoSQL數據庫，其設計目的在于管理由大量商用服務器構建起來的龐大集群上的海量數據集(數據量通常達到PB級別)。在眾多顯著特性當中，Cassandra最為卓越的長處是對寫入及讀取操作進行規模調整，而且其不強調主集群的設計思路能夠以相對直觀的方式簡化各集群的創建與擴展流程。

主要應用：社會關系，公共交通網絡，地圖及網絡拓譜(n*(n-1)/2)

newsql和nosql的區別和聯系

在大數據時代，“多種架構支持多類應用”成為數據庫行業應對大數據的基本思路，數據庫行業出現互為補充的三大陣營，適用于事務處理應用的OldSQL、適用于數據分析應用的NewSQL和適用于互聯網應用的NoSQL。但在一些復雜的應用場景中，單一數據庫架構都不能完全滿足應用場景對海量結構化和非結構化數據的存儲管理、復雜分析、關聯查詢、實時性處理和控制建設成本等多方面的需要，因此不同架構數據庫混合部署應用成為滿足復雜應用的必然選擇。不同架構數據庫混合使用的模式可以概括為：OldSQL+NewSQL、OldSQL+NoSQL、NewSQL+NoSQL三種主要模式。下面通過三個案例對不同架構數據庫的混合應用部署進行介紹。

OldSQL+NewSQL 在數據中心類應用中混合部署

采用OldSQL+NewSQL模式構建數據中心，在充分發揮OldSQL數據庫的事務處理能力的同時，借助NewSQL在實時性、復雜分析、即席查詢等方面的獨特優勢，以及面對海量數據時較強的擴展能力，滿足數據中心對當前“熱”數據事務型處理和海量歷史“冷”數據分析兩方面的需求。OldSQL+NewSQL模式在數據中心類應用中的互補作用體現在，OldSQL彌補了NewSQL不適合事務處理的不足，NewSQL彌補了OldSQL在海量數據存儲能力和處理性能方面的缺陷。

商業銀行數據中心采用OldSQL+NewSQL混合部署方式搭建，OldSQL數據庫滿足各業務系統數據的歸檔備份和事務型應用，NewSQL MPP數據庫集群對即席查詢、多維分析等應用提供高性能支持，并且通過MPP集群架構實現應對海量數據存儲的擴展能力。

商業銀行數據中心存儲架構

與傳統的OldSQL模式相比，商業銀行數據中心采用OldSQL+NewSQL混合搭建模式，數據加載性能提升3倍以上，即席查詢和統計分析性能提升6倍以上。NewSQL MPP的高可擴展性能夠應對新的業務需求，可隨著數據量的增長采用集群方式構建存儲容量更大的數據中心。

OldSQL+NoSQL 在互聯網大數據應用中混合部署

在互聯網大數據應用中采用OldSQL+NoSQL混合模式，能夠很好的解決互聯網大數據應用對海量結構化和非結構化數據進行存儲和快速處理的需求。在諸如大型電子商務平臺、大型SNS平臺等互聯網大數據應用場景中，OldSQL在應用中負責高價值密度結構化數據的存儲和事務型處理，NoSQL在應用中負責存儲和處理海量非結構化的數據和低價值密度結構化數據。OldSQL+NoSQL模式在互聯網大數據應用中的互補作用體現在，OldSQL彌補了NoSQL在ACID特性和復雜關聯運算方面的不足，NoSQL彌補了OldSQL在海量數據存儲和非結構化數據處理方面的缺陷。

數據魔方是淘寶網的一款數據產品，主要提供行業數據分析、店鋪數據分析。淘寶數據產品在存儲層采用OldSQL+NoSQL混合模式，由基于MySQL的分布式關系型數據庫集群MyFOX和基于HBase的NoSQL存儲集群Prom組成。由于OldSQL強大的語義和關系表達能力，在應用中仍然占據著重要地位，目前存儲在MyFOX中的統計結果數據已經達到10TB，占據著數據魔方總數據量的95%以上。另一方面，NoSQL作為SQL的有益補充，解決了OldSQL數據庫無法解決的全屬性選擇器等問題。

淘寶海量數據產品技術架構

基于OldSQL+NoSQL混合架構的特點，數據魔方目前已經能夠提供壓縮前80TB的數據存儲空間，支持每天4000萬的查詢請求，平均響應時間在28毫秒，足以滿足未來一段時間內的業務增長需求。

NewSQL+NoSQL 在行業大數據應用中混合部署

行業大數據與互聯網大數據的區別在于行業大數據的價值密度更高，并且對結構化數據的實時處理、復雜的多表關聯分析、即席查詢、數據強一致性等都比互聯網大數據有更高的要求。行業大數據應用場景主要是分析類應用，如：電信、金融、政務、能源等行業的決策輔助、預測預警、統計分析、經營分析等。

在行業大數據應用中采用NewSQL+NoSQL混合模式，充分利用NewSQL在結構化數據分析處理方面的優勢，以及NoSQL在非結構數據處理方面的優勢，實現NewSQL與NoSQL的功能互補，解決行業大數據應用對高價值結構化數據的實時處理、復雜的多表關聯分析、即席查詢、數據強一致性等要求，以及對海量非結構化數據存儲和精確查詢的要求。在應用中，NewSQL承擔高價值密度結構化數據的存儲和分析處理工作，NoSQL承擔存儲和處理海量非結構化數據和不需要關聯分析、Ad-hoc查詢較少的低價值密度結構化數據的工作。

當前電信運營商在集中化BI系統建設過程中面臨著數據規模大、數據處理類型多等問題，并且需要應對大量的固定應用，以及占統計總數80%以上的突發性臨時統計(ad-hoc)需求。在集中化BI系統的建設中采用NewSQL+NoSQL混搭的模式，充分利用NewSQL在復雜分析、即席查詢等方面處理性能的優勢，及NoSQL在非結構化數據處理和海量數據存儲方面的優勢，實現高效低成本。

集中化BI系統數據存儲架構

集中化BI系統按照數據類型和處理方式的不同，將結構化數據和非結構化數據分別存儲在不同的系統中：非結構化數據在Hadoop平臺上存儲與處理;結構化、不需要關聯分析、Ad-hoc查詢較少的數據保存在NoSQL數據庫或Hadoop平臺;結構化、需要關聯分析或經常ad-hoc查詢的數據，保存在NewSQL MPP數據庫中，短期高價值數據放在高性能平臺，中長期放在低成本產品中。

結語

當前信息化應用的多樣性、復雜性，以及三種數據庫架構各自所具有的優勢和局限性，造成任何一種架構的數據庫都不能完全滿足應用需求，因此不同架構數據庫混合使用，從而彌補其他架構的不足成為必然選擇。根據應用場景采用不同架構數據庫進行組合搭配，充分發揮每種架構數據庫的特點和優勢，并且與其他架構數據庫形成互補，完全涵蓋應用需求，保證數據資源的最優化利用，將成為未來一段時期內信息化應用主要采用的解決方式。

目前在國內市場上，OldSQL主要為Oracle、IBM等國外數據庫廠商所壟斷，達夢、金倉等國產廠商仍處于追趕狀態;南大通用憑借國產新型數據庫GBase 8a異軍突起，與EMC的Greenplum和HP的Vertica躋身NewSQL市場三強;NoSQL方面用戶則大多采用Hadoop開源方案。

什么是NoSQL數據庫？

2. 什么是NoSQL？

2.1 NoSQL 概述

NoSQL(NoSQL = Not Only SQL )，意即“不僅僅是SQL”，

泛指非關系型的數據庫。隨著互聯網web2.0網站的興起，傳統的關系數據庫在應付web2.0網站，特別是超大規模和高并發的SNS類型的web2.0純動態網站已經顯得力不從心，暴露了很多難以克服的問題，而非關系型的數據庫則由于其本身的特點得到了非常迅速的發展。NoSQL數據庫的產生就是為了解決大規模數據集合多重數據種類帶來的挑戰，尤其是大數據應用難題，包括超大規模數據的存儲。

（例如谷歌或Facebook每天為他們的用戶收集萬億比特的數據）。這些類型的數據存儲不需要固定的模式，無需多余操作就可以橫向擴展。

2.2 NoSQL代表

MongDB、 Redis、Memcache

3. 關系型數據庫與NoSQL的區別？

3.1 RDBMS

高度組織化結構化數據

結構化查詢語言（SQL）

數據和關系都存儲在單獨的表中。

數據操縱語言，數據定義語言

嚴格的一致性

基礎事務

ACID

關系型數據庫遵循ACID規則

事務在英文中是transaction，和現實世界中的交易很類似，它有如下四個特性：

A (Atomicity) 原子性

原子性很容易理解，也就是說事務里的所有操作要么全部做完，要么都不做，事務成功的條件是事務里的所有操作都成功，只要有一個操作失敗，整個事務就失敗，需要回滾。比如銀行轉賬，從A賬戶轉100元至B賬戶，分為兩個步驟：1）從A賬戶取100元；2）存入100元至B賬戶。這兩步要么一起完成，要么一起不完成，如果只完成第一步，第二步失敗，錢會莫名其妙少了100元。

C (Consistency) 一致性

一致性也比較容易理解，也就是說數據庫要一直處于一致的狀態，事務的運行不會改變數據庫原本的一致性約束。

I (Isolation) 獨立性

所謂的獨立性是指并發的事務之間不會互相影響，如果一個事務要訪問的數據正在被另外一個事務修改，只要另外一個事務未提交，它所訪問的數據就不受未提交事務的影響。比如現有有個交易是從A賬戶轉100元至B賬戶，在這個交易還未完成的情況下，如果此時B查詢自己的賬戶，是看不到新增加的100元的

D (Durability) 持久性

持久性是指一旦事務提交后，它所做的修改將會永久的保存在數據庫上，即使出現宕機也不會丟失。

3.2 NoSQL

代表著不僅僅是SQL

沒有聲明性查詢語言

沒有預定義的模式

鍵 - 值對存儲，列存儲，文檔存儲，圖形數據庫

最終一致性，而非ACID屬性

非結構化和不可預知的數據

CAP定理

高性能，高可用性和可伸縮性

分布式數據庫中的CAP原理(了解)

CAP定理：

Consistency(一致性), 數據一致更新，所有數據變動都是同步的

Availability(可用性), 好的響應性能

Partition tolerance(分區容錯性) 可靠性

P: 系統中任意信息的丟失或失敗不會影響系統的繼續運作。

定理：任何分布式系統只可同時滿足二點，沒法三者兼顧。

CAP理論的核心是：一個分布式系統不可能同時很好的滿足一致性，可用性和分區容錯性這三個需求，

因此，根據 CAP 原理將 NoSQL 數據庫分成了滿足 CA 原則、滿足 CP 原則和滿足 AP 原則三大類：

CA - 單點集群，滿足一致性，可用性的系統，通常在可擴展性上不太強大。

CP - 滿足一致性，分區容忍性的系統，通常性能不是特別高。

AP - 滿足可用性，分區容忍性的系統，通常可能對一致性要求低一些。

CAP理論就是說在分布式存儲系統中，最多只能實現上面的兩點。

而由于當前的網絡硬件肯定會出現延遲丟包等問題，所以分區容忍性是我們必須需要實現的。

所以我們只能在一致性和可用性之間進行權衡，沒有NoSQL系統能同時保證這三點。

說明：C：強一致性 A：高可用性 P：分布式容忍性

舉例：

CA：傳統Oracle數據庫

AP：大多數網站架構的選擇

CP：Redis、Mongodb

注意：分布式架構的時候必須做出取舍。

一致性和可用性之間取一個平衡。多余大多數web應用，其實并不需要強一致性。

因此犧牲C換取P，這是目前分布式數據庫產品的方向。

4. 當下NoSQL的經典應用

當下的應用是 SQL 與 NoSQL 一起使用的。

代表項目：阿里巴巴商品信息的存放。

去 IOE 化。

ps：I 是指 IBM 的小型機，很貴的，好像好幾萬一臺；O 是指 Oracle 數據庫，也很貴的，好幾萬呢；M 是指 EMC 的存儲設備，也很貴的。

難點：

數據類型多樣性。

數據源多樣性和變化重構。

數據源改造而服務平臺不需要大面積重構。

為什么要使用NoSQL？NOSQL的優勢

這次的NoSQL專欄系列將先整體介紹NoSQL，然后介紹如何把NoSQL運用到自己的項目中合適的場景中，還會適當地分析一些成功案例，希望有成功使用NoSQL經驗的朋友給我提供一些線索和信息。

NoSQL概念隨著web2.0的快速發展，非關系型、分布式數據存儲得到了快速的發展，它們不保證關系數據的ACID特性。NoSQL概念在2009年被提了出來。NoSQL最常見的解釋是“non-relational”，“Not Only SQL”也被很多人接受。（“NoSQL”一詞最早于1998年被用于一個輕量級的關系數據庫的名字。）

NoSQL被我們用得最多的當數key-value存儲，當然還有其他的文檔型的、列存儲、圖型數據庫、xml數據庫等。在NoSQL概念提出之前，這些數據庫就被用于各種系統當中，但是卻很少用于web互聯網應用。比如cdb、qdbm、bdb數據庫。

傳統關系數據庫的瓶頸

傳統的關系數據庫具有不錯的性能，高穩定型，久經歷史考驗，而且使用簡單，功能強大，同時也積累了大量的成功案例。在互聯網領域，MySQL成為了絕對靠前的王者，毫不夸張的說，MySQL為互聯網的發展做出了卓越的貢獻。

在90年代，一個網站的訪問量一般都不大，用單個數據庫完全可以輕松應付。在那個時候，更多的都是靜態網頁，動態交互類型的網站不多。

到了最近10年，網站開始快速發展。火爆的論壇、博客、sns、微博逐漸引領web領域的潮流。在初期，論壇的流量其實也不大，如果你接觸網絡比較早，你可能還記得那個時候還有文本型存儲的論壇程序，可以想象一般的論壇的流量有多大。

Memcached+MySQL

后來，隨著訪問量的上升，幾乎大部分使用MySQL架構的網站在數據庫上都開始出現了性能問題，web程序不再僅僅專注在功能上，同時也在追求性能。程序員們開始大量的使用緩存技術來緩解數據庫的壓力，優化數據庫的結構和索引。開始比較流行的是通過文件緩存來緩解數據庫壓力，但是當訪問量繼續增大的時候，多臺web機器通過文件緩存不能共享，大量的小文件緩存也帶了了比較高的IO壓力。在這個時候，Memcached就自然的成為一個非常時尚的技術產品。

Memcached作為一個獨立的分布式的緩存服務器，為多個web服務器提供了一個共享的高性能緩存服務，在Memcached服務器上，又發展了根據hash算法來進行多臺Memcached緩存服務的擴展，然后又出現了一致性hash來解決增加或減少緩存服務器導致重新hash帶來的大量緩存失效的弊端。當時，如果你去面試，你說你有Memcached經驗，肯定會加分的。

Mysql主從讀寫分離

由于數據庫的寫入壓力增加，Memcached只能緩解數據庫的讀取壓力。讀寫集中在一個數據庫上讓數據庫不堪重負，大部分網站開始使用主從復制技術來達到讀寫分離，以提高讀寫性能和讀庫的可擴展性。Mysql的master-slave模式成為這個時候的網站標配了。

分表分庫隨著web2.0的繼續高速發展，在Memcached的高速緩存，MySQL的主從復制，讀寫分離的基礎之上，這時MySQL主庫的寫壓力開始出現瓶頸，而數據量的持續猛增，由于MyISAM使用表鎖，在高并發下會出現嚴重的鎖問題，大量的高并發MySQL應用開始使用InnoDB引擎代替MyISAM。同時，開始流行使用分表分庫來緩解寫壓力和數據增長的擴展問題。這個時候，分表分庫成了一個熱門技術，是面試的熱門問題也是業界討論的熱門技術問題。也就在這個時候，MySQL推出了還不太穩定的表分區，這也給技術實力一般的公司帶來了希望。雖然MySQL推出了MySQL Cluster集群，但是由于在互聯網幾乎沒有成功案例，性能也不能滿足互聯網的要求，只是在高可靠性上提供了非常大的保證。

MySQL的擴展性瓶頸

在互聯網，大部分的MySQL都應該是IO密集型的，事實上，如果你的MySQL是個CPU密集型的話，那么很可能你的MySQL設計得有性能問題，需要優化了。大數據量高并發環境下的MySQL應用開發越來越復雜，也越來越具有技術挑戰性。分表分庫的規則把握都是需要經驗的。雖然有像淘寶這樣技術實力強大的公司開發了透明的中間件層來屏蔽開發者的復雜性，但是避免不了整個架構的復雜性。分庫分表的子庫到一定階段又面臨擴展問題。還有就是需求的變更，可能又需要一種新的分庫方式。

MySQL數據庫也經常存儲一些大文本字段，導致數據庫表非常的大，在做數據庫恢復的時候就導致非常的慢，不容易快速恢復數據庫。比如1000萬4KB大小的文本就接近40GB的大小，如果能把這些數據從MySQL省去，MySQL將變得非常的小。

關系數據庫很強大，但是它并不能很好的應付所有的應用場景。MySQL的擴展性差（需要復雜的技術來實現），大數據下IO壓力大，表結構更改困難，正是當前使用MySQL的開發人員面臨的問題。

NOSQL的優勢易擴展NoSQL數據庫種類繁多，但是一個共同的特點都是去掉關系數據庫的關系型特性。數據之間無關系，這樣就非常容易擴展。也無形之間，在架構的層面上帶來了可擴展的能力。

大數據量，高性能

NoSQL數據庫都具有非常高的讀寫性能，尤其在大數據量下，同樣表現優秀。這得益于它的無關系性，數據庫的結構簡單。一般MySQL使用Query Cache，每次表的更新Cache就失效，是一種大粒度的Cache，在針對web2.0的交互頻繁的應用，Cache性能不高。而NoSQL的Cache是記錄級的，是一種細粒度的Cache，所以NoSQL在這個層面上來說就要性能高很多了。

靈活的數據模型

高可用NoSQL在不太影響性能的情況，就可以方便的實現高可用的架構。比如Cassandra，HBase模型，通過復制模型也能實現高可用。

總結NoSQL數據庫的出現，彌補了關系數據（比如MySQL）在某些方面的不足，在某些方面能極大的節省開發成本和維護成本。

MySQL和NoSQL都有各自的特點和使用的應用場景，兩者的緊密結合將會給web2.0的數據庫發展帶來新的思路。

標題名稱：nosql訪問存儲引擎,nosql的存儲模式
分享URL：http://www.yijiale78.com/article44/hcseee.html

成都網站建設公司_創新互聯，為您提供網站建設、品牌網站建設、企業建站、ChatGPT、關鍵詞優化、外貿網站建設

聲明：本網站發布的內容（圖片、視頻和文字）以用戶投稿、用戶轉載內容為主，如果涉及侵權請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網站立場，如需處理請聯系客服。電話：028-86922220；郵箱：631063699@qq.com。內容未經允許不得轉載，或轉載時需注明來源：創新互聯

猜你還喜歡下面的內容