在大數(shù)據(jù)的學(xué)習(xí)過程中,我們經(jīng)常會(huì)聽到“分布式”這三個(gè)字,那個(gè)所謂的“分布式”到底是什么意思?我們看到一些古裝電視劇電影,在古代,生產(chǎn)力比較低下,沒有現(xiàn)在的各種便捷的交通工具。人們需要運(yùn)輸一些貨物的時(shí)候,最常見的方式就是套馬車,用馬來拉動(dòng)車。如果需要拉的貨物比較多,一匹馬拉不動(dòng)呢?人們的做法并不是訓(xùn)練一匹更加強(qiáng)壯的馬,而是會(huì)使用多匹馬同時(shí)來拉動(dòng)這輛馬車。這就是分布式的思想!
創(chuàng)新互聯(lián)建站服務(wù)項(xiàng)目包括竹溪網(wǎng)站建設(shè)、竹溪網(wǎng)站制作、竹溪網(wǎng)頁制作以及竹溪網(wǎng)絡(luò)營銷策劃等。多年來,我們專注于互聯(lián)網(wǎng)行業(yè),利用自身積累的技術(shù)優(yōu)勢(shì)、行業(yè)經(jīng)驗(yàn)、深度合作伙伴關(guān)系等,向廣大中小型企業(yè)、政府機(jī)構(gòu)等提供互聯(lián)網(wǎng)行業(yè)的解決方案,竹溪網(wǎng)站推廣取得了明顯的社會(huì)效益與經(jīng)濟(jì)效益。目前,我們服務(wù)的客戶以成都為中心已經(jīng)輻射到竹溪省份的部分城市,未來相信會(huì)繼續(xù)擴(kuò)大服務(wù)區(qū)域并繼續(xù)獲得客戶的支持與信任!那么在程序世界中,單臺(tái)服務(wù)器的能力是有限的,雖然我們可以堆配置來構(gòu)建一臺(tái)性能非常強(qiáng)悍的服務(wù)器,但是上限還是容易達(dá)到的,且成本會(huì)非常的高。為了解決這樣的問題,我們就可以使用多臺(tái)服務(wù)器協(xié)同工作,共同來完成指定的任務(wù),組成一個(gè)服務(wù)器集群,而這樣的集群我們通常也就稱為--分布式集群。
分布式集群可以提供數(shù)據(jù)的存儲(chǔ)、計(jì)算等操作。今天我們就來聊一聊分布式存儲(chǔ),也就是一個(gè)分布式文件系統(tǒng)。其實(shí)在HDFS之前,也有一些其他的分布式文件系統(tǒng),籠統(tǒng)的來說,只要是實(shí)現(xiàn)了將數(shù)據(jù)分散的存儲(chǔ)在多個(gè)節(jié)點(diǎn)上進(jìn)行存儲(chǔ),并且可以實(shí)現(xiàn)數(shù)據(jù)的讀取就可以稱為是“分布式文件系統(tǒng)”。
傳統(tǒng)的分布式文件系統(tǒng)的缺點(diǎn)現(xiàn)在想象一下這種情況:有四個(gè)文件 0.5TB的file1,1.2TB的file2,50GB的file3,100GB的file4;有7個(gè)服務(wù)器,每個(gè)服務(wù)器上有10個(gè)1TB的硬盤。

在存儲(chǔ)方式上,我們可以將這四個(gè)文件存儲(chǔ)在同一個(gè)服務(wù)器上(當(dāng)然大于1TB的文件需要切分),我們需要使用一個(gè)文件來記錄這種存儲(chǔ)的映射關(guān)系吧。用戶是可以通過這種映射關(guān)系來找到節(jié)點(diǎn)硬盤相應(yīng)的文件的。那么缺點(diǎn)也就暴露了出來:
第一、負(fù)載不均衡。
因?yàn)槲募笮〔灰恢拢瑒?shì)必會(huì)導(dǎo)致有的節(jié)點(diǎn)磁盤的利用率高,有的節(jié)點(diǎn)磁盤利用率低。
第二、網(wǎng)絡(luò)瓶頸問題。
一個(gè)過大的文件存儲(chǔ)在一個(gè)節(jié)點(diǎn)磁盤上,當(dāng)有并行處理時(shí),每個(gè)線程都需要從這個(gè)節(jié)點(diǎn)磁盤上讀取這個(gè)文件的內(nèi)容,那么就會(huì)出現(xiàn)網(wǎng)絡(luò)瓶頸,不利于分布式的數(shù)據(jù)處理。
HDFS的塊結(jié)構(gòu)HDFS與其他普通文件系統(tǒng)一樣,同樣引入了塊(Block)的概念,并且塊的大小是固定的。但是不像普通文件系統(tǒng)那樣小,而是根據(jù)實(shí)際需求可以自定義的。塊是HDFS系統(tǒng)當(dāng)中的最小存儲(chǔ)單位,在hadoop2.0中默認(rèn)大小為128MB(hadoop1.x中的塊大小為64M)。在HDFS上的文件會(huì)被拆分成多個(gè)塊,每個(gè)塊作為獨(dú)立的單元進(jìn)行存儲(chǔ)。多個(gè)塊存放在不同的DataNode上,整個(gè)過程中 HDFS系統(tǒng)會(huì)保證一個(gè)塊存儲(chǔ)在一個(gè)數(shù)據(jù)節(jié)點(diǎn)上 。但值得注意的是,如果某文件大小或者文件的最后一個(gè)塊沒有到達(dá)128M,則不會(huì)占據(jù)整個(gè)塊空間 。

在hdfs-site.xml中我們配置過下面這個(gè)屬性,這個(gè)屬性的值就是塊在linux系統(tǒng)上的存儲(chǔ)位置
dfs.datanode.data.dir file://${hadoop.tmp.dir}/dfs/data

1. 高容錯(cuò)性(硬件故障是常態(tài)):數(shù)據(jù)自動(dòng)保存多個(gè)副本,副本丟失后,會(huì)自動(dòng)恢復(fù)
2. 適合大數(shù)據(jù)集:GB、TB、甚至PB級(jí)數(shù)據(jù)、千萬規(guī)模以上的文件數(shù)量,1000以上節(jié)點(diǎn)規(guī)模。
3. 數(shù)據(jù)訪問: 一次性寫入,多次讀取;保證數(shù)據(jù)一致性,安全性
4. 構(gòu)建成本低:可以構(gòu)建在廉價(jià)機(jī)器上。
5. 多種軟硬件平臺(tái)中的可移植性
6. 高效性:Hadoop能夠在節(jié)點(diǎn)之間動(dòng)態(tài)地移動(dòng)數(shù)據(jù),并保證各個(gè)節(jié)點(diǎn)的動(dòng)態(tài)平衡,因此處理速度非常快。
7. 高可靠性:Hadoop的存儲(chǔ)和處理數(shù)據(jù)的能力值得人們信賴.
HDFS的缺點(diǎn)1. 不適合做低延遲數(shù)據(jù)訪問:
HDFS的設(shè)計(jì)目標(biāo)有一點(diǎn)是:處理大型數(shù)據(jù)集,高吞吐率。這一點(diǎn)勢(shì)必要以高延遲為代價(jià)的。因此HDFS不適合處理用戶要求的毫秒級(jí)的低延遲應(yīng)用請(qǐng)求
2. 不適合小文件存取:
1. 從存儲(chǔ)能力出發(fā)(固定內(nèi)存)
因?yàn)镠DFS的文件是以塊為單位存儲(chǔ)的,且如果文件大小不到128M的時(shí)候,是不會(huì)占用整個(gè)塊的空間的。但是,這個(gè)塊依然會(huì)在內(nèi)存中占用150個(gè)字節(jié)的元數(shù)據(jù)。因此,同樣的內(nèi)存占用的情況下,大量的小文件會(huì)導(dǎo)致集群的存儲(chǔ)能力不足。
例如: 同樣是128G的內(nèi)存,最多可存儲(chǔ)9.2億個(gè)塊。如果都是小文件,例如1M,則集群存儲(chǔ)的數(shù)據(jù)大小為9.2億*1M = 877TB的數(shù)據(jù)。但是如果存儲(chǔ)的都是128M的文件,則集群存儲(chǔ)的數(shù)據(jù)大小為109.6PB的數(shù)據(jù)。存儲(chǔ)能力大不相同。
2. 從內(nèi)存占用出發(fā)(固定存儲(chǔ)能力)
同樣假設(shè)存儲(chǔ)1M和128M的文件對(duì)比,同樣存儲(chǔ)1PB的數(shù)據(jù),如果是1M的小文件存儲(chǔ),占用的內(nèi)存空間為1PB/1Mb*150Byte = 150G的內(nèi)存。如果存儲(chǔ)的是128M的文件存儲(chǔ),占用的內(nèi)存空間為1PB/128M*150Byte = 1.17G的內(nèi)存占用。可以看到,同樣存儲(chǔ)1PB的數(shù)據(jù),小文件的存儲(chǔ)比起大文件占用更多的內(nèi)存。
3. 不適合并發(fā)寫入,文件隨機(jī)修改:
HDFS上的文件只能擁有一個(gè)寫者,僅僅支持append操作。不支持多用戶對(duì)同一個(gè)文件的寫操作,以及在文件任意位置進(jìn)行修改。
幫助到你的話就點(diǎn)個(gè)關(guān)注吧~
你是否還在尋找穩(wěn)定的海外服務(wù)器提供商?創(chuàng)新互聯(lián)www.cdcxhl.cn海外機(jī)房具備T級(jí)流量清洗系統(tǒng)配攻擊溯源,準(zhǔn)確流量調(diào)度確保服務(wù)器高可用性,企業(yè)級(jí)服務(wù)器適合批量采購,新人活動(dòng)首月15元起,快前往官網(wǎng)查看詳情吧
新聞名稱:完全解析分布式存儲(chǔ),帶你了解HDFS的塊-創(chuàng)新互聯(lián)
當(dāng)前URL:http://www.yijiale78.com/article2/ceecoc.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供標(biāo)簽優(yōu)化、軟件開發(fā)、小程序開發(fā)、網(wǎng)站內(nèi)鏈、品牌網(wǎng)站設(shè)計(jì)、虛擬主機(jī)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容