HDFS分布式文件系統(tǒng)如何設(shè)計-創(chuàng)新互聯(lián)

這篇文章將為大家詳細講解有關(guān)HDFS分布式文件系統(tǒng)如何設(shè)計，小編覺得挺實用的，因此分享給大家做個參考，希望大家閱讀完這篇文章后可以有所收獲。

創(chuàng)新互聯(lián)建站企業(yè)建站,十多年網(wǎng)站建設(shè)經(jīng)驗，專注于網(wǎng)站建設(shè)技術(shù)，精于網(wǎng)頁設(shè)計，有多年建站和網(wǎng)站代運營經(jīng)驗，設(shè)計師為客戶打造網(wǎng)絡(luò)企業(yè)風(fēng)格，提供周到的建站售前咨詢和貼心的售后服務(wù)。對于網(wǎng)站設(shè)計制作、網(wǎng)站建設(shè)中不同領(lǐng)域進行深入了解和探索，創(chuàng)新互聯(lián)在網(wǎng)站建設(shè)中充分了解客戶行業(yè)的需求，以靈動的思維在網(wǎng)頁中充分展現(xiàn)，通過對客戶行業(yè)精準市場調(diào)研，為客戶提供的解決方案。

正文

HDFS的設(shè)計以及概念

　　HDFS集群是典型的 master/slave 架構(gòu)，master 節(jié)點叫做 NameNode，salve 節(jié)點叫做 DataNode。最簡單的 HDFS 集群便是一個 NameNode 節(jié)點和多個 DataNode 節(jié)點，HDFS 集群的架構(gòu)圖如下：

　　Block：數(shù)據(jù)塊，HDFS 集群將存儲的文件劃分為多個分塊，塊作為獨立的存儲單元，默認大小為為 128M。如果某個文件超過集群單機存儲容量，分塊可以解決該問題；其次按照塊進行存儲、備份能簡化系統(tǒng)的設(shè)計。默認塊大小修改 hdfs-site.xml 文件中的 dfs.blocksize 配置。
　　NameNode：HDFS 集群的 Master 節(jié)點，維護集群文件的目錄結(jié)構(gòu)（命名空間）和編輯日志文件，同時在內(nèi)存中記錄文件各個塊所在的數(shù)據(jù)節(jié)點的信息。
　　DataNode：HDFS 集群的 Slave 節(jié)點，負責(zé)存儲實際的數(shù)據(jù)。根據(jù)需要存儲和檢索數(shù)據(jù)塊，并定期向 NameNode 發(fā)送他們所存儲的數(shù)據(jù)塊列表。為了實現(xiàn)數(shù)據(jù)存儲的高可靠，HDFS 將一個塊存儲在不同的 DataNode 節(jié)點，默認是 3 個，可以通過 hdfs-site.xml 文件中的 dfs.replication 配置修改默認值。如果當(dāng)前 DataNode 中的數(shù)據(jù)塊損壞，可以從其他 DataNode 節(jié)點復(fù)制一個正確的數(shù)據(jù)塊。
　　以上是架構(gòu)圖中顯而易見的幾個重要概念，接下來將結(jié)合架構(gòu)設(shè)計中的高可用、可擴展性來介紹下架構(gòu)圖中隱藏的幾個重要概念。
　　聯(lián)邦 HDFS：這個主要是為了解決可擴展性的問題，我們知道 NameNode 進程的內(nèi)存中存放了數(shù)據(jù)與數(shù)據(jù)位置的對應(yīng)關(guān)系，對于一個文件數(shù)據(jù)量多的集群來說，NameNode 的內(nèi)存將成為集群規(guī)模擴大的瓶頸。因此，單一 NameNode 的集群并不可取。Hadoop 2.x 的發(fā)行版引入了聯(lián)邦 HDFS 允許向集群中添加 NameNode 節(jié)點實現(xiàn)橫向擴展。每一個 NameNode 管理命名空間中的一部分，每個 NameNode 維護一個命名空間卷（namespace volume），命名空間卷之間相互獨立，一個 NameNode 失效不會影響其他 NameNode 維護的命名空間。
　　HDFS HA：這個解決高可用，即 HDFS High Available。這一實現(xiàn)中配置了一對活動-備用（active-standby）NameNode。當(dāng)活動的 NameNode 失效，備用 NameNode 會接管相應(yīng)的任務(wù)，這一過程對用戶透明。實現(xiàn)這一設(shè)計，需要在架構(gòu)上做如下修改：
　　1. HA 的兩個 NameNode 之間通過高可用共享存儲實現(xiàn)編輯日志的共享，目的是為了能夠使備用 NameNode 接管工作后實現(xiàn)與主 NameNode 狀態(tài)同步。QJM（日志管理器，quorum journal manager）是為提供一個高可用的日志編輯而設(shè)計的，被推薦用于大多數(shù) HDFS 集群中。QJM 以一組日志節(jié)點的形式運行，一般是 3，每一次編輯必須寫入多數(shù)日志節(jié)點，因此系統(tǒng)可以忍受任何一個節(jié)點丟失，日志節(jié)點便是 JournalNode。
　　2. DataNode 需要同時向 2 個 NameNode 發(fā)送數(shù)據(jù)報告，因為數(shù)據(jù)塊的映射信息存儲在 NameNode 的內(nèi)存中
　　3. 客戶端需要處理 NameNode 失效的問題，對用戶透明

HDFS的基本操作

命令行接口
　　命令行接口操作 HDFS 是最簡單、最方便的方式。HDFS 的命令與 Linux 本地命令非常相似，可以通過 hadoop fs help 命令查看 HDFS 所支持所有命令，接下來介紹下常用的命令：

　　hadoop fs -put <localsrc> <dst> #將本地文件上傳至 HDFS；
　　hadoop fs -ls <path> # 與 Linux ls命令類似；
　　hadoop fs -cat <src> #查看 HDFS 文件數(shù)據(jù)；
　　hadoop fs -text <path> # 同 cat 命令，可以看 SequenceFile、壓縮文件；
　　hadoop fs -rm <src> # 刪除 HDFS 文件或目錄。

　　以上是比較常用的 HDFS 命令，查看幫助文檔可以在每個命令上增加一些命令行選項，輸出不同的信息。以 ls 命令為例，看一下 HDFS 輸出的文件信息。

　　hadoop fs -ls /hadoop-ex/wordcount/input
　　-rw-r--r-- 3 root supergroup 32 2019-03-03 01:34 /hadoop-ex/wordcount/input/words
　　-rw-r--r-- 3 root supergroup 28 2019-03-03 01:46 /hadoop-ex/wordcount/input/words2

　　可以發(fā)現(xiàn)輸出的內(nèi)容與 Linux 下 ls 命令類似。第 1 部分顯示文件類型與權(quán)限，第 2 部分是副本數(shù)量 3，第 3 、4部分是所屬的用戶和用戶組，第 5 部分是文件大小，若是目錄則為 0 ，第 6、7 部分是文件的修改日期和時間，第 8 部分是文件的路徑和名稱。在 HDFS 中有個超級用戶，即啟動 NameNode 的用戶。
　Java 接口
　　相對于命令行接口，Java接口更加靈活，更強大。但用起來不是很方便，一般可以在 MR 或者 Spark 任務(wù)中使用 Java 接口讀取 HDFS 上的數(shù)據(jù)。本章僅舉一個讀取 HDFS 文件數(shù)據(jù)的例子介紹一下 Java 接口的使用方式，主要使用 FileSystem API 來實現(xiàn)，更具體和更多的使用方法讀者可以自行查閱。

package com.cnblogs.duma.hdfs;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;

import java.io.IOException;
import java.io.InputStream;
import java.net.URI;

public class FileSystemEx {
    public static void main(String[] args) throws IOException {
        Configuration conf = new Configuration();
        // uri 便是 core-site.xml 文件中 fs.defaultFS 配置的值
        FileSystem fs = FileSystem.get(URI.create("hdfs://hadoop0:9000"), conf);
        InputStream in = null;

        try {
            // 指定打開的文件
            in = fs.open(new Path("/hadoop-ex/wordcount/input/words"));
            // 將輸入流拷貝到標準輸出流
            IOUtils.copyBytes(in, System.out, 4096, false);
        } catch (IOException e) {
            e.printStackTrace();
        } finally {
            // 關(guān)閉輸入流
            IOUtils.closeStream(in);
        }
    }
}

關(guān)于“HDFS分布式文件系統(tǒng)如何設(shè)計”這篇文章就分享到這里了，希望以上內(nèi)容可以對大家有一定的幫助，使各位可以學(xué)到更多知識，如果覺得文章不錯，請把它分享出去讓更多的人看到。

標題名稱：HDFS分布式文件系統(tǒng)如何設(shè)計-創(chuàng)新互聯(lián)
分享鏈接：http://www.yijiale78.com/article6/djgjig.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供響應(yīng)式網(wǎng)站、App設(shè)計、品牌網(wǎng)站設(shè)計、關(guān)鍵詞優(yōu)化、做網(wǎng)站、建站公司

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

99偷拍视频精品区一区二,口述久久久久久久久久久久,国产精品夫妇激情啪发布,成人永久免费网站在线观看,国产精品高清免费在线,青青草在线观看视频观看,久久久久久国产一区,天天婷婷久久18禁,日韩动漫av在线播放直播

HDFS分布式文件系統(tǒng)如何設(shè)計-創(chuàng)新互聯(lián)