大數(shù)據(jù)這個(gè)詞也許幾年前你聽著還會(huì)覺得陌生,但我相信你現(xiàn)在聽到hadoop這個(gè)詞的時(shí)候你應(yīng)該都會(huì)覺得“熟悉”!越來越發(fā)現(xiàn)身邊從事hadoop開發(fā)或者是正在學(xué)習(xí)hadoop的人變多了。作為一個(gè)hadoop入門級的新手,你會(huì)覺得哪些地方很難呢?運(yùn)行環(huán)境的搭建恐怕就已經(jīng)足夠讓新手頭疼。如果每一個(gè)發(fā)行版hadoop都可以做到像大快DKHadoop那樣把各種環(huán)境搭建集成到一起,一次安裝搞定所有,那對于新手來說將是件多么美妙的事情!
創(chuàng)新互聯(lián)長期為成百上千家客戶提供的網(wǎng)站建設(shè)服務(wù),團(tuán)隊(duì)從業(yè)經(jīng)驗(yàn)10年,關(guān)注不同地域、不同群體,并針對不同對象提供差異化的產(chǎn)品和服務(wù);打造開放共贏平臺(tái),與合作伙伴共同營造健康的互聯(lián)網(wǎng)生態(tài)環(huán)境。為黃州企業(yè)提供專業(yè)的網(wǎng)站設(shè)計(jì)制作、網(wǎng)站設(shè)計(jì),黃州網(wǎng)站改版等技術(shù)服務(wù)。擁有十年豐富建站經(jīng)驗(yàn)和眾多成功案例,為您定制開發(fā)。
閑話扯得稍微多了點(diǎn),回歸整體。這篇準(zhǔn)備給大家hadoop新入門的朋友分享一些hadoop的基礎(chǔ)知識(shí)——hadoop家族產(chǎn)品。通過對hadoop家族產(chǎn)品的認(rèn)識(shí),進(jìn)一步幫助大家學(xué)習(xí)好hadoop!同時(shí),也歡迎大家提出寶貴意見!
一、Hadoop定義
Hadoop是一個(gè)大家族,是一個(gè)開源的生態(tài)系統(tǒng),是一個(gè)分布式運(yùn)行系統(tǒng),是基于Java編程語言的架構(gòu)。不過它最高明的技術(shù)還是HDFS和MapReduce,使得它可以分布式處理海量數(shù)據(jù)。
二、Hadoop產(chǎn)品
HDFS(分布式文件系統(tǒng)):
它與現(xiàn)存的文件系統(tǒng)不同的特性有很多,比如高度容錯(cuò)(即使中途出錯(cuò),也能繼續(xù)運(yùn)行),支持多媒體數(shù)據(jù)和流媒體數(shù)據(jù)訪問,高效率訪問大型數(shù)據(jù)集合,數(shù)據(jù)保持嚴(yán)謹(jǐn)一致,部署成本降低,部署效率提高等,如圖是HDFS的基礎(chǔ)架構(gòu)。
MapReduce/Spark/Storm(并行計(jì)算架構(gòu)):
1、數(shù)據(jù)處理方式來說分離線計(jì)算和在線計(jì)算:
角色 | 描述 |
MapReduce | MapReduce常用于離線的復(fù)雜的大數(shù)據(jù)計(jì)算 |
Storm | Storm用于在線的實(shí)時(shí)的大數(shù)據(jù)計(jì)算,Storm的實(shí)時(shí)主要是一條一條數(shù)據(jù)處理; |
Spark | 可以用于離線的也可用于在線的實(shí)時(shí)的大數(shù)據(jù)計(jì)算,Spark的實(shí)時(shí)主要是處理一個(gè)個(gè)時(shí)間區(qū)域的數(shù)據(jù),所以說Spark比較靈活。 |
2、數(shù)據(jù)存儲(chǔ)位置來說分磁盤計(jì)算和內(nèi)存計(jì)算:
角色 | 描述 |
MapReduce | 數(shù)據(jù)存在磁盤中 |
Spark和Strom | 數(shù)據(jù)存在內(nèi)存中 |
Pig/Hive(Hadoop編程):
角色 | 描述 |
Pig | 是一種高級編程語言,在處理半結(jié)構(gòu)化數(shù)據(jù)上擁有非常高的性能,可以幫助我們縮短開發(fā)周期。 |
Hive | 是數(shù)據(jù)分析查詢工具,尤其在使用類SQL查詢分析時(shí)顯示出極高的性能。可以在分分鐘完成ETL要一晚上才能完成的事情,這就是優(yōu)勢,占了先機(jī)! |
HBase/Sqoop/Flume(數(shù)據(jù)導(dǎo)入與導(dǎo)出):
角色 | 描述 |
HBase | 是運(yùn)行在HDFS架構(gòu)上的列存儲(chǔ)數(shù)據(jù)庫,并且已經(jīng)與Pig/Hive很好地集成。通過Java API可以近無縫地使用HBase。 |
Sqoop | 設(shè)計(jì)的目的是方便從傳統(tǒng)數(shù)據(jù)庫導(dǎo)入數(shù)據(jù)到Hadoop數(shù)據(jù)集合(HDFS/Hive)。 |
Flume | 設(shè)計(jì)的目的是便捷地從日志文件系統(tǒng)直接把數(shù)據(jù)導(dǎo)入到Hadoop數(shù)據(jù)集合(HDFS)中。 |
以上這些數(shù)據(jù)轉(zhuǎn)移工具都極大地方便了使用的人,提高了工作效率,把精力專注在業(yè)務(wù)分析上。
ZooKeeper/Oozie(系統(tǒng)管理架構(gòu)):
角色 | 描述 |
ZooKeeper | 是一個(gè)系統(tǒng)管理協(xié)調(diào)架構(gòu),用于管理分布式架構(gòu)的基本配置。它提供了很多接口,使得配置管理任務(wù)簡單化。 |
Oozie | Oozie服務(wù)是用于管理工作流。用于調(diào)度不同工作流,使得每個(gè)工作都有始有終。這些架構(gòu)幫助我們輕量化地管理大數(shù)據(jù)分布式計(jì)算架構(gòu)。 |
Ambari/Whirr(系統(tǒng)部署管理):
角色 | 描述 |
Ambari | 幫助相關(guān)人員快捷地部署搭建整個(gè)大數(shù)據(jù)分析架構(gòu),并且實(shí)時(shí)監(jiān)控系統(tǒng)的運(yùn)行狀況。 |
Whirr | Whirr的主要作用是幫助快速地進(jìn)行云計(jì)算開發(fā)。 |
Mahout(機(jī)器學(xué)習(xí)):
Mahout旨在幫助我們快速地完成高智商的系統(tǒng)。其中已經(jīng)實(shí)現(xiàn)了部分機(jī)器學(xué)習(xí)的邏輯。這個(gè)架構(gòu)可以讓我們快速地集成更多機(jī)器學(xué)習(xí)的智能。
分享文章:hadoop家族學(xué)習(xí)路線圖之hadoop產(chǎn)品介紹
文章轉(zhuǎn)載:http://www.yijiale78.com/article26/pdsjcg.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供外貿(mào)網(wǎng)站建設(shè)、微信公眾號(hào)、網(wǎng)站維護(hù)、全網(wǎng)營銷推廣、虛擬主機(jī)、網(wǎng)站策劃
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)