99偷拍视频精品区一区二,口述久久久久久久久久久久,国产精品夫妇激情啪发布,成人永久免费网站在线观看,国产精品高清免费在线,青青草在线观看视频观看,久久久久久国产一区,天天婷婷久久18禁,日韩动漫av在线播放直播

SparkStreaming高級特性在NDCG計算實踐-創新互聯

從storm到spark streaming,再到flink,流式計算得到長足發展, 依托于spark平臺的spark streaming走出了一條自己的路,其借鑒了spark批處理架構,通過批處理方式實現了實時處理框架。為進一步了解spark streaming的相關內容,飛馬網于3月20日晚邀請到歷任百度大數據的高級工程師—王富平,在線上直播中,王老師針對spark streaming高級特性以及ndcg計算實踐進行了分享。

創新互聯公司是專業的城東網站建設公司,城東接單;提供網站設計、做網站,網頁設計,網站設計,建網站,PHP網站建設等專業做網站服務;采用PHP框架,可快速的進行城東網站開發網頁制作和功能擴展;專業做搜索引擎喜愛的網站,專業的做網站團隊,希望更多企業前來合作!

Spark Streaming高級特性在NDCG計算實踐

以下是本次直播的主要內容:

一.Spark Streaming簡介

1.spark是什么?

spark就是一個批處理框架,它具有高性能、生態豐富的優勢。

Spark Streaming高級特性在NDCG計算實踐

在沒有spark之前,我們是怎么做大數據分析的呢?其實在沒有spark之前,我們用的是基于Hadoop的MapReduce框架來做數據分析。時至今日,傳統的MapReduce任務并沒有完全退出市場,在一些數據量非常大的場景下,MapReduce表現地還是相當穩定的。

2.spark streaming是什么?

spark streaming是按時間對數據進行分批處理的框架,.spark平臺帶來的優勢,使得spark streaming開發簡單、廣泛使用。

Spark Streaming高級特性在NDCG計算實踐

spark streaming的實現方式是基于spark的批處理理念,因此它可以直接使用spark平臺提供的工具組件。

Spark Streaming高級特性在NDCG計算實踐

通過上面這張圖,我們可以把spark streaming的輸入當成一個數據流,通過時間將數據進行分批處理,分批時間根據我們自己的業務情況而定。

3.WordCount的例子:

下面舉一個WordCount的例子,我們可以看到,短短幾行代碼,就實現了一個WordCount。由于spark平臺與Hadoop是直接打通的,我們可以很方便地把數據保存到HDFS或數據庫里,只需要運維一套spark平臺,我們就可以既做實時任務,又做離線分析任務,比較方便。

Spark Streaming高級特性在NDCG計算實踐

二.Spark Streaming的高級特性

1.Window特性:

Spark Streaming高級特性在NDCG計算實踐

基于上面簡單的WordCount例子,我們升級一下,假設我們需要每十秒鐘統計一次單詞在前一分鐘內出現次數,這個需求不是簡單的WordCount能夠實現的,這時候,我們就要使用到spark streaming提供的Window機制。

Spark Streaming高級特性在NDCG計算實踐

關于spark streaming的Window特性,有三個參數需要注意:Batch Internal(分批時間間隔)、Window width(窗口長度)、Sliding Internal(窗口滑動間隔)。根據剛才的需求,窗口長度是60s,窗口滑動間隔是10s,分批時間間隔是1s,這里需要注意,分批時間間隔必須能被窗口長度和窗口滑動間隔整除。

通過講述,或許你感覺Window特性有些復雜,但實際上,創建一個窗口的流是非常簡單的,下面的兩張圖,是關于創建Window數據流和Window相關計算函數的,可以簡單了解下。

Spark Streaming高級特性在NDCG計算實踐

Spark Streaming高級特性在NDCG計算實踐

下面這張圖片是計算30s窗口期內的請求失敗率。我們看一下它的參數,窗口時間設置為30s,滑動間隔是2s。整個代碼非常簡單,只需要多加一行代碼,就能實現窗口流,之后這個流就能做一些正常計算。

Spark Streaming高級特性在NDCG計算實踐

我們簡單讀一下這個函數,首先創建一個窗口流,之后在任務里面計算失敗的條數,用它來除以總條數,就得到請求失敗率。

2.Sql特性:

spark streaming的第二個特性就是Sql特性,spark streaming把數據封裝成DataFrame之后,天然就可以使用spark sql特性。

Spark Streaming高級特性在NDCG計算實踐

想完整使用寫sql的方式,我們首先要注冊臨時表。我們注冊的臨時表還可以與我們建的多張臨時表做join關聯,比較實用。

使用sql,自定義函數會給我們帶來很多擴展性,定義UDF有兩種方式:加載jar包UDF和動態定義UDF。

Spark Streaming高級特性在NDCG計算實踐

4.CheckPoint機制:

Spark通過使用CheckPoint保存處理狀態甚至當前處理數據,一旦任務失敗后,可以利用CheckPoint對數據進行恢復。我們做數據處理,數據可靠性是很重要的,必須保證數據不丟失,Spark的CheckPoint機制就是幫助我們保障數據安全的。

CheckPoint機制主要有兩種:

Spark Streaming高級特性在NDCG計算實踐

那么怎么去實現CheckPoint機制呢?

有以下三個條件:

Spark Streaming高級特性在NDCG計算實踐

Spark Streaming高級特性在NDCG計算實踐

我們來對比一下有WAL和無WAL的兩張圖。實際上有WAL,它首先會把數據先存到HDFS,然后對任務邏輯進行備份,再去執行處理,任務失敗時,它會根據CheckPoint的數據,去讀HDFS保存的數據,進行任務恢復。但實際上,這樣會有缺點,一方面是降低了receivers的性能,另一方面它只能保證At-Least-Once,不能保證exactly-once。

針對WAL的缺點,spark streaming對kafka進行優化,提供了Kafka direct API,性能大大提升。

Spark Streaming高級特性在NDCG計算實踐

三.NDCG指標計算

1.NDCG是什么?

Spark Streaming高級特性在NDCG計算實踐

下面兩張圖片,是NDCG計算的具體例子。

Spark Streaming高級特性在NDCG計算實踐

Spark Streaming高級特性在NDCG計算實踐

2.NDCG在spark streaming實現:

我們如何用spark streaming實現NDCG計算呢?首先我們做了一個數據調研。

Spark Streaming高級特性在NDCG計算實踐

開始進行NDCG計算。

Spark Streaming高級特性在NDCG計算實踐

3.NDCG性能保障:

我們開發一個數據任務,不是靜態工作,要保障數據的穩定性,根據數據的情況,做一個容量預估,以保證數據的性能。容量預估是一個必不可少的步驟。

Spark Streaming高級特性在NDCG計算實踐

我們最常見的容量調節。

Spark Streaming高級特性在NDCG計算實踐

在NDCG指標計算過程中,我們還會遇到一些問題,就是NDCG支持四個維度的組合計算,維度組合較多、較復雜。

Spark Streaming高級特性在NDCG計算實踐

這時候,多維分析就要借助于我們的OLAP引擎,目前我們使用的是Druid。

Spark Streaming高級特性在NDCG計算實踐

以上三大部分,就是這次線上直播分享的主要內容,在最后,王老師還針對大家提出的問題進行了一一解答,都有些什么問題呢?我們一起來看一下。

1.每間隔5s讀一批數據,需要遍歷每天數據進行各種計算分析,計算的結果還需要緩存作為下一次計算的參考,怎么實現?

王老師:這是一個實時任務,需要存儲狀態數據的話,有幾種實現方式,第一個是spark streaming有保存狀態數據的機制,第二種方式是,你可以把狀態數據保存在一些KV數據庫里,比如說spark等,也可以通過這種方式自己實現,不管哪條路,關鍵在于怎么實現。

2.學spark有推薦的上船方式么?

王老師:大家不要把spark看得那么神奇,java8里面提供的stream處理方式相關知識,和寫spark沒有多大區別,原理都是一樣的,你理解了java8怎么寫、stream處理的各種方法和計算邏輯,那么你就能理解spark streaming里的各種計算邏輯,spark streaming唯一高大上的就是它做的分布式。

3. spark streaming 將來最有可能被什么技術取代?

王老師:每個平臺都有各自的優缺點,目前來看,雖然Flink比較火,但是Storm依然存在,Spark也有自己所適合的場景,Flink也有它本身先進的機制,所以說,各有優勢。

最后,王老師向大家推薦了關于scala最經典的一本書—《programming in scala》,本次針對 spark streaming的直播內容簡明且有針對性,相信你一定收獲頗多。想了解更多更詳細內容的小伙伴們,可以關注服務號:FMI飛馬網,點擊菜單欄飛馬直播,即可進行學習。

Spark Streaming高級特性在NDCG計算實踐

另外有需要云服務器可以了解下創新互聯scvps.cn,海內外云服務器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務器、裸金屬服務器、高防服務器、香港服務器、美國服務器、虛擬主機、免備案服務器”等云主機租用服務以及企業上云的綜合解決方案,具有“安全穩定、簡單易用、服務可用性高、性價比高”等特點與優勢,專為企業上云打造定制,能夠滿足用戶豐富、多元化的應用場景需求。

分享文章:SparkStreaming高級特性在NDCG計算實踐-創新互聯
轉載源于:http://www.yijiale78.com/article38/cdpdpp.html

成都網站建設公司_創新互聯,為您提供網站收錄網站排名外貿建站網頁設計公司網站導航服務器托管

廣告

聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯

網站建設網站維護公司