首頁技術(shù)文章正文

云計算大數(shù)據(jù)培訓(xùn)之Spark-Streaming的基本原理以及預(yù)寫日志機(jī)制和checkpoint(1)

更新時間:2017-09-01 來源:黑馬程序員云計算大數(shù)據(jù)培訓(xùn)學(xué)院 瀏覽量:

首先我們要先了解什么是Spark-Streaming: 

Spark Streaming是Spark Core API的一種擴(kuò)展,它可以用于進(jìn)行大規(guī)模、高吞吐量、容錯的實(shí)時數(shù)據(jù)流的處理。它支持從很多種數(shù)據(jù)源中讀取數(shù)據(jù),比如Kafka、Flume、Twitter、ZeroMQ、Kinesis或者是TCP Socket。并且能夠使用類似高階函數(shù)的復(fù)雜算法來進(jìn)行數(shù)據(jù)處理,比如map、reduce、join和window。處理后的數(shù)據(jù)可以被保存到文件系統(tǒng)、數(shù)據(jù)庫、Dashboard等存儲中。


接下來要知道Spark-Streaming的基本運(yùn)行原理: 

Spark-Streaming內(nèi)部的基本工作原理如下:接收實(shí)時輸入數(shù)據(jù)流,然后將數(shù)據(jù)拆分成多個batch,比如每收集5秒的數(shù)據(jù)封裝為一個batch,然后將每個batch交給Spark的計算引擎進(jìn)行處理,最后會生產(chǎn)出一個結(jié)果數(shù)據(jù)流,其中的數(shù)據(jù),也是由一個一個的batch所組成的。


關(guān)于Spark-Streaming的高級抽象 

Spark-Streaming提供了一種高級的抽象,叫做DStream,英文全稱為Discretized Stream,中文翻譯為“離散流”,它代表了一個持續(xù)不斷的數(shù)據(jù)流。DStream可以通過輸入數(shù)據(jù)源來創(chuàng)建,比如Kafka、Flume和Kinesis;也可以通過對其他DStream應(yīng)用高階函數(shù)來創(chuàng)建,比如map、reduce、join、window。 

DStream的內(nèi)部,其實(shí)一系列持續(xù)不斷產(chǎn)生的RDD。RDD是Spark Core的核心抽象,即,不可變的,分布式的數(shù)據(jù)集。DStream中的每個RDD都包含了一個時間段內(nèi)的數(shù)據(jù)。


接下來就是一些關(guān)于面試時的大殺器:


Spark-Streaming checkPoing概述


每一個Spark Streaming應(yīng)用,正常來說,都是要724小時運(yùn)轉(zhuǎn)的,這就是實(shí)時計算程序的特點(diǎn),因?yàn)橐掷m(xù)不斷地對數(shù)據(jù)進(jìn)行計算,因此,對實(shí)時計算應(yīng)用的要求,應(yīng)該是必須要能夠?qū)?yīng)用程序邏輯無關(guān)的失敗,進(jìn)行容錯,如果要實(shí)現(xiàn)這個目標(biāo),Spark-Streaming程序就必須講座狗的信息checkpoint到容錯的存儲系統(tǒng)上,從而讓它能夠錯失敗中進(jìn)行恢復(fù)


如何對dstream做checkpoint 

首先設(shè)置還原點(diǎn)目錄,其次調(diào)用dstream的checkpoint方法 

【注意】:dstream的checkpoint的周期一定要是產(chǎn)生batch的時間的整數(shù)倍,同時官方建議將checkpoint的事件設(shè)置為至少10秒, 

通常來說,將checkpoint間隔設(shè)置為窗口操作的滑動間隔的5~10倍是個不錯的選擇

本文版權(quán)歸黑馬程序員云計算大數(shù)據(jù)培訓(xùn)學(xué)院所有,歡迎轉(zhuǎn)載,轉(zhuǎn)載請注明作者出處。謝謝!
作者:黑馬程序員云計算大數(shù)據(jù)培訓(xùn)學(xué)院
首發(fā):http://cloud.itheima.com/
分享到:
在線咨詢 我要報名
和我們在線交談!