首頁技術(shù)文章正文

云計算大數(shù)據(jù)培訓之Spark-Streaming的基本原理以及預寫日志機制和checkpoint(2)

更新時間:2017-09-01 來源:黑馬程序員云計算大數(shù)據(jù)培訓學院 瀏覽量:

有兩種數(shù)據(jù)需要被進行checkpoint:

1.元數(shù)據(jù)checkpoint—-將定義了流式計算邏輯的信息,報錯到容錯的存儲系統(tǒng)上,比如HDFS 
當運行Spark—Streaming應用程序的Driver進程所在的節(jié)點失敗時,該信息可以用于進行恢復。 
元數(shù)據(jù)信息包括了: 
1.1:配置信息—創(chuàng)建Spark-Streaming應用程序的配置信息,比如SparkConf 
1.2:DStream的操作信息—-定義了Spark-Stream應用程序的計算邏輯的DStream操作信息 
1.3:未處理的batch信息—-哪些job正在排隊,還沒處理的batch信息。

2.數(shù)據(jù)checkpoint—將實時計算過程中產(chǎn)生的RDD的數(shù)據(jù)保存到可靠的存儲系統(tǒng)中 
對于一些將多個batch的數(shù)據(jù)進行聚合的,有狀態(tài)的transformation操作,這是非常有用的, 
在這種tranformation操作中,生成的RDD是依賴與之前的batch的,這會導致隨著時間的推移,Rdd的依賴 
鏈條越來越長,要避免由于依賴鏈條越來越長,導致一起變得越來越長的失敗恢復時間,有狀態(tài)的transformation 
操作執(zhí)行過程中間產(chǎn)生的RDD,會定期的被checkpoint盜可靠的存儲系統(tǒng)上,比如HDFS,從而削減RDD的依賴鏈條,進而縮短失敗恢復時, 
RDD的回復時間



本文版權(quán)歸黑馬程序員云計算大數(shù)據(jù)培訓學院所有,歡迎轉(zhuǎn)載,轉(zhuǎn)載請注明作者出處。謝謝!
作者:黑馬程序員云計算大數(shù)據(jù)培訓學院
首發(fā):http://cloud.itheima.com/ 
分享到:
在線咨詢 我要報名
和我們在線交談!