云計算大數(shù)據(jù)培訓之Spark-Streaming的基本原理以及預寫日志機制和checkpoint（1）

更新時間:2017-09-01 來源:黑馬程序員云計算大數(shù)據(jù)培訓學院瀏覽量:

首先我們要先了解什么是Spark-Streaming：

Spark Streaming是Spark Core API的一種擴展，它可以用于進行大規(guī)模、高吞吐量、容錯的實時數(shù)據(jù)流的處理。它支持從很多種數(shù)據(jù)源中讀取數(shù)據(jù)，比如Kafka、Flume、Twitter、ZeroMQ、Kinesis或者是TCP Socket。并且能夠使用類似高階函數(shù)的復雜算法來進行數(shù)據(jù)處理，比如map、reduce、join和window。處理后的數(shù)據(jù)可以被保存到文件系統(tǒng)、數(shù)據(jù)庫、Dashboard等存儲中。

接下來要知道Spark-Streaming的基本運行原理：

Spark-Streaming內(nèi)部的基本工作原理如下：接收實時輸入數(shù)據(jù)流，然后將數(shù)據(jù)拆分成多個batch，比如每收集5秒的數(shù)據(jù)封裝為一個batch，然后將每個batch交給Spark的計算引擎進行處理，最后會生產(chǎn)出一個結(jié)果數(shù)據(jù)流，其中的數(shù)據(jù)，也是由一個一個的batch所組成的。

關于Spark-Streaming的高級抽象

Spark-Streaming提供了一種高級的抽象，叫做DStream，英文全稱為Discretized Stream，中文翻譯為“離散流”，它代表了一個持續(xù)不斷的數(shù)據(jù)流。DStream可以通過輸入數(shù)據(jù)源來創(chuàng)建，比如Kafka、Flume和Kinesis；也可以通過對其他DStream應用高階函數(shù)來創(chuàng)建，比如map、reduce、join、window。

DStream的內(nèi)部，其實一系列持續(xù)不斷產(chǎn)生的RDD。RDD是Spark Core的核心抽象，即，不可變的，分布式的數(shù)據(jù)集。DStream中的每個RDD都包含了一個時間段內(nèi)的數(shù)據(jù)。

接下來就是一些關于面試時的大殺器：

Spark-Streaming checkPoing概述

每一個Spark Streaming應用，正常來說，都是要724小時運轉(zhuǎn)的，這就是實時計算程序的特點，因為要持續(xù)不斷地對數(shù)據(jù)進行計算，因此，對實時計算應用的要求，應該是必須要能夠?qū)贸绦蜻壿嫙o關的失敗，進行容錯，如果要實現(xiàn)這個目標，Spark-Streaming程序就必須講座狗的信息checkpoint到容錯的存儲系統(tǒng)上，從而讓它能夠錯失敗中進行恢復

如何對dstream做checkpoint

首先設置還原點目錄，其次調(diào)用dstream的checkpoint方法

【注意】：dstream的checkpoint的周期一定要是產(chǎn)生batch的時間的整數(shù)倍，同時官方建議將checkpoint的事件設置為至少10秒，

通常來說，將checkpoint間隔設置為窗口操作的滑動間隔的5~10倍是個不錯的選擇

本文版權歸黑馬程序員云計算大數(shù)據(jù)培訓學院所有，歡迎轉(zhuǎn)載，轉(zhuǎn)載請注明作者出處。謝謝！
作者：黑馬程序員云計算大數(shù)據(jù)培訓學院
首發(fā)：http://cloud.itheima.com/