更新時間:2023-06-23 來源:黑馬程序員 瀏覽量:
Spark會產(chǎn)生DAG圖,DAG圖會基于分區(qū)和寬窄依賴關(guān)系劃分階段。一個階段的內(nèi)部都是窄依賴,窄依賴內(nèi),如果形成前后1:1的分區(qū)對應(yīng)關(guān)系,就可以產(chǎn)生許多內(nèi)存迭代計算的管道。
這些內(nèi)存迭代計算的管道,就是一個個具體的執(zhí)行Task,一個Task是一個具體的線程,任務(wù)跑在一個線程內(nèi),就是走內(nèi)存計算了。
Spark的算子豐富,MapReduce算子圓乏(Map和Reduce),MapReduce這個編程模型,很難在一套MR中處理復(fù)雜的任務(wù)。很多的復(fù)雜任務(wù),是需要寫多個MapReduce進行串聯(lián).多個MR串聯(lián)通過磁盤交互數(shù)據(jù)。
Spark可以執(zhí)行內(nèi)存迭代,算子之間形成DAG基于依賴劃分階段后,在階段內(nèi)形成內(nèi)存迭代管道.但是MapReduce的Map和Reduce之間的交互依舊是通過硬盤來交互的.