首頁技術(shù)文章正文

YARN資源管理框架的體系結(jié)構(gòu)【大數(shù)據(jù)文章】

更新時間:2020-11-03 來源:黑馬程序員 瀏覽量:

     YARN(Yet Another Resource Negotiator,另一種資源協(xié)調(diào)者)是一個通用的資源管理系統(tǒng)和調(diào)度平臺,它的基本設(shè)計思想是將MRv1(Hadoop1.0中的MapReduce)中的JobTracker拆分為兩個獨立的任務(wù),這兩個任務(wù)分別是全局的資源管理器ResourceManager和每個應(yīng)用程序特有的ApplicationMaster。其中,ResourceManager負(fù)責(zé)整個系統(tǒng)的資源管理和分配,而ApplicationMaster負(fù)責(zé)單個應(yīng)用程序的管理。接下來,我們通過一張圖來描述YARN的體系結(jié)構(gòu),具體如圖1所示。

1604385370585_41.jpg

圖1 YARN體系結(jié)構(gòu)

  在圖1中,YARN體系結(jié)構(gòu)的核心組件有三個,具體介紹如下:

  1. ResourceManager

  ResourceManager是一個全局的資源管理系統(tǒng),它負(fù)責(zé)的是整個Yarn集群資源的監(jiān)控、分配和管理工作,具體工作如下:

  (1) 負(fù)責(zé)處理客戶端請求

  (2) 接收和監(jiān)控NodeManager(NM)的資源情況

  (3) 啟動和監(jiān)控ApplicationMaster(AM)

  (4) 資源的分配和調(diào)度

  值得一提的是,在ResourceManager內(nèi)部包含了兩個組件,分別是調(diào)度器(Scheduler)和應(yīng)用程序管理器(Application Manager),其中調(diào)度器根據(jù)容量、隊列等限制條件(如每個隊列分配一定的資源,最多執(zhí)行一定數(shù)量的作業(yè)等),將系統(tǒng)中的資源分配給各個正在運行的應(yīng)用程序。該調(diào)度器是一個“純調(diào)度器”,它不再從事任何與具體應(yīng)用程序相關(guān)的工作;而應(yīng)用程序管理器(Applications Manager)負(fù)責(zé)管理整個系統(tǒng)中所有的應(yīng)用程序,包括應(yīng)用程序的提交、調(diào)度協(xié)調(diào)資源以啟動ApplicationMaster、監(jiān)控ApplicationMaster運行狀態(tài)并在失敗時重新啟動。

  2.NodeManager

  NodeManager是每個節(jié)點上的資源和任務(wù)管理器,一方面,它會定時的向ResourceManager匯報所在節(jié)點的資源使用情況~~,~~;另一方面,它會接收并處理來自ApplicationMaster的啟動停止容器(Container)的各種請求。

  3.ApplicationMaster

  用戶提交的每個應(yīng)用程序都包含一個ApplicationMaster,它負(fù)責(zé)協(xié)調(diào)來自ResourceManager的資源,把獲得的資源進一步分配給內(nèi)部的各個任務(wù),從而實現(xiàn)“二次分配”。除此之外,ApplicationMaster還會通過NodeManager監(jiān)控容器的執(zhí)行和資源使用情況,并在任務(wù)運行失敗時重新為任務(wù)申請資源以重啟任務(wù)。當(dāng)前的YARN自帶了兩個ApplicationMaster的實現(xiàn),一個是用于演示ApplicationMaster編寫方法的實例程序DistributedShell,它可以申請一定數(shù)目的Container以并行方式運行一個Shell命令或者Shell腳本;另一個則是運行MapReduce應(yīng)用程序的ApplicationMaster-MRAppMaster。

  需要注意的是,ResourceManager負(fù)責(zé)監(jiān)控ApplicationMaster,并在ApplicationMaster運行失敗的時候重啟它,大大提高集群的拓展性。ResourceManager不負(fù)責(zé)ApplicationMaster內(nèi)部任務(wù)的容錯,任務(wù)的容錯由ApplicationMaster完成,總體來說,ApplicationMaster的主要功能是資源的調(diào)度、監(jiān)控與容錯。

猜你喜歡:

什么是機器學(xué)習(xí)?【大數(shù)據(jù)培訓(xùn)】

Spark有哪些特點,Spark的生態(tài)系統(tǒng)包含哪些組件?

MapReduce是怎樣進行計算的?

分享到:
在線咨詢 我要報名
和我們在線交談!