MapTask作為MapReduce工作流程的前半部分,它主要經(jīng)歷了5個(gè)階段,分別是Read階段、Map階段、Collect階段、Spill階段和Combine階段,如下圖所示。查看全文>>
MapReuce的核心思想是“分而治之”。所謂"分面治之”就是把一個(gè)復(fù)雜的問題,按照一定的“分解”方法分為等價(jià)的規(guī)模較小的若干部分.然后逐個(gè)解決,分別找出各部分的結(jié)果,把各部分的結(jié)果組成整個(gè)問題的結(jié)果.這種思想來(lái)源于日常生活與工作時(shí)的經(jīng)驗(yàn),同樣也完全適合技術(shù)領(lǐng)域。查看全文>>
Agent傳輸或者進(jìn)行集中式存儲(chǔ)。查看全文>>
Flume原是Cloudera公司提供的一個(gè)高可用的、高可靠的、分布式海量日志采集、聚合和傳輸系統(tǒng),而后納人到了Apache旗下,作為一個(gè)頂級(jí)開源項(xiàng)目。Apache Flume不僅只限于日志數(shù)據(jù)的采集,由于Flume采集的數(shù)據(jù)源是可定制的,因此Flume還可用于傳輸大量事件數(shù)據(jù),包括但不限于網(wǎng)絡(luò)流量數(shù)據(jù)、社交媒體生成的數(shù)據(jù)、電子郵件消息以及幾乎任何可能的數(shù)據(jù)源。查看全文>>
TiKV 集群是 TiDB 數(shù)據(jù)庫(kù)的分布式 KV 存儲(chǔ)引擎,數(shù)據(jù)以 Region 為單位進(jìn)行復(fù)制和管理,運(yùn)行的過程中會(huì)出現(xiàn)許多問題,這些問題單獨(dú)拿出都能找到簡(jiǎn)單的解決方案,但是混雜在一起就不太好解決,需要從全局角度把控調(diào)整,于是出現(xiàn)了PD模塊,下面來(lái)看調(diào)度的基本操作。查看全文>>
Kafka Eagle是一款結(jié)合了目前大數(shù)據(jù)Kafka監(jiān)控工具的特點(diǎn),重新研發(fā)的一塊開源免費(fèi)的Kafka集群優(yōu)秀的監(jiān)控工具。它可以非常方便的監(jiān)控生產(chǎn)環(huán)境中的offset、lag變化、partition分布、owner等。本節(jié)我們來(lái)學(xué)習(xí)kafka的安裝。查看全文>>