現(xiàn)在的社會(huì)是一個(gè)高速發(fā)展的社會(huì),科技發(fā)達(dá),信息流通,人們之間的交流也越來(lái)越密切,生活也越來(lái)越便捷,大數(shù)據(jù)就是這個(gè)高科技時(shí)代的產(chǎn)物。阿里巴巴創(chuàng)辦人馬云曾經(jīng)說(shuō)過(guò),未來(lái)的時(shí)代將不是IT時(shí)代,而是DT的時(shí)代,DT就是Data Technology,數(shù)據(jù)科技,這顯示出大數(shù)據(jù)對(duì)于阿里巴巴集團(tuán)來(lái)說(shuō)是舉足輕重的。查看全文>>
一般認(rèn)為,大數(shù)據(jù)主要具有以下4個(gè)方面的典型特征,即大量(Volume)、多樣(Variety)、高速(Velocity)和價(jià)值(Value),即所謂的4V,接下來(lái),通過(guò)一張圖來(lái)具休描述。查看全文>>
大數(shù)據(jù)是什么意思呢?如果從字面意思來(lái)看,大數(shù)據(jù)指的是巨量數(shù)據(jù)。那么可能有人會(huì)問(wèn),多大量級(jí)的數(shù)據(jù)才叫大數(shù)據(jù)?不同的機(jī)構(gòu)或?qū)W者有不同的理解,難以有一個(gè)非常定量的定義,只能說(shuō),大數(shù)據(jù)的計(jì)量單位已經(jīng)越過(guò)TB級(jí)別發(fā)展到PB、EB、ZB、YB甚至BB級(jí)別。查看全文>>
RDD的分區(qū)原則是分區(qū)的個(gè)數(shù)盡量等于集群中的CPU核心(Core)數(shù)目。對(duì)于不同的Spark部署模式而言,都可以通過(guò)設(shè)置spark.default.prallien這個(gè)參數(shù)值來(lái)配置默認(rèn)的分區(qū)數(shù)目。一般而言,各種模式下的默認(rèn)分區(qū)數(shù)目如下。查看全文>>
分層抽樣法也叫類(lèi)型抽樣法,它是先將總體樣本按照某種特征分為若干次級(jí)(層),然后再?gòu)拿恳灰粚觾?nèi)進(jìn)行獨(dú)立取樣,組成一個(gè)樣本的統(tǒng)計(jì)學(xué)計(jì)算方法,接下來(lái),通過(guò)Spark-Shell演示分層抽樣方法,具體代碼如下查看全文>>
當(dāng)MySQL表中的數(shù)據(jù)發(fā)生了新增或修改變化,需要更新HDFS上對(duì)應(yīng)的數(shù)據(jù)時(shí),就可以使用Sqoop的增量導(dǎo)入功能。Sqoop目前支持兩種增量導(dǎo)入模式:append模式和lastmodified模式。其中,append模式主要針對(duì)INSERT新增數(shù)據(jù)的增量導(dǎo)入;lastmodified模式主要針對(duì)UPDATE修改數(shù)據(jù)的增量導(dǎo)入。查看全文>>