更新時(shí)間:2018-11-30 來(lái)源:黑馬程序員 瀏覽量:
把之前寫(xiě)的數(shù)據(jù)倉(cāng)庫(kù)系列博客,匯總和整理成了一本更系統(tǒng)的小書(shū)《Data Warehouse in Action》。
0x01 大數(shù)據(jù)和數(shù)據(jù)倉(cāng)庫(kù)16 年開(kāi)始接觸數(shù)據(jù)倉(cāng)庫(kù),至今有一年半的時(shí)間,中間換了次工作,也算是在兩家公司實(shí)踐了數(shù)據(jù)倉(cāng)庫(kù)。在此隨便寫(xiě)一點(diǎn)關(guān)于大數(shù)據(jù)和數(shù)據(jù)倉(cāng)庫(kù)的東西。
其實(shí),很多時(shí)候大數(shù)據(jù)和數(shù)據(jù)倉(cāng)庫(kù)這些都是一些概念使然,個(gè)人不太認(rèn)為某一個(gè)概念比另一個(gè)概念厲害多少,大家是你中有我我中有你的關(guān)系。
就拿大數(shù)據(jù)來(lái)講,13年的時(shí)候我們會(huì)講,大數(shù)據(jù)包括了數(shù)據(jù)清洗、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)挖掘、數(shù)據(jù)分析、數(shù)據(jù)可視化等一系列的概念。再看數(shù)據(jù)倉(cāng)庫(kù)的概念,隨便找本十多年前的經(jīng)典書(shū)籍就會(huì)發(fā)現(xiàn),數(shù)據(jù)倉(cāng)庫(kù)包含了 ETL、元數(shù)據(jù)、數(shù)據(jù)血緣管理、調(diào)度系統(tǒng)、數(shù)據(jù)可視化等概念。
那么誰(shuí)更大?誰(shuí)更厲害?這個(gè)其實(shí)不是我們的重點(diǎn),這些東西最終還是要落在具體的工作和技術(shù)上。
比如說(shuō)我是搞大數(shù)據(jù)開(kāi)發(fā)中的數(shù)據(jù)收集、數(shù)據(jù)清洗工作,換一個(gè)名字我就可以說(shuō)自己是搞 ETL 開(kāi)發(fā)的;然后我再了解一些數(shù)據(jù)倉(cāng)庫(kù)建模的內(nèi)容,將自己的數(shù)據(jù)清洗的工作套上數(shù)據(jù)倉(cāng)庫(kù)中的模型設(shè)計(jì)和數(shù)據(jù)分層,我就可以說(shuō)自己是搞數(shù)據(jù)倉(cāng)庫(kù)的。
再比如說(shuō)我之前是搞數(shù)據(jù)倉(cāng)庫(kù)的元數(shù)據(jù)系統(tǒng)、血統(tǒng)分析、調(diào)度系統(tǒng)的,然后同樣的理論模型,使用場(chǎng)景從 Oracle、Mysql這些關(guān)系型數(shù)據(jù)庫(kù)轉(zhuǎn)移到 HDFS、Hive、Spark 中,我就變成了大數(shù)據(jù)開(kāi)發(fā)中的系統(tǒng)開(kāi)發(fā)了。
其實(shí)很多工作內(nèi)容和工作性質(zhì)都很相近,自己靈活一點(diǎn)就好。
0x02 數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)的內(nèi)容很多,這里主要對(duì)數(shù)據(jù)倉(cāng)庫(kù)的體系做一個(gè)小的說(shuō)明,算是這系列博客的總覽。
我們粗略地從數(shù)據(jù)倉(cāng)庫(kù)中抽取幾個(gè)主題來(lái)聊:ETL、數(shù)據(jù)模型、元數(shù)據(jù)管理。
其中 ETL 的內(nèi)容和現(xiàn)在大數(shù)據(jù)的體系綁定最深。MapReduce、Spark 這些計(jì)算引擎都可以算是 ETL 的重要組成部分。
數(shù)據(jù)模型的話,我們把維度建模、數(shù)據(jù)分層、各種表結(jié)構(gòu)設(shè)計(jì)放在其中。這一塊算是數(shù)據(jù)倉(cāng)庫(kù)中最重要的一塊。
元數(shù)據(jù),我們可以理解為數(shù)據(jù)的管理。
針對(duì)上面三個(gè)主題,本系列文章有下面內(nèi)容:
數(shù)據(jù)倉(cāng)庫(kù)中的模型設(shè)計(jì)詳解唯獨(dú)建模拉鏈表是什么緩慢變化維度如何優(yōu)雅地設(shè)計(jì)數(shù)據(jù)分層別人家的元數(shù)據(jù)系統(tǒng)是怎么設(shè)計(jì)的數(shù)據(jù)質(zhì)量監(jiān)控聊一聊ETL的設(shè)計(jì)重要的代理鍵時(shí)間維表的實(shí)踐從工作內(nèi)容上來(lái)講,我們會(huì)把數(shù)據(jù)分為數(shù)據(jù)開(kāi)發(fā)、數(shù)據(jù)分析、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)挖掘的話。 很多人覺(jué)得高大上的是數(shù)據(jù)挖掘,覺(jué)得工程最強(qiáng)的是數(shù)據(jù)開(kāi)發(fā)。
我們可以換角度而言之,我們從數(shù)據(jù)的角度來(lái)講的,我們會(huì)把數(shù)據(jù)分為:數(shù)據(jù)計(jì)算、數(shù)據(jù)價(jià)值和數(shù)據(jù)管理。我們很多是以數(shù)據(jù)價(jià)值為導(dǎo)向地來(lái)做數(shù)據(jù)計(jì)算,但是常常就會(huì)忽略數(shù)據(jù)管理,而數(shù)據(jù)倉(cāng)庫(kù)的理念剛好是數(shù)據(jù)管理。因此可以在適當(dāng)?shù)臉I(yè)務(wù)階段來(lái)重視數(shù)據(jù)管理。
作者:黑馬程序員云計(jì)算大數(shù)據(jù)培訓(xùn)學(xué)院
首發(fā):http://cloud.itheima.cn/