Hadoop集群初體驗(yàn)——經(jīng)典單詞統(tǒng)計(jì)案例

更新時(shí)間:2021-08-06 來源:黑馬程序員瀏覽量:

完成了Hadoop集群安裝和測(cè)試之后，顯示構(gòu)建的Hadoop集群能夠正常運(yùn)行。接下來，就通過Hadoop經(jīng)典案例——單詞統(tǒng)計(jì)，來演示Hadoop集群的簡(jiǎn)單使用。

（1）打開HDFS的UI界面，選擇【Utilities】→【Browse the file system】查看分布式文件系統(tǒng)里的數(shù)據(jù)文件，可以看到新建的HDFS系統(tǒng)上沒有任何數(shù)據(jù)文件，如圖1所示。

Hadoop集群

圖1 HDFS文件系統(tǒng)

（2）先在集群主節(jié)點(diǎn)hadoop01上的/export/data/目錄下，使用“vi word.txt”指令新建一個(gè)word.txt文本文件，并編寫一些單詞內(nèi)容，如文件所示。

文件 word.txt

hello itcast

hello itheima

hello hadoop

接著，在HDFS文件系統(tǒng)上創(chuàng)建/wordcount/input目錄，并將word.txt文件上傳至該目錄下，具體指令如下所示。

$ hadoop fs -mkdir -p /wordcount/input

$ hadoop fs -put /export/data/word.txt /wordcount/input

上述指令是Hadoop提供的進(jìn)行文件系統(tǒng)操作的HDFS Shell相關(guān)指令，此處不必深究具體使用，在下一章節(jié)會(huì)進(jìn)行詳細(xì)說明。執(zhí)行完上述指令后，再次查看HDFS的UI界面，會(huì)發(fā)現(xiàn)/wordcount/input目錄創(chuàng)建成功并上傳了指定的word.txt文件，如圖2所示。

Hadoop集群

圖2 HDFS文件系統(tǒng)

（3）進(jìn)入Hadoop解壓包中的share/hadoop/mapreduce/目錄下，使用ll指令查看文件夾內(nèi)容，如圖3所示。

Hadoop集群

圖3 官方MapReduce示例程序

從圖3可以看出，在該文件夾下自帶了很多Hadoop的MapReduce示例程序。其中，hadoop-mapreduce-examples-2.7.4.jar包中包含了計(jì)算單詞個(gè)數(shù)、計(jì)算Pi值等功能。

因此，這里可以直接使用hadoop-mapreduce-examples-2.7.4.jar示例包，對(duì)HDFS文件系統(tǒng)上的word.txt文件進(jìn)行單詞統(tǒng)計(jì)，來進(jìn)行此次案例的演示，在當(dāng)jar包位置執(zhí)行如下指令。

$ hadoop jar hadoop-mapreduce-examples-2.7.4.jar wordcount /wordcount/input /wordcount/output

上述指令中，hadoop jar hadoop-mapreduce-examples-2.7.4.jar表示執(zhí)行一個(gè)Hadoop的jar包程序；wordcount表示執(zhí)行jar包程序中的單詞統(tǒng)計(jì)功能；/wordcount/input表示進(jìn)行單詞統(tǒng)計(jì)的HDFS文件路徑；/wordcount/output表示進(jìn)行單詞統(tǒng)計(jì)后的輸出HDFS結(jié)果路徑。

執(zhí)行完上述指令后，示例包中的MapReduce程序開始運(yùn)行，此時(shí)可以通過YARN集群的UI界面查看運(yùn)行狀態(tài)，如圖4所示。

Hadoop集群

圖4 YARN集群UI界面

經(jīng)過一定時(shí)間執(zhí)行后，再次刷新查看YARN集群的UI界面，就會(huì)發(fā)現(xiàn)程序已經(jīng)運(yùn)行成功的狀態(tài)信息以及其他相關(guān)參數(shù)。

（4）在單詞統(tǒng)計(jì)的示例程序執(zhí)行成功后，再次刷新并查看HDFS的UI界面，如圖5所示。

Hadoop集群

圖5 MapReduce程序執(zhí)行結(jié)果

從圖5可以看出，MapReduce程序執(zhí)行成功后，在HDFS上自動(dòng)創(chuàng)建了指定的結(jié)果目錄/wordcount/output，并且輸出了_SUCCESS和part-r-00000結(jié)果文件。其中_SUCCESS文件用于表示此次任務(wù)成功執(zhí)行的標(biāo)識(shí)，而part-r-00000表示單詞統(tǒng)計(jì)的結(jié)果。

接著，就可以單擊下載圖2-48中的part-r-00000結(jié)果文件到本地操作系統(tǒng)，并使用文本工具（EditPlus、Nodepad++、記事本等）打開該文件，如圖6所示。

Hadoop集群

圖6 MapReduce單詞統(tǒng)計(jì)結(jié)果文件

從圖6可以看出，MapReduce示例程序成功統(tǒng)計(jì)出了/wordcount/input/word.txt文本中的單詞數(shù)量，并進(jìn)行了結(jié)果輸出。

在本節(jié)使用Hadoop提供的示例程序演示了單詞統(tǒng)計(jì)案例的實(shí)現(xiàn)，在實(shí)際工作應(yīng)用開發(fā)中，開發(fā)者需要根據(jù)需求自行編寫各種MapReduce程序，打包上傳至服務(wù)器上，然后執(zhí)行此程序。關(guān)于Hadoop系統(tǒng)的工作原理，以及MapReduce程序編寫方式，將在后面的章節(jié)進(jìn)行詳細(xì)講解。

注意：

在執(zhí)行MapReduce程序時(shí)，可能會(huì)出現(xiàn)類似 “WARN hdfs.DFSClient：Caught exception”的警告提示信息，這是由于Hadoop版本以及系統(tǒng)資源配置的原因，讀者可以不必在意，它并不會(huì)影響程序的正常執(zhí)行。

猜你喜歡：

Hadoop集群部署有幾種模式？

Hadoop三種運(yùn)行模式的應(yīng)用場(chǎng)景

Hadoop安裝步驟講解，安裝目錄的內(nèi)容和作用是什么？

黑馬程序員python大數(shù)據(jù)開發(fā)培訓(xùn)

上一篇：MySQL表數(shù)據(jù)怎樣導(dǎo)入到Hive文件中？ 下一篇：怎樣使用CLI調(diào)動(dòng)Hive功能？【CLI的使用】