今天通過Hadoop來運行第一個程序,來統(tǒng)計一篇文章中不同英文單詞的個數(shù)。
1.創(chuàng)建一個 t1.txt 文件夾,并將你要統(tǒng)計的文章粘貼進去。(這里是將txt文件創(chuàng)建在E盤中,跟Hadoop文件同處于一個盤)
2.在命令提示符下 Hadoop-2.7.3\sbin 中輸入 start-all.cmd 開啟Hadoop服務(wù)
3.準備輸入、輸出文件夾,在HDFS文件系統(tǒng)中創(chuàng)建。
Hadoop中所有的數(shù)據(jù)都必須放在HDFS文件系統(tǒng)中進行處理。
命令提示符中 Hadoop-2.7.3\sbin 下輸入 hadoop fs -mkdir hdfs://localhost:9000/test/input(創(chuàng)建文件夾,localhost:9000為hdfs的系統(tǒng)目錄,test和input是現(xiàn)在要創(chuàng)建的文件名)
輸入 hadoop fs -ls hdfs://localhost:9000/test/ 查看文件是否創(chuàng)建成功
4.上傳需要統(tǒng)計的 t1 文件到 hdfs://localhost:9000/test/input 上
hadoop fs -put E:\t1.txt hdfs://localhost:9000/test/input
5.下載https://pan.baidu.com/s/1cmBJ7S中的 wordcount.jar 到E盤中。
wordcount.jar是Java編寫的一個MapReduce計算單詞數(shù)量的程序
6. 在jar包所在的路徑,執(zhí)行以下命令 hadoop jar wordcount.jar hdfs://localhost:9000/test/input hdfs://localhost:9000/test/output,運行命令之后,顯示如下

7.hadoop fs -ls hdfs://localhost:9000/test/output查看結(jié)果文件

8.hadoop fs -cat hdfs://localhost:9000/test/output/patr-r-00000查看輸出結(jié)果

9.hadoop fs -get hdfs://localhost:9000/test/output/patr-r-00000下載計算結(jié)果到本地
