利用Hadoop運行第一個程序,計算文章中不同單詞數(shù)量

今天通過Hadoop來運行第一個程序,來統(tǒng)計一篇文章中不同英文單詞的個數(shù)。

1.創(chuàng)建一個 t1.txt 文件夾,并將你要統(tǒng)計的文章粘貼進去。(這里是將txt文件創(chuàng)建在E盤中,跟Hadoop文件同處于一個盤)

2.在命令提示符下 Hadoop-2.7.3\sbin 中輸入 start-all.cmd 開啟Hadoop服務(wù)

3.準備輸入、輸出文件夾,在HDFS文件系統(tǒng)中創(chuàng)建。

Hadoop中所有的數(shù)據(jù)都必須放在HDFS文件系統(tǒng)中進行處理。

命令提示符中 Hadoop-2.7.3\sbin 下輸入 hadoop fs -mkdir hdfs://localhost:9000/test/input(創(chuàng)建文件夾,localhost:9000為hdfs的系統(tǒng)目錄,test和input是現(xiàn)在要創(chuàng)建的文件名)

輸入 hadoop fs -ls hdfs://localhost:9000/test/ 查看文件是否創(chuàng)建成功

4.上傳需要統(tǒng)計的 t1 文件到 hdfs://localhost:9000/test/input 上

hadoop fs -put E:\t1.txt hdfs://localhost:9000/test/input

5.下載https://pan.baidu.com/s/1cmBJ7S中的 wordcount.jar 到E盤中。

wordcount.jar是Java編寫的一個MapReduce計算單詞數(shù)量的程序

6. 在jar包所在的路徑,執(zhí)行以下命令 hadoop jar wordcount.jar hdfs://localhost:9000/test/input hdfs://localhost:9000/test/output,運行命令之后,顯示如下

7.hadoop fs -ls hdfs://localhost:9000/test/output查看結(jié)果文件

8.hadoop fs -cat hdfs://localhost:9000/test/output/patr-r-00000查看輸出結(jié)果

9.hadoop fs -get hdfs://localhost:9000/test/output/patr-r-00000下載計算結(jié)果到本地

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 首先,我們在使用前先看看HDFS是什麼?這將有助于我們是以后的運維使用和故障排除思路的獲得。 HDFS采用mast...
    W_Bousquet閱讀 4,457評論 0 2
  • (搭建集群部分借鑒了kiwenlau/hadoop-cluster-docker中的內(nèi)容,不過那里的基礎(chǔ)環(huán)境是Ub...
    ProteanBear閱讀 4,010評論 0 12
  • 1 目的將hadoop 2.7.1 安裝到 166、167、168 三臺機器上2 提供環(huán)境練習環(huán)境192.168....
    灼灼2015閱讀 3,635評論 4 40
  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理,服務(wù)發(fā)現(xiàn),斷路器,智...
    卡卡羅2017閱讀 136,554評論 19 139
  • 今天我翻之前的博客,突然找到了前年的sina博客寫的一篇文章,寫給自己的,呵呵,發(fā)現(xiàn)自己還是有一點變化的。 那時我...
    Python面面觀閱讀 407評論 0 1

友情鏈接更多精彩內(nèi)容