Hadoop開發(fā)--MapReduce編程--示例(十)

一、手機(jī)號(hào)分類

??中國(guó)移動(dòng)公司想要查看北京用戶的打電話情況,手機(jī)信號(hào)來自附近的基站,要查看北京用戶的信息得從全國(guó)所有的基站獲取信息并一一篩選,假如我們不把用戶按省市進(jìn)行分別存放的話,每次我們想查看某個(gè)省市的信息時(shí)便需要從全國(guó)所有的基站信息中去一一查詢,這樣做,無疑效率是非常低的。假如我們把數(shù)據(jù)都分省市進(jìn)行存放了,以后我們?cè)傧氩榭幢本┦械拇螂娫捫畔⒈惴浅7奖懔?,直接到存放北京市打電話信息的文件中查找就可以了?br> ??135、136、137、138、139是中國(guó)移動(dòng)的手機(jī)號(hào)碼,150、159是中國(guó)聯(lián)通的手機(jī)號(hào)碼、182、183是中國(guó)電信的手機(jī)號(hào)碼,134還有84138413這樣的網(wǎng)卡歸結(jié)為其它。這樣一來,結(jié)果文件應(yīng)該被分成4份。
同流量統(tǒng)計(jì):


同流量統(tǒng)計(jì)

二、年最高氣溫

必須使用FTP軟件下載:
/pub/data/noaa
ftp://ftp.ncdc.noaa.gov/pub/data/gsod
(一)ncdc數(shù)據(jù)格式解析

2000 01 01 00 10 3 9818 210 21 8 -9999 4
年份 月份 日子 時(shí)間點(diǎn) 氣溫 露點(diǎn)溫度 氣壓 方向 風(fēng)速
1 2 3 4 5 6 7 8 9 10 11 12

1.數(shù)據(jù)格式
第1列: 位置 1-4, 長(zhǎng)度4: 觀察年份
觀察年份, 舍入到最近的一小時(shí)
第2列: 位置 6-7, 長(zhǎng)度2: 觀察月份
觀察月份, 舍入到最近的一小時(shí)
第3列: 位置 9-11, 長(zhǎng)度2: 觀察日期
觀察日期, 舍入到最近的一小時(shí)
第4列: 位置12-13, 長(zhǎng)度2: 觀察小時(shí)點(diǎn)
觀察小時(shí)點(diǎn), 舍入到最近的一小時(shí)
第5列: 位置 14-19, 長(zhǎng)度6: 氣溫
氣溫計(jì)量單位: 攝氏度
換算系數(shù): 10
缺失值: -9999
第6列: 位置 20-24, 長(zhǎng)度6: 露點(diǎn)溫度
計(jì)量單位: 攝氏度
換算系數(shù): 10
缺失值: -9999
第7列: 位置 26-31, 長(zhǎng)度6: 海平面氣壓
相對(duì)于平均海平面的氣壓
計(jì)量單位: 帕斯卡
換算系數(shù): 10
缺失值: -9999
第8列: 位置 32-37, 長(zhǎng)度6: 風(fēng)向
起風(fēng)點(diǎn)與正北方向順時(shí)針測(cè)量的夾角
計(jì)量單位: 角度
換算系數(shù): 1
缺失值: -9999
*注意: 無風(fēng)的風(fēng)向編碼為"0"
第9列: 位置 38-43, 長(zhǎng)度6: 風(fēng)速
空氣通過某一個(gè)固定點(diǎn)的水平速度
計(jì)量單位: 米每秒
換算系數(shù): 10
缺失值: -9999
第10列: 位置44-49, 長(zhǎng)度6:空氣狀況總覆蓋編碼
缺失值: -9999
第11列: 位置 50-55, 長(zhǎng)度6: Liquid Precipitation Depth Dimension– 一個(gè)小時(shí)內(nèi)
計(jì)量單位:毫米 millimeters
換算系數(shù): 10
缺失值: -9999
*注意: Trace precipitation is coded as "-1"
第12列: 位置 56-61, 長(zhǎng)度6: Liquid Precipitation Depth Dimension– 6個(gè)小時(shí)內(nèi)
計(jì)量單位: 毫米
換算系數(shù): 10
缺失值: -9999


編程模型

數(shù)據(jù)格式:

2016 01 01 00    52   -36 10120   230    30 -9999 -9999 -9999

(二)計(jì)算在1949-1955年中,每年的溫度降序排序且每年單獨(dú)一個(gè)文件輸出存儲(chǔ)

--輸入數(shù)據(jù)  
1949-10-01 14:21:02 34°C
1949-10-02 14:01:02 36°C
1950-01-01 11:21:02 32°C
1950-19-01 12:21:02 37°C
1951-12-01 12:21:02 23°C
1950-10-02 12:21:02 41°C
1950-10-03 12:21:02 27°C
1951-07-01 12:21:02 45°C
1951-07-02 12:21:02 46°C

--時(shí)間和溫度之間是制表符\t

--思路:
1.按照年份升序,同時(shí)每一年中溫度降序排序
2.按照年份分組,每一年對(duì)應(yīng)一個(gè)reduce任務(wù)
mapper輸出,key為封裝對(duì)象。

--目的:
自定義排序
自定義分區(qū)
自定義分組

結(jié)果

結(jié)果

結(jié)果

結(jié)果

三、計(jì)算奇數(shù)行與偶數(shù)行數(shù)據(jù)之和

1.數(shù)據(jù):

10
20
30
40
50
60
70

要求:分別計(jì)算奇數(shù)行與偶數(shù)行數(shù)據(jù)之和
奇數(shù)行總和:10+30+50+70=160
偶數(shù)行總和:20+40+60=120
2.結(jié)果:

結(jié)果

結(jié)果

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • ORA-00001: 違反唯一約束條件 (.) 錯(cuò)誤說明:當(dāng)在唯一索引所對(duì)應(yīng)的列上鍵入重復(fù)值時(shí),會(huì)觸發(fā)此異常。 O...
    我想起個(gè)好名字閱讀 5,985評(píng)論 0 9
  • 專業(yè)考題類型管理運(yùn)行工作負(fù)責(zé)人一般作業(yè)考題內(nèi)容選項(xiàng)A選項(xiàng)B選項(xiàng)C選項(xiàng)D選項(xiàng)E選項(xiàng)F正確答案 變電單選GYSZ本規(guī)程...
    小白兔去釣魚閱讀 10,592評(píng)論 0 13
  • 1. 簡(jiǎn)述相關(guān)分析和回歸分析的區(qū)別和聯(lián)系。 回歸分析和相關(guān)分析都是研究?jī)蓚€(gè)或兩個(gè)以上變量之間關(guān)系的方法。 廣義上說...
    安也也閱讀 9,171評(píng)論 0 3
  • 情緒:開心,感動(dòng) 情緒來源:今天給200多位非常努力和可愛的大學(xué)生們分享我們孵化器的創(chuàng)新創(chuàng)業(yè)模式,大家互動(dòng)得非常好...
    頑伴高振裕閱讀 198評(píng)論 0 1
  • 我喜歡他已經(jīng)好久了,久到可以用兩個(gè)三年計(jì)算,連我自己都覺得很不可思議!記得剛剛認(rèn)識(shí)的時(shí)候,他是個(gè)酷酷的少年,對(duì)于外...
    嫡心閱讀 344評(píng)論 0 2

友情鏈接更多精彩內(nèi)容