一、手機(jī)號(hào)分類
??中國(guó)移動(dòng)公司想要查看北京用戶的打電話情況,手機(jī)信號(hào)來自附近的基站,要查看北京用戶的信息得從全國(guó)所有的基站獲取信息并一一篩選,假如我們不把用戶按省市進(jìn)行分別存放的話,每次我們想查看某個(gè)省市的信息時(shí)便需要從全國(guó)所有的基站信息中去一一查詢,這樣做,無疑效率是非常低的。假如我們把數(shù)據(jù)都分省市進(jìn)行存放了,以后我們?cè)傧氩榭幢本┦械拇螂娫捫畔⒈惴浅7奖懔?,直接到存放北京市打電話信息的文件中查找就可以了?br>
??135、136、137、138、139是中國(guó)移動(dòng)的手機(jī)號(hào)碼,150、159是中國(guó)聯(lián)通的手機(jī)號(hào)碼、182、183是中國(guó)電信的手機(jī)號(hào)碼,134還有84138413這樣的網(wǎng)卡歸結(jié)為其它。這樣一來,結(jié)果文件應(yīng)該被分成4份。
同流量統(tǒng)計(jì):

二、年最高氣溫
必須使用FTP軟件下載:
/pub/data/noaa
ftp://ftp.ncdc.noaa.gov/pub/data/gsod
(一)ncdc數(shù)據(jù)格式解析
| 2000 | 01 | 01 | 00 | 10 | 3 | 9818 | 210 | 21 | 8 | -9999 | 4 |
|---|---|---|---|---|---|---|---|---|---|---|---|
| 年份 | 月份 | 日子 | 時(shí)間點(diǎn) | 氣溫 | 露點(diǎn)溫度 | 氣壓 | 方向 | 風(fēng)速 | |||
| 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
1.數(shù)據(jù)格式
第1列: 位置 1-4, 長(zhǎng)度4: 觀察年份
觀察年份, 舍入到最近的一小時(shí)
第2列: 位置 6-7, 長(zhǎng)度2: 觀察月份
觀察月份, 舍入到最近的一小時(shí)
第3列: 位置 9-11, 長(zhǎng)度2: 觀察日期
觀察日期, 舍入到最近的一小時(shí)
第4列: 位置12-13, 長(zhǎng)度2: 觀察小時(shí)點(diǎn)
觀察小時(shí)點(diǎn), 舍入到最近的一小時(shí)
第5列: 位置 14-19, 長(zhǎng)度6: 氣溫
氣溫計(jì)量單位: 攝氏度
換算系數(shù): 10
缺失值: -9999
第6列: 位置 20-24, 長(zhǎng)度6: 露點(diǎn)溫度
計(jì)量單位: 攝氏度
換算系數(shù): 10
缺失值: -9999
第7列: 位置 26-31, 長(zhǎng)度6: 海平面氣壓
相對(duì)于平均海平面的氣壓
計(jì)量單位: 帕斯卡
換算系數(shù): 10
缺失值: -9999
第8列: 位置 32-37, 長(zhǎng)度6: 風(fēng)向
起風(fēng)點(diǎn)與正北方向順時(shí)針測(cè)量的夾角
計(jì)量單位: 角度
換算系數(shù): 1
缺失值: -9999
*注意: 無風(fēng)的風(fēng)向編碼為"0"
第9列: 位置 38-43, 長(zhǎng)度6: 風(fēng)速
空氣通過某一個(gè)固定點(diǎn)的水平速度
計(jì)量單位: 米每秒
換算系數(shù): 10
缺失值: -9999
第10列: 位置44-49, 長(zhǎng)度6:空氣狀況總覆蓋編碼
缺失值: -9999
第11列: 位置 50-55, 長(zhǎng)度6: Liquid Precipitation Depth Dimension– 一個(gè)小時(shí)內(nèi)
計(jì)量單位:毫米 millimeters
換算系數(shù): 10
缺失值: -9999
*注意: Trace precipitation is coded as "-1"
第12列: 位置 56-61, 長(zhǎng)度6: Liquid Precipitation Depth Dimension– 6個(gè)小時(shí)內(nèi)
計(jì)量單位: 毫米
換算系數(shù): 10
缺失值: -9999

數(shù)據(jù)格式:
2016 01 01 00 52 -36 10120 230 30 -9999 -9999 -9999
(二)計(jì)算在1949-1955年中,每年的溫度降序排序且每年單獨(dú)一個(gè)文件輸出存儲(chǔ)
--輸入數(shù)據(jù)
1949-10-01 14:21:02 34°C
1949-10-02 14:01:02 36°C
1950-01-01 11:21:02 32°C
1950-19-01 12:21:02 37°C
1951-12-01 12:21:02 23°C
1950-10-02 12:21:02 41°C
1950-10-03 12:21:02 27°C
1951-07-01 12:21:02 45°C
1951-07-02 12:21:02 46°C
--時(shí)間和溫度之間是制表符\t
--思路:
1.按照年份升序,同時(shí)每一年中溫度降序排序
2.按照年份分組,每一年對(duì)應(yīng)一個(gè)reduce任務(wù)
mapper輸出,key為封裝對(duì)象。
--目的:
自定義排序
自定義分區(qū)
自定義分組




三、計(jì)算奇數(shù)行與偶數(shù)行數(shù)據(jù)之和
1.數(shù)據(jù):
10
20
30
40
50
60
70
要求:分別計(jì)算奇數(shù)行與偶數(shù)行數(shù)據(jù)之和
奇數(shù)行總和:10+30+50+70=160
偶數(shù)行總和:20+40+60=120
2.結(jié)果:

