TodoList: Be busy living Pamper's Blog
安裝完Ubuntu系統(tǒng)后 配置一個(gè)國(guó)內(nèi)鏡像: 安裝搜狗輸入法:先下載搜狗輸入發(fā)for linux的deb包 打開系統(tǒng)設(shè)置,點(diǎn)擊語(yǔ)言支持,鍵盤輸入方式系統(tǒng)選擇fictix注銷,...
大數(shù)據(jù)及分析環(huán)境 bigdata主要體現(xiàn)在:量,速度,多樣性數(shù)據(jù)量,數(shù)據(jù)流速度(實(shí)時(shí),批量,串流),數(shù)據(jù)多樣性(結(jié)構(gòu)化,半結(jié)構(gòu)化(彈性內(nèi)容),非結(jié)構(gòu)化(寫parser處理))...
下載ubuntu系統(tǒng),下載Ultraiso制作u盤為啟動(dòng)盤 進(jìn)入bios,設(shè)置u盤優(yōu)先啟動(dòng)。重啟安裝,按照提示操作。 安裝完成后我們?cè)俅芜M(jìn)入windows的時(shí)候發(fā)現(xiàn)時(shí)間變了。...
列式數(shù)據(jù)庫(kù)與行式數(shù)據(jù)庫(kù) 從上面可以看出,列式數(shù)據(jù)庫(kù)和行式數(shù)據(jù)庫(kù)各自有著自己的優(yōu)點(diǎn)。傳統(tǒng)數(shù)據(jù)庫(kù)如:oracle、mysql都是行式。它們適合用于實(shí)時(shí)的業(yè)務(wù)系統(tǒng)(OLTP),對(duì)數(shù)...
wordcount 關(guān)于切片劃分maptask任務(wù),由客戶端(提交job)完成,寫入文件交給mr appmaster。這里的任務(wù)切片是一個(gè)邏輯片,和hdfs的block是不同...
mapreduce是hadoop的核心部分之一。是分布式運(yùn)算程序的編程框架。相對(duì)于hdfs,mapreduce就是一個(gè)客戶端。hdfs:namenode,管理整個(gè)系統(tǒng)的元數(shù)據(jù)...
socket:在本地我們用PID來(lái)唯一標(biāo)識(shí)一個(gè)進(jìn)程。但是在網(wǎng)絡(luò)中這樣做難以實(shí)現(xiàn)。在TCP/IP協(xié)議簇中,網(wǎng)絡(luò)層的ip地址可以唯一標(biāo)識(shí)網(wǎng)絡(luò)中的主機(jī),傳輸層的協(xié)議+端口可以唯一標(biāo)...
網(wǎng)絡(luò)模型 這些分類會(huì)有一些大同小異。每一層都是為了完成一種功能,大家都遵守同樣的協(xié)議。 物理層:把電腦連接起來(lái),用光纜、電纜、雙絞線、無(wú)線電波等方式。主要規(guī)定了網(wǎng)絡(luò)的一些電器...
一個(gè)完整的數(shù)據(jù)分析系統(tǒng)通常由大量的任務(wù)單元組成:shell腳本程序,java程序,mapreduce程序,hive腳本等。各任務(wù)單元之間存在時(shí)間先后和依賴關(guān)系,所以需要工作流...
簡(jiǎn)介 flume官網(wǎng)里面有user guide。作用:日志采集、聚合、傳輸核心組件:Agentagent內(nèi)部組件:source,sink,channel(緩存) 這些組件可以...
根據(jù)訪問(wèn)次數(shù)統(tǒng)計(jì)表,得到累計(jì)訪問(wèn)總計(jì) 建表,load數(shù)據(jù) 求每個(gè)用戶的月總金額 把表自己inner join 生成累計(jì)值 分組查詢求月累計(jì)值。為什么要max(salary)?...
hive自定義函數(shù)(udf:user-defined function) 例1:對(duì)于以下數(shù)據(jù) 1、開發(fā)一個(gè)java類,繼承UDF(聚合函數(shù)繼承UDAF)并重載evaluate...
DDL(data definition) CREATE、ALTER、DROP…… 創(chuàng)建表 修改表 顯示命令 操作: 內(nèi)部表和外部表的區(qū)別:外部表drop的時(shí)候,把元數(shù)據(jù)中的記...