一、UML基礎(chǔ) 為什么要使用UML 對(duì)象是面向?qū)ο笫澜绲暮诵?。面向?qū)ο筌浖治龊驮O(shè)計(jì),最基本的需求是高效的識(shí)別對(duì)象,完成對(duì)象識(shí)別之后,賦予每個(gè)對(duì)象相應(yīng)的功能或職責(zé)。在完成以上...
一、UML基礎(chǔ) 為什么要使用UML 對(duì)象是面向?qū)ο笫澜绲暮诵?。面向?qū)ο筌浖治龊驮O(shè)計(jì),最基本的需求是高效的識(shí)別對(duì)象,完成對(duì)象識(shí)別之后,賦予每個(gè)對(duì)象相應(yīng)的功能或職責(zé)。在完成以上...
隨著企業(yè)的發(fā)展,他們的工作流程變得更加復(fù)雜,越來越多的有著錯(cuò)綜復(fù)雜依賴關(guān)系的工作流需要增加監(jiān)控,故障排除。如果沒有明確的血緣關(guān)系。就可能出現(xiàn)問責(zé)問題,對(duì)元數(shù)據(jù)的操作也可能丟失...
對(duì)于下面一段SQL 在由一條SQL分析SparkSQL執(zhí)行過程(二)中,我們分析到Spark如何封裝SessionState,使得用戶只需要通過SparkSQL入口Spark...
對(duì)于下面一段SQL 在上一部分,我們分析了SparkSQL的建議執(zhí)行流程圖。我們知道一條SQL在Spark執(zhí)行要經(jīng)歷以下幾步: 用戶提交SQL文本 解析器將SQL文本解析成邏...
現(xiàn)有下面這段SQL語句 這段SQL是從日志表中拿出用戶點(diǎn)擊PV(clk_pv),再去和用戶表關(guān)聯(lián),按照用戶分組,再對(duì)點(diǎn)擊pv求和,同時(shí),還過濾了fr(平臺(tái))是android的...
一、問題 在爬取到雙色球開獎(jiǎng)的歷史數(shù)據(jù)和開獎(jiǎng)當(dāng)日20-22點(diǎn)的氣候數(shù)據(jù)之后,我們面臨的問題是: 選擇什么樣的算法尋找天氣數(shù)據(jù)和雙色球開獎(jiǎng)結(jié)果的關(guān)系(只選擇藍(lán)球) 為實(shí)現(xiàn)1的算...
一、寫在前面 ElasticSearch 是一個(gè)快速索引檢索的庫。在實(shí)踐中,我們用Hbase 存儲(chǔ)海量業(yè)務(wù)數(shù)據(jù),再通過ES存儲(chǔ)索引,以這種相互結(jié)合的方式,將數(shù)據(jù)暴露給Web服...
一、背景 項(xiàng)目中有需求,要頻繁地、快速地向一個(gè)表中初始化數(shù)據(jù)。因此如何加載數(shù)據(jù),如何提高速度是需要解決的問題。一般來說,作為數(shù)據(jù)存儲(chǔ)系統(tǒng)會(huì)分為檢索和存儲(chǔ)兩部分。檢索是對(duì)外暴露...
一、寫在前面 最近嘗試在簡(jiǎn)書上寫一些技術(shù)博客。每天看著可憐的閱讀量很是著急。剛好最近接觸爬蟲,有需求就有辦法。因此想到能否用爬蟲刷閱讀量呢?答案是可行的。 友情提示:酒香不怕...
一、寫在前面 由于Spark 的速度,API 的易用性,Spark在行業(yè)中的使用越來越廣泛。Hbase 在2.0 alpha 版之后也加入對(duì)Spark的支持;ElasticS...
一、引子 在用Spark SQL編程時(shí),不論是執(zhí)行SQL語句,還是編寫算子提交SparkSubmit 執(zhí)行,在DataFrame 上的操作大致都會(huì)經(jīng)歷以下過程: 在關(guān)系型數(shù)據(jù)...
一、引子 項(xiàng)目中遇到這樣一張表:user 要求對(duì)這個(gè)表按照sid 進(jìn)行聚合,將所有的id聚合成一個(gè)json,所有的tag聚合成一個(gè)json。在hive和Spark中,對(duì)tag...
在Spark SQL 編程時(shí),經(jīng)常需要對(duì)獲取的DataFrame 對(duì)象進(jìn)行map 操作。map 基于的元素是Row. 那么如何操作Row呢? 1. get 方法 2. 使用類...
一、背景 用戶畫像項(xiàng)目中,埋點(diǎn)數(shù)據(jù)獲取到移動(dòng)端、PC端用戶IP, 業(yè)務(wù)需求從IP解析出IP對(duì)應(yīng)的地址。分析發(fā)現(xiàn),數(shù)據(jù)有以下特點(diǎn):1. 用戶類型為Global,IP 為全球范圍...
Hbase RowKey 設(shè)計(jì) 使用Spark或通過REST/API 方式存取Hbase,性能影響最大的因素在于Hbase 的結(jié)構(gòu)設(shè)計(jì)。Hbase 結(jié)構(gòu)設(shè)計(jì)包括兩個(gè)方面 ro...
一、背景 在用戶畫像的系統(tǒng)中,需要將用戶ID的拉通結(jié)果表和用戶標(biāo)簽的結(jié)果表存入Hbase中。組件如下: 因而提出以下幾個(gè)問題: Spark 作為內(nèi)存計(jì)算引擎強(qiáng)于計(jì)算,Hbas...