1.正排索引 2.倒排索引 通過(guò)內(nèi)容搜索出id 2.詞頻/位置
投稿
1.正排索引 2.倒排索引 通過(guò)內(nèi)容搜索出id 2.詞頻/位置
ETL定義 字面含義:ETL是抽取、轉(zhuǎn)換、加載的縮寫。 簡(jiǎn)單定義:將數(shù)據(jù)從OLTP系統(tǒng)中轉(zhuǎn)移到數(shù)據(jù)倉(cāng)庫(kù)中的一系列操作的集合。 ETL應(yīng)用范圍 抽...
一、數(shù)據(jù) 數(shù)據(jù)是指未經(jīng)過(guò)處理的原始記錄。 數(shù)據(jù)的本質(zhì)是利用數(shù)學(xué)觀察、記錄、理解世界;數(shù)據(jù)分析的過(guò)程就是人類從定性到定量、模糊到精準(zhǔn)過(guò)程; 大家都...
【摘要】 關(guān)鍵詞:集算器、SPL、數(shù)據(jù)脫敏、報(bào)表 1)、數(shù)據(jù)脫敏是“指對(duì)某些敏感信息通過(guò)脫敏規(guī)則進(jìn)行數(shù)據(jù)的變形,實(shí)現(xiàn)敏感隱私數(shù)據(jù)的可靠保護(hù)。在涉...
大數(shù)據(jù)平臺(tái)通過(guò)將所有數(shù)據(jù)整合起來(lái),充分分析與挖掘數(shù)據(jù)的內(nèi)在價(jià)值,為業(yè)務(wù)部門提供數(shù)據(jù)平臺(tái),數(shù)據(jù)產(chǎn)品與數(shù)據(jù)服務(wù)。大數(shù)據(jù)平臺(tái)接入的數(shù)據(jù)中可能包括很多用...
一、Kafka簡(jiǎn)介 Kafka (科技術(shù)語(yǔ))。Kafka是一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng),它可以處理消費(fèi)者規(guī)模的網(wǎng)站中的所有動(dòng)作流數(shù)據(jù)。 ...
什么是消息系統(tǒng)? 早期兩個(gè)應(yīng)用程序間進(jìn)行消息傳遞需要保證兩個(gè)應(yīng)用程序同時(shí)在線,并且耦合度很高。為了解決應(yīng)用程序不在線的情況下業(yè)務(wù)正常運(yùn)轉(zhuǎn),就產(chǎn)生...
Hadoop生態(tài)圈 可以把hadoop想象成一個(gè)很大的生態(tài)圈(本來(lái)就是),或者說(shuō)想象成一個(gè)動(dòng)物園吧,之后的東西就比較好理解了。(我也不知道為啥p...
前言 算是對(duì)在滴滴實(shí)習(xí)的這段時(shí)間Hive的筆記吧,回學(xué)校也有段時(shí)間了,應(yīng)該整理整理了,肯定不會(huì)巨細(xì)無(wú)遺,作為一種學(xué)習(xí)記錄或者入門指南吧 基礎(chǔ) S...
Hive on Mapreduce Hive的原理大家可以參考這篇大數(shù)據(jù)時(shí)代的技術(shù)hive:hive介紹,實(shí)際的一些操作可以看這篇筆記:新手的H...