最近,北大開(kāi)源了一個(gè)中文分詞工具包,它在多個(gè)分詞數(shù)據(jù)集上都有非常高的分詞準(zhǔn)確率。其中廣泛使用的結(jié)巴分詞誤差率高達(dá) 18.55% 和 20.42,而北大的 pkuseg 只有 ...
最近,北大開(kāi)源了一個(gè)中文分詞工具包,它在多個(gè)分詞數(shù)據(jù)集上都有非常高的分詞準(zhǔn)確率。其中廣泛使用的結(jié)巴分詞誤差率高達(dá) 18.55% 和 20.42,而北大的 pkuseg 只有 ...
user CF是基于相似用戶的推薦方法,實(shí)現(xiàn)這種推薦的基本思路是:計(jì)算出相似用戶得分,獲取相似用戶的物品集合的打分,最后兩個(gè)得分相乘,得出相似用戶推薦的物品集合topN。 ...
余弦相似度用向量空間中兩個(gè)向量夾角的余弦值作為衡量?jī)蓚€(gè)個(gè)體間差異的大小。余弦值越接近1,就表明夾角越接近0度,也就是兩個(gè)向量越相似,這就叫"余弦相似性"。 對(duì)于兩個(gè)向量,如果...
推薦系統(tǒng)的目的是為客戶推薦最合適的同類產(chǎn)品,這些產(chǎn)品包括文章、商品、音樂(lè)、視頻等等,這些推薦系統(tǒng)比較成熟的例如淘寶、京東等各種電商的推薦(掌柜精選、相關(guān)產(chǎn)品推薦),各類門(mén)戶網(wǎng)...
Python 字典(Dictionary) keys() 函數(shù)以列表返回一個(gè)字典所有的鍵。 keys()方法語(yǔ)法: dict.keys() 參數(shù) NA。 返回值 返回一個(gè)字典...
iterrows():將DataFrame迭代為(insex, Series)對(duì)。 itertuples():將DataFrame迭代為元祖。 iteritems():將Da...
Hbase是被設(shè)計(jì)用來(lái)做K-V查詢,但有時(shí)候也會(huì)遇到基于Hbase表的復(fù)雜統(tǒng)計(jì),寫(xiě)MR很不方便。hive考慮到這一點(diǎn),提供了操作Hbase表的接口。hive讀取Hbase表,...
hbase是列式數(shù)據(jù)庫(kù),rowkey是字典序的。每個(gè)列族是一個(gè)文件,將經(jīng)常一起查詢的列放到同一個(gè)列族中,減少文件的尋址時(shí)間。 數(shù)據(jù)模型: rowkey:是Bytearray,...
zookeeper是松散耦合的分布式系統(tǒng)中粗粒度鎖以及可靠性存儲(chǔ)的系統(tǒng),具有保管數(shù)據(jù)、提供監(jiān)聽(tīng)等功能,存儲(chǔ)的容量不高,具有開(kāi)源、高效的、可協(xié)同工作的特點(diǎn),其數(shù)據(jù)模型具有命名空...
一 Receiver方式 Receiver是使用Kafka的high level的consumer API來(lái)實(shí)現(xiàn)的。Receiver從Kafka中獲取數(shù)據(jù)都是存儲(chǔ)在Spark...
實(shí)時(shí)流式處理系統(tǒng)是7*24小時(shí)運(yùn)行的,同時(shí)可以從各種同時(shí)可以從各種各樣的系統(tǒng)錯(cuò)誤中恢復(fù),在設(shè)計(jì)之處,Spark Streaing就支持driver和worker節(jié)點(diǎn)的錯(cuò)誤恢復(fù)...
全局變量算子是updataStateByKey,需要設(shè)置checkpiont機(jī)制。 checkpoint的意思就是建立檢查點(diǎn),類似于快照,例如在spark計(jì)算里面計(jì)算流程DA...
streaming的窗口操作是對(duì)一定時(shí)間段內(nèi)的處理,主要是有兩個(gè)參數(shù):窗口長(zhǎng)度和窗口滑動(dòng)時(shí)間。 下圖中窗口長(zhǎng)度是30秒,滑動(dòng)時(shí)間是10秒,可以設(shè)置為分鐘 其他窗口函數(shù):
spark streaming是spark 核心API的拓展,是一個(gè)實(shí)時(shí)數(shù)據(jù)計(jì)算工具,具備高吞吐量、容錯(cuò)機(jī)制的特點(diǎn),支持多種數(shù)據(jù)源獲取數(shù)據(jù),接受kafka、flume、HDF...
kafka的特點(diǎn): 1.消息持久化:通過(guò)0(1)的磁盤(pán)數(shù)據(jù)結(jié)構(gòu)提供數(shù)據(jù)的持久化,kafka中可以存儲(chǔ)數(shù)據(jù),存儲(chǔ)量決定可以放多少數(shù)據(jù),數(shù)據(jù)按照接受順序發(fā)送給streaming,...
flume是一款可以從不同的數(shù)據(jù)源把數(shù)據(jù)集中存到HDFS或者Hbase中,flume通過(guò)agent來(lái)完成接受收集數(shù)據(jù),agent是一個(gè)獨(dú)立的守護(hù)進(jìn)程,從客戶端處接受數(shù)據(jù),傳給...
spark3.0版本可能不太公布底層的RDD,以后使用dataframe將成為趨勢(shì),現(xiàn)在大都數(shù)公司也多使用dataframe來(lái)處理數(shù)據(jù) RDD、DataFrame和DataS...
DataFrame 的函數(shù) Action 操作 1、collect() ,返回值是一個(gè)數(shù)組,返回dataframe集合所有的行 2、collectAsList() 返回值是一...