MySQL的MyISAM、InnoDB引擎默認均使用B+樹索引(查詢時都顯示為“BTREE”),本文討論兩個問題: 為什么MySQL等主流數(shù)據(jù)庫選擇B+樹的索引結(jié)構(gòu)? 如何基...
MySQL的MyISAM、InnoDB引擎默認均使用B+樹索引(查詢時都顯示為“BTREE”),本文討論兩個問題: 為什么MySQL等主流數(shù)據(jù)庫選擇B+樹的索引結(jié)構(gòu)? 如何基...
一. cart決策樹簡述 我們知道決策樹算法有ID3、C4.5和cart三種,ID3和C4.5是基于信息增益和信息增益比率做特征選擇的,存在大量的log對數(shù)運算,而且只支持分...
1. 目標 由于Flask是一個輕量級的Web框架,自帶app.run()方法能夠提供http接口服務(wù),測試環(huán)境下測試非常方便,但是如果在生產(chǎn)環(huán)境上單純使用Flask還是會有...
@燙燙燙燙燙燙燙燙燙燙_58e4 用的還是該類下全部樣本向量的均值
大量短文本聚類效果優(yōu)化:余弦相似度,Spark,Mini Batch Kmeans1. 背景 1.1 問題概述 有10萬+條短文本,均是用戶反饋的問題(每條文本長度大概在200字左右),需要對這些文本進行主題聚類,看下用戶反饋的問題都集中在哪些方面。 1....
1. 問題 在工作中,多次遇到了jar包沖突的情況,就以這個為例,整理下解決思路。 現(xiàn)有某Spark程序,從Elasticsearch中讀取數(shù)據(jù)進行后續(xù)的各種分析。當Spar...
用戶編寫的spark程序打包成jar后提交到y(tǒng)arn執(zhí)行時,經(jīng)常會遇到j(luò)ar包中明顯存在某個類,但任務(wù)提交到y(tǒng)arn運行時卻找不到類或方法(java.lang.NoSuchM...
1. 背景 1.1 問題概述 有10萬+條短文本,均是用戶反饋的問題(每條文本長度大概在200字左右),需要對這些文本進行主題聚類,看下用戶反饋的問題都集中在哪些方面。 1....
【火爐煉AI】機器學(xué)習(xí)011-分類模型的評估:準確率,精確率,召回率,F(xiàn)1值 (本文所使用的Python庫和版本號: Python 3.5, Numpy 1.14, scik...
1. 需求 例如用戶給定一個包含與或關(guān)系的關(guān)鍵詞匹配規(guī)則: (G20&中國&(互聯(lián)網(wǎng)|人工智能|AI)&(騰訊|阿里|阿里巴巴|百度|京東)) 需要基于這個規(guī)則采集相關(guān)信息,...
1. 首先SimHash的算法生成圖如下圖所示: 生成步驟如下: 對于每篇文章,選擇分詞作為該篇文章的特征,獲取去掉噪音的詞做為文檔特征,為每個詞賦予一個權(quán)重,該權(quán)重可以使用...
我的職業(yè)生涯有幾次重要的轉(zhuǎn)折和機遇,現(xiàn)在想來很大程度上都是沾了英語好的光。 第一次就是大學(xué)畢業(yè)的第一份正式工作。當時同時拿到了A公司和另外一家知名日企的offer,兩家公司的...