光陰似箭,歲月如梭。機(jī)器學(xué)習(xí)時(shí)間也將近大半年了,一直在思考為什么要學(xué)習(xí)這玩意。高數(shù)和線代一直是多少人的噩夢,諱莫如深的算法,加上spark、sc...
矩陣行列式的幾何意義 矩陣只是一個(gè)數(shù)表,行列式還要對這個(gè)數(shù)表按照規(guī)則進(jìn)一步計(jì)算,最終得到一個(gè)實(shí)數(shù)、復(fù)數(shù)或者多項(xiàng)式 概括說來有兩個(gè)解釋: 一個(gè)解釋...
幾乎所有的機(jī)器學(xué)習(xí)模型都是與用向量表示的數(shù)值特征打交道。因此,需要將原始數(shù)據(jù)轉(zhuǎn)換為數(shù)值。 數(shù)值特征:這些特征通常為實(shí)數(shù)或整數(shù),比如年齡 類別特征...
pipelines中文意思是計(jì)算機(jī)流水線作業(yè),通過pipelines的api可以很方便的實(shí)現(xiàn)數(shù)據(jù)工作流:數(shù)據(jù)源->特征轉(zhuǎn)換->數(shù)據(jù)建模->數(shù)據(jù)預(yù)...
昨天看到這樣一道題,一機(jī)器在良好狀態(tài)生產(chǎn)合格產(chǎn)品幾率是 90%,在故障狀態(tài)生產(chǎn)合格產(chǎn)品幾率是 30%,機(jī)器良好的概率是 75%。若一日第一件產(chǎn)品...
spark2.4開始支持image圖片數(shù)據(jù)源操作 df的schema信息 如果是多層目錄,而且需要獲取目錄名,可以將目錄命為:cls=strin...
皮爾森相關(guān)性 樣本相關(guān)與它代表的總體相關(guān)會(huì)存在一些誤差。即使總體之間不存在相關(guān),任然可能會(huì)獲得一個(gè)非零相關(guān),對于小樣本來說尤其如此 當(dāng)樣本只有兩...
常用的sql查詢引擎 hive,impala,hive on spark,presto(京東),drill(支持hdfs,hive),phoen...
小文件過多,會(huì)消耗hdfs的namenode的內(nèi)存內(nèi)存消耗=文件數(shù)+目錄數(shù)+block的數(shù)量