光陰似箭,歲月如梭。機器學習時間也將近大半年了,一直在思考為什么要學習這玩意。高數(shù)和線代一直是多少人的噩夢,諱莫如深的算法,加上spark、sc...
矩陣行列式的幾何意義 矩陣只是一個數(shù)表,行列式還要對這個數(shù)表按照規(guī)則進一步計算,最終得到一個實數(shù)、復數(shù)或者多項式 概括說來有兩個解釋: 一個解釋...
幾乎所有的機器學習模型都是與用向量表示的數(shù)值特征打交道。因此,需要將原始數(shù)據(jù)轉換為數(shù)值。 數(shù)值特征:這些特征通常為實數(shù)或整數(shù),比如年齡 類別特征...
pipelines中文意思是計算機流水線作業(yè),通過pipelines的api可以很方便的實現(xiàn)數(shù)據(jù)工作流:數(shù)據(jù)源->特征轉換->數(shù)據(jù)建模->數(shù)據(jù)預...
昨天看到這樣一道題,一機器在良好狀態(tài)生產(chǎn)合格產(chǎn)品幾率是 90%,在故障狀態(tài)生產(chǎn)合格產(chǎn)品幾率是 30%,機器良好的概率是 75%。若一日第一件產(chǎn)品...
spark2.4開始支持image圖片數(shù)據(jù)源操作 df的schema信息 如果是多層目錄,而且需要獲取目錄名,可以將目錄命為:cls=strin...
皮爾森相關性 樣本相關與它代表的總體相關會存在一些誤差。即使總體之間不存在相關,任然可能會獲得一個非零相關,對于小樣本來說尤其如此 當樣本只有兩...
常用的sql查詢引擎 hive,impala,hive on spark,presto(京東),drill(支持hdfs,hive),phoen...
小文件過多,會消耗hdfs的namenode的內存內存消耗=文件數(shù)+目錄數(shù)+block的數(shù)量