KNN算法簡介 首先介紹一下KNN算法的幾個特點: KNN,全稱K-Nearest Neighbor,中文名為K近鄰 思想極度簡單,最基礎的分類算法,非常適合入門 應用數學知...
什么是機器學習 機器學習出現之前: 編寫算法規(guī)則,輸入計算機,機器執(zhí)行后輸出結果。 舉個栗子:垃圾郵件分辨 編寫規(guī)則定義什么是垃圾郵件,新郵件根據規(guī)則去判定是否為垃圾郵件。 ...
Hive自定義函數注冊 查詢引擎都自帶了一部分函數來幫助我們解決查詢過程當中一些復雜的數據計算或者數據轉換操作,但是有時候自帶的函數功能不能滿足業(yè)務的需要。這時候就需要我們自...
內部表:普通表,相當于mysql的物理表,對應hdfs數據,刪除時同時刪除元數據和hdfs表數據 外部表:關鍵字external,指向已存在的hdfs數據,刪除時只刪除元數據...
Hive是一個構建在Hadoop之上的數據倉庫軟件,它可以使已經存儲的數據結構化,它提供類似sql的查詢語句HiveQL對數據進行分析處理。 Hive將HQL轉換為MapRe...
維度與指標 指標與維度最基本的作用是描述與衡量,維度與指標往往成對出現,搭配使用。 無法衡量它,就無法增長它。維度一般選取非數值字段,舉例如“性別”,“國家”,“產品類別”等...