1. 機器學習基礎知識入門
入門知識我沒有太多可講的,詳細原理與基礎知識可參考https://www.cnblogs.com/subconscious/p/4107357.html
1.1 機器學習概念
我認為:機器學習就是將計算機當做?小學生一樣教育,教會他人類的學習方法,利用計算機強大的運算速度,得到較好的運算結果或判斷,專業(yè)的說機器學習是通過利用數據,訓練出模型,然后使用模型預測的一種方法。它允許計算機使用現(xiàn)有的數據來預測未來的行為、結果和趨勢。
1.2 機器學習應用范圍
模式識別,統(tǒng)計學習,數據挖掘,計算機視覺,語音識別,自然語言處理等領域?
我需要注意的是?模式識別,統(tǒng)計學習,數據挖掘
機器學習是一種數據科學技術,而數據科學只可解答以下五種問題:
1.是A還是B? 使用分類算法
?2.是否異常? 使用異常檢測算法
3.多少? 使用回歸算法
4.怎么組織?使用聚類分析算法
5.接下來該怎樣做?使用強化學習算法
1.3 ?機器學習方法
?機器學習常用的不同算法:
以下算法為?比較經典的監(jiān)督學習算法:?
回歸算法?: 線性回歸如擬合出一條直線最佳匹配我所有的數據;而邏輯回歸?是在對線性回歸的計算結果轉化為了0到1之間的概率,進行分類。
神經網絡(ANN):就是分解與整合工作。將復雜的事物進行分解,拆分成較為簡單的事物,放在下一級處理單元,進行處理分析,通過不斷地拆分與分析,將復雜事物拆分為最簡單的零件進行邏輯判斷,最后將所有零件整合處理得出判斷。在這個網絡中,分成輸入層,隱藏層,和輸出層。輸入層負責接收信號,隱藏層負責對數據的分解與處理,最后的結果被整合到輸出層。
?在神經網絡中,每個處理單元事實上就是一個邏輯回歸模型,邏輯回歸模型接收上層的輸入,把模型的預測結果作為輸出傳輸到下一個層次。
SVM(支持向量機)?:非常重要,是邏輯回歸算法的強化。支持向量就是距離分隔超平面最近的那些點,尋找解決此問題的最優(yōu)求解方案就是需要最大化支持向量到分隔面的距離。
通俗上理解:SVM算法核心就是在一組數據中?畫一直線,使得該直線能夠更好地將這組數據分成兩個部分,要求分成兩個部分的數據都到該直線的距離最遠。(與線性回歸類似,線性回歸是找一直線,使得所有數據點距離該直線距離最近,這樣的直線能夠反應所有數據的變化規(guī)律)
?以下算法為?比較經典的非監(jiān)督學習算法:
聚類算法:聚類算法就是計算種群中的距離,根據距離的遠近將數據劃分為多個族群。
聚類算法中經典的為:?K-Means算法
降維算法?: 主要特征是將數據從高維降低到低維層次,主要作用是壓縮數據與提升機器學習其他算法的效率。
降維算法中經典的為:?PCA算法,t-SNE算法?
1.4 Big data大數據
大數據的核心是利用數據的價值,機器學習是利用數據價值的關鍵技術,對于大數據而言,機器學習是不可或缺的。相反,對于機器學習而言,越多的數據會越 可能提升模型的精確性。
It's not who has the best algorithm that wins. It's who has the most data.?
1.5 機器學習子類—Deep Learning深度學習
深度學習即:傳統(tǒng)的神經網絡發(fā)展到了多隱藏層的情況?,具有多個隱藏層的神經網絡被稱為深度神經網絡,基于深度神經網絡的學習研究稱之為深度學習。
優(yōu)點:1.多隱層的神經網絡具有優(yōu)異的特征學習能力,學習得到的特征對數據有更本質的刻畫,從而有利于可視化或分類;2.深度神經網絡在訓練上的難度,可以通過“逐層初始化” 來有效克服。
'