入門機器學(xué)習(xí),我們都要學(xué)什么?

作為一個初學(xué)機器學(xué)習(xí)的人,確定學(xué)習(xí)目標(biāo)很重要。這篇文章列舉出機器學(xué)習(xí)中基礎(chǔ)的常見算法。

機器學(xué)習(xí)的算法分為監(jiān)督學(xué)習(xí)算法和非監(jiān)督學(xué)習(xí)算法。是否有監(jiān)督,就看輸入數(shù)據(jù)是否有標(biāo)簽。輸入數(shù)據(jù)有標(biāo)簽,則為有監(jiān)督學(xué)習(xí),沒標(biāo)簽則為無監(jiān)督學(xué)習(xí)。

一、監(jiān)督學(xué)習(xí)算法

1.線性回歸算法

線性回歸算法通常用來構(gòu)建一個預(yù)測模型。例如,根據(jù)房子年限、房屋面積這兩個特性,來預(yù)測房屋價格,就可以構(gòu)建一個線性回歸算法。利用已有的數(shù)據(jù)訓(xùn)練模型,再用訓(xùn)練好的模型預(yù)測新的房價。

如果有一個輸入x,對應(yīng)一個輸出y,就可以構(gòu)建一個一維現(xiàn)行回歸模型,通常表現(xiàn)為一條直線或取現(xiàn),當(dāng)給定一個x值時,對應(yīng)可以求出y值。當(dāng)有多個特征共同影響y值時,就可以構(gòu)建一個多元的線性回歸模型。

2.邏輯回歸算法

邏輯回歸算法用來進行對數(shù)據(jù)的分類。它和線性回歸算法類似,不同之處在于,輸出值y是給定的幾類。最常見的是分成兩類,如好和壞。使用邏輯回歸算法,可以根據(jù)輸入數(shù)據(jù)的特征,判斷該條數(shù)據(jù)的輸出是哪一類的。

3.神經(jīng)網(wǎng)絡(luò)算法

神經(jīng)網(wǎng)絡(luò)算法也用于數(shù)據(jù)的預(yù)測。神經(jīng)網(wǎng)絡(luò)算法通過模擬人類大腦的工作模式來建立模型。前期通過大量的已有數(shù)據(jù),進行神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練(給定輸入的特征x1、x2、x3......,輸出y)。接下來,使用訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)預(yù)測未知的數(shù)據(jù)。

4.支撐向量機

支撐向量機可以用來分類和回歸分析,其基本模型定義為特征空間上的間隔最大的線性分類器,即支持向量機的學(xué)習(xí)策略便是間隔最大化。

二、非監(jiān)督學(xué)習(xí)

1.Kmeans聚類

聚類是一種非監(jiān)督學(xué)習(xí),它和分類的不同之處在于,分類是有標(biāo)簽的,而聚類是無標(biāo)簽的。分類的結(jié)果是知道哪個好哪個壞,而聚類是根據(jù)特性,將相似的事物聚集到一起,不考慮它們的好壞。

Kmeas算法是聚類算法中的一種,可以根據(jù)輸入的特性,將一些數(shù)據(jù)聚集為成任意多個類別。Kmeas算法使用距離的遠(yuǎn)近來聚集一類數(shù)據(jù)。

2.降維

有的時候,一條數(shù)據(jù)的輸入特性可能有很多。比如,在預(yù)測房價的問題上,可能會輸入房間面積、年限、地理位置相關(guān)信息等近百個屬性。使用這么多屬性進行分析,會為分析過程帶來麻煩。降維,就是將這些D個維度的輸入屬性,縮小成d個維度的輸入屬性。它將一些輸入特性合并或進行某些操作,來減少變量的數(shù)量。

3.異常檢測

異常檢測用來判斷某一個數(shù)據(jù),其輸入特性是否異常。例如,有多個屬性來描述一個飛機的發(fā)動機,在大量的數(shù)據(jù)輸入中,通過異常檢測,來發(fā)現(xiàn)哪條數(shù)據(jù)記錄存在異常

在下一階段的機器學(xué)習(xí)學(xué)習(xí)中,將對上面提到的基本算法進行逐一研究。歡迎同樣是初學(xué)機器學(xué)習(xí)的小伙伴互相交流~

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容