機(jī)器學(xué)習(xí)分類(lèi)

機(jī)器學(xué)習(xí)

Machine Learning (ML) is a scientific discipline that deals with the construction and study of algorithms that can learn from data.

機(jī)器學(xué)習(xí)是一門(mén)從數(shù)據(jù)中研究算法的科學(xué)學(xué)科。

機(jī)器學(xué)習(xí)直白來(lái)講,是根據(jù)已有的數(shù)據(jù),進(jìn)行算法選擇,并基于算法和數(shù)據(jù)構(gòu)建模型,最終對(duì)未來(lái)進(jìn)行預(yù)測(cè)。

數(shù)據(jù)分析

Data analysis is a process of inspecting,cleansing,transforming and modeling data with the goal of discovering useful information, informing conclusions, and supporting decision-making.

數(shù)據(jù)挖掘是一種特殊的數(shù)據(jù)分析技術(shù),專(zhuān)注于建模和知識(shí)發(fā)現(xiàn),用于預(yù)測(cè)而非純粹的描述目的,而商業(yè)智能涵蓋的數(shù)據(jù)分析主要依賴(lài)于聚合,主要關(guān)注業(yè)務(wù)信息。在統(tǒng)計(jì)應(yīng)用中,數(shù)據(jù)分析可分為描述性統(tǒng)計(jì)、探測(cè)性數(shù)據(jù)分析(EDA)和驗(yàn)證性數(shù)據(jù)分析(CDA)。EDA專(zhuān)注于發(fā)現(xiàn)數(shù)據(jù)中的新功能,而CDA則專(zhuān)注于確認(rèn)偽造現(xiàn)有的假設(shè)。預(yù)測(cè)分析側(cè)重于應(yīng)用統(tǒng)計(jì)模型進(jìn)行預(yù)測(cè)分析或分類(lèi),而文本分析則應(yīng)用統(tǒng)計(jì),語(yǔ)言和結(jié)構(gòu)技術(shù)從文本來(lái)源(一種非結(jié)構(gòu)化數(shù)據(jù))中提取和分類(lèi)信息。

數(shù)據(jù)挖掘

Data mining is the process of discovering patterns in large data sets involving methods at the intersection of machine learning ,statistics, and databases system.

數(shù)據(jù)挖掘過(guò)程的總體目標(biāo)是從一個(gè)數(shù)據(jù)集中提取信息,并將其轉(zhuǎn)換成可理解的結(jié)構(gòu),以進(jìn)一步使用。除了原始分析步驟,它還涉及到數(shù)據(jù)庫(kù)和數(shù)據(jù)管理方面、數(shù)據(jù)預(yù)處理、模型與推斷方面考量、興趣度度量、復(fù)雜度的考慮,以及發(fā)現(xiàn)結(jié)構(gòu)、可視化集在線更新等處理、

數(shù)據(jù)挖掘是“數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)”(Knowledge-Discovery in Databases, KDD)的分析步驟,本質(zhì)上屬于機(jī)器學(xué)的范疇。

數(shù)據(jù)挖掘的實(shí)際工作是對(duì)大規(guī)模數(shù)據(jù)模型進(jìn)行自動(dòng)或半自動(dòng)的分析,以提取過(guò)去未知的有價(jià)值的潛在信息,例如數(shù)據(jù)分析(通過(guò)聚類(lèi)分析)、數(shù)據(jù)的異常記錄(通常異常檢測(cè))和數(shù)據(jù)之間的關(guān)系(通過(guò)關(guān)聯(lián)式規(guī)則挖掘)。這通常設(shè)計(jì)到數(shù)據(jù)庫(kù)技術(shù),例如空間索引。這些潛在信心可以通過(guò)對(duì)輸入數(shù)據(jù)處理之后的總結(jié)來(lái)呈現(xiàn),之后可以用于進(jìn)一步分析,比如機(jī)器學(xué)習(xí)和預(yù)測(cè)分子。

機(jī)器學(xué)習(xí)分類(lèi),方式1:

機(jī)器學(xué)習(xí)分為:有監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)。

有監(jiān)督學(xué)習(xí):用已知某種或某些特性的樣本作為訓(xùn)練集,以建立一個(gè)數(shù)學(xué)模型,再用已建立的模型來(lái)預(yù)測(cè)位置樣本,此種方法被稱(chēng)為有監(jiān)督學(xué)習(xí),最常用的一種機(jī)器學(xué)習(xí)方法,是從標(biāo)簽化訓(xùn)練數(shù)據(jù)集中推斷出模型的機(jī)器學(xué)習(xí)任務(wù)。

無(wú)監(jiān)督學(xué)習(xí):與有監(jiān)督學(xué)習(xí)相比,無(wú)監(jiān)督學(xué)習(xí)的訓(xùn)練集中沒(méi)有人為的標(biāo)注結(jié)果,在非監(jiān)督的學(xué)習(xí)過(guò)程中,數(shù)據(jù)并不被特別標(biāo)注,學(xué)習(xí)模型是為了推斷出數(shù)據(jù)的一些內(nèi)在結(jié)構(gòu)。

半監(jiān)督學(xué)習(xí):考慮如何利用少量的標(biāo)注樣本和大量的未標(biāo)注樣本進(jìn)行訓(xùn)練和分類(lèi)的問(wèn)題,是有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)的集合。

有監(jiān)督學(xué)習(xí)

判別式模型(Discriminative Model):直接對(duì)條件概率P(y|x)進(jìn)行建模,常見(jiàn)判別模型有:線性回歸、決策樹(shù)、支持向量機(jī)SVM、k近鄰、神經(jīng)網(wǎng)絡(luò)等。

生成式模型(Generative Model):對(duì)聯(lián)合分布概率P(x,y)進(jìn)行建模,常見(jiàn)生成式模型有隱馬爾可夫模型HMM、樸素貝葉斯模型、高斯混合模型GMM、LDA等。

生成式模型更普適;判別式模型更直接,目標(biāo)性更強(qiáng)。

生成式模型關(guān)注數(shù)據(jù)時(shí)如何產(chǎn)生的。尋找的是數(shù)據(jù)分布模型;判別式模型關(guān)注的是數(shù)據(jù)的差異性,尋找的是分類(lèi)面。

由生成式模型可以產(chǎn)生判別式模型,但是由判別式模型沒(méi)法形成生成式模型。

無(wú)監(jiān)督學(xué)習(xí)

無(wú)監(jiān)督學(xué)習(xí)試圖學(xué)習(xí)或者提取數(shù)據(jù)背后的數(shù)據(jù)特征,或者從數(shù)據(jù)中抽取出重要的特征信息,常見(jiàn)的算法有聚類(lèi)、降維、文本處理(特征提?。┑?。

無(wú)監(jiān)督學(xué)習(xí)一般是作為有監(jiān)督學(xué)習(xí)的前期數(shù)據(jù)處理,功能是從原始數(shù)據(jù)中抽取出來(lái)必要的標(biāo)簽信息。

機(jī)器學(xué)習(xí)分類(lèi),方式2:

分類(lèi):

? ? 通過(guò)分類(lèi)模型,將樣本數(shù)據(jù)集中的樣本映射到某個(gè)給定的類(lèi)別中。

聚類(lèi):

? ? 通過(guò)聚類(lèi)模型,將樣本數(shù)據(jù)集中的樣本分為幾個(gè)類(lèi)別,屬于同一類(lèi)別的樣本相似性比較大。

回歸:

? ? 反映了樣本數(shù)據(jù)集中樣本的屬性值得特征,通過(guò)函數(shù)表達(dá)樣本映射的關(guān)系來(lái)發(fā)現(xiàn)屬性值之間的依賴(lài)關(guān)系。

關(guān)聯(lián)規(guī)則:

? ? 獲取隱藏在數(shù)據(jù)項(xiàng)之間的關(guān)聯(lián)或相互關(guān)系,即可根據(jù)一個(gè)數(shù)據(jù)項(xiàng)的出現(xiàn)推導(dǎo)出其他數(shù)據(jù)項(xiàng)的出現(xiàn)頻率。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容