介紹
第一部分 參數(shù)方法——類密度模型參數(shù)估計
第二部分 監(jiān)督學(xué)習(xí)——分類(基于似然的方法)
第三部分 監(jiān)督學(xué)習(xí)——分類(基于判別式的方法)(參數(shù)方法——判別式參數(shù)估計)
第四部分 監(jiān)督學(xué)習(xí)——回歸
第五部分 監(jiān)督學(xué)習(xí)——關(guān)聯(lián)規(guī)則
第六部分 維度規(guī)約(特征的提取和組合)
第七部分 半?yún)?shù)方法
第八部分 非監(jiān)督學(xué)習(xí)——聚類
第九部分 非參數(shù)方法——密度估計
第十部分 非參數(shù)方法——決策樹實現(xiàn)的判別式
第十一部分 多層感知器——非參數(shù)估計器
第十二部分 局部模型
第十三部分 支持向量機(jī)與核機(jī)器
第十四部分 隱馬爾科夫模型
第十五部分 參數(shù)的貝葉斯估計
第十六部分 集成學(xué)習(xí)——組合多學(xué)習(xí)器
第十七部分 增強(qiáng)學(xué)習(xí)
第十八部分 機(jī)器學(xué)習(xí)實驗
第十九部分 特征工程與數(shù)據(jù)預(yù)處理
各種應(yīng)用場景之中的問題繁雜多樣,不同的具體問題,往往各有其獨有的優(yōu)解。計算機(jī)通過執(zhí)行算法——也就是指令的序列,來解決一個問題。但面對繁復(fù)的問題,往往由于缺乏相應(yīng)的知識,不能保證對每種問題都了如指掌,從而很難直接最優(yōu)的解決方案供計算機(jī)執(zhí)行。
但作為補(bǔ)償,我們有數(shù)據(jù)。從數(shù)據(jù)中提取有用的知識,解決問題,是數(shù)據(jù)應(yīng)用的核心目的。
機(jī)器學(xué)習(xí)在大數(shù)據(jù)中的應(yīng)用可稱為數(shù)據(jù)挖掘,其發(fā)掘數(shù)據(jù)中所蘊含的知識信息。機(jī)器學(xué)習(xí)也是人工智能的組成部分。智能化的系統(tǒng),在變化的應(yīng)用環(huán)境中需要具備學(xué)習(xí)的能力,來適應(yīng)這些變化。這樣,系統(tǒng)的設(shè)計者就不必預(yù)見所有的情況,并未它們提供解決方案了。同樣,在人工智能常見的應(yīng)用場景——視覺、語音識別等方面,機(jī)器學(xué)習(xí)也提供了很多幫助。
機(jī)器學(xué)習(xí)在構(gòu)建模型時利用了統(tǒng)計學(xué)理論,其核心任務(wù)就是用樣本推理(這也正是統(tǒng)計學(xué)的任務(wù))。而計算機(jī)科學(xué)在機(jī)器學(xué)習(xí)中的角色分為兩部分。第一,在訓(xùn)練時,需要對優(yōu)化問題求解、同時面對大數(shù)據(jù)的存儲和處理需要保證算法的高效和穩(wěn)定。第二、在學(xué)習(xí)得到模型后,使用模型進(jìn)行推理的算法也需要是高效的。
機(jī)器學(xué)習(xí)的主要應(yīng)用包括 學(xué)習(xí)關(guān)聯(lián)性、分類、回歸、聚類、策略增強(qiáng)學(xué)習(xí)等。
根據(jù)數(shù)據(jù)情況,可分為監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)。相比于監(jiān)督學(xué)習(xí),非監(jiān)督學(xué)習(xí)——沒有輸出信息,我們的目的是發(fā)現(xiàn)輸入空間所具有的某種結(jié)構(gòu)。統(tǒng)計學(xué)中,可稱為密度估計。通過密度估計,也可實現(xiàn)回歸的分析目的。
對于屬于非監(jiān)督學(xué)習(xí)的聚類問題,其數(shù)據(jù),相比監(jiān)督學(xué)習(xí)的數(shù)據(jù)缺少輸出標(biāo)簽。分類問題是利用數(shù)據(jù)已有的標(biāo)簽,學(xué)習(xí)屬于同一標(biāo)簽下數(shù)據(jù)的特征。而聚類與分類問題的不同,就在于類標(biāo)簽不是事先已知的。
此外還有增強(qiáng)學(xué)習(xí)也屬于機(jī)器學(xué)習(xí)的一種應(yīng)用。系統(tǒng)多次輸出的動作構(gòu)成策略,而學(xué)習(xí)目的是評估策略的好壞,進(jìn)而產(chǎn)生好的策略。
本文檔,旨在以機(jī)器學(xué)習(xí)的目的(分類、回歸等)為線索,梳理各種機(jī)器學(xué)習(xí)方法。對同樣的學(xué)習(xí)目的,盡量將各種方法歸在一起介紹,著重對比。
對于分類問題,基于似然的方法假設(shè)類似然的分布,再估計分布參數(shù)。這時需要對參數(shù)方法、非參數(shù)方法對類似然的估計進(jìn)行對比。而基于判別式的方式直接估計判別式,其中包括邏輯斯蒂函數(shù)、支持向量機(jī)、決策樹的方法。對于回歸問題也類似,也要注重對比參數(shù)和非參數(shù)方法,以及回歸樹的區(qū)別?;诨镜臋C(jī)器學(xué)習(xí)方法,再進(jìn)一步展開到集成學(xué)習(xí)、強(qiáng)化學(xué)習(xí)的內(nèi)容。
這是因為很多方法可以用于實現(xiàn)不同的學(xué)習(xí)目的。將方法手段技巧,與學(xué)習(xí)目的分開討論,有利于更好掌握機(jī)器學(xué)習(xí)基礎(chǔ)理論。