機(jī)器學(xué)習(xí)是人工智能的一個(gè)分支,通過構(gòu)建算法讓計(jì)算機(jī)學(xué)習(xí),并在數(shù)據(jù)集上使用學(xué)習(xí)到的算法完成某種任務(wù)。正式的定義是:對(duì)于某類任務(wù)T和性能度量P,? 如果一個(gè)計(jì)算機(jī)程序在T上以P度量的性能隨著經(jīng)驗(yàn)E(訓(xùn)練樣例)而自我完善,那么我們稱這個(gè)計(jì)算機(jī)程序在從經(jīng)驗(yàn)E學(xué)習(xí)。
機(jī)器學(xué)習(xí)的常見應(yīng)用可以分為以下四大類:
圖像處理:通過分析圖像獲取數(shù)據(jù)或者做一些轉(zhuǎn)換。
1、圖像標(biāo)記:如算法可以自動(dòng)從照片中檢測出人臉,基本上是機(jī)器學(xué)習(xí)算法從手動(dòng)標(biāo)記的圖片中學(xué)習(xí)。
2、光學(xué)字符識(shí)別(OCR):算法將手稿或者掃描文本轉(zhuǎn)換為數(shù)字化版本,算法需要學(xué)會(huì)將手寫字符圖像轉(zhuǎn)化成相應(yīng)的數(shù)字化字母。
3、自動(dòng)駕駛汽車:讓汽車通過圖像處理來自動(dòng)駕駛,機(jī)器學(xué)習(xí)算法通過攝像機(jī)拍攝的每一幀圖像來學(xué)習(xí)哪里是道路的邊緣,是否有停車標(biāo)志或者是否有車靠近。
文本分析:從文本文件,如郵件、聊天記錄、文檔中提取或者分類信息。
1、垃圾郵件過濾:文本分類的應(yīng)用之一,學(xué)習(xí)如何基于內(nèi)容和主題將郵件歸為垃圾郵件。
2、情感分析:文本分類的另一個(gè)應(yīng)用,算法需要學(xué)會(huì)基于作者表達(dá)的情緒,來將一個(gè)觀點(diǎn)分類成積極、中立或者消極。
3、信息提?。簭奈谋局?,學(xué)會(huì)提取特定的信息或數(shù)據(jù)塊,如地址、實(shí)體、關(guān)鍵詞等。
數(shù)據(jù)挖掘:從數(shù)據(jù)中發(fā)現(xiàn)某些模式或者做出預(yù)測。也就是從海量的數(shù)據(jù)庫中挖掘有用的信息。每一行都可以是訓(xùn)練實(shí)例,每一列都可以作為一個(gè)特征??赡軙?huì)用表中剩余的列來預(yù)測一條新的列,或者發(fā)現(xiàn)某種模式來對(duì)行進(jìn)行分組。
1、異常檢測:檢測異常值,如信用卡的欺詐檢測,可以從用戶平常的購物模式來檢測哪些購物方式是異常行為。
2、關(guān)聯(lián)規(guī)則:在超市或者電子商務(wù)網(wǎng)站,可以通過觀察哪些產(chǎn)品會(huì)一起購買來發(fā)現(xiàn)用戶的購買習(xí)慣,可以用于營銷輔助。
3、分組:可以通過用戶行為和資料來對(duì)用戶進(jìn)行分組。
4、預(yù)測:從剩余變量中預(yù)測出另一個(gè)變量(數(shù)據(jù)庫中的一列),如可以通過對(duì)現(xiàn)有客戶資料和信用評(píng)分這些信息來學(xué)習(xí)并預(yù)測新客戶的信用評(píng)分。
視頻游戲與機(jī)器人
一般來說我們有一個(gè)Agent(游戲角色或者機(jī)器人),它必須根據(jù)環(huán)境(視頻游戲中的虛擬環(huán)境或者對(duì)于機(jī)器人來說的真實(shí)環(huán)境)來行動(dòng)。機(jī)器學(xué)習(xí)可以使這個(gè)Agent執(zhí)行任務(wù),比如移動(dòng)到某個(gè)環(huán)境中而同時(shí)避開障礙或者機(jī)器人。在這些情形下一個(gè)最受歡迎的機(jī)器學(xué)習(xí)技術(shù)是強(qiáng)化學(xué)習(xí),Agent通過學(xué)習(xí)環(huán)境的強(qiáng)化系數(shù)(如果Agent碰到了障礙物強(qiáng)化系數(shù)為負(fù),如果達(dá)到目標(biāo)為正)來執(zhí)行任務(wù)。
機(jī)器學(xué)習(xí)算法的種類
監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí),兩類的區(qū)別在于提供給算法的訓(xùn)練樣例。
監(jiān)督學(xué)習(xí):可以看做將特定輸入轉(zhuǎn)換成期望輸出的過程,機(jī)器學(xué)習(xí)需要學(xué)會(huì)如何將所有可能輸入轉(zhuǎn)化成正確/期望輸出,所以每個(gè)訓(xùn)練樣例都有特定的輸入和期望輸出,根據(jù)輸出的不同又可以分為兩個(gè)小類:分類和回歸,瓶頸在于收集正確標(biāo)記的訓(xùn)練數(shù)據(jù)。
非監(jiān)督學(xué)習(xí):訓(xùn)練數(shù)據(jù)只需要輸入到算法中即可,不需要對(duì)應(yīng)的期望輸出。典型的用例就是發(fā)現(xiàn)訓(xùn)練樣例之間隱藏的結(jié)構(gòu)或者關(guān)系,典型的應(yīng)用就是聚類算法。
機(jī)器學(xué)習(xí)算法
支持向量機(jī):試圖構(gòu)建一個(gè)超平面高維空間集,它試圖通過計(jì)算與最近實(shí)例最大距離來區(qū)分不同類的實(shí)現(xiàn)。
概率模型:這類模型通常通過對(duì)問題進(jìn)行概率分布建模來預(yù)測正確的響應(yīng)。這類算法中最流行的就是樸素貝葉斯分類器,它使用貝葉斯定理和特征之間的獨(dú)立性假設(shè)來構(gòu)建分類器,優(yōu)勢是簡單卻強(qiáng)大,不僅會(huì)返回預(yù)測值還會(huì)返回預(yù)測值得確定度。
深度學(xué)習(xí):由一組相互關(guān)聯(lián)的神經(jīng)元組成,這些神經(jīng)元被組織成許多層,深度學(xué)習(xí)使用更深的層構(gòu)建了新的結(jié)構(gòu),通過高層次抽象改進(jìn)了算法,不僅改進(jìn)了學(xué)習(xí)方式,而且構(gòu)建了自動(dòng)表示最重要特征的結(jié)構(gòu)。