
機器學習是什么?
機器學習教計算機執(zhí)行人和動物與生俱來的活動:從經驗中學習。
機器學習算法使用計算方法直接從數(shù)據中“學習”信息,而不依賴
于預定方程模型。當可用于學習的樣本數(shù)量增加時,這些算法可自
適應提高性能。
機器學習算法可從能夠帶來洞察力的數(shù)據中發(fā)現(xiàn)自然模式, 幫助您更好地制定決策和做出預測。醫(yī)療診斷、股票交易、 能量負荷預測及更多行業(yè)每天都在使用這些算法制定關鍵決策。 媒體網站依靠機器學習算法從數(shù)百萬種選擇中篩選出為您推薦 的歌曲或影片。零售商利用這些算法深入了解客戶的購買行為。
實際環(huán)境中的應用程序
隨著大數(shù)據的增加,機器學習對于解決以下領域的問題變得 尤為重要:
- 計算金融學,用于信用評估和算法交易
- 圖像處理和計算機視覺,用于人臉識別、運動檢測和對象檢測
- 計算生物學,用于腫瘤檢測、藥物發(fā)現(xiàn)和DNA順序分析
- 能源生產,用于預測價格和負荷
- 汽車、航空航天和制造業(yè),用于預見性維護
- 自然語言處理

機器學習的工作原理
機器學習采用兩種類型的技術:監(jiān)督式學習和無監(jiān)督學習。監(jiān)督式學 習根據已知的輸入和輸出訓練模型,讓模型能夠預測未來輸出;無監(jiān) 督學習從輸入數(shù)據中找出隱藏模式或內在結構。

-
監(jiān)督式學習
監(jiān)督式機器學習旨在構建能夠根據存在不確定性的證據做出預 測的模型。監(jiān)督式學習算法接受已知的輸入數(shù)據集和對數(shù)據的已 知響應(輸出),然后訓練模型,讓模型能夠為新輸入數(shù)據的響應 生成合理的預測。
-
監(jiān)督式學習采用分類和回歸技術開發(fā)預測模型。
- 分類技術可預測離散的響應—例如,電子郵件是真正郵件 還是垃圾郵件,腫瘤是惡性還是良性的。分類模型可將輸入數(shù) 據劃分成不同類別。典型的應用包括醫(yī)學成像、語音識別和信 用評估。
- 回歸技術可預測連續(xù)的響應—例如,電力需求中溫度或波 動的變化。典型的應用包括電力系統(tǒng)負荷預測和算法交易。
-
使用監(jiān)督式學習預測心臟病發(fā)作
假設臨床醫(yī)生希望預測某位患者在一年內是否會心臟病發(fā)作。他們有 以前就醫(yī)的患者的相關數(shù)據,包括年齡、體重、身高和血壓。他們知道 以前的患者在一年內是否出現(xiàn)過心臟病發(fā)作。因此,問題在于如何將現(xiàn) 有數(shù)據合并到模型中,讓該模型能夠預測新患者在一年內是否會出現(xiàn) 心臟病發(fā)作。

-
無監(jiān)督學習
無監(jiān)督學習可發(fā)現(xiàn)數(shù)據中隱藏的模式或內在結構。這種技術可根據包 含未標記響應的輸入數(shù)據的數(shù)據集執(zhí)行推理。
聚類是一種最常用的無監(jiān)督學習技術。這種技術可通過探索性數(shù)據分 析發(fā)現(xiàn)數(shù)據中隱藏的模式或分組。
聚類的應用包括基因序列分析、市場調查和對象識別。

如何確定使用哪種算法?
選擇正確的算法看似難以駕馭——需要從幾十種監(jiān)督式和無監(jiān)督機器 學習算法中選擇,每種算法又包含不同的學習方法。
沒有最佳方法或萬全之策。找到正確的算法只是試錯過程的一部 分——即使是經驗豐富的數(shù)據科學家,也無法說出某種算法是否無需 試錯即可使用。但算法的選擇還取決于您要處理的數(shù)據的大小和類型、 您要從數(shù)據中獲得的洞察力以及如何運用這些洞察力。

何時應該使用機器學習?
當您遇到涉及大量數(shù)據和許多變量的復雜任務或問題,但沒有現(xiàn)成的 處理公式或方程式時,可以考慮使用機器學習。例如,如果您需要處理 以下情況,使用機器學習是一個很好的選擇:
? 手寫規(guī)則和方程式太過復雜——例如人臉識別和語音識別。
? 任務的規(guī)則始終在變化——例如事務處理記錄的欺詐檢測。
? 數(shù)據本身在不斷變化,程序也必須適應這種變化——例如自 動交易、能量需求預測和購物趨勢預測等。

實際環(huán)境中的示例
-
創(chuàng)建可分析藝術作品的算法
美國羅格斯大學藝術與人工智能實驗室的研究人員曾經想知道計算機 算法能否像人類一樣根據風格、流派和藝術家將繪畫作品輕松歸類。 開始時,他們通過識別視覺特征來對繪畫作品的風格分類。他們開發(fā)的 繪畫風格分類算法在數(shù)據庫中的準確度達到 60%,遠超過普通非專業(yè) 人士。
研究人員假定可用于對風格分類(監(jiān)督式學習問題)的視覺特征也能用 于確定藝術影響力(無監(jiān)督學習問題)。
他們將經過訓練的分類算法應用到 Google 圖像,用于確定具體對象。 他們對跨度長達 550 年的 66 位不同藝術家的 1,700 幅繪畫作品測 試了此算法。此算法可以可靠地識別出相關的作品,包括迭戈·委拉斯 開茲的《教皇英諾森十世肖像》對弗朗西斯·培根的《教皇英諾森十世 肖像的習作》產生的影響。

-
優(yōu)化大型建筑中的 HVAC 能耗
在辦公大樓、醫(yī)院及其他大型商業(yè)樓宇內使用的暖通空調系統(tǒng) (HVAC) 通常效率低下,原因在于這些系統(tǒng)未考慮不斷變化的氣候模式、多變的 能耗或建筑物的熱性能。
Building IQ 的基于云的軟件平臺可解決這個問題。該平臺采用先進的 算法和機器學習方法連續(xù)處理來自功率計、溫度計和 HVAC 壓力傳感 器的數(shù)千兆字節(jié)信息以及天氣和能耗。更為特殊的是,機器學習可用于 對數(shù)據分段和確定天然氣、電力、蒸汽和太陽能對加熱和冷卻流程的 相對貢獻量。Building IQ 平臺將大型商業(yè)樓宇內使用的 HVAC 在正 常運行期間的能耗降低了 10% - 25%。

-
檢測低速撞車
RAC 是英國最大的汽車公司之一,擁有超過 8 百萬名成員,為私人和 商業(yè)汽車司機提供道路救援、保險和其他服務。
為了能夠快速響應道路事故、減少碰撞事故和保險費用,RAC 開發(fā)了車 載撞擊感應系統(tǒng),該系統(tǒng)采用先進的機器學習算法檢測低速碰撞,并且 可將這些行為與更常見的駕駛行為(例如駛過路面減速帶或路面凹坑) 區(qū)分開。獨立測試數(shù)據顯示 RAC 系統(tǒng)在碰撞檢測測試中獲得的準確 度達到 92%。

閱讀
機器學習博客: 社會網絡分析、文本挖掘、貝葉斯推理及更多
Net ix Prize 與生產機器學習系統(tǒng):行家看點
機器學習的挑戰(zhàn):選擇最佳模型并避免過度擬合