數(shù)據(jù)
現(xiàn)象 -> 數(shù)據(jù) -> 信息 -> 知識(shí)
通過(guò)數(shù)據(jù)建立模型,有2個(gè)問(wèn)題:
- 采用什么樣的模型:完美的模型未必存在,取而代之的方法是用很多簡(jiǎn)單的模型的組合(如多圓嵌套的地心說(shuō)模型)
- 模型的參數(shù):機(jī)器學(xué)習(xí)
數(shù)據(jù)驅(qū)動(dòng)方法:先有大量數(shù)據(jù),而不是預(yù)設(shè)的模型,然后用很多簡(jiǎn)單的模型去契合數(shù)據(jù)(fit data),用計(jì)算量和數(shù)據(jù)量換取研究的時(shí)間
大數(shù)據(jù)與機(jī)器智能
有了大數(shù)據(jù)后,將智能問(wèn)題轉(zhuǎn)換成數(shù)據(jù)問(wèn)題,進(jìn)而交由計(jì)算機(jī)解決。
大數(shù)據(jù)的特征:
- 數(shù)據(jù)量大
- 多維度(百度知道,飲食習(xí)慣的問(wèn)題)
- 完備性
大數(shù)據(jù)的重要性在于,它導(dǎo)致了機(jī)器智能的產(chǎn)生。
機(jī)器智能=通過(guò)任意一項(xiàng)圖靈測(cè)試:
- 翻譯
- 象棋
- 語(yǔ)音識(shí)別
思維革命
機(jī)械思維:
- 世界變化的規(guī)律是確定的
- 規(guī)律不僅可以被認(rèn)識(shí),而且可以用簡(jiǎn)單的公式或語(yǔ)言來(lái)描述
- 這些規(guī)律是放之四海皆準(zhǔn)的,可以放到各種未知領(lǐng)域指導(dǎo)實(shí)踐
核心思想是確定性和因果關(guān)系
從歐幾里得到托勒密,再到牛頓,該思維取得了巨大的成功,并帶來(lái)工業(yè)文明
熵
熱力學(xué)熵:封閉系統(tǒng)中,熵永遠(yuǎn)向不斷增加的方向發(fā)張。系統(tǒng)達(dá)到恒溫后,熵最大,此時(shí)也將無(wú)法對(duì)外做功。從微觀(guān)上看,這個(gè)系統(tǒng)越來(lái)越無(wú)序。
信息學(xué)熵:信息量的度量就等于不確定性的大小。要消除這種不確定性,就要引入信息。
香農(nóng)第一定律:對(duì)一個(gè)信源,它的信息編碼的平均長(zhǎng)度,一定大于信息的熵
香農(nóng)第二定律:信息傳播速率不可能超過(guò)信道的容量
最大熵原理:在給未知事件尋找概率模型時(shí),應(yīng)當(dāng)滿(mǎn)足已經(jīng)有的數(shù)據(jù),不要對(duì)未知情況做任何假設(shè)
大數(shù)據(jù)本質(zhì):信息論
- 數(shù)據(jù)量大:信息消除不確定性
- 多維度:交叉熵
- 完備性:避免“黑天鵝”
從因果關(guān)系到強(qiáng)相關(guān)關(guān)系
技術(shù)挑戰(zhàn)
技術(shù)拐點(diǎn):
| 問(wèn)題 | 方式 | 難點(diǎn) | 方案 |
|---|---|---|---|
| 信息的收集 | 各類(lèi)傳感器,攝像頭,移動(dòng)設(shè)備 | 數(shù)據(jù)隔離,隱私問(wèn)題 | 繞一大圈 |
| 信息存儲(chǔ) | SSD | 數(shù)據(jù)量過(guò)大 | 去除數(shù)據(jù)冗余,數(shù)據(jù)安全 |
| 信息傳輸 | 4G | 多維度 | protocol buffer |
| 信息處理 | 分布式,流式處理 | mapredue, hadoop |
數(shù)據(jù)挖掘:降噪,機(jī)器學(xué)習(xí)(人工神經(jīng)網(wǎng)絡(luò),最大熵模型等)。那么隨著數(shù)據(jù)量變大,機(jī)器學(xué)習(xí)的實(shí)現(xiàn)將成為一個(gè)工程上的難題。需要把算法搬到成千上萬(wàn)臺(tái)機(jī)器上實(shí)現(xiàn)。
隱私問(wèn)題:
- 數(shù)據(jù)收集時(shí)預(yù)處理
- 數(shù)據(jù)采集和使用都需要雙向知情(把偷窺者暴露出去)
未來(lái)社會(huì)
必然涉及財(cái)富再分配,低端崗位淘汰,下崗工人靠救濟(jì)生活。
爭(zhēng)當(dāng)2%的人