騙人的數(shù)據(jù)

騙人的數(shù)據(jù)


前段時(shí)間,做了一個(gè)工廠的產(chǎn)能分析預(yù)測,利用的算法極其精妙,將2007~2017年的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),將2017~2019的數(shù)據(jù)作為預(yù)測數(shù)據(jù),進(jìn)行驗(yàn)證,誤差在可以接受的范圍之內(nèi)。而我在寫分析報(bào)告的時(shí)候,卻很猶豫。我不知道自己的模型和算法是否真正有用,因?yàn)樽允贾两K,我都并沒有對未來進(jìn)行預(yù)測。而2007~2017年這十年間,工廠的產(chǎn)品發(fā)生了很大的更替,市場份額也在不斷的變化,而且整個(gè)國家乃至世界的經(jīng)濟(jì)形勢都發(fā)生了變化。我單單從數(shù)據(jù)的角度出發(fā),卻忽視了其中諸多關(guān)鍵因素的影響。這些關(guān)鍵的因素實(shí)際上是隨著時(shí)間不斷變化的。忽視這些因素,得出的模型,可能會出現(xiàn)“全美國的人都為IBM工作”的鬧劇。這也許是目前數(shù)據(jù)科學(xué)領(lǐng)域面臨的主要問題,單從數(shù)據(jù)的角度進(jìn)行預(yù)測或分析,可能并沒有什么實(shí)際意義。最近讀了Gray Smith 的《StandardDeviations》,Gray教我們?nèi)绾巫R破一本正經(jīng)的胡說八道。

其實(shí),在我們?nèi)粘I钪?,我們總是在總結(jié)或反思自己人生經(jīng)驗(yàn)中的模式。例如,“否極泰來”,“樂極生悲”,“星座五行”。我們習(xí)慣于創(chuàng)造模式,創(chuàng)造正確。

巧合的人物和日期只能證明我們花了很多時(shí)間尋找巧合,無法證明其他任何事情。為了相信某些數(shù)據(jù)(信念)是正確的,他們丟棄了與這種信念相沖突的數(shù)據(jù)。想想自己在從事科研活動(dòng)中,也是會摒棄一些不好的數(shù)據(jù),來迎合我們論文中正確的理論。所以也有人說“論文中的科研多是假的”,為了發(fā)表美麗的文章,不少科研人員創(chuàng)造或選擇了美麗的數(shù)據(jù)。

此外,數(shù)據(jù)本身因?yàn)椴煌谋憩F(xiàn)形式(可視化),也具備很大的欺騙性。如下圖1,圖2,是相同的兩組數(shù)據(jù)展示出來的圖形,但單從圖形的角度來看,圖1展現(xiàn)并沒有什么變化,但是圖2展現(xiàn)出來的確實(shí)變化很大,但是二者僅僅的區(qū)別卻是縱軸區(qū)間的變化。


圖1
圖2
Gray




我們不得不承認(rèn)我們總是在犯一些錯(cuò)誤的思維邏輯。這也許來自我們與生俱來的,對于未來世界的恐懼。我們希望得到一個(gè)模式來遵循。這其實(shí)是一個(gè)錯(cuò)誤的思路,我們總是習(xí)慣報(bào)道一些成功的范例,從成功的范例中總結(jié)出一些“優(yōu)秀”的品質(zhì)(特征值),形成一個(gè)模式,然后推廣這種模式,認(rèn)為具備這些的“優(yōu)秀品質(zhì)”,便能成功。但實(shí)際上這樣完全是因果顛倒的。

但從數(shù)據(jù)的角度來看分析或預(yù)測,本身將進(jìn)入一個(gè)費(fèi)曼陷阱。就像我做的產(chǎn)能分析的預(yù)測模型,我不可能因?yàn)樗A(yù)測準(zhǔn)確了2020年的產(chǎn)能,而志得意滿,我甚至覺得它毫無價(jià)值。在大數(shù)據(jù)時(shí)代,真正有價(jià)值的是數(shù)據(jù),沒有價(jià)值的也是數(shù)據(jù)。我個(gè)人覺得單純從數(shù)據(jù)出發(fā),采用精巧的算法的黑盒模型是沒有意義的,有意義的是數(shù)據(jù)配合相關(guān)物理模型的灰色模型。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容