本文翻譯自: 《The Machine Learning Race Is Really a Data Race》, 如有侵權(quán)請聯(lián)系刪除,僅限于學(xué)術(shù)交流,請勿商用。如有謬誤,請聯(lián)系指出。
那些想讓AI成為差異化因素的企業(yè)需要從可選數(shù)據(jù)集中抽取——這些數(shù)據(jù)集可能是他們自己創(chuàng)建的。
如果你愿意這么說的話,機(jī)器學(xué)習(xí)或人工智能已經(jīng)成為一種商品。那些急于定義和實(shí)現(xiàn)機(jī)器學(xué)習(xí)的企業(yè)驚訝的發(fā)現(xiàn),實(shí)現(xiàn)用于使機(jī)器智能的處理數(shù)據(jù)集或問題的算法是比較容易的部分。從谷歌的開源機(jī)器學(xué)習(xí)框架TensorFlow到微軟的Azure和亞馬遜的SageMaker,有一大批強(qiáng)大的即插即用解決方案,可以輕松地完成繁重的編程工作。
不過,數(shù)據(jù)不但沒有被商品化,反而正在成為機(jī)器學(xué)習(xí)競賽中的關(guān)鍵差異化因素。這是因為好的數(shù)據(jù)并不常見。
有用的數(shù)據(jù):有價值并且罕見
數(shù)據(jù)正在成為一種差異化因素,因為許多公司并沒有他們需要的數(shù)據(jù)。盡管幾十年來,企業(yè)一直使用公認(rèn)的會計準(zhǔn)則以系統(tǒng)的方式衡量自己,但這種衡量長期以來一直集中于實(shí)物和金融資產(chǎn)——即物品和貨幣。2013年,諾貝爾獎(Nobel Prize)甚至授予了資本資產(chǎn)定價領(lǐng)域的獎項,從而加強(qiáng)了這些公認(rèn)的優(yōu)先事項。
但今天最有價值的公司大多是在軟件和網(wǎng)絡(luò)上進(jìn)行交易,而不僅僅是實(shí)物和資本資產(chǎn)。在過去40年中,資產(chǎn)重點(diǎn)已完全轉(zhuǎn)變,1975年有形資產(chǎn)占市場的83%,但是到了2015年無形資產(chǎn)卻占據(jù)了市場的84%。和過去不同的是,如今的企業(yè)巨頭不再制造咖啡壺、銷售洗衣機(jī),而是提供app用以連接用戶。 這種轉(zhuǎn)變在我們衡量的東西和真正驅(qū)動價值的東西之間造成了嚴(yán)重的不匹配。
有用的數(shù)據(jù)十分罕見。市場和賬面價值之間的差距越來越大。由于這種差距,公司正在競相將機(jī)器學(xué)習(xí)應(yīng)用于重要的業(yè)務(wù)決策,甚至取代他們的一些昂貴的顧問,只是意識到他們所需的數(shù)據(jù)甚至還不存在。從本質(zhì)上說,人工智能這個新生的系統(tǒng)正在被要求應(yīng)用到傳統(tǒng)的企業(yè)中。
就像人一樣,機(jī)器學(xué)習(xí)系統(tǒng)在沒有學(xué)習(xí)之前無論怎樣都不算聰明。為了變得智能,機(jī)器需要比人類更多的數(shù)據(jù)。不過他們也確實(shí)能夠更快地讀取數(shù)據(jù)。因此,盡管企業(yè)在引進(jìn)機(jī)器學(xué)習(xí)人才和啟動人工智能計劃方面存在明顯的競爭,但對于新數(shù)據(jù)和不同數(shù)據(jù),也存在一場幕后競爭。
例如,在金融領(lǐng)域,替代數(shù)據(jù)的超出了傳統(tǒng)的證券交易委員會報告和影響投資決策的投資者報告。社交媒體情緒或?qū)@谟钄?shù)量等另類數(shù)據(jù)之所以重要,有兩個重要原因。首先,傳統(tǒng)數(shù)據(jù)側(cè)重于傳統(tǒng)資產(chǎn),而在無形資產(chǎn)時代則不夠廣泛。其次,沒有必要花時間使用機(jī)器學(xué)習(xí)來研究市場上其他人正在分析的相同數(shù)據(jù)集。所有對此感興趣的人都已經(jīng)嘗試將行業(yè)趨勢、利潤率、增長率、息稅前利潤、資產(chǎn)周轉(zhuǎn)率和資產(chǎn)回報率,以及1000多個其他常見變量與股東回報聯(lián)系起來。
在所有人都擁有的相同資料之間尋找聯(lián)系,無助于企業(yè)在競爭中取勝。相反,那些希望將人工智能作為差異化因素的企業(yè),將不得不在新數(shù)據(jù)集之間尋找關(guān)聯(lián)——它們可能不得不創(chuàng)建自己的數(shù)據(jù)集,以衡量無形資產(chǎn)。
仔細(xì)考慮:你想知道什么?
數(shù)據(jù)創(chuàng)建比簡單地聚合銷售點(diǎn)或客戶信息并將其轉(zhuǎn)儲到數(shù)據(jù)庫要復(fù)雜得多:大多數(shù)組織錯誤地認(rèn)為,權(quán)宜之計包括收集所有可能的數(shù)據(jù)碎片,并煞費(fèi)苦心地梳理所有數(shù)據(jù),以期找到一絲見解——難以捉摸的功能,可以預(yù)測或分類他們關(guān)心的事物。
雖然機(jī)器學(xué)習(xí)偶爾會以一種罕見的、尚未有人發(fā)現(xiàn)的閃光點(diǎn)給我們帶來驚喜,但該技術(shù)無法提出一致性的見解。這并不意味著這個工具沒用。而是意味著我們必須正確的使用它。在我們對替代數(shù)據(jù)市場的研究中,我們發(fā)現(xiàn)超過一半的新數(shù)據(jù)提供商仍然專注于衡量實(shí)物和金融資產(chǎn)。
許多組織省略的步驟是創(chuàng)建一個關(guān)于重要事項的假設(shè)。機(jī)器學(xué)習(xí)真正擅長的地方在于,它具有人類所擁有的洞察力——一種基于經(jīng)驗法則、廣泛的感知或不太理解的關(guān)系——并開發(fā)一種更快速、更易于理解、更易拓展(不容易出錯)的方法來應(yīng)用那些insight。
為了以這種方式使用機(jī)器學(xué)習(xí),你不需要向系統(tǒng)提供任何相關(guān)領(lǐng)域的所有已知數(shù)據(jù)點(diǎn)。你給它提供了一套精心準(zhǔn)備的知識,希望它能夠?qū)W習(xí),或許就能擴(kuò)展人們已經(jīng)擁有的知識。
深刻的機(jī)器學(xué)習(xí)來自不同的數(shù)據(jù)
所有的這些對于那些希望創(chuàng)建有影響力和有價值的機(jī)器學(xué)習(xí)應(yīng)用程序的公司都有以下三個具體的含義:
- 差異化數(shù)據(jù)是這場AI游戲成功的關(guān)鍵。 使用競爭對手擁有的數(shù)據(jù),你不會發(fā)現(xiàn)任何新東西。深入了解并確定你的組織所知道的獨(dú)一無二的內(nèi)容和觀點(diǎn),并綜合這些創(chuàng)建一個獨(dú)特的數(shù)據(jù)集。機(jī)器學(xué)習(xí)的程序確實(shí)需要大量的數(shù)據(jù)點(diǎn),但這并不意味著模型必須考慮數(shù)據(jù)的廣泛性。你需要將數(shù)據(jù)工作集中在組織已經(jīng)差異化的地方。
- 有意義的數(shù)據(jù)比全面的數(shù)據(jù)好。 你可能擁有關(guān)于某個主題非常詳細(xì)的數(shù)據(jù),但這些數(shù)據(jù)可能并沒有什么用。如果你的公司并沒有把這些信息作為基礎(chǔ)用來幫助決策,那么從機(jī)器學(xué)習(xí)的角度來看,這些數(shù)據(jù)可能就沒有價值。一個專業(yè)的機(jī)器學(xué)習(xí)架構(gòu)師會問你一些棘手的問題,比如哪些領(lǐng)域是真正重要的,以及這些領(lǐng)域?qū)δ惬@得的見解的應(yīng)用可能有什么影響。如果這些問題很難回答,那就說明你還沒有深入的去思考如何產(chǎn)生實(shí)用價值。
- 起點(diǎn)應(yīng)該是你所知道的那些東西。 那些機(jī)器學(xué)習(xí)用的比較好的公司往往都是從一個獨(dú)到的見解開始的。對他們來說,做重要決定最重要的是什么?這為他們了解要收集哪些數(shù)據(jù),以及使用哪些技術(shù)提供了方向。一個簡單的開始是擴(kuò)展和增長你的團(tuán)隊已經(jīng)擁有的知識,這可以為組織創(chuàng)造更多的價值。
很明顯,軟件已經(jīng)吞噬了世界(這是軟件企業(yè)家Marc Andreessen創(chuàng)造的一句話)。但這仍然不夠,軟件需要新數(shù)據(jù)與新技術(shù)相結(jié)合,這樣才可以繼續(xù)增加價值。
如果你不想被這種見解、機(jī)器和替代數(shù)據(jù)的轉(zhuǎn)變所拋棄。那就從內(nèi)部開始尋找,確定你獨(dú)特的視角,以及你能夠并且應(yīng)該生成的有價值的、可選的數(shù)據(jù)。遵循這些步驟,你將會發(fā)現(xiàn)他們之間的關(guān)聯(lián),并以此保持組織的競爭力。