數(shù)據(jù)科學的本質(zhì) On the Nature of Data Science

演講者:Jeffrey D. Ullman-學者概況-學術(shù)范 (xueshufan.com)

作者:Jeffrey David Ullman(1942年11月22日-),美國計算機科學家,斯坦福大學名譽教授。他關(guān)于編譯器(各種版本被稱為綠龍書)、計算理論(也被稱為灰姑娘書)、數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)庫的教科書被認為是各自領(lǐng)域的標準。他和他的長期合作者Alfred Aho是2020年圖靈獎的獲得者,一般被認為是計算機科學的最高榮譽。(摘自維基百科)

本演講為KDD2021 Keynotes Talk的最后一場演講。

演講內(nèi)容摘錄

演講聚焦于數(shù)據(jù)科學分別于機器學習和統(tǒng)計學之間的關(guān)系,以使聽眾更了解數(shù)據(jù)科學的本質(zhì)。

從本世紀第一個十年的數(shù)據(jù)挖掘或知識發(fā)現(xiàn),到第二個十年的大數(shù)據(jù),再到如今的數(shù)據(jù)科學,該領(lǐng)域的宗旨未曾改變,即:將速度最快、規(guī)模最大的硬件設(shè)備和速度最快的算法以及最高效的程序結(jié)合起來解決商業(yè)和科學領(lǐng)域的問題。

演講者認為數(shù)據(jù)科學是數(shù)據(jù)庫系統(tǒng)研究自然進化的產(chǎn)物。

同時,演講者指出,想要在數(shù)據(jù)科學領(lǐng)域有所作為需要掌握計算機科學的核心并在處理大量數(shù)據(jù)上有所專長。

演講者通過駁斥Drew Conway的韋恩圖、并給出自己的韋恩圖來表示數(shù)據(jù)科學與其他領(lǐng)域的關(guān)系。數(shù)據(jù)科學是計算機科學和其他專業(yè)領(lǐng)域結(jié)合部,其中涉及到了機器學習,但不限于機器學習。此外,在數(shù)據(jù)科學角度,數(shù)學和統(tǒng)計學并不直接影響專業(yè)領(lǐng)域,而是通過計算機領(lǐng)域的算法等對其產(chǎn)生間接影響。


與統(tǒng)計學相比,數(shù)據(jù)科學總體上是一門實驗性學科。在數(shù)據(jù)科學家往往通過實現(xiàn)、運行某一算法或模型來驗證某一方法的正確性,而不是通過分析推導避免模型出錯。因此,對于數(shù)據(jù)科學來說,判斷錯誤的標準和改進方法比理論上的分析更重要。

與機器學習相比,并不是所有的數(shù)據(jù)科學問題是通過建立模型解決的,比如Locality-Sensitive Hashing和Approximate Counting等(演講者這里推薦了一本名為“Mining of Massive Dataset”的書)。同時,方法的可解釋性在某些領(lǐng)域非常重要比如保險公司估計保費。

何時使用機器學習:

1.問題需要通過建模解決

2.不需要對結(jié)果進行解釋

3.缺少對問題相關(guān)領(lǐng)域的認識

結(jié)論

1.數(shù)據(jù)科學是計算機科學許多分支自然演化的結(jié)果,尤其是其中通過處理大型數(shù)據(jù)集幫助科學或產(chǎn)業(yè)發(fā)展的方面。

2.統(tǒng)計學者尤其獨到之處,但過于關(guān)注分析數(shù)據(jù),對于解決實際問題不夠關(guān)注。

3.機器學習是數(shù)據(jù)科學的重要部分,但遠不是數(shù)據(jù)科學的全部。


注:本文為演講摘錄,所有內(nèi)容和圖片均選自演講內(nèi)容,歡迎各位討論~

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容