成為數(shù)據(jù)科學(xué)家所需的必備技能

1.教育

數(shù)據(jù)科學(xué)家受過(guò)高等教育 - 88%至少擁有碩士學(xué)位,46%擁有博士學(xué)位 - 雖然有明顯的例外,但通常需要非常強(qiáng)大的教育背景來(lái)培養(yǎng)成為數(shù)據(jù)科學(xué)家所必需的知識(shí)深度。要成為數(shù)據(jù)科學(xué)家,您可以獲得計(jì)算機(jī)科學(xué),社會(huì)科學(xué),物理科學(xué)和統(tǒng)計(jì)學(xué)的學(xué)士學(xué)位。最常見(jiàn)的研究領(lǐng)域是數(shù)學(xué)和統(tǒng)計(jì)學(xué)(32%),其次是計(jì)算機(jī)科學(xué)(19%)和工程學(xué)(16%)。任何這些課程的學(xué)位將為您提供處理和分析大數(shù)據(jù)所需的技能。

完成學(xué)位課程后,你還沒(méi)有完成。事實(shí)是,大多數(shù)數(shù)據(jù)科學(xué)家都擁有碩士學(xué)位或博士學(xué)位,他們還進(jìn)行在線培訓(xùn),學(xué)習(xí)如何使用Hadoop或大數(shù)據(jù)查詢等特殊技能。因此,您可以報(bào)名參加數(shù)據(jù)科學(xué),數(shù)學(xué),天體物理學(xué)或任何其他相關(guān)領(lǐng)域的碩士學(xué)位課程。您在學(xué)位課程中學(xué)到的技能將使您能夠輕松過(guò)渡到數(shù)據(jù)科學(xué)。

除課堂學(xué)習(xí)外,您還可以通過(guò)構(gòu)建應(yīng)用程序,啟動(dòng)博客或探索數(shù)據(jù)分析來(lái)練習(xí)您在課堂上學(xué)到的知識(shí),以便您了解更多信息。

2. R編程

對(duì)于數(shù)據(jù)科學(xué)R的至少一種分析工具的深入了解通常是優(yōu)選的。R專為數(shù)據(jù)科學(xué)需求而設(shè)計(jì)。您可以使用R來(lái)解決數(shù)據(jù)科學(xué)中遇到的任何問(wèn)題。事實(shí)上,43%的數(shù)據(jù)科學(xué)家正在使用R來(lái)解決統(tǒng)計(jì)問(wèn)題。然而,R有一個(gè)陡峭的學(xué)習(xí)曲線。

如果您已經(jīng)掌握了編程語(yǔ)言,那么很難學(xué)習(xí)。盡管如此,互聯(lián)網(wǎng)上還有很多資源可以幫助學(xué)習(xí)R

技術(shù)技能:計(jì)算機(jī)科學(xué)

3. Python編碼

Python是我在數(shù)據(jù)科學(xué)角色中通常看到的最常見(jiàn)的編碼語(yǔ)言,以及Java,Perl或C / C ++。Python是數(shù)據(jù)科學(xué)家的一種優(yōu)秀編程語(yǔ)言。這就是為什么O'Reilly 調(diào)查的受訪者中有40%使用Python作為他們的主要編程語(yǔ)言。

由于其多功能性,您可以將Python用于數(shù)據(jù)科學(xué)過(guò)程中涉及的幾乎所有步驟。它可以采用各種格式的數(shù)據(jù),您可以輕松地將SQL表導(dǎo)入代碼中。它允許您創(chuàng)建數(shù)據(jù)集,您可以在Google上找到所需的任何類型的數(shù)據(jù)集。

4. Hadoop平臺(tái)

雖然這并不總是要求,但在許多情況下它是非常優(yōu)選的。擁有Hive或Pig的經(jīng)驗(yàn)也是一個(gè)很好的賣(mài)點(diǎn)。熟悉Amazon S3等云工具也很有用。CrowdFlower對(duì)3490 LinkedIn數(shù)據(jù)科學(xué)工作進(jìn)行的一項(xiàng)研究將Apache Hadoop評(píng)為數(shù)據(jù)科學(xué)家第二重要技能,評(píng)分為49%。

作為數(shù)據(jù)科學(xué)家,您可能會(huì)遇到這樣的情況,即您擁有的數(shù)據(jù)量超過(guò)系統(tǒng)內(nèi)存或需要將數(shù)據(jù)發(fā)送到不同的服務(wù)器,這就是Hadoop的用武之地。您可以使用Hadoop快速將數(shù)據(jù)傳輸?shù)礁鞣N系統(tǒng)上的點(diǎn)。那不是全部。您可以使用Hadoop進(jìn)行數(shù)據(jù)探索,數(shù)據(jù)過(guò)濾,數(shù)據(jù)采樣和匯總。

5. SQL數(shù)據(jù)庫(kù)/編碼

盡管NoSQL和Hadoop已經(jīng)成為數(shù)據(jù)科學(xué)的一個(gè)重要組成部分,但仍然期望候選人能夠在SQL中編寫(xiě)和執(zhí)行復(fù)雜查詢。SQL(結(jié)構(gòu)化查詢語(yǔ)言)是一種編程語(yǔ)言,可以幫助您執(zhí)行添加,刪除和從數(shù)據(jù)庫(kù)中提取數(shù)據(jù)等操作。它還可以幫助您執(zhí)行分析功能和轉(zhuǎn)換數(shù)據(jù)庫(kù)結(jié)構(gòu)。

作為數(shù)據(jù)科學(xué)家,您需要精通SQL。這是因?yàn)镾QL專門(mén)用于幫助您訪問(wèn),通信和處理數(shù)據(jù)。當(dāng)您使用它來(lái)查詢數(shù)據(jù)庫(kù)時(shí),它會(huì)為您提供見(jiàn)解。它具有簡(jiǎn)潔的命令,可以幫助您節(jié)省時(shí)間并減少執(zhí)行困難查詢所需的編程量。學(xué)習(xí)SQL將幫助您更好地理解關(guān)系數(shù)據(jù)庫(kù)并提升您作為數(shù)據(jù)科學(xué)家的形象。

6. Apache Spark

Apache Spark正在成為全球最受歡迎的大數(shù)據(jù)技術(shù)。它就像Hadoop一樣是一個(gè)大數(shù)據(jù)計(jì)算框架。唯一的區(qū)別是Spark比Hadoop更快。這是因?yàn)镠adoop讀取和寫(xiě)入磁盤(pán),這使得速度變慢,但Spark將其計(jì)算緩存在內(nèi)存中。

Apache Spark專為數(shù)據(jù)科學(xué)而設(shè)計(jì),可幫助您更快地運(yùn)行復(fù)雜的算法。當(dāng)您處理大量數(shù)據(jù)時(shí),它有助于傳播數(shù)據(jù)處理,從而節(jié)省時(shí)間。它還有助于數(shù)據(jù)科學(xué)家處理復(fù)雜的非結(jié)構(gòu)化數(shù)據(jù)集。您可以在一臺(tái)機(jī)器或一組機(jī)器上使用它。

Apache spark使數(shù)據(jù)科學(xué)家能夠防止數(shù)據(jù)科學(xué)中的數(shù)據(jù)丟失。Apache Spark的優(yōu)勢(shì)在于其速度和平臺(tái),這使得開(kāi)展數(shù)據(jù)科學(xué)項(xiàng)目變得容易。使用Apache spark,您可以執(zhí)行從數(shù)據(jù)采集到分布計(jì)算的分析。

7.機(jī)器學(xué)習(xí)和AI

大量數(shù)據(jù)科學(xué)家并不精通機(jī)器學(xué)習(xí)領(lǐng)域和技術(shù)。這包括神經(jīng)網(wǎng)絡(luò),強(qiáng)化學(xué)習(xí),對(duì)抗性學(xué)習(xí)等。如果你想從其他數(shù)據(jù)科學(xué)家中脫穎而出,你需要了解機(jī)器學(xué)習(xí)技術(shù),如監(jiān)督機(jī)器學(xué)習(xí),決策樹(shù),邏輯回歸等。這些技能將幫助你解決基于主要組織結(jié)果預(yù)測(cè)的不同數(shù)據(jù)科學(xué)問(wèn)題。

數(shù)據(jù)科學(xué)需要在機(jī)器學(xué)習(xí)的不同領(lǐng)域應(yīng)用技能。Kaggle在其中一項(xiàng)調(diào)查中發(fā)現(xiàn),一小部分?jǐn)?shù)據(jù)專業(yè)人員具備先進(jìn)的機(jī)器學(xué)習(xí)技能,如監(jiān)督機(jī)器學(xué)習(xí),無(wú)監(jiān)督機(jī)器學(xué)習(xí),時(shí)間序列,自然語(yǔ)言處理,異常值檢測(cè),計(jì)算機(jī)視覺(jué),推薦引擎,生存分析,強(qiáng)化學(xué)習(xí)和對(duì)抗性學(xué)習(xí)。

8.數(shù)據(jù)可視化

商業(yè)世界經(jīng)常產(chǎn)生大量數(shù)據(jù)。這些數(shù)據(jù)需要翻譯成易于理解的格式。人們自然地以圖表和圖形的形式理解圖片而不是原始數(shù)據(jù)。一個(gè)成語(yǔ)說(shuō)“一張圖片勝過(guò)千言萬(wàn)語(yǔ)”。

作為數(shù)據(jù)科學(xué)家,您必須能夠借助數(shù)據(jù)可視化工具(如ggplot,d3.js和Matplottlib以及Tableau)可視化數(shù)據(jù)。這些工具將幫助您將項(xiàng)目中的復(fù)雜結(jié)果轉(zhuǎn)換為易于理解的格式。問(wèn)題是,很多人不了解序列相關(guān)性或p值。您需要直觀地向他們展示這些術(shù)語(yǔ)在結(jié)果中代表的含義。

數(shù)據(jù)可視化使組織有機(jī)會(huì)直接處理數(shù)據(jù)。他們可以快速掌握有助于他們抓住新商機(jī)并在競(jìng)爭(zhēng)中保持領(lǐng)先地位的見(jiàn)解。

9.非結(jié)構(gòu)化數(shù)據(jù)

數(shù)據(jù)科學(xué)家能夠處理非結(jié)構(gòu)化數(shù)據(jù)至關(guān)重要。非結(jié)構(gòu)化數(shù)據(jù)是未定義的內(nèi)容,不適合數(shù)據(jù)庫(kù)表。示例包括視頻,博客文章,客戶評(píng)論,社交媒體帖子,視頻供稿,音頻等。它們是重疊的文本。對(duì)這些類型的數(shù)據(jù)進(jìn)行排序很困難,因?yàn)樗鼈儧](méi)有簡(jiǎn)化。

由于其復(fù)雜性,大多數(shù)人將非結(jié)構(gòu)化數(shù)據(jù)稱為“黑暗分析”。使用非結(jié)構(gòu)化數(shù)據(jù)可以幫助您揭示對(duì)決策有用的洞察力。作為數(shù)據(jù)科學(xué)家,您必須能夠理解和操縱來(lái)自非結(jié)構(gòu)化數(shù)據(jù)的非結(jié)構(gòu)化數(shù)據(jù)。不同的平臺(tái)。

非技術(shù)技能

10.智力上的好奇心

“我沒(méi)有特殊才能。我只是充滿好奇心?!?/p>

-艾爾伯特愛(ài)因斯坦。

毫無(wú)疑問(wèn),你最近到處都看到過(guò)這句話,特別是因?yàn)樗c數(shù)據(jù)科學(xué)家有關(guān)。弗蘭克羅描述了它的含義,并在 幾個(gè)月前的客座博客中談到了其他必要的“軟技能” 。

好奇心可以被定義為獲得更多知識(shí)的愿望。作為數(shù)據(jù)科學(xué)家,您需要能夠提出有關(guān)數(shù)據(jù)的問(wèn)題,因?yàn)閿?shù)據(jù)科學(xué)家花費(fèi)大約80%的時(shí)間來(lái)發(fā)現(xiàn)和準(zhǔn)備數(shù)據(jù)。這是因?yàn)閿?shù)據(jù)科學(xué)領(lǐng)域是一個(gè)發(fā)展非??斓念I(lǐng)域,你必須學(xué)習(xí)更多以跟上節(jié)奏。

您需要通過(guò)在線閱讀內(nèi)容和閱讀有關(guān)數(shù)據(jù)科學(xué)趨勢(shì)的相關(guān)書(shū)籍來(lái)定期更新您的知識(shí)。不要被在互聯(lián)網(wǎng)上飛來(lái)飛去的大量數(shù)據(jù)所淹沒(méi),你必須能夠知道如何理解這一切。好奇心是成為數(shù)據(jù)科學(xué)家所需要的技能之一。例如,最初,您可能沒(méi)有太多了解您收集的數(shù)據(jù)。好奇心將使您能夠篩選數(shù)據(jù)以查找答案和更多見(jiàn)解。

11.商業(yè)頭腦

要成為一名數(shù)據(jù)科學(xué)家,您需要對(duì)您正在從事的行業(yè)有充分的了解,并了解貴公司正在努力解決的業(yè)務(wù)問(wèn)題。在數(shù)據(jù)科學(xué)方面,除了確定業(yè)務(wù)應(yīng)利用其數(shù)據(jù)的新方法之外,能夠識(shí)別哪些問(wèn)題對(duì)于業(yè)務(wù)而言至關(guān)重要是至關(guān)重要的。

為了能夠做到這一點(diǎn),您必須了解您解決的問(wèn)題如何影響業(yè)務(wù)。這就是您需要了解企業(yè)運(yùn)營(yíng)方式的原因,以便您可以將您的工作指向正確的方向。

2.溝通技巧

尋找強(qiáng)大數(shù)據(jù)科學(xué)家的公司正在尋找能夠清晰,流利地將技術(shù)發(fā)現(xiàn)轉(zhuǎn)化為非技術(shù)團(tuán)隊(duì)的人員,例如市場(chǎng)營(yíng)銷部門(mén)或銷售部門(mén)。數(shù)據(jù)科學(xué)家必須使企業(yè)能夠通過(guò)量化的洞察力來(lái)制定決策,此外還要了解非技術(shù)同事的需求,以便適當(dāng)?shù)丶m正數(shù)據(jù)。查看 我們最近的Flash調(diào)查 ,了解有關(guān)量化專業(yè)人員溝通技巧的更多信息。

除了說(shuō)出公司理解的相同語(yǔ)言外,您還需要使用數(shù)據(jù)講故事進(jìn)行溝通。作為數(shù)據(jù)科學(xué)家,您必須知道如何圍繞數(shù)據(jù)創(chuàng)建故事情節(jié),以便任何人都能輕松理解。例如,呈現(xiàn)數(shù)據(jù)表不如以敘事格式從這些數(shù)據(jù)中分享見(jiàn)解那樣有效。使用講故事將幫助您將您的發(fā)現(xiàn)正確地傳達(dá)給您的雇主。

溝通時(shí),請(qǐng)注意所分析數(shù)據(jù)中嵌入的結(jié)果和值。大多數(shù)企業(yè)主不想知道您分析的內(nèi)容,他們對(duì)如何積極地影響他們的業(yè)務(wù)感興趣。學(xué)會(huì)專注于通過(guò)溝通提供價(jià)值和建立持久的關(guān)系。

13.團(tuán)隊(duì)合作

數(shù)據(jù)科學(xué)家無(wú)法單獨(dú)工作。您必須與公司高管合作制定戰(zhàn)略,工作產(chǎn)品經(jīng)理和設(shè)計(jì)師以創(chuàng)造更好的產(chǎn)品,與營(yíng)銷人員合作以推出更好的轉(zhuǎn)換活動(dòng),與客戶和服務(wù)器軟件開(kāi)發(fā)人員合作創(chuàng)建數(shù)據(jù)管道并改進(jìn)工作流程。您必須與組織中的每個(gè)人(包括您的客戶)合作。

從本質(zhì)上講,您將與您的團(tuán)隊(duì)成員合作開(kāi)發(fā)用例,以便了解解決問(wèn)題所需的業(yè)務(wù)目標(biāo)和數(shù)據(jù)。您需要了解正確的方法來(lái)解決用例,解決問(wèn)題所需的數(shù)據(jù)以及如何將結(jié)果轉(zhuǎn)換并呈現(xiàn)給所有相關(guān)人員都能輕松理解的內(nèi)容。

資源

  1. 高級(jí)學(xué)位 - 更多數(shù)據(jù)科學(xué)課程正在涌現(xiàn)以滿足當(dāng)前的需求,但也有許多數(shù)學(xué),統(tǒng)計(jì)學(xué)和計(jì)算機(jī)科學(xué)課程。

  2. MOOCs - Coursera,Udacitycodeacademy是很好的起點(diǎn)。

  3. 認(rèn)證 --KDnuggets 編制了一份廣泛的清單

  4. Bootcamps - 有關(guān)此方法與學(xué)位課程或MOOC的比較的更多信息,請(qǐng)查看 Datascope Analytics數(shù)據(jù)科學(xué)家的訪客博客

  5. Kaggle - Kaggle舉辦數(shù)據(jù)科學(xué)競(jìng)賽,在那里您可以練習(xí),通過(guò)凌亂的現(xiàn)實(shí)世界數(shù)據(jù)磨練您的技能,并解決實(shí)際的業(yè)務(wù)問(wèn)題。雇主認(rèn)真對(duì)待Kaggle排名,因?yàn)樗麄兛梢员灰暈橄嚓P(guān)的,親自動(dòng)手的項(xiàng)目工作。

  6. LinkedIn群組 - 加入相關(guān)群組,與數(shù)據(jù)科學(xué)社區(qū)的其他成員互動(dòng)。

  7. 數(shù)據(jù)科學(xué)中心和KDnuggets - 數(shù)據(jù)科學(xué)中心KDnuggets是保持?jǐn)?shù)據(jù)科學(xué)行業(yè)趨勢(shì)前沿的良好資源。

  8. Burtch Works研究:數(shù)據(jù)科學(xué)家的工資 - 如果您正在尋找有關(guān)當(dāng)前數(shù)據(jù)的工資和人口統(tǒng)計(jì)數(shù)據(jù)的更多信息,請(qǐng)務(wù)必下載我們的數(shù)據(jù)科學(xué)家薪資研究。

我確信我可能錯(cuò)過(guò)了一些項(xiàng)目,所以如果您認(rèn)為有任何關(guān)鍵技能或資源對(duì)任何數(shù)據(jù)科學(xué)有希望的人有幫助,請(qǐng)隨時(shí)在下面的評(píng)論中分享!

此博客部分基于:http//www.burtchworks.com/2014/11/17/must-have-skills-to-become-a-data-scientist/

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 1.教育 數(shù)據(jù)科學(xué)家受過(guò)高等教育 - 88%至少擁有碩士學(xué)位,46%擁有博士學(xué)位 - 雖然有明顯的例外,但通常需要...
    Liam_ml閱讀 404評(píng)論 2 1
  • 數(shù)據(jù)科學(xué)家應(yīng)該知道很多 - 機(jī)器學(xué)習(xí),計(jì)算機(jī)科學(xué),統(tǒng)計(jì)學(xué),數(shù)學(xué),數(shù)據(jù)可視化,通信和深度學(xué)習(xí)。想要受雇主要求的數(shù)據(jù)科...
    Liam_ml閱讀 961評(píng)論 0 10
  • 我是黑夜里大雨紛飛的人啊 1 “又到一年六月,有人笑有人哭,有人歡樂(lè)有人憂愁,有人驚喜有人失落,有的覺(jué)得收獲滿滿有...
    陌忘宇閱讀 8,831評(píng)論 28 54
  • 首先介紹下自己的背景: 我11年左右入市到現(xiàn)在,也差不多有4年時(shí)間,看過(guò)一些關(guān)于股票投資的書(shū)籍,對(duì)于巴菲特等股神的...
    瞎投資閱讀 5,936評(píng)論 3 8
  • ![Flask](data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAW...
    極客學(xué)院Wiki閱讀 7,776評(píng)論 0 3

友情鏈接更多精彩內(nèi)容