大數(shù)據(jù)時代,掌握處理數(shù)據(jù)的技能是必要的,書單包括數(shù)據(jù)清洗+數(shù)據(jù)挖掘+數(shù)據(jù)分析......
1、數(shù)據(jù)清洗入門與實(shí)踐

作者:Megan Squire
譯者:任政委
★ 真實(shí)事例講解數(shù)據(jù)清洗入門!
★ 真實(shí)項(xiàng)目鍛煉實(shí)踐數(shù)據(jù)清洗!
《干凈的數(shù)據(jù):數(shù)據(jù)清洗入門與實(shí)踐》從文件格式、數(shù)據(jù)類型、字符編碼等基本概念講起,通過真實(shí)的示例,探討如何提取和清洗關(guān)系型數(shù)據(jù)庫、網(wǎng)頁文件和PDF文檔中的數(shù)據(jù)。最后提供了兩個真實(shí)的項(xiàng)目,讓讀者將所有數(shù)據(jù)清洗技術(shù)付諸實(shí)踐,完成整個數(shù)據(jù)科學(xué)過程。
2、數(shù)據(jù)科學(xué)入門

作者:Joel Grus
譯者:高蓉 韓波
★ Google數(shù)據(jù)科學(xué)家作品!
★ 數(shù)據(jù)科學(xué)基本知識的重量級讀本!
《數(shù)據(jù)科學(xué)入門》從零開始講解數(shù)據(jù)科學(xué)工作,教授數(shù)據(jù)科學(xué)工作所必需的黑客技能,并帶領(lǐng)讀者熟悉數(shù)據(jù)科學(xué)的核心知識——數(shù)學(xué)和統(tǒng)計(jì)學(xué)。 作者選擇了功能強(qiáng)大、簡單易學(xué)的Python語言環(huán)境,親手搭建工具和實(shí)現(xiàn)算法,并精心挑選了注釋良好、簡潔易讀的實(shí)現(xiàn)范例。書中涵蓋的所有代碼和數(shù)據(jù)都可以在GitHub上下載。
通過閱讀本書,你可以:
? 學(xué)到一堂Python速成課;
? 學(xué)習(xí)線性代數(shù)、統(tǒng)計(jì)和概率論的基本方法,了解它們是怎樣應(yīng)用在數(shù)據(jù)科學(xué)中的;
? 掌握如何收集、探索、清理、轉(zhuǎn)換和操作數(shù)據(jù);
? 深入理解機(jī)器學(xué)習(xí)的基礎(chǔ);
? 運(yùn)用k-近鄰、樸素貝葉斯、線性回歸和邏輯回歸、決策樹、神經(jīng)網(wǎng)絡(luò)和聚類等各種數(shù)據(jù)模型;
? 探索推薦系統(tǒng)、自然語言處理、網(wǎng)絡(luò)分析、MapReduce和數(shù)據(jù)庫。
3、Python網(wǎng)絡(luò)數(shù)據(jù)采集

作者:Ryan Mitchell
譯者:陶俊杰 陳小莉
《Python網(wǎng)絡(luò)數(shù)據(jù)采集》采用簡潔強(qiáng)大的Python語言,全面介紹網(wǎng)絡(luò)數(shù)據(jù)采集技術(shù),教你從不同形式的網(wǎng)絡(luò)資源中自由地獲取數(shù)據(jù)。你將學(xué)會如何使用Python腳本和網(wǎng)絡(luò)API一次性采集并處理成千上萬個網(wǎng)頁上的數(shù)據(jù)。書中內(nèi)容還包括分析原始數(shù)據(jù)、用網(wǎng)絡(luò)爬蟲測試網(wǎng)站等。還提供了詳細(xì)的代碼示例。
“這本書中的工具和示例幫我輕松地將一些重復(fù)性工作自動化了,我可以將省下來的時間用于解決更有意思的問題。這是一本實(shí)用手冊,非常適合用來解決實(shí)際工作中的問題?!?/p>
——Eric VanWyk,美國歐林工程學(xué)院電子計(jì)算機(jī)工程師
4、洞悉數(shù)據(jù):用可視化方法發(fā)掘數(shù)據(jù)真義

作者:Hunter Whitney
譯者:劉云濤
★ 多學(xué)科、多維度、清晰全面地理解數(shù)據(jù)和數(shù)據(jù)可視化!?
《洞悉數(shù)據(jù):用可視化方法發(fā)掘數(shù)據(jù)真義》包含各種插圖、名人名言和現(xiàn)實(shí)生活中的例子,以及商業(yè)分析、醫(yī)療、網(wǎng)絡(luò)監(jiān)控、安全和游戲等領(lǐng)域的案例分析,來演示可視化如何讓數(shù)據(jù)變得更清晰、更全面,通過對數(shù)據(jù)可視化的廣泛用途和適用性的討論,來了解它如何讓數(shù)據(jù)變得更加讓人容易接受和理解。
“這本書的重點(diǎn)在于提供理解數(shù)據(jù)的不同視角。我們?nèi)绾卫斫膺@本書中的信息完全在于我們自己的視角。我認(rèn)為這本書的主題是保持開放的心態(tài),這樣才能看到理解信息的全新機(jī)遇,它絕不是片面的說明文?!?/p>
——亞馬遜讀者評論
5、決策知識自動化:大數(shù)據(jù)時代的商業(yè)決策分析方法

作者:Alan N. Fish
譯者:王飛躍 王曉 鄭心湖
★ 知名科學(xué)家王飛躍譯著,柴天佑等院士聯(lián)名推薦!
《決策知識自動化:大數(shù)據(jù)時代的商業(yè)決策分析方法》是大數(shù)據(jù)商業(yè)實(shí)踐手冊,通過大量來源于流程自動化的主流應(yīng)用場景,聚焦于企業(yè)業(yè)務(wù)流程中經(jīng)營決策的知識自動化這一主題,向讀者展示如何在實(shí)踐中應(yīng)用決策管理系統(tǒng)更高效地管理項(xiàng)目。 本書適合各企業(yè)CEO、CIO、IT架構(gòu)師以及一切對知識自動化理論感興趣的讀者。
“Fish博士提出的收集、建模與管理決策需求的方法行之十分有效。對于任何想要建立決策管理系統(tǒng),或是高效地以決策為中心進(jìn)行形勢分析和開展商業(yè)自動化的組織、團(tuán)體或個人,本書都是必讀之選。”
——James Taylor,Decision Management Solutions公司CEO、首席顧問
6、社會媒體挖掘

作者:Reza Zafarani , Mohammad Ali Abbasi , Huan Liu
譯者:劉挺 秦兵 趙妍妍
★ 掌握基本原理和方法,從火熱的社會媒體中挖掘真義!
《社會媒體挖掘》整合了社會媒體、社會網(wǎng)絡(luò)分析以及數(shù)據(jù)挖掘的相關(guān)知識,為學(xué)生、從業(yè)者、研究人員和項(xiàng)目經(jīng)理理解社會媒體挖掘的基礎(chǔ)知識和潛能,提供了一個方便的平臺。本書介紹了社會媒體數(shù)據(jù)獨(dú)有的問題,并闡述了網(wǎng)絡(luò)分析以及數(shù)據(jù)挖掘中的基本概念、新出現(xiàn)的問題和有效的算法。 書中涵蓋了不同難度的練習(xí)題,可以幫助讀者在社會媒體數(shù)據(jù)挖掘的不同場景中理解和應(yīng)用相關(guān)的概念、原理以及方法。
7、云數(shù)據(jù)中心網(wǎng)絡(luò)技術(shù)

作者:Gary Lee
譯者:唐富年
★ 由英特爾公司內(nèi)部專家撰寫,介紹支撐云數(shù)據(jù)中心的前沿網(wǎng)絡(luò)技術(shù)!
《云數(shù)據(jù)中心網(wǎng)絡(luò)技術(shù)》聚焦于數(shù)據(jù)中心內(nèi)部的網(wǎng)絡(luò),所討論的話題集中在大型云數(shù)據(jù)中心內(nèi)部組網(wǎng)所需的設(shè)備、軟件和標(biāo)準(zhǔn)。主要內(nèi)容包括:云計(jì)算和云端網(wǎng)絡(luò)互連概述,數(shù)據(jù)中心的演變,交換結(jié)構(gòu)技術(shù),云數(shù)據(jù)中心網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),網(wǎng)絡(luò)虛擬化,軟件定義網(wǎng)絡(luò),等等。 本書適合云計(jì)算網(wǎng)絡(luò)、網(wǎng)絡(luò)建設(shè)、網(wǎng)絡(luò)管理、系統(tǒng)集成行業(yè)的開發(fā)人員、技術(shù)工程師等閱讀。
8、人人都是數(shù)據(jù)分析師:Tableau應(yīng)用實(shí)戰(zhàn)

作者:劉紅閣 王淑娟 溫融冰
★ 基于9.1版本,采用實(shí)際案例,深度講解核心功能!
★ Tableau亞太區(qū)副總裁、埃森哲大中華區(qū)董事總經(jīng)理傾情作序!
★ 特斯拉、百度、亞馬遜等數(shù)據(jù)分析師聯(lián)袂推薦!
★ 簡單易用,拖放成圖,無需統(tǒng)計(jì)、計(jì)算機(jī)背景,即可進(jìn)行可視化分析,分秒間讀取,快速引擎處理,幫你看見并讀懂大數(shù)據(jù)!
《人人都是數(shù)據(jù)分析師:Tableau應(yīng)用實(shí)戰(zhàn)》包括數(shù)據(jù)連接與編輯、圖形展示與編輯功能,如何與R等工具進(jìn)行集成,如何在服務(wù)器上進(jìn)行發(fā)布管理等內(nèi)容,而且廣泛覆蓋數(shù)據(jù)獲取與管理、基礎(chǔ)與高級圖形分析、地圖分析、交互分析與數(shù)據(jù)挖掘、圖表集成整合與分享發(fā)布等主要內(nèi)容,方便大家快速掌握敏捷分析方法與技術(shù)。
“本書通過真實(shí)的案例,闡述了一個完全不同于以往的數(shù)據(jù)分析方法論。它展示了領(lǐng)先企業(yè)如何讓商業(yè)智能不再局限于少數(shù)技術(shù)人員,讓多數(shù)人都掌握自助分析,讀懂?dāng)?shù)據(jù)創(chuàng)造更大的價值?!?/p>
——JY Pook, Tableau亞太區(qū)副總裁
9、Spark快速大數(shù)據(jù)分析

作者:Holden Karau , Andy Konwinski , Patrick Wendell , Matei Zaharia
譯者:王道遠(yuǎn)
★ Spark開發(fā)者及核心成員共同打造!
《Spark快速大數(shù)據(jù)分析》講解了網(wǎng)絡(luò)大數(shù)據(jù)時代應(yīng)運(yùn)而生的、能高效迅捷地分析處理數(shù)據(jù)的工具——Spark,它帶領(lǐng)讀者快速掌握用 Spark收集、計(jì)算、簡化和保存海量數(shù)據(jù)的方法,學(xué)會交互、迭代和增量式分析,解決分區(qū)、數(shù)據(jù)本地化和自定義序列化等問題??梢宰寯?shù)據(jù)科學(xué)家和工程師即刻上手。你能學(xué)到如何使用簡短的代碼實(shí)現(xiàn)復(fù)雜的并行作業(yè),還能了解從簡單的批處理作業(yè)到流處理以及機(jī)器學(xué)習(xí)等應(yīng)用。
10、Spark高級數(shù)據(jù)分析

作者:Sandy Ryza , Uri Laserson , Sean Owen , Josh Wills
譯者:龔少成
★ Cloudera公司數(shù)據(jù)科學(xué)家團(tuán)隊(duì)攜手打造,教你用Spark進(jìn)行大規(guī)模數(shù)據(jù)分析!
★ 使用Spark進(jìn)行大規(guī)模數(shù)據(jù)分析的實(shí)戰(zhàn)寶典!
這是一本實(shí)用手冊,四位作者均是Cloudera公司的數(shù)據(jù)科學(xué)家,他們聯(lián)袂展示了利用Spark進(jìn)行大規(guī)模數(shù)據(jù)分析的若干模式,而且每個模式都自成一體。他們將Spark、統(tǒng)計(jì)學(xué)方法和真實(shí)數(shù)據(jù)集結(jié)合起來,通過實(shí)例向讀者講述了怎樣解決分析型問題。
《Spark高級數(shù)據(jù)分析》首先介紹了Spark及其生態(tài)系統(tǒng),接著詳細(xì)介紹了將分類、協(xié)同過濾及異常檢查等常用技術(shù)應(yīng)用于基因?qū)W、安全和金融領(lǐng)域的若干模式。如果你對機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)有基本的了解,并且會用Java、Python或Scala編程,這些模式將有助于你開發(fā)自己的數(shù)據(jù)應(yīng)用。
更多書訊盡在圖靈社區(qū)