爬蟲篇只會對簡單的爬蟲進(jìn)行介紹,只是為了學(xué)習(xí)數(shù)據(jù)分析時方便采集數(shù)據(jù)。所以下面關(guān)于爬蟲的內(nèi)容將只會圍繞urllib2、re這兩個庫開展 首先我們要對爬蟲有一個大體的概念,爬蟲是...
爬蟲篇只會對簡單的爬蟲進(jìn)行介紹,只是為了學(xué)習(xí)數(shù)據(jù)分析時方便采集數(shù)據(jù)。所以下面關(guān)于爬蟲的內(nèi)容將只會圍繞urllib2、re這兩個庫開展 首先我們要對爬蟲有一個大體的概念,爬蟲是...
最近面臨一個職業(yè)的轉(zhuǎn)折,最終我自己選擇了一條技術(shù)+管理的路。 說來自己也有些遺憾,做了半年的部門經(jīng)理,最后放棄了行政崗位這條路。 技術(shù)我也一直在抓,但是并不精通,有很多的軟肋...
1.合并數(shù)據(jù)集 DataFrame 中的merge方法是一種多對一的合并。 df1中的數(shù)據(jù)有多個被標(biāo)記為a和b的行,而df2中key列的每個值則僅對應(yīng)一行。對這些對象調(diào)用me...
基礎(chǔ)準(zhǔn)備:Ubuntuhadoop-2.7.3.tar.gzjdk-8u144-linux-x64.tar.gz 1.Hadoop平臺是完全使用Java開發(fā)的,所以在搭建Ha...
之前寫的numpy和pandas都是基于一個前提下,那就是我們可以把數(shù)據(jù)直接導(dǎo)入到Python中進(jìn)行操作,否則之前的學(xué)習(xí)都是沒有意義的,而不論是pandas又或者是numpy...
pandas中的層次化索引是我們能以低緯度形式處理高緯度數(shù)據(jù)。 這樣的一個數(shù)據(jù)集我們可以將它變得更加直觀,將它變成只有一層索引的數(shù)據(jù): 這樣的變化是可逆的,我們同樣可以將這樣...
pandas中使用浮點(diǎn)值NaN表示缺失值,Python內(nèi)置的None值也會被當(dāng)做NA處理 pandas中常用的對NA進(jìn)行處理的方法dropna:過濾NaN值的一種方法,可以通...
匯總和計(jì)算描述統(tǒng)計(jì) 調(diào)用DataFrame的sum方法將會返回一個含有列小計(jì)的Series: 傳入axis=1將會按行進(jìn)行求和運(yùn)算: NA值將會自動被排除(除非整個切片都是N...
一 對過去的十年,可以說只有一個最準(zhǔn)確的稱呼:蘋果手機(jī)發(fā)明后的十年。 如果你的年齡大于十歲,你就可以驕傲地說自己身處于洪流中,見證一個了不起的時代。 ? 凌晨剛結(jié)束的蘋果發(fā)布...
pandas重索引 如果重索引傳入的索引號原在原索引中并不存在則引入空值 我們可以控制這個引入的值是什么,默認(rèn)是NaN,可以通過fill_value參數(shù)更改 函數(shù)應(yīng)用和映射 ...
pandas中的Series和DataFrame是我們非常常用的兩個工具。 Series是一種類似于一維數(shù)組的對象 Series由一組數(shù)據(jù)(各種Numpy數(shù)據(jù)類型)以及一組與...
機(jī)器學(xué)習(xí)的分類 監(jiān)督學(xué)習(xí)(Supervised Learning)無監(jiān)督學(xué)習(xí)(Unsupervised Learning)強(qiáng)化學(xué)習(xí)(Reinforcement Learnin...
1.numpy基礎(chǔ):數(shù)組和矢量計(jì)算 ndarray 可進(jìn)行矢量運(yùn)算并節(jié)省空間的多維數(shù)組 無需寫循環(huán)即可進(jìn)行標(biāo)準(zhǔn)數(shù)學(xué)函數(shù) 可以讀寫磁盤 線性代數(shù)、隨機(jī)數(shù)生成以及傅里葉變換功能(...