Python有許多可以讀寫常見的HTML和XML格式數(shù)據(jù)的庫(kù),包括lxml、Beautiful Soup和html5lib。lxml的速度比較快,但其它的庫(kù)處理有誤的HTML...
pandas提供了一些用于將表格型數(shù)據(jù)讀取為DataFrame對(duì)象的函數(shù)。表6-1對(duì)它們進(jìn)行了總結(jié),其中read_csv和read_table可能會(huì)是你今后用得最多的。 我將...
還有一類方法可以從一維Series的值中抽取信息??聪旅娴睦樱?第一個(gè)函數(shù)是unique,它可以得到Series中的唯一值數(shù)組: 返回的唯一值是未排序的,如果需要的話,可以...
有些匯總統(tǒng)計(jì)(如相關(guān)系數(shù)和協(xié)方差)是通過參數(shù)對(duì)計(jì)算出來的。我們來看幾個(gè)DataFrame,它們的數(shù)據(jù)來自Yahoo!Finance的股票價(jià)格和成交量,使用的是pandas-d...
pandas對(duì)象擁有一組常用的數(shù)學(xué)和統(tǒng)計(jì)方法。它們大部分都屬于約簡(jiǎn)和匯總統(tǒng)計(jì),用于從Series中提取單個(gè)值(如sum或mean)或從DataFrame的行或列中提取一個(gè)Se...
根據(jù)條件對(duì)數(shù)據(jù)集排序(sorting)也是一種重要的內(nèi)置運(yùn)算,要對(duì)行或列索引進(jìn)行排序(按字典順序),可使用sort_index方法,它將返回一個(gè)已排序的新對(duì)象: 對(duì)于Data...
NumPy的ufuncs(元素級(jí)數(shù)組方法)也可用于操作pandas對(duì)象: 另一個(gè)常見的操作時(shí),將函數(shù)應(yīng)用到由各列或行所形成的一維數(shù)組上。DataFrame的apply方法即可...
pandas最重要的一個(gè)功能是,它可以對(duì)不同索引的對(duì)象進(jìn)行算術(shù)運(yùn)算。在將對(duì)象相加時(shí),如果存在不同的索引對(duì),則結(jié)果的索引就是該索引對(duì)的并集。對(duì)于有數(shù)據(jù)庫(kù)經(jīng)驗(yàn)的用戶,這就像在索引...
對(duì)于DataFrame的行的標(biāo)簽索引,我引入了特殊的標(biāo)簽運(yùn)算符loc和iloc。它們可以讓你用類似NumPy的標(biāo)記,使用軸標(biāo)簽(loc)或整數(shù)索引(iloc),從DataFr...
Series索引(obj[...])的工作方式類似于NumPy數(shù)組的索引,只不過Series的索引值不只是整數(shù)。下面是幾個(gè)例子: 利用標(biāo)簽的切片運(yùn)算與普通的Python切片運(yùn)...
丟棄某條軸上的一個(gè)或多個(gè)項(xiàng)很簡(jiǎn)單,只要有一個(gè)索引數(shù)組或列表即可。由于需要執(zhí)行一些數(shù)據(jù)整理和集合邏輯,所以drop方法返回的是一個(gè)在指定軸上刪除了指定值的新對(duì)象: 對(duì)于Data...
pandas對(duì)象的一個(gè)重要方法是reindex,其作用是創(chuàng)建一個(gè)新對(duì)象,它的數(shù)據(jù)符合新的索引??聪旅娴睦樱?用該Series的reindex將會(huì)根據(jù)新索引進(jìn)行重排。如果某個(gè)...
pandas的索引對(duì)象負(fù)責(zé)管理標(biāo)簽和其他元數(shù)據(jù)(比如軸名稱等)。構(gòu)建Series或DataFrame時(shí),所用到的任何數(shù)組或其他序列的標(biāo)簽都會(huì)被轉(zhuǎn)換成一個(gè)Index: Inde...
DataFrame是一個(gè)表格型的數(shù)據(jù)結(jié)構(gòu),它含有一組有序的列,每列可以是不同的值類型(數(shù)值、字符串、布爾值等)。DataFrame中的數(shù)據(jù)是以一個(gè)或多個(gè)二維塊存放的(而不是列...
@何沉 有道理
你的空贊,我不需要!剛剛好不容易更完一篇文章,發(fā)表后,居然有十多條消息,看到這么多小紅點(diǎn),不知道有多開心。 點(diǎn)進(jìn)去一看,哇,這么多贊,再一看,怎么都是同一個(gè)人點(diǎn)贊,他的能量條沒有限制嗎? 突然想...
pandas主要有兩個(gè)數(shù)據(jù)結(jié)構(gòu):Series和DataFrame。雖然它們并不能解決所有問題,但它們?yōu)榇蠖鄶?shù)應(yīng)用提供了一種可靠的、易于使用的基礎(chǔ)。 Series Series...