對數(shù)據(jù)集進行分組并對各組應用一個函數(shù)(聚合或者轉換),是數(shù)據(jù)分析工作重要環(huán)節(jié)。數(shù)據(jù)集準備好之后,就是計算分組統(tǒng)計或生成透視表。 pandas提供了一個靈活高效的groupby...
正方形代表判斷模塊(decision block) ,橢圓代表終止模塊(terminating block),表示已經得到結論,可以終止運動。 決策樹的優(yōu)勢在于數(shù)據(jù)形式容易理...
機器學習實戰(zhàn)之K-近鄰算法(二) 2-1 K-近鄰算法概述 簡單的說,K-近鄰算法采用測量不同特征值之間的距離方法進行分類。 K-近鄰算法 優(yōu)點:精度高、對異常值不敏感、無數(shù)...
目錄 機器學習簡單概述 機器學習的主要任務 學習機器學習的原因 python語言優(yōu)勢 1.1 何謂機器學習 簡單的說,機器學習就是把無序的數(shù)據(jù)變換成有用的信息。 機器學習的主...
5.3匯總和計算描述性統(tǒng)計 pandas對象擁有一組常用的數(shù)學和統(tǒng)計方法。他們大部分都屬于約簡和匯總統(tǒng)計,用于從Series中提取單個值(如mean或sum)或從DataFr...
7.4.2 正則表達式 正則表達式(regex)提供了一種靈活的在文本中搜索或匹配字符串模式的方式。 正則表達式是根據(jù)正則表達式語言編寫的字符串。 re模塊的函數(shù)可以分為三類...
目錄: 5.1 pandas 的數(shù)據(jù)結構介紹 5.1.1 Series 5.1.2 DataFrame 5.1.3索引對象 5.2基本功能 5.2.1重新索引 5.2.2丟棄...
書中源碼與數(shù)據(jù)集http://github.com/pydata/pydata-book 目錄 6.1 讀寫文件格式的數(shù)據(jù) 6.2 二進制數(shù)據(jù)格式 6.3 使用 html 和...
數(shù)據(jù)分析和建模方面的大量編程工作都是用在數(shù)據(jù)準備上的:加載、清理、轉換、重塑。是因為,多數(shù)時候存放在文件或數(shù)據(jù)庫中的數(shù)據(jù)不能滿足你的數(shù)據(jù)處理應用的要求。 7.1 合并數(shù)據(jù)集 ...
7.3 數(shù)據(jù)轉換 還有一個重要操作就是 過濾、清理、以及其他的轉換工作。 7.3.1 移除重復數(shù)據(jù) DataFrame有時候會出現(xiàn)重復的行: In [27]: data=Da...
(一)給出這些指標的基本定義 我們先對數(shù)據(jù)基礎指標的各個名詞做個解釋,其實我壓根不懂這些名詞啥意思。 給出百度百科的鏈接:http://baike.baidu.com/ite...
數(shù)據(jù)分析和統(tǒng)計方法論 數(shù)據(jù)分析的應用綜述 統(tǒng)計學知識 ·統(tǒng)計圖形:以直方圖為代表 ·統(tǒng)計特征:以方差和均值為代表 ·典型分布及應用:以正態(tài)分布為代表 ·推斷統(tǒng)計(從已知到未知...