第二章 1-數(shù)據(jù)探索

通過檢驗數(shù)據(jù)集的數(shù)據(jù)質(zhì)量、繪制圖表、計算某些特征量等手段,對樣本數(shù)據(jù)集的結構和規(guī)律進行分析的過程就是數(shù)據(jù)探索。

1 數(shù)據(jù)質(zhì)量分析

數(shù)據(jù)質(zhì)量分析的主要任務時檢查原始數(shù)據(jù)中是否存在臟數(shù)據(jù),臟數(shù)據(jù)一般指不符合要求,以及不能直接進行相應分析的數(shù)據(jù)。臟數(shù)據(jù)包括以下內(nèi)容:
□缺失值
□異常值
□不一致的值
□重復數(shù)據(jù)以及含有特殊符號(%,#)的數(shù)據(jù)

1.1 缺失值分析

(1)缺失值的影響
數(shù)據(jù)建模丟掉大量有用的信息,模型中蘊含的規(guī)律更難把握。包含空值得數(shù)據(jù)會使得建模過程陷入混亂,導致不可靠的輸出。
(2)缺失值分析
統(tǒng)計含有缺失值屬性的個數(shù),以及每個屬性的未缺失數(shù)。缺失數(shù)與缺失率等。從總體上說,缺失值的處理分為刪除存在的缺失值的記錄、對可能值進行插補不處理三種情況。

1.2 異常值分析

異常值分析師檢驗數(shù)據(jù)是否有錄入錯誤以及含有不合常理的數(shù)據(jù)。忽視異常值的存在是十分危險的,不加剔除地把異常值包括進數(shù)據(jù)的計算分析過程中,對結果產(chǎn)生不良影響,重視異常值的出現(xiàn),分析其產(chǎn)生的原因,常常成為發(fā)現(xiàn)問題進而改進決策的契機
異常值指的是樣本中的個別值,其數(shù)值明顯偏離其余的預測值。異常值也稱為離群點,異常值分析也稱為離群點分析。
(1)簡單統(tǒng)計量分析
先對變量做一個描述性的統(tǒng)計,進而查看哪些數(shù)據(jù)是不合理的。最常用的統(tǒng)計量是最大值和最小值。比如年齡屬性中的最大值為199,則該變量取值異常。
(2)3σ原則
如果數(shù)據(jù)服從正太分布,異常值被定義為一組測定值中與平均值的偏差超過3倍標準差的值。如果數(shù)據(jù)不服從正太分布,也可以用遠離平均值的多少倍標準差來描述。
(3)箱型圖分析


1.3 一致性分析

數(shù)據(jù)不一致,來源不同或者其他方式導致的數(shù)據(jù)不一致

2 數(shù)據(jù)特征分析

對數(shù)據(jù)進行質(zhì)量分析以后,接下來可以通過繪制圖表、計算某些特征量等手段進行數(shù)據(jù)的特征分析。

2.1 分布分析

分布分析揭示數(shù)據(jù)的分布特征和分布類型。
定量數(shù)據(jù):繪制頻率分布圖,頻率分布直方圖來直觀分析 分布形式是對稱的還是非對稱的,發(fā)現(xiàn)某些特大或特小的可疑值。
定性數(shù)據(jù):可用餅圖和條形圖顯示分布情況

1 定量數(shù)據(jù)的分布分析

區(qū)間左閉右開,縱軸為頻率/組距

2 定性數(shù)據(jù)的分布分析

對于定性數(shù)據(jù),常常根據(jù)變量的分類類型來分組,可以采用餅圖和條形圖來描述定性變量的分布。


餅圖和條形圖示例

2.2 對比分析

比如根據(jù)時間上來進行對比,對比不同部分在各個月份的銷售額


對比分析

2.3 統(tǒng)計量分析

常從集中趨勢和離中趨勢兩個方面進行分析。
平均水平反應個體集中趨勢的度量,常用均值和中位數(shù)。反映個體離開平均水平的度量,使用較為廣泛的是標準差,四分位間距

1集中趨勢度量


2 離中趨勢度量

2.4 周期性分析

2.5 貢獻度分析

2.6 相關性分析

分析連續(xù)變量之間線性相關程度的強弱,并用適當?shù)慕y(tǒng)計指標表示出來的過程成為相關分析。


2 計算相關系數(shù)

衡量線性相關:Pearson相關系數(shù),Spearman秩相關系數(shù)和判定系數(shù)
(1)協(xié)方差就是兩個樣本分別減去均值,然后取平均===》E((x-E(x))(Y-E(Y)))
衡量了線性相關性,pearson相關系數(shù)就是對數(shù)據(jù)進行標準化之后的相乘


相關系數(shù)
閾值

(2)判定系數(shù)就是相關系數(shù)的平方

最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

  • Android 自定義View的各種姿勢1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 179,094評論 25 709
  • 用兩張圖告訴你,為什么你的 App 會卡頓? - Android - 掘金 Cover 有什么料? 從這篇文章中你...
    hw1212閱讀 14,024評論 2 59
  • 機器學習里有一句名言:數(shù)據(jù)和特征決定了機器學習的上限,而模型和算法的應用只是讓我們逼近這個上限。這個說法形象且深刻...
    3b899188980c閱讀 3,326評論 0 3
  • 書名:你的善良必須有點鋒芒 作者:慕言歌 摘抄: 無論你把自己的悲傷或暢快說得多么生動,都沒有人能真正感同身受。 ...
    慢慢存錢閱讀 746評論 0 0
  • 我們在開發(fā)過程中,并不會去用系統(tǒng)提供的默認的Toast樣式,很多情況下需要去自己定制Toast的顯示,這篇文章就是...
    根艮哏艮根閱讀 2,631評論 1 2

友情鏈接更多精彩內(nèi)容