淺談數(shù)據(jù)二-數(shù)據(jù)的質(zhì)量分析與特征分析

在進(jìn)行數(shù)據(jù)挖掘的第一步,首先需要考慮的問題就是

  • 1 樣本數(shù)據(jù)的數(shù)量和質(zhì)量是否滿足建模的要求?
  • 2 是否出現(xiàn)過異常數(shù)據(jù)狀態(tài)?
  • 3 數(shù)據(jù)有無明顯的規(guī)律和趨勢?
  • 4 數(shù)據(jù)之間是否存在著何種關(guān)聯(lián)性?

在去考慮這些問題的同時,通過檢驗數(shù)據(jù)、繪制圖標(biāo)、計算特征向量等手段對樣本數(shù)據(jù)進(jìn)行分析的過程一般稱之為數(shù)據(jù)探索。而探索離不開數(shù)據(jù)質(zhì)量分析和特征分析這兩方面。

數(shù)據(jù)質(zhì)量分析

數(shù)據(jù)質(zhì)量分析是數(shù)據(jù)預(yù)處理的前提條件,也是分析結(jié)論的有效性以及準(zhǔn)確性的基礎(chǔ),數(shù)據(jù)質(zhì)量分析的主要任務(wù)是檢查原始數(shù)據(jù)中是否存在臟數(shù)據(jù)(一般指不符合要求以及不能直接進(jìn)行相應(yīng)分析的數(shù)據(jù)),臟數(shù)據(jù)的情況一般包括:缺失值、異常值、不一致的值、重發(fā)戶數(shù)據(jù)以及含有特殊符號的數(shù)據(jù)。

1. 缺失值
主要包括記錄的缺失以及記錄中某些字段的缺失??赡軙斐纱罅坑杏脭?shù)據(jù)丟失,會增加數(shù)據(jù)的不可靠性,造成數(shù)據(jù)的規(guī)律更難以把握,一般來說需要對其進(jìn)行刪除、插補(bǔ)、不處理這三種選擇。

缺失的可能性多種多樣,一般就是因為數(shù)據(jù)暫時無法獲取或者獲取難度、代價過大,或者說是最初手機(jī)的時候被認(rèn)為是不重要數(shù)據(jù)而遺漏,當(dāng)然也可能是在收集存儲的時候有問題,這個無需過于追究這些非人為因素產(chǎn)生的。

當(dāng)然還有一種情況需要考慮,那就是有些分析的屬性對于這條數(shù)據(jù)歸屬對象并不存在,例如說,對于一個單身的人統(tǒng)計結(jié)婚年限,對于一個嬰幼兒統(tǒng)計固定收入等,需要適當(dāng)?shù)倪M(jìn)行篩選。

2.異常值分析
異常值分析主要是針對與檢查錄入錯誤以及含有不合理因素的數(shù)據(jù)。方法常用的有三種:

  • 1.簡單統(tǒng)計分析:這是對數(shù)據(jù)一個簡單的直觀分析,可以進(jìn)行常識判斷,例如,一個人的年齡中有填寫超過1000的,這明顯是不合理的。
  • 2.“3σ原則”:簡單來說,異常值被定義為一組測定值中與平均值偏差超過三倍標(biāo)準(zhǔn)差的值。
  • 3。箱型圖分析
    通常被定義為小于 “25%分位數(shù) - 1.5IQR” 或者 大于 “75%分位數(shù) + 1.5IQR”,其中IQR被稱為四分位間距,即“75%分位數(shù) - 25%分位數(shù)”(25%分位數(shù) 以及75%分位數(shù) 的計算方式請類比中位數(shù))。如果數(shù)據(jù)python的同學(xué),可以嘗試使用pandas直接獲取這些數(shù)據(jù)的描述
import pandas as pd
data = pd.read_excel('xxxxx.xls', index_col = u'日期')
print(data.describe())
結(jié)果

3.不一致性分析
數(shù)據(jù)不一致性 值得是數(shù)據(jù)的矛盾性,不相容性,直接對不一致的數(shù)據(jù)進(jìn)行挖掘的話,可能會產(chǎn)生與實際偏差很大的結(jié)果。一般來說造成他的主要是來自于三種原因,其一是由于數(shù)據(jù)冗余,往往是由于重復(fù)存放的數(shù)據(jù)未能進(jìn)行一致性地更新造成的。二是由于并發(fā)控制不當(dāng)造成,多用戶共享數(shù)據(jù)庫,而更新操作未能保持同步進(jìn)行而引起。三是由于各種故障、錯誤造成的。

數(shù)據(jù)特征分析

1.分布分析
分布分析主要是為了揭示數(shù)據(jù)的分布特征以及分布類型,可分為以下幾種情況

  • 1.1 定量數(shù)據(jù)的分布分析「柱型圖」
    對于定量數(shù)據(jù)的分析,關(guān)鍵點是確定“組數(shù)”與“組寬”,每組習(xí)慣性為左閉右開。一般步驟為:1.求極差;2.決定組距與組數(shù);3.決定分點;4.列出頻率分布表;5.繪制分布直方圖。 需要注意的數(shù),各組之間互斥、包含所有數(shù)據(jù)且組寬最好相等。

  • 1.2 定性數(shù)據(jù)的分布分析「餅圖」
    對于定性變量,通常根據(jù)變量分類類型來分組,一般采用餅圖或者條形圖進(jìn)行描述分布。例如餅圖,每個扇形部分代表每一個類型的百分比或者頻數(shù)


    餅圖

2.對比分析「折線圖」
對比分析指把兩個相互聯(lián)系的指標(biāo)進(jìn)行比較。特被適用于指標(biāo)之間的橫縱向?qū)Ρ?,時間序列的比較分析。其實簡單來說,就是中學(xué)學(xué)習(xí)的折線圖。一般包含絕對數(shù)比較和相對數(shù)比較,相對數(shù)有包含結(jié)構(gòu)相對數(shù)、比例相對數(shù)、比較相對數(shù)、強(qiáng)度相對數(shù)、計劃完成程度相對數(shù)、動態(tài)相對數(shù),在這里就不意義贅述了。

3. 統(tǒng)計量分析
用統(tǒng)計指標(biāo)對定量數(shù)據(jù)進(jìn)行統(tǒng)計描述,常用集中趨勢和離中趨勢來進(jìn)行分析。其中平均水平指標(biāo)廣泛使用均值、眾數(shù)和中位數(shù),反映變異程度主要是方差、標(biāo)準(zhǔn)差、四分位間距(就是上文提到過的IQR),其中變異系數(shù)的計算方式為 “標(biāo)準(zhǔn)差/均值 × 100%”

4.周期性分析「折線圖」
周期性分析是探索某個變量是否隨時間的變化 而 呈現(xiàn)出某種周期變化趨勢。時間尺度相對較長的周期性趨勢有年度周期性趨勢、季節(jié)性周期趨勢,相對短的有月度周期性趨勢,周度周期性趨勢,甚至更短的天和小時。

5. 貢獻(xiàn)度分析「帕累托圖」
貢獻(xiàn)度分析又稱帕累托分析,原理是帕累托法則(20/80定律),即同樣的投入放在不同的地方會產(chǎn)生不同的效益。例如一個店商公司,80%的利潤可能來自于20%的暢銷品。

帕累托圖做法: 
1.列出所有感興趣的內(nèi)容
2.測量元素,每個元素用相同的計量單位
3.命令的內(nèi)容根據(jù)自己的測量
4.百分比計算出每個元素的總測量
5.累積百分比從頂部向底部等于100%
6.創(chuàng)建一個塊和線路圖,線路占累計百分比
7.在最重要的組成部分的先工作
帕累托圖

6.相關(guān)性分析「散點圖、散點圖矩陣」
分析連續(xù)變量之間線性相關(guān)的強(qiáng)弱,并選擇適當(dāng)?shù)闹笜?biāo)表示出來的過程叫做相關(guān)分析。

描述變量之間的線性相關(guān)程度,可以通過計算相關(guān)系數(shù)進(jìn)行分析,常用的在二元變量的相關(guān)分析過程中比較常用的有Pearson相關(guān)系數(shù)、Spearman秩相關(guān)系數(shù)和判定系數(shù)。

  • 1.Pearson線性相關(guān)系數(shù)
    一般用于分析兩個連續(xù)性變量間關(guān)系,必須要求連續(xù)變量的取值符合正態(tài)分布。 公式定義為: 兩個連續(xù)變量(X,Y)的pearson相關(guān)性系數(shù)(Px,y)等于它們之間的協(xié)方差cov(X,Y)除以它們各自標(biāo)準(zhǔn)差的乘積(σX,σY)。公式如下


    計算公式

相關(guān)系數(shù)r的取值范圍: -1 <= r <= 1
r > 0 為正相關(guān),r < 0 為負(fù)相關(guān);
|r| = 0,|r| <= 0.3 表上不存在線性相關(guān);
|r| = 1 表示完全線性相關(guān);
0.3 < |r| <= 0.5 為低度線性相關(guān)
0.5 < |r| <= 0.8 為顯著線性相關(guān)
|r| > 0.8 為高度線性相關(guān)

  • 2.Spearman秩相關(guān)系數(shù)

不服從正態(tài)分布的變量、分類、等級變量之間的關(guān)聯(lián)性可采用Spearman秩相關(guān)系數(shù)。


計算公式

(對于兩個變量承兌的取值分別按照從小到大或從大到小順序編秩「統(tǒng)計學(xué)中,指序數(shù)。秩次其實就是序數(shù),如有以下一組數(shù)字:1、2、5、6、7、9將它們排序后對應(yīng)的秩次就是1、2、3、4、5、6,秩和就是秩次的和」,公式中di表示xi 和 yi 的秩差)


計算示例
  • 3.判定系數(shù)

判定系數(shù)是相關(guān)系數(shù)的平方,用來衡量回歸方程對y的解釋程度。判定系數(shù)取值位0~1,越接近1,相關(guān)性越強(qiáng),反之異然。下方是使用python計算的一個示例


excel源數(shù)據(jù)
import pandas as pd

data = pd.read_excel('xxx.xls', index_col = u'日期') # 上方元數(shù)據(jù)
data.corr() # 相關(guān)系數(shù)矩陣,給出了任意兩列間相關(guān)系數(shù)
data.corr()[u'百合醬蒸鳳爪']  # 只顯示“百合醬蒸鳳爪”與其他菜式的相關(guān)系數(shù)
data[u'百合醬蒸鳳爪'].corr(data[u'生炒菜心']) # 計算“百合醬蒸鳳爪” 與 “生炒菜心” 的相關(guān)系數(shù)
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容