探索性數(shù)據(jù)分析的目的就說讓人能了解數(shù)據(jù)概貌,形成對數(shù)據(jù)的直觀認(rèn)識,盡可能探索數(shù)據(jù)屬性間的關(guān)聯(lián)。這種認(rèn)識包括但不限于:數(shù)據(jù)中有哪些屬性字段與屬性值,缺少哪些屬性值,屬性字段值的分布如何,數(shù)據(jù)的組織結(jié)構(gòu)如何,屬性間有哪些關(guān)系和聯(lián)系。
探索性數(shù)據(jù)分析可以讓我們充分了解數(shù)據(jù),了解業(yè)務(wù),同時對重要因子的確定、特征工程的支持、模型的選取和調(diào)整等后續(xù)深度挖掘工作有著重要的影響。
數(shù)據(jù)字段分類
以表格形式組織而成的數(shù)據(jù),每一行可以代表一個實體,每一列代表著實體的一個字段。如果僅考慮每個字段的統(tǒng)計性質(zhì),可以把每個字段按照衡量尺度分成四類:
定類尺度(類別尺度)
這種尺度衡量的數(shù)據(jù)屬性表達(dá),集中在幾個有限的值當(dāng)中,并且在這些值相互之間沒有大小之分。如男女。
定序尺度(順序尺度)
該尺度衡量的數(shù)據(jù)屬性與定類尺度的相同點(diǎn)是,它的值域同樣集中在幾個有限的值當(dāng)中,只是這些值彼此之間是有大小之分的。如優(yōu)良中差。
定距尺度 (間隔尺度)
相比于定序尺度,定距尺度對衡量范圍進(jìn)行了擴(kuò)充,一方面它的值域不再限定于一個集合中,另一方面它也可以衡量值與值之間的大小。比如30度 20度 10度。但是定距尺度是不能衡量倍數(shù)關(guān)系的,也就是不能做乘除運(yùn)算。
定比尺度 (比例尺度)
相比定距尺度,定比尺度填補(bǔ)上了“0點(diǎn)”的衡量,有了這個“0點(diǎn)”,乘除運(yùn)算就變得有意義。比如長度、重量、速度等。