2018-07-12課程筆記(1):

【關(guān)鍵詞:可視化表示法,使用Q-Q圖驗(yàn)證數(shù)據(jù)的分布,數(shù)據(jù)量小的時(shí)候使用BootStrap重采樣統(tǒng)計(jì)分析數(shù)據(jù),Dummy Variable來減少Categories】

可視化表示法

1)直方圖

例1

2)離群箱圖

一般將超過Q3+1.5(Q3-Q1)的元素視為離群點(diǎn)

例2

3)散點(diǎn)圖

4)運(yùn)行圖表:表示隨變量而變化的某指標(biāo),直觀表示時(shí)間(或位置.etc)變化引起的指標(biāo)規(guī)模變化。

5)星形圖

星形圖

6)切爾諾夫面圖:一種體現(xiàn)認(rèn)知過程的圖,一次只變化一個(gè)關(guān)鍵點(diǎn)

切爾諾夫面圖

問題在于如何在多維空間(多性質(zhì)元素)中展示變化。

7)正態(tài)概率圖(Normal Probability Plot):用來評(píng)估數(shù)據(jù)是否接近正態(tài)分布(或其它分布)

假設(shè)檢驗(yàn):在使用假設(shè)之前,需要進(jìn)行驗(yàn)證(是否滿足對(duì)應(yīng)結(jié)論的分布)

8)分位數(shù)-分位數(shù)圖(Quantile-Quantile Plot):用來直觀的判斷數(shù)據(jù)是否服從正態(tài)分布。

Q-Q圖

數(shù)據(jù)中一串?dāng)?shù)目的每個(gè)點(diǎn)都是該數(shù)據(jù)的某分位點(diǎn),把這些點(diǎn)的(稱為樣本分位數(shù)點(diǎn))和相應(yīng)的理論上的分位數(shù)配對(duì)做出散點(diǎn)圖,如果該數(shù)據(jù)服從正態(tài)分布,那么該圖看上去應(yīng)該像一條直線

BootStrap Resampling Statics(BootStrap重采樣統(tǒng)計(jì)):在數(shù)據(jù)中加入隨機(jī)性DIMENTION

方法模型

數(shù)學(xué)講解
在有限的數(shù)據(jù)中使用數(shù)據(jù)取出的公平性與隨機(jī)性生成更多數(shù)據(jù)用于分析
在本身采樣的樣本S的基礎(chǔ)上,再進(jìn)行有放回的采樣生成重采樣集R,其中重采樣過程中對(duì)S的每個(gè)元素抽到的概率均為1/n.之后再進(jìn)行多次取樣生成多個(gè)plot(分布圖/分布散點(diǎn)圖),此時(shí)就得到了對(duì)應(yīng)參數(shù)的對(duì)應(yīng)可能取值。之后觀察分布就可以得到估計(jì)。

BootStrap重采樣統(tǒng)計(jì)的典型plot

變化代價(jià)評(píng)估(Earth Mover's Distance):

將當(dāng)前數(shù)據(jù)移動(dòng)到指定狀態(tài)的代價(jià)。

減少類型(表項(xiàng))Reducing Categories:

Dummy Variable(虛擬變量)

一般地,在虛擬變量的設(shè)置中:基礎(chǔ)類型、肯定類型取值為1;比較類型,否定類型取值為0。
   適用于無序的離散數(shù)字變量。

例如:
   若用數(shù)字1-12表示1-12月,那么就潛在表示了12月和1月差的很遠(yuǎn),其實(shí)離的很近。
   若用離散數(shù)字表示一地域,假如用數(shù)字1-23表示23個(gè)省,那么數(shù)字潛在的意思是,相鄰的數(shù)字代表的省比較相似,差距的數(shù)字表示的省不相似,然而并沒有這個(gè)意思。所以用單純用離散的數(shù)字表示類別可能會(huì)影響后面回歸或分類的精度。

dummy化不要冗余,比如有1-23個(gè)省,我們用22個(gè)0,1變量就可以表示,若22個(gè)變量都是0則表示第23個(gè)省。

Reducing Category的方法

Use pivot tables(數(shù)據(jù)透視表) to assess outcome variable sensitivity to the dummies

其它方法:

Na?ve Bayes can handle categorical variables without transforming them into dummies
樸素貝葉斯可以不使用dummies方法而可以顯示無序數(shù)據(jù)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容