兩個(gè)總體間的差異如何比較?
研究樣本,通過研究樣本來分析總體。實(shí)際上,所研究的總體往往是無限總體,總體的參數(shù)是無法用觀察或計(jì)算得到的。同理,總體平均數(shù)常常無法計(jì)算,因而往往用樣本平均數(shù)作為總體平均數(shù)的估計(jì)值,因?yàn)闃颖酒骄鶖?shù)的數(shù)學(xué)期望等于總體的平均數(shù)。
詞義解析
離均差是每個(gè)觀察值的偏離平均數(shù)的度量指標(biāo)。
樣本均方是總體方差的無偏估計(jì)值。
標(biāo)準(zhǔn)差為方差的正平均根值,用以表示資料的變異度。
抽樣分布的標(biāo)準(zhǔn)差又稱為標(biāo)準(zhǔn)誤,它可以度量抽樣分布的變異。
變異系數(shù)
標(biāo)準(zhǔn)差和觀察值的單位相同,表示一個(gè)樣本的變異度,若比較兩個(gè)樣本的變異度,則因單位不同或均數(shù)不同,不能用標(biāo)準(zhǔn)差進(jìn)行直接比較。這時(shí)可以計(jì)算樣本的標(biāo)準(zhǔn)差對(duì)均數(shù)的百分?jǐn)?shù),稱為變異系數(shù)。
由于變異系數(shù)是由標(biāo)準(zhǔn)差和平均數(shù)構(gòu)成的比數(shù),即受標(biāo)準(zhǔn)差的影響,又受平均數(shù)的影響,因此,在使用變異系數(shù)表示樣本變異程度時(shí),應(yīng)同時(shí)列舉平均數(shù)和標(biāo)準(zhǔn)差,否則可能引起誤解。
正態(tài)分布
標(biāo)準(zhǔn)化的正態(tài)分布方程就是在正態(tài)分布的基礎(chǔ)上令,u為正態(tài)分布的平均數(shù),s為正態(tài)分布的方差。
由于不同的總體的平均數(shù)和方差不同,所以將其轉(zhuǎn)換為標(biāo)準(zhǔn)正態(tài)分布方程,這樣凡要計(jì)算一個(gè)正態(tài)分布的概率只需將y轉(zhuǎn)換為U值,然后查表就可以得出y落入某區(qū)間的概率。
假設(shè)測(cè)驗(yàn)
可從假設(shè)的總體里推論其隨機(jī)抽樣平均數(shù)的分布,從而可以算出某一樣本平均數(shù)指定值出現(xiàn)的概率,這樣就可以研究樣本和總體的關(guān)系,從而進(jìn)行假設(shè)測(cè)驗(yàn),這就是假設(shè)測(cè)驗(yàn)的基本原理。
T檢驗(yàn)
F檢驗(yàn)又叫方差齊性檢驗(yàn)。在兩樣本t檢驗(yàn)中要用到F檢驗(yàn)。在進(jìn)行t測(cè)驗(yàn)時(shí),需要考慮方差是否相等,可以用F檢驗(yàn)進(jìn)行分析。
U測(cè)驗(yàn)和t測(cè)驗(yàn)
u測(cè)驗(yàn):利用u分布進(jìn)行的假設(shè)測(cè)驗(yàn),總體方差已知或者方差未知但大樣本;
t測(cè)驗(yàn):利用t分布進(jìn)行的測(cè)驗(yàn),總體方差未知,是小樣本。
u測(cè)驗(yàn)就是根據(jù)標(biāo)準(zhǔn)化正態(tài)分布的原理進(jìn)行計(jì)算的,u測(cè)驗(yàn)是在總體方差為已知,或方差未知單樣本容量相當(dāng)大,可以用樣本方差直接作為總體方差進(jìn)行應(yīng)用。
同樣,t測(cè)驗(yàn)也是根據(jù)這個(gè)原理進(jìn)行分析的,只不過因?yàn)閠測(cè)驗(yàn)的樣本比較?。ㄍǔP∮?0,當(dāng)樣本大于30時(shí)接近正態(tài)分布)而總體方差又未知,所以就用樣本的方差先估算出總體的方差,然后進(jìn)行分析計(jì)算概率的。
成對(duì)數(shù)據(jù),由于同一配對(duì)內(nèi)兩個(gè)供試單位的試驗(yàn)條件很是相近,而不同配對(duì)間的條件差異又可通過同一配對(duì)的差數(shù)給予消除,因?yàn)榭梢钥刂茖?shí)驗(yàn)誤差,具有較高的精確度。
u測(cè)驗(yàn)和t測(cè)驗(yàn)適用于一個(gè)或兩個(gè)樣本平均數(shù)的假設(shè)測(cè)驗(yàn),方差分析可以用于3個(gè)及以上的樣本平均數(shù)的假設(shè)測(cè)驗(yàn)。方差分析是用均方來度量試驗(yàn)處理產(chǎn)生的變異和誤差引起的變異而已。
方差分析
對(duì)一組處理的重復(fù)試驗(yàn)數(shù)據(jù)經(jīng)對(duì)總平方和與總自由度的分解估計(jì)出處理間均方和處理內(nèi)均方(誤差均方),并通過F測(cè)驗(yàn)處理間所表示出的差異是否真實(shí)(比誤差大)
方差分析是建立在一定的線性可加模型基礎(chǔ)上的,所謂線性可加模型就是指總體每一變量可以按其變異的原因分解成若干個(gè)線性組成部分,它是方差分析的理論基礎(chǔ)。
方差分析的基本假定
- 可加性
對(duì)于非可加性質(zhì)料,一般需進(jìn)行轉(zhuǎn)換,使其效應(yīng)變?yōu)榭杉有裕拍芊戏讲罘治龅木€性模型。 - 正態(tài)性
但是也有研究者發(fā)現(xiàn),數(shù)據(jù)不服從正態(tài)分布對(duì)方差分析的結(jié)果影響不大,這個(gè)性質(zhì)有待探究。 - 誤差同質(zhì)性
如果發(fā)現(xiàn)各處理間的方差相差比較懸殊,一般可用bartlett氏法測(cè)驗(yàn)其是否同質(zhì);如果不同質(zhì),可將方差特別大或變異特殊的處理從全試驗(yàn)中剔除,或者將實(shí)驗(yàn)分為幾部分,使每一部分具有比較同質(zhì)的誤差方差,以作為較為準(zhǔn)確的假設(shè)測(cè)驗(yàn)。
卡平方測(cè)驗(yàn)可以檢驗(yàn)方差同質(zhì)性
F測(cè)驗(yàn)
在一個(gè)平均數(shù)為u、方差為S的正態(tài)總體中,隨機(jī)抽取兩個(gè)獨(dú)立樣本,分別求得其均方為s1和s2,將s1和s2的比值定義為F,F(xiàn)值具有s1的自由度和s2的自由度。
在方差分析的體系中,F(xiàn)測(cè)驗(yàn)可用于檢測(cè)某項(xiàng)變異因素的相應(yīng)或方差是否真實(shí)存在,所以在計(jì)算F值時(shí),總是將要測(cè)驗(yàn)的那一項(xiàng)變異因素的均方作分子,而另一項(xiàng)變異(例如實(shí)驗(yàn)誤差項(xiàng))的均方為分母。也就是說如果檢測(cè)的變異因素存在,那么他的均方就根據(jù)自由度的關(guān)系而大于限定內(nèi)的均方。
多重比較
最小顯著差數(shù)法(實(shí)質(zhì)上就是t測(cè)驗(yàn))、q法、新復(fù)極差法LSD
多重比較結(jié)果的表示方法
劃線法、標(biāo)記字母法 先將平均數(shù)從大到小排列起來,再將不顯著的劃分為同一組
參數(shù)估計(jì)法
矩法、最小二乘法、極大似然法
聯(lián)合方差分析
對(duì)用于多年多點(diǎn)實(shí)驗(yàn)的分析
相關(guān)系數(shù)和決定系數(shù)
對(duì)于坐標(biāo)點(diǎn)呈直線趨勢(shì)的兩個(gè)變數(shù),如果并不需要由X來估計(jì)Y,而僅需了解X和Y是否確有相關(guān)以及相關(guān)的性質(zhì)(正相關(guān)或負(fù)相關(guān)),則首先應(yīng)算出表示X和Y相關(guān)密切程度及其性質(zhì)的統(tǒng)計(jì)數(shù)————相關(guān)系數(shù)(以r表示相關(guān)系數(shù))。決定系數(shù)定義為由x不同而引起的y的平方和占y總平方和的比率(用R表述決定系數(shù))
回歸系數(shù)就是x對(duì)y的效應(yīng)。
偏回歸系數(shù)
偏回歸系數(shù)是在其他自變數(shù)保持一定時(shí),某一變數(shù)對(duì)因變數(shù)的效應(yīng)。
偏相關(guān)系數(shù)就是其他變量保持一定是,某一變量和因變量的關(guān)系。
協(xié)變量
通俗的講,就是在試驗(yàn)過程中對(duì)因變量的影響除了自變量外的變量,一些不可控但是能進(jìn)行測(cè)量的變量。在實(shí)驗(yàn)設(shè)計(jì)中,協(xié)變量是獨(dú)立變量,實(shí)驗(yàn)者不能操縱,但仍影響實(shí)驗(yàn)結(jié)果
協(xié)方差是在方差分析的基礎(chǔ)上,綜合回歸分析的方法,研究如何調(diào)節(jié)協(xié)變量對(duì)因變量的影響效應(yīng),從而更加有效地分析實(shí)驗(yàn)處理效應(yīng)的一種統(tǒng)計(jì)技術(shù)。簡(jiǎn)單來講就是對(duì)協(xié)變量的分析。
回歸分析中如果想求得置信區(qū)間,可以在進(jìn)行回歸分析時(shí):分析——回歸——線性回歸——統(tǒng)計(jì)——回歸系數(shù)——誤差條形圖的表征
協(xié)方差分析
直線回歸和相關(guān)的應(yīng)用要點(diǎn)(很重要)
偏度
度量數(shù)據(jù)偏離正態(tài)分布的程度,它刻劃分布函數(shù)對(duì)稱性,當(dāng)偏度為正值時(shí),分布向大于平均數(shù)方向偏斜,偏度為負(fù)值時(shí)則向小于平均數(shù)方向偏斜;當(dāng)偏度的絕對(duì)值大于2時(shí),分布的偏斜程度嚴(yán)重。
峰度
度量數(shù)據(jù)服從正態(tài)分布時(shí)峰的高度,它刻劃不同類型的分布的集中和分散程度,當(dāng)峰度大于3時(shí),分布比較陡峭,峰態(tài)明顯,即總體變數(shù)的分布比較集中。
偏度和峰度是判斷正態(tài)分布的重要指標(biāo)
完全隨機(jī)試驗(yàn)就是簡(jiǎn)單的單因素方差分析
但是在隨機(jī)區(qū)組試驗(yàn)中,可以用雙因素?zé)o重復(fù)方差分析,因?yàn)閰^(qū)組作為局部控制的一項(xiàng)手段,對(duì)于減小誤差是相當(dāng)有效的(一般區(qū)組間的F測(cè)驗(yàn)可以不必進(jìn)行,因?yàn)樵囼?yàn)?zāi)康牟皇茄芯繀^(qū)組效應(yīng)的)。
條區(qū)實(shí)驗(yàn)
在多因素實(shí)驗(yàn)中由于實(shí)施試驗(yàn)的需要,每一因素的各水平都有較大的面積,因而在裂區(qū)設(shè)計(jì)的基礎(chǔ)上將同一副處理也連成一片。這樣A,B兩個(gè)因素就互為主副處理,兩者的交叉處理為各該水平的處理組合。這就是條區(qū)設(shè)計(jì)。
裂區(qū)實(shí)驗(yàn)
裂區(qū)就是實(shí)驗(yàn)因素有主副之分,因此裂區(qū)實(shí)驗(yàn)的變異的誤差項(xiàng)有兩個(gè),而一般的隨機(jī)區(qū)組實(shí)驗(yàn)誤差項(xiàng)只有一個(gè)
http://blog.sina.com.cn/s/blog_ab3eddb50102vz3i.html 使用單因素的定制,然后自己設(shè)計(jì)模型:區(qū)組 主效 區(qū)組(主效) 副效 主效*副效. 在文件——新建——語(yǔ)法 中進(jìn)行修改
條區(qū)實(shí)驗(yàn)
在spss中使用單因素的全因子分析
組內(nèi)觀察值數(shù)目相等的單項(xiàng)分組資料的方差分析(spss):簡(jiǎn)單的單因素分析
組內(nèi)觀察值數(shù)目不相等的單項(xiàng)分組資料的方差分析(spss):?jiǎn)我蛩?,類?
組內(nèi)又分亞組的單項(xiàng)分組資料的方差分析(spss):?jiǎn)我蛩兀缓髮⒛P托薷臑? {因素 分組(因素) 亞組(因素*分組).}
多因素方差分析中的處理組合間的差異不必管它,
SPSS
許多現(xiàn)實(shí)的問題中,僅僅依靠統(tǒng)計(jì)描述和簡(jiǎn)單的統(tǒng)計(jì)推斷方法是不夠的,現(xiàn)實(shí)世界中變量間的聯(lián)系錯(cuò)綜復(fù)雜,往往要同時(shí)考慮多個(gè)因素的作用,并為之建立多變量模型。
常用術(shù)語(yǔ)
1、因素(Factor)與水平(Level)
因素也被稱為因子,就是指可能對(duì)因變量有影響的分類變量,而分類變量的不同取值等級(jí)(類別)就被稱為水平。
2、單元(Cell)
單元也被稱為水平組合,或者單元格,是各因素各個(gè)水平的組合。
3、元素(Element)
元素指用于測(cè)量因變量值的最小單位。根據(jù)具體的試驗(yàn)設(shè)計(jì),一個(gè)單元格內(nèi)可以有多個(gè)元素,也可以只有一個(gè),甚至沒有元素。
4、均衡(Balance)
如果在一個(gè)試驗(yàn)設(shè)計(jì)中任意因素個(gè)水平在所在單元格中出現(xiàn)的次數(shù)相同,且每個(gè)單元格內(nèi)的元素?cái)?shù)均相同,則該試驗(yàn)時(shí)均衡的;否則,就被稱為不均衡。不均衡的試驗(yàn)設(shè)計(jì)在分析時(shí)較為復(fù)雜,需要對(duì)方差分析模型做特別設(shè)置才能得到正確的分析結(jié)果。
兩個(gè)處理的樣本量不等,是不平衡試驗(yàn),不平衡試驗(yàn)用異方差和等方差計(jì)算出的t統(tǒng)計(jì)量數(shù)值是不相同的,而平衡試驗(yàn)用異方差和等方差計(jì)算出的t統(tǒng)計(jì)量數(shù)值是相同的,只是自由度不同,這時(shí)兩種方法的結(jié)果就比較接近,因此實(shí)驗(yàn)設(shè)計(jì)中通常要求做平衡試驗(yàn)。
兩個(gè)或多個(gè)處理下方差相等的情況稱為方差齊性,從嚴(yán)格的意義上說,任何兩個(gè)處理的方差都不會(huì)完全相同,我們說方差齊性也只是認(rèn)為兩個(gè)處理的方差相差不大,其方差的變異程度不足以影響統(tǒng)計(jì)分析結(jié)果的正確性,這時(shí)采用平衡試驗(yàn)還能夠進(jìn)一步降低方差的差異對(duì)統(tǒng)計(jì)分析結(jié)果的影響。在方差齊性的前提下,平衡試驗(yàn)的統(tǒng)計(jì)效率是最高的。如果實(shí)驗(yàn)前能夠確定方差是非齊性的,則應(yīng)該對(duì)方差大的處理分配較大的樣本量。
實(shí)際應(yīng)用中的多數(shù)情況方差是齊性的,在實(shí)驗(yàn)的處理數(shù)目多于兩個(gè)時(shí),要使用方差分析比較多個(gè)處理間平均水平的差異,而方差分析的前提條件是方差齊性,所以等方差的的假設(shè)是普遍的。
5、協(xié)變量(Covariates)
協(xié)變量指對(duì)因變量可能影響,需要在分析時(shí)對(duì)其作用加以控制的連續(xù)性變量。實(shí)際上,可以簡(jiǎn)單地把因素和協(xié)變量分別理解為分類自變量和連續(xù)性自變量。
6、交互作用(Interaction)
如果一個(gè)因素的效用大小在另一個(gè)因素不同水平下明顯不同,則稱為兩因素間存在交互作用。
7、固定因素(Fixed Factor)與隨機(jī)因素(Random Factor)
固定因素是指該因素在樣本中所有可能的水平都出現(xiàn)了。
隨機(jī)因素指的是,該因素所有可能的取值在樣本中沒有都出現(xiàn),或者不可能都出現(xiàn)。
方差分析模型的適用條件
1、理論上的適用條件
* 各樣本的獨(dú)立性:由于各樣本相互獨(dú)立,來自真正的隨機(jī)抽樣,才能保證變異能夠按照模型表達(dá)式那樣具有可加性(可分解性);
* 正態(tài)性:由于各組的隨機(jī)誤差項(xiàng)被設(shè)定為服從正態(tài)分布,因此模型要求各單元格的殘差必須服從正態(tài)分布。
* 方差齊:同樣是因?yàn)殡S機(jī)誤差項(xiàng),由于在模型中無論何種組合,隨機(jī)誤差項(xiàng)被假定服從相同的正態(tài)分布,因此模型要求各單元格都滿足方差齊(變異程度相同)的要求。
2、實(shí)際操作中對(duì)適用條件的把握
(1)單因素方差分析
因模型只有一個(gè)因素,設(shè)計(jì)較為簡(jiǎn)單,樣本有充足的信息量對(duì)正態(tài)性和方差齊性進(jìn)行考察,這已經(jīng)成為標(biāo)準(zhǔn)分析步驟
但是許多人誤將正態(tài)性理解為因變量應(yīng)當(dāng)正態(tài)分布,顯然這種想法和實(shí)際的要求不是一回事。不過由于模型有一定穩(wěn)健性,只有因變量分布不是明顯偏態(tài),分析結(jié)果一般都是較穩(wěn)定的。
至于方差齊性,需要特別指出的是:根據(jù)Box的研究結(jié)果,在單因素方差分析中,如果各組的例數(shù)相同(即均衡),或總體呈正態(tài)分布,則方差分析模型對(duì)方差略微不齊有一定的耐受性,只要最大與最小方差之比小于3,分析結(jié)果是穩(wěn)定的。
(2)單元格內(nèi)重復(fù)數(shù)據(jù)的方差分析
以配伍設(shè)計(jì)方差分析最為典型,此時(shí)不需要考慮正態(tài)性和方差齊性問題,原因在于正態(tài)性和方差齊性的考慮是以單元格為基礎(chǔ)單位的,此時(shí)每個(gè)格子中只有一個(gè)元素,當(dāng)時(shí)沒法分析了。除配伍設(shè)計(jì)的方差分析外,交叉設(shè)計(jì)、正態(tài)設(shè)計(jì)等可以出現(xiàn)無重復(fù)數(shù)據(jù)的情況。但必須指出,這里只有因條件不足,無法考慮適用條件,而不是說可以完全忽視這兩個(gè)問題,如果根據(jù)專業(yè)知識(shí)認(rèn)為可能在不同單元格內(nèi)正態(tài)性,方差齊性有問題,則應(yīng)當(dāng)避免使用這種無重復(fù)數(shù)據(jù)的設(shè)計(jì)方案。
當(dāng)然,從模型的角度講,實(shí)際操作對(duì)數(shù)據(jù)正態(tài)性的考慮還有一個(gè)辦法,就是擬合完畢后作出殘差分析圖,如果殘差呈隨機(jī)分布,則可知(單元格內(nèi))原始數(shù)據(jù)滿足正態(tài)條件。
(3)有重復(fù)數(shù)據(jù)的多因素方差分析
由于正態(tài)性、方差齊性的考察是以單元格的基本單位,此時(shí)單元格數(shù)目往往很多,平均每個(gè)單元格內(nèi)的樣本粒數(shù)實(shí)際上比較少。
另一方面,也可能因?yàn)橹挥袠O個(gè)別單元格方差不齊而導(dǎo)致檢驗(yàn)不能通過。根據(jù)實(shí)際經(jīng)驗(yàn),實(shí)際上在多因素方差分析中,極端值的影響大于方差齊性等問題的影響,因此實(shí)際分析中可以直接考察因變量的分布情況,如果數(shù)據(jù)分布不是明顯偏態(tài),不存在極端值,而一般而言方差齊性和正態(tài)齊性不會(huì)有太大問題,而且也可以基本保證單元格內(nèi)無極端值。因此在多因素方差分析中,方差齊性往往只限于理論探討。但對(duì)于較重要的研究,則建模后的殘差分析時(shí)非常重要的。
LSD法:實(shí)際上要求將各組均和一個(gè)參照水平加以比較。
S-N-K法:兩兩比較結(jié)果則要清楚的多。
1. 首先,它會(huì)把各組在表格的縱向上按照均值的大小排序;
2. 其次,在表格的橫向各水平被分為了若干個(gè)亞組(Subset),不同亞組間的P值小于0.05,而同一亞組各組均數(shù)則兩兩無差異,比較的P值均大于0.05.
當(dāng)自變量與其他自變量或者協(xié)變量相關(guān)時(shí),沒有明確的方法可以評(píng)價(jià)自變量對(duì)因變量的貢獻(xiàn)。例如,含因子A、B和因變量y的雙因素不平衡因子設(shè)計(jì),有三種效應(yīng):A和B的主效應(yīng),A和B的交互效應(yīng)。假設(shè)你正使用如下表達(dá)式對(duì)數(shù)據(jù)進(jìn)行建模:
Y ~ A + B + A:B
有三種類型的方法可以分解等式右邊各效應(yīng)對(duì)y所解釋的方差。
類型Ⅰ(序貫型)
效應(yīng)根據(jù)表達(dá)式中先出現(xiàn)的效應(yīng)做調(diào)整。A不做調(diào)整,B根據(jù)A調(diào)整,A:B交互項(xiàng)根據(jù)A和B調(diào)整。
類型Ⅱ(分層型)
效應(yīng)根據(jù)同水平或低水平的效應(yīng)做調(diào)整。A根據(jù)B調(diào)整,B依據(jù)A調(diào)整,A:B交互項(xiàng)同時(shí)根據(jù)A和B調(diào)整。
類型Ⅲ(邊界型)
每個(gè)效應(yīng)根據(jù)模型其他各效應(yīng)做相應(yīng)調(diào)整。A根據(jù)B和A:B做調(diào)整,A:B交互項(xiàng)根據(jù)A和B調(diào)整。
對(duì)平衡實(shí)驗(yàn),那種模型都可以,但是對(duì)于非均衡實(shí)驗(yàn),使用類型Ⅰ
R默認(rèn)調(diào)用類型I方法,其他軟件(比如SAS和SPSS)默認(rèn)調(diào)用類型Ⅲ方法。
一般來說,越基礎(chǔ)性的效應(yīng)越需要放在表達(dá)式前面。具體來講,首先是協(xié)變量,然后是主效應(yīng),接著是雙因素的交互項(xiàng),再接著是三因素的交互項(xiàng),以此類推。對(duì)于主效應(yīng),越基礎(chǔ)性的變量越應(yīng)放在表達(dá)式前面,因此性別要放在處理方式之前。
方差分析在R中的練習(xí)
方差分析泛應(yīng)用于商業(yè)、經(jīng)濟(jì)、醫(yī)學(xué)、農(nóng)業(yè)等諸多領(lǐng)域的數(shù)量分析研究中。例如商業(yè)廣告宣傳方面,廣告效果可能會(huì)受廣告式、地區(qū)規(guī)模、播放時(shí)段、播放頻率等多個(gè)因素的影響,通過方差分析研究眾多因素中,哪些是主要的以及如何產(chǎn)生影響等。而在經(jīng)濟(jì)管理中,方差分析常用于分析變量之間的關(guān)系,如人民幣匯率對(duì)股票收益率的影響、存貸款利率對(duì)債券市場(chǎng)的影響,等等。
協(xié)方差是在方差分析的基礎(chǔ)上,綜合回歸分析的方法,研究如何調(diào)節(jié)協(xié)變量對(duì)因變量的影響效應(yīng),從而更加有效地分析實(shí)驗(yàn)處理效應(yīng)的一種統(tǒng)計(jì)技術(shù)。
8.1單因素方差分析及R實(shí)現(xiàn)
(1)正態(tài)性檢驗(yàn)
對(duì)數(shù)據(jù)的正態(tài)性,利用Shapiro-Wilk正態(tài)檢驗(yàn)方法(W檢驗(yàn)),它通常用于樣本容量n≤50時(shí),檢驗(yàn)樣本是否符合正態(tài)分布。
R中,函數(shù)shapiro.test()提供了W統(tǒng)計(jì)量和相應(yīng)P值,所以可以直接使用P值作為判斷標(biāo)準(zhǔn),其調(diào)用格式為shapiro.test(x),參數(shù)x即所要檢驗(yàn)的數(shù)據(jù)集,它是長(zhǎng)度在35000之間的向量。
例:
某銀行規(guī)定VIP客戶的月均賬戶余額要達(dá)到100萬元,并以此作為比較各分行業(yè)績(jī)的一項(xiàng)指標(biāo)。這里分行即因子,賬戶余額是所要檢驗(yàn)的指標(biāo),先從三個(gè)分行中,分別隨機(jī)抽取7個(gè)VIP客戶的賬戶。為了用單因素方差分析判斷三個(gè)分行此項(xiàng)業(yè)績(jī)指標(biāo)是否相同,首先對(duì)二個(gè)分行的賬戶余額分別進(jìn)行正態(tài)檢驗(yàn)。
x1=c(103,101,98,110,105,100,106)
x2=c(113,107,108,116,114,110,115)
x3=c(82,92,84,86,84,90,88)
shapiro.test(x1)
Shapiro-Wilk normality test
data: x1
W = 0.97777, p-value =0.948
shapiro.test(x2)
Shapiro-Wilk normality test
data: x2
W = 0.91887, p-value =0.4607
shapiro.test(x3)
Shapiro-Wilk normality test
data: x3
W = 0.95473, p-value =0.7724
P值均大于顯著性水平a=0.05,因此不能拒絕原假設(shè),說明數(shù)據(jù)在因子A的三個(gè)水平下都
是來自正態(tài)分布的。
QQPlot圖是用于直觀驗(yàn)證一組數(shù)據(jù)是否來自某個(gè)分布,或者驗(yàn)證某兩組數(shù)據(jù)是否來自同一(族)分布。在教學(xué)和軟件中常用的是檢驗(yàn)數(shù)據(jù)是否來自于正態(tài)分布
qq圖是正態(tài)分位數(shù)圖,縱坐標(biāo)是變量的取值,關(guān)鍵是橫坐標(biāo),參考了以為博友的博客。自己用R寫了一個(gè)程序驗(yàn)證了一下?;緵]問題。
qqplot全名應(yīng)該是正態(tài)分位數(shù)圖,橫坐標(biāo)的做法:
首先把變量按從小到大的順序排列,計(jì)算變量的長(zhǎng)度,即總共有多少個(gè)取值,再按順序計(jì)算變量的所有取值的累積百分比,所謂的累積百分比,也就是可以看成是累積概率,比如有10個(gè)值,按照從小到大的順序,第一個(gè)值的排序是1, 那么他的所占的百分比就是10%, 緊接著后一個(gè)值所占的百分比也會(huì)是10%,但是累積概率值為20%, 依次往后計(jì)算,因?yàn)樽詈笠粋€(gè)值的累積百分比是100%,即等于1,這個(gè)值如果計(jì)算它的正態(tài)分布概率的分位數(shù)的話,是無限大的,因此需要對(duì)這個(gè)值進(jìn)行修正一下,就是因?yàn)檫@一個(gè)值無限大,所以對(duì)全體計(jì)算出來的累積百分比減去一個(gè)適當(dāng)小的數(shù),修正后的累積百分比與原百分比相差不多,但是回避了最后一個(gè)值是1而無法計(jì)算的問題。
有了累積百分比之后,相對(duì)應(yīng)的就是累積的概率值。將累積概率值修正后,即得到累積概率,比如以10個(gè)值為例,第一個(gè)值的累積概率為0.05,查正態(tài)分布表,0.05的累積概率,對(duì)應(yīng)的正態(tài)分布的Z值為-1.64,這樣一次計(jì)算,所得的Z值,就是qqplot的橫坐標(biāo)數(shù)據(jù)。下面以10個(gè)數(shù)據(jù)和30個(gè)數(shù)據(jù)為例說明。
my.qqplot <- function(y){
op <- par(mfrow = c(1, 1))
N <- length(y)
n <- seq(1, N)
xais <- qnorm((n - (.5*N) /N)/ N)
#####中間三句可選,只是為了輸出計(jì)算過程######
mid <- cbind(sort(y), n, n/N, (n-(.5*N)/N)/N , xais)
colnames(mid) <- c("y", "rank", "cumpercent", "adj-cumper","xaix")
print(mid)
#####中間三句可選,只是為了輸出計(jì)算過程######
par(mfrow = c(2,1))
qqnorm(y)
plot(sort(y) ~ xais, main = 'my qqplot')
par(op)
}
y <- rnorm(10, mean = 20, s = 50)
my.qqplot(y)
y rank cumpercentadj-cumper xaix
[1,] 2.877321 1 0.1 0.05 -1.6448536
[2,] 6.930063 2 0.2 0.15 -1.0364334
[3,] 16.461444 3 0.3 0.25 -0.6744898
[4,] 36.130825 4 0.4 0.35 -0.3853205
[5,] 40.477883 5 0.5 0.45 -0.1256613
[6,] 50.534636 6 0.6 0.55 0.1256613
[7,] 53.425025 7 0.7 0.65 0.3853205
[8,] 54.554269 8 0.8 0.75 0.6744898
[9,]120.496268 9 0.9 0.85 1.0364334
[10,] 125.290253 10 1.0 0.95 1.6448536))
qqnorm(x1) #數(shù)據(jù)是否是正態(tài)分布的可視化
qqline(x1)
qqplot
(2)方差齊性檢驗(yàn)
方差分析的另一個(gè)假設(shè):方差齊性,需要檢驗(yàn)不同水平卜的數(shù)據(jù)方差是否相等。R中最常用的Bartlett檢驗(yàn),bartlett.test()調(diào)用格式為
bartlett.test(x,g…)
其中,參數(shù)X是數(shù)據(jù)向量或列表(list) ; g是因子向量,如果X是列表則忽略g.當(dāng)使用數(shù)據(jù)集時(shí),也通過formula調(diào)用函數(shù):
bartlett.test(formala, data, subset,na.action…)
formula是形如lhs一rhs的方差分析公式;data指明數(shù)據(jù)集:subset是可選項(xiàng),可以用來指定觀測(cè)值的一個(gè)子集用于分析:na.action表示遇到缺失值時(shí)應(yīng)當(dāng)采取的行為。
續(xù)上例:
> x=c(x1,x2,x3)
> account=data.frame(x,A=factor(rep(1:3,each=7)))
> bartlett.test(x~A,data=account)
Bartlett test of homogeneity of variances
data: x by A
Bartlett's K-squared = 0.13625, df = 2, p-value = 0.9341
由于P值遠(yuǎn)遠(yuǎn)大于顯著性水平a=0.05,因此不能拒絕原假設(shè),我們認(rèn)為不同水平下的數(shù)據(jù)是等方差的。
8.1.2單因素方差分析
R中的函數(shù)aov()用于方差分析的計(jì)算,其調(diào)用格式為:
aov(formula, data = NULL, projections =FALSE, qr = TRUE,contrasts = NULL, ...)
其中的參數(shù)formula表示方差分析的公式,在單因素方差分析中即為x~A ; data表示做方差分析的數(shù)據(jù)框:projections為邏輯值,表示是否返回預(yù)測(cè)結(jié)果:qr同樣是邏輯值,表示是否返回QR分解結(jié)果,默認(rèn)為TRUE; contrasts是公式中的一些因子的對(duì)比列表。通過函數(shù)summary()可列出方差分析表的詳細(xì)結(jié)果。
上面的例子已經(jīng)對(duì)數(shù)據(jù)的正態(tài)性和方差齊性做了檢驗(yàn),接F來就可以進(jìn)行方差分析:
> a.aov=aov(x~A,data=account)
> summary(a.aov)
Df Sum Sq Mean Sq F value Pr(>F)
A 2 2315 1158 82.68 8.46e-10 ***
Residuals 18 252 14
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
> plot(account$x~account$A)
Levene檢驗(yàn)
Levene檢驗(yàn),它既可以用于正態(tài)分布的數(shù)據(jù),也可用于非正態(tài)分布的數(shù)據(jù)或分布不明的數(shù)據(jù),具有比較穩(wěn)健的特點(diǎn),檢驗(yàn)效果也比較理想。
R的程序包c(diǎn)ar中提供了Levene檢驗(yàn)的函數(shù)levene.test()
> library(car)
> levene.test(account$x,account$A)
Levene's Test for Homogeneity of Variance (center = median)
Df F value Pr(>F)
group 2 0.0426 0.9584
18
由于p值大于a=0.05,不能拒絕原假設(shè),我們認(rèn)為不同水平下的數(shù)據(jù)是等方差的。
8.1.3多重t檢驗(yàn)
單因素方差分析是從總體的角度上說明各效應(yīng)的均值之間存在顯著差異,但具體哪些水平下的均值存在較人差異無從得知,所以我們要對(duì)每一對(duì)樣本均值進(jìn)行一一比較,即要進(jìn)行均值的多重比較。
> p.adjust.methods
[1] "holm" "hochberg" "hommel" "bonferroni" "BH"
[6] "BY" "fdr" "none"
> attach(account)
> pairwise.t.test(x,A,p.adjust.method="bonferroni")
Pairwise comparisons using t tests with pooled SD
data: x and A
1 2
2 0.0013 -
3 3.9e-07 6.5e-10
P value adjustment method: bonferroni
經(jīng)過修正后的p值比原來會(huì)增大很多,這在一定程度上克服了多重t檢驗(yàn)增加犯第一類錯(cuò)誤的
概率的缺點(diǎn)。從檢驗(yàn)結(jié)果來看,樣本兩兩之問t檢驗(yàn)的p值都很小,說明幾個(gè)樣本之間差異明顯。
8.1.4Kruskal-Wallis秩和檢驗(yàn)
R內(nèi)置函數(shù)kruskal.test()可以完成Kruskal-Wallis秩和檢驗(yàn),使用如下:
kruskal.test(x, ...)
kruskal.test(x, g, ...)
kruskal.test(formula, data, subset,na.action, ...)
例:
某制造商雇用了來自三所本地大學(xué)的雇員作為管理人員。最近,公司的人事部門已經(jīng)收集信息并考核了年度工作成績(jī)。從三所大學(xué)來的雇員中隨機(jī)地抽取了三個(gè)獨(dú)立樣本,樣本量分別為7、6, 7,數(shù)據(jù)如表所示。制造商想知道來自這三所不同的大學(xué)的雇員在管理崗位上的表現(xiàn)是否有所不同,我們通過Kruskal-Wallis秩和檢驗(yàn)來得到結(jié)論。
>data=data.frame(x=c(25,70,60,85,95,90,80,60,20,30,15,40,35,50,70,60,80,90,70,75),g=factor(rep(1:3,c(7,6,7))))
> kruskal.test(x~g, data=data)
Kruskal-Wallis rank sum test
data: x by g
Kruskal-Wallis chi-squared = 8.9839, df = 2, p-value = 0.0112
檢驗(yàn)的結(jié)果為P=0.0112<0.05,因此拒絕原假設(shè),說明來自這三個(gè)不同的大學(xué)的雇員在管理崗位上的表現(xiàn)有比較顯著的差異。
8.2雙因素方差分析及R實(shí)現(xiàn)
8.2.1無交互作用的分析
例:
某商品在不同地區(qū)、不同包裝的銷售數(shù)據(jù)
首先為了建立數(shù)據(jù)集,引入生成因子水平的函數(shù)g1(),其調(diào)用格式為:
gl(n, k, length=nk,labels=1:n,ordered=FALSE)
n是因子的水平個(gè)數(shù);k表示每一水平上的重復(fù)次數(shù);length=nk表示總觀測(cè)數(shù);可通過參數(shù)labels對(duì)因子的不同水平添加標(biāo)簽;ordered為邏輯值,指示是否排序。
> x=c(20,12,20,10,14,22,10,20,12,6,24,14,18,18,10,16,4,8,6,18,26,22,16,20,10)
> sales=data.frame(x,A=gl(5,5),B=gl(5,1,25))
> sales$B
[1] 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 12 3 4 5
Levels: 1 2 3 4 5
分析前先對(duì)因素A和B作方差齊性檢驗(yàn),使用函數(shù)bartlett.test()
> bartlett.test(x~A,data=sales)
Bartlett test of homogeneity of variances
data: x by A
Bartlett's K-squared =0.66533, df = 4, p-value = 0.9555
> bartlett.test(x~B,data=sales)
Bartlett test of homogeneity of variances
data: x by B
Bartlett's K-squared =1.2046, df = 4, p-value = 0.8773
因素A和B的P值都遠(yuǎn)大于0.05的顯著性水平,不能拒絕原假設(shè),說明因素A, B的各水平是滿足方差齊性的。這時(shí)再進(jìn)行雙因素方差分析,輸入指令
> sales.aov=aov(x~A+B,data=sales)
> summary(sales.aov)
Df Sum Sq Mean Sq F valuePr(>F)
A 4 199.4 49.84 2.303 0.1032
B 4 335.4 83.84 3.874 0.0219 *
Residuals 16 346.2 21.64
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’1
檢驗(yàn)的結(jié)論:因素B的P值=0.0219<0.05,拒絕原假設(shè),說明銷售地區(qū)對(duì)飲料的銷售量有顯著影響;而因素A的P值=0.1032>0.05,不能拒絕原假設(shè),因此沒有充分的理由可以說明包裝方式對(duì)銷售有明顯影響。
8.2.2有交互作用的分析
R仍然用函數(shù)aov()作雙因素方差分析,只需將formula改為xA+B+A:B或xA*B的形式即可。
例:
不同路段和不同時(shí)段的行車時(shí)間數(shù)據(jù)
首先構(gòu)造數(shù)據(jù)集,對(duì)因素A和B作方差齊性檢驗(yàn),利用函數(shù)bartlett.test()
> time=c(25,24,27,25,25,19,20,23,22,21,29,28,31,28,30,20,17,22,21,17,18,17,13,16,12,22,18,24,21,22)
> traffic=data.frame(time,A=gl(2,15,30),B=gl(3,5,30,labels=c("I","II","III")))
> bartlett.test(time~A,data=traffic)
Bartlett test of homogeneity of variances
data: time by A
Bartlett's K-squared =0.053302, df = 1, p-value = 0.8174
> bartlett.test(time~B,data=traffic)
Bartlett test of homogeneity of variances
data: time by B
Bartlett's K-squared =0.57757, df = 2, p-value = 0.7492
檢驗(yàn)結(jié)果的P值均遠(yuǎn)大于顯著性水平0.05,說明兩個(gè)因素下的各水平都滿足方差齊性的要求,可以進(jìn)一步做方差分析。畫圖來觀察一下數(shù)據(jù)的特點(diǎn),首先是箱線圖。
> op=par(mfrow=c(1,2)) #分割圖形區(qū)域
> plot(time~A+B,data=traffic)
Hit <Return> tosee next plot:
從圖形上單獨(dú)觀察時(shí)段和路段對(duì)行車時(shí)間的影響,可以發(fā)現(xiàn)因素的不同水平還是有明顯差別的。為了考察因素間的交互作用是否存在,利用函數(shù)interaction.plot()繪制交互效應(yīng)圖:
interaction.plot(x.factor, trace.factor,response, fun = mean,type = c("l","p", "b", "o", "c"), legend = TRUE,trace.label =deparse(substitute(trace.factor)),fixed = FALSE,xlab =deparse(substitute(x.factor)),ylab = ylabel,ylim = range(cells, na.rm =TRUE),lty = nc:1, col = 1, pch =c(1:9, 0, letters),xpd = NULL, leg.bg =par("bg"), leg.bty = "n",
xtick = FALSE, xaxt = par("xaxt"),axes = TRUE,...)
x.factor表示橫軸的因子
trace.factor表示分類繪圖的因子
response是數(shù)值向量,要輸入響應(yīng)變量
fun表示匯總數(shù)據(jù)的方式,默認(rèn)為計(jì)算每個(gè)因子水平下的均值
type指定圖形類型
legend是邏輯值,指示是否生成圖例
trace.label給出圖例中的標(biāo)簽。
> attach(traffic)
> interaction.plot(A,B,time,legend=F)
> interaction.plot(B,A,time,legend=F)
曲線均沒有相交,所以可以初步判斷兩個(gè)因素之間應(yīng)該沒有交互作用。用方差分析進(jìn)行確認(rèn):
> traf.aov=aov(time~A*B,data=traffic)
> summary(traf.aov)
Df Sum Sq Mean Sq F value Pr(>F)
A 1 313.63 313.63 84.766 2.41e-09 ***
B 2 261.60 130.80 35.351 7.02e-08 ***
A:B 2 6.67 3.33 0.901 0.42
Residuals 24 88.80 3.70
---
Signif. codes:
0 ‘***’ 0.001 ‘**’ 0.01‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
根據(jù)檢驗(yàn)結(jié)果的P值作判斷:引素A時(shí)段和B路段對(duì)行車時(shí)間有顯著影響;而交互作用A:B的P值=0.42>0.05 ,因此不能拒絕原假設(shè)H0,說明兩個(gè)因素間沒有明顯的交互效應(yīng)。
8.3協(xié)方差分析及R實(shí)現(xiàn)
為了提高試驗(yàn)的精確性和準(zhǔn)確性,我們對(duì)除研究因素以外的一切條件都需要采取有效措施嚴(yán)加控制,使它們?cè)谝蛩氐牟煌介g盡量保持一致,這叫做試驗(yàn)控制。但當(dāng)我們進(jìn)行試驗(yàn)設(shè)計(jì)時(shí),即使做出很大努力控制,也經(jīng)常會(huì)碰到試驗(yàn)個(gè)體的初始條件不同的情況,如果不考慮這些因素有可能導(dǎo)致結(jié)果失真。如果考慮這些不可控的因素,這種方差分析就叫做協(xié)方差分析,其是將回歸分析和方差分析結(jié)合在一起的方法。它的基本原理如下:將一些對(duì)響應(yīng)變量Y有影響的變量X(未知或難以控制的因素)看作協(xié)變量,建立響應(yīng)變量Y隨X變化的線性回歸分析,從Y的總的平方和中扣除X對(duì)Y的回歸平方和,對(duì)殘差平方和作進(jìn)一步分解后再進(jìn)行方差分析。
例:
施用3種肥料的蘋果產(chǎn)量
>Weight_Initial=c(15,13,11,12,12,16,14,17,17,16,18,18,21,22,19,18,22,24,20,23,25,27,30,32)
>Weight_Increment=c(85,83,65,76,80,91,84,90,97,90,100,95,103,106,99,94,89,91,83,95,100,102,105,110)
> feed=gl(3,8,24)
> data_feed=data.frame(Weight_Initial,Weight_Increment,feed)
> library(HH)
> m=ancova(Weight_Increment~Weight_Initial+feed,data=data_feed)
> summary(m)
Df Sum Sq Mean Sq F value Pr(>F)
Weight_Initial 1 1621.1 1621.1 142.44 1.50e-10
feed 2 707.2 353.6 31.07 7.32e-07
Residuals 20 227.6 11.4
Weight_Initial ***
feed ***
Residuals
---
Signif. codes:
0 ‘***’ 0.001 ‘**’ 0.01‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
協(xié)方差分析的P值非常小,說明結(jié)果非常顯著,應(yīng)該拒絕原假設(shè),認(rèn)為各因素在不同水平下的試驗(yàn)結(jié)果有顯著差別,即三種肥料對(duì)蘋果產(chǎn)量有很大的影響。
zhan<-read.table("zhan.txt",sep="\t",header=T,stringsAsFactors=F)
head(zhan)
install.packages("psych")
library(psych)
zhan_12HS<-zhan[1:243,5:8]
corr.test(zhan_12HS,use="complete")
zhan_13HS<-zhan[244:585,5:8]
corr.test(zhan_13HS,use="complete")
zhan_14HN<-zhan[586:1026,5:8]
corr.test(zhan_14HN,use="complete")
zhan_14SH<-zhan[1027:1311,5:8]
corr.test(zhan_14SH,use="complete")
zhan_15HN<-zhan[1312:1557,5:8]
corr.test(zhan_15HN,use="complete")
zhan_15SC<-zhan[1558:1908,5:8]
corr.test(zhan_15SC,use="complete")