成對(duì)數(shù)據(jù)的統(tǒng)計(jì)分析

第1節(jié) 成對(duì)數(shù)據(jù)的統(tǒng)計(jì)分析

一、變量間的相關(guān)關(guān)系
1、兩個(gè)變量有關(guān)系,但又沒(méi)有確切到可由其中一個(gè)區(qū)精確地決定另一個(gè)的程度,這種關(guān)系稱(chēng)為相關(guān)關(guān)系;
2、如果從整體上看,當(dāng)一個(gè)變量的值增加時(shí),另一個(gè)變量的相應(yīng)值也呈現(xiàn)增加的趨勢(shì),我們稱(chēng)這兩個(gè)變量正相關(guān);如果當(dāng)一個(gè)變量的值增加時(shí),另一個(gè)變量的相應(yīng)值呈現(xiàn)減少的趨勢(shì),則稱(chēng)這兩個(gè)變量負(fù)相關(guān);
3、一般地,如果兩個(gè)變量的取值呈現(xiàn)正相關(guān)或負(fù)相關(guān),而且散點(diǎn)落在一條直線附近,我們稱(chēng)這兩個(gè)變量線性相關(guān);注:如果散點(diǎn)落在某條曲線附近,而不是落在一條直線附近,說(shuō)明這兩個(gè)變量具有相關(guān)性,但不是線性相關(guān);如果散點(diǎn)落在一條折線附近,這兩個(gè)變量也具有相關(guān)性,但它們既不是正相關(guān),也不是負(fù)相關(guān);
4、一般地,如果兩個(gè)變量具有相關(guān)性,但不是線性相關(guān),那么我們就稱(chēng)這兩個(gè)變量非線性相關(guān)或曲線相關(guān)。

二、樣本相關(guān)系數(shù):用來(lái)衡量?jī)蓚€(gè)變量的線性相關(guān)關(guān)系
1、定義 r=
我們稱(chēng)r為變量x和變量y的樣本相關(guān)系數(shù)

2、特征
(1)當(dāng)r>0時(shí),稱(chēng)成對(duì)數(shù)據(jù)正相關(guān),這時(shí),當(dāng)其中一個(gè)數(shù)據(jù)的值變小時(shí),另一個(gè)數(shù)據(jù)的值通常也變小;當(dāng)其中一個(gè)數(shù)據(jù)的值變大時(shí),另一個(gè)數(shù)據(jù)的值通常也變大
(2)當(dāng)r<0時(shí),稱(chēng)成對(duì)數(shù)據(jù)負(fù)相關(guān),這時(shí),當(dāng)其中一個(gè)數(shù)據(jù)的值變小時(shí),另一個(gè)數(shù)據(jù)的值通常會(huì)變大;當(dāng)其中一個(gè)數(shù)據(jù)的值變大時(shí),另一個(gè)數(shù)據(jù)的值通常會(huì)變小
(3)樣本相關(guān)系數(shù)r的取值范圍為[-1,1]
(4)樣本相關(guān)系數(shù)r的絕對(duì)值大小可以反映成對(duì)數(shù)據(jù)之間線性相關(guān)的程度:
當(dāng)|r|越接近1時(shí),成對(duì)數(shù)據(jù)的線性相關(guān)程度越強(qiáng)
當(dāng)|r|越接近0時(shí),成對(duì)數(shù)據(jù)的線性相關(guān)程度越弱

第2節(jié) 一元線性回歸模型及其應(yīng)用
一、一元線性回歸模型
x與y的關(guān)系可以表示為:
我們稱(chēng)上式為y關(guān)于x的一元線性回歸模型,其中,y稱(chēng)為因變量或響應(yīng)變量,x稱(chēng)為自變量或解釋變量;a和b為模型的未知參數(shù),a稱(chēng)為截距參數(shù),b稱(chēng)為斜率參數(shù);e是y與bx+a之間的隨機(jī)誤差

二、一元線性回歸模型參數(shù)的最小二乘估計(jì)
1、經(jīng)驗(yàn)回歸方程
我們將:

關(guān)于x的經(jīng)驗(yàn)回歸方程,也稱(chēng)經(jīng)驗(yàn)回歸函數(shù)或經(jīng)驗(yàn)回歸公式,其圖形稱(chēng)為經(jīng)驗(yàn)回歸直線。這種求經(jīng)驗(yàn)回歸方程的方法叫做最小二乘法,求得的b,a叫做b,a的最小二乘估計(jì)。
注:由于a=y-bx,即(x,y)滿(mǎn)足經(jīng)驗(yàn)回歸方程y=bx+a,所以經(jīng)驗(yàn)回歸直線必定過(guò)樣本點(diǎn)的中心(x,y)

2、殘差分析:
對(duì)于響應(yīng)變量y,通過(guò)觀測(cè)得到的數(shù)據(jù)稱(chēng)為觀測(cè)值,通過(guò)經(jīng)驗(yàn)回歸方程得到的y稱(chēng)為預(yù)測(cè)值,觀測(cè)值減去預(yù)測(cè)值稱(chēng)為殘差,殘差隨機(jī)誤差的估計(jì)結(jié)果,通過(guò)對(duì)殘差的分析可以判斷模型刻畫(huà)數(shù)據(jù)的效果,以及判斷原始數(shù)據(jù)中是否存在可疑數(shù)據(jù)等,這方面工作稱(chēng)為殘差分析。注:殘差可以是正數(shù),也可以使負(fù)數(shù),也可以是0
注:
(1)如果在殘差的散點(diǎn)圖中,殘差比較均勻地分布在橫軸的兩邊,說(shuō)明殘差比較符合一元線性回歸模型的假定,是均值為0,方差為的隨機(jī)變量的觀測(cè)值
(2)可以通過(guò)比較殘差的平方和來(lái)比較兩個(gè)模型的效果,殘差平方和越小,模型的擬合效果越好;殘差平方和越大,模型的擬合效果越差。
也可以用R的平方來(lái)比較兩個(gè)模型的擬合效果,R的平方計(jì)算公式為:
R的平方越大,模型的擬合效果越好,R的平方越小,模型的擬合效果越差。

第三節(jié) 列聯(lián)表與獨(dú)立性檢驗(yàn)
一、分類(lèi)變量
我們經(jīng)常會(huì)使用一種特殊的隨機(jī)變量,以區(qū)別不同的現(xiàn)象或性質(zhì),這類(lèi)隨機(jī)變量稱(chēng)為分類(lèi)變量,分類(lèi)變量的取值可以用實(shí)數(shù)表示。

二、22列聯(lián)表
在實(shí)踐中,由于保存原始數(shù)據(jù)的成本較高,人們經(jīng)常按研究問(wèn)題的需要,將數(shù)據(jù)分類(lèi)統(tǒng)計(jì),并做成表格加以保存,我們將下表表示的數(shù)據(jù)統(tǒng)計(jì)表稱(chēng)為分類(lèi)變量x和y的抽樣數(shù)據(jù)的2
2列聯(lián)表

2*2列聯(lián)表給出了成對(duì)分類(lèi)變量數(shù)據(jù)的交叉分類(lèi)頻數(shù)

三、獨(dú)立性檢驗(yàn)
構(gòu)造隨機(jī)變量: 利用 的取值判斷分類(lèi)變量x和y是否獨(dú)立的方法稱(chēng)為x 的獨(dú)立性檢驗(yàn),讀作“卡方獨(dú)立性檢驗(yàn)“簡(jiǎn)稱(chēng)獨(dú)立性檢驗(yàn)””

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容