K频道黄色片,9 1青青草在线观看

前段時(shí)間學(xué)習(xí)了人大薛薇老師的統(tǒng)計(jì)學(xué)基礎(chǔ)課程，最近剛交了統(tǒng)計(jì)學(xué)作業(yè)，得到了TDU同學(xué)和薛老師的高度評(píng)價(jià)，并與薛老師交流了關(guān)于“原假設(shè)”的問(wèn)題。在這里和大家分享一下這段學(xué)習(xí)歷程，與大家共勉，也歡迎大家提一些建議哈。

薛老師這次課程主要是基于案例探討統(tǒng)計(jì)分析方法的基本原理，她帶來(lái)的第一個(gè)案例是北京市空氣監(jiān)測(cè)。

開(kāi)頭便告訴我們從統(tǒng)計(jì)視角看案例數(shù)據(jù)，確定研究的樣本、步驟、問(wèn)題，只研究供暖季的數(shù)據(jù)，數(shù)據(jù)處理的兩種方式：

第一，計(jì)算該時(shí)段各站點(diǎn)各變量均值，樣本量35

第二，忽略時(shí)間上的差異，視數(shù)據(jù)為截面數(shù)據(jù)。優(yōu)勢(shì):有效擴(kuò)大了樣本量(采納)

研究步驟和問(wèn)題：

第一步，樣本數(shù)據(jù)的描述統(tǒng)計(jì)。涉及問(wèn)題：

了解數(shù)據(jù)缺失狀況

基本描述統(tǒng)計(jì)

診斷極端值：從統(tǒng)計(jì)視角檢測(cè)PM2.5爆表情況

第二步，依據(jù)樣本，對(duì)樣本來(lái)自的總體參數(shù)進(jìn)行估計(jì)和對(duì)比。涉及問(wèn)題：

估計(jì)北京市供暖季PM2.5(一個(gè)總體)的平均值

交通污染對(duì)PM2.5的影響：對(duì)比西直門北(區(qū)域)和定陵(區(qū)域)供暖季的PM2.5(兩總體)的平均值

第三步，基于樣本數(shù)據(jù)的深入研究

探討PM2.5成因；對(duì)比北京四個(gè)不同區(qū)域(西北、西南、正南、東/東南)PM2.5總體均值差異

探討PM2.5的空間特征和空氣質(zhì)量的區(qū)域劃分

探討AQI的全面性問(wèn)題

接下來(lái)針對(duì)研究步驟和問(wèn)題展開(kāi)講解，從最基礎(chǔ)的直方圖、概率密度函數(shù)、四分位數(shù)等內(nèi)容到十分經(jīng)典的假設(shè)檢驗(yàn)、Bootstrap、多元線性回歸、聚類分析、主成分分析都有講解。

然后為我們帶來(lái)了第二個(gè)案例，基于HR的調(diào)查研究IT員工離職問(wèn)題，研究離職主要因素并預(yù)測(cè)是否離職。因?yàn)檫@里研究的二分類變量與其他變量之間的關(guān)系，對(duì)二分類的被解釋變量不可以直接采用一般多元線性回歸分析方法，因此進(jìn)行改進(jìn)如下：

建立二項(xiàng)Logit模型，并講解二分類模型的評(píng)價(jià)問(wèn)題，查準(zhǔn)率和查全率(覆蓋率)和ROC曲線。

正所謂“實(shí)踐是檢驗(yàn)真理的唯一標(biāo)準(zhǔn)”，在上完課后就進(jìn)入作業(yè)環(huán)節(jié)。

說(shuō)實(shí)話，薛老師布置的作業(yè)并不難，只要好好復(fù)習(xí)課件，一般都能答出來(lái)，但復(fù)習(xí)課件不僅僅是為了完成作業(yè)，同時(shí)也是一個(gè)理解吸收提高的過(guò)程。（ps：自己的作業(yè)也十分榮幸的得到了TDU同學(xué)和薛老師滿分+的評(píng)價(jià)，哈哈。）

以第一題為例，原題如下：

一、（15分）某大型企業(yè)HR通過(guò)隨機(jī)調(diào)查獲得了2720名技術(shù)員工對(duì)企業(yè)滿意度的打分（取值范圍：0~1）數(shù)據(jù)。對(duì)該樣本的基本描述統(tǒng)計(jì)結(jié)果如下。

請(qǐng)問(wèn)：

1、請(qǐng)基于上述計(jì)算結(jié)果，粗略繪制滿意度打分的概率密度分布曲線，并在圖中畫出有相同均值和標(biāo)準(zhǔn)差的正態(tài)分布曲線。（5分）

考察基礎(chǔ)知識(shí)，概率密度分布曲線和正態(tài)分布曲線，這兩個(gè)知識(shí)點(diǎn)雖然薛老師沒(méi)有直接講解，但都比較基礎(chǔ)，要求我們有一定的R自學(xué)能力，查一下就能知道結(jié)果。通過(guò)plot繪制出density概率密度分布曲線，通過(guò)mean和sd求出均值和方差，然后通過(guò)curve繪制出dnorm正態(tài)分布曲線。

核心代碼如下：

plot(density(Data$satisfaction_level))

mean_data = mean(Data$satisfaction_level)

sd_data = sd(Data$satisfaction_level)

curve(dnorm(x,mean_data,sd_data))

個(gè)人解答如下：

（1）滿意度打分的概率密度分布曲線如圖所示，可以看出，并不符合正態(tài)分布。

（2）求得均值為0.6078971，標(biāo)準(zhǔn)差為0.2541932，相應(yīng)的正態(tài)分布曲線如圖，

2、?基于上述計(jì)算結(jié)果，你認(rèn)為滿意度打分中是否存在異常數(shù)據(jù)？為什么？（5分）

正所謂外行看熱鬧，內(nèi)行看門道，異常數(shù)據(jù)不是你覺(jué)得有異常就異常，需要理論依據(jù)，理論依據(jù)是啥？答：閾值，大于1.5倍的四分位差，詳見(jiàn)PPT第17頁(yè)。

個(gè)人解答如下：

答：滿意度打分不存在異常數(shù)據(jù)。為非對(duì)稱分布。

（1）先計(jì)算1.5倍的四分位差：

1.5*(quantile(Data$satisfaction_level,c(0.25,0.75))[2]-

quantile(Data$satisfaction_level,c(0.25,0.75))[1])

得到標(biāo)準(zhǔn)0.585。

（2）在計(jì)算上四分位數(shù)和下四分位數(shù)：

quantile(Data$satisfaction_level,c(0.25,0.75))

得到0.43（25%）和0.82（75%）

（3）計(jì)算出最值：

describe(Data$satisfaction_level)

得到0.09（min）和1（max）

因(0.43-0.585)不存在和(0.82+0.585)不存在，故無(wú)異常點(diǎn)。

3、基于上述計(jì)算結(jié)果，如果希望刻畫滿意度打分的樣本分布特征，應(yīng)給出哪些最基本的描述統(tǒng)計(jì)結(jié)果？它們的含義是什么？（5分）

這道題考的十分基礎(chǔ)，最基本的描述統(tǒng)計(jì)結(jié)果，可以參考Basic descriptive statistics useful for psychometrics里的描述統(tǒng)計(jì)量，但背后是統(tǒng)計(jì)方法中的描述統(tǒng)計(jì)，是統(tǒng)計(jì)學(xué)的基石，也是個(gè)人統(tǒng)計(jì)學(xué)的基本功，雖然簡(jiǎn)單，但必須重視。

個(gè)人解答如下：

答：可以有以下描述統(tǒng)計(jì)結(jié)果，

n：2720，一共有2720名技術(shù)員工的滿意度數(shù)據(jù)；

mean：0.61，滿意度的平均值為0.61分；

sd：0.25，滿意度的標(biāo)準(zhǔn)差為0.25，反映滿意度的離散程度；

min：0.09，滿意度的最值，最低分0.09；

max：1，滿意度的最值，最高分1；

skew：-0.48，左偏，偏離度-0.48；

se：0，均值的標(biāo)準(zhǔn)誤差StandardError

備注：標(biāo)準(zhǔn)誤=標(biāo)準(zhǔn)差/√n? ?? ?n是樣本量。公式意思是：標(biāo)準(zhǔn)誤等于標(biāo)準(zhǔn)差除以樣本量的平方根，

其他題目類似，十分經(jīng)典，不在一一展開(kāi)。

之后，我還與薛老師進(jìn)一步交流了關(guān)于“原假設(shè)”的問(wèn)題。

我們先看問(wèn)題以及我的解答：

二、（25分）員工甲認(rèn)為：企業(yè)技術(shù)員工的工作壓力大，他們對(duì)企業(yè)滿意度打分的總體平均值不會(huì)高于0.5分?；诘谝活}的隨機(jī)樣本數(shù)據(jù)，員工乙利用假設(shè)檢驗(yàn)方法對(duì)員工甲的觀點(diǎn)進(jìn)行了驗(yàn)證，分析結(jié)果如下。

請(qǐng)問(wèn)：

員工乙采用的是哪種統(tǒng)計(jì)檢驗(yàn)方法？請(qǐng)給出假設(shè)檢驗(yàn)的原假設(shè)。（5分）

答：采用的是單個(gè)總體均值的假設(shè)檢驗(yàn)；由alternative hypothesis:

true mean is not equal to 0.5知原假設(shè)為真實(shí)的均值等于0.5。

但薛老師認(rèn)為原假設(shè)是H0：μ0≤0.5

我：如果按題意他們對(duì)企業(yè)滿意度打分的總體平均值不會(huì)高于0.5分和最終結(jié)果平均值高于0.5分，那么原假設(shè)H0：μ0≤0.5。但如果看R執(zhí)行的結(jié)果alternative?hypothesis:?true?mean?is?not?equal?to?0.5，那么原假設(shè)為真實(shí)的均值等于0.5，即μ0?=?0.5。在這里是不是應(yīng)該以R執(zhí)行的結(jié)果為準(zhǔn)。薛老師：程序給出的都是雙側(cè)檢驗(yàn)的概率P值，單側(cè)檢驗(yàn)用它的1/2即可最后我提出加上alternative?=?"greater"這個(gè)參數(shù)，這樣alternative被則假設(shè)、原假設(shè)、R結(jié)果、題意都統(tǒng)一，就沒(méi)有歧義了。

t.test(Data$satisfaction_level,mu=0.5,side="less",alternative?=?"greater")

得到了薛老師的肯定，最終達(dá)成一致。

一場(chǎng)精彩的統(tǒng)計(jì)學(xué)課程結(jié)束了，但我們?nèi)松膶W(xué)習(xí)之旅還有很長(zhǎng)的路要走。

在此，感謝薛老師的精彩講解，感謝TDU引入這樣一門好課，感謝努力的自己。

時(shí)間在流逝，萬(wàn)物在成長(zhǎng)，引用國(guó)學(xué)大師錢穆老師的一句話作為結(jié)語(yǔ)，過(guò)去未去，未來(lái)已來(lái)。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

邂逅統(tǒng)計(jì)學(xué)-當(dāng)TD遇到人大

邂逅統(tǒng)計(jì)學(xué)-當(dāng)TD遇到人大

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

邂逅統(tǒng)計(jì)學(xué)-當(dāng)TD遇到人大

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av