Remark:對心理學(xué)感興趣,源自自我心理探索,決定學(xué)習(xí)中科院的兒童發(fā)展與教育心理學(xué),倍感忐忑和壓力,專業(yè)領(lǐng)域跨度較大,也很久不曾認(rèn)真學(xué)習(xí)過某項課程。既然已經(jīng)開始,就全力以赴吧。
? 授課老師:禤宇明? ??腦與認(rèn)知科學(xué)國家重點實驗室??中國科學(xué)院心理研究所
第二章? 數(shù)據(jù)和圖表
一、基礎(chǔ)知識
? ? ? – 變量、尺度、數(shù)據(jù)
二、? 數(shù)據(jù)類型與分析方法
? ? ? – 類別數(shù)據(jù)、順序數(shù)據(jù)、等距數(shù)據(jù)、比例數(shù)據(jù)
三、 數(shù)據(jù)的來源
四、? 數(shù)據(jù)的整理和統(tǒng)計圖表
? ?? ? ?–?次數(shù)多邊形、條形圖、餅圖、線圖、直方圖、散點圖
一、 基礎(chǔ)知識
1.1 變量、尺度、數(shù)據(jù)
? 例:身高:高、矮、中等個頭; 180cm
?變量variable:事物的某種特征,這種特征在不同個體之間有差異
尺度(量表)scale:變量的測量標(biāo)準(zhǔn)
數(shù)據(jù)data:測量的結(jié)果
——對同一個研究對象,用不同的尺度進(jìn)行測量,也可以得到不同的結(jié)果(如姚明的官方身高為226cm,這是用米尺測量的結(jié)果,換算成英尺就是7 英尺6英寸;如果換成其他尺度測量得出的數(shù)據(jù)也就不同;也可以直接說“很高”)
變異varation:?研究對象中各觀察個體之間的差異
例:線性函數(shù)y=ax+b(a和b均為常數(shù))中,x變化,y會發(fā)生有規(guī)律的變化,但是在統(tǒng)計中會出現(xiàn)的情況通常是y=ax+b+e,e也是個變量,而且有可能是不可控的變量,也就是不同觀察個體之間存在細(xì)微或不可控的差異。
1. 2 四種測量尺度
(1)類別尺度(Nominal Scale),也叫稱名尺度或列名尺度?
例子:—性別(男、女)、企業(yè)性質(zhì)、職業(yè)、地區(qū)
? ? ? ? ? ?— 檢驗(陰性、陽性)、血型
特性: — 也叫稱名尺度或列名尺度;
? ? ? ? ? ?— 只能按照事物的某種屬性對其進(jìn)行平行的分類或分組
? ? ? ? ? ?—? 只能區(qū)分事物是同類或不同類(=或≠)
? ? ? ? ? ? — 通常計算每一類別中各元素或個體出現(xiàn)的額“次數(shù)”或“頻率”來進(jìn)行分析
例:一個班55名同學(xué),女生25人,男生30人。
? ? 在這里,“性別”是變量,“男”和“女”是類別數(shù)據(jù),25和30是計數(shù)數(shù)據(jù)。
(2)順序尺度 (Ordinal Scale)
順序數(shù)據(jù)也叫等級(rank )數(shù)據(jù)
例子:—績效評定:優(yōu)、良、中、及格、不及格
? ? ? ? ? — 病情:輕、中、重
特性:— 對事物之間等級差別或順序差別的一種測度
? ? ? ? ? ?— 可以將事物分成不同的類別,還可以確定這些類別的優(yōu)劣或順序
? ? ? ? ? ?— 該尺度具有“>或<”、“=和≠”的數(shù)學(xué)特性,但不可進(jìn)行加減乘除運(yùn)算
例:單位的級別有“科級”、“處級”、“副處級”等,如果一個人是“科級”,那么他所的“級別”變量的數(shù)據(jù)應(yīng)該是“=科級”,或“<處級”,即“級別=科級”,或“級別<處級”。
(3)等距尺度(Interval Scale)
例子:溫度:華氏℉(Fahrenheit)=℃*9/5+32;各種能力分?jǐn)?shù);智商等
特性: — 測量結(jié)果表現(xiàn)為數(shù)值,有相等的單位,但沒有絕對零點
? ? ? ? ? ? — 等距尺度具有類別尺度、順序尺度的數(shù)學(xué)特性,結(jié)果只可加減,不可乘除
(4)比例尺度(Ratio Scale)
例子:— 長度、重量、收入、心率、百分制考試分?jǐn)?shù)
特性:— 測量結(jié)果表現(xiàn)為數(shù)值,表明量的大小,有相等的單位,且有絕對零點
? ? ? ? ? ? — 比例尺度具有類別尺度、順序尺度和等距尺度的數(shù)學(xué)特征,結(jié)果可進(jìn)行乘除運(yùn)算
等距尺度與比例尺度的區(qū)別在于測量工具是否有絕對零點。對于溫度而言,華氏和攝氏兩種工具的零點不同,因此屬于等距尺度。長度的測量,無論是使用英尺、米尺或其他,零點都是相同的,因此屬于比例尺度。
思考題1:數(shù)學(xué)考試中得了80分,那么這個80分所對應(yīng)額0分是絕對對的還是相對的呢?
? ? ? ? ? ? ? ?—— 是相對零點,因為這個0并非絕對衡量點。如果試卷很難,這時候起點0會無形間被拔高,所以應(yīng)該相應(yīng)下調(diào),這種情況下80分應(yīng)該高于常規(guī)的80分。反之亦然。(P17—等距數(shù)據(jù)interval data)
二、數(shù)據(jù)類型和分析方法
2.1 數(shù)據(jù)的類型
1. 四分法:類別數(shù)據(jù)、順序數(shù)據(jù)、等距數(shù)據(jù)、比例數(shù)據(jù)(P16)
2. 二分法:定性數(shù)據(jù)(Qualitative data):類別數(shù)據(jù)、順序數(shù)據(jù)
? ? ? ? ? ? ? ? ? 定量數(shù)據(jù)(Quantitative data):等距數(shù)據(jù)、比例數(shù)據(jù)


有個從未管過自己孩子的統(tǒng)計學(xué)家,在一個星期六下午妻子要外出買東西時,勉強(qiáng) 答應(yīng)照看一下四個年幼好動的孩子。當(dāng)妻子回家時,交給妻子一張紙條,上面寫著:“擦眼淚11次;系鞋帶15次;給每個孩子吹玩 具氣球各5次;每個氣球的平均壽命10秒鐘;警告孩子不要橫穿馬路26次;孩子堅持要穿馬路26次;我還要再過這樣的星期六0次?!?/p>
不同類型數(shù)據(jù)之間的變換
?? 一般的變化方向:?數(shù)值型?→?等級(順序)→類別
?? 偶爾:?順序 → 數(shù)值
2.2 數(shù)據(jù)類型與統(tǒng)計方法

三、統(tǒng)計數(shù)據(jù)的來源
3.1? 直接來源
? — 調(diào)查:普查、抽樣調(diào)查
? — 觀察與實驗
3.2? 間接來源(二手?jǐn)?shù)據(jù))
— 不是自己親自調(diào)查的,是別人的數(shù)據(jù)、公開出版或報道的數(shù)據(jù):統(tǒng)計年鑒;報刊、雜志、圖書、廣播、電視傳媒中的各種數(shù)據(jù)資料
四、數(shù)據(jù)的整理和統(tǒng)計圖表
4.1? 數(shù)據(jù)整理
1.?數(shù)據(jù)整理的概念:通過各種渠道搜集到統(tǒng)計數(shù)據(jù)之后,首先應(yīng)對其進(jìn)行加工整理,使之系統(tǒng)化、條理化,以符合分析的需要。
整理可以大大簡化數(shù)據(jù),更容易理解和分析。
2. 數(shù)據(jù)整理的步驟:數(shù)據(jù)的預(yù)處理——分類或分組——匯總
? (1)數(shù)據(jù)的預(yù)處理:
? ? ? ? ??? 數(shù)據(jù)的審核與篩選——檢查每個樣本點是否完整、準(zhǔn)確;將不符合要求的數(shù)據(jù)刪除,符合條件的選出來。
? ? ? ? ??? 數(shù)據(jù)的排序(sort或order)——便于發(fā)現(xiàn)數(shù)據(jù)特征或趨勢,也有助于檢查錯誤
? (2)分類或分組(grouping):根據(jù)研究對象的特征,將所得數(shù)據(jù)劃分到各個組別中。
? ? ? 統(tǒng)計分組應(yīng)注意:① 以研究對象的本質(zhì)特性為基礎(chǔ);② 分類標(biāo)注要明確清晰,能包括所有的數(shù)據(jù)
??(3)?匯總
3. 數(shù)據(jù)整理的原則
? ? ???對定性數(shù)據(jù)主要做分類整理
? ? ???對定量數(shù)據(jù)主要做分組整理
4.2 類別數(shù)據(jù)的整理與圖表展示
? ?1.? 整理
? ? ? ? ?–?? ?列出事物的類別,計算出每一類別的次數(shù)、頻率或比例、比率
? ? 2.??圖表展示
? ? ? ? ?–?? ?次數(shù)分布表:?列出不同類別所對應(yīng)的次數(shù)或比例
次數(shù)分布 frequency distribution

? ? 3.??條形圖bar graph、餅圖pie graph







出生人口性別比:是活產(chǎn)男嬰數(shù)與活產(chǎn)女嬰數(shù)的比值,通常用女嬰數(shù)量為100時所對應(yīng)的男嬰數(shù)來表示。正常情況下,出生性別比是由生物學(xué)規(guī)律決定的,保持在103~107之間。

4.3 順序數(shù)據(jù)的整理與顯示
1. 類別數(shù)據(jù)的整理和顯示的內(nèi)容都適用于順序數(shù)據(jù)。除此之外順序數(shù)據(jù)還可以計算累積次數(shù),圖形顯示用到累積次數(shù)分布圖
2. 累積次數(shù)(cumulative frequencies) 將各類別的次數(shù)逐級累加起來
? ? ? – 向上累積:從類別順序開始一方向最后一方累加頻數(shù)
? ? ? – 向下累積:從類別順序最后一方向開始一方累加頻數(shù)
3. 累積百分比(cumulative percentages)
4.4 定量數(shù)據(jù)的整理和圖表顯示
(1)數(shù)據(jù)的分組
? – 定量數(shù)據(jù)包括等距數(shù)據(jù)和比例數(shù)據(jù),在整理時通常要進(jìn)行分組,然后再計算出各組中出現(xiàn)的次數(shù)。分組方法一般用組距分組法
(2) 圖表顯示
?– 次數(shù)分布表
?– 直方圖、次數(shù)多邊形圖、累加直方圖
4.4.1 組距分組的步驟
1. 求全距
? ? ? ?– R=Max-Min
2. 定組數(shù)
? ? ? ?–? 組數(shù)過多過少都不合適
? ? ? – 經(jīng)驗公式 組數(shù) k=1.87(N-1)0.4, N為數(shù)據(jù)個數(shù)
3. 定組距
? ? – 組距是一個組的上限與下限之差 ;距=(最大值-最小值)/組數(shù)
4. 寫出組限
? ?– 建議用精確組限
5. 求組中值
? ?– 組中值=(精確上限+精確下限)÷2
6. 歸類劃記
7. 登記次數(shù)
4.4.2 定量數(shù)據(jù)的圖表展示

直方圖 histogram

次數(shù)多邊形 frequency polygon

關(guān)于上面的frequency polygon,有幾個問題:
1.?f和p分別表示什么?f 表示對應(yīng)分?jǐn)?shù)出現(xiàn)的具體、絕對次數(shù),p 表示比例,即相對次數(shù);
2. 每一次的總?cè)藬?shù)N1和N2分別是多少?N=f/p,因此N1=1/0.01=100,N2=1/0.02=50
3. 縱坐標(biāo)為什么用 p 而不是 f?只有用p,兩條曲線下的面積才相等,面積都為1。f1f2,如果用f作為縱坐標(biāo),f1 所對應(yīng)的曲線面積一定是大于f2的。
4. 哪一組成績更好?第二組分?jǐn)?shù)高:橫坐標(biāo)是分?jǐn)?shù),第二組整條曲線整體偏右。
累加直方圖 cumulative histogram

頻數(shù)分布圖的形態(tài)

問題:假如上圖表示的是考試成績,那么試題較難的對應(yīng)分布圖是哪個?
? ? ? ? ? 回答:正偏態(tài)分布。因為題目較難,高分的人數(shù)會相對較少。

思考題1:在某小鎮(zhèn)對下面變量進(jìn)行調(diào)查,把變量與其直方圖相匹配,并解釋理由
① 父母雙方均小于25歲的家庭中所有成員的身高?
答案:B。涉及父母就會有小孩子,父母又分男性和女性,因此會出現(xiàn)三個峰值。成人身高差異相對較小,數(shù)據(jù)相對集中,而小孩子身高差異會比較大,數(shù)據(jù)相對分散,因此小孩身高對應(yīng)的統(tǒng)計曲線會更扁平。
② 已婚夫婦的身高
答案: C。夫婦就涉及成年男性和成年女性,而男性和女性身高會不同,會有兩個峰值。且成年人的身高相較孩子高,橫坐標(biāo)上的起點會更偏右。
③ 全體居民的身高
答案:D。
④ 所有小汽車car的高度
答案:A。A的峰值為該高度的車輛數(shù)目最多,且車的高度整體而言低于人的身高,因此可以推斷A是有關(guān)車的統(tǒng)計。一般家用車的高度差別不會太大,A的最大值與最小值之間差距較小,也比較符合。

思考題2:1960和1980年,對美國婦女進(jìn)行調(diào)查:“你有幾個孩子?”結(jié)果如下所示。
– 變量是離散的還是連續(xù)的?答案:離散的。
– 畫直方圖(“9或更多可以”可以取為9)
– 從圖中能得出什么結(jié)論?



提問:1. 藍(lán)色和紅色線分別代表什么性別?答案:藍(lán)色是男生,紅色是女生。理由:中國整體人口是男多女少;女性壽命長,因此高年齡段女性人數(shù)較多。
將上面的直方圖逆時針旋轉(zhuǎn)90度,然后將左邊的圖鏡面到右邊,得到的圖跟下面的第二個圖很像,即人口負(fù)增長:
