《多元統計分析與R語言建模》王斌會 第四版 第一章
后期會把每一章的學習筆記鏈接加上
Codes, datas, slices and e-book of this book:
鏈接:https://pan.baidu.com/s/16gIeR3xxL1DTGHe2kpP39A
提取碼:jtag
目錄

一、定義
多元統計分析 是研究多個隨機變量之間相互依賴關系及其內在統計規(guī)律的一門學科
在統計學的基本內容匯總,只考慮一個或幾個因素對一個觀測指標(變量)的影響大小的問題,稱為一元統計分析。
若考慮一個或幾個因素對兩個或兩個以上觀測指標(變量)的影響大小的問題,或者多個觀測指標(變量)的相互依賴關系,既稱為多元統計分析。
二、應用
1. 變量之間的相依性分析
- 使用簡單相關分析、偏相關分析、復相關分析和典型相關分析技術
2. 構造預測模型,進行預報控制。
有兩大類,包括:
- 預測預報模型,通過采用多元回歸或逐步回歸分析、非線性回歸、判別分析等建模技術
- 描述性模型,通過采用綜合評價的分析技術
3. 進行數值分類,構造分類模型。
將數據歸類,找出他們之間的聯系和內在規(guī)律。
構造分類模型一般采用聚類分析和判別分析技術
4. 簡化系統結構,探討系統內核
在眾多因素中找出各個變量中最佳的子集合,根據子集合所包含的信心描述多元系統的結果及各個因子對系統的影響,舍棄次要因素,以簡化系統結構,認識系統的內核(有點做單細胞降維的意思)
可采用 主成分分析、因子分析、對應分析 等方法。
三、內容
多元統計分析的內容主要有:多元數據圖示法、多元線性相關與回歸分析、判別分析、聚類分析、主成分分析、因子分析、對應分析及典型相關分析等。
1. 多元數據的數學表示
多元數據是指具有多個變量的數據。如果將每個變量看作一個隨機向量的話,多個變量形成的數據集將是一個隨機矩陣,所以多元數據的基本表現形式是一個矩陣。對這些數據矩陣進行數學表示是我們的首要任務。也就是說,多元數據的基本運算是矩陣運算,而R語言是一個優(yōu)秀的矩陣運算語言,這也是我們應用它的一大優(yōu)勢。
2. 多元數據的直觀分析
直觀分析即圖示法,是進行數據分析的重要輔助手段。例如,通過兩變量的散點圖可以考察異常的觀察值對樣本相關系數的影響,利用矩陣散點圖可以考察多元之間的關系,利用多元箱尾圖可以比較幾個變量的基本統計量的大小差別。
3. 相關分析
相關分析就是通過對大量數字資料的觀察,消除偶然因素的影響,探求現象之間相關關系的密切程度和表現形式。在經濟系統中,各個經濟變量常常存在內在的關系。例如,經濟增長與財政收人、人均收入與消費支出等。在這些關系中,有一些是嚴格的函數關系,這類關系可以用數學表達式表示出來。還有一些是非確定的關系,一個變量產生變動會影響其他變量,使其產生變化。這種變化具有隨機的特性,但是仍然遵循一定的規(guī)律。函數關系很容易解決,而那些非確定的關系,即相關關系,才是我們所關心的問題。
4. 回歸分析
回歸分析研究的主要對象是客觀事物變量間的統計關系。它是建立在對客觀事物進行大量實驗和觀察的基礎上,用來尋找隱藏在看起來不確定的現象中的統計規(guī)律的方法?;貧w分析不僅可以揭示自變量對因變量的影響大小,還可以用回歸方程進行預測和控制。回歸分析的主要研究范圍包括:
(1) 線性回歸模型: 一元線性回歸模型,多元線性回歸模型。
(2) 回歸模型的診斷: 回歸模型基本假設的合理性,回歸方程擬合效果的判定,選擇回歸函數的形式。
(3) 廣義線性模型: 含定性變量的回歸,自變量含定性變量,因變量含定性變量。
(4) 非線性回歸模型: 一元非線性回歸,多元非線性回歸。
在實際研究中,經常遇到一個隨機變量隨一個或多個非隨機變量的變化而變化的情況,而這種變化關系明顯呈非線性。怎樣用一個較好的模型來表示,然后進行估計與預測,并對其非線性進行檢驗就成為--個重要的問題。在經濟預測中,常用多元回歸模型反映預測量與各因素之間的依賴關系,其中,線性回歸分析有著廣泛的應用。但客觀事物之間并不一定呈線性關系,在有些情況下,非線性回歸模型更為合適,只是建立起來較為困難。在實際的生產過程中,生產管理目標的參量與加工數量存在相關關系。隨著生產和加工數量的增加,生產管理目標的參量(如生產成本和生產工時等)大多不是簡單的線性增加,此時,需采用非線性回歸分析進行分析。
5. 廣義與一般線性模型
鑒于統計模型的多樣性和各種模型的適應性,針對因變量和解釋變量的取值性質,可將統計模型分為多種類型。通常將自變量為定性變量的線性模型稱為一般線性模型,如實驗設計模型、方差分析模型; 將因變量為非正態(tài)分布的線性模型稱為廣義線性模型,如 Logistic回歸模型、對數線性模型、Cox比例風險模型。
1972年,Nelder對經典線性回歸模型作了進一步的推廣,建立了統一的理論和計算框架,對回歸模型在統計學中的應用產生了重要影響。這種新的線性回歸模型稱為廣義線性模型( generalized linear models,GLM)。
廣義線性模型是多元線性回歸模型的推廣,從另一個角度也可以看作是非線性模型的特例,它們具有--些共性,是其他非線性模型所不具備的。它與典型線性模型的區(qū)別是其隨機誤差的分布不是正態(tài)分布,與非線性模型的最大區(qū)別則在于非線性模型沒有明確的隨機誤差分布假定,而廣義線性模型的隨機誤差的分布是可以確定的。廣義線性模型不僅包括離散變量,也包括連續(xù)變量。正態(tài)分布也被包括在指數分布族里,該指數分布族包含描述發(fā)散狀況的參數,屬于雙參數指數分布族。
6. 判別分析
判別分析是多元統計分析中用于判別樣本所屬類型的一種統計分析方法。所謂判別分析法,是在已知的分類之下,一旦有新的樣品時,可以利用此法選定一個判別標準,以判定將該新樣品放置于哪個類別中。判別分析的目的是對已知分類的數據建立由數值指標構成的分類規(guī)則,然后把這樣的規(guī)則應用到未知分類的樣品中去分類。例如,我們獲得了患胃炎的病人和健康人的一些化驗指標,就可以從這些化驗指標中發(fā)現兩類人的區(qū)別。把這種區(qū)別表示為一個判別公式,然后對那些被懷疑患胃炎的人就可以根據其化驗指標用判別公式來進行輔助診斷。
7. 聚類分析
聚類分析是研究物以類聚的--種現代統計分析方法。過去人們主要靠經驗和專業(yè)知識作定性分類處理,很少利用數學方法,致使許多分類帶有主觀性和任意性,不能很好地揭示客觀事物內在的本質差別和聯系,特別是對于多因素、多指標的分類問題,定性分類更難以實現準確分類。為了克服定性分類的不足,多元統計分析逐漸被引人到數值分類學中,形成了聚類分析這個分支。
聚類分析是一種分類技術,與多元分析的其他方法相比,該方法較為粗糙,理論上還不完善,但應用方面取得了很大成功。聚類分析與回歸分析、判別分析一起被稱為多元分析的三個主要方法。
8. 主成分分析
在實際問題中,研究多變量問題是經常遇到的,然而在多數情況下,不同變量之間有一定相關性,這必然增加了分析問題的復雜性。主成分分析就是一種通過降維技術把多個指標化為少數幾個綜合指標的統計分析方法。如何將具有錯綜復雜關系的指標綜合成幾個較少的成分,使之既有利于對問題進行分析和解釋,又便于抓住主要矛盾作出科學的評價,此時便可以用主成分分析方法。
9. 因子分析
因子分析是主成分分析的推廣,它也是一種把多個變量化為少數幾個綜合變量的多元分析方法,但其目的是用有限個不可觀測的隱變量來解釋原變量之間的相關關系。主成分分析通過線性組合將原變量綜合成幾個主成分,用較少的綜合指標來代替原來較多的指標(變量)。在多元分析中,變量間往往存在相關性,是什么原因使變量間有關聯呢? 是否存在不能直接觀測到的但影響可觀測變量變化的公共因子呢?
因子分析就是尋找這些公共因子的統計分析方法,它是在主成分的基礎上構筑若干意義較為明確的公因子,以它們?yōu)榭蚣芊纸庠兞?,以此考察原變量間的聯系與區(qū)別。例如,在研究糕點行業(yè)的物價變動中,糕點行業(yè)品種繁多、多到幾百種甚至上千種,但無論哪種樣式的糕點,用料不外乎面粉、食用油、糖等主要原料。那么,面粉、食用油、糖就是眾多糕點的公共因子,各種糕點的物價變動與面粉、食用油、糖的物價變動密切相關,要了解或控制糕點行業(yè)的物價變動,只要抓住面粉、食用油和糖的價格即可。
10. 對應分析
對應分析又稱為相應分析,由法國統計學家J.P.Beozecri于 1970年提出。對應分析是在因子分析基礎之上發(fā)展起來的一種多元統計方法,是Q型和R型因子分析的聯合應用。在經濟管理數據的統計分析中,經常要處理三種關系,即樣品之間的關系(Q型關系)、變量間的關系(R型關系)以及樣品與變量之間的關系(對應型關系)。例如,對某一行業(yè)所屬的企業(yè)進行經濟效益評價時,不僅要研究經濟效益指標間的關系,還要將企業(yè)按經濟效益的好壞進行分類,研究哪些企業(yè)與哪些經濟效益指標的關系更密切一些,為決策部門正確指導企業(yè)的生產經營活動提供更多的信息。這就需要有一種統計方法,將企業(yè)(樣品〉和指標(變量)放在一起進行分析、分類、作圖,便于作經濟意義.上的解釋。解決這類問題的統計方法就是對應分析。
11. 典型相關分析
在相關分析中,當考察的一組變量僅有兩個時,可用簡單相關系數來衡量它們;當考察的一組變量有多個時,可用復相關系數來衡量它們。大量的實際問題需要我們把指標之間的聯系擴展到兩組變量,即兩組隨機變量之間的相互依賴關系。典型相關分析就是用來解決此類問題的一種分析方法。它實際上是利用主成分的思想來討論兩組隨機變量的相關性問題,把兩組變量間的相關性研究化為少數幾對變量之間的相關性研究,而且這少數幾對變量之間又是不相關的,以此來達到化簡復雜相關關系的目的。
典型相關分析在經濟管理實證研究中有著廣泛的應用,因為許多經濟現象之間都是多個變量對多個變量的關系。例如,在研究通貨膨脹的成因時,可把幾個物價指數作為一組變量,把若干個影響物價變動的因素作為另一組變量,通過典型相關分析找出幾對主要綜合變量,結合典型相關系數對物價上漲及通貨膨脹的成因,給出較深刻的分析結果。
12. 多維標度法
多維標度分析( multidimensional scaling,MDS)是以空間分布的形式表現對象之間相似性或親疏關系的一種多元數據分析方法。1958年,Torgerson 在其博士論文中首次正式提出這一方法。MDS分析多見于市場營銷,近年來在經濟管理領域的應用日趨增多,但國內在這方面的應用報道極少。多維標度法通過一系列技巧,使研究者識別構成受測者對樣品的評價基礎的關鍵維數。例如,多維標度法常用于市場研究中,以識別構成顧客對產品、服務或者公司的評價基礎的關鍵維數。其他的應用如比較自然屬性(比如食品口味或者不同的氣味),對政治候選人或事件的了解,甚至評估不同群體的文化差異。多維標度法通過受測者所提供的對樣品的相似性或者偏好的判斷推導出內在的維數。一旦有數據,多維標度法就可以用來分析:①評價樣品時受測者用什么維數;②在特定情況下受測者可能使用多少維數;③每個維數的相對重要性如何;④如何獲得對樣品關聯的感性認識。
13. 綜合評價方法
20世紀七八十年代,是現代科學評價蓬勃興起的年代,在此期間產生了很多種評價方法,如ELECTRE法、多維偏好分析的線性規(guī)劃法(LINMAP)、層次分析法(AHP)、數據包絡分析法(EDA)及逼近于理想解的排序法(TOPSIS)等,這些方法到現在已經發(fā)展得相對完善了,而且它們的應用也比較廣泛。
而我國現代科學評價的發(fā)展則是在20世紀八九十年代,對評價方法及其應用的研究也取得了很大的成效,把綜合評價方法應用到了國民經濟各個部門,如可持續(xù)發(fā)展綜合評價、小康評價體系、現代化指標體系及國際競爭力評價體系等。
多指標綜合評價方法具有以下特點:包含若干個指標,分別說明被評價對象的不同方面 ;評價方法最終要對被評價對象作出一個整體性的評判,用一個總指標來說明被評價對象的一般水平。
目前常用的綜合評價方法較多,如綜合評分法、綜合指數法、秩和比法、層次分析法、TOPSIS法、模糊綜合評判法、數據包絡分析法等。
四、分析工具
R -- 永遠滴神~