CDA題目

大綱:

應(yīng)用情境例子:客戶價(jià)值評(píng)估(線性回歸)、貸款違約識(shí)別(邏輯回歸)、不同班級(jí)的成績差異(方差分析)、根據(jù)用戶特征進(jìn)行市場細(xì)分(聚類分析)

統(tǒng)計(jì)模型可以解決:預(yù)測分類、相關(guān)分析、市場細(xì)分等問題。

傳統(tǒng)數(shù)據(jù)分析與數(shù)據(jù)挖掘模型對(duì)計(jì)量方式都有自身嚴(yán)格的要求。

樣本量越大,抽樣誤差越小。

在其它條件不變的情況下,如果希望將誤差降低50%,則需4倍的樣本。

置信區(qū)間的例子:100次獨(dú)立抽樣產(chǎn)生的區(qū)間估計(jì),會(huì)有95次正確地包含著總體平均數(shù)。

在其它條件不變的情況下,提高置信水平會(huì)使置信區(qū)間變大。

沒有理論、業(yè)務(wù)向?qū)Ш图僭O(shè)條件的情況下,可以進(jìn)行探索性數(shù)據(jù)分析,了解數(shù)據(jù)情況。

遵循假設(shè)檢驗(yàn)步驟是一種驗(yàn)證性數(shù)據(jù)分析的思路。

t檢驗(yàn)統(tǒng)計(jì)量的適用條件:小樣本,并且方差未知

t檢驗(yàn)例子:化肥改良后的效果(配對(duì)樣本t檢驗(yàn),兩相關(guān)樣本(改良前后的樣本對(duì)應(yīng))是否來自相同均值的總體),商品質(zhì)量是否達(dá)標(biāo)(單樣本t檢驗(yàn),單個(gè)變量的均值與指定的檢驗(yàn)值之間是否存在顯著性差異/樣本均值與總體均值之間的差異),不同性別的成績是否有差異(獨(dú)立樣本t檢驗(yàn),兩獨(dú)立樣本是否來自相同均值的總體)

方差分析同時(shí)檢驗(yàn)兩組或多組均值是否存在差異。

正態(tài)分布是方差分析的前提。

方差的基本原理是方差的可加性。

方差不滿足齊性檢驗(yàn)的情況下,也有可能是滿足正態(tài)分布的。

方差不滿足齊性檢驗(yàn)的情況說明:不同組均值隱含的信息不同;數(shù)據(jù)分析結(jié)果無法推理到總體。

回歸分析之前,可以對(duì)數(shù)據(jù)做標(biāo)準(zhǔn)化處理、取對(duì)數(shù)處理

線性回歸的假設(shè):線性(因變量與自變量呈線性關(guān)系)、正態(tài)性(殘差服從正態(tài)分布)、獨(dú)立同分布(殘差間相互獨(dú)立且遵循同一分布)、正交假定(誤差項(xiàng)與自變量不相關(guān))

如果我們建立了y關(guān)于x的線性回歸方程,在沒有其它信息的情況下,我們只能說這兩個(gè)變量存在線性關(guān)系。(不能當(dāng)作因果關(guān)系)

Z-score標(biāo)準(zhǔn)化消除了量綱的影響。

識(shí)別異常值的方法:分位數(shù)判斷、轉(zhuǎn)化為Z-score判斷、聚類

主成分分析計(jì)算在選擇相關(guān)系數(shù)計(jì)算法時(shí),確定主成分個(gè)數(shù)的大致原則包括:特征根值大于1,累計(jì)特征根值加總占總特征根值的80%以上。

主成分分析計(jì)算分為:根據(jù)相關(guān)系數(shù)和協(xié)方差矩陣兩種方式。

變量的量綱不同時(shí),適用相關(guān)系數(shù)計(jì)算。

主成分分析是把主成分表示成各個(gè)變量的線性組合。

因子分析需要構(gòu)造因子模型:用潛在的假想變量和隨機(jī)影響變量的線性組合表示原始變量。

主成分法是常用的因子載荷矩陣的估計(jì)方法。

最大方差旋轉(zhuǎn)是最常用的因子旋轉(zhuǎn)方法,是一種正交旋轉(zhuǎn)。

在選擇合適的因子數(shù)量時(shí),可以適當(dāng)放寬對(duì)于特征根大小的要求,大于0.7就可以。

聚類模型需要事先采用因子分析對(duì)變量進(jìn)行降維,分類模型需要事先對(duì)解釋變量進(jìn)行因子分析。

將樣本按相似性的大小分成多個(gè)類的過程稱為聚類。

層次聚類可以提供聚類樹形圖。

當(dāng)樣本量超過50時(shí),一般采用K均值聚類法,但是它對(duì)起始點(diǎn)位置敏感,也無法通過分析方法確定聚類個(gè)數(shù),還容易受異常值的影響。

取百分位秩和分箱處理都會(huì)影響原變量的分布,標(biāo)準(zhǔn)化、因子分析和變量聚類不會(huì)影響分布。

對(duì)應(yīng)分析是從主成分分析發(fā)展而來,用于兩個(gè)或多個(gè)分類變量間各分類水平相關(guān)性的比較。

多維尺度分析用于衡量樣本間相異性(距離)或相似程度,也就是尋求原始距離的一個(gè)最佳近似,使得在低維中也能表示這些距離。

Minkowski/歐式距離用于連續(xù)型數(shù)據(jù),Jacard相似系數(shù)用于分類數(shù)據(jù),余弦相似度反映了向量之間的余弦值。

通過多維尺度分析將樣本點(diǎn)在二維圖中進(jìn)行表示,通常是根據(jù)兩個(gè)樣本間的直線距離來判斷相似度。很多時(shí)候因?yàn)椴涣私庥脩舻闹饔^判斷標(biāo)準(zhǔn),所以無法解讀坐標(biāo)含義。

線性回歸的5個(gè)假設(shè):1.解釋變量和被解釋變量之間存在線性關(guān)系;2.解釋變量和擾動(dòng)項(xiàng)不能相關(guān);3.解釋變量之間不能強(qiáng)線性相關(guān);4.擾動(dòng)項(xiàng)獨(dú)立同分布;5擾動(dòng)項(xiàng)服從正態(tài)分布

常用的分類變量預(yù)測模型是邏輯回歸模型。

p為發(fā)生概率,p/(p-1)為發(fā)生比Odds

ROC曲線下面積值越接近1,表明模型預(yù)測能力越強(qiáng)。

建立邏輯回歸時(shí),需要對(duì)連續(xù)變量進(jìn)行分箱處理,以此捕獲原始連續(xù)變量和被解釋變量之間非線性關(guān)系、避免異常值的影響。

一般在邏輯回歸中只關(guān)注系數(shù)的正負(fù),一般不看大?。航忉屪兞縓的系數(shù)為負(fù),則X增大會(huì)導(dǎo)致Odds下降,即被解釋變量Y=1的概率下降。

數(shù)據(jù)庫的ER圖包含了表字段信息、 表與表之間關(guān)系的信息、 存儲(chǔ)表的數(shù)據(jù)庫信息

在數(shù)據(jù)庫中調(diào)整字段位置(MODIFY)時(shí)使用的關(guān)鍵詞為 FIRST 和 AFTER 沒有 BEFORE,在使用 ALTER TABLE…MODIFY…語句更改字段屬性或位置時(shí)至少需要指定字段名+字段的數(shù)據(jù)類型

網(wǎng)絡(luò)例題:

回歸分析的第一步是 :確定解釋和被解釋變量

哪個(gè)變量可以反映客戶的忠誠度? :購買頻次

對(duì)客戶的生命周期進(jìn)行分類主要使用:聚類分析

什么方法可以用于檢驗(yàn)信用卡類型和支出是否有關(guān)系? :方差分析

加權(quán)移動(dòng)平均法遵循的一般原則是:近期數(shù)據(jù)權(quán)數(shù)大,遠(yuǎn)期數(shù)據(jù)權(quán)數(shù)小

當(dāng)所有觀測值都落在回歸直線上,則這兩個(gè)變量之間的相關(guān)系數(shù)為 :+1或-1

SPSS中,定義性別變量時(shí),假設(shè)用數(shù)值1表示男,用數(shù)值2表示女,需要使用到的工具是 :變量名標(biāo)簽

甲、乙兩生產(chǎn)小組人均月工資分別為420元和537元,其方差均為80元,則兩小組人均工資的代表性 :甲大于乙

區(qū)間估計(jì)依據(jù)的原理是 :樣本分布理論

excel也可以建立三維圖表

抽取樣本單位的方法:重復(fù)抽樣、不重復(fù)抽樣

在全面調(diào)查和抽樣調(diào)查中都存在的誤差是:登記性誤差、責(zé)任心誤差、技術(shù)性誤差,系統(tǒng)性誤差不是

總體線性關(guān)系的模型可以包含多個(gè)變量

回歸變差(或回歸平方和)是指:被解釋變量的回歸值與平均值的離差平方和、被解釋變量的總變差與剩余變差之差、解釋變量變動(dòng)所引起的被解釋變量的變差

在表格排序時(shí),筆畫和拼音可以作為排序的依據(jù)

EXCEL中“清除”不能刪掉單元格中某些類型的數(shù)據(jù)

平均差的優(yōu)點(diǎn):平均差意義明確,計(jì)算容易;較好的代表了數(shù)據(jù)分布的離散程度;反應(yīng)靈敏

常見的差異量數(shù)有:平均差、方差、百分位數(shù)

利用離均差求積差相關(guān)系數(shù)的方法有:減差法、加差法

計(jì)算積差相關(guān)需滿足:要求成對(duì)的數(shù)據(jù)、兩列變量各自總體的分布都是正態(tài)、兩相關(guān)變量都是連續(xù)變量、兩變量之間的關(guān)系應(yīng)是直線型的

計(jì)算斯皮爾曼等級(jí)相關(guān)可用:等級(jí)差數(shù)法、等級(jí)序數(shù)法

肯德爾 W 系數(shù)計(jì)算的是變量相關(guān)程度,沒有負(fù)數(shù)

質(zhì)量相關(guān)包括:點(diǎn)二相關(guān)、二相關(guān)、多相關(guān)

品質(zhì)相關(guān)主要有:四分相關(guān)、φ相關(guān)、列聯(lián)相關(guān)

相關(guān)分析:分析對(duì)象是相關(guān)關(guān)系、分析方法主要是繪制相關(guān)圖和計(jì)算相關(guān)系數(shù)、

直線回歸方程:建立前提條件是現(xiàn)象之間具有較密切的直線相關(guān)關(guān)系、關(guān)鍵在于確定方程中的參數(shù)a和b、表明兩個(gè)相關(guān)變量間的數(shù)量變動(dòng)關(guān)系、可用來根據(jù)自變量值推算因變量值,并可進(jìn)行回歸預(yù)測

相關(guān)關(guān)系的特點(diǎn)是:現(xiàn)象之間確實(shí)存在數(shù)量上的依存關(guān)系,但是現(xiàn)象之間的數(shù)量依存關(guān)系值是不確定的

現(xiàn)象間的相關(guān)關(guān)系按相關(guān)形式分為:直線相關(guān)、曲線相關(guān)

配合一元線性回歸方程須具備下列前提條件:現(xiàn)象間確實(shí)存在數(shù)量上的相互依存關(guān)系、現(xiàn)象間的關(guān)系是直線關(guān)系,這種直線關(guān)系可用散點(diǎn)圖來表示、具備一組自變量與因變量的對(duì)應(yīng)資料,且能明確哪個(gè)是自變量,哪個(gè)是因變量、兩個(gè)變量之間不是對(duì)等關(guān)系

由直線回歸方程y=a+bx所推算出來的y值也是一個(gè)等差級(jí)數(shù)

依分布函數(shù)的來源,可把概率分布劃分為:經(jīng)驗(yàn)分布、理論分布

χ2分布的特點(diǎn):取值均為正值、分布是正偏態(tài)分布

使用正態(tài)分布表,可以進(jìn)行的計(jì)算:Z 分?jǐn)?shù)與概率、概率與概率密度、Z 值與概率密度

檢驗(yàn)次數(shù)分布是否正態(tài)的方法有:皮爾遜偏態(tài)量數(shù)法、累加次數(shù)曲線法、峰度偏度檢驗(yàn)法、直方圖法

二項(xiàng)分布

樣本平均數(shù)的分布為正態(tài)分布的條件:總體方差已知

F 分布特點(diǎn):是一個(gè)正偏態(tài)分布、為正值、當(dāng)組間自由度為1時(shí), F檢驗(yàn)與t檢驗(yàn)的結(jié)果相同

標(biāo)準(zhǔn)分?jǐn)?shù)(z-score)的優(yōu)點(diǎn):可比性、可加性、明確性、穩(wěn)定性

單側(cè)檢驗(yàn)與雙側(cè)檢驗(yàn)的區(qū)別包括:問題的提法不同、建立假設(shè)的形式不同、否定域不同

關(guān)于SQL語句,聯(lián)合查詢使用的關(guān)鍵字是:UNION

積差相關(guān)系數(shù)

趨勢方程

時(shí)間每增加一個(gè)單位,Y平均減少1.2個(gè)單位
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容