熟女少妇一区二区三区,日韩av伦理

在實(shí)際工作中，對(duì)于剛接手的數(shù)據(jù)集，在正式處理需求前，除了需要梳理清楚數(shù)據(jù)上報(bào)及轉(zhuǎn)發(fā)環(huán)節(jié)，還需要對(duì)數(shù)據(jù)集進(jìn)行質(zhì)量評(píng)估和了解數(shù)據(jù)集的描述性統(tǒng)計(jì)特征。在很多公司里，數(shù)據(jù)分析師「觸手可及」的便是數(shù)據(jù)開(kāi)發(fā)工程師處理過(guò)后的數(shù)據(jù)，在上述環(huán)節(jié)中，分析師尤其需要重點(diǎn)關(guān)注數(shù)據(jù)集的描述性統(tǒng)計(jì)特征，了解不同類(lèi)型的數(shù)據(jù)的集中、離散和分布程度，以便在業(yè)務(wù)提數(shù)時(shí)，補(bǔ)充合理的篩選條件，避免計(jì)算出來(lái)的指標(biāo)有誤導(dǎo)性。

數(shù)據(jù)描述的三個(gè)維度

所有的結(jié)構(gòu)化數(shù)據(jù)都可以從三個(gè)維度進(jìn)行描述，這三個(gè)維度就是：

數(shù)據(jù)的集中趨勢(shì)描述：算數(shù)平均值，加權(quán)平均值，調(diào)和平均值，幾何平均值，眾數(shù)，中位數(shù)
數(shù)據(jù)的離散程度描述：全距，平均差，總體方差和標(biāo)準(zhǔn)差，樣本方差和標(biāo)準(zhǔn)差，離散洗漱，四分位極差和四分位差
數(shù)據(jù)的分布形態(tài)描述：峰度與偏度，概率及概率分布，二項(xiàng)概率分布，多項(xiàng)概率分布，泊松概率分布，指數(shù)概率分布，正態(tài)概率分布

數(shù)據(jù)的集中趨勢(shì)描述

尋找反映數(shù)據(jù)集某一特征的代表值或中心值，表明所研究的對(duì)象在一定的條件下的共同性質(zhì)和一般水平。

1）平均值

算術(shù)平均值
概念：將數(shù)據(jù)集合的所有數(shù)據(jù)值相加的和除以數(shù)據(jù)值的個(gè)數(shù)就能得到簡(jiǎn)單算術(shù)平均值。
應(yīng)用：當(dāng)數(shù)據(jù)集合中有極大值或極小值存在時(shí)，會(huì)對(duì)算術(shù)平均值產(chǎn)生很大的影響，計(jì)算結(jié)果會(huì)掩蓋數(shù)據(jù)集合的真實(shí)特征。
$\bar x = \frac{x_1+x_2+x_3+...+x_n}{n}$
加權(quán)算術(shù)平均值
概念：將各數(shù)值乘以相應(yīng)的權(quán)重值，然后加總求和得到總體值，再除以總的數(shù)據(jù)值個(gè)數(shù)。
應(yīng)用：計(jì)算前需要設(shè)定好各數(shù)據(jù)值的權(quán)重，可是由「專(zhuān)家」根據(jù)具體業(yè)務(wù)設(shè)置，也可以根據(jù)各數(shù)據(jù)值的分布占比進(jìn)行設(shè)定。

$m = \frac{f_1\bar x_1+f_2\bar x_2 + ... + f_n\bar x_n}{f_1+f_2+...+f_n}$

幾何平均值
概念：有些數(shù)據(jù)之間的關(guān)系不是相加減關(guān)系，而是乘除關(guān)系，此時(shí)該用幾何平均值來(lái)表示由這樣的數(shù)值組成數(shù)據(jù)集合的集中趨勢(shì)。
應(yīng)用案例：銀行的平均存款利率、汽車(chē)工廠(chǎng)每條生產(chǎn)線(xiàn)的平均產(chǎn)品合格率，由于生產(chǎn)工藝是連續(xù)型生產(chǎn)，只有上一道工序的合格品才能進(jìn)入下一道工序中，所以每道工序的合格率之間是乘積關(guān)系。假設(shè)每道工序的產(chǎn)品合格率分別是 85%、97%、94% 和 92%，求這條生產(chǎn)線(xiàn)的平均產(chǎn)品合格率。

$\bar x_j = \sqrt[n]{x_1x_2...x_n}$

2）中位數(shù)

概念：對(duì)于數(shù)據(jù)集合，將所有的數(shù)值按照它們的大小，從高到低進(jìn)行排序，如果數(shù)據(jù)集合包含的數(shù)值個(gè)數(shù)是奇數(shù)，那么排在最中間的數(shù)值就是該數(shù)據(jù)集合的中位數(shù)，如果數(shù)據(jù)集合的數(shù)值為偶數(shù)，那么取最中間兩個(gè)數(shù)值的算術(shù)平均值作為中位數(shù)。
應(yīng)用：中位數(shù)能夠避免數(shù)據(jù)的平均水平受到異常值的影響，因此在做數(shù)據(jù)分析時(shí)，不僅要計(jì)算算數(shù)平均數(shù)，也計(jì)算中位數(shù)，若兩個(gè)數(shù)字差距很大，就用中位數(shù)作為平均數(shù)。

3）眾數(shù)

概念：數(shù)據(jù)集合中出現(xiàn)次數(shù)最多的數(shù)值。
應(yīng)用：眾數(shù)真正的價(jià)值在于類(lèi)別型數(shù)據(jù)，用于統(tǒng)計(jì)各類(lèi)別的數(shù)量。

數(shù)據(jù)的離散程度描述

1）極差

概念：數(shù)據(jù)集合中最大值與最小值的差值，表示整個(gè)數(shù)據(jù)集合能夠覆蓋的數(shù)值距離。
應(yīng)用：極差雖能表示數(shù)據(jù)集合的波動(dòng)大小，但沒(méi)有提供兩個(gè)極值以外的數(shù)值的信息，且對(duì)極值非常敏感，不太可靠，需要結(jié)合其他離散程度描述指標(biāo)來(lái)描述數(shù)據(jù)集合的離散程度。

$R = R_{max} - R_{min}$

2）平均偏差

概念：數(shù)據(jù)集合的所有數(shù)值與平均值的偏差（取絕對(duì)值）之和，除以數(shù)值個(gè)數(shù)。

$R_a = \frac{\sum_{i=1}^{n}|x_i-\bar x|}{n}$

3）方差和標(biāo)準(zhǔn)差

概念：描述數(shù)值與均值的偏離程度的指標(biāo)。方差是各個(gè)數(shù)據(jù)分別與其平均數(shù)之差的平方的和的平均數(shù)。而標(biāo)準(zhǔn)差則是方差的算術(shù)平方根。
應(yīng)用：方差/標(biāo)準(zhǔn)差值越大，代表大部分?jǐn)?shù)值和其平均值之間的差異較大，數(shù)據(jù)離散程度也就越大。在處理風(fēng)險(xiǎn)評(píng)估模型時(shí)，一個(gè)數(shù)據(jù)的波動(dòng)性，說(shuō)明它涵蓋的信息量越大，信息量越大，不可知的因素越多，因此風(fēng)險(xiǎn)會(huì)更大。

$\sigma^2 = \frac{\sum_{i=1}^{N}(x_i - \mu)^2}{N}$

$\sigma = \sqrt[2]{\frac{\sum_{i=1}^{N}(x_i-\mu)^2}{N}}$

4）樣本方差和標(biāo)準(zhǔn)差

概念：從數(shù)據(jù)總體中隨機(jī)抽取一定數(shù)量的樣本數(shù)值，然后用樣本數(shù)值的方差和標(biāo)準(zhǔn)差來(lái)估計(jì)總體的方差和標(biāo)準(zhǔn)差。

$s^2 = \frac{\sum_{i=1}^{n}(x_i-\bar x)^2}{n-1}$

總體方差公式的分母就是數(shù)據(jù)集合的總數(shù)量 N，而樣本方差公式的分母卻是 n-1，即抽取樣本量 n 減去 1。主要是因?yàn)橛脴颖痉讲罟烙?jì)總體方差總有一定的偏差所在。

5）變異系數(shù)

概念：數(shù)據(jù)集合的標(biāo)準(zhǔn)差與算術(shù)平均值的比值。
應(yīng)用：無(wú)單位指標(biāo)，不僅可以說(shuō)明同類(lèi)事物的相對(duì)離散程度，也可以說(shuō)明不同類(lèi)型事物的相對(duì)離散程度。

6）四分位極差

概念：對(duì)于數(shù)據(jù)集合，將所有的數(shù)值按照它們的大小，從高到低進(jìn)行排序，排在四分之一位置的數(shù)值即為第一四分位數(shù) Q1，以此類(lèi)推，分別有有第二、三、四四分位數(shù)，Q2，Q3，Q4。四分位極差等于第一四分位數(shù)與第三四分位數(shù)的差值（Q3-Q1），這個(gè)差值區(qū)間包含了整個(gè)數(shù)據(jù)集合 50% 的數(shù)據(jù)值。

數(shù)據(jù)的分布形態(tài)描述

概率
概念：度量隨機(jī)事件中某一個(gè)結(jié)果發(fā)生的可能性大小的數(shù)值。

1）古典概率法：事件結(jié)果數(shù)目已知，且每種結(jié)果對(duì)應(yīng)的發(fā)生概率相等。
2）統(tǒng)計(jì)概率法：需要統(tǒng)計(jì)過(guò)往事件發(fā)生的結(jié)果頻數(shù)來(lái)確定。
3）主觀概率法：分析者對(duì)預(yù)測(cè)事件發(fā)生的概率做出主觀估計(jì)。

概率分布
概率分布是指事件的不同結(jié)果對(duì)應(yīng)的發(fā)生概率所構(gòu)成的分布，可以利用二維坐標(biāo)進(jìn)行形象的解釋。

離散型概率分布的概率函數(shù)被稱(chēng)為概率質(zhì)量函數(shù)，對(duì)應(yīng)的 Y 軸表示某事件結(jié)果出現(xiàn)的概率。
連續(xù)型概率分布對(duì)應(yīng)的 Y 軸表示某結(jié)果的概率密度，X 軸任意一點(diǎn)，它對(duì)應(yīng)的概率為 0，需要從 X 軸取某一段區(qū)間的積分面積得到事件的發(fā)生概率。

離散型概率分布

1）二項(xiàng)/多項(xiàng)分布

二項(xiàng)分布的試驗(yàn)結(jié)果只有兩個(gè)（成功和失敗，0 和 1），而多項(xiàng)分布的試驗(yàn)結(jié)果則多于兩個(gè)，多項(xiàng)分布試驗(yàn)的特點(diǎn)如下：

每次試驗(yàn)有兩種或多種可能的結(jié)果，但是每種結(jié)果只會(huì)出現(xiàn)一個(gè)；
每次結(jié)果都有各自發(fā)生的概率，所有結(jié)果的發(fā)生概率之和為 1；
每次試驗(yàn)相互獨(dú)立，每次試驗(yàn)結(jié)果都不受其他各次試驗(yàn)結(jié)果的影響（放回抽樣）。

假設(shè)某個(gè)多項(xiàng)分布試驗(yàn)有 k 個(gè)結(jié)果，每種結(jié)果發(fā)生的概率分別為 p1，p2…，pk（概率之和為 1）現(xiàn)在進(jìn)行 n 次多項(xiàng)分布試驗(yàn)，假設(shè)觀測(cè)結(jié)果為 a1 的次數(shù)為 x1 次，結(jié)果為 a2 的次數(shù)為 x2 次，…，結(jié)果為 ak 的次數(shù)為 xk（n=x1+x2+…+xk），多么多項(xiàng)分布的聯(lián)合概率函數(shù)為：

$P(X_1 = x_1, X_2=x_2, …, X_k=x_k)=\frac{n!}{x_1!x_2!…x_k!}p_1^{x_1}p_2^{x_2}…p_k^{x_k}$

而二項(xiàng)分布中，只有 $p_1$ 和 $1-p_1$ （記為 q）兩種概率，因此二項(xiàng)分布的概率函數(shù)為：
$P(X=x_1) = C^{x_1}_np^{x_1}q^{n-{x_1}}=\frac{n!}{x_1!(n-x_1)!}p^{x_1}q^{n-x_1}$

上述公式里，P(X=x) 表示特定事件的概率，在實(shí)際工作中，常結(jié)合數(shù)學(xué)期望一起使用。

數(shù)學(xué)期望

數(shù)學(xué)期望是對(duì)隨機(jī)變量中心位置的一種度量，是試驗(yàn)中每次可能結(jié)果的乘以其結(jié)果的總和。

$E(x) = \sum_{i=1}^{k} n_ip_i$

假設(shè)一等獎(jiǎng)成本 1000 元，二等獎(jiǎng)成本 500 元，三等獎(jiǎng)成本 100 元，歡迎下次再來(lái)當(dāng)然沒(méi)錢(qián)，而用戶(hù)參加一次抽獎(jiǎng)需要 10 元。我們將概率問(wèn)題轉(zhuǎn)換成運(yùn)營(yíng)方的收益和成本計(jì)算期望

下面從公司角度分析活動(dòng)的盈虧成本：

	一等獎(jiǎng)	二等獎(jiǎng)	三等獎(jiǎng)	歡迎下次再來(lái)
A 方案盈虧結(jié)果	10-1000	10-500	10-100	10
P(X=x)	5%	10%	20%	65%
B 方案盈虧結(jié)果	10-1000	10-500	10-100	10
P(X=x)	10%	10%	10%	70%

A 方案的數(shù)學(xué)期望：

$E(x)=(-990*5\%)+(-490*10\%)+(-90*20\%)+(10*65\%) = -110$

B 方案的數(shù)學(xué)期望：

$E(x)=(-990*10\%)+(-450*10\%)+(-90*10\%)+(10*70\%)=-150$

A 方案能否期望沒(méi)抽獎(jiǎng)運(yùn)營(yíng)方虧損 110 元，B 方案則是虧損 150 元。

而從用戶(hù)的角度分析活動(dòng)的收益成本：

	一等獎(jiǎng)	二等獎(jiǎng)	三等獎(jiǎng)	歡迎下次再來(lái)
A 方案收益結(jié)果	1000-10	500-10	100-10	-10
P(X=x)	5%	10%	20%	65%
B 方案收益結(jié)果	1000-10	500-10	100-10	-10
P(X=x)	10%	10%	10%	70%

A 方案的數(shù)學(xué)期望：

$E(x)=(990*5\%)+(490*10\%)+(90*20\%)+(-10*65\%)=110$
B 方案的數(shù)學(xué)期望：

$E(x)=(990*10\%)+(490*10\%)+(90*10\%)+(-10*70\%)=150$

2）超幾何分布

在二項(xiàng)/多項(xiàng)分布試驗(yàn)中，每次試驗(yàn)結(jié)果的發(fā)生概率是不變的，而超幾何分布試驗(yàn)結(jié)果的概率會(huì)隨著每一次試驗(yàn)的發(fā)生而改變（無(wú)放回抽樣）。

若樣本容量 n = 1，即從有限總體中只抽取一個(gè)個(gè)案，且恰好抽到符合要求個(gè)案的概率，那超幾何分布可以還原成二項(xiàng)分布
如果數(shù)據(jù)總體的容量 N 無(wú)窮大，或是樣本容量的 10 倍以上，即 N>=10n，也可以將二項(xiàng)分布近似描述超幾何分布

假設(shè)有限數(shù)據(jù)總體包含 N 個(gè)數(shù)值，其中符合要求的個(gè)案數(shù)量為 m 個(gè)，如果從該數(shù)據(jù)總體中抽取 n 個(gè)個(gè)案，其中有 k 個(gè)是符合要求個(gè)案的概率計(jì)算公式為：

$f(k;n,m,N)=\frac{C_m^{k}C_{N-m}^{n-k}}{C_N^{n}}$

3）泊松分布

基于過(guò)去某個(gè)隨機(jī)事件在單位時(shí)間內(nèi)的平均發(fā)生次數(shù)，預(yù)測(cè)該隨機(jī)事件在未來(lái)同樣單位時(shí)間內(nèi)發(fā)生不同次數(shù)的的概率。

$P(X=k)=C_n^k(\frac{\lambda}{n})^k(1-\frac{\lambda}{n})^{(n-k)}=\frac{e^{-\lambda}\lambda^{k}}{k!}$

連續(xù)型概率分布

1）指數(shù)分布

根據(jù)隨機(jī)事件發(fā)生一次的平均等待時(shí)間來(lái)推斷某個(gè)時(shí)間段內(nèi)，隨機(jī)事件發(fā)生的概率。

2）均勻分布

是古典概率分布的連續(xù)形式，是指隨機(jī)事件的可能結(jié)果是連續(xù)型數(shù)據(jù)變量，但所有的變量對(duì)應(yīng)的概率都相等。

3）正態(tài)分布

正態(tài)分布的數(shù)據(jù)特點(diǎn)：

集中性：正態(tài)曲線(xiàn)的高峰位于正中央，即均數(shù)所在的位置。
對(duì)稱(chēng)性：正態(tài)曲線(xiàn)以均數(shù)為中心，左右對(duì)稱(chēng)，曲線(xiàn)兩端永遠(yuǎn)不與橫軸相交。
均勻變動(dòng)性：正態(tài)曲線(xiàn)由均數(shù)所在處開(kāi)始，分別向左右兩側(cè)逐漸均勻下降。 68% 的數(shù)值位于平均值一個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)，95% 的數(shù)值在平均值兩個(gè)標(biāo)準(zhǔn)差的范圍內(nèi)。
正態(tài)分布有兩個(gè)參數(shù)，即均數(shù)μ和標(biāo)準(zhǔn)差σ，可記作N（μ，σ）：均數(shù) μ 決定正態(tài)曲線(xiàn)的中心位置；標(biāo)準(zhǔn)差 σ 決定正態(tài)曲線(xiàn)的陡峭或扁平程度。σ 越小，曲線(xiàn)越陡峭；σ越大，曲線(xiàn)越扁平。

偏態(tài)分布的數(shù)據(jù)有什么特點(diǎn)？

正偏態(tài)（右偏）分布：曲線(xiàn)右側(cè)偏長(zhǎng)，左側(cè)偏短，M>Me>Mo，即平均數(shù)大于中數(shù)中數(shù)又大于眾數(shù)，則數(shù)據(jù)的分布是屬于正偏態(tài)分布。

image
負(fù)偏態(tài)（左偏）分布：曲線(xiàn)左側(cè)偏長(zhǎng)，右側(cè)偏短，M<Me<Mo，即平均數(shù)小于中數(shù)，中數(shù)又小于眾數(shù)，則數(shù)據(jù)的分布是屬于負(fù)偏態(tài)分布。

image

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

數(shù)據(jù)的描述性統(tǒng)計(jì)

數(shù)據(jù)的描述性統(tǒng)計(jì)

數(shù)據(jù)描述的三個(gè)維度

數(shù)據(jù)的集中趨勢(shì)描述

1）平均值

2）中位數(shù)

3）眾數(shù)

數(shù)據(jù)的離散程度描述

1）極差

2）平均偏差

3）方差和標(biāo)準(zhǔn)差

4）樣本方差和標(biāo)準(zhǔn)差

5）變異系數(shù)

6）四分位極差

數(shù)據(jù)的分布形態(tài)描述

離散型概率分布

1）二項(xiàng)/多項(xiàng)分布

2）超幾何分布

3）泊松分布

連續(xù)型概率分布

1）指數(shù)分布

2）均勻分布

3）正態(tài)分布

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

數(shù)據(jù)的描述性統(tǒng)計(jì)

數(shù)據(jù)描述的三個(gè)維度

數(shù)據(jù)的集中趨勢(shì)描述

1）平均值

2）中位數(shù)

3）眾數(shù)

數(shù)據(jù)的離散程度描述

1）極差

2）平均偏差

3）方差和標(biāo)準(zhǔn)差

4）樣本方差和標(biāo)準(zhǔn)差

5）變異系數(shù)

6）四分位極差

數(shù)據(jù)的分布形態(tài)描述

離散型概率分布

1）二項(xiàng)/多項(xiàng)分布

2）超幾何分布

3）泊松分布

連續(xù)型概率分布

1）指數(shù)分布

2）均勻分布

3）正態(tài)分布

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av