數(shù)學(xué)建模系列筆記6:聚類和判別分析

@[toc]

6-1-1 模糊聚類

原理簡(jiǎn)介:現(xiàn)實(shí)中的數(shù)學(xué)模型可以分為三大類:確定性數(shù)學(xué)模型、隨機(jī)性數(shù)學(xué)模型、模糊性模型,模糊數(shù)學(xué)正是研究帶有模糊性問題的方法,只要定義了隸屬函數(shù),有了隸屬度,就可以對(duì)樣本進(jìn)行模糊識(shí)別和模糊聚類。

定義:設(shè)R = (r_{ij})_{n\times n}是n階模糊方陣,I是n階單位方陣,若R滿足:

  1. 自反性:I\leq R

  2. 對(duì)稱性:R^T = R

  3. 傳遞性:R^2 \leq R( \Leftrightarrow max\{r_{ik}\wedge r_{kj}|1\leq k\leq n\}\leq r_{ij})

    則稱R為模糊等價(jià)矩陣。

定理:設(shè)R是n階模糊等價(jià)矩陣,則\forall 0 \leq \lambda < \mu \leq 1,R_{\mu}所決定的分類中的每一個(gè)類是R_{\lambda}所決定的分類中的某個(gè)子類。

該定理表明,當(dāng)\lambda < \mu時(shí),R_{\mu}的分類是R_{\lambda}分類的加細(xì),當(dāng)\lambda由1變到0時(shí),R_{\lambda}的分類由細(xì)到粗,形成一個(gè)動(dòng)態(tài)的聚類圖。

模糊聚類的一般流程

  1. 建立數(shù)據(jù)矩陣,并標(biāo)準(zhǔn)化(去量綱)
  2. 建立模糊相似矩陣
  3. 求出傳遞閉包矩陣,根據(jù)傳遞閉包矩陣計(jì)算\lambda截矩陣,根據(jù)\lambda截矩陣進(jìn)行模糊聚類,根據(jù)模糊聚類結(jié)果畫出聚類圖

模糊聚類的詳細(xì)步驟

  1. 建立數(shù)據(jù)矩陣

    設(shè)論域U = \{x_1,x_2,…,x_n\}為被分類對(duì)象(樣本),每個(gè)對(duì)象又由m個(gè)指標(biāo)表示其形狀:x_i = \{x_{i1},x_{i2},…,x_{im}\},i=1,2,…,n,則得到原始數(shù)據(jù)矩陣為X = (x_{ij})_{n \times m}

  2. 對(duì)數(shù)據(jù)矩陣進(jìn)行標(biāo)準(zhǔn)化

  3. 建立模糊相似矩陣

    建立x_ix_j相似程度r_{ij} = R(x_i,x_j)的方法主要有:

    • 相似系數(shù)法

      • 夾角余弦法
        r_{ij} = \frac{\sum_{k=1}^mx_{ik}x_{jk}}{\sqrt{\sum_{k=1}^mx_{ik}^2\sum_{k=1}^mx_{jk}^2}}

      • 相關(guān)系數(shù)法

    • 距離法

      一般地,取r_{ij} = 1-c(d(x_i,x_j))^{\alpha},其中c,\alpha為適當(dāng)選取的參數(shù),它使得0\leq r_{ij}\leq 1,采用的距離有

      • Hamming距離
        d(x_i,x_j) = \sum_{k=1}^m |x_{ik}=x_{jk}|

      • Euclid距離
        d(x_i,d_j) = \sqrt{ \sum_{i=1}^m (x_{ik}-x_{jk})^2 }

      • Chebysgev距離
        d(x_i,x_j) = max_{1\leq k \leq n}|x_{ik}-x_{jk}|

    • 貼近度法

      • 最大最小法
        r_{ij} =\frac{\sum_{k=1}^m (x_{ik}\wedge x_{jk})}{\sum_{k=1}^m(x_{ik}\vee x_{jk})}

      • 算術(shù)平均最小法
        r_{ij} =\frac{\sum_{k=1}^m (x_{ik}\wedge x_{jk})}{\frac{1}{2}\sum_{k=1}^m(x_{ik}+ x_{jk})}

      • 幾何平均最小法
        r_{ij} =\frac{\sum_{k=1}^m (x_{ik}\wedge x_{jk})}{\sum_{k=1}^m\sqrt{x_{ik}· x_{jk}}}

  4. 聚類

    1. 利用模糊傳遞閉包法,先求出模糊自相似矩陣R的傳遞閉包t(R);
    2. \lambda由大到小進(jìn)行聚類;
    3. 畫出動(dòng)態(tài)聚類圖。

6-1-2 模糊聚類:精準(zhǔn)扶貧

6-2 系統(tǒng)聚類分析

聚類分析:群分析,它是研究聚類問題的一種多元統(tǒng)計(jì)方法。

將相似元素聚為一類,通常選取元素的許多共同指標(biāo),然后通過分析元素的指標(biāo)值來分辨元素間的差距,從而達(dá)到聚類的目的。

聚類分析分為Q型(樣品聚類)聚類、R型(指標(biāo)聚類)聚類。

聚類分析步驟:

  1. 確定聚類類型

  2. 數(shù)據(jù)預(yù)處理:為了使不同量綱的量能進(jìn)行比較,需要將數(shù)據(jù)規(guī)格化

  3. 研究樣品之間的關(guān)系

  4. 研究類與類之間的關(guān)系

    • 最短距離法
      d(G_1,G_2) = min_{x_i \in G_1,x_j \in G_2}\{d(x_i,x_j)\}

    • 最長(zhǎng)距離法
      d(G_1,G_2) = max_{x_i \in G_1,x_j \in G_2}\{d(x_i,x_j)\}

    • 重心法
      d(G_1,G_2) = \{d(\bar{x},\bar{y})\}

系統(tǒng)聚類分析聚類數(shù)的確定:

  1. 可根據(jù)經(jīng)驗(yàn)確定聚類數(shù)
  2. 聚類后,可以通過計(jì)算統(tǒng)計(jì)量(比如均值)或不一致系數(shù),來確定聚類數(shù)

6-3 動(dòng)態(tài)聚類分析

系統(tǒng)聚類法:優(yōu)點(diǎn)是聚類比較準(zhǔn)確,缺點(diǎn)是聚類的次數(shù)較多,每聚類一次只能減少一類或若干類,每一次都需要計(jì)算兩兩樣品或小類之間的距離或其他相似性統(tǒng)計(jì)量,做起來較麻煩。

對(duì)于海量數(shù)據(jù),幾乎難以實(shí)現(xiàn)聚類。動(dòng)態(tài)聚類法對(duì)于容量較大的樣本聚類會(huì)比較方便。

方法理論簡(jiǎn)介:

  1. 先確定若干個(gè)樣品為初始凝聚點(diǎn),計(jì)算各樣品與凝聚點(diǎn)的距離或其他相似性統(tǒng)計(jì)量,進(jìn)行初始聚類后再根據(jù)初始聚類計(jì)算各類的重心作為新的凝聚點(diǎn),進(jìn)行第二次聚類,并且重復(fù)多次,直到符合某一最優(yōu)原則為止。

    又稱逐步聚類法,關(guān)鍵是凝聚點(diǎn)的選擇及聚類結(jié)果的跳著,常用的方法有成批調(diào)整法與離差平方和法。

  2. 成批調(diào)整法(k-means法)

總結(jié)與體會(huì)

  • k均值方法對(duì)初始點(diǎn)敏感
  • k均值方法的計(jì)算比較耗時(shí)

6-4 模糊模式識(shí)別

  • 模式識(shí)別的本質(zhì)特征:一是事先已知若干標(biāo)準(zhǔn)模式,稱為標(biāo)準(zhǔn)模式庫;二是有待識(shí)別的對(duì)象。
  • 所謂模糊模式識(shí)別,是指在模式識(shí)別中,模式是模糊的,或有待識(shí)別的對(duì)象是模糊的。

模式識(shí)別數(shù)學(xué)原理

最大隸屬原則|:設(shè)A_1,A_2,…,A_m為給定的論域U上的m個(gè)模糊模式,x_0 \in U為一個(gè)待識(shí)別對(duì)象,若A_i(x_0) = max\{A_1(x_0),A_2(x_0),…,A_m(x_0)\},則認(rèn)為x_0優(yōu)先歸屬于模糊模式A_i。

最大隸屬原則||:設(shè)A為給定論域U上的一個(gè)模糊模式,x_1,x_2,…,x_n為U中的n個(gè)待識(shí)別對(duì)象,若A(x_i) = max\{A(x_1),A(x_2),…,A(x_n)\},則認(rèn)為模糊模式A應(yīng)優(yōu)先錄取x_i。

閾值原則:設(shè)A_1,A_2,…,A_m為給定論域U上的m個(gè)模糊模式,規(guī)定一個(gè)閾值\lambda \in [0,1],x_0 \in U為一個(gè)待識(shí)別對(duì)象。

  1. 如果max\{A_1(x_0),A_2(x_0),…,A_m(x_0)\}<\lambda,則作“拒絕識(shí)別”的判決,這時(shí)應(yīng)查找原因,再做分析。
  2. 如果max\{A_1(x_0),A_2(x_0),…,A_m(x_0)\}\geq\lambda,并且有k個(gè)模糊模式A_{i_1}(x_0),A_{i_2}(x_0),…,A_{i_k}(x_0)大于或等于\lambda,則認(rèn)為識(shí)別可行,并將x_0劃歸于max\{A_{i_1},A_{i_2},…,A_{i_k}\}

擇近原則:

貼近度:\sigma(A,B)表示兩個(gè)模糊集A,B之間的貼近程度

格貼近度:\sigma_0(A,B) = \frac{1}{2}[A\circ B] + (1-A\odot B)]

其中:A\circ B = max\{A(x) \wedge B(x) \}表示兩個(gè)模糊集A,B的內(nèi)積

        $A\odot B = min \{A(x) \vee B(x)\}$表示兩個(gè)模糊集A,B的外積

定義(公理化定義)若(A,B)滿足

  1. \sigma(A,A) = 1

  2. \sigma(A,B) = \sigma(B,A)

  3. 若有A \leq B \leq C,則\sigma (A,C) \leq \sigma(A,B) \leq \sigma (B,C).

    則稱\sigma(A,B)為A與B的貼近度。

模糊模式識(shí)別可以廣泛被運(yùn)用到模糊識(shí)別的各個(gè)方面,使用時(shí)最基本的是要建立評(píng)價(jià)模式和被評(píng)價(jià)對(duì)象的恰當(dāng)指標(biāo),其次才是運(yùn)用各類識(shí)別原則,對(duì)被評(píng)價(jià)對(duì)象進(jìn)行模式識(shí)別。

6-5-1 貝葉斯判別

為了能識(shí)別待判斷的對(duì)象x= (x_1,x_2,…,x_m)^T是屬于已知類A_1,A_2,…,A_r中的哪一類,需要有一個(gè)一般規(guī)則做出判斷,這樣一個(gè)規(guī)則為判別規(guī)則(用于衡量待判別對(duì)象與各已知類別接近程度的方法準(zhǔn)則)

判別分析的假設(shè)條件:

  1. 各個(gè)判別變量服從正態(tài)分布,由各個(gè)判別變量的聯(lián)合分布是多元正態(tài)分布
  2. 各判別變量不能存在多重共線性,每個(gè)變量在各類中的取值應(yīng)存在顯著性差異

方法理論簡(jiǎn)介:

假設(shè)對(duì)所研究的對(duì)象有了一定的認(rèn)識(shí),重新計(jì)算樣品屬于各總體的條件概率:
f(g|x) (g=1,2,…,k)
比較這k各概率大小,然后將新樣本判歸為來自后驗(yàn)概率最大的總體。

Bayes判別法的基本思想

在觀測(cè)一個(gè)樣品x的情況下,可用Bayes公式計(jì)算它來自第g總體的后驗(yàn)概率
p(g|x) = \frac{q_j f_j(x)}{\sum_{i=1}^k q_j f_j},j = 1,2,…,k

  1. 計(jì)算各類變量的均值以及均值向量,各變量的總均值及均值向量;
  2. 計(jì)算類內(nèi)協(xié)方差矩陣及其逆矩陣;
  3. 計(jì)算Bayes判別函數(shù)中,各個(gè)變量的系數(shù)及常數(shù)項(xiàng)并寫出判別函數(shù);
  4. 計(jì)算類內(nèi)協(xié)方差矩陣及總各協(xié)方差矩陣,作多個(gè)變量的全體判別效果的檢驗(yàn);
  5. 各個(gè)變量的判別能力的檢驗(yàn);
  6. 判別新樣本應(yīng)屬于的類別。

在得到樣本后,首先可以根據(jù)樣本信息修正之前所獲得的先驗(yàn)概率分布,進(jìn)一步獲得后驗(yàn)概率分布,之后可以通過新的后驗(yàn)概率分布進(jìn)行各種統(tǒng)計(jì)推斷。

一種好的判別方法,一定要考慮到每個(gè)總體出現(xiàn)的先驗(yàn)概率,同時(shí)能夠?qū)φ`判所出現(xiàn)的損失進(jìn)行評(píng)估。貝葉斯判別法就具備上述優(yōu)點(diǎn)。

6-5-2 貝葉斯判別:醫(yī)療診斷模型

樣本空間的劃分

定義:設(shè)S為試驗(yàn)E的樣本空間,B_1,B_2,…,B_n為E的一組事件,若

  1. B_iB_j = \varnothing, i \ne j, i,j = 1,2,…,n;

  2. B_1 \cup B_2 \cup …\cup B_n = S.

    則稱B_1,B_2,…,B_n為樣本空間S的一個(gè)劃分。

全概率公式

試驗(yàn)E的樣本空間為S,A為E的事件,B_1,B_2,…,B_n為S的一個(gè)劃分,且P(B_i)>0(i=1,2,…,n),則
P(A) = \sum_{i=1}^n P(A|B_i)P(B_i)
貝葉斯公式
P(B_i|A) = \frac{P(B_iA)}{P(A)} = \frac{P(A|B_i)P(B_i)}{\sum_{j=1}^n P(A|B_j)P(B_j)},i = 1,2,…,n
貝葉斯判別的理論基礎(chǔ)

G_1,G_2—p維總體,密度f_(x),f_2(x),各總體先驗(yàn)概率p_1 = P(G_1),p_2 = P(G_2),p_1 + p_2 = 1.

樣品x = (x_1,x_2,…,x_p)^T屬于G1,G2的后驗(yàn)概率為
P(G_1|x) = \frac{p_1 f_1(x)}{p_1f_1(x)+p_2f_2(x)},P(G_2|x) = \frac{p_2 f_2(x)}{p_1f_1(x)+p_2f_2(x)}
兩個(gè)總體的Bayes判別準(zhǔn)則
x \in G_1,P(G_1|x)\geq P(G_2|x) p_1f_1(x)\geq p_2f_2(x)\\ x \in G_2,P(G_1|x)< P(G_2|x) p_1f_1(x)< p_2f_2(x)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容