@[toc]
6-1-1 模糊聚類
原理簡(jiǎn)介:現(xiàn)實(shí)中的數(shù)學(xué)模型可以分為三大類:確定性數(shù)學(xué)模型、隨機(jī)性數(shù)學(xué)模型、模糊性模型,模糊數(shù)學(xué)正是研究帶有模糊性問題的方法,只要定義了隸屬函數(shù),有了隸屬度,就可以對(duì)樣本進(jìn)行模糊識(shí)別和模糊聚類。
定義:設(shè)是n階模糊方陣,I是n階單位方陣,若R滿足:
自反性:
對(duì)稱性:
-
傳遞性:
則稱R為模糊等價(jià)矩陣。
定理:設(shè)R是n階模糊等價(jià)矩陣,則所決定的分類中的每一個(gè)類是
所決定的分類中的某個(gè)子類。
該定理表明,當(dāng)時(shí),
的分類是
分類的加細(xì),當(dāng)
由1變到0時(shí),
的分類由細(xì)到粗,形成一個(gè)動(dòng)態(tài)的聚類圖。
模糊聚類的一般流程
- 建立數(shù)據(jù)矩陣,并標(biāo)準(zhǔn)化(去量綱)
- 建立模糊相似矩陣
- 求出傳遞閉包矩陣,根據(jù)傳遞閉包矩陣計(jì)算
截矩陣,根據(jù)
截矩陣進(jìn)行模糊聚類,根據(jù)模糊聚類結(jié)果畫出聚類圖
模糊聚類的詳細(xì)步驟
-
建立數(shù)據(jù)矩陣
設(shè)論域
為被分類對(duì)象(樣本),每個(gè)對(duì)象又由m個(gè)指標(biāo)表示其形狀:
,則得到原始數(shù)據(jù)矩陣為
對(duì)數(shù)據(jù)矩陣進(jìn)行標(biāo)準(zhǔn)化
-
建立模糊相似矩陣
建立
與
相似程度
的方法主要有:
-
相似系數(shù)法
夾角余弦法
相關(guān)系數(shù)法
-
距離法
一般地,取
,其中
為適當(dāng)選取的參數(shù),它使得
,采用的距離有
Hamming距離
Euclid距離
Chebysgev距離
-
貼近度法
最大最小法
算術(shù)平均最小法
幾何平均最小法
-
-
聚類
- 利用模糊傳遞閉包法,先求出模糊自相似矩陣R的傳遞閉包
;
- 按
由大到小進(jìn)行聚類;
- 畫出動(dòng)態(tài)聚類圖。
- 利用模糊傳遞閉包法,先求出模糊自相似矩陣R的傳遞閉包
6-1-2 模糊聚類:精準(zhǔn)扶貧
6-2 系統(tǒng)聚類分析
聚類分析:群分析,它是研究聚類問題的一種多元統(tǒng)計(jì)方法。
將相似元素聚為一類,通常選取元素的許多共同指標(biāo),然后通過分析元素的指標(biāo)值來分辨元素間的差距,從而達(dá)到聚類的目的。
聚類分析分為Q型(樣品聚類)聚類、R型(指標(biāo)聚類)聚類。
聚類分析步驟:
確定聚類類型
數(shù)據(jù)預(yù)處理:為了使不同量綱的量能進(jìn)行比較,需要將數(shù)據(jù)規(guī)格化
研究樣品之間的關(guān)系
-
研究類與類之間的關(guān)系
最短距離法
最長(zhǎng)距離法
重心法
系統(tǒng)聚類分析聚類數(shù)的確定:
- 可根據(jù)經(jīng)驗(yàn)確定聚類數(shù)
- 聚類后,可以通過計(jì)算統(tǒng)計(jì)量(比如均值)或不一致系數(shù),來確定聚類數(shù)
6-3 動(dòng)態(tài)聚類分析
系統(tǒng)聚類法:優(yōu)點(diǎn)是聚類比較準(zhǔn)確,缺點(diǎn)是聚類的次數(shù)較多,每聚類一次只能減少一類或若干類,每一次都需要計(jì)算兩兩樣品或小類之間的距離或其他相似性統(tǒng)計(jì)量,做起來較麻煩。
對(duì)于海量數(shù)據(jù),幾乎難以實(shí)現(xiàn)聚類。動(dòng)態(tài)聚類法對(duì)于容量較大的樣本聚類會(huì)比較方便。
方法理論簡(jiǎn)介:
-
先確定若干個(gè)樣品為初始凝聚點(diǎn),計(jì)算各樣品與凝聚點(diǎn)的距離或其他相似性統(tǒng)計(jì)量,進(jìn)行初始聚類后再根據(jù)初始聚類計(jì)算各類的重心作為新的凝聚點(diǎn),進(jìn)行第二次聚類,并且重復(fù)多次,直到符合某一最優(yōu)原則為止。
又稱逐步聚類法,關(guān)鍵是凝聚點(diǎn)的選擇及聚類結(jié)果的跳著,常用的方法有成批調(diào)整法與離差平方和法。
成批調(diào)整法(k-means法)
總結(jié)與體會(huì)
- k均值方法對(duì)初始點(diǎn)敏感
- k均值方法的計(jì)算比較耗時(shí)
6-4 模糊模式識(shí)別
- 模式識(shí)別的本質(zhì)特征:一是事先已知若干標(biāo)準(zhǔn)模式,稱為標(biāo)準(zhǔn)模式庫;二是有待識(shí)別的對(duì)象。
- 所謂模糊模式識(shí)別,是指在模式識(shí)別中,模式是模糊的,或有待識(shí)別的對(duì)象是模糊的。
模式識(shí)別數(shù)學(xué)原理
最大隸屬原則|:設(shè)為給定的論域U上的m個(gè)模糊模式,
為一個(gè)待識(shí)別對(duì)象,若
,則認(rèn)為
優(yōu)先歸屬于模糊模式
。
最大隸屬原則||:設(shè)A為給定論域U上的一個(gè)模糊模式,為U中的n個(gè)待識(shí)別對(duì)象,若
,則認(rèn)為模糊模式A應(yīng)優(yōu)先錄取
。
閾值原則:設(shè)為給定論域U上的m個(gè)模糊模式,規(guī)定一個(gè)閾值
為一個(gè)待識(shí)別對(duì)象。
- 如果
,則作“拒絕識(shí)別”的判決,這時(shí)應(yīng)查找原因,再做分析。
- 如果
,并且有k個(gè)模糊模式
大于或等于
,則認(rèn)為識(shí)別可行,并將
劃歸于
擇近原則:
貼近度:表示兩個(gè)模糊集A,B之間的貼近程度
格貼近度:
其中:表示兩個(gè)模糊集A,B的內(nèi)積
$A\odot B = min \{A(x) \vee B(x)\}$表示兩個(gè)模糊集A,B的外積
定義(公理化定義)若(A,B)滿足
-
若有
.
則稱
為A與B的貼近度。
模糊模式識(shí)別可以廣泛被運(yùn)用到模糊識(shí)別的各個(gè)方面,使用時(shí)最基本的是要建立評(píng)價(jià)模式和被評(píng)價(jià)對(duì)象的恰當(dāng)指標(biāo),其次才是運(yùn)用各類識(shí)別原則,對(duì)被評(píng)價(jià)對(duì)象進(jìn)行模式識(shí)別。
6-5-1 貝葉斯判別
為了能識(shí)別待判斷的對(duì)象是屬于已知類
中的哪一類,需要有一個(gè)一般規(guī)則做出判斷,這樣一個(gè)規(guī)則為判別規(guī)則(用于衡量待判別對(duì)象與各已知類別接近程度的方法準(zhǔn)則)
判別分析的假設(shè)條件:
- 各個(gè)判別變量服從正態(tài)分布,由各個(gè)判別變量的聯(lián)合分布是多元正態(tài)分布
- 各判別變量不能存在多重共線性,每個(gè)變量在各類中的取值應(yīng)存在顯著性差異
方法理論簡(jiǎn)介:
假設(shè)對(duì)所研究的對(duì)象有了一定的認(rèn)識(shí),重新計(jì)算樣品屬于各總體的條件概率:
比較這k各概率大小,然后將新樣本判歸為來自后驗(yàn)概率最大的總體。
Bayes判別法的基本思想
在觀測(cè)一個(gè)樣品x的情況下,可用Bayes公式計(jì)算它來自第g總體的后驗(yàn)概率
- 計(jì)算各類變量的均值以及均值向量,各變量的總均值及均值向量;
- 計(jì)算類內(nèi)協(xié)方差矩陣及其逆矩陣;
- 計(jì)算Bayes判別函數(shù)中,各個(gè)變量的系數(shù)及常數(shù)項(xiàng)并寫出判別函數(shù);
- 計(jì)算類內(nèi)協(xié)方差矩陣及總各協(xié)方差矩陣,作多個(gè)變量的全體判別效果的檢驗(yàn);
- 各個(gè)變量的判別能力的檢驗(yàn);
- 判別新樣本應(yīng)屬于的類別。
在得到樣本后,首先可以根據(jù)樣本信息修正之前所獲得的先驗(yàn)概率分布,進(jìn)一步獲得后驗(yàn)概率分布,之后可以通過新的后驗(yàn)概率分布進(jìn)行各種統(tǒng)計(jì)推斷。
一種好的判別方法,一定要考慮到每個(gè)總體出現(xiàn)的先驗(yàn)概率,同時(shí)能夠?qū)φ`判所出現(xiàn)的損失進(jìn)行評(píng)估。貝葉斯判別法就具備上述優(yōu)點(diǎn)。
6-5-2 貝葉斯判別:醫(yī)療診斷模型
樣本空間的劃分
定義:設(shè)S為試驗(yàn)E的樣本空間,為E的一組事件,若
-
則稱
為樣本空間S的一個(gè)劃分。
全概率公式
試驗(yàn)E的樣本空間為S,A為E的事件,為S的一個(gè)劃分,且
,則
貝葉斯公式
貝葉斯判別的理論基礎(chǔ)
維總體,密度
,各總體先驗(yàn)概率
樣品屬于G1,G2的后驗(yàn)概率為
兩個(gè)總體的Bayes判別準(zhǔn)則