SOM 聚類算法

一、網(wǎng)絡(luò)層結(jié)構(gòu)

  • 輸入層
  • 輸出層(競(jìng)爭(zhēng)層),神經(jīng)元個(gè)數(shù)通常是聚類的個(gè)數(shù)。

輸出層節(jié)點(diǎn)是有拓?fù)潢P(guān)系的:

  • “一維線陣”
  • “二維平面陣”
  • “三維柵格陣”
image.png

二、學(xué)習(xí)過(guò)程

訓(xùn)練時(shí)采用“競(jìng)爭(zhēng)學(xué)習(xí)”的方式,每個(gè)輸入樣例在輸出層找到一個(gè)和它最匹配的節(jié)點(diǎn),稱為激活節(jié)點(diǎn);緊接著用隨機(jī)梯度下降法更新激活節(jié)點(diǎn)的參數(shù);同時(shí),和激活節(jié)點(diǎn)臨近的點(diǎn)也根據(jù)它們距離激活節(jié)點(diǎn)的遠(yuǎn)近而適當(dāng)?shù)馗聟?shù)。

  • 初始化:所有連接權(quán)重都用很小的隨機(jī)值進(jìn)行初始化
  • 競(jìng)爭(zhēng):尋找勝利者
  • 合作:更新獲勝神經(jīng)元節(jié)點(diǎn)及其臨近的節(jié)點(diǎn),更新度的計(jì)算。
  • 適應(yīng):適當(dāng)調(diào)整相關(guān)興奮神經(jīng)元的連接權(quán)重,使得獲勝神經(jīng)元對(duì)相似輸入模式的后續(xù)應(yīng)用響應(yīng)增強(qiáng)。
  • 迭代

三、設(shè)計(jì)自組織映射神經(jīng)網(wǎng)絡(luò)并設(shè)定網(wǎng)絡(luò)訓(xùn)練參數(shù)

  • 設(shè)定輸出層神經(jīng)元的數(shù)量:輸出層神經(jīng)元的數(shù)量和訓(xùn)練集樣本的類別數(shù)相關(guān)。若不清楚類別數(shù),盡可能地設(shè)定較多的節(jié)點(diǎn)數(shù),以便較好地映射樣本的拓?fù)浣Y(jié)構(gòu),如果分類過(guò)細(xì)再酌情減少輸出節(jié)點(diǎn)。這樣可能會(huì)帶來(lái)少量未更新過(guò)權(quán)值的“死節(jié)點(diǎn)”,但一般可通過(guò)重新初始化權(quán)值來(lái)解決。
  • 設(shè)計(jì)輸出層節(jié)點(diǎn)的排列:取決于實(shí)際應(yīng)用,例如對(duì)于一般的分類問題,一個(gè)輸出節(jié)點(diǎn)能代表一個(gè)模式類,用一維線陣既結(jié)構(gòu)簡(jiǎn)單又意義明確;對(duì)于顏色空間或者旅行路徑類的問題,二維平面比較直觀。
  • 隨機(jī)初始化:盡量使權(quán)值的初始位置與輸入樣本的大概分布區(qū)域充分重合,避免出現(xiàn)大量的初始“死節(jié)點(diǎn)”。一種簡(jiǎn)單易行的方法是從訓(xùn)練集中隨機(jī)抽取 m 個(gè)輸入樣本作為初始權(quán)值。
  • 設(shè)計(jì)拓?fù)漕I(lǐng)域:設(shè)計(jì)原則是使領(lǐng)域不斷縮小,這樣輸出平面上相鄰神經(jīng)元對(duì)應(yīng)的權(quán)向量之間既有區(qū)別又有相當(dāng)?shù)南嗨菩?,從而保證當(dāng)獲勝節(jié)點(diǎn)對(duì)某一類模式產(chǎn)生最大響應(yīng)時(shí),其領(lǐng)域節(jié)點(diǎn)也能產(chǎn)生較大反應(yīng)。領(lǐng)域形狀可以是正方形、六邊形等。
  • 設(shè)計(jì)學(xué)習(xí)率:

四、與 K 均值算法的比較

  • K 均值算法需要事先定下類的個(gè)數(shù)。而自組織映射神經(jīng)網(wǎng)絡(luò)則不用,隱藏層的某些節(jié)點(diǎn)可以沒有任何輸入數(shù)據(jù)屬于它,因此聚類結(jié)果實(shí)際簇?cái)?shù)可能會(huì)比小于神經(jīng)元的個(gè)數(shù)。而 K 均值算法受 K 值設(shè)定的影響要更大一些。
  • K 均值算法為每個(gè)輸入數(shù)據(jù)找到一個(gè)最相似的類后,只更新這個(gè)類的參數(shù);自組織映射神經(jīng)網(wǎng)絡(luò)則會(huì)更新臨近的節(jié)點(diǎn)。所以,K 均值算法受 noise data 的影響較大,而自組織映射神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確性可能會(huì)比 K 均值算法低(因?yàn)橐哺铝伺R近節(jié)點(diǎn))
  • 自組織映射神經(jīng)網(wǎng)絡(luò)可視化比較好,而且具有優(yōu)雅的拓?fù)潢P(guān)系圖。

參考鏈接

https://blog.csdn.net/xbinworld/article/details/50818803

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容