無(wú)監(jiān)督(例如clustering)和有監(jiān)督(例如classification)學(xué)習(xí)的直觀區(qū)別

無(wú)監(jiān)督學(xué)習(xí)是指對(duì)無(wú)標(biāo)簽數(shù)據(jù)的一類(lèi)學(xué)習(xí)算法。因?yàn)闆](méi)有標(biāo)簽信息，意味著需要從數(shù)據(jù)集中發(fā)現(xiàn)和總結(jié)模式或者結(jié)構(gòu)。
我們基于數(shù)據(jù)中的變量之間關(guān)系利用聚類(lèi)算法發(fā)現(xiàn)這種內(nèi)在模式或者結(jié)構(gòu)。
無(wú)監(jiān)督算法有：
主成分分析法（PCA）
異常檢測(cè)法
自編碼算法
深度信念網(wǎng)絡(luò)
赫比學(xué)習(xí)法
生成式對(duì)抗網(wǎng)絡(luò)
自組織映射網(wǎng)絡(luò)

監(jiān)督學(xué)習(xí)是指數(shù)據(jù)集的正確輸出已知情況下的一類(lèi)學(xué)習(xí)算法。因?yàn)檩斎牒洼敵鲆阎馕吨斎牒洼敵鲋g有一個(gè)關(guān)系，監(jiān)督學(xué)習(xí)算法就是要發(fā)現(xiàn)和總結(jié)這種“關(guān)系”。
監(jiān)督算法常見(jiàn)的有：
線(xiàn)性回歸
神經(jīng)網(wǎng)絡(luò)
決策樹(shù)
支持向量機(jī)
KNN
樸素貝葉斯算法
————————————————
版權(quán)聲明：本文為CSDN博主「Briwisdom」的原創(chuàng)文章，遵循CC 4.0 BY-SA版權(quán)協(xié)議，轉(zhuǎn)載請(qǐng)附上原文出處鏈接及本聲明。
原文鏈接：https://blog.csdn.net/u010420283/article/details/83758378

一、 clustering聚類(lèi)（無(wú)監(jiān)督）

給一些相似的樣本分組，以揭示背后隱藏的結(jié)構(gòu)。

聚類(lèi)分析是數(shù)據(jù)挖掘中一個(gè)重要概念，其核心是尋找數(shù)據(jù)對(duì)象中隱藏的有價(jià)值的信息，根據(jù)相似性原則，把具有較高相似度的數(shù)據(jù)對(duì)象劃分到同一類(lèi)簇，把具有較高相異度的數(shù)據(jù)對(duì)象劃分到不同類(lèi)簇，從而使相同組中的數(shù)據(jù)點(diǎn)之間比其他組中的數(shù)據(jù)點(diǎn)更具有相似性。

沒(méi)有標(biāo)簽
將樣本點(diǎn)分類(lèi)是基于它們彼此之間有“多接近”
鑒定數(shù)據(jù)的結(jié)構(gòu)
度量：獨(dú)立驗(yàn)證特征

clustering的2種途徑

分區(qū)域（比如K均值聚類(lèi)K-means）
—將對(duì)象劃分為互不重疊的集群，使每個(gè)數(shù)據(jù)對(duì)象恰好屬于一個(gè)子集
（1）K-means
基本思路：
假設(shè)有固定數(shù)量的K個(gè)簇；
將點(diǎn)劃分為K個(gè)緊湊簇
算法：(K-Means聚類(lèi)算法步驟實(shí)質(zhì)是EM算法（最大期望算法（Expectation-Maximization algorithm, EM）)的模型優(yōu)化過(guò)程)
首先，隨機(jī)初始化K個(gè)簇中心
然后，反復(fù):-分配點(diǎn)到最近的中心-移動(dòng)中心到重心點(diǎn)停止
最后，收斂(不再重新分配)

圖片.png

圖片.png

圖片.png

圖片.png

圖片.png

圖片.png

但是，有些樣點(diǎn)幾乎剛好在2個(gè)中心點(diǎn)的中間，該分配到哪個(gè)中心點(diǎn)去呢？→這就要分配部分權(quán)重，使用模糊k聚類(lèi)算法fuzzy k - means，因此反過(guò)來(lái)，普通的k-means其實(shí)可以看做是模糊k聚類(lèi)的一種特殊形式：

圖片.png

k聚類(lèi)其實(shí)就是EM算法

參考http://t.zoukankan.com/rong86-p-3517573.html

進(jìn)一步的話(huà)，EM算法比k聚類(lèi)更具有普適性

K-Means聚類(lèi)算法的缺陷

該算法非常簡(jiǎn)單且使用廣泛，但是主要存在以下四個(gè)缺陷：

1.K值需要預(yù)先給定，屬于預(yù)先知識(shí)，很多情況下K值的估計(jì)是非常困難的，對(duì)于像計(jì)算全部微信用戶(hù)的交往圈這樣的場(chǎng)景就完全的沒(méi)辦法用K-Means進(jìn)行。對(duì)于可以確定K值不會(huì)太大但不明確精確的K值的場(chǎng)景，可以進(jìn)行迭代運(yùn)算，然后找出對(duì)應(yīng)的K值，這個(gè)值往往能較好地描述有多少個(gè)簇類(lèi)；
2.K-Means算法對(duì)初始選取的聚類(lèi)中心點(diǎn)是敏感的，不同的隨機(jī)種子點(diǎn)得到的聚類(lèi)結(jié)果完全不同；
3.該算法并不適合所有的數(shù)據(jù)類(lèi)型。它不能處理非球形簇、不同尺寸和不同密度的簇；
4.易陷入局部最優(yōu)解。

所以，可考慮層次聚類(lèi)······

聚集（比如層次聚類(lèi)hierarchical clustering）
-一組嵌套的集群，按層次結(jié)構(gòu)組織

層次聚類(lèi)（其中的非加權(quán)組平均法UPGMA：unweighted pair group method with arithmetic-mean常用于系統(tǒng)發(fā)育樹(shù)的構(gòu)建）

層次聚類(lèi)

Q：既然層次聚類(lèi)可以隨意劃分類(lèi)，那還拿k聚類(lèi)來(lái)干啥？

圖片.png

這里面可明白曼哈頓距離、歐氏距離、皮爾遜相關(guān)的差別

圖片.png

圖片.png

圖片.png

二、classification分類(lèi)（監(jiān)督）

從數(shù)據(jù)中提取特征，將新元素分配給定義好的類(lèi)（監(jiān)督學(xué)習(xí)的任務(wù)就是學(xué)習(xí)一個(gè)模型，應(yīng)用這一模型，對(duì)給定的輸入預(yù)測(cè)相應(yīng)的輸出）

一些樣本點(diǎn)是有標(biāo)簽
需要一個(gè)規(guī)則，能準(zhǔn)確地將標(biāo)簽分配給新的點(diǎn)
子問(wèn)題：特征的選擇
度量：分類(lèi)的準(zhǔn)確度

常用分類(lèi)算法：樸素貝葉斯、logistic回歸、決策樹(shù)、支持向量機(jī)

分類(lèi)的2種途徑:
(1)生成generative
-貝葉斯分類(lèi)(例如樸素貝葉斯)
-用概率術(shù)語(yǔ)提出分類(lèi)問(wèn)題
-模型特征在不同類(lèi)中的分布
-使用概率演算進(jìn)行決策
（2）判別discriminative
-例如支持向量機(jī)
-沒(méi)有底層分布的建模
-根據(jù)與邊界的距離做出決定。
例如:基因發(fā)現(xiàn):HMMs vs. CRFs

關(guān)于貝葉斯推理P(h|D) = P(D|h)P(h)/P(D)
這個(gè)公式怎么推出來(lái)的？看下面這個(gè)圖：P(h|D) P(D)= P(D|h)P(h)，是不是豁然開(kāi)朗！！！

圖片.png

首先，補(bǔ)充背景介紹:在統(tǒng)計(jì)領(lǐng)域，有兩種對(duì)立的思想學(xué)派：貝葉斯學(xué)派和經(jīng)典學(xué)派（也稱(chēng)頻率學(xué)派）。頻率學(xué)派理解世界的底層邏輯是，一個(gè)隨機(jī)事件的發(fā)生，是存在一個(gè)真實(shí)的/客觀的概率的，只要我們做試驗(yàn)足夠多，或者掌握的數(shù)據(jù)足夠多，計(jì)算出來(lái)的隨機(jī)事件發(fā)生的頻率，就會(huì)無(wú)限接近這個(gè)真實(shí)的、客觀的概率。而貝葉斯學(xué)派則信仰條件概率，貝葉斯推理則是針對(duì)第二類(lèi)概率問(wèn)題進(jìn)行解答（概率問(wèn)題分2大類(lèi)：第一類(lèi)是正向概率問(wèn)題：我們知道原因，推測(cè)某個(gè)現(xiàn)象發(fā)生的概率；第二類(lèi)是逆概率問(wèn)題：看到了一些現(xiàn)象，要去推測(cè)背后的原因。）

http://www.itdecent.cn/p/c5be69431e43

這里P(D|h)代表廣義上面的已知的概率，即先驗(yàn)概率；比如病癥并判，患者成化驗(yàn)呈POS的概率=>P(POS|h)；這個(gè)是先驗(yàn)的，什么叫先驗(yàn)？已經(jīng)驗(yàn)證了的，即：基于結(jié)論，條件的概率，廣而告之的，那么現(xiàn)在翻轉(zhuǎn)一下，一個(gè)具體的患者，化驗(yàn)呈POS，那么他是患者的概率都大？問(wèn)題=>P(h|POS)，變成了后驗(yàn)概率了，什么是后驗(yàn)，后驗(yàn)就是基于條件，結(jié)論滿(mǎn)足的概率多大？對(duì)于具體化的場(chǎng)景下，如何利用先驗(yàn)概率求得后驗(yàn)概率就是貝葉斯公式解決的問(wèn)題。
https://zhuanlan.zhihu.com/p/98761298

參考資料

https://blog.csdn.net/qq_45797116/article/details/108407573

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

2023-01-29clustering聚類(lèi)和classification分類(lèi)-1

2023-01-29clustering聚類(lèi)和classification分類(lèi)-1

無(wú)監(jiān)督(例如clustering)和有監(jiān)督(例如classification)學(xué)習(xí)的直觀區(qū)別

一、 clustering聚類(lèi)（無(wú)監(jiān)督）

clustering的2種途徑

二、classification分類(lèi)（監(jiān)督）

參考資料

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

2023-01-29clustering聚類(lèi)和classification分類(lèi)-1

無(wú)監(jiān)督(例如clustering)和有監(jiān)督(例如classification)學(xué)習(xí)的直觀區(qū)別

一、 clustering聚類(lèi)（無(wú)監(jiān)督）

clustering的2種途徑

二、classification分類(lèi)（監(jiān)督）

參考資料

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

一、 clustering聚類(lèi)（無(wú)監(jiān)督）

二、classification分類(lèi)（監(jiān)督）