2023-01-29clustering聚類(lèi)和classification分類(lèi)-1

無(wú)監(jiān)督(例如clustering)和有監(jiān)督(例如classification)學(xué)習(xí)的直觀區(qū)別

  1. 無(wú)監(jiān)督學(xué)習(xí)是指對(duì)無(wú)標(biāo)簽數(shù)據(jù)的一類(lèi)學(xué)習(xí)算法。因?yàn)闆](méi)有標(biāo)簽信息,意味著需要從數(shù)據(jù)集中發(fā)現(xiàn)和總結(jié)模式或者結(jié)構(gòu)。
    我們基于數(shù)據(jù)中的變量之間關(guān)系利用聚類(lèi)算法發(fā)現(xiàn)這種內(nèi)在模式或者結(jié)構(gòu)。
    無(wú)監(jiān)督算法有:
    主成分分析法(PCA)
    異常檢測(cè)法
    自編碼算法
    深度信念網(wǎng)絡(luò)
    赫比學(xué)習(xí)法
    生成式對(duì)抗網(wǎng)絡(luò)
    自組織映射網(wǎng)絡(luò)
  2. 監(jiān)督學(xué)習(xí)是指數(shù)據(jù)集的正確輸出已知情況下的一類(lèi)學(xué)習(xí)算法。因?yàn)檩斎牒洼敵鲆阎馕吨斎牒洼敵鲋g有一個(gè)關(guān)系,監(jiān)督學(xué)習(xí)算法就是要發(fā)現(xiàn)和總結(jié)這種“關(guān)系”。
    監(jiān)督算法常見(jiàn)的有:
    線(xiàn)性回歸
    神經(jīng)網(wǎng)絡(luò)
    決策樹(shù)
    支持向量機(jī)
    KNN
    樸素貝葉斯算法
    ————————————————
    版權(quán)聲明:本文為CSDN博主「Briwisdom」的原創(chuàng)文章,遵循CC 4.0 BY-SA版權(quán)協(xié)議,轉(zhuǎn)載請(qǐng)附上原文出處鏈接及本聲明。
    原文鏈接:https://blog.csdn.net/u010420283/article/details/83758378

一、 clustering聚類(lèi)(無(wú)監(jiān)督)

給一些相似的樣本分組,以揭示背后隱藏的結(jié)構(gòu)。

聚類(lèi)分析是數(shù)據(jù)挖掘中一個(gè)重要概念,其核心是尋找數(shù)據(jù)對(duì)象中隱藏的有價(jià)值的信息,根據(jù)相似性原則,把具有較高相似度的數(shù)據(jù)對(duì)象劃分到同一類(lèi)簇,把具有較高相異度的數(shù)據(jù)對(duì)象劃分到不同類(lèi)簇,從而使相同組中的數(shù)據(jù)點(diǎn)之間比其他組中的數(shù)據(jù)點(diǎn)更具有相似性。

  1. 沒(méi)有標(biāo)簽
  2. 將樣本點(diǎn)分類(lèi)是基于它們彼此之間有“多接近”
  3. 鑒定數(shù)據(jù)的結(jié)構(gòu)
  4. 度量:獨(dú)立驗(yàn)證特征

clustering的2種途徑

  1. 分區(qū)域(比如K均值聚類(lèi)K-means)
    —將對(duì)象劃分為互不重疊的集群,使每個(gè)數(shù)據(jù)對(duì)象恰好屬于一個(gè)子集
    (1)K-means
    基本思路:
    假設(shè)有固定數(shù)量的K個(gè)簇;
    將點(diǎn)劃分為K個(gè)緊湊簇
    算法:(K-Means聚類(lèi)算法步驟實(shí)質(zhì)是EM算法(最大期望算法(Expectation-Maximization algorithm, EM))的模型優(yōu)化過(guò)程)
    首先,隨機(jī)初始化K個(gè)簇中心
    然后,反復(fù):-分配點(diǎn)到最近的中心-移動(dòng)中心到重心點(diǎn)停止
    最后,收斂(不再重新分配)
    圖片.png

    圖片.png

    圖片.png

    圖片.png

    圖片.png

    圖片.png

    但是,有些樣點(diǎn)幾乎剛好在2個(gè)中心點(diǎn)的中間,該分配到哪個(gè)中心點(diǎn)去呢?→這就要分配部分權(quán)重,使用模糊k聚類(lèi)算法fuzzy k - means,因此反過(guò)來(lái),普通的k-means其實(shí)可以看做是模糊k聚類(lèi)的一種特殊形式:
    圖片.png

    k聚類(lèi)其實(shí)就是EM算法

參考http://t.zoukankan.com/rong86-p-3517573.html

進(jìn)一步的話(huà),EM算法比k聚類(lèi)更具有普適性

K-Means聚類(lèi)算法的缺陷

該算法非常簡(jiǎn)單且使用廣泛,但是主要存在以下四個(gè)缺陷:

1.K值需要預(yù)先給定,屬于預(yù)先知識(shí),很多情況下K值的估計(jì)是非常困難的,對(duì)于像計(jì)算全部微信用戶(hù)的交往圈這樣的場(chǎng)景就完全的沒(méi)辦法用K-Means進(jìn)行。對(duì)于可以確定K值不會(huì)太大但不明確精確的K值的場(chǎng)景,可以進(jìn)行迭代運(yùn)算,然后找出對(duì)應(yīng)的K值,這個(gè)值往往能較好地描述有多少個(gè)簇類(lèi);
2.K-Means算法對(duì)初始選取的聚類(lèi)中心點(diǎn)是敏感的,不同的隨機(jī)種子點(diǎn)得到的聚類(lèi)結(jié)果完全不同;
3.該算法并不適合所有的數(shù)據(jù)類(lèi)型。它不能處理非球形簇、不同尺寸和不同密度的簇;
4.易陷入局部最優(yōu)解。

所以,可考慮層次聚類(lèi)······

  1. 聚集(比如層次聚類(lèi)hierarchical clustering)
    -一組嵌套的集群,按層次結(jié)構(gòu)組織

層次聚類(lèi)(其中的非加權(quán)組平均法UPGMA:unweighted pair group method with arithmetic-mean常用于系統(tǒng)發(fā)育樹(shù)的構(gòu)建)

層次聚類(lèi)

Q:既然層次聚類(lèi)可以隨意劃分類(lèi),那還拿k聚類(lèi)來(lái)干啥?


圖片.png

這里面可明白曼哈頓距離、歐氏距離、皮爾遜相關(guān)的差別
圖片.png

圖片.png

圖片.png

二、classification分類(lèi)(監(jiān)督)

從數(shù)據(jù)中提取特征,將新元素分配給定義好的類(lèi)(監(jiān)督學(xué)習(xí)的任務(wù)就是學(xué)習(xí)一個(gè)模型, 應(yīng)用這一模型, 對(duì)給定的輸入預(yù)測(cè)相應(yīng)的輸出)

  1. 一些樣本點(diǎn)是有標(biāo)簽
  2. 需要一個(gè)規(guī)則,能準(zhǔn)確地將標(biāo)簽分配給新的點(diǎn)
  3. 子問(wèn)題:特征的選擇
  4. 度量:分類(lèi)的準(zhǔn)確度

常用分類(lèi)算法:樸素貝葉斯、logistic回歸、決策樹(shù)、支持向量機(jī)

分類(lèi)的2種途徑:
(1)生成generative
-貝葉斯分類(lèi)(例如樸素貝葉斯)
-用概率術(shù)語(yǔ)提出分類(lèi)問(wèn)題
-模型特征在不同類(lèi)中的分布
-使用概率演算進(jìn)行決策
(2)判別discriminative
-例如支持向量機(jī)
-沒(méi)有底層分布的建模
-根據(jù)與邊界的距離做出決定。
例如:基因發(fā)現(xiàn):HMMs vs. CRFs

關(guān)于貝葉斯推理P(h|D) = P(D|h)P(h)/P(D)
這個(gè)公式怎么推出來(lái)的?看下面這個(gè)圖:P(h|D) P(D)= P(D|h)P(h),是不是豁然開(kāi)朗!!!

圖片.png

首先,補(bǔ)充背景介紹:在統(tǒng)計(jì)領(lǐng)域,有兩種對(duì)立的思想學(xué)派:貝葉斯學(xué)派和經(jīng)典學(xué)派(也稱(chēng)頻率學(xué)派)。頻率學(xué)派理解世界的底層邏輯是,一個(gè)隨機(jī)事件的發(fā)生,是存在一個(gè)真實(shí)的/客觀的概率的,只要我們做試驗(yàn)足夠多,或者掌握的數(shù)據(jù)足夠多,計(jì)算出來(lái)的隨機(jī)事件發(fā)生的頻率,就會(huì)無(wú)限接近這個(gè)真實(shí)的、客觀的概率。而貝葉斯學(xué)派則信仰條件概率,貝葉斯推理則是針對(duì)第二類(lèi)概率問(wèn)題進(jìn)行解答(概率問(wèn)題分2大類(lèi):第一類(lèi)是正向概率問(wèn)題:我們知道原因,推測(cè)某個(gè)現(xiàn)象發(fā)生的概率;第二類(lèi)是逆概率問(wèn)題:看到了一些現(xiàn)象,要去推測(cè)背后的原因。)

http://www.itdecent.cn/p/c5be69431e43

這里P(D|h)代表廣義上面的已知的概率,即先驗(yàn)概率;比如病癥并判,患者成化驗(yàn)呈POS的概率=>P(POS|h);這個(gè)是先驗(yàn)的,什么叫先驗(yàn)?已經(jīng)驗(yàn)證了的,即:基于結(jié)論,條件的概率,廣而告之的,那么現(xiàn)在翻轉(zhuǎn)一下,一個(gè)具體的患者,化驗(yàn)呈POS,那么他是患者的概率都大?問(wèn)題=>P(h|POS),變成了后驗(yàn)概率了,什么是后驗(yàn),后驗(yàn)就是基于條件,結(jié)論滿(mǎn)足的概率多大?對(duì)于具體化的場(chǎng)景下,如何利用先驗(yàn)概率求得后驗(yàn)概率就是貝葉斯公式解決的問(wèn)題。
https://zhuanlan.zhihu.com/p/98761298

參考資料

https://blog.csdn.net/qq_45797116/article/details/108407573

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容