分類和聚類的區(qū)別

1.簡單地說,分類就是按照某種標準給對象貼標簽,再根據(jù)標簽來區(qū)分歸類。聚類是指實現(xiàn)沒有"標簽"而通過某種成團分析找出事物之間存在聚集性原因的過程。

2.區(qū)別是,分類是事先定義好類別,類別數(shù)不變。分類器需要由人工標注的分類訓練語料訓練得到,屬于有指導學習范疇。聚類則沒有事先預定的類別,類別數(shù)不確定。聚類不需要人工標注和預先訓練分類器,類別在聚類過程中自動生成。

3. 分類的目的是學會一個分類函數(shù)或分類模型(也常常稱作為分類器),該模型能把數(shù)據(jù)庫中的數(shù)據(jù)項映射到給定的類別中的某一個類中。要構造分類器,需要一個訓練樣本數(shù)據(jù)集作為輸入。訓練集由一組數(shù)據(jù)庫記錄或元組構成,每個元組是一個由有關字段(又稱屬性或特征)值組成的特征向量,此外,訓練樣本還有一個類別標記。一個具體樣本的形式可表示為:?(v1,v2,…,vn; c);其中vi表示字段值,c表示類別。分類器的構造方法有統(tǒng)計方法、機器學習方法和神經(jīng)網(wǎng)絡方法等等。

? ? 聚類是根據(jù)"物以類聚"原理,將本身沒有類別的樣本聚集成不同的組,這樣的一組數(shù)據(jù)對象的集合叫做簇,并且對每一個這樣的簇進行描述的過程。它的目的是使得屬于同一個簇的樣本之間彼此相似,而不同簇的樣本應該足夠不相似。

? ? 與分類規(guī)則不同,進行聚類前并不知道將要劃分成幾個組合什么樣的組,也不知道根據(jù)哪些空間區(qū)分規(guī)則來定義組。其目的志在發(fā)現(xiàn)空間實體的屬性間的函數(shù)關系,挖掘的知識用以屬性名為變量的數(shù)學方差來表示。聚類技術正在蓬勃發(fā)展,涉及范圍包括數(shù)據(jù)挖掘、統(tǒng)計學、機器學習、空間數(shù)據(jù)庫技術、生物學以及市場營銷等領域,聚類分析以及稱為數(shù)據(jù)挖掘研究領域中一個非?;钴S的研究課題。

? ? 常見的聚類算法包括:K-Means,K-中心點聚類算法,CLARANS、 BIRCH、CLIQUE、DBSCAN等。

?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容