???數(shù)據(jù)挖掘的起源,在1995年知識(shí)發(fā)現(xiàn)(KDD, Knowleage Discovery in Database)國(guó)際會(huì)議上被定義為"在眾多數(shù)據(jù)中尋找出有用且未知數(shù)據(jù)的過程". 數(shù)據(jù)挖掘誕生于市場(chǎng)條查的現(xiàn)場(chǎng),被人們熟知的的一個(gè)案例就是"啤酒與尿片"購(gòu)買的分析.
?? 與“回歸分析”這種寫在統(tǒng)計(jì)學(xué)書上的詞匯相比,“Neural Network”(神經(jīng)網(wǎng)絡(luò))這樣的引文單詞確實(shí)顯得更加時(shí)髦專業(yè)。但是,當(dāng)我們仔細(xì)詢問究竟為了什么或者出于什么目的進(jìn)行分析的時(shí)候,卻發(fā)現(xiàn)與數(shù)據(jù)挖掘相比,我們真正應(yīng)該使用的確是統(tǒng)計(jì)學(xué)方法。就像“根據(jù)在人工智能領(lǐng)域的研究,對(duì)人類的神經(jīng)元進(jìn)行模擬實(shí)驗(yàn)”之類的說明,聽起來非常高大上。但是只要掌握數(shù)據(jù)挖掘和統(tǒng)計(jì)學(xué)方法之間的區(qū)別和共同點(diǎn),可以容易理解。
一 數(shù)據(jù)挖掘的萌芽
?????? 數(shù)據(jù)挖掘的黎明期,經(jīng)常接觸數(shù)據(jù)的計(jì)算機(jī)技術(shù)人員和身出一線的市場(chǎng)調(diào)查員們發(fā)明各種各樣的方法。比如啤酒和尿片的“購(gòu)物車分析”,這時(shí)候有數(shù)據(jù)挖掘的指標(biāo),信賴度,改善度,支持度,消費(fèi)組合被引入。信賴度:“購(gòu)買某種商品的人同時(shí)購(gòu)買其他的商品的概率”,改善度:“在所有顧客中啤酒購(gòu)買率30%與購(gòu)買尿片的顧客中啤酒購(gòu)買率40%相比,改善率就是1.33(40/30)",通過簡(jiǎn)單計(jì)算可以找出具有關(guān)聯(lián)性的商品,這是購(gòu)物車分析的優(yōu)點(diǎn)。
?? 但是與購(gòu)物車相比,統(tǒng)計(jì)學(xué)有更加簡(jiǎn)便的工具----相關(guān)分析。用卡方檢驗(yàn)來特帶,卡方值越大改善度越大。
?? 目前這種購(gòu)物車分析方面的數(shù)據(jù)挖掘,被廣泛應(yīng)用在購(gòu)物推薦中。
二 高級(jí)數(shù)據(jù)挖掘法與人工智能
??????? 除了購(gòu)物車分析這種簡(jiǎn)單計(jì)算外,逐漸發(fā)展出個(gè)家高級(jí)的運(yùn)算邏輯的方法,神經(jīng)元網(wǎng)絡(luò),支持向量機(jī),聚集性分析。在人工智能領(lǐng)域中,根據(jù)思考方法不同進(jìn)行分類;在數(shù)據(jù)挖掘中采用從人類認(rèn)知功能分類的法則。
1 聚集性分析
2 支持向量機(jī)
3 神經(jīng)元網(wǎng)絡(luò)
希望通過結(jié)構(gòu)化知識(shí),提高學(xué)習(xí)效率,讓你的工作時(shí)間更值錢,賺錢更高效!------------《 數(shù)據(jù)分析筆記》
希望通過結(jié)構(gòu)化知識(shí),提高學(xué)習(xí)效率,讓你的工作時(shí)間更值錢,賺錢更高效!------------《 數(shù)據(jù)分析筆記》