Stage 1 數(shù)學(xué)基礎(chǔ): 數(shù)據(jù)挖掘

???數(shù)據(jù)挖掘的起源,在1995年知識(shí)發(fā)現(xiàn)(KDD, Knowleage Discovery in Database)國(guó)際會(huì)議上被定義為"在眾多數(shù)據(jù)中尋找出有用且未知數(shù)據(jù)的過程". 數(shù)據(jù)挖掘誕生于市場(chǎng)條查的現(xiàn)場(chǎng),被人們熟知的的一個(gè)案例就是"啤酒與尿片"購(gòu)買的分析.

?? 與“回歸分析”這種寫在統(tǒng)計(jì)學(xué)書上的詞匯相比,“Neural Network”(神經(jīng)網(wǎng)絡(luò))這樣的引文單詞確實(shí)顯得更加時(shí)髦專業(yè)。但是,當(dāng)我們仔細(xì)詢問究竟為了什么或者出于什么目的進(jìn)行分析的時(shí)候,卻發(fā)現(xiàn)與數(shù)據(jù)挖掘相比,我們真正應(yīng)該使用的確是統(tǒng)計(jì)學(xué)方法。就像“根據(jù)在人工智能領(lǐng)域的研究,對(duì)人類的神經(jīng)元進(jìn)行模擬實(shí)驗(yàn)”之類的說明,聽起來非常高大上。但是只要掌握數(shù)據(jù)挖掘和統(tǒng)計(jì)學(xué)方法之間的區(qū)別和共同點(diǎn),可以容易理解。

一 數(shù)據(jù)挖掘的萌芽

?????? 數(shù)據(jù)挖掘的黎明期,經(jīng)常接觸數(shù)據(jù)的計(jì)算機(jī)技術(shù)人員和身出一線的市場(chǎng)調(diào)查員們發(fā)明各種各樣的方法。比如啤酒和尿片的“購(gòu)物車分析”,這時(shí)候有數(shù)據(jù)挖掘的指標(biāo),信賴度,改善度,支持度,消費(fèi)組合被引入。信賴度:“購(gòu)買某種商品的人同時(shí)購(gòu)買其他的商品的概率”,改善度:“在所有顧客中啤酒購(gòu)買率30%與購(gòu)買尿片的顧客中啤酒購(gòu)買率40%相比,改善率就是1.33(40/30)",通過簡(jiǎn)單計(jì)算可以找出具有關(guān)聯(lián)性的商品,這是購(gòu)物車分析的優(yōu)點(diǎn)。

?? 但是與購(gòu)物車相比,統(tǒng)計(jì)學(xué)有更加簡(jiǎn)便的工具----相關(guān)分析。用卡方檢驗(yàn)來特帶,卡方值越大改善度越大。


?? 目前這種購(gòu)物車分析方面的數(shù)據(jù)挖掘,被廣泛應(yīng)用在購(gòu)物推薦中。

二 高級(jí)數(shù)據(jù)挖掘法與人工智能

??????? 除了購(gòu)物車分析這種簡(jiǎn)單計(jì)算外,逐漸發(fā)展出個(gè)家高級(jí)的運(yùn)算邏輯的方法,神經(jīng)元網(wǎng)絡(luò),支持向量機(jī),聚集性分析。在人工智能領(lǐng)域中,根據(jù)思考方法不同進(jìn)行分類;在數(shù)據(jù)挖掘中采用從人類認(rèn)知功能分類的法則。

1 聚集性分析

2 支持向量機(jī)

3 神經(jīng)元網(wǎng)絡(luò)




希望通過結(jié)構(gòu)化知識(shí),提高學(xué)習(xí)效率,讓你的工作時(shí)間更值錢,賺錢更高效!------------《 數(shù)據(jù)分析筆記》

























希望通過結(jié)構(gòu)化知識(shí),提高學(xué)習(xí)效率,讓你的工作時(shí)間更值錢,賺錢更高效!------------《 數(shù)據(jù)分析筆記》

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容