python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)筆記

第四章,數(shù)據(jù)預(yù)處理:

1,? 數(shù)據(jù)預(yù)處理的過(guò)程主要包括:數(shù)據(jù)清洗,數(shù)據(jù)集成,數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)規(guī)約。

2,牛頓插值法: https://www.zhihu.com/question/22320408/answer/141973314

3 ,? 數(shù)據(jù)規(guī)范化:

3.1 最小最大規(guī)范化

3.2 零-均值規(guī)范化

σ 為標(biāo)準(zhǔn)差

3.3 小數(shù)定標(biāo)規(guī)范化

K為數(shù)據(jù)絕對(duì)值最大的以10為底的次冪的向上取整。

4,常用的離散化方法:

4.1 等寬法

4.2 等頻法

4.3 基于聚類分析的方法Kmeans

5,? 數(shù)據(jù)規(guī)約:

意義:

1, 降低無(wú)效,錯(cuò)誤數(shù)據(jù)對(duì)建模的影響,提高建模的準(zhǔn)確性

2, 少量且具有代表性的數(shù)據(jù)架將大幅度縮減數(shù)據(jù)挖掘所需的時(shí)間

3, 降低存儲(chǔ)數(shù)據(jù)的成本

6,屬性規(guī)約常見(jiàn)方法:

注:主成分分析是一種用于連續(xù)屬性的數(shù)據(jù)降維方法,它構(gòu)造了原始數(shù)據(jù)的一個(gè)正交變換,新空間的基底去除了原始空間基底下數(shù)據(jù)的相關(guān)性,只需使用少數(shù)新變量就能夠解釋原始數(shù)據(jù)中的大部分變異。

主成分分析步驟:

7,數(shù)值規(guī)約

數(shù)值規(guī)約指通過(guò)選擇代替的,較小的數(shù)據(jù)來(lái)減少數(shù)據(jù)量,包含有參數(shù)和無(wú)參數(shù)方法兩類。有參數(shù)方法是使用一個(gè)模型來(lái)評(píng)估數(shù)據(jù),只需存放參數(shù),而不需要存放數(shù)據(jù),例如回歸(線性回歸和多元回歸)和對(duì)數(shù)線性模型(近似離散屬性集中的多維概率分布)。無(wú)參數(shù)方法就需要存放實(shí)際的數(shù)據(jù),例如直方圖,聚類,抽樣。

7.1 直方圖

7.2 聚類

7.3 抽樣

? ? 7.3.1 s個(gè)樣本無(wú)放回簡(jiǎn)單隨機(jī)抽樣

? ? 7.3.2 s個(gè)樣本有放回簡(jiǎn)單隨機(jī)抽樣

? ? 7.3.3聚類抽樣

? ? 7.3.4 分層抽樣

? 7.4參數(shù)回歸

8,python主要數(shù)據(jù)預(yù)處理函數(shù)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 第一課:為什么計(jì)算機(jī)視覺(jué)能夠發(fā)展迅速 大數(shù)據(jù)以及算法開發(fā)將會(huì)使智能系統(tǒng)的測(cè)試誤差逐漸趨近于貝葉斯最優(yōu)誤差。這個(gè)結(jié)果...
    言己言閱讀 249評(píng)論 0 1
  • 最近項(xiàng)目上用到了調(diào)用WX和ZFB的第三方支付接口,因?yàn)橐郧皼](méi)用過(guò),所以這次用到了之后總結(jié)一下分享給大家,這里介紹兩...
    豬豬9527閱讀 258評(píng)論 0 0
  • 最近在看 《深入理解Java虛擬機(jī)》,準(zhǔn)備邊看書、邊結(jié)合一些收集的資料以及自己在工作中的實(shí)踐寫一系列學(xué)習(xí)和總結(jié)的筆...
    GeorgeDon閱讀 475評(píng)論 0 0

友情鏈接更多精彩內(nèi)容