數(shù)據(jù)
機(jī)器學(xué)習(xí)就是為給算法數(shù)據(jù),讓算法在數(shù)據(jù)尋找一種關(guān)系

花的數(shù)據(jù)集.png
- 數(shù)據(jù)的整體叫做數(shù)據(jù)集(data set)
- 每一行數(shù)據(jù)稱為樣本(sample)
- 除最后一列,每一列表達(dá)樣本的一個(gè)特征(feature)
特征我們通常用X表示
第i個(gè)樣本行寫作 X(i)
地i個(gè)樣本第j個(gè)特征值X(i)j - 最后一列,稱為標(biāo)記(label)
通常用y(小寫)表示
第i個(gè)樣本的標(biāo)記y(i)
| 萼片長(zhǎng)度 | 萼片寬度 | 花瓣長(zhǎng)度 | 花瓣寬度 |
|---|---|---|---|
| 5.1 | 3.5 | 1.4 | 0.2 |
| 7.0 | 3.2 | 4.7 | 1.4 |
| 6.3 | 3.3 | 6 | 2.5 |
第一行,為特征下面的為特征向量

1.png
下方是一個(gè)特征空間。
數(shù)據(jù)表.PNG
仔細(xì)觀察發(fā)現(xiàn)數(shù)據(jù)可以分為兩類,如圖
數(shù)據(jù)切分.PNG
我們可以看到數(shù)據(jù)中可以有一條明確的直線將數(shù)據(jù)分為兩類(下方暫稱為第一類,上方為第二類),這就是我們區(qū)分某一類事物的方法,當(dāng)某類事物的特征趨向于直線的下方,我們把他當(dāng)作第一類,上方則為第二類。
分類任務(wù)的本質(zhì)就是特征空間切分
在高維空間同理
特征可以很抽象
手寫圖像.PNG
- 圖像,每一個(gè)像素點(diǎn)都是特征
- 28*28的圖像有28*28=784個(gè)特征
- 如果是彩色圖像特征更多
- 特征可以非常抽象,甚至沒有語(yǔ)義
【引申】深度學(xué)習(xí)就是用算法自動(dòng)的進(jìn)行特征工程
機(jī)器學(xué)習(xí)的主要任務(wù)
一、分類任務(wù)
將給定的數(shù)據(jù)進(jìn)行分類
- 二分類任務(wù)
- 給予的圖片是貓還是狗
- 判斷郵件是垃圾郵件;不是垃圾郵件
- 銀行判斷發(fā)個(gè)客戶信用卡有風(fēng)險(xiǎn);沒有風(fēng)險(xiǎn)
- 腫瘤是惡性還是良性
- 多分類任務(wù)
- 手寫字體的識(shí)別
- 圖像識(shí)別(不在是兩類事物。多事物識(shí)別)
- 判斷發(fā)放給客戶的信用卡的風(fēng)險(xiǎn)評(píng)級(jí)
- 很多復(fù)雜的問題也可以轉(zhuǎn)化成分類問題
一些算法只支持完成二分類任務(wù)
但多分類的任務(wù)可以轉(zhuǎn)換成二分類任務(wù)
有一些算法天然的可以完成多分類任務(wù)
- 多標(biāo)簽任務(wù)
假設(shè)有一張圖片有兩個(gè)人,多標(biāo)簽分類任務(wù)可以區(qū)分兩個(gè)人,把第一個(gè)人作為A第二個(gè)作為B。甚至把圖片中的其他事物進(jìn)行區(qū)分
二、回歸任務(wù)
- 結(jié)果是一個(gè)連續(xù)的值,而非一個(gè)類別
- 房屋價(jià)格
- 市場(chǎng)分析
- 學(xué)生成績(jī)
- 股票價(jià)格
有一些算法只能解決回歸問題,
有一些算法只能解決分類問題,
有一些算法的思路既能解決回歸問題,又能解決分類問題。
有一些情況下,回歸任務(wù)可以簡(jiǎn)化成分類任務(wù)
什么是機(jī)器學(xué)習(xí).PNG
綜上,大量學(xué)習(xí)資料被叫做數(shù)據(jù)集data set,算法根據(jù)資料建立模型,輸入樣例從而輸出結(jié)果。
我們可以把模型看作f(x),x是樣例,輸出結(jié)果
回歸問題和分類問題都是監(jiān)督學(xué)習(xí)