訓(xùn)練集和測(cè)試集
通常我們將數(shù)據(jù)集分為兩個(gè)部分,第一部分用來(lái)構(gòu)造分類(lèi)器,因此稱為訓(xùn)練集;另一部分用來(lái)評(píng)估分類(lèi)器的結(jié)果,因此稱為測(cè)試集。
訓(xùn)練集和測(cè)試集在數(shù)據(jù)挖掘中很常用。
數(shù)據(jù)挖掘工程師不會(huì)用同一個(gè)數(shù)據(jù)集去訓(xùn)練和測(cè)試程序,因?yàn)槿绻褂糜?xùn)練集去測(cè)試分類(lèi)器,得到的結(jié)果肯定是百分之百準(zhǔn)確,所以這種做法不可取。
將數(shù)據(jù)集拆分成一大一小兩個(gè)部分的做法就產(chǎn)生了,前者用來(lái)訓(xùn)練,否則用來(lái)測(cè)試。不過(guò)這種做法也有問(wèn)題:如果分割的時(shí)候不湊巧,就會(huì)引發(fā)異常。
解決方法之一就是將數(shù)據(jù)集按不同的方式拆分,測(cè)試多次,取結(jié)果的平均值。比如我們將數(shù)據(jù)結(jié)構(gòu)拆分為均等的兩份:
我們可以先用第一部分做訓(xùn)練集,第二部分做測(cè)試集,然后再反過(guò)來(lái),取兩次測(cè)試的平均結(jié)果。我們還可以將數(shù)據(jù)集分成三份,用兩個(gè)部分來(lái)做訓(xùn)練集,一個(gè)部分來(lái)做測(cè)試集,迭代三次:
1.使用 Part 1 和 Part 2 訓(xùn)練,使用 Part 3 測(cè)試;
2.使用 Part 1 和 Part 3 訓(xùn)練,使用 Part 2 測(cè)試;
3.使用 Part 2 和 Part 3 訓(xùn)練,使用 Part 1 測(cè)試;
最后取三次測(cè)試的平均結(jié)果。
在數(shù)據(jù)挖掘中,通常的做法是將數(shù)據(jù)集拆分成十份,并按上述方式進(jìn)行迭代測(cè)試。因此這種方式也成為——十折交叉驗(yàn)證。
十折交叉驗(yàn)證
第一步:將數(shù)據(jù)分成10份
第二步:重復(fù)以下步驟10次
- 每次迭代我們保留一個(gè)桶,比如第一次迭代保留木桶 1,第二次保留木桶 2。
- 我們使用剩余的 9 個(gè)桶來(lái)訓(xùn)練分類(lèi)器,比如第一次迭代使用木桶 2 至 10 來(lái)訓(xùn)練。
- 我們用剛才保留的一個(gè)桶來(lái)進(jìn)行測(cè)試,并記錄結(jié)果,比如:35 個(gè)籃球運(yùn)動(dòng)員分類(lèi)正確, 29 個(gè)普通人分類(lèi)正確。
第三步:合并結(jié)果
留一法
在數(shù)據(jù)挖掘領(lǐng)域,N折交叉驗(yàn)證又稱為留一法。
優(yōu)點(diǎn):
(1)我們用幾乎所有的數(shù)據(jù)進(jìn)行訓(xùn)練,然后用一個(gè)數(shù)據(jù)進(jìn)行測(cè)試。
(2)確定性
缺點(diǎn):
(1)計(jì)算時(shí)間很長(zhǎng)
(2)分層問(wèn)題
結(jié)論:留一法對(duì)小數(shù)據(jù)集是合適的,但大多數(shù)情況下我們會(huì)選擇十折交叉驗(yàn)證。
混淆矩陣
混淆矩陣的對(duì)角線(綠色字體)表示正確的人數(shù),因此求的準(zhǔn)確率是:
代碼實(shí)現(xiàn)
# -*- coding:utf-8 -*-
# 將數(shù)據(jù)等分成十份的示例代碼
'''
Created on 2018年11月27日
@author: KingSley
'''
import random
def buckets(filename, bucketName, separator, classColumn):
"""
filename 源文件名
bucketName 十個(gè)目標(biāo)文件的前綴名
separator 分隔符,如制表符、逗號(hào)等
classColumn 表示數(shù)據(jù)所屬分類(lèi)的那一列的序號(hào)
"""
# 將數(shù)據(jù)分為 10 份
numberOfBuckets = 10
data = {}
# 讀取數(shù)據(jù),并按分類(lèi)放置
with open(filename) as f:
lines = f.readlines()
for line in lines:
if separator != '\t':
line = line.replace(separator, '\t')
# 獲取分類(lèi)
category = line.split()[classColumn]
data.setdefault(category, [])
data[category].append(line)
# 初始化分桶
buckets = []
for i in range(numberOfBuckets):
buckets.append([])
# 將各個(gè)類(lèi)別的數(shù)據(jù)均勻地放置到桶中
for k in data.keys():
# 打亂分類(lèi)順序
random.shuffle(data[k])
bNum = 0
# 分桶
for item in data[k]:
buckets[bNum].append(item)
bNum = (bNum + 1) % numberOfBuckets
# 寫(xiě)入文件
for bNum in range(numberOfBuckets):
f = open("%s-%02i" % (bucketName, bNum + 1), 'w')
for item in buckets[bNum]:
f.write(item)
f.close()
# 調(diào)用示例
buckets("pimaSmall.txt", 'pimaSmall',',',8)
Kappa指標(biāo)
將對(duì)角線相加(35 + 88 + 28 = 151)除以合計(jì)(200)就可以了,結(jié)果是0.755。
首先,我們將上表中的數(shù)據(jù)抹去一部分,只留下合計(jì):
真實(shí)的體操運(yùn)動(dòng)員一共有60人,隨機(jī)分類(lèi)器會(huì)將其中的20%(12人)分類(lèi)為體操,50%(30人)分類(lèi)為籃球,30%(18人)分類(lèi)為馬拉松,填入表格:
繼續(xù)用這種方法填充空白。
100個(gè)真實(shí)的籃球運(yùn)動(dòng)員,20%(20人)分到體操,50%(50人)分到籃球,30%(30人)分到馬拉松。
從而得到隨機(jī)分類(lèi)器的準(zhǔn)確率是:
Kappa指標(biāo)可以用來(lái)衡量我們之前構(gòu)造的分類(lèi)器和隨機(jī)分類(lèi)器的差異,公式為:
# -*- coding:utf-8 -*-
# 十折交叉驗(yàn)證
'''
Created on 2018年11月27日
@author: KingSley
'''
from dataclasses import fields
class Classifier:
def __init__(self, bucketPrefix, testBucketNumber, dataFormat):
"""該分類(lèi)器程序?qū)?bucketPrefix 指定的一系列文件中讀取數(shù)據(jù),
并留出 testBucketNumber 指定的桶來(lái)做測(cè)試集,其余的做訓(xùn)練集。
dataFormat 用來(lái)表示數(shù)據(jù)的格式,如:
"class num num num num num comment"
"""
self.medianAndDeviation = []
# 從文件中讀取文件
self.format = dataFormat.strip().split('\t')
self.data = []
# 用 1-10 來(lái)標(biāo)記桶
for i in range(1, 11):
# 判斷該桶時(shí)候包含在訓(xùn)練集中
if i != testBucketNumber:
filename = "%s-%02i" % (bucketPrefix, i)
f = open(filename)
lines = f.readlines()
f.close()
for line in lines[1:]:
fields = line.strip().split('\t')
ignore = []
vector = []
for i in range(len(fields)):
if self.format[i] == 'num':
vector.append(float(fields[i]))
elif self.format[i] == 'comment':
ignore.append(fields[i])
elif self.format[i] == 'class':
classification = fields[i]
self.data.append((classification, vector, ignore))
self.rawData = list(self.data)
# 獲取特征向量的長(zhǎng)度
self.vlen = len(self.data[0][1])
# 標(biāo)準(zhǔn)化數(shù)據(jù)
for i in range(self.vlen):
self.normalizeColumn(i)
def getMedian(self, alist):
"""返回中位數(shù)"""
if alist == []:
return []
blist = sorted(alist)
length = len(alist)
if length % 2 == 1:
# 列表有奇數(shù)個(gè)元素,返回中間元素
return blist[int(((length + 1) / 2) - 1)]
else:
# 列表有偶數(shù)個(gè)元素,返回總量?jī)蓚€(gè)元素的均值
v1 = blist[int(length / 2)]
v2 = blist[(int(length / 2) - 1)]
return (v1 + v2) / 2.0
def getAbsoluteStandardDeviation(self, alist, median):
"""計(jì)算絕對(duì)偏差"""
sum = 0
for item in alist:
sum += abs(item - median)
return sum / len(alist)
def normalizeColumn(self, columnNumber):
"""標(biāo)準(zhǔn)化 self.data 中的 columnNumber 列"""
# 將該列所有值提取到一個(gè)列表中
col = [v[1][columnNumber] for v in self.data]
median = self.getMedian(col)
asd = self.getAbsoluteStandardDeviation(col, median)
#print("Median: %f ASD = %f" % (median, asd))
self.medianAndDeviation.append((median, asd))
for v in self.data:
v[1][columnNumber] = (v[1][columnNumber] - median) / asd
def normalizeVector(self, v):
"""對(duì)每列的中位數(shù)和絕對(duì)偏差,計(jì)算標(biāo)準(zhǔn)化向量 v"""
vector = list(v)
for i in range(len(vector)):
(median, asd) = self.medianAndDeviation[i]
vector[i] = (vector[i] - median) / asd
return vector
def testBucket(self, bucketPrefix, bucketNumber):
"""讀取 bucketPrefix - bucketNumber 所指定的文件作為測(cè)試集"""
filename = "%s-%02i" % (bucketPrefix, bucketNumber)
f = open(filename)
lines = f.readlines()
totals = {}
f.close()
for line in lines:
data = line.strip().split('\t')
vector = []
classInColumn = -1
for i in range(len(self.format)):
if self.format[i] == 'num':
vector.append(float(data[i]))
elif self.format[i] == 'class':
classInColumn = i
theRealClass = data[classInColumn]
classifiedAs = self.classify(vector)
totals.setdefault(theRealClass, {})
totals[theRealClass].setdefault(classifiedAs, 0)
totals[theRealClass][classifiedAs] += 1
return totals
def manhattan(self, vector1, vector2):
"""計(jì)算曼哈頓距離"""
return sum(map(lambda v1, v2: abs(v1 - v2), vector1, vector2))
def nearestNeighbor(self, itemVector):
"""返回 itemVector 的鄰近"""
return min([(self.manhattan(itemVector, item[1]), item) for item in self.data])
def classify(self, itemVector):
"""預(yù)測(cè) itemVector 的分類(lèi)"""
return self.nearestNeighbor(self.normalizeVector(itemVector))[1][0]
def tenfold(bucketPrefix, dataFormat):
results = {}
for i in range(1, 11):
c = Classifier(bucketPrefix, i, dataFormat)
t = c.testBucket(bucketPrefix, i)
for (key, value) in t.items():
results.setdefault(key, {})
for (ckey, cvalue) in value.items():
results[key].setdefault(ckey, 0)
results[key][ckey] += cvalue
# 輸出結(jié)果
categories = list(results.keys())
categories.sort()
print( "\n Classified as: ")
header = " "
subheader = " +"
for category in categories:
header += category + " "
subheader += "----+"
print (header)
print (subheader)
total = 0.0
correct = 0.0
for category in categories:
row = category + " |"
for c2 in categories:
if c2 in results[category]:
count = results[category][c2]
else:
count = 0
row += " %2i |" % count
total += count
if c2 == category:
correct += count
print(row)
print(subheader)
print("\n%5.3f percent correct" %((correct * 100) / total))
print("total of %i instances" % total)
tenfold("mpgData\mpgData", "class\tnum\tnum\tnum\tnum\tnum\tcomment")
參考原文作者:Ron Zacharski CC BY-NC 3.0] https://github.com/egrcc/guidetodatamining
參考原文原文 http://guidetodatamining.com/
參考譯文來(lái)自 @egrcc 的 https://github.com/egrcc/guidetodatamining