import matplotlib.pyplot as plt
from matplotlib import style
import numpy as np
style.use('ggplot')
class Support_Vector_Machine:
def __init__(self, visualization=True):
self.visualization = visualization
self.colors = {1:'r',-1:'b'}
if self.visualization:
self.fig = plt.figure()
self.ax = self.fig.add_subplot(1,1,1)
# train
def fit(self, data):
pass
def predict(self,features):
# sign( x.w+b )
classification = np.sign(np.dot(np.array(features),self.w)+self.b)
return classification
data_dict = {-1:np.array([[1,7],
[2,8],
[3,8],]),
1:np.array([[5,1],
[6,-1],
[7,3],])}
我們開始填充fit方法:
def fit(self, data):
self.data = data
# { ||w||: [w,b] }
opt_dict = {}
transforms = [[1,1],
[-1,1],
[-1,-1],
[1,-1]]
要注意這個(gè)方法首先傳遞self(記住這是方法的約定),之后傳遞data。data就是我們我們打算訓(xùn)練或者優(yōu)化的數(shù)據(jù)。我們這里,它是data_dict,我們已經(jīng)創(chuàng)建好了。
我們將self.data設(shè)為該數(shù)據(jù)?,F(xiàn)在,我們可以在類中的任何地方引用這個(gè)訓(xùn)練數(shù)據(jù)了(但是,我們需要首先使用數(shù)據(jù)來調(diào)用這個(gè)訓(xùn)練方法,來避免錯(cuò)誤)。
下面,我們開始構(gòu)建最優(yōu)化字典opt_dict,它包含任何最優(yōu)化的值。隨著我們減小我們的w向量,我們會(huì)使用約束函數(shù)來測(cè)試向量,如果存在的話,尋找最大的滿足方程的b,之后將所有數(shù)據(jù)儲(chǔ)存在我們的最華友字典中。字典是{ ||w|| : [w,b] }。當(dāng)我們完成所有優(yōu)化時(shí),我們會(huì)選擇字典中鍵最小的w和b值。
最后,我們會(huì)設(shè)置我們的轉(zhuǎn)換。我們已經(jīng)解釋了我們的意圖,來確保我們檢查了每個(gè)可能的向量版本。
下面,我們需要一些匹配數(shù)據(jù)的起始點(diǎn)。為此,我們打算首先引用我們的訓(xùn)練數(shù)據(jù),來選取一些合適的起始值。
# finding values to work with for our ranges.
all_data = []
for yi in self.data:
for featureset in self.data[yi]:
for feature in featureset:
all_data.append(feature)
self.max_feature_value = max(all_data)
self.min_feature_value = min(all_data)
# no need to keep this memory.
all_data=None
我們所做的就是遍歷所有數(shù)據(jù),尋找最大值和最小值。現(xiàn)在我們打算定義我們的步長(zhǎng)。
step_sizes = [self.max_feature_value * 0.1,
self.max_feature_value * 0.01,
# starts getting very high cost after this.
self.max_feature_value * 0.001]
這里我們?cè)O(shè)置了一些大小的步長(zhǎng),我們打算這樣執(zhí)行。對(duì)于我們的第一遍,我們會(huì)采取大跨步(10%)。一旦我們使用這些步長(zhǎng)找到了最小值,我們就將步長(zhǎng)降至 1% 來調(diào)優(yōu)。我們會(huì)繼續(xù)下降,取決于你想要多么精確。我會(huì)在這個(gè)項(xiàng)目的末尾討論,如何在程序中判斷是否應(yīng)該繼續(xù)優(yōu)化。
下面,我們打算設(shè)置一些變量,來幫助我們給b生成步長(zhǎng)(用于生成比w更大的步長(zhǎng),因?yàn)槲覀兏谝?code>w的精確度),并跟蹤最后一個(gè)最優(yōu)值。
# extremely expensive
b_range_multiple = 5
b_multiple = 5
latest_optimum = self.max_feature_value*10
現(xiàn)在我們開始了:
for step in step_sizes:
w = np.array([latest_optimum,latest_optimum])
# we can do this because convex
optimized = False
while not optimized:
pass
這里的思想就是沿著向量下降。開始,我們將optimized設(shè)為False,并為我們會(huì)在每個(gè)主要步驟重置它。optimized變量再我們檢查所有步驟和凸形狀(我們的碗)的底部之后,會(huì)設(shè)為True。
我們下個(gè)教程中會(huì)繼續(xù)實(shí)現(xiàn)這個(gè)邏輯,那里我們會(huì)實(shí)際使用約束問題來檢查值,檢查我們是否找到了可以保存的值。
目前為止的代碼:
import matplotlib.pyplot as plt
from matplotlib import style
import numpy as np
style.use('ggplot')
class Support_Vector_Machine:
def __init__(self, visualization=True):
self.visualization = visualization
self.colors = {1:'r',-1:'b'}
if self.visualization:
self.fig = plt.figure()
self.ax = self.fig.add_subplot(1,1,1)
# train
def fit(self, data):
self.data = data
# { ||w||: [w,b] }
opt_dict = {}
transforms = [[1,1],
[-1,1],
[-1,-1],
[1,-1]]
all_data = []
for yi in self.data:
for featureset in self.data[yi]:
for feature in featureset:
all_data.append(feature)
self.max_feature_value = max(all_data)
self.min_feature_value = min(all_data)
all_data = None
step_sizes = [self.max_feature_value * 0.1,
self.max_feature_value * 0.01,
# point of expense:
self.max_feature_value * 0.001,]
# extremely expensive
b_range_multiple = 5
#
b_multiple = 5
latest_optimum = self.max_feature_value*10
for step in step_sizes:
w = np.array([latest_optimum,latest_optimum])
# we can do this because convex
optimized = False
while not optimized:
pass
def predict(self,features):
# sign( x.w+b )
classification = np.sign(np.dot(np.array(features),self.w)+self.b)
return classification
data_dict = {-1:np.array([[1,7],
[2,8],
[3,8],]),
1:np.array([[5,1],
[6,-1],
[7,3],])}