2020-05-14

import matplotlib.pyplot as plt
from matplotlib import style
import numpy as np
style.use('ggplot')

class Support_Vector_Machine:
    def __init__(self, visualization=True):
        self.visualization = visualization
        self.colors = {1:'r',-1:'b'}
        if self.visualization:
            self.fig = plt.figure()
            self.ax = self.fig.add_subplot(1,1,1)
    # train
    def fit(self, data):
        pass

    def predict(self,features):
        # sign( x.w+b )
        classification = np.sign(np.dot(np.array(features),self.w)+self.b)

        return classification
        
data_dict = {-1:np.array([[1,7],
                          [2,8],
                          [3,8],]),
             
             1:np.array([[5,1],
                         [6,-1],
                         [7,3],])}

我們開始填充fit方法:

    def fit(self, data):
        self.data = data
        # { ||w||: [w,b] }
        opt_dict = {}

        transforms = [[1,1],
                      [-1,1],
                      [-1,-1],
                      [1,-1]]

要注意這個(gè)方法首先傳遞self(記住這是方法的約定),之后傳遞data。data就是我們我們打算訓(xùn)練或者優(yōu)化的數(shù)據(jù)。我們這里,它是data_dict,我們已經(jīng)創(chuàng)建好了。

我們將self.data設(shè)為該數(shù)據(jù)?,F(xiàn)在,我們可以在類中的任何地方引用這個(gè)訓(xùn)練數(shù)據(jù)了(但是,我們需要首先使用數(shù)據(jù)來調(diào)用這個(gè)訓(xùn)練方法,來避免錯(cuò)誤)。

下面,我們開始構(gòu)建最優(yōu)化字典opt_dict,它包含任何最優(yōu)化的值。隨著我們減小我們的w向量,我們會(huì)使用約束函數(shù)來測(cè)試向量,如果存在的話,尋找最大的滿足方程的b,之后將所有數(shù)據(jù)儲(chǔ)存在我們的最華友字典中。字典是{ ||w|| : [w,b] }。當(dāng)我們完成所有優(yōu)化時(shí),我們會(huì)選擇字典中鍵最小的wb值。

最后,我們會(huì)設(shè)置我們的轉(zhuǎn)換。我們已經(jīng)解釋了我們的意圖,來確保我們檢查了每個(gè)可能的向量版本。

下面,我們需要一些匹配數(shù)據(jù)的起始點(diǎn)。為此,我們打算首先引用我們的訓(xùn)練數(shù)據(jù),來選取一些合適的起始值。

        # finding values to work with for our ranges.
        all_data = []
        for yi in self.data:
            for featureset in self.data[yi]:
                for feature in featureset:
                    all_data.append(feature)

        self.max_feature_value = max(all_data)
        self.min_feature_value = min(all_data)
        # no need to keep this memory.
        all_data=None

我們所做的就是遍歷所有數(shù)據(jù),尋找最大值和最小值。現(xiàn)在我們打算定義我們的步長(zhǎng)。

        step_sizes = [self.max_feature_value * 0.1,
                      self.max_feature_value * 0.01,
                      # starts getting very high cost after this.
                      self.max_feature_value * 0.001]

這里我們?cè)O(shè)置了一些大小的步長(zhǎng),我們打算這樣執(zhí)行。對(duì)于我們的第一遍,我們會(huì)采取大跨步(10%)。一旦我們使用這些步長(zhǎng)找到了最小值,我們就將步長(zhǎng)降至 1% 來調(diào)優(yōu)。我們會(huì)繼續(xù)下降,取決于你想要多么精確。我會(huì)在這個(gè)項(xiàng)目的末尾討論,如何在程序中判斷是否應(yīng)該繼續(xù)優(yōu)化。

下面,我們打算設(shè)置一些變量,來幫助我們給b生成步長(zhǎng)(用于生成比w更大的步長(zhǎng),因?yàn)槲覀兏谝?code>w的精確度),并跟蹤最后一個(gè)最優(yōu)值。

        # extremely expensive
        b_range_multiple = 5
        b_multiple = 5
        latest_optimum = self.max_feature_value*10

現(xiàn)在我們開始了:

        for step in step_sizes:
            w = np.array([latest_optimum,latest_optimum])
            # we can do this because convex
            optimized = False
            while not optimized:
                pass

這里的思想就是沿著向量下降。開始,我們將optimized設(shè)為False,并為我們會(huì)在每個(gè)主要步驟重置它。optimized變量再我們檢查所有步驟和凸形狀(我們的碗)的底部之后,會(huì)設(shè)為True

我們下個(gè)教程中會(huì)繼續(xù)實(shí)現(xiàn)這個(gè)邏輯,那里我們會(huì)實(shí)際使用約束問題來檢查值,檢查我們是否找到了可以保存的值。

目前為止的代碼:

import matplotlib.pyplot as plt
from matplotlib import style
import numpy as np
style.use('ggplot')

class Support_Vector_Machine:
    def __init__(self, visualization=True):
        self.visualization = visualization
        self.colors = {1:'r',-1:'b'}
        if self.visualization:
            self.fig = plt.figure()
            self.ax = self.fig.add_subplot(1,1,1)
    # train
    def fit(self, data):
        self.data = data
        # { ||w||: [w,b] }
        opt_dict = {}

        transforms = [[1,1],
                      [-1,1],
                      [-1,-1],
                      [1,-1]]

        all_data = []
        for yi in self.data:
            for featureset in self.data[yi]:
                for feature in featureset:
                    all_data.append(feature)

        self.max_feature_value = max(all_data)
        self.min_feature_value = min(all_data)
        all_data = None

        step_sizes = [self.max_feature_value * 0.1,
                      self.max_feature_value * 0.01,
                      # point of expense:
                      self.max_feature_value * 0.001,]
        
        # extremely expensive
        b_range_multiple = 5
        # 
        b_multiple = 5
        latest_optimum = self.max_feature_value*10

        for step in step_sizes:
            w = np.array([latest_optimum,latest_optimum])
            # we can do this because convex
            optimized = False
            while not optimized:
                pass
            
    def predict(self,features):
        # sign( x.w+b )
        classification = np.sign(np.dot(np.array(features),self.w)+self.b)

        return classification
        


data_dict = {-1:np.array([[1,7],
                          [2,8],
                          [3,8],]),
             
             1:np.array([[5,1],
                         [6,-1],
                         [7,3],])}
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容