首页 > 学术百科

python+sklearn训练支持向量机分类模型

python+sklearn训练⽀持向量机分类模型

本⽂所⽤⽂件的链接

⽀持向量机(SVM)

⽀持向量机原理

1. 寻求最优分类边界

正确: 对⼤部分样本可以正确的划分类别.

泛化: 最⼤化⽀持向量间距.

公平: 各类别与分类边界等距.

简单: 基于线性模型, 直线/平⾯.

2. 基于核函数的升维变换

通过名为核函数的特征变换, 增加新的特征, 使得低维度空间中的线性不可分问题在⾼维度空间变得线性

可分。通俗的说，之前我们的分类，都是⽤直线，在⼆维平⾯内进⾏分割的，但是如果遇到如下的情况，就⽆法在⼆维平⾯内直接分割了，此时就可以利⽤⽀持向量机，将⼆维的数据上升到多维来进⾏分类。将原来的利⽤直线改成⽤曲线。主要⽅法就是改变API中的核函数。

⽀持向量机的使⽤

线性核函数: linear 不通过核函数进⾏维度提升, 仅在原始维度空间中寻求线性分类边界.

import sklearn.svm as svm

model = svm.SVC(kernel='linear')

model.fit(x, y)

pred_test_y = model.predict(test_x)

先来看⼀下⽤之前的⽅式进⾏分类的⽅法。

"""

⽀持向量机

"""

import numpy as np

del_selection as ms

import sklearn.svm as svm

ics as sm

苟仲武import matplotlib.pyplot as mp

x, y =[],[]

data=np.loadtxt('../ml_',青山热电厂

delimiter=',')

x = data[:,:-1]

y = data[:,-1]

# 拆分训练集与测试集

train_x, test_x, train_y, test_y = \

random_state=5)

# 基于线性核函数的svm绘制分类边界

model=svm.SVC(kernel='linear')

model.fit(train_x, train_y)

# 绘制分类边界线

l, r = x[:,0].min()-1, x[:,0].max()+1

b, t = x[:,1].min()-1, x[:,1].max()+1

n =500

grid_x, grid_y = np.meshgrid(

np.linspace(l, r, n),

np.linspace(b, t, n))

# 把grid_x与grid_y抻平了组成模型的输⼊，预测输出mesh_x = np.column_stack(

(grid_x.ravel(), grid_y.ravel()))

pred_mesh_y = model.predict(mesh_x)

grid_z = pred_shape(grid_x.shape)

# 看⼀看测试集的分类报告

人民法院组织法pred_test_y = model.predict(test_x)

cr = sm.classification_report(

统筹学test_y, pred_test_y)

print(cr)

# 绘制这些点

mp.figure('SVM', facecolor='lightgray')

东莞外博会

mp.title('SVM', fontsize=16)

mp.xlabel('X', fontsize=14)

mp.ylabel('Y', fontsize=14)

mp.tick_params(labelsize=10)

mp.pcolormesh(grid_x,grid_y,grid_z,cmap='gray')

mp.scatter(x[:,0], x[:,1], s=60,

c=y, label='points', cmap='jet')

mp.legend()

mp.show()

如图所⽰，这个分类是⾮常失败的，根本没有任何效果。

多项式核函数: poly 通过多项式函数增加原始样本特征的⾼次⽅幂.案例: 基于多项式核函数, 训练

# 基于多项式核函数的svm绘制分类边界

model=svm.SVC(kernel='poly', degree=3)

model.fit(train_x, train_y)

看下多项式核函数的效果：

"""

⽀持向量机多项式核函数

"""

import numpy as np

del_selection as ms

import sklearn.svm as svm

ics as sm

import matplotlib.pyplot as mp

x, y =[],[]

data=np.loadtxt('../ml_',

delimiter=',')

x = data[:,:-1]

y = data[:,-1]

# 拆分训练集与测试集

train_x, test_x, train_y, test_y = \

random_state=5)

# 基于多项式核函数的svm绘制分类边界

model=svm.SVC(kernel='poly', degree=3) model.fit(train_x, train_y)

# 绘制分类边界线

l, r = x[:,0].min()-1, x[:,0].max()+1

b, t = x[:,1].min()-1, x[:,1].max()+1

n =500

grid_x, grid_y = np.meshgrid(

np.linspace(l, r, n),

np.linspace(b, t, n))

# 把grid_x与grid_y抻平了组成模型的输⼊，预测输出mesh_x = np.column_stack(

(grid_x.ravel(), grid_y.ravel()))

pred_mesh_y = model.predict(mesh_x)

grid_z = pred_shape(grid_x.shape)

# 看⼀看测试集的分类报告

pred_test_y = model.predict(test_x)

cr = sm.classification_report(

test_y, pred_test_y)

print(cr)

# 绘制这些点

mp.figure('SVM', facecolor='lightgray')

mp.title('SVM', fontsize=16)

mp.xlabel('X', fontsize=14)

mp.ylabel('Y', fontsize=14)

mp.tick_params(labelsize=10)

mp.pcolormesh(grid_x,grid_y,grid_z,cmap='gray')

mp.scatter(x[:,0], x[:,1], s=60,

c=y, label='points', cmap='jet')

mp.legend()

mp.show()

如图：分类的效果明显提升，能分离⼤部分的数据，但是也还不够完美。

激情5月天

径向基核函数: rbf , 通过⾼斯分布函数增加原始样本特征的分布概率作为新的特征. # C: 正则项

# gamma: 正态分布曲线的标准差

model= svm.SVC(

kernel='rbf', C=600, gamma=0.01)

案例：再来试⼀下径向基核函数：

# 基于多项式核函数的svm绘制分类边界

model=svm.SVC(kernel='rbf', C=600, gamma=0.01)

model.fit(train_x, train_y)

本文发布于:2024-09-23 05:34:01，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/570021.html

上一篇：最小二乘支持向量机算法在数据分类中的应用

下一篇：非线性支持向量机

标签：函数分类特征线性样本

留言与评论（共有 0 条评论）