问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

机器学习——支持向量机(SVM)

创作时间:
作者:
@小白创作中心

机器学习——支持向量机(SVM)

引用
CSDN
1.
https://blog.csdn.net/weixin_73923138/article/details/139596319

一、SVM介绍

支持向量机是一种二分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,其学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解。支持向量机的学习算法是求解凸二次规划的最优化算法。

SVM

以二维数据为例,如果训练数据分布在二维平面上的点,它们按照其分类聚焦在不同的区域。基于分类边界的分类算法的目标:通过训练,找到这些分类之间的边界(如果是直线的,称为线性划分,如果是曲线的,称为非线性划分)。

对于一个数据集合可以画一条直线将两组数据点分开,这样的数据成为线性可分(linearly separable),如下图所示:

分割超平面:将上述数据集分隔开来的直线成为分隔超平面。对于二维平面来说,分隔超平面就是一条直线。对于三维及三维以上的数据来说,分隔数据的是个平面,称为超平面,也就是分类的决策边界。

间隔:点到分割面的距离,称为点相对于分割面的间隔。数据集所有点到分隔面的最小间隔的2倍,称为分类器或数据集的间隔。论文中提到的间隔多指这个间隔。SVM分类器就是要找最大的数据集间隔。

支持向量:离分隔超平面最近的那些点。

SVM所做的工作就是找这样个超平面,能够将两个不同类别的样本划分开来,但是这种平面是不唯一的,即可能存在无数个超平面都可以将两种样本分开,那么我们如何才能确定一个分类效果最好的超平面呢?

Vapnik提出了一种方法,对每一种可能的超平面,我们将它进行平移,直到它与空间中的样本向量相交。我们称这两个向量为支持向量,之后我们计算支持向量到该超平面的距离d,分类效果最好的超平面应该使d最大。

二、算法分析

2.1 线性可分

在线性可分的二类分类问题中,超平面就是一条直线。如下图就是一个线性可分的两类样本(蓝色球和红色球),我们可以找到一条直线,将两个类别分开:

2.2 线性不可分

很多问题的样本因为特征的多样化往往不是线性可分的,单单通过两个特征不足以来分类成两个类别。但是如果通过多个特征或许就可以找到一个办法来分类。也就是说提升空间维度,可以将低维线性不可分问题转换成高维的线性可分问题。以下图例子,二维空间样本线性不可分,但是提升到三维空间就能用超平面分隔开来,变成线性可分:

2.3 核函数

随着维度的增加,会存在一个问题,那就是计算量会以几何级数增加。

核函数的作用:接受两个低维空间里的向量,能够计算出经过某个变换后在高维空间里的向量内积值。

常见的核函数有:

2.4 寻找最大间隔

(1)分隔超平面

二维空间一条直线的方程为,y=ax+b,推广到n维空间,就变成了超平面方程,即

w是权重,b是截距,训练数据就是训练得到权重和截距。

(2)如何找到最好的参数

支持向量机的核心思想: 最大间隔化, 最不受到噪声的干扰。如上图所示,分类器A比分类器B的间隔(蓝色阴影)大,因此A的分类效果更好。

SVM划分的超平面:f(x) = 0,w为法向量,决定超平面方向,

假设超平面将样本正确划分

  f(x) ≥ 1,y = +1

  f(x) ≤ −1,y = −1

间隔:r=2/|w|

约束条件:

三、代码实现

实现一个简单的线性SVM模型

生成一个二分类数据集


X, y = make_blobs(n_samples=100, centers=2, random_state=42)  

将数据集分为训练集和测试集


X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)  

训练SVM模型


svm = SVC(kernel='linear')  

svm.fit(X_train, y_train)  

绘制数据点和分隔超平面


plt.scatter(X[:, 0], X[:, 1], c=y, cmap='bwr')  

ax = plt.gca()  

xlim = ax.get_xlim()  

ylim = ax.get_ylim()  

xx = np.linspace(xlim[0], xlim[1], 30)  

yy = np.linspace(ylim[0], ylim[1], 30)  

YY, XX = np.meshgrid(yy, xx)  

xy = np.vstack([XX.ravel(), YY.ravel()]).T  

Z = svm.decision_function(xy).reshape(XX.shape)  

绘制分类边界


ax.contour(XX, YY, Z, colors='k', levels=[-1, 0, 1], alpha=0.5,  

               linestyles=['--', '-', '--'])  

ax.scatter(svm.support_vectors_[:, 0], svm.support_vectors_[:, 1], s=100,  

                   linewidth=1, facecolors='none', edgecolors='k')  

plt.xlabel('Feature 1')  

plt.ylabel('Feature 2')  

plt.title('SVM Classifier')  

plt.show()  

3.1 完整代码


# 导入所需的库  

import numpy as np  

from sklearn.datasets import make_blobs  

from sklearn.model_selection import train_test_split  

from sklearn.svm import SVC  

import matplotlib.pyplot as plt  

from sklearn.metrics import accuracy_score  

# 生成一个二分类数据集  

X, y = make_blobs(n_samples=100, centers=2, random_state=42)  

# 将数据集分为训练集和测试集  

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)  

# 创建并训练SVM模型  

svm = SVC(kernel='linear')  

svm.fit(X_train, y_train)  

# 在测试集上进行预测  

y_pred = svm.predict(X_test)  

# 绘制数据点和分隔超平面  

plt.scatter(X[:, 0], X[:, 1], c=y, cmap='bwr')  

ax = plt.gca()  

xlim = ax.get_xlim()  

ylim = ax.get_ylim()  

xx = np.linspace(xlim[0], xlim[1], 30)  

yy = np.linspace(ylim[0], ylim[1], 30)  

YY, XX = np.meshgrid(yy, xx)  

xy = np.vstack([XX.ravel(), YY.ravel()]).T  

Z = svm.decision_function(xy).reshape(XX.shape)  

# 绘制分类边界  

ax.contour(XX, YY, Z, colors='k', levels=[-1, 0, 1], alpha=0.5,  

               linestyles=['--', '-', '--'])  

ax.scatter(svm.support_vectors_[:, 0], svm.support_vectors_[:, 1], s=100,  

                   linewidth=1, facecolors='none', edgecolors='k')  

plt.xlabel('Feature 1')  

plt.ylabel('Feature 2')  

plt.title('SVM Classifier')  

plt.show()  

# 计算准确率  

acc = accuracy_score(y_test, y_pred)  

print("Accuracy: ", acc)  

3.2 结果展示

Accuracy: 1.0

四、总结

优点:

  • 计算复杂性取决于向量数目而不是样本空间维数

  • 可以处理线性不可分

  • 可实现特征空间划分的最优超平面

  • 可以解决小样本情况下的机器学习问题,简化了通常的分类和回归等问题。

缺点:

  • 经典的支持向量机算法只给出了二分类的算法,而在数据挖掘的实际应用中,一般要解决多分类问题,但支持向量机对于多分类问题解决效果并不理想。

  • 支持向量机算法对大规模训练样本难以实施。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号