资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

机器学习——支持向量机

创作时间:

作者:

@小白创作中心

机器学习——支持向量机

引用

CSDN

https://m.blog.csdn.net/CYTLOVELY/article/details/144145946

支持向量机（SVM）是一种基于统计学习理论的监督学习模型，主要用于分类和回归任务。其核心思想是通过构建一个超平面，将不同类别的数据点尽可能地分开。SVM的目标是找到一个最优超平面，这个超平面不仅能将样本分类，同时最大化类别之间的间隔。本文将详细介绍SVM的基本概念、工作原理、核技巧、软间隔、支持向量回归以及实际应用等多个方面。

一、支持向量机概述

支持向量机（SVM）是一种基于统计学习理论的监督学习模型，主要用于分类和回归任务。其核心思想是通过构建一个超平面，将不同类别的数据点尽可能地分开。SVM的目标是找到一个最优超平面，这个超平面不仅能将样本分类，同时最大化类别之间的间隔。

二、SVM的工作原理

1.线性分类

假设我们有一个二维空间中的数据集，数据点可以通过一个直线（超平面）进行分类。在二维空间中，超平面为一条直线。对于一个二分类问题，目标是找到一条直线，使得所有类别为1的点位于直线的某一侧，所有类别为-1的点位于另一侧。

假设数据集为：

SVM通过寻找一个超平面，使得：

即每个样本点都被正确分类，且与超平面的距离至少为1。

2.超平面与最优超平面

超平面

超平面是支持向量机（SVM）分类的核心概念之一。它可以简单地理解为将数据划分为不同类别的一条“分界线”（二维空间）、一个“分界平面”（三维空间）或更高维空间中的一个“分界面”。

在数学上，超平面是一个 d−1维的子空间，它位于 d维空间中，将这个空间分成两个部分。例如：

在二维空间中，超平面是一个一维的直线。
在三维空间中，超平面是一个二维的平面。
在 d 维空间中，超平面是一个 d−1 维的几何对象。

超平面的一般方程可以写成：

其中：

是法向量，决定了超平面的方向。
是样本点的坐标。
b 是偏置项，决定了超平面在空间中的位置。

最优超平面

SVM不仅要找到一个将数据点分类的超平面，还要求间隔最大化。最大化间隔的目的是使得分类器对未知数据具有较强的泛化能力。数学上，间隔是指距离超平面最近的点到超平面的距离，而最大间隔指的是尽量增大这个距离。

分类间隔：分类间隔是指数据点到超平面的最小距离。在SVM中，我们希望分类间隔最大化，即使得超平面尽量远离所有数据点。更大的分类间隔通常意味着更好的泛化能力。
最大化间隔的目标：最小化法向量 w 的大小，因为间隔是，所以要最大化间隔，就等于最小化。
目标函数：

其中，是超平面的法向量的模。

3.支持向量

支持向量是指离超平面最近的那些样本点。它们决定了最优超平面的具体位置。如果移除这些支持向量，超平面就可能发生变化，因此这些点对SVM的训练至关重要。

4.SVM的优化问题

SVM的最优化问题可以通过拉格朗日对偶性转化为一个更易求解的问题。在原始优化问题中，目标是最小化：

并且满足以下约束条件：

通过引入拉格朗日乘子，SVM的优化问题被转换为一个二次规划问题，可以通过求解这个二次规划问题来得到最优的 w 和 b。

拉格朗日对偶形式：

通过引入拉格朗日乘子，优化问题可以转换为对偶问题：

其中是核函数，用于计算高维空间中的内积。

三、核技巧（Kernel Trick）

1.非线性分类

在许多实际问题中，数据集是非线性可分的，即无法通过一个简单的超平面（如直线、平面）将两类样本分开。为了处理这些问题，SVM引入了核函数，通过核函数将数据从低维空间映射到高维空间，使得在高维空间中数据变得线性可分。

核函数的核心思想是：在原始空间中计算数据点的内积，避免了显式地计算高维映射。

2.常见的核函数

线性核：适用于数据本身是线性可分的情况。
多项式核：用于通过多项式将数据映射到更高维空间。

其中，c 是常数，d 是多项式的次数。

高斯径向基核（RBF核）：是一种常用的非线性核函数，能够很好地处理复杂的非线性问题。

其中，是一个正则化参数，控制映射后的空间复杂度。

Sigmoid核：一种类神经网络的核函数，通常用于某些机器学习任务。

通过核函数，SVM能够在高维空间中将非线性问题转化为线性问题，从而得到良好的分类性能。

四、软间隔与惩罚参数C

1.软间隔与松弛变量

在实际问题中，数据通常存在噪声或者不可避免的误差，完全线性可分是非常困难的。为了处理这种情况，SVM引入了软间隔（soft margin）概念。通过引入松弛变量 ξi，允许一些数据点位于超平面错误的一侧，甚至被误分类。

优化问题变为：

其中，是松弛变量，表示第 i 数据点的分类错误程度。C 是惩罚参数，控制分类错误的容忍度。

2.C参数的作用

较大的C：会导致较小的间隔，同时容忍较少的错误分类（即，要求模型尽量避免错误分类）。这样可能导致过拟合。
较小的C：容许更多的错误分类，从而使间隔更大，这可能导致欠拟合。

五、支持向量回归（SVR）

与分类任务类似，SVM也可以用于回归任务，称为支持向量回归（SVR）。SVR的目标是找到一个回归函数，尽量使得大多数数据点都位于该函数的“宽容区间”内，只有少数点位于该区域之外。

SVR的目标函数：最小化并约束回归误差在一个指定的范围内。

六、SVM的优缺点

1.优点

高效处理高维数据：SVM在高维空间中表现良好，尤其是特征空间大于样本空间时。
优秀的泛化能力：通过最大化间隔，SVM通常具有较好的泛化能力。
非线性处理能力强：通过核函数，SVM能够处理复杂的非线性分类任务。

2.缺点

计算复杂度高：对于大型数据集，SVM的训练时间可能非常长，尤其是当数据量非常大的时候。
参数调优困难：SVM的性能对参数 C、核函数及其参数的选择非常敏感。需要通过交叉验证等方法来调节这些参数。
对噪声敏感：SVM对于噪声数据的鲁棒性较差，特别是当数据中的噪声点离超平面很近时，可能会影响结果。

七、实例应用与代码实现

实例：手写数字识别

手写数字识别是一项经典的机器学习任务，目标是从手写数字图像中识别数字（0到9）。MNIST数据集包含28x28像素的灰度图像，每个像素的值在0到255之间。

我们使用支持向量机（SVM）模型来完成多分类任务，通过支持向量机的核技巧处理图像的非线性分布。

步骤

1.数据准备

MNIST数据集已包含训练集（60,000个样本）和测试集（10,000个样本）。为了演示，我们将训练集和测试集缩减到更小的子集（每类样本数为100）。

2.数据预处理

将每张28x28图像展平为一个784维的特征向量。
对特征进行标准化处理，使数据均值为0，方差为1。

3.模型训练

使用SVM的RBF核（高斯核）进行分类建模。
使用交叉验证调整超参数 C 和 γ。

4.模型评估

在测试集上评估分类准确率。

代码

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import classification_report, confusion_matrix

# 加载MNIST数据集
digits = datasets.load_digits()

# 查看数据
print(f"数据维度：{digits.data.shape}")
print(f"标签类别：{np.unique(digits.target)}")

# 提取特征和标签
X = digits.data
y = digits.target

# 数据集划分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 数据标准化
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# 设置SVM参数网格搜索
param_grid = {'C': [0.1, 1, 10], 'gamma': [0.01, 0.1, 1]}
svc = SVC(kernel='rbf')
grid_search = GridSearchCV(svc, param_grid, cv=3, scoring='accuracy', verbose=1)
grid_search.fit(X_train, y_train)

# 输出最优参数
print("最佳参数：", grid_search.best_params_)

# 使用最优参数训练模型
best_svc = grid_search.best_estimator_
best_svc.fit(X_train, y_train)

# 在测试集上预测
y_pred = best_svc.predict(X_test)

# 输出分类报告
print("\n分类报告：\n", classification_report(y_test, y_pred))

# 混淆矩阵可视化
conf_matrix = confusion_matrix(y_test, y_pred)
plt.figure(figsize=(8, 6))
plt.imshow(conf_matrix, interpolation='nearest', cmap=plt.cm.Blues)
plt.title("Confusion Matrix")
plt.colorbar()
plt.ylabel("True Label")
plt.xlabel("Predicted Label")
plt.show()

# 可视化部分测试结果
fig, axes = plt.subplots(1, 10, figsize=(10, 3))
for i, ax in enumerate(axes):
    ax.set_axis_off()
    ax.imshow(X_test[i].reshape(8, 8), cmap=plt.cm.gray_r, interpolation='nearest')
    ax.set_title(f'Pred: {y_pred[i]}')
plt.show()