为什么感知机使用"超平面的法向量和截距"而不是直接使用函数?
为什么感知机使用"超平面的法向量和截距"而不是直接使用函数?
感知机是一种监督学习算法,用于解决二分类问题。它的基本思想是通过找到一个超平面来将输入空间划分为两个区域,每个区域对应一个类别。这个超平面由权重向量
w
和偏置
b
定义,其数学表达式为
w·x + b = 0
。
权重向量
w
- w
是超平面的法向量,决定了超平面的方向。在几何上,法向量垂直于超平面,指向分类为正的一侧(或相反,这取决于如何定义正负类别)。 - 权重向量的每个分量对应输入特征空间中的一个维度,其绝对值大小表示该维度对分类决策的重要性,而符号(正负)表示该维度对分类结果的贡献方向。
偏置
b
- b
是超平面的截距,决定了超平面在特征空间中的具体位置。偏置项允许超平面不必须经过原点。 - 偏置可以看作是一个额外的“权重”,对应于一个始终为1的“虚拟”输入特征。这样,权重向量和偏置就可以统一地看作是一个扩展的权重向量,作用于一个扩展的特征向量上。
感知机使用符号函数(sign function)作为决策函数,将输入特征向量映射到输出类别上。符号函数根据输入值(即
w·x + b
)的符号来输出类别标签(+1 或 -1)。当输入值大于等于0时,输出+1;当输入值小于0时,输出-1。
感知机模型的假设空间是定义在特征空间中的所有线性分类模型,即函数集合
{f|f(x) = sign(w·x + b)}。
感知机模型的几何解释是:线性方程
w·x + b = 0
对应于特征空间
R^n
中的一个超平面
S
,其中
w
是超平面的法向量,
b
是超平面的截距。这个超平面将特征空间划分为两个部分,位于两部分的点(特征向量)分别被分为正、负两类。
现在来回答问题:为什么感知机用权重向量的法线(即
w
)而不是直接用函数?
几何直观性:使用权重向量的法线(
w
)和偏置(
b
)可以直观地描述特征空间中的一个超平面。这个超平面是分类的决策边界,法向量
w
确定了超平面的方向,而偏置
b
确定了超平面的位置。简化计算:在感知机的学习算法中,我们需要根据训练数据集来调整权重向量
w
和偏置
b
。使用权重向量的法线和偏置可以简化计算过程,因为我们可以直接对
w
和
b
进行更新,而不需要显式地表示整个超平面或分类函数。灵活性:通过调整权重向量
w
和偏置
b
,感知机模型可以适应不同的数据集和分类任务。这种灵活性使得感知机成为一种通用的二分类线性模型。
注意:虽然感知机模型在几何上是通过超平面来进行分类的,但在实际计算中,我们并不直接操作超平面本身,而是通过操作权重向量
w
和偏置
b
来间接地定义和操作超平面。
本文原文来自CSDN