首页 > 学术百科

支持向量机(SVM)公式整理

⽀持向量机（SVM）公式整理

⽀持向量机可以分为三类：

线性可分的情况 ==> 硬间隔最⼤化 ==> 硬间隔SVM

近似线性可分的情况 ==> 软间隔最⼤化 ==> 线性⽀持向量机

线性不可分的情况 ==> 核技巧/软间隔最⼤化 ==> ⾮线性SVM

硬间隔向量机（hard margin svm）

任务：寻⼀条与所有⽀持向量距离最远的决策边界，这条决策边界就是0 = w^T X + b，即：

w^T X_i + b > 0 , y_i > 0 \\ w^T X_i + b < 0 , y_i < 0

所以问题可以描述为：

max \; margin(x,b) \_i(w^T+b)>0 \\ margin(w,b) = min \; distance(w,b,x_i) = min \frac{1}{|w|}|w^Tx_i+b|

带换⼀下也就是

max \; min \frac{1}{|w|}|w^Tx_i+b| ==> max \frac{1}{|w|} \; min |w^Tx_i+b| \\ s.t. y_i(w^Tx_i+b)>0 \; ==>\; \exists r > 0 , min \; y_i(w^T+b)=r

⽤r来表⽰就是：

max \frac{r}{|w|}\\\\ \exists r > 0 , min \; y_i(w^T+b)=r

这⾥我的理解是：因为wx_i+b=r ==> \frac{w}{r} x_i + \frac{b}{r}=1，所以不管r取什么值，w=\frac{w_0}{r}，b=\frac{b_0}{r}，所以r的取值所带来的影响会被最后的w和b所融合进去，所以r=1也没关系。最终的问题可以描述为(这⾥是N个不等式)：

max \frac{1}{2}|w|^2 \\ s.t. \; y_i(w^T+b)-1>=0 \qquad i=1,2,3,...,N

构造拉格朗⽇函数，引⼊N个参数\alpha，转换成对偶函数如下(⼤括号表⽰不出来我也很绝望)：

min \frac{1}{2} \cdot \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_i \alpha_{j} y_{i} y_{j}\left(x_{i} \cdot x_{j}\right)-\sum_{i=1}^{N} x_{i} \\ s.t.\sum_{i=1}^{N}

\alpha_{i} y_{i}=0 \\ \alpha_i >=0 \; i = 1,2,3,.. N

使⽤KKT条件，得到的解：

w^{*}=\sum_{i=1}^{N} \alpha_{i}^{*} y_{i} x_{i}

泊松比b^{*}=y_{j}-\sum_{i=1}^{N} a_{i}^{*} y_{i}\left(x_{i} \cdot x_{j}\right)

最终的解是：

w^{*}x+b^{*}=0

f(x) = sign(w^{*}x+b^{*})

软间隔向量机（soft margin svm）

软间隔向量机采⽤合页损失函数，真实数据中，严格线性可分的数据很少。合页损失函数允许分类时的⼀点点误差。损失函数如下：

1- y_{i}\left(w^{\top} x_{i}+b\right) \leqslant0, \quad loss=0 \\ 1-y_{\overline{2}}\left(w^{\top} x_{i}+b\right) >0, \quad loss =1-y_{i}\left(w^{\top} x_{i}+b\right)

也就是，正确分类并且函数间隔⼤于1时没有误差，错误分类时，距离决策边界越远的点，受到的惩罚越⼤。使⽤合页函数的做优化问题可以表⽰为：

\min \sum_{i}^{N}\left(1-y_{i}\left(w^{T} x_{i}+b\right)\right)_{+}+\lambda\|w\|^{2}

令\xi_{i}=1-y_{i}(w^{T} x_{i}+b), \quad \xi_{i} \geqslant 0，则，分两种情况：

1、1-y_{i}(w^{T} x_{i}+b)>0 ==> \xi_i =1-y_{i}\left(w^{T} x_{i}+b\right) ==> y_i(wx+b)=1-\xi_i

2、1-y_{i}(w^{T} x_{i}+b)\leqslant0 ==> y_i(wx+b)\leqslant1 ==> y_i(wx+b)\leqslant1-\xi_i (\xi_i=0)

综合上⾯两种情况，可以直接写为：y_i(wx+b)\leqslant1-\xi_i，这样的话，最优化函数就变成了下⾯的样⼦：

min \frac{1}{2} w^{T}w+C\sum_{i=1}^{N} \xi_{i} \\ s.t. y_{i}\left(w^{T} x_{i}+b\right) \geqslant 1-\xi_{i}, \quad \xi_{i} \geqslant 0

这两个式⼦是等价的。再《统计学习⽅法》中，先给出了后⾯的式⼦，再介绍了合页损失函数潘神的迷宫好看吗

这两个式⼦转换成等价的对偶函数如下：

\underset{\alpha}{min} \frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j}y_{i} y_{j}\left(x_{i}x_{j}\right)-\sum_{i=1}^{n} \alpha_{i} \\ s.t.

日本之家

\sum_{i=1}^{N}\alpha_iy_i=0 \qquad \\ 0\leq \alpha_i \leq C, \;i=1,2,...N

对偶函数的解是：

w=\sum_{i=1}^{N} \alpha_{i} y_{i} x_{i}

b=y_{j}-\sum_{i=1}^{N} a_{i} y_{i}\left(x_{i} \cdot x_{j}\right)

决策函数是：

f(x)=sign (\sum_{1}^{N} \alpha_{i} y_{i}(x \cdot x_{i})+b^{*})

KKT条件

\frac{\alpha f}{\alpha w}=0, \frac{\alpha f}{\alpha b}=0, \frac{\alpha f}{\alpha \lambda}=0

\lambda_{i}(1-y_{i}(w^{T} x_{i}+b))=0

\lambda_i=0

(1-y_{i}(w^{T} x_{i}+b))<0

对于\lambda_{i}(1-y_{i}(w^{T} x_{i}+b))=0只要\lambda_i \neq0 ，就有1-y_{i}(w^{T} x_{i}+b=0，也就是说x_i再决策边界上，x_i是⽀持向量

原问题与对偶问题育有强对偶关系 <===> 满⾜KKT条件

⾮线性⽀持向量机（核函数）

核函数可以对特征进⾏升维（当然，不⼀定⾮要是升维，也可能是转换到另⼀个空间），⾼维空间的运算量巨⼤，所以直接使⽤低维的计算结果，作为两个⾼维向量的内积：

\phi (x_1, x_2) * \phi (x_1^{'}, x_2^{'}) = (z_1, z_2, z_3)*(z_1^{'}, z_2^{'}, z_3^{'}) \\\\ = (x_1^2, \sqrt{2}x_1 x_2, x_2^2)(x_1^{'2}, \sqrt{2}x_1^{'} x_2^{'},

x_2^{'2}) \\\\ = (x_1 x_1^{'} + x_2 x_2^{'}) = (xx^{'})^2 =K(x, x^{'})

核函数等价于两个映射哈函数的内积，不过，这个映射函数不需要⼿动指出。因为当两个映射函数相乘时，内积的结果可以⽤核函数表⽰。⽽映射函数在最优化问题中都是成对出现的。即出现映射函数的地⽅都可以⽤核函数替代。

如果⽤映射函数将x映射到⾼维空间，那么应该⽤⾼维向量替换x所在的位置：

\frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j}y_{i} y_{j}\left(x_{i}x_{j}\right)-\sum_{i=1}^{n} \alpha_{i}

\frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j}y_{i} y_{j}\left(\phi(x_{i})\phi(x_{j})\right)-\sum_{i=1}^{n} \alpha_{i}英汉对比

\frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j}y_{i} y_{j}\left(K(x_{i}, x_{j})\right)-\sum_{i=1}^{n} \alpha_{i}

那么最终拟合的结果也应该是由⾼维向量表⽰的：

f(x)=sign (\sum_{1}^{N} \alpha_{i} y_{i}(\phi(x)\phi(x_{i}))+b^{*})

f(x)=sign (\sum_{1}^{N} \alpha_{i} y_{i}(K(x,x_i))+b^{*})

⾼斯核函数（RBF）

正太分布：

f(x)=\frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{(x-\mu)^{2}}{2 \sigma^{2}}\right)

老年人同居有啥好处

⾼斯核函数：

K(x, y)=e^{-\gamma\|x-y\|^{2}}

广告销售老鸟成长记

对于正态分布来说：\sigma是标准差，\sigma越⼩，曲线越窄。\sigma越⼤，曲线越宽

对于⾼斯核函数来说：\gamma的值越⼤，曲线越窄;\gamma的值越⼩，曲线越宽;

Processing math: 0%

本文发布于:2024-09-21 22:11:39，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/569881.html

上一篇：支持向量机算法(SVM)详细讲解(含手推公式)(《机器学习》--周志华...

下一篇：支持向量机回归算法

标签：函数向量损失合页问题线性

留言与评论（共有 0 条评论）