训练样本集
样本点:D={(x1,y1),(x2,y2),⋯,(xm,ym)}
样本标记:yi={−1,+1}
划分超平面
wTx+b=0
其中w为垂直于超平面的法向量;
支持向量
假设超平面(w,b)可以将样本正确分类,存在(xi,yi)∈D,使得:
{yi=+1,yi=−1,wTxi+b>0wTxi+b<0
若超平面能将样本正确分类,则存在w和b的缩放变换
{wTxi+b≥+1,wTxi+b≤−1,yi=+1yi=−1(1)
距离超平面最近的几个样本点,使(1)式成立,这些样本点被称为“支持向量”,其符合条件:
yi(wTxi+b)=1
最大间隔
根据点到直线的距离公式,任意样本点到超平面的距离为:
r=∥w∥∣wTx+b∣
正负样本支持向量到超平面距离之和:
γ=r++r−=∥w∥∣+1∣+∥w∥∣−1∣=∥w∥2
使γ最大化,寻找到具有“最大间隔”的划分超平面
w,bmax∥w∥2s.t. yi(wTxi+b)≥1,i=1,2,⋯,m
SVM基本模型
最大化∥w∥−1等价于最小化∥w∥2,所以整理公式得:
w,bmin21∥w∥2s.t. yi(wTxi+b)≥1,i=1,2,⋯,m(2)
该式的意义:在保障超平面正确分类的前提条件下,支持向量离超平面越远越好。
该式的表述状态满足拉尔朗日乘子法的优化要求,但因为约束条件是不等式,该式需满足KKT条件
对偶问题:拉格朗日乘子法
使用拉格朗日乘子法,可使(2)式中对w,b最小化问题转化为对偶问题,即:
w,bmin αmaxL(w,b,α)=αmax w,bminL(w,b,α)
对(2)式中的条件约束添加拉格朗日乘子αi≥0,因为是约束条件,所以构造的条件函数必须是小于0的形式:
L(w,b,α)=21∥w∥2+i=1∑mαi[1−yi(wTxi+b)](3)
因为是不等值约束,(3)式需满足KKT条件:
⎩⎪⎨⎪⎧αi≥0yi(wTxi+b)−1≥0αi[yi(wTxi+b)−1]=0乘子基本条件约束基本条件原函数与约束函数正交边界
因为是求最小化的问题,那么令L(w,b,α)对w和b的偏导为0,得:
∂w∂L(w,b,α)=w−i=1∑mαxiyi=0(4)
∂b∂L(w,b,α)=αiyi=0(5)
将(5)式带入(3)式中化简,得:
L(w,b,α)=21i=1∑mαixiyij=1∑mαjxjyj−i=1∑mαixiyij=1∑mαjxjyj+i=1∑mαi−i=1∑mαiyib=i=1∑mαi−21i=1∑mαixiyij=1∑mαjxjyj将(4)式带入=i=1∑mαi−21i=1∑mj=1∑mαiαjyiyjxiTxj s.t.i=1∑mαiyi=0,αi≥0,i=1,2,⋯,m
从KKT条件可以看出,对于任意训练样本集(xi,yi),总有两情况:
- 当αi=0时,样本点满足 yi(wTxi+b)>1,即样本点在支持向量所构成的超平面以外。
- 当yi(wTxi+b)=0时,样本点就是支持向量。