反比例光滑支撑向量机
Inverse Proportional Smooth Support Vector Machine

作者: 吴 振 , 宇振盛 :上海理工大学,理学院,上海;

关键词: 光滑支撑向量机反比例光滑函数BFGS算法Smooth Support Vector Machine Inverse Proportional Smoothing Function BFGS Algorithm

摘要: 为了提高光滑支撑向量机模型的分类性能,文章给出了一种新的光滑函数反比例函数,并利用光滑技术克服了支撑向量机模型的不可微性,通过数学理论上严谨的论证和分析,证明了所给出光滑函数的性质和基于此光滑函数所建立的反比例光滑支撑向量机模型(ISSVM)的收敛性。实验数值表明,反比例光滑支撑向量机比多项式光滑支撑向量机在分类性能上更有优越性。

Abstract: In order to improve the classified performance of smooth support vector machine model, a new smoothed function inverse proportional function is presented, and smoothing technique is used to overcome the non-differentiability of support vector machine model. Through rigorous demonstration and analysis in mathematical theory, the properties of the given smoothing function and the convergence of the inverse proportional smoothing support vector machine (ISSVM) model based on the smoothing function are proved. The experimental results show that the inverse proportional smoothing support vector machine is superior to the polynomial smoothing support vector machine in classified performance.

1. 引言

2001年Lee等人通过对支撑向量机的深入研究引入光滑的概念,使用了sigmoid积分函数p(x,α)对无约束的支撑向量机模型SVM [1] 进行光滑化,得出了分类性能较好的光滑支撑向量机SSVM [2]。继而使用Newton-Armijo算法对SSVM进行求解,结果展现出了SSVM比标准SVM具有更好的分类性能和较高的计算效率,从此光滑函数作为SSVM模型的核心引起了人们的广泛关注,并开辟了支撑向量机的一个新的研究方向。

2005年文献 [3] 提出了两个多项式光滑函数,同时对无约束的支撑向量机模型进行光滑化处理,引出了PSSVM模型。可以证明,PSSVM比SSVM有更好的分类性能。之后文献 [4] 提出了三阶样条光滑函数,从而引出了新的支撑向量机的TSSVM模型。通过分析TSSVM模型的收敛性,并通过数据实验可以说明TSSVM分类器的效果要更优。2008年,文献 [5] 提出了六阶光滑函数,此光滑函数逼近正号函数的精度比三阶样条光滑函数更是高了一个数量级。2014年,吴青等人在此基础上提出指数光滑支持向量分类机 [6] 的模型,证明了其收敛性并通过数值实验表明了指数光滑支持向量机比多项式光滑支持向量机在分类性能上更有优势。

很明显可以得知,光滑支撑向量机的分类性能随着光滑函数的逼近精度提高而改善,那么,能否寻求一种新的光滑函数使得光滑支撑向量机的分类性能获得提升,一直是学者研究关于相关SVM问题的热点。本文通过借鉴指数光滑支持向量机模型中指数光滑函数的性质对反比例函数的研究提出了新的光滑函数,并对支撑向量机模型光滑化处理得出了反比例光滑支撑向量机。

2. 反比例光滑函数

根据光滑函数是支撑向量机研究的重点,依据反比例函数的一些性质,提出反比例光滑函数

i ( x , k ) = { x , x > 1 10 k 1 10 k ( 2 10 k x ) , x 1 10 k

性质1已知光滑函数 i ( x , k ) 并且 x + 是正号函数,那么

1) i ( x , k ) 关于x一阶光滑。

2) 当 x k > 0 时, i ( x , k ) 0

证明 对函数 i ( x , k ) 关于变量x求一阶导得分段函数

i ( x , k ) = { 1 , x > 1 10 k 1 ( 2 10 k x ) 2 , x 1 10 k

因为 i ( x , k ) 在分段点处左右极限存在并且左极限

lim x 1 10 k 1 ( 2 10 k x ) 2 = 1

与右极限相等,故为 i ( x , k ) 在整个区间连续,又因

i ( x , k ) = { 0 , x > 1 10 k 20 k ( 2 10 k x ) 3 , x 1 10 k

在分段点处左右极限皆存在,但其右极限为0而左极限非0,所以 i ( x , k ) 在断点处不连续。综上可知 i ( x , k ) 关于x一阶光滑。

x 并且 k > 0 时,对 i ( x , k ) 求极限,即得

lim x 1 10 k ( 2 10 k x ) = 0

性质2已知光滑函数 i ( x , k ) 并且 x + 是正号函数,那么

1) i ( x , k ) x +

2) 对于 x ( , + ) ,当 k > 0 时,有

i 2 ( x , k ) x + 2 0.00131105 1 k 2

证明 当 x > 1 10 k 时,显然有 i ( x , k ) x + ,而当 0 x 1 10 k 时,构造函数

f 1 ( x , k ) = i ( x , k ) x + = 1 10 k ( 2 10 k x ) x

f 1 ( x , k ) 求导得

f 1 ( x , k ) = 1 ( 2 10 k x ) 2 1 < 0 ( 0 x 1 10 k )

f 1 ( x , k ) ( 0 , 1 10 k ) 内单调递减,又因 f 1 ( x , k ) x = 1 10 k 处取得最小值0,因此

f 1 ( x , k ) = i ( x , k ) x + 0

也即 i ( x , k ) x + 。另当 x < 0 时,显然有

f 2 ( x , k ) = i ( x , k ) 0 = 1 10 k ( 2 10 k x ) > 0

因此也有 i ( x , k ) x + 。综上可得结论(1)。

x 1 10 k 时,结论(2)显然成立。当 0 < x < 1 10 k 时, x + = x ,于是对

g 1 ( x , k ) = i 2 ( x , k ) x 2 = 1 100 k 2 ( 2 10 k x ) 2 x 2

关于x求导得

g 1 ( x , k ) = 1 5 k ( 2 10 k x ) 3 2 x

用二分法 [7] 求得导函数的零点为

x 0 = 0.020312 1 k

可求得 g 1 ( x , k ) x 0 处取得最大值为

g 1 ( x 0 , k ) = 0.00131105 1 k 2

另当 x < 0 时, x + = 0 ,于是

g 2 ( x , k ) = i 2 ( x , k ) = 1 100 k 2 ( 2 10 k x ) 2

( , 0 ] 上单调递增,且其最大值

g 2 ( 0 , k ) = 1 400 k 2 = 0.0025 1 k 2

综上可知结论(2)成立,且

i 2 ( x , k ) x + 2 0.00131105 1 k 2 < 0.0188 1 k 2

性质2表明了反比例光滑函数对正号函数的逼近精度比六阶光滑函数提高了一个数量级。

光滑因子为 k = 10 时,各个光滑函数对正号函数的逼近程度如图1所示,从中可见,反比例光滑函数的逼近效果更好。

Figure 1. The approximating degree of smooth functions

图1. 不同光滑函数的逼近程度

3. ISSVM模型及其收敛性

由软间隔支撑向量机的原始型和对偶形式我们可以对其进行求解得到 α i * ,于是分类函数

f ( x ) = sign [ i = 1 m y i α i * ( φ ( x i ) , φ ( x ) ) + b * ] = sign [ i = 1 m y i α i * K ( x i , x ) + b * ] (1)

其中

b * = 1 m i = 1 m ( y i i = 1 m y i α j * ( φ ( x j ) , φ ( x i ) ) ) (2)

M = ( x 1 , x 2 , , x m ) T

x i = ( x i 1 , x i 2 , , x i n ) ( i = 1 , 2 , , m )

e = ones ( m , 1 ) D = diag ( y 1 , y 2 , , y m ) H = D K ( M , M T ) D

则原始问题改写为

{ min α , b 1 2 α T H α + C e T ξ s .t . D ( K ( M , M T ) D α + e b ) e + ξ 0 , ξ 0 (3)

对于任何核函数,上式均是个凸二次规划问题,不妨取 H = I ,同时用b衡量分类间隔 ( 2 ( w , b ) 2 ) ,于是在对偶问题中 b = e T D α ,同时让松弛变量 ξ T ξ 最小,则(3)式转化为

{ min α , b 1 2 ( α T α + b 2 ) + c 2 ξ T ξ s .t . D ( K ( M , M T ) D α + e b ) e + ξ 0 , ξ 0 (4)

由约束条件知,

ξ = ( e D ( K ( M , M T ) D α + e b ) ) +

这里是非光滑的。将其代入问题(12),得到一个强凸无约束优化问题

min α , b 1 2 ( α T α + b 2 ) + c 2 ( e D ( K ( M , M T ) D α + e b ) ) + 2 (5)

有唯一解。

我们用反比例函数对上述无约束支撑向量机模型SVM进行光滑化,可以得到一个新的光滑支撑向量机模型

min α , b 1 2 ( α T α + b 2 ) + c 2 i ( e D ( K ( M , M T ) D α + e b ) , k ) 2 2 (6)

称之为ISSVM模型。

ω = α , γ = b , A = K ( M , M T ) D ,则上式可化为

min ω , γ 1 2 ( ω T ω + γ 2 ) + c 2 i ( e D ( A ω e γ ) , k ) 2 2

分析反比例光滑支撑向量机模型,可以证明此模型收敛。该模型的最优解在 k + 时无限逼近无约束SVM模型的最优解。

定理1设 A m × n b m × 1 ,定义实函数

f + ( x ) : n

f + ( x ) = 1 2 ( A x b ) + 2 2 + 1 2 x 2 2

f i ( x , k ) : n ×

f i ( x , k ) = 1 2 i ( A x b , k ) 2 2 + 1 2 x 2 2

则有结论

1) f + ( x ) f i ( x , k ) 都是强凸函数。

2) 优化函数 min x f + ( x ) 存在唯一解 x * ,优化函数 min x f i ( x , k ) 存在唯一解 ( x * ) k

3) 对于任意的 k 1 ,有

( x * ) k x * 2 0.00131105 m 2 k 2

4) x * ( x * ) k 满足

lim k ( x * ) k = x *

证明因为 2 2 具有强凸性,所以 f + ( x ) f i ( x , k ) 也满足强凸性质。

由性质1可知,水平集 L v ( f i ( x , k ) ) 和水平集 L v ( f + ( x ) ) 满足

L v ( f i ( x , k ) ) L v ( f + ( x ) ) { x : x 2 2 v } ( v 0 )

因此它们都是 n 中的紧子集,从而有 min x f + ( x ) min x f i ( x , k ) 都有解存在,而由 min x f + ( x ) min x f i ( x , k ) 的强凸性可得解具有唯一性。

5) 我们不妨假设 x * ( x * ) k 分别是 min x f + ( x ) min x f i ( x , k ) 的唯一解,则有

f + ( ( x * ) k ) f + ( x * ) f + ( x * ) ( ( x * ) k x * ) + 1 2 ( x * ) k x * 2 2 = 1 2 ( x * ) k x * 2 2

f i ( x * , k ) f i ( ( x * ) k , k ) f i ( ( x * ) k , k ) ( x * ( x * ) k ) + 1 2 ( x * ) k x * 2 2 = 1 2 ( x * ) k x * 2 2

两式相加得

( x * ) k x * 2 2 ( f i ( x * , k ) f + ( x * ) ) ( f i ( ( x * ) k , k ) f + ( ( x * ) k ) ) f i ( x * , k ) f + ( x * ) = 1 2 i ( A x * b , k ) 2 2 1 2 ( A x * b ) + 2 2

又根据性质2可知

( x * ) k x * 2 0.00131105 m 2 k 2

根据上式可知

lim k ( x * ) k x * 2 lim k 0.00131105 m 2 k 2 = 0

因此

lim k ( x * ) k = x *

4. 求解ISSVM模型的BFGS算法

由性质1可知光滑函数 i ( x , k ) 是一阶光滑函数,我们可选用BFGS算法 [8] [9] 来对上述ISSVM模型进行优化。其具体算法步骤如下:

步骤1初始化

H 0 = I , ( ( ω 0 ) , γ 0 ) = p 0 n + 1 , ε = 10 8 , α 0 = I , i = 0 ,

其中I为单位矩阵。

步骤2计算

F i = F ( p i , k ) , g i = F ( p i , k ) ,

其中 F ( p i , k ) 指光滑函数。

步骤3如果

g i 2 2 ε 或迭代次数达到最大,那么迭代停止,并取 ( ( ω i ) T , γ i ) = p i 为ISSVM模型的最优参数解;

否则计算梯度方向 d i = H i g i

步骤4沿着方向 d i 采用线搜索计算步长 α i ,于是有

s i = α i H i g i

再计算出

F i + 1 = F ( p i + 1 , k ) , g i + 1 = F ( p i + 1 , k ) , y i = g i + 1 g i

步骤5计算

H i + 1 = ( I s i ( y i ) T ( s i ) T y i ) H i ( I y i ( s i ) T ( s i ) T y i ) + s i ( s i ) T ( s i ) T y i

步骤6令 i = i + 1 ,转步骤2。

5. 数值实验

对于SSVM,FSSVM,TSSVM,ESSVM和ISSVM5种模型采用BFGS算法求解无约束优化模型,算法采用的最大的迭代次数为1000,且取 ε = 10 8 。使用matlab2018a作为运行环境,实验结果记录CPU耗时、样本分类的训练正确率和测试正确率,根据这3个指标对这五种模型的分类性能进行比较和分析。

实验1 为了说明ISSVM具有解决大规模数据集的能力,采用的数据集是NDC数据集 [10],数据集的样本数数量级至少在万以上。在采用BFGS算法对模型进行求解时,为求结果的准确性,对训练数据使用10折交叉验证方法 [11]。结果如表1所示。

Table 1. Experiment of NDC data set

表1. NDC数据集实验

表1可知,新提出的反比例光滑支撑向量机ISSVM模型具有解决大规模数据问题的能力,并且在分类正确率和测试正确率上都有着较好的表现。在解决大规模数据问题时,ISSVM在CPU耗时和正确率上有着一定的优势。

数值实验数据来自用python编写的随机线性不可分数据集,统共样本数据有1200样本,测试样本有288个,每个样本有29个特征,采用了高斯核来将其映射到高维特征空间上得到分类结果如图2~5。

Figure 2. The result (1) of classification

图2. 分类结果(1)

Figure 3. The result (2) of classification

图3. 分类结果(2)

Figure 4. The result (3) of classification

图4. 分类结果(3)

Figure 5. The result (4) of classification

图5. 分类结果(4)

可以看出在小规模数据集下其分类的正确率都有着良好的性质。

除此之外,我们还补充了对于非线性数据集Checkerboard数据集的实验结果。当采用的核函数为高斯核函数 K ( x , y ) = exp ( μ x y 2 ) 时 [12] 结果如表2所示:

Table 2. Experiment of checkerboard data set

表2. Checkerboard数据集实验

表2可知,ISSVM在处理非线性数据时,其耗时最短并且有着更高的分类正确率和测试正确率,说明了ISSVM处理非线性数据集的性能更好。

6. 结语

本文给出了一种新的光滑函数反比例函数,并基于光滑支撑向量机的过程应用此光滑反比例函数建立了ISSVM模型。与以往的光滑函数如多项式光滑函数、sigmoid积分函数、样条光滑函数等相比较而言,其逼近正号函数的精度提高了不同的数量级。实验数据表明,该反比例光滑支撑向量机模型对于大数据集具有较好的分类性能,相比于三阶样条光滑支撑向量机模型等而言,反比例光滑支撑向量机模型对线性数据分类所花费的时间更短且正确率也有所提升,整体比较来说对于非线性数据也能有较好的分类性能。反比例光滑函数相比其他光滑函数有着逼近程度更强的能力,反比例光滑支撑向量机相比于其他光滑支撑向量机模型的性能也更优越。

参考文献

文章引用: 吴 振 , 宇振盛 (2020) 反比例光滑支撑向量机。 运筹与模糊学, 10, 278-288. doi: 10.12677/ORF.2020.104029

参考文献

[1] Vapnik, V.N. (1995) The Nature of Statistical Learning Theory. Spring Verlag, New York, 1-299.
https://doi.org/10.1007/978-1-4757-2440-0_1

[2] Lee, Y.J. and Mangasarian, O.L. (2001) SSVM: A Smooth Support Vector Machine for Classification. Computational Optimization and Applications, 20, 5-22.
https://doi.org/10.1023/A:1011215321374

[3] 袁玉波, 严杰, 徐成贤. 多项式光滑的支撑向量机[J]. 计算机学报, 2005, 28(1): 9-17.

[4] Yuan, Y.B., Fan, W.G. and Pu, D.M. (2007) Spline Function Smooth Support Vector for Classification. Journal of Industrial and Management Optimization, 3, 529-542.
https://doi.org/10.3934/jimo.2007.3.529

[5] 黄仁泰, 熊金志. 一个支持向量机的新光滑函数及其性能分析[J]. 计算机工程与应用, 2008, 44(18): 64-65.

[6] 吴青, 王婉, 王玲芝. 指数光滑支持向量分类机[J]. 西安邮电大学学报, 2014, 19(4): 9-14.

[7] Song, J.L., Gan, X.B. and Song, D.X. (2004) Nonlinear Global Optimization Based on Bisection Method. Journal of Information and Computational Science, 1, 229-233.

[8] Yuan, Y.B. and Byrd, R. (1995) Non-Quasi-Newton Updates for Unconstrained Optimization. Journal of Computing Mathematics, 13, 95-107.

[9] Yuan, Y.B. (1991) A Modified BFGS Algorithm for Uncontrained Optimization. IMA Journal of Nu-merical Analysis, 11, 325-332.
https://doi.org/10.1093/imanum/11.3.325

[10] 吴青, 赵雄. 一类新样条光滑支持向量机[J]. 西安邮电大学学报, 2013, 18(6): 68-74.

[11] Stone, M. (1974) Cross-Validatory Choice and Assessment of Statistical Prediction. Journal of the Royal Statistical Society, 36, 111-147.
https://doi.org/10.1111/j.2517-6161.1974.tb00994.x

[12] Mangasarian, O.L. and Musicant, D.R. (1999) Succes-sive Over-Relaxation for Support Vector Machines. IEEE Transactions on Neural Networks, 10, 1032-1037.
https://doi.org/10.1109/72.788643

分享
Top