基于贝叶斯理论的支持向量机综述

温柔似野鬼°
973次浏览
2020年07月30日 14:47
最佳经验
本文由作者推荐

高考心理辅导-学雷锋做好事日记


第27卷第5期
2010年5月
计算机应用与软件
ComputerA pplications
andSoftware
V01.27No.5
Mav201 0
基于贝叶斯理论的支持向量机综述

展1
徐立霞2
江苏南京210 046)
1(解放军理工大学理学院江苏南京211101)
2(南京财经大学经济学院统计系


支持向量机(SVM)以其坚实的理论基础,和在机器学习领域表现出的良好推广 性能,获得了越来越广泛的关注。为更
好地推进其发展,科研工作者们借鉴统计学中经典的贝叶斯理论, 做了大量工作,例如:引进贝叶斯理论中先验知识、后验概率等概
念,改进支持向量机中的判别准则;或 利用贝叶斯理论估计支持向量机中的参数埘、正规化参数以及核参数等。目前已取得不错的
效果,使支持 向量机理论更具有实用价值。
关键词支持向量机贝叶斯理论先验概率后验概率
REVIEWoNSUPPoRTVECToR
M.ACHINE
BASEDoN
BAYES’ THEoREM
Su
Zhanl
XiuLixia2
7(Institute
ofScience,PLA
University
ofScience
an d
Technology,Nanjing
211101,Jiangsu,China)2(Schoot
ofEconomics,Nanjing
University
ofFinance
and
Economics,Nanjing210046,Jiang su,China)
Abstract
Support
Vector
Mach ines(SVMs)are
gettinggrowing
concerns
due
to
itssoundfoundationoftheories
as
we ll硒its
pmferable
popularising
performance
in
thefieldofmachine
learning.In
orde r
scientificand
technologicalpersonnelreferr ing
posterior
to
to
further
promote
its
development,a
lotofworkshavebeen
doingby
the
claSsical
Bayes’theorem
in Statistics.For
example,theconcepts
of
pri oriknowledge
and
to
pmbabihty
in
Ba yes’theorem
are
introduced
improve
the
judging
criterion
on
SVMs;orBayes’the orem
is
employed
to
estimate
the
parameterW,normalisation
parameter
andkerne l
parameter
of
SVMs,etc.,and
allofthes ehaveachieved
quite
satisfying
effect,whi ch
makestheSVM
theory
mol-evaluablein
practice.In
this
paper,we
Keywords
are
to
SUnllnarisetheworksdoneinthesealiaS.
Support
vector
machine
Bayes’theorem
P rior
probability
Posterior
probability
0引言
求得决策函数以石)=sgn(乏]Yid。’k(t,戈)+b‘)。
t.=-J< br>支持向量机方法的几个主要优点有:
1)它是专门针对有限样本情况的,其目标是得到现有信息< br>下的最优解而不仅仅是样本数趋于无穷大时的最优值;
2)算法最终将转化成为一个二次型寻优问 题,从理论上
(1)
说,得到的将是全局最优点,解决了在神经网络方法中无法避免
的 局部极值问题;
3)算法将实际问题通过非线性变换转换到高维的特征空
间(FeatureS pace),在高维空间中构造线性判别函数来实现原
空间中的非线性判别函数,特殊性质能保证机器有 较好的推广
能力,同时它巧妙地解决了维数问题,其算法复杂度与样本维数
无关。
由于 支持向量机坚实的理论基础以及它在很多领域表现出
的良好的推广性能,目前,国际上正在广泛开展对支 持向量机方
法的研究。一方面,他们把SVM方法用于原来的模式识别问题
中,与传统的模式识 别方法进行比较,或者用SVM对原来维数
较高的问题进行试验,另一方面,他们又在不断补充和完善< br>SVM的有关理论,或对SVM方法进行改进,增进它与其他学科
支持向量机方法”31是建立在 统计学习理论Vc维理论和
结构风险最小原理基础上的一种机器学习方法。对于已知两类
训练集 :
T={(茏1,Y1),(石l,Y2),…,(z』,),f)}∈(X×Y)‘
其中茗。 EX=R4,Yi∈Y={1,一l},i=1,2,…,2。
寻找X=R“上的一个实值函数g(x) 以便用决策函数八茗)
=sgn(g(x))推断任一模式x相对应的Y值即类别,也即求解
一 个把彤上的点分成两部分的规则。其标准算法如下:
设已知训练集如式(1)所示;
选择核函数 矗(茹,茹’)和惩罚参数c,构造并求解最优化
问题:
哑n寺荟;),tyja,丐%(Xi ,薯)一;q

州.∑,,熙=0
0≤a.≤C
i=1“2一,o
得 最优解a‘=(口l‘,a2‘,…,af+)71。
选择a’的一个小于c的正分量a,+,并据此计 算:

b‘=五一∑Y。a。’%(菇i,巧)
万方数据
收稿日期:2008 —07—14。苏展,硕士,主研领域:统计学习理论.支
持向量机。


180< br>计算机应用与软件
2010亟
的融合,许多关于SVM方法的研究,包括算法本身的改进 和算
法的实际应用,都陆续提了出来。
经典统计的出发点是,根据样本在一定的统计模型下作出
统计推断。然而,在取得样本观测值前,往往对参数统计模型中
的参数有某些先验知识,在数学 上,关于先验知识的数学描述就
是先验分布。贝叶斯统计的主要特点是使用先验分布,在得到
样 本观测值后,利用样本与先验分布提供的信息,得到后验分
布。这一后验分布综合了样本与先验信息,组 成了较完整的后
验信息,这一后验分布是贝叶斯统计推断的基础。而经典统计
只以样本提供的信 息在一定统计模型下作统计推断,且以样本
无穷大为假设条件。因此,经典统计对数量较大的样本,有较 好
的统计推断效果。贝叶斯推断由于利用了先验知识,因而对小
样本一般也有较好的统计推断效 果,这与支持向量机的特性是
共通的,所以现在许多研究都建立在如何将两者的优点有效结
合上 。
引入先验知识的支持向量机
很多情况下,人们在获取样本集的同时,往往也拥有一些对
整个样本空间适用的知识,即先验知识。在学习中引入先验知
识一般有以下三类方法:
1)修 改学习机制该方法通过对学习机制进行修改,使得
学习结果直接满足先验知识的约束,目前具有代表性的 工作有:
文献[4]通过在学习的风险函数中引入一个附加的约束项,将
辅助判据引入到学习中 去;文献[5]通过构造核函数,将映射不
变性引入到SVM学习机的核函数去。
2)虚样本方 法通过人工的方法产生一组虚样本,将先验
知识融入训练数据集中,这一方法以文献[7]在RBF网络 学习
中的工作为代表,其特点是以牺牲一部分训练时间为代价,使得
学习机器能自动从人工构建 的样本集中归纳出满足约束条件的
规则。
3)属性抽取方法通过属性抽取的方法,将输入空间的 样
本映射至新的样本空间,并使得在新的空间上的学习结果自然
满足先验知识的约束。这一部分 的研究以文献[8]的工作为
代表。
从理论上说,第一种方法无论在精度和速度上都优于后两< br>者,但是在实际问题中,对学习机制的修改往往十分困难。在
SVM中,由于支持向量机方法理论 结构十分严谨,难于将先验
知识直接融入到学习中去。而第二种方法,虽然便于实现,但是
由于 其引入了大量的人工样本,使得其后继的学习速度受到很
大的影响,以对象识别为例,仅旋转、缩放、平 移和镜像这四种映
射方式至少将初始训练集扩大16倍。另一方面,虚样本方法只
适用于映射不 变性,很难融入其他类型的先验知识。第三种方
法,采用了属性抽取的数据预处理方法,在不扩大训练集 的同
时,实现先验知识的整合,具有较高的性能。但是由于在此过程
中,训练集的规模发生变化 ,因此其训练速度远高于第二种方
法。但与第一种方法类似,同样也存在着难以构造的困难。
2 后验概率支持向量
在支持向量机中,训练样本总是具有明确的类别信息,而对
于一些不确定性问 题并不恰当。受贝叶斯决策规则的启发,利
用样本的后验概率来表示这种不确定性。将贝叶斯决策规则与
万方数据
SVM相结合,建立后验概率支持向量机PPSVM(posteriori
proba—
bilitysupport
vector
machine)的体系框架 ,得到了一个新的优化
问题,同时给出了一个支持向量的新定义。实际上,后验概率支
持向量机 是建立于统计学习理论(statistical
learning
theory)基础
之上,是标准SVM的扩展【9,10j。
对于式(1)中所给出的二分类问题,它首先提出了后验概
率意义下的线性分类器的概念:如果存在一对(训,b)E
R“×
R,使得:
』"1戈・+6>o,,i≥o
f≥i≥1
L硼r茗.+b<0
咒<0
那么菲 确定性分类问题就称为后验概率意义下线性可分。
假定我们已知样本点的后验概率,那么用后验概率作为 样本点
的权重,则得到下面非确定性二分类问题:
(xl,P(加lx1)),(z2,P(t £)2
l戈2)),…,(戈f,P(加』l
zf))∈
R“Xy
Y=[0, 1]
其中,石。独立同分布,埘,表示某一类别,P(加.I
x。)表示给定x。
条件 下属于类叫。的概率,令Y。=2p(W,h)一1。
在线性可分条件下,由于训练集中样本数目有限, 则存在
c>o,使得l埘7z.+b
・,6・),使得业
l≥cY。I,z≥i≥l。 从而存在一对
≥1,f≥i≥1成立。
Y。
明显地,如果以sign(Y。)作为类别 标签,删分类问题(1)线
性可分,当且仅当非确定性分类问题(1)是后验概率意义下线
性可 分㈨01。
此时的目标是寻找一个构造最优超平面的有效方法,寻找
最大间隔等价于解下面的优 化问题:


min÷|J卸II

s.t.y。(ttl7髫。+ 6)≥,,。2
Z≥i≥1
根据优化理论的KKT条件,得到上式的对偶优化问题:
Ⅱ un了上dtq
min÷∑d。qY,Yj(戈。,_)一∑aiy,2
眠,■)一厶
一‘J。J




s.t.∑alY。=0
n。≥02≥i≥1
设乜。‘,Z≥i≥1是对偶问题的解,我们可以得到最优超平

面所 对应的W+=∑a。+y。x。,则优化超平面八戈,Q+)=
∑d。’Yi(%z)+b+。
这种将贝叶斯理论与SVM方法相结合提出的后验概率支
持向量机,能够避免类别模糊的样本对分类器的 影响,同时对于
非确定性分类问题,后验概率支持向量机具有很强的适应性。
3贝叶斯框架下的 支持向量机估计算法
Macky在将贝叶斯推断理论应用于神经网络的设计时,将
贝叶斯推断分 为三个准则,来推断不同的参数。在支持向量机
估计算法中,参数有三类,即参数训,正规化参数以及核 参数。
同样用三个准则对这三类参数进行推断。整个推断的基础就是
贝叶斯规则:
在贝 叶斯第一准则下,标准支持向量机估计算法和最小二
乘支持向量机估计算法均可解释为对自由参数甜的贝 叶斯推
断。利用最大化参数埘的后验,即可得到参数似的最佳值。参


第5期苏展等:基于贝叶斯理论的支持向量机综述
181
数W的后验:
P(幻j。,p, Ⅳ):!生旦上弓妄鼍S学
在贝叶斯第二准则下,利用贝叶斯参数推断模型对正规化
参数0进行 推断。利用最大化参数0的后验,即可得到参数0
的最佳值。参数0的后验:
刚…耻塑端臀也< br>在贝叶斯第三准则下,支持向量机估计算法的最优核参数
选择可以看作为贝叶斯参数估计理论对核 参数的推断估计,这
可以看作模型比较的过程。利用最大化模型的后验,即可得到
核参数的最佳 值。模型的后验:
P(ⅣI
D):兰塑』壁2;(丝2
‘P(D)
贝叶斯框架 下支持向量机估计算法建模的具体步骤如下:
步骤1确定输入输出变量。
步骤2对样本数据进行 归一化。将估计问题抽象为数据
集E0,1]到数据集E0,1]的映射。
步骤3选择核函数和 支持向量机估计算法。
步骤4用样本数据对支持向量机进行训练,建立支持向
量机模型。获取支 持向量模型中的系数虢。这个过程就是执
行贝叶斯准则1的过程。
步骤5用贝叶斯准则2选择最 优化正规化参数C。
步骤6用贝叶斯准则3选择最优化核参数0。得到最优
参数模型。
步骤7应用测试集对所建支持向量机模型进行检测。
步骤8用建立好的模型进行估计和预测。
它 主要从支持向量机理论、方法和应用相结合的角度出发,
在支持向量机算法、模型选择和应用等方面进行 了研究,提出了
贝叶斯框架下的标准支持向量机估计算法,在贝叶斯框架下进
行支持向量机估计 算法的参数调整和最优模型选择。并将贝叶
斯框架下支持向量机估计算法应用于非线性系统辨识,得到了
十分有效的结果。
4总结与展望
SVM最大的优点就是简单易行,但在提高运算效率的 同
时,牺牲了一部分精确度和适应性。这三种方法都是在贝叶斯
理论的基础上,对优化SVM性 能,提高适应性等方面作出的尝
试和努力。
引入先验知识的SVM主要是在训练样本中引入先验 知识
属性,然后通过SVM方法确定判类准则。由于在引入先验知
识方面的研究还处于探索阶段 ,尚未总结出相对成熟的理论,而
且目前的方法耗时较多,真正成功应用的例子有限,所以,相对
于其他两种方法,引入先验知识的贝叶斯最不易操作。
基于后验概率的支持向量机借鉴了贝叶斯理论, 对SVM的
判类准则进行了改进,能够避免类别模糊的样本点对分类器的
影响,在非确定性分类 问题的处理上,提高了SVM的适应性。
在三者中,基于后验概率的支持向量机最易于操作。
S VM方法对核参数、正则化参数等参数比较敏感,要得到
较好的分类结果,需要对这些参数进行合理调试 。贝叶斯框架
下的支持向量机则是在参数选取上,为SVM提供一套规范的方
法。它克服了在样 本改变的情况下,需要对SVM参数进行频繁
万方数据
的手动调整的不足,大大节约了时间,同 时,由于参数选择恰当,
该方法也具有相当高的精度。因此,相对前面两种方法,贝叶斯
框架下 的支持向量机理论更为成熟、应用更广泛,且在精准度方
面显示出其卓越的性能。
在应用传统S VM理论处理问题时,只要求样本独立同分
布,不需要任何分布信息,而且统计学习理论保证其具有良好 的
泛化能力,但由于缺乏对样本基本信息的考虑,导致有时准确率
欠佳。在传统模式识别领域中 ,贝叶斯理论扮演了十分重要的
角色,但必须在概率分布是已知的条件下应用,很明显,在已知
概率密度的条件下,我们能够解决任何统计问题。二者都存在
缺陷,但如能把其优点有机结合、扬长避短 ,定是项有意义的工
作。为此,许多科研工作者作出了不懈的努力,本文就是对前人
已做工作的 总结。目前,由于SVM与贝叶斯理论的有效结合的
工作还没有形成十分有影响力的应用体系,所以尚有 许多工作
可以做。
1)由于SVM直接建筑在基于结构风险最小化的数学模型
上,结构 十分严谨,如何将先验知识直接引入到分类的学习中
去,是将来研究工作的难点,也是重点。相对于其它 两种方法,
引入先验知识的SVM方法最不完善。本人认为,如先对训练数
据集进行预处理,针 对不同类型的先验知识总结出不同的处理
方法,并逐步形成系统,将对SVM理论的发展起到很大的推进
作用。
2)基于后验概率的支持向量机方法中,一个最关键的点,
就是如何确定后验概 率。现有的方法,还停留在以两类样本
点数目为主要参考对象的经验性方法上。如果可以很好地借
鉴贝叶斯理论中确定后验概率的方法,许多延伸工作便可就
此展开。
3)参数的调整和模型选 择是支持向量机研究领域的一个
公开问题。选择优化的支持向量机参数是支持向量机设计的非
常 关键而且不可省略的步骤。将贝叶斯方法引入到支持向量机
理论中寻找最优的参数,大大丰富了SVM理 论的内涵。该领域
相对来说思路明确,理论已经较完善,以后的工作将主要集中在
如何将该理论 与实际生产生活接轨上。
参考文献
[1]Vapnik

N.统计学习理论[ M].许建华,张学工,泽.北京:电子工
业出版社,2004.
[2]Vapink

N.统计学习理论的本质[M].张学工,译.北京:清华大
学出版社.2000.
[3]邓乃扬,田英杰.数据挖掘中的新方法一支持向量机[M].北京:
科学出版社,2004.【4]Simard
P,Vietorri
B,LecunY,et
a1.Tan gentprop・formalism
for
specif-
ying
se lected
invariancein
all
adaptive
netwo rk[M]//Moody

E,Hun—
son

J.Lioom ann

P.Advances
inNeural
Information< br>Processing
Systems
4,San
Mateo.CA,1992 :895—903.
[5]Mika
S,RatschG,WestonJ,et
a1 .Invariantfeature
extraction
andelas—
sif ieation
in
kernel
spaces[M]//Solla
A,teen

K,Muller

R.
AdvancesinNeuralInformation
Processing
Systems
12,MITPress,
2000:526—532.
[6]Scholkopf

B,Simard
P,Smola
J,et
a1.Prior
kno wledge
in
support
vector
kernels[M]//J ordan

I,Keams

J.Solla
SA.Advanc es
in
Neural
information
processings,s ystems,volume10,Cambridge,MA,
MIT
Press.1
998:640—646.
(下转第193页)


第5期王晓燕等:基于人工神 经网络的出口食品加工企业检验检疫信用评价
193
表1出口食品加工企业检验检疫信用评分要 素
一级指标
二级指标属性值性质评分标准
基本情况
卫生注册年限数值型近似正 态分布
(J)
近2年出口增长率数值型线性分布
报检情况
信息准确性离散型< br>根据差错次数,发生一
次扣1分,扣完为止
(B)
预约时效性离散型
根 据违约次数,发生一
次扣1分,扣完为止
日常及定期监管离散型
根据发现严重不符合项 数,
发现一次扣1分,扣完为止
备案基地评审、年
评审监管
审、复审和日常监 管
离散型
根据发现严重不符合项数,
发现一次扣1分,扣完为止
情况(P)< br>认证评审、年
根据发现严重不符合项数,发
审和复审
离散型
现一次扣1 分,扣完为止
提供评审监管
信息真实性
离散型’
畏据发现提供虚假信息次数, 基
现一次扣1分,扣完为止
出口检验检疫批
次不合格率
数值型线性分布
检验检疫
情况(Q)
口岸查验情况离散型
根据不合格次数,发生一
次扣1分 ,扣完为止
遵守检验检
疫法规情况
离散型
根据受处罚情况:无:10,通报:
8,警告:6,罚款以上处罚:0
产品出口后
安全卫生问题离散型
根据发生次 数,发生一
次扣1分,扣完为止
国外反馈情
况(C)
非安全卫生问题离散型< br>根据发生次数,发生一
次扣1分,扣完为止
2.2人工神经网络评价过程
取lO 家出口食品加工企业的检验检疫信用数据进行实验,
根据指标体系标准化处理的方法,对选取的指标数据 进行标准
化处理,转化为[0,1]之间统一量纲的数据,以便于神经网络的
处理,生成与评估 指标体系一致的数据,处理结果见表2。
表2各评价指标模型标准数据
提供
出口
信息预约日常及
备案基地
认证评
评审检验
遵守
非安
评价< br>卫生
近2
准确时效定期监
评审、年审.蓝管检疫
口岸检验安全
全卫
指标
注册
年出
年限
口增



复审和日
审、年审
信息批欢
查验检疫
卫生
生问
长率
常监管
和复审
真实
不合
情况法规
问题

性格率< br>情况
公司l
00D髓04673
0.8

0.8
0. 9


0.625lIll
公司2
000050.4112
0.9
lI1ll
0.5
ll1l
公司3
00547
O.3 ”l
0.60.90.80.910.90.75I1
公司4
n0015
l< br>0.9
IIll05ll
公司5

000205327l10.91l lll
公司6
0.0038
O.63550.4O.8l0.9ll0.751

ll
公司7
O.0lS
0.2336
lllIl
O.∞
0.S

ll
公司8
O.00970.4486
o.9
lll
Il
0.75
Il
Il
公司9
0.1 嘶5

1869
0.7I1
0.8
0.9

0.8 75
0.90.8
l0.8
佥司1日
0.∞05O.s7仇
071O .8l1
lO.5l11
0.8
万方数据
以上实验数据以公司I~公司8的数 据作为训练数据,设
定学习速率为0.01,最大训练步数为2000,误差精度为0.00l,
对神经网络模型进行训练。用剩余的公司9、公司lO作为测试
数据,测试结果如表3所示。
表3人工神经网络测试结果
公司目标输出值实际输出值
公司9
O.58
0.4 9
公司10
O.80.74
3结束语
根据BP网络的算法思想,建立的出I- q食品加工企业信用
评估模型,通过检验检疫机构的企业检验检疫信用历史数据的
训练和学习, 调整模型各组成神经单元之间的连接权重,确定输
入输出之间的内在联系,从而使模型具备了对企业检验 检疫信
用的预测评估能力。通过该模型进行企业检验检疫信用的评
估,首先弱化了权重确定中的 人为因素,提高了评估结果的准确
性和权威性;其次应用神经网络超强的非线性处理能力,更加准
确地体现了企业检验检疫信用指标体系各要素与评估结果的关
系。因此基于神经网络建立的出口食品加 工企业检验检疫信翔
评估模型具有很大的优越性。由于实验数据较少,对于神经网
络的泛化能力 和计算精度有待进一步探讨。
参考文献
[1]陈娟,吴开微.企业资信的模糊数学评价方法[J ].工科数学,
2001.17(4):15—19.
[2]Pehonen
T.An
application
of
panel
estimation
me thods
and
artificial
neural
networks[D ].Italia:European
University
Institute,2002.
[3]王芳,侯朝桢.一种用神经网络估计网络可靠性的方法!j].北京
理工大学学报,20 03,23(2):190—193.
[4]孙颖杰,廖鲁兴,郑华.出口食品加工企业检验检疫信用评 价探讨
[】].检验检疫科学,2006,16(6):47—50.
(上接第181页)[7]Girosi,Chan
F.Prior
knowledge
andthe Creation
ofVirtual
Examples
for
RBFNet works.IEEE
Workshop
on
NeuralNetworksfor< br>Signal
Pro-
cessing,Cambridges.MA,Septemb er
1995.
[8]Segman
J,RibomsteinJ,Zeevi

Y.Thecanonicalcoordinatesmethod
for
pa ttern
deformation,Theoretical
and
computa tional
considerations.
IEEE
Transactions< br>on
Pattern
Analysis
and
Machine
Intelligence,
1992.14:117l一1183.
[9]吴高巍,陶卿,王 珏.基于后验概率的支持向量机[J].计算机研究
与发展,2005,42(2):196—202.
[10]Sollich
P,Bayesian
methods
for
support
vector
machines:Evidence
and
predictive
class
probabilities.MachineLeamin g,2002,46(1):2

—52.
[11]Kowk

T. TheEvidenceFramework
Applied
to
SupportVectorMa・
chines.IEEE
Transaction
on
Neural
network.2000.11(5):1162
—1173.
[1 2]张翔,肖小玲,徐光.支持向量机方法中加权后验概率建模方法
[J].清华大学学报,2007, 47(10):1689—1991.
[13]张尧庭.贝叶斯统计推断.北京:科学出版社,1991 .

中南大学排名-高三宣誓词


中原工学院广播影视学院-专业大全


公派留学生-数学竞赛方案


拟人句大全-广东高考报名系统入口


天津中考成绩查询-开会发言稿


生活小窍门作文-主持稿开场白


安全在我心中作文-活动工作总结怎么写


初级会计电算化-河南人事中心