1、基于支持向量机的数据挖掘
支持向量机是基于统计学习理论的新一代学习机器,具有很多吸引人的特点,它在函数表达能力、推广能力和学习效率上都要优于传统的人工神经网络,在实际应用中也解决了许多问题,但由于SVM的出现比较晚,还处于发展阶段,尤其是其算法实现方面存在着效率低下的问题,这也是限制SVM很好地应用于数据挖掘中的一个瓶颈。因此设计一个快速有效的算法来处理数据挖掘中的海量数据分类是目前需要岌待解决的问题,将支持向量机扎实的理论背景和快速的算法相结合应用于数据挖掘中将会使数据的分类过程大大简化,对数据挖掘的发展会有一定的促进作用。
2、一点支持向量机的相关讨论:
(1)SVM的优势:
由于支持向量机方法是建立在统计学习理论的VC维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Accuracy)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,以期获得最好的推广能力(Generalizatin Ability)。支持向量机方法的几个主要优点是
可以解决小样本情况下的机器学习问题
可以提高泛化性能
可以解决高维问题
可以解决非线性问题
可以避免神经网络结构选择和局部极小点问题
(2)SVM的研究热点
目前,SVM算法在很多领域都有应用。例如,在模式识别方面,对于手写数字识别、语音识别、人脸图像识别、文章分类等问题,SVM算法在精度上已经超过传统的学习算法或与之不相上下。SVM主要有如下几个研究热点:
模式识别
回归估计
概率密度估计
(3)SVM的主要核函数
多项式核: (gamma*u’*v + coef0)^degree
径向基核(RBF): exp(-gamma*|u-v|^2)
Sigmoid 核: tanh(gamma*u’*v + coef0)
(4)SVM的应用
文本分类,人脸识别
三维物体识别,遥感图像分析
函数逼近,时间序列预测
数据压缩,优化SVM算法
SVM改进方法(多分类扩展,用于多现实中的多分类问题)
SVM硬件实现
(5)SVM的难点
如何在非监督模式识别问题中应用统计学习理论(SLT)
如何用理论或实验的方法计算VC维
实现结构风险最小化(SRM)时,如何选择函数子集结构
3、应用中的问题:
用支持向量机进行数据挖掘,除了上面讨论的一些关键点之外,主要需要解决下面的一些问题:
(1)传统支持向量机是做二元分类的,如何扩展为多类分类,比如预测金融风险,如果风险级别为高和低两类,用传统SVM可以很好地解决,但如果加一个或者几个风险级别,那么就需要扩展成多分类支持向量机,这方面的研究做了很多,应用还很少
(2)海量数据的计算性能问题,这是很多数据挖掘算法都会面临的问题,SVM目前在这方面要做的研究还很多。
|