机器学习统计学习理论与支持向量机算法.ppt
《机器学习统计学习理论与支持向量机算法.ppt》由会员分享,可在线阅读,更多相关《机器学习统计学习理论与支持向量机算法.ppt(105页珍藏版)》请在沃文网上搜索。
1、统计学习理论讨论的是基于数据的机器学习问题统计学习理论讨论的是基于数据的机器学习问题研究如何从一些观测数据(样本)出发得出目前尚不能通过原理分析得到的规律,即基于观测设计优化过程,然后利用这些规律去分析客观对象,对未来数据或无法观测的数据进行预测。主要任务:对于一种未知的依赖关系,以观测为基础对它进行估计。2.1 2.1 引言引言引言引言现有机器学习方法共同的重要理论基础之一是统计学现有机器学习方法共同的重要理论基础之一是统计学传统统计学研究的是样本数目趋于无穷大时的渐近理论,现有学习方法也多是基于此假设。但在实际问题中,样本数往往是有限的,因此一些理论上很优秀的学习方法实际中表现却可能不尽人
2、意。统计学习理论统计学习理论(Statistical Learning Theory(Statistical Learning Theory 或或SLT)SLT)是一种专门研究小样本情况下机器学习规律的理论 Vladimir N.Vapnik等人从六、七十年代开始致力于此方面研究,到九十年代中期,随着其理论的不断发展和成熟,也由于神经网络等学习方法在理论上缺乏实质性进展,统计学习理论开始受到越来越广泛的重视。统计学习理论是建立在一套较坚实的理论基础之上的,为解决有限样本学习问题提供了一个统一的框架。在这一理论基础上发展了一种新的通用学习方法支持向量机(Support Vector Machin
3、e或SVM),它已初步表现出很多优于已有方法的性能。2统计学习理论统计学习理论经典的统计基础存在两个理论缺陷经典的统计基础存在两个理论缺陷没有对经验风险最小化原则下统计学习的一致性进行分析,不能保证经验风险的最小值(或下确界)收敛到(或依概率收敛到)期望风险的最小值(或下确界)。大数定律描述的是一个极限过程,不对收敛速度进行分析,那么在样本数目有限的情况下,以频率代替概率(均值代替期望)并不一定能得到好的近似。2.2 2.2 统计学习理论的形成与发展统计学习理论的形成与发展统计学习理论的形成与发展统计学习理论的形成与发展针对这两个问题,统计学习理论从理论上系统地分析经验最小化原则成立的条件,建
4、立了学习过程收敛速度的界,进而提出了小样本归纳推理原则,并给出控制学习过程的推广能力的方法。到20世纪90年代,统计学习理论已基本成熟。1995年,Vapnik完成专著 The Nature of Statistical Learning Theory,这是统计学习理论走向成熟和得到正式承认的标志。围绕学习问题的一般过程统计学习理论分成从理论围绕学习问题的一般过程统计学习理论分成从理论围绕学习问题的一般过程统计学习理论分成从理论围绕学习问题的一般过程统计学习理论分成从理论向实践渐进的向实践渐进的向实践渐进的向实践渐进的4 4个部分个部分个部分个部分学习过程一致性的理论(一个基于ERM原则的学习
5、过程一致充分必要条件是什么?)一个基于经验风险最小化原则的学习过程,满足怎样的条件时,它的经验风险与实际风险趋向一致。在分类问题中存在对应的充分必要条件,而对拟合问题目前仅存在充分条件。学习过程收敛速度的理论(这个学习过程收敛的速度有多快?)如果学习过程的经验风险与实际风险趋向一致,那么它们间的接近速度随着训练样本数的增加,是如何变化的,哪些因素控制着它们接近的速度。控制学习过程泛化能力的理论(如何控制这个学习过程的收敛速度,即推广能力?)采用前两部分的结论改进学习过程,认为结构风险最小化原则,而不是经验风险最小化原则,可以使学习过程的经验风险与实际风险最终并且尽可能快地趋向一致。构造学习算法
6、的理论采用前三部分的结论(如何构造能够控制推广能力的算法?)在分类和拟合问题中构造现实的学习算法。它遵循结构风险最小化原则从而较传统算法有更好的泛化能力。支持向量机SVM是基于该理论最早实现的,也是目前最有影响的分类回归算法之一。学习过程的一致性及收敛速度学习过程的一致性及收敛速度学习过程可以一般地表示如下 设有定义在空间Z上的概率测度F(Z),考虑函数的集合Q(z,a),aL(L为任意集合,它可以为一个标量集、向量集或抽象元素集)学习的目的是最小化风险泛函 R(a)=Q(z,a)dF(z),a L (2.1)其中概率测度F(Z)未知,但给定了一定的独立同分布样本 z1,zt (2.2)这种一
7、般问题就是在经验数据(2.2)基础上最小化风险泛函(2.1)式,其中z代表了数据对(x,y),Q(z,a)就是特定的损失函数为了在未知的分布函数F(Z)下最小化(2-1)式的风险泛函,可以把风险泛函R(a)替换为经验风险泛函 (2.3)令风险泛函的最小函数为Q(z,a0),经验风险泛函的最小函数为Q(z,al)。使用经验风险(2.3)式最小的函数Q(z,al)逼近使风险(2.1)式最小的函数Q(z,a0),这一原则称作经验风险最小化(Empirical Risk Minimization,ERM)归纳原则。定义2.1 一致性:如果下面两个序列依概率收敛于同一个极限,即 (2.4)(2.5)则E
8、RM 原则(或方法)对函数集Q(z,a),aL和概率分布函数F(z)是一致的。定理2.1 设函数集Q(z,a),aL满足条件 AQ(z,a)dF(z)B (AR(a)B)那么ERM 原则一致性的充分必要条件是经验风险 Remp(a)在函数集Q(z,a),aL上在如下意义下一致收敛于实际风险R(a):(2.6)其中P为概率,则把这种一致收敛称作一致单边收敛。定义2.2 随机变量序列 ,n=1,2,(2.7)这一随机变量序列既依赖于概率测度F(z),也依赖于函数集Q(z,a),aL,称之为一个双边收敛过程。学习理论的关键定理(定理学习理论的关键定理(定理学习理论的关键定理(定理学习理论的关键定理(
9、定理2.12.1)从概念的角度看,这个定理是十分重要的,因为它指出了ERM 原则一致性的条件是必要地(和充分地)取决于函数集中“最坏”的函数的。在传统的统计学中,并没有考虑是否存在一致单边收敛的问题。一致单边收敛是在一个新概念的基础上得到的,这个新概念叫做在n个样本上函数集Q(z,a),aL的熵。定义 N(z1,zn)代表用指示函数集Q(z,a),aL中的函数能够把给定的样本分成多少种不同的分类。则称H(z1,zn)=ln N(z1,zn)为随机熵,它描述了函数集在给定数据上的多样性。考虑随机熵在联合分布函数F(z1,zn)上的期望;H(n)=E ln N(z1,zn)(其中E为数学期望),把
10、这个量称作z指示函数集Q(z,a),aL在数量为n的样本上的熵,它依赖于函数集Q(z,a),aL、概率测度以及观测数目n,反映了给定指示函数集在数目为n的样本上期望的多样性。在在在在N(z1,zn)值基础上构造两个新概念值基础上构造两个新概念值基础上构造两个新概念值基础上构造两个新概念 退火的VC 熵 生长函数 在指示函数集Q(z,a),aL可测性的一定条件下,一致双边收敛的充分条件是 (2.8)它描述了ERM 原则一致性的一个充分条件这一等式是学习理论中的第一个里程碑,所有最小化经验风险的机器都要满足这一条件。它回答了:在什么条件下,经验风险最小化的解收敛于期望风险最小化的解?等式 (2.9
11、)是风险收敛速度快的一个充分条件(必要条件尚不得而知)。这一等式是学习理论的第二个里程碑,它保证了收敛有快的渐近速度。注意:VC退火熵是对一个给定的概率测度定义的,因此这两个条件是依赖于这个概率测度的。问题:我们的目标是建立一个学习机器,使它能够解决很多不同的问题(对于很多不同的概率测度)。即:在什么条件下,不依赖于概率测度,ERM原则是一致的且同时有快的收敛速度。等式 (2.10)给出了对任何概率测度ERM 具有一致性的充分必要条件;而且,如果这个条件成立,则收敛的速度是快的。等式(2.10)就是学习理论中的第三个里程碑,它描述了在什么充分必要条件下,一个履行ERM 原则的学习机器有一个快的
12、收敛的渐近速度,而不管所用的概率测度如何(即不管所要解决的问题如何)函数集的函数集的函数集的函数集的VCVC维维维维 VC 维描述了组成学习模型的函数集合的容量,也就是说刻画了此函数集合的学习能力。VC 维越大,函数集合越大,其相应的学习能力就越强。定义2.3 指示函数集的VC维:一个指示函数集Q(z,a),aL的VC维是能够被集合中的函数以所有可能的2h种方式分成两类的向量z1,zh的最大数目h。VC维是统计学习理论中的一个核心概念,它是目前为止对函数集学习性能的最好描述指标。它的另一个等价直观的定义是:假如存在一个有h个样本的样本集能够被一个函数集中的函数按照所有可能的2h 种形式分为两类
13、,则称函数集能够把样本数为h的样本集打散。指示函数集的VC维就是用这个函数集中的函数所能够打散的最大样本集的样本数目。也就是说,如果存在h个样本的样本集能够被函数集打散,而不存在有h+1个样本集能够被函数集打散,则函数集的VC维就是h。如果对任意的样本数,总能找到一个样本集能够被这个函数集打散,则函数集的VC维就是无穷大。如在二维实数空间R2,函数集为有向直线集。则对一给定有向直线,空间中的数据点被直线分为两类。直线方向如图2.1中箭头所示,位于直线正方向一侧的数据点为一类,位于直线负方向一侧的数据点为另一类。在二维实数空间R2中,找不到有向直线集不能够打散的由三个数据点构成的点集 图2.1
14、在二维空间R2中被有向直线打散的三个点 但能找到有向直线集不能够打散的由四个数据点构成的点集 图2.2 在二维空间R2中不能被有向直线打散的四个点 因此,此二维实数空间R2中的有向直线集的VC维是3。定理2.2 任何生长函数,或者满足等式GL(n)=nln 2 或者受下面的不等式约束:其中h 是一个整数,使得当nh 时有 GL(h)=hln 2 GL(h+1)0,用以控制松弛系数在目标函数中的作用。标准 不敏感支持向量回归机可以表示为 (2.39)建立Lagrange方程:(2.40)参数 ,和 的偏导都应等于零,即 (2.41)代入式(2.38),得到对偶优化问题 (2.42)求解:(2.4
15、9)具体算法步骤具体算法步骤具体算法步骤具体算法步骤 Step1:设已知训练集 ,其中 ,;Step2:选择适当的正数 和 ;Step3:构造并求解最优化问题(2-41),得到最优解 ;Step4:构造决策函数 ,其中b由式(2-47)计算。假设非线性模型为 (2.50)则目标函数式(2-42)变为 (2.51)从而得到 (2.52)非线性非线性非线性非线性 SVMSVM算法算法算法算法 设核函数K(x,x)满足 (2.53)用K(x,x)代替运算,则都可以统一转化成如下的二次优化问题:(2.54)则式(2.33)的分类判别函数和(2-49)的函数回归方程可以分别表示如下:(2.55)(2.5
16、6)为与每个数据点对应的拉格朗日乘子,式(2.55)存在唯一解,其解 中只有一少部分的 不为0,其对应的数据就是支持向量具体算法步骤具体算法步骤具体算法步骤具体算法步骤 Step1:设已知训练集 ,其中 ,;Step2:选择适当的正数 和 ,选择适当的核函数K(x,x);Step3:构造并求解最优化问题(2-54),得到最优解 ;Step4:若是分类问题则构造决策函数(2.55),其中 ;若是回归问题则构造决策函数(2.56),其中b由式(2-47)计算。目前SVM的变形算法主要有C-SVM系列、v-SVM系列、One-class SVM、RSVM、WSVM和LS-SVM等。这些变形算法主要是
17、通过增加函数项、变量或系数等方法使公式变形,产生出有某一方面优势或一定应用范围的算法。变形的支持向量机算法变形的支持向量机算法变形的支持向量机算法变形的支持向量机算法 采用SVM方法求解最优分类问题,本质上是一个二次规划问题。对于海量数据(样本数在105106以上),常规的数值优化算法及软件已无法实现二次规划问题的求解。运行时间和计算内存是海量样本求解SVM的主要瓶颈。针对海量样本数据如何减少二次规划求解过程的计算时间和内存一直是SVM的研究热点,目前主要有以下3种方法。优化的支持向量机算法优化的支持向量机算法优化的支持向量机算法优化的支持向量机算法 Vapnik提出了求解支持向量机二次规划问
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
10 积分
下载 | 加入VIP,下载更划算! |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 机器 学习 统计 学习理论 支持 向量 算法