高分网 > 通用学习方法 > 学习方法 >

统计机器学习方法

时间: 如英2 学习方法

  统计机器学习方法一

  最近工作了一段时间,今天跟大家讨论一下关于“规则与模型”的问题。

  大家肯定都知道,机器学习方法主要分两类,一类是基于统计的方法,比如贝叶斯、KNN等,都是对数据的某种特征进行归类计算得到数据划分的依据的;另一类是基于规则的方法,比如,语义规则,语法规则或者业务规则等等,这些规则主要是根据数据本身的特征人为地对分类细节进行限定,没有什么太高深的理论,但是实用性很强。当然,我觉得还有第三种方法,就是基于统计与基于规则相结合的方法,比如关联规则,apriori方法,或者决策树方法。这些方法在分类或者求变量关系的时候本质上是基于规则分类,但是在训练过程中却是使用统计的方法的。比如apriori方法,该方法本身就是求规则的一种方法,但该方法训练的时候是需要对各种关联特征进行统计的。训练完毕后寻找强关联性的特征可以进行分类,因为我觉得找出哪些是强关联哪些不是强关联就是一个分类的过程。再比如决策树,同样的道理,决策树本身得到的那棵树就是一棵规则树,但是在寻找树的分裂属性上,无论是ID3还是C4.5,都是基于统计方法的。我认为这种通过训练出的规则进行统计分类的方法就是统计与规则相结合的方法。那么这三类方法哪些是比较有效的呢,或者说哪些是比较适合大部分数据的呢?

  我的个人理解是,没有。我们在学校里写paper,最主要的任务有三:第一,提高算法性能;第二,提高算法对数据的匹配度;第三,提高数据对算法的匹配度。举个例子来说,我用SVM对新浪微博文本做情感分析,要么改进SVM核心算法,提高分类精度;要么对SVM选取特征的方法或空间构造的方法进行改进,提高分类精度;要么就是直接改进数据特征提取方式,提高数据对分类器的匹配度。但是,不管是哪一种方法,都要满足最小泛化阈值。也就是说,对训练数据之外的测试数据的分类准确度一定要满足最低要求。我们把训练数据和测试数据的概念扩大一下,如果我们把要训练的某类数据作为训练数据,把该类别之外的数据作为测试数据,情况就完全不一样了。比如,我把微博数据作为训练数据,把短信类短文本数据作为测试数据,虽然同样都属于短文本,但泛化值出奇的低。这是因为我们无论采用哪一种方法,数据都必须是封闭的,或者说是相对封闭的。我们用分类器或者基于统计的方法,其实主要就是为了提高泛化能力,因为统计一个词的个数和一个数的个数的意义是一样的。但是现在看来,好像基于统计的方法的泛化能力还是有限。

  导致这种现象的原因是什么呢?我在刚开始学机器学习的时候就遇到一个很大的矛盾,既然SVM是最好的基于统计的分类方法,而基于统计的方法的目的就是为了提高泛化能力,为什么在使用SVM的时候还是需要去适应数据呢?在我理解,分类方法对数据适应的越多,规则成分就越多。我在最近做“技能词识别”的时候使用了各种规则,尝试了各种方法,然后我返现我犯了两个个错误,第一SVM是一种思想,不是一种具体的方法。思想本身无法使用,只有把它应用到实践才有价值;第二就是数据挖掘,或者机器学习的核心的重点永远是数据和思想的问题,没有方法的问题。因为我们选择的方法一定是要匹配数据的,目前来说这是根本;方法也是必须要符合分类某数据的核心思想的。由此我想出,无论是基于规则的方法还是基于统计的方法都是基础理论,单纯的使用基础理论是没有什么意义的,或者说只能满足很少一部分数据的。只有结合实际情况,结合多种基础理论,才能把机器学习运用到实际当中,因为我们的核心是数据,是实际情况。

  所以说,如果们分类的时候发现基于统计的方法远远不如基于规则的方法,或者反过来,并不表明哪一种方法好,而是说明某一种方法更适合目前要分析的数据。对完全不同数据类型的数据进行泛化我觉得目前来说不太现实,因为对于真实的人来说让一个人根本不懂英语的中国人去理解英文那是不可能的。当然,以后会发展到什么程度我是难以预料的,我的眼光目前也比较短浅看不到很深远的东西。但我觉得,如果某一天这种泛化能力实现了,人类将走向灭绝。

  对了,最后一点,我觉得将“基于统计的学习方法”和“基于规则的学习方法”改为“基于统计的学习思想”和“基于规则的学习思想”更好一些。

  统计机器学习方法二

  什么是感知机?

  感知机是二类分类的线性分类模型,输入为实例的特征向量,输出为实例的类别,属于判别模型。感知机1957年由Rosenblant提出,是神经网络和支持向量机的基础

  感知机的模型:

  f(x)=sign(w*x+b)

  w,b称之为感知机模型参数,w叫做权值向量,b叫做偏置

  感知机学习策略:定义损失函数并将损失函数最小化

  对于感知机而言,它采用的是误分类点到分类超平面的总距离。

  统计机器学习方法三

  机器学习和统计简史

  1946年,第一台计算机系统ENIAC研制成功,带来了巨大的变革性——使用机器进行数值计算(而不是手动使用铅笔和纸进行数值计算)。那个时候的人们的想法是人类的思考(人力资本投入)和学习方式可以转化成逻辑格式放到机器上运行。

  在上世纪50年代,阿兰·图灵,人工智能(AI)的父亲,提出了一个测试方法,以衡量机器在学习和表现上像一个人的程度。在接下来的十年里,弗兰克·罗森布莱特在康奈尔航空实验室提出了感知器的概念。这个革命性概念的中心思想是感知类似于线性分类。他指出通过大量的感知器我们可以创建一个强大的网络模型,这就是我们现在所熟知的神经网络。

  机器学习的研究发展到现在,已经成为一个高精尖的电脑工程师为之努力的领域,他们在努力探索机器是否可以学习和模仿人类大脑。机器学习如今被应用于发现数据中的价值,使用在数不清的应用中。

  统计领域大约起始于十七世纪的中期。这门学科发展的中心思想是测量实验和观测科学中的不确定性,这就是概率论的基础。从一开始,统计学提供的工具不仅是为了“描述”现象,更重要的是“解读”现象。

  有趣的是,啤酒对统计学的发展有深远的影响。这个领域中的一个基本概念:t统计量,就是由一个化验师提出的,他以此来解释大批量的吉尼斯啤酒在都柏林、爱尔兰两地售卖量的差异。t统计量和其他概念一起促进了结构化数学理论的发展,以此给出了明确的定义和法则。统计学家们开发出了大量的工具便于人们使用,提高了人们观测、排列、预测和采样的能力。

  所不同的是文化

  捕捉现实世界中的现象就是在处理不确定的事情。要做到这一点,统计学家必须理解所研究数据的潜在分布,并找出参数来提供预测。统计学家的目标就是预测有一定规律的一系列变量的相互作用(我们不可能100%确定任何事情)。在另一领域,机器学习专家则建立起一套算法,能准确的预测、分类和聚类。他们不关注不确定性和假设,而是通过持续学习的方式来提高结果的准确度。

30648